Epidemiologia genética 1-Epidemiologia genética A Epidemiologia genética é o estudo da etiologia, distribuição e controlo de uma doença em grupos de fami­liares e dos determinantes genéticos de uma doença nas populações (Kaprio et al, 2000). Esta disciplina cobre uma área largada de investigação, que pode ir desde a agregação familiar da doença até à sua origem molecular. A identificação de factores genéticos de risco envolvidos na patologia em estudo e a quantificação do seu impacto na ocorrência da população em geral, são duas das suas principais finalidades. Em paralelo com o mapeamento do genoma humano e com os avanços das tecnologias moleculares, a importância das aplicações da epidemiologia genética tem-se tornado cada vez maior. Apesar da maior parte dos seus sucessos terem sido nas doenças monogénicas, nas quais a hereditariedade segue as leis de Mendel, actualmente a epidemiologia genética está cada vez mais focada nas doenças comple­xas como a diabetes, asma, doenças cardíacas ou cancro, as quais são causadas por vários factores genéticos e ambientais interactuantes (Burton et al, 2005). Neste artigo é apresentado o esquema geral para a investigação do papel de factores familiares, nomea­ damente determinantes genéticos, na etiologia de doenças complexas como é o caso das doenças cardiovasculares. Catarina Correia Licenciada em Biologia Microbiana e Genética pela Faculdade de Ciências da Universidade de Lisboa. Desde Outubro de 2004 desenvolve o seu trabalho de investigação para doutoramento no Instituto Nacional de Saúde Dr. Ricardo Jorge e no Instituto Gulbenkian de Ciência. A sua investigação centra-se nos factores genéticos de susceptibilidade para o autismo, com particular ênfase nos genes que influenciam a variabilidade de resposta a um medicamento específico observada nas crianças com autismo. Sumário 1- Epidemiologia genética 1.1- Doenças Mendelianas vs Doenças Complexas 1.2- Agregação Familiar 1.2.1- Estudos familiares 1.2.2- Estudos de gémeos 1.2.2.1- Heritabilidade 1.3- Mapeamento genético 1.3.1- Marcadores genéticos 1.3.2- Estudos de Linkage 1.3.2.1- Linkage paramétrico 1.3.2.2- Linkage não paramétrico 1.3.2.3- Rastreios do genoma 1.3.3- Estudos de associação 1.3.3.1- Estudos caso-controlo 1.3.3.2- Estudos baseados em famílias 1.3.3.3- Whole genome association 1.1- Doenças Mendelianas vs. Doenças Complexas Uma doença mendeliana é uma doença causada por uma alteração num único gene e cuja transmissão segue as razões descritas por Gregor Mendel (uma cópia de um determinado gene é herdada do pai e outra da mãe, independentemente e ao acaso com uma probabilidade de ¼ para cada genótipo). Existem vários padrões de hereditariedade mendeliana: autossómica dominante, autossómica recessiva e ligada ao sexo. Autossómica dominante é um modo de hereditariedade de caracteres genétios localizados num autossoma (um dos 22 cromossomas que não determinam o sexo) e que se manisfestam mesmo se só estiver presente uma cópia do alelo defectivo. Uma doença com herediateriedade autossómica dominante caracteriza-se por não saltar gerações. Se um progenitor for homozigótico para o alelo causador da doença, a descedência será sempre afectada mesmo se o outro progenitor não for afectado. 60 Revista Factores de Risco, Nº8 JAN-MAR 2008 Pág. 60-65 nos familiares de um probando (1º indivíduo afectado de um pedigree) e o risco da doença na população em geral (Burton et al, 2005; Maestrini et al, 1998). O padrão de variação de λR nos diferentes pares de familiares fornece informações acerca da do mecanismo genético de uma doença. Risch (1990) sugeriu que em qualquer doença causada por um gene único preponderante, o risco para os familiares diminui em cerca de metade com o aumento da distância genética. Na maior parte das doenças complexas verifica-se uma acentuada diminuição do risco para os familiares em segundo e terceiro grau, o que aponta para o envolvimento de múltiplos genes interactuantes na etiologia do autismo (Maestrini et al, 1998; Szatmari et al, 1998). λR reflecte o efeito conjunto de todas as causas de agregação familiar, não apenas os determinantes genéticos. Um elevado grau de agregação familiar pode reflectir factores ambientais comuns, mas aponta sobretudo para um envolvimento da factores genéticos (Maestrini et al, 1998). Para distinguir o efeito dos factores genéticos e ambientais que contribuem para a agregação familiar são efectuados estudos com gémeos mono e dizigóticos e estudos de adopção Exemplos de doenças com este tipo de hereditariedade são a hipercolesterolemia familiar, doença de Huntington e neurofibromatose. Um carácter recessivo, pelo contrário só se manisfesta se existirem duas cópias do alelo defectivo, ou seja se o indivíduo for homozigótico. Neste tipo de hereditariedade pais não afectados podem ter descendentes afectados, desde que ambos sejam portadores da doença. A fibrose cística, talassémia, albinismo e fenilcetonúria são alguns exemplos de doenças que apresentam este tipo de hereditariedade. Na hereditariedade ligada ao sexo, ao contrário da autossómica cada sexo tem probabilidades diferentes de expressar um carácter. O tipo de hereditariedade mais comum é o recessivo ligado ao cromossoma X. As doenças com este tipo de hereditariedade ocorrem mais frequentemente em homens, dado que estes têm apenas um cromossoma X, e são transmitidas através das mães portadoras para o filho afectado. O daltonismo e a hemofilia são dois exemplos bem conhecidos de doenças com hereditariedade recessiva ligada ao cromossoma X. Uma doença complexa é uma condição genética cujo modo de transmissão não segue as leis de Mendel. Estas doenças envolvem factores ambientais e múltiplos genes de pequeno efeito no fenótipo, em que cada um não é necessário nem suficiente para causar a doença mas predispõem para a doença. A relação entre um gene particular e a doença não é tão óbvia como nas doenças mendelianas. 1.2.2- Estudos de gémeos e estudos de adopção Os estudos de gémeos consistem na comparação da taxa de concordância para uma determinada doença em gémeos monozigóticos, os quais são geneticamente idênticos, com a taxa em gémeos dizigóticos, os quais partilham 50% dos genes por descendência. A explicação para uma maior concordância entre os gémeos monozigóticos que entre os dizigóticos são os factores genéticos, já que é assumido que os gémeos partilham factores ambientais semelhantes (Maestrini et al, 1998; Szatmari et al, 1998). Uma concordância entre gémeos monozigóticos inferior a 100% e uma diminuição acentuada nas taxas de concordância dos gémeos monozigóticos para as dos dizigóticos é inconsistente com uma transmissão autos­ sómica e implica um modo de transmissão não mendeliano, possivelmente envolvendo factores ambientais e vários genes que interactuem entre si (Szatmari et al, 1998; Maestrini et al, 1998). Outra forma de distinguir os factores genéticos dos não genéticos são os estudos de adopção nos quais é comparada a incidência da doença nos pais biológicos e afectivos e nos seus filhos biológicos e adoptivos (Kaprio et al, 2000). 1.2-Agregação Familiar O primeiro objectivo da epidemiologia genética é determinar se uma doença tem uma componente genética e qual a sua importância em relação aos factores ambientais, que vão desde o ambiente intrauterino até aos aspectos sociais. Em epidemiologia genética agregação familiar signi­fica a existência, em média, de uma maior frequência da doença em familiares próximos de indivíduos doentes do que em familiares de indivíduos que não tenham a doença. Para determinar a agregação familiar e componente genética de uma doença são necessários estudos familiares. 1.2.1- Estudos familiares Estes estudos permitam estimar a razão dos riscos de recorrência (λR) que é uma medida da agregação familiar da doença. λR é a razão entre o risco de doença 61 Epidemiologia genética 1.2.2.1- Heritabilidade As diferenças entre as taxas de concordância nestes estudos permitem estimar a heritabilidade. A heritabilidade em sentido lato é a proporção da variância atribuída a factores genéticos. A heritabilidade em sentido estrito é a proporção da variância atribuída apenas a factores genéticos aditivos (Burton et al, 2005). Este é um conceito que é definido para uma população particular num tempo determinado. 1.3- Mapeamento genético Havendo evidências de um componente genético signi­ ficativo para uma determinada doença, o próximo passo é a localização e identificação dos genes de susceptibilidade. A identificação de genes e variantes genéticas res­ pon­sáveis por doenças complexas é difícil uma vez que vários genes determinam um mesmo fenótipo. A variação ambiental é difícil de controlar e os efeitos dos genes individuais são reduzidos, o que requer amostras populacionais muito grandes para detectar uma associação. Portanto, a identificação dos genes de susceptibilidade para as doenças complexas requer estratégias diferentes das usadas no estudo nas doenças monogénicas. Existem duas abordagens diferentes no mapeamento genético: linkage e associação (Teare et al, 2005), que são usadas em diferentes etapas do estudo genético. Em doenças complexas uma vez que o mecanismo de patogénese é desconhecido e existem muitos genes can­ didatos, é usada numa primeira abordagem uma rea­­lização de rastreios sistemáticos do genoma para a detecção de linkage, usando métodos estatísticos não paramétricos com o objectivo de identificar as regiões do genoma que pos­ suam genes de susceptibilidade para a doença em causa. A análise de linkage de doenças complexas permite identificar apenas grandes regiões genómicas, mesmo utilizando mapas de marcadores muito densos. Embora possa existir um forte gene candidato na região de linkage identificada, estas regiões possuem geralmente centenas de genes, muitos dos quais são candidatos biológicos plausíveis. Para fazer o mapeamento fino dessas regiões, usam-se estudos de associação (Teare et al, 2005). 1.3.1- Marcadores genéticos Uma vasta quantidade de informação relativa ao genoma humano pode agora ser incluída nos estudos de epidemiologia genética. O mapeamento genético tem por base o estudo da cosegregação de marcadores polimór­ ficos do DNA com a doença. Um marcador genético é uma sequência de DNA que apresenta duas ou mais variantes 62 genéticas com uma frequência superior a 1% numa população, tem uma localização cromossómica específica e conhecida e é herdado segundo as leis de Mendel. Existem vários tipos de marcadores genéticos, sendo os mais importantes os microsatélites e os single nucleotide polymorphisms (SNPs) (Burton et al, 2005). Os microsatélites consistem em repetições múltiplas de uma pequena sequência de 2 a 8 nucleótidos, sendo os seus alelos distinguidos pelo diferente nº de repetições que apresentam. Os microsatélites são altamente variáveis numa população (Burton et al, 2005). Os SNPs são variações num único par de bases. O número de SNPs conhecidos no genoma humana ultrapassa os 10 milhões, e embora a sua informação seja limitada, a facilidade de genotipagem e o seu elevado número e frequência (de 1000 em 1000pb) no genoma humano fazem com que estes marcadores sejam muito vulgarmente usados nos estudos de epidemiologia genética (Burton et al, 2005, Morton et al, 2003). Mais recentemente têm-se tornado populares outro tipo de polimorfismos designados CNVs (copy number variations) que são variações de número de cópias de se­ gmentos genómicos e que contribuem consideravelmente para a diversidade do genoma humano. Estas variações incluem deleções, inserções e duplicações que vão desde 1Kb a várias Mb, levando a que dois genomas humanos possam diferir mais do que 20Mb. Cerca de 3000 genes estão associados a CNVs, levando a que existam dife­renças na expressão dos genes com deleções ou duplicações (Kehrer-Sawatzki, 2007). A variante específica de cada marcador que está presente em cada indivíduo pode ser facilmente detectada por técnicas moleculares. Em seguida, através da incor­ poração da biologia da formação dos gâmetas e da recombinação cromossómica num modelo matemático, é possível estimar se a variante causal de uma doença se localiza na proximidade de um marcador genético. 1.3.2- Estudos de Linkage O genoma humano é formado por 46 cromossomas, 22 pares homólogos de autossomas e 1 par de cromossomas sexuais. Em cada par de cromossomas homólogos um é derivado do pai e outro da mãe, e os dois têm a mesma sequência de genes nas mesmas posições, embora exibam pequenas variações em vários loci. Na formação dos gâmetas, os cromossomas homólogos emparelham e trocam segmentos entre si, um fenómeno designado por crossing-over. Cada gâmeta recebe depois ao acaso um cromossoma de cada par de cromossomas homólogos. Revista Factores de Risco, Nº8 JAN-MAR 2008 Pág. 60-65 A análise de linkage baseia-se na ocorrrência de crossing over ou recombinação durante a meiose. A frequência de recombinação entre dois loci depende da distância física e genética entre os dois. Quanto menos afastados estive­rem dois loci num cromossoma, menor será a probabilidade de serem separados por um crossing-over, pelo que alelos num pequeno segmento cromos­sómico tendem a ser transmitidos em bloco (diz-se que os dois loci estão em linkage). A fracção de recombicação (teta) (proporção de meioses em que ocorre recombinação) é uma indicação da distância genética entre dois loci (Burton et al, 2005). Se numa família um marcador segregar consistentemente com a doença, isso implica a existência de um locus de susceptibilidade para a doença na região do marcador (Teare et al, 2005). 1.3.2.2- Linkage não paramétrico Nas doenças complexas, nas quais vários genes contribuem para a doença, o modo de transmissão é geralmente desconhecido e pedigrees usados na análise de linkage paramétrico não estão disponíveis. Deste modo, são usados métodos de linkage não paramétricos, que não requerem a especificação de um modelo de transmissão, baseando-se na partilha de alelos entre os membros afectados em múltiplas famílias nucleares. Existem várias abordagens de linkage não paramétrico, a mais simples das quais é a análise de pares de irmãos afectados. Num determinado locus, o nº de alelos idênticos por des­ cendência entre dois irmãos pode ser 0, 1 ou 2. A hipótese nula é que um par de irmões partilhe num determinado locus 0 ou 2 alelos com 25% de probabilidade e 1 alelo “O primeiro objectivo da epidemiologia genética é determinar se uma doença tem uma componente genética e qual a sua importância em relação aos factores ambientais” 1.3.2.1- Linkage paramétrico A análise de linkage paramétrico baseia-se na iden­ tificação de marcadores que cosegreguem com a doença dentro de famílias, geralmente com várias gerações e indíviduos afectados. A probabilidade de linkage é esti­ mada através do valor de LOD score (Z). Este é o loga­ ritmo da probabilidade de linkage, ou seja a razão entre a probabilidade de linkage para uma dada fracção de recombinação e a probabilidade esperada assumindo que não existe linkage. Isto significa que o LOD score é diferente consoante a fracção de recombinação considerada. O objec­ tivo final é determinar qual a fracção de recombinação entre os marcadores individuais e o locus da doença ou a posição desse mesmo locus relativamente aos marcadores usados na análise. A fracção de recombinação ou posição que maximiza o valor de LOD score é a escolhida (Teare et al, 2005). Quanto mais elevado for o valor de LODscore maior é a evidência de linkage. Geralmente considera-se um Z≥3 como evidência significativa de linkage (Teare et al, 2005), enquanto valores inferiores a -2 são rejeitados. Para calcular o LOD score é necessário especificar um modelo genético para a doença, modelo esse que inclui a frequência do alelo causador da doença, frequências alélicas do marcador genético, o modo de transmissão e a penetrância. com 50%. As proporções de pares de irmãos que partilham 0, 1 ou 2 alelos num locus candidato podem ser compa­ radas com as probabilidades esperadas, com o objectivo de identificar marcadores para os quais os pares de irmãos afectados partilhem alelos idênticos por descendência mais frequentemente que o esperado. No entanto, estes métodos são pouco robustos e têm pouco poder para detectar genes de efeito menor (Teare et al, 2005, Maestrini et al, 2000; Elston and Thompson, 2000; Ott, 1999). 1.3.2.3- Rastreios do genoma Na ausência de fortes genes candidatos e anomalias cromossómicas que apontem regiões específicas do genoma, a estratégia de análise genética mais correcta nas doenças complexas é a realização de rastreios sistemáticos do genoma para a detecção de linkage, usando métodos estatísticos não paramétricos. Estes rastreios são possíveis graças à disponibilidade de mapas genéticos densos de microsatélites altamente informativos, ao desenvolvimento de tecnologia de genotipagem semi-automática e à elaboração de abordagens estatísticas especializadas. Para a detecção de loci de susceptibilidade num típico rastreio do genoma, a pesquisa decorre em duas fases. Numa primeira fase de rastreio deveriam ser, idealmente, 63 Epidemiologia genética analisadas pelo menos cerca de 100 famílias e é geralmente utilizada uma colecção de cerca de 300 microsatélites com uma separação de 10-20 centimorgans (cM). Toda a informação é usada para calcular valores de LOD scores máximos (MLS) (Maximum Lod Score) em cada ponto do genoma. Na segunda fase, cada área de interesse com um MLS> 1 é investigada recorrendo a mais marcadores (idealmente dois marcadores a flanquear o marcador de interesse). Um aumento do número de famílias é necessário para a replicação dos resultados sugestivos de linkage (MLS>3 ) na primeira fase (Maestrini et al, 1998). 1.3.3- Estudos de associação Os estudos de associação examinam a co-ocorrência de um marcador e de uma doença a nível populacional. A associação difere do linkage no sentido em que o mesmo alelo está associado com a doença de forma semelhante em toda a população, enquanto no linkage diferentes alelos podem estar associados com a doença em diferentes famílias (Cordell & Clayton, 2005). Os estudos de associação baseiam-se no desequilíbrio de linkage. Dois loci dizem-se em equilíbrio de linkage quando numa população estão presentes igualmente todas as combinações possíveis dos alelos desses loci. Quando umas dessas combinações está presente mais frequen­ temente do que seria de esperar por associação aleatória, significa que os loci estão em desequilíbrio de linkage. Em geral dois loci em desequilíbrio de linkage estão em linkage, mas o contrário nem sempre é válido. Dois loci dizem-se em linkage se durante a meiose, a recombinação entre eles ocorre com uma probabilidade inferior a 50%. Por outro lado, de cada vez que ocorre uma recombinação entre dois loci, o desequilíbrio de linkage entre eles enfraquece e só se mantém se os dois estiverem muito próximos. Desta forma, o linkage estende-se por regiões muito maiores do que o desequilíbrio de linkage (Teare et al, 2005; Cordell & Clayton, 2005), daí que os estudos de associação sejam usados para fazer o mapeamento fino de regiões previamente identificadas por linkage ou para testar genes candidatos. O poder dos estudos de associação para detectar genes de pequeno efeito é maior do que o da análise de, no en­­tanto requer a genotipagem de um maior número de marcadores. Numa população a associação entre um marcador genético e um dado carácter pode ocorrer por três razões: a) o marcador é a variante causal na doença (associação directa); b) o marcador está em desequilíbrio de linkage com a variante causal da doença ou c) a associação é 64 devida a um fenómeno de estratificação populacional (Cordell & Clayton, 2005). A estratificação populacional é a existência numa população de diferentes subgrupos com diferentes frequências alélicas do marcador e dife­ rente incidência da doença em estudo, pelo que qualquer locus que apresente frequências alélicas diferentes entre as subpopulações estará associado à doença, quer esteja ou não próximo de uma variante causal (Donahue et al, 2005; Cordell & Clayton, 2005). 1.3.3.1- Estudos caso-controlo As estratégias de associação comparam indivíduos afectados não relacionados e indivíduos não afectados de uma população e testam se um determinado alelo ocorre numa frequência significativamente diferente nos dois grupos. Um dos principais problemas dos estudos de associação caso-controlo é a estratificação populacional. (Donahue et al, 2005). Desta forma é fundamental que a amostra de controlos reflita a composição étnica e genética da amostra de pacientes. Deve ser feito o matching entre os pacientes e controlos em relação a factores como a idade, sexo, etnia, etc. Uma forma de ultrapassar o problema da estratificação populacional é usar populações geneticamente homogéneas, como isolados. Outra alternativa é o chamado controlo genómico, que permite controlar o número de falsos positivos aumentando o treshold necessário para se considerar uma associação significativa, através da genotipagem de um elevado número de marcadores espaçados ao longo do genoma (Cordell & Clayton 2005; Donahue et al, 2005). 1.3.3.2- Estudos baseados em famílias Para ultrapassar o problema da estratificação populacional, podem-se ainda recorrer a testes de associação baseados em famílias, os quais utilizam como um controlo interno os alelos dos pais que não foram transmitidos para a descendência afectada. Um desses testes é o TDT (transmission desequilibrium test) que verifica se um alelo de um marcador é transmitido por um pai heterozigótico para um filho afectado um número de vezes significativamente mais elevado do que o número de vezes que não é transmitido (Dean, 2003; Maestrini et al, 1998). 1.3.3.3- Whole genome association Uma extensão lógica dos estudos de associação de genes candidatos são os estudos de associação do genoma inteiro. Uma vez que existe desequilíbrio de linkage subs­ Revista Factores de Risco, Nº8 JAN-MAR 2008 Pág. 60-65 tancial ao longo de todo o genoma humano, muitos genes podem ser representados por um pequeno número de haplótipos. Se um conjunto de marcadores espalhados ao longo do genoma for genotipado, podem ser identificadas associações alélicas sem o conhecimento prévio da biologia da doença ou da função dos genes relevantes. Estima-se que estes estudos utilizem mais de 500 000 SNPs e milhares de indivíduos, tornando o seu custo proi­ bitivo. O desenvolvimento das tecnologias de genotipagem permitirá diminuir o custo destes estudos, mas até lá os rastreios de linkage continuam a ser economicamente mais vantajosos. Referências Burton PR, Tobin MD, Hopper JL (2005). Key concepts in genetic epidemiology. Lancet 366(9489):941-51. Cordell HJ, Clayton DG (2005). Genetic association studies. Lancet 366(9491):1121-31. Dawn Teare M, Barrett JH (2005). Genetic linkage studies. Lancet. 366(9490):1036-44. Dean M (2003). Approaches to identify genes for complex human diseases: lessons from Mendelian disorders. Hum Mutat 22(4):261-74. Conclusão Para o mapeamento de doenças complexas nenhum método por si só é suficiente ou ideal. Uma análise conjunta de linkage e associação terá uma eficiência maior que qualquer dos métodos isoladamente. O pooling de DNA, tecnologias de chips de DNA e tecnologias de genotipagem em larga escala permitirão uma cobertura mais densa de marcadores e uma maior eficiência em relação ao custo. O desenvolvimento de novas técnicas de análise estatística, como estratégias de linkage multilocus que examinem o risco conferido por múltiplos genes ao longo do genoma simultaneamente, bem como modelos que incorporem a interacção dos efeitos de factores genéticos e não genéticos, serão uma ajuda crucial no mapeamento destas doenças. O estabelecimento de colaborações que permitam aumentar o tamanho das amostras e uma caracterização clínica mais eficaz da população através de procedimentos standard serão necessários para o sucesso destes estudos. Depois de encontradas as variantes genéticas associadas à doença haverá ainda um longo caminho a percorrer. A caracterização de todas as proteínas e das suas variantes irá fornecer uma ajuda preciosa para a compreensão das variantes genéticas que forem encontradas e serão necessários ensaios funcionais para compreender o papel dessas variantes genéticas. Donahue MP, Allen AS (2005). Genetic association studies in cardiology. Am Heart J 149(6):964-70. Elston, R.C., A.T. Thompson (2000) A century of Biometrical Genetics. Biometrics 56: 659-666 Kaprio J (2000). Science, medicine, and the future. Genetic epidemiology. BMJ 320(7244):1257-9. Kehrer-Sawatzki H (2007). What a difference copy number variation makes. Bioessays. 29(4):311-3. Maestrini, E., Marlow, .J., Weeks, D.E., Monaco, A.P. (1998). Molecular Genetic Investigations of Autism. Journal of Autism and Developmental Disorders 28(5):427- 437 Maestrini, E., A. Paul, A. P. Monaco and A. Bailey (2000). Identifying autism susceptibility genes. Neuron 28 (1): 19-24. Morton NE. (2003). Genetic epidemiology, genetic maps and positional cloning. Philos Trans R Soc Lond B Biol Sci 358(1438):1701-8. Ott, J. (1999) Analysis of Human Genetic Linkage. The Johns Hopkins University Press, 3rd edition Catarina Correia Szatmari P., Jones M.B., Zwaigenbaum L., MacLean J.E. (1998). Genetics of Autism: Overview and New directions. Journal of Autism and Developmental Disorders 28(5):351- 368 65