Capítulo 3 Processos de Estimação das Frequências Gênicas Populações Biológicas Uma espécie de reprodução sexuada pode ser compreendida como um grupo de indivíduos que se intercuzam naturalmente. Boas Espécies são aquelas populações isoladas reprodutivamente. Uma unidade caracterizada como população biológica é um grupo de indivíduos de uma mesma espécie vivendo em uma mesma área geográfica. O estudo genético de populações biológicas pressupõe condições mais gerais sobre as populações diplóides de reprodução sexuada em estudo para se estabelecer os processos de estimação dos parâmetros populacionais. As situações de espécies haplóides, poliplóides, de reprodução assexuada são tratadas como casos particulares. Genética de populações Luiz Alberto dos Santos Monjeló As condições gerais são: 1. Cruzamento ao Acaso. Ocorre quando cada cruzamento ocorre independente do genótipo de cada indivíduo da população. Cada indivíduo tem a mesma chance de contribuir na descendência como qualquer outro na população. Uma população com cruzamento ao acaso é denominada População Panmítica. 2. Tamanho Infinito. As populações em estudo devem ser grandes o bastante para que o erro de amostragem seja desprezível. Um modelo geral considera a população que preencha essas duas condições, caracterizada como População Mendeliana.. O Princípio de Hardy-Weinberg Um gene dominante pode ocorrer em baixa freqüência numa população? Ou por outro lado a ocorrência de um gene de baixa freqüência em uma população pode indicar que é recessivo? Não parece lógico entendermos que um gene com baixa freqüência em uma população seja necessariamente recessivo. Essa indagação pode ser melhor avaliada através do seguinte problema: Em uma população de cobras a alta freqüência de espécimens com listas pretas indica que esta característica é determinada por um gene dominante? 2 Genética de populações Luiz Alberto dos Santos Monjeló Parece que esta condição não nos permite concluir sobre o tipo de herança. A baixa freqüência de um gene em uma população indica que a maior parte dos cruzamentos ocorre entre indivíduos que não devem portar esse gene e portanto a maior parte dos descendentes não apresenta a característica relacionada a esse gene porque simplesmente não possui o gene! Hardy, em 1908 em uma correspondência enviada ao Science (vol.XXVIII:49-50), discute as proporções mendelianas numa população mista. Hardy, contra-argumenta críticas de Yule feitas no Proceedings of the Royal Society of Medicine (Vol 1,p 165). Nesse trabalho, Yule ponderava que se a braquidactilia fosse dominante, no curso do tempo e na ausência de fatores atuando, seria esperada uma proporção de 3 braquidáctilos para cada pessoa normal. Hardy, em sua correspondência, prova que tal expectativa é totalmente errada e apresenta o conceito de frequências genotípicas esperadas no equilíbrio. Supondo que estejamos estudando uma população diplóide de reprodução sexuada com cruzamento ao acaso, se nenhum fator estiver contribuindo para a mudança nas frequências gênicas de geração para geração, sendo p a frequência do alelo A1 e q a frequência do Alelo A2 para um determinado locus gênico nessa população, na próxima geração 3 Genética de populações Luiz Alberto dos Santos Monjeló teremos as seguintes frequências genotípicas esperadas: p2 A1A1 , 2pq A1A2 e q2 A2A2. Essas frequências genótípicas esperadas, são obtidas a partir da combinacão aleatórea de gametas de machos e fêmeas, conforme mostrado na Tabela abaixo. G. H. Hardy, matemático inglês e W. Weinberg, físico alemão, de maneira independente, em 1908, chegaram às mesmas conclusões sobre o equilíbrio gênico: Quando nenhum fator estiver atuando para causar alteração nas frequência gênicas de geração para geração, está estabelecido o equilibrio das frequência gênicas que permanecem então, constantes de geração a geração. Nessas condições, q = qi - qi-1 = 0, as frequências genotípicas esperadas no equilíbrio, na próxima geração serão: p2 A1A1 , 2pq A1A2 e q2 A2A2. A probabilidade de ocorrência de um dado genótipo tem portanto nesse caso uma distribuição binomial. O modelo de combinação de alelos na produção de genótipos pode ser expressa pela igualdade: (p+q)2 = p2 + 2pq + q2 = 1. O Estado de Equilíbrio Gênico nas Populações 4 Genética de populações Luiz Alberto dos Santos Monjeló Uma das propriedades do equilíbrio em uma população mendeliana, para um loco autossômico com dois alelos (A1 e A2), pode ser obtida algebricamente quando dispomos frequências no intervalo de 0 a 1 para ambos os alelos e estimamos as frequências esperadas dos heterozigotos: pA1 qA2 2pq 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 1 0 0.18 0.32 0.42 0.48 0.5 0.48 0.42 0.32 0.18 0 2pq 2 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 q Frequência de heterozigotos (2pq), correspondente a cada valor a frequência alélica de A2 (q). Verificamos assim que o valor máximo de heterozigotos em uma população em equilíbrio é 0.5. Podemos realizar essa demonstração analiticamente considerando que a derivada de uma função no ponto máximo é igual a zero. d 2pq e = 0 no ponto máximo, obtendo essa derivada, dq d 2q - 4q2 d 2 (1-q) q = dq = 2 - 4q = 0, assim dq 5 Genética de populações Luiz Alberto dos Santos Monjeló 4q = 2 p = q = 0.5, e 2pq no ponto máximo = 0.5 Consideremos o caso mais simples de um loco autosssômico com dois alelos A1 e A2 em uma população mendeliana. Supondo que a frequência do alelo A1 seja p e a do Alelo A2 seja q, vejamos qual será a frequência esperada de cruzamentos aleatóreos possíveis nessa população, considerando os três genótipos A1A1, A1A2 e A2A2: Machos 2 p A1A1 p2 A1A1 Fêmeas 2pq A1A2 q 2 A2A2 p4 2p3q p2q2 2pq A1A2 2p3q 4p2q2 2pq3 q 2 A2A2 p2q2 2pq3 q4 Considerando uma população mendeliana com as frequências totais para cada tipo de cruzamento já determinadas na tabela anterior, podemos então prever as frequências esperadas de descendentes na próxima geração inclusive para cada tipo de cruzamento possível nessa população, demonstrando-se com cruzamentos aleatóreos, que as frequências genótipicas de A1A1, A1A2 e A2A2, esperadas na próxima geração serão exatamente: p2, 2pq e q2. Podemos assim concluir que as frequências genotípicas da próxima geração no equilíbrio em uma população 6 Genética de populações Luiz Alberto dos Santos Monjeló mendeliana dependem exclusivamente das frequências gênicas da geração anterior. CRUZAMENTOS FREQUÊNCIA DESCENDENTES p2 A1A1 2pq A1A2 q 2 A2A2 1 A1A1 x A1A1 p4 p4 - - 2 A1A1 x A1A2 4p3q 2p3q 2p3q - 2 A1A1x A2A2 2p2q2 - 2p2q2 - 1 A1A2 x A1A2 4p2q2 p2q2 2p2q2 p2q2 2 A1A2 x A2A2 4pq3 - 2pq3 2pq3 1 A2A2 x A2A2 q4 - - q4 Total 1.0 p2 2pq q2 p4 + 2pq3 + p2q2 = p2 ( p2 + 2pq + q2) = p2 2p3q + 4p2q2 + 2pq3 = 2pq (p2 + 2pq + q2) = 2pq p2q2 + 2pq3 + q4 = q2 ( p2 + 2pq q2) = q2 Podemos também demonstrar numericamente, utilizando as informações da tabela acima, para uma população mendeliana que não esteja em equilíbrio, que se nada alterar as suas frequências gênicas, a partir dessa geração, o equilíbrio gênico será alcançado imediatamente na próxima geração, ou seja teremos as frequências genotípicas esperadas no estado de equilíbrio segundo o princípio de Hardy-Weinberg. Seja uma população mendeliana com p=0.4 e q=0.6, em que as frequências observadas de A1A1 seja 0.05, a frequência de heterozigotos A1A2 seja igual a 0.70 e de 7 Genética de populações Luiz Alberto dos Santos Monjeló A2A2 seja 0.25. A frequência de heterozigotos observada indica que a população não está em equilíbrio, pois está acima de 0.5. CRUZAMENTOS FREQUÊNCIA DESCENDENTES A1A1 A1A2 A2A2 = 0.0025 0.0025 - - 2 A1A1 x A1A2 2 x 0.05 x 0.70 = 0.0700 0.0350 0.035 - 2 A1A1x A2 A2 2 x 0.05 x 0.25 = 0.0250 - 0.0250 - 1 A1A2 x A1 A2 0.70 x 0.70 = 0.4900 0.1225 0.2450 0.1225 2 A1A2 x A2 A2 2 x 0.70 x 0.25 = 0.3500 - 0.1750 0.1750 1 A2A2 x A2 A2 0.25 x 0.25 = 0.0625 - - 0.0625 0.16 0.48 0.36 1 A1A1 x A1A1 0.05 x 0.05 Total 1.0000 Os resultados da tabela acima mostram que em uma população mendeliana, mesmo que tenha sido originada em condições fora do equilóbrio para um determinado loco com dois alelos como no exemplo dada, essa população sem mudança nas frequências gênicas atingirá imediatamente o equilíbrio na próxima geração, apresentando as frequências de genótipos segundo o princípio de Hardy-Weinberg, p2 (0.16); 2pq (0.48) e q2(0.36). Caso: Um loco Autossômico com dois Alelos Codominantes 8 Genética de populações Luiz Alberto dos Santos Monjeló A maioria dos organismos estudados pertencem a espécies cujos indivíduos possuem em suas célula somáticas duas cópias de cada cromossomo e possuem vários cromossomos (macro e micro- cromossomos), sendo cada par diferenciado pelo comprimento total, comprimento de cada um dos dois braços, posição do centrômero, etc. Essas populações são por isso chamadas diplóides, representadas por 2n cromossomos. Existem ainda espécies cujas células somáticas de cada indivíduo possui um único cromossomo de cada tipo, essas espécies são chamadas de haplóides e são representadas por n cromossomos, outras espécies ainda possuem em seu cariótipo cada tipo cromossômico representado mais de duas vezes, são espécies poliplóides (triplóides 3n; tetraplóides - 4n, etc.). Nos organismos diplóides estudados esses cromossomos são constituídos de DNA associados a nucleoproteinas básicas as histonas e às ácidas chamadas de não histonas. Uma grande parte do DNA dessas espécies tem função desconhecida ainda, entretanto parte da sequência desse DNA codifica para produtos finais como RNA e proteinas. Essas sequências que codificam produtos específicos são denominados genes e a região onde estão localizados correspondem aos loci gênicos. Para uma mesma região (locus) podem ocorrem variações nas sequências do 9 Genética de populações Luiz Alberto dos Santos Monjeló DNA correspondendo a diferentes alelos de um mesmo gene. A origem dessa variação na sequência do DNA ou de novos alelos é caracterizada por mutação gênica e explicada por diferentes mecanismos ao nível molecular, através da substituição de nucleotídeos de mesma tipo de base (purinas por purinas ou pirimidinas por pirimidinas) constituindo o que é chamado de transição ou através da substituição de diferentes tipos de bases (purinas por pirimidina ou vice-versa), constituindo o que é chamado de transversão. O processo de estimação das frequências gênicas para o caso de um loco autossômico com dois alelos codominantes, A1 e A2, é o caso mais simples de estimação e pode ser utilizado na prática em estudos de levantamento da variabilidade genética de populações naturais. Alelos codominantes são aqueles que contribuem igualmente na produção do fenótipo. As proteinas, chamadas por Zuckerkandl de moléculas semantoforéticas, por fornecerem de maneira indireta a informação sobre a constituição genética, são formadas na sua estrutura tridimensional pelo enrolamento de cadeias de amino ácidos, únicas ou combinadas e nesse último caso, iguais ou diferentes nas sua sequênica, ligadas ou não a grupos prostéticos. A sequência de amino ácidos, ou estrutura primária de 10 Genética de populações Luiz Alberto dos Santos Monjeló uma proteina, de cada cadeia que a compõe é produzida através da leitura de um m-RNA ou RNA mensageiro ligado a ribosomas através de uma série de reações bioquímicas que constitui a síntese proteica nas células, seja no citoplasma seja nos mitocondrias. Essas proteinas podem portanto ser o resultado do enrolamento de um único tipo de cadeia de aminoácidos, chamadas de monômeros, e podem resultar do enrolamento de duas cadeias produzindo os dímeros ou podem resultar do enrolamento de 4 cadeias formando os tetrâmeros. O estudo da variabilidade do padrão eletroforético de proteinas com atividade catalítica, chamadas enzimas, permitiu um levantamento do grau da variabilidade em populações naturais nas décadas de 1960 e 1970 alterando os conceitos até então vigentes de que populações naturais eram pouco variáveis, isso baseado em características morfológicas. Verificou-se inclusive a existência de espécies similares morfologicamente mas com grande diferença nos níveis de variação para locos de alozimas e em outras características como comportamento, isolamento reprodutivo, chamadas de espécies cripticas. O levantamento de alozimas permitiu reconhecer que enzimas de ciclos metabólicos eram mais conservativas como algumas desidrogenases, alfa glicero fosfato desidrogenase, glicose 6 fosfato desidrogenase que enzimas periféricas como hidrolases 11 Genética de populações Luiz Alberto dos Santos Monjeló (esterases), fosfatases ( fosfatase alcalina, fosfatase ácida), catalases, etc., muito mais variáveis. Essas técnicas modernas de estudos de características genéticas como as técnicas moleculares para identificação eletroforética de enzimas (alozimas) permitem demonstrar que uma enzima dimérica pode ser resultante do enrolamento de duas cadeias de aminoácidos iguais, produzindo um único tipo de banda eletroforética (genótipo homozigoto) e nos indivíduos heterozigotos por possuírem dois alelos diferentes que codificam dois tipos de cadeias de aminoácidos, há a probabilidade de ocorrer o enrolamento de duas cadeias iguais codificadas a partir de cada um dos dois alelos, produzindo duas bandas, ou também há a probabilidade do aparecimento de uma banda intermediária pelo enrolamento de duas cadeias de amino ácidos diferentes, produzindo três bandas eletroforéticas. A figura a seguir mostra o padrão eletroforético de indivíduos homozigotos e heterozigotos para uma enzima. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 9 20 21 22 padrão eletroforético de ADH para 22 indivíduos amostrados de uma população. 12 Genética de populações Luiz Alberto dos Santos Monjeló Os indivíduos 7,12,14,15,17,19-22, yem a banda mais rápida somente, determinada pelo alelo F e são portantos homozigotos FF. Os indivíduos 1,3,5,11 e 13 tem as duas bandas (rápida e lenta) possuem portanto os alelos F e S e são heterozigotos FS. Os indivíduos 2,4,6,810,16 e 18 apresentam somente a banda lenta F e são assim homozigotos SS. Para enzimas teraméricas como as lactato desidrogenases verificouse que havia uma associaçào preferencial de sub-unidades de acordo com o orgão ou tecido do indivíduo. Outro tetrâmero a Hemoglobina é codificada pelo enrolamento de dois tipos de cadeias duas a duas. Na espécie humana, na fase adulta predomina uma hemoglobina formada pelo enrolamento de duas cadeias alfa e duas cadeias beta cada uma determinada por alelo de um loco diferente. Quando ocorre uma mutação no alelo do loco que forma a cadeia beta podemos ter a formação da hemoglobina S, que na hemácea condiciona uma diferente tensão de oxigênio dando não mais a forma oval da hemácea mas uma forma de meia lua, tornando a hemácea frágil e rompendo-se facilmente. Na figura abaixo mostramos como por eletroforese podemos distinguir essa forma de hemoglobina. 13 Genética de populações Tipos de HB Luiz Alberto dos Santos Monjeló SeA S A ORIGEM GENÓTIPO FENÓTIPO siklemia/ normal siklemia normal eletroferograma com amostras de hemoglobina de 3 tipos fenotípicos Outras técnicas moleculares bem mais recentes, como a RFLP de DNA, (polimorfismo de comprimentos de fragmentos de restrição de DNA), permitem a detecção de alelos codominantes. Os fragmentos de restrição de diferentes comprimentos reconhecidos por um gene probe, são dimórficos e codominantes por consequência: a partir de um fragmento radiativo de dupla hélice de DNA, são produzidas duas cópias de DNA simples radiativo de ambas a cadeias do fragmento marcado, para serem 14 Genética de populações Luiz Alberto dos Santos Monjeló usados como moléculas prova ou probes. O DNA probe que hibridiza ao final 5'do gene da beta globina humana mostrado no diagrama abaixo, pode ser um exemplo. Foi utilizado para identificação das peças de RFLP a partir de membros de uma família humana, na qual a hemoglobina S (HbS) que produz a anemia falciforeme ou siklemia , estava segregando. O alelo para a hemoglobina normal (HbA) é cortado em três pontos por uma enzima de restrição conforme indicado no diagrama abaixo. A mutação que produz HbS, destrói um sítio interno de restrição assim que o gene da HbS só é cortado em dois pontos. Assim o probe hibridiza para 1.15 KB de fragmento de DNA de Hb A e hibridiza com 13.5kb de fragmento de DNA de HbS. LOCALIZAÇÃO DOS SÍTIOS DE RESTRIÇÃO 15 Genética de populações Luiz Alberto dos Santos Monjeló Diagrama do padrão genotípico codominante de indivíduos homozigotos e heterozigotos A/A,A/S e S/S quanto a produção de Hemoglobina A (Normal) e Hemoglobina S. No diagrma estão indicados a localização dos sítios de restrição doa alelos A e S da cadeia beta de Hemoglobina e um heredograma com o padrão de genótipos de RFLP de pais e descendentes. Estimadores de Verossimilhança para as frequências de dois codominantes em um loco autossômico: alelos São chamados de estimadores estatísticos M.L. (de Verosimilhança Máxima) ou Maximum Likelihood Estimators. Esses estimadores são quase sempre suficientes, quase sempre eficientes e frequentemente os mais eficientes e são usualmente (mas nem sempre) consistentes e não viesados, alem disso eles permitem um modo de calcular a variância da estimativa. Essa variância não é exata mas uma aproximação da variância 16 Genética de populações Luiz Alberto dos Santos Monjeló verdadeira. Esse é um aspecto de importância porque a variância permite calcular um intervalo de confiança para as estimativas obtidas. A principal desvantagem de uma abordagem M.L. deve-se ao fato que as equações geradas por essa técnica são geralmente complicadas e em muitos casos não podem ser resolvidas analiticamente. Um bom exemplo é a estimação das frequências para alelos múltiplos de grupos sanguíneos humanos do Sistema ABO. Para esse loco ocorrem na população humana, pelo menos três alelos. Nesse caso as equações de M.L. não foram ainda resolvidas analiticamente! O procedimento para estimação de M.L. é melhor ilustrado para o caso apresentado ao lado de um loco autossômico com dois alelos codominantes A1 e A2. Segundo Hardy-Weinberg as probabilidades que qualquer indivíduo na amostra sejam A!A1, A1A2 ou A2A2 serão p2, 2pq ou q2 respectivamente. Observe-se que o parâmetro a ser estimado é a frequência gênica na população. Designemos esse parâmetro p, onde q = 1 - p. Teremos um só parâmetro a estimar; o outro é obtido diretamente pela subtração de 1. Esse parâmetro p será estimado a partir da informação contida na amostra populacional, essa estimativa é então designada por p̂ . GENÓTIPOS 17 Genética de populações Luiz Alberto dos Santos Monjeló N0 Total A1 A1 A1 A2 A2A2 300 200 100 500 A B C N seja p a frequência do alelo A1 e q a frequência do alelo A2, então p + q = 1.0 2 x 300 p= 1 x 200 + 2 x 500 + 2 500 300 = 2 x 500 = 0.8 500 1 x 200 + 2 x 500 1 200 = 2 x 500 2 x 100 q= 300 1 200 + 500 = 0.2 2 500 A frequência obtida a partir de 300/500 e 100/500 indivíduos , são as respectivas frequências dos genótipos homozigotos e 300/ 500 é a frequência dos genótipos heterozigotos. 18 Genética de populações Luiz Alberto dos Santos Monjeló Assim a frequência de um alelo pode ser expressa como igual a soma da frequência de genópios homozigotos mais 1/2 da frequência de genótipos heterozigotos! A Fórmula Geral para estimação de p e q: p = (2A + B) / 2N = A/N + 1/2 B/N q = (2C + B) / 2N = C/N + 1/2 B/N G1 = A/N é a frequência genotípica de A1A1; H = B/N é a frequência genotípica dos heterozigotos A1 A2; G2 = C/N é a frequência genotípica de A2A2. p = G1 + 1/2 H q= G2 + 1/2 H Se as probabilidades que qualquer indivíduo seja A1A1, A1A2 ou A2A2 são aquelas esperadas segundo o princípio de Hardy - Weinberg, a probabilidade que nossa amostra contenha exatamente A indivíduos do 19 Genética de populações Luiz Alberto dos Santos Monjeló tipo A1A1, B indivíduos do tipo A1A2 e C indivíduos do tipo A2A2, será dada por: N! ( p2)A (2pq)B (q2)C L = A! B! (1) C! Esse é um termo da distribuição multinomial (trinomial). Isto porque pressupõe-se que : O genótipo de qualquer indivíduo na amostra é completamente independente de qualquer outro. Os dados são discretos. A maioria dos dados encontrados em genética de populações tem essas características e isso permite uma abordagem do M.L. com maior facilidade.. A equação dada em (1) acima é conhecida como a Verossimilhança ("Likelihood") e é abreviada por "L" ou "L(.)" onde "(.)" representa o argumento neste caso "L(p)". Poderia ser questionado se L é realmente uma probabilidade, assim porque não a chamamos de probabilidade? Em senso isto é verdade, mas é chamada de Likelihood porque queremos variar os argumentos (p) da função até que ela seja maximizada. Se isso fosse probabilidade, os 20 Genética de populações Luiz Alberto dos Santos Monjeló argumentos seriam parâmetros e como tais constantes incapazes de variar. L neste caso é uma função da frequência gênica p e como tal nós queremos maximizá-la, isto é maximizar nossas chances de tirar uma amostra onde A indivíduos sejam do tipo A1A1, etc. Consideremos o seguinte exemplo de amostra: com tamanho = 4 indivíduos: 4! (p2)1 (2pq)2 (q2)1 L= 1! 2! 1! Podemos então calcular L para L= (12) (4) p4diferentes q4 = 48 valores p4 q4 de p: L p = q = 0.5 p = 0.4 p = 0.7 dL/ dp = 0 no ponto máximo 0.18750 0.15925 0.09335 (2) 21 Genética de populações Luiz Alberto dos Santos Monjeló O máximo de L ocorre com p=0,5. Para obter o ponto máximo de p podemos fazer isso usando um cálculo simples, determinando a primeira derivada de L em relação a p e igualando esse valor a 0 como em (2). A equação obtida fica complicada. Uma simplificação importante pode ser feita. Quando plotamos o gráfico do ln de L contra p, ele terá uma forma diferente mas o ponto máximo de lnL ocorrerá no mesmo lugar como o ponto máximo de L, e assim a estimativa de p, p̂ será a mesma: dln L = 0 dp Em nosso exemplo, a equação de L é dado em (1) , e N! LnL = 2B ln + (2 A + B) ln p + ( 2C + B) lnq A! B! C! dln L 2 A+ B = dq 2C + B + 1-q q dln L com = 0, temos que dq q ( 2A + B) = (1-q) ( 2C + B) e assim ^ q = 2C + B 22 2N Genética de populações Luiz Alberto dos Santos Monjeló Uma das principais vantagens do método ML é a possibilidade de estimar a variância do estimador. A sua demonstração analítica é dada por R.A. Fisher. A variância da estimativa ML do parâmetro é dada por: d2 LnL ^ V ( ) ~ -E -1 d LnL 2 -1 = -E d d 2 Determinação da variância da estimativa da frequência gênica para o caso de um loco autossômico com dois alelos codominantes: se ln L = ln ( constante) + (2A + B) ln p + (2C + B) ln q d ln L (2 A + B) = - (2C + B) + dq 1-q q segue que d2 ln L 2A + B = - dq 2C + B + (1-q) 2 q2 O valor esperado de (2 A + B) = 2Np e o valor esperado de (2 C + B) = 2Nq . assim, d2 ln L dlnL 2C + B 23 Genética de populações Luiz Alberto dos Santos Monjeló quando 2 dq = 0 , isto é quando q= dq d2 ln L - E 2N 2N ( 1-q) + 2Nq = 2N = 2 2 dq 2 (1-q) q 2N + p q pq e portanto p= 2 2N Teste de Equilíbrio segundo Hardy-Weinberg para um loco com dois alelos codominantes. Teste da Verosimilhança máxima ( G2 ) Se uma população em Equilíbrio segundo Hardy-Weinberg for amostrada várias vezes, e o G2 calculado a cada vez, os valores observados de G2 terão distribuição 2. Exemplo (in Lynch, M. & Walsh,B., 1997): Fisher & Ford (1947) estudaram a frequência de indivíduos da mariposa Panaxia dominula para três padrões de coloração de asa que através de experimentos de cruzamento, determinaram serem devidos a dois alelos segregando em um loco gênico. 24 Genética de populações Luiz Alberto dos Santos Monjeló FENÓTIPO GENÓTIPO Tamanho amostral Frequência Padrão de Cor medionigra B1B2 078 0.079 dominula B1B1 905 0.918 bimacula N B2B2 003 986 0.003 pB1 = 0.918 + 1/2 (0.079) = 0.9575 qB2 = 1-0.9575 = 0.0425 Frequência esperada: B1B1 B1B2 B2B2 0.95752 = 0.9168 2 (0.9575) (0.0425) = 0.0814 0.04252 = 0.0018 1.0000 Valores Esperados no equilíbrio B1B1 p2 * N = (0.9168) ( 986) = 903.9 B1B2 2pq * N = (0.0814) (986) = 80.3 B2B2 q2 * N = (0.0018) (986) = 1.8 Teste G: 1. Hipóteses H0: O = E (A população possui o número observado para cada genótipo dentro das frequência esperadas no equilíbrio segundo o Princípo de Hardy-Weinberg.) Ha: O E ( A população não está em equilíbrio.) 2. = 0.05 3. Valor crítico do teste 2tab ( =0.05; GL = número de classes genotípcas - número de alelos = 3-2 =1) = 3.841 3 4. G calculado: G calc. = - 2 [ Obsi ln (Espi/Obsi)] , onde i = 1,3. 1 25 Genética de populações Luiz Alberto dos Santos Monjeló G = -2 { 905 ln (903.9/905) + 78 ln (80.3/78) + 3 ln (1.8/3)} = -2 ( -1.1 + 2.3 - 1.5) = 0.6 5. Decisão: G calc. = 0.6 < 2 tab (0.05, gl=1) = 3.841 logo aceito H0: O = E, 6. Conclusão: Se a população tem os números de genótipos observados dentro daqueles esperados segundo o princípio de Hardy - Weinberg, somos inclinados a aceitar que essa população está em equilíbrio gênico, para o loco estudado (P<0.05). Estimadores de Verosimilhança para um loco autossômico com dois alelos, um dominante e um recessivo: Consideremos o modelo: GENÓTIPOS AA Aa aa D R Valor Observado 1-q2 Frequência esperada Total N q2 N! (1-q2) D + (q2)R a função de verosimilhança será: L = D! R! N! + D ln (1-q2 ) + R ln (q2) lnL = ln D! R! dln L - 2q D + R2q = , 2 dq (1-q ) q 2 dln L se = 0 no ponto máximo 26 1 Genética de populações Luiz Alberto dos Santos Monjeló dq -2qD -2Rq = logo 1-q2 -2Dq3 = -2Rq + 2Rq3 q2 -2Dq3 - 2Rq3 = -2Rq e mas D+R = N -2q3 (D+R) = -2Rq e, R 3 2 q N = Rq, q = ^ obtendo-se q = q/N N Novamente podemos obter a variância desse estimador ML: obtendo a Segunda Derivada, d2 ln L -2 (1-q2 ) D + 4q2 D = 2R (1) - 2 2 2 dq q2 (1-q ) ^ E ( D ) = N( 1-q 2 ) ^ E(R)= Nq2 Substituindo em (1) os valores de D e R obtemos 1-q2 2 q = = 4N p2 pq + 2N 4N Comparando as estimativas de frequências gênicas, com ausência de dominância e com dominância para um loco com dois alelos, podemos 27 Genética de populações Luiz Alberto dos Santos Monjeló a partir de gráfico comparativo de 2q versus q, verificar que quando q é > 0.5 não se perde muito em precisão, quando se pressupõe dominância. Entretanto há uma perda de grande precisão se q é pequeno e muito menor que 0.5. Em termos práticos para se estabelecer um delineamento experimental essas informações podem ser úteis. No caso de dominância podemos detectar os heterozigotos somente após uma série de cruzamentos-teste, por exemplo. Se temos uma informação a priori que a frequência de um gene recessivo é alta, então a estimativa de q em amostras populacionais será bem precisa e não precisaremos distinguir os heterozigotos. 28 Genética de populações Luiz Alberto dos Santos Monjeló Estimação da Frequência gênica a partir de dados de Combinação Geração parental e Geração Filial através de estimadores de verosimilança. Existem quatro tipos de combinações possíveis, pai e filhos, pai e filhas, mãe e filhos, mãe e filhas. Entretanto como refere Li (1968) as mais referidas na literatura são as combinações mãe e seus filhos/filhas,(MF). A Tabela abaixo apresenta as frequências de combinações MF em uma população com cruzamento ao acaso: Tabela de cruzamentos ao acaso considerando genes codominantes e sua respectiva frequência de descendentes. Mãe Descendentes A1A1 A1A2 A2A2 Total p2 A1A1 (1) p3 (2)p2q - A1A2 (3)p2q (4)pq (5) pq2 A2A2 - (6)pq2 (7) q3 Total p2 2pq q2 29 2pq q2 1.0 Genética de populações Luiz Alberto dos Santos Monjeló A Tabela anterior mostra as sete combinações MF , possíveis e pode ser construída quando levamos em conta a frequência de cruzamentos com o genótipo conhecido da mãe e de seus descendentes, considerando todos os tipos de genótipos para os pais como segue : Descendentes Mãe Pai p2 A1A1 x p2 A1A1 A1A1 p4+ p3q= p4+p3(1-p)= p4+p3-p4=p3 2pq A1A2 q2 A1A2 p3q +p2q2 = p2q (p+q)= p2q A2A2 A2A2 p3 + p2q = p2(p+q) = p2 Total A1A1 2pq A1A2 x p2 A1A1 p3q + p2q2 = p2q x 2pq A1A2 A1A2 x q2 A2A2 p3q + 2p2q2+ pq3 = pq(p2+2pq+q2)=pq A2A2 p2q2+pq3= pq2(p+q)=pq2 p2q + pq + pq2 = pq + pq (p+q) = 2pq Total A1A1 2 2 q A2A2 x p A1A1 - x 2pq A1A2 x q2 A1A2 p2q2 + pq3 = pq2(p+q)= pq2 A2A2 A2A2 3 pq + q = q3(p+q)= q3 Total 4 2 pq + q3 = q2 ( p+q) = q2 Quando existe dominância completa, as combinações MF , ficam reduzidas a quatro possibilidades conforme a Tabela abaixo: Mãe Descendentes A_ aa 30 Total Genética de populações Luiz Alberto dos Santos Monjeló A_ pq2 p( 1 + pq) pq2 aa p2 + 2pq Total p2 + 2pq q3 q2 q2 1.0 A frequência dos descendentes produzida por tipo de cruzamento será: Mãe A_ Descendentes A_ Pai x p3 + p2q + p2q + pq A_ = p2 (p+q) + p2q + p (1-p) aa = p2 + p2q + p - p2 = p2q + p = p ( 1 + pq) aa pq2 p (1+ pq) + pq2 = p + p2q + pq2 = p ( 1+ pq + q2) Total = p ( 1 + (1-q) q + q2 ) = p ( 1 + q - q2 + q2 ) = p(1+q) = p ( p+q+q) = p2 + 2pq lembrar que: (p + q) = 1 ou p2 + 2pq = p ( p + 2q) = p ( 1-q + 2q ) = p(1+q) A_ aa x A_ pq2 aa aa q3 Total pq2 + q3 = q2 (p+q) = q2 31 Genética de populações Luiz Alberto dos Santos Monjeló Estimativa de verossimilhança das frequências gênicas utilizando as combinações MF, para alelos codominantes conforme Li (1968). Mãe Descendentes MN NN a2 a4 a5 a6 a7 MM a1 a3 - MM MN NN Total de a1 + a3 Descendentes a2 +a4 +a6 Total de Mães a1 + a2 a3 + a4 + a5 a6 + a7 a5 + a7 G A aplicação do método da verosimilhança máxima para a estimativa das frequências gênicas aplicada às combinações individuais a1a2,...,a7 com as suas respectivas probabilidades dadas na tabela anterior de frequências possibilita obter: L = a1 log p3 + (a2+ a3) log p2q + a4 log pq + (a5+a6) log pq2 + a7 log q3 Simplificando a expressão, lembrando que log p2q = 2log p + log q, etc, L = B log p + C log q onde B = 3a1 + 2 (a2 + a3) + e a4 + (a5 + a6) C = ( a2+ a3) + a4 + 2 (a5+a6) + 3a7 Observe que B + C = 3G - a4 32 Genética de populações Luiz Alberto dos Santos Monjeló derivando no ponto máximo: dL/dp= 0 e resolvendo para p temos: p = B / B+C = 3 a1 + 2(a2 + a3) + a4 + ( a5 + a6) / 3G - a4 Vp = pq / B + C = pq / 3G - a4 Onde vP é a variância de p. Testando se a ocorrência de dominância é correta para um loco com dois alelos a partir de uma amostra populacional. Quando só temos dois fenótipos para uma característica, podemos utilizar as taxas de Snyder para confirmar a hipótese de dominância em um loco com dois alelos. Isso requer dados de duas gerações. Observe as frequências de cruzamentos: FÊMEAS MACHOS DOMINANTE (D) RECESSIVO ® DOMINANTE (D) DxD DxR RECESSIVO (R) DxR RxR Os cruzamentos D x D encerram: Cruzamento Frequência AA x AA AA x Aa Aa x Aa Total 4 p 4p q 4p2q2 p2 (1+q2) 3 Frequência de Descendentes D p4 4p3q 3p2q2 p2(1+2q) R 2 2 pq p2q2 p4+4p3q+3p2q2 = p2(p2+ 2pq+q2+2p3q+2p2q2) = p2(1+2pq+2q2) = p2( 1+ 2(1-q)q+2q2) 33 Genética de populações Luiz Alberto dos Santos Monjeló = p2(1+2q-2q2+2q2) = p2(1+2q) p4 + 4p3q + 4p2q2 = p2 (p2 + 4pq+ 4q2) = p2 ( p2 + 2pq + 2pq + q2 ) = p2 (1+q2) (lembrar que p2 + 2pq +q2 = 1) Os cruzamentos D x R ocorrem duas vezes mais que os outros dois tipos, veja na tabela anterior. Cruzamento Frequência 2 AA x aa 2 Aa x aa Total 2p2q2 4pq3 2pq2(1+q) Frequência de Descendentes D R 2 2 2p q 2pq3 2pq3 2pq2 2pq3 2p2q2 + 4pq3 = 2pq2 (p+2q) =2pq2 ( p+q+q) = 2pq2(1+q) 2p2q2 + 2pq3 = 2pq(pq+q2) = 2pq(q(p+q) = 2pq(q) =2pq2 Os cruzamentos R x R ocorrem: Cruzamento Frequência aa x aa q4 Total q4 Frequência de Descendentes D R - q4 q4 34 - Genética de populações Luiz Alberto dos Santos Monjeló Na Tabela que se segue, estão as frequências de descendentes dos cruzamentos acima: Frequência de cruzamentos e de seus descendentes em uma população considerando uma característica determinada por um loco autossômico com dois alelos (A e a) Cruzamentos Frequência Descendência D R DxD p2 (1+q)2 p2(1+2q) p2q2 DxR 2pq2(1+q) 2pq2 2pq3 RxR q4 1 Total p2 + 2p2q+2pq2 = p2 + 2pq(p+q) = p2 + 2pq q4 p2q2 + 2pq3+q4 =q2 (p2 + 2pq+ q2) =q2 Pela Tabela anterior vemos que a frequência de descendentes recessivos em relação ao total de descendentes para cruzamentos DxD e DxR são respectivamente: Cruzamentos D X D S2 = p2q2 / p2(1+2q)+ p2q2 = p2q2 / p2 + 2p2q + p2q2 35 Genética de populações Luiz Alberto dos Santos Monjeló = p2q2 / p2 (1 + 2q + q2) = q2 ( 1+q)2 Cruzamentos D x R S1 = 2pq3 / 2pq2 + 2pq3 = 2pq3 / 2pq2 (1+q) = q / (1+q) Essas frequências esperadas de descendentes recessivos referentes aos cruzamentos D x D (S2) e D x R (S1), são chamadas taxas de Snyder, onde o subscrito indica o número de pais com fenótipo dominante na famílias. S2 = q2 / (1+q)2 S1 = q/ 1+ q Exemplo: Dados de famílias (in Li,1968), para sensibilidade a feniltiocarbamida (PTC) 36 Genética de populações Cruzamento Luiz Alberto dos Santos Monjeló n0 de famílias Sensível x Sensível 425 Sensível x Insensível 289 Insensível x Insensível 86 Total Descendência Sensível Insensível Total 929 130 1059 483 800 1412 278 761 218 218 626 2038 Considerando o total geral das duas gerações temos 2 x 800 casais = 1600 indivíduos na geração 0 somados aos 2038 descendentes da geração 1, totalizando 3638 indivíduos. Se temos um total de 289 + (2 x 86) indivíduos com genótipo recessivo (ff) da geração 0 acrescidos a 626 da geração 1, temos um total de 1087 indivíduos recessivos em uma amostra conjunta de 3638 indivíduos. Considerando p e q as frequências gênicas dos alelos F e f, respectivamente para sensibilidade e insensibilidade a feniltiocarbamida, podemos estimar q, a partir da frequência genotípica de pp: q2 = 1087/3638 = 0.2988 q = 0.5466 e p = 0.4534 Obtendo as taxas de Snyder temos: S1 = q/ 1+ q S2 = q2 / (1+q)2 37 Genética de populações Luiz Alberto dos Santos Monjeló S1 = 0.5466/ 1.5466 = 0.3534 S2 = 0.2988/(1.2988)2 = 0.1249 S1 e S2 são respectivamente as frequências genotípicas esperadas de descendentes recessivos, dos cruzamentos DxR DxD Comparando S1 = 0.3534 com a frequência observada de descendentes recessivos de D x R = 278/761 = 0.3653 e S2 = 0.1249, com a frequência observada de descendentes recessivos de D x D = 130/1059 = 0.1228 podemos chegar a conclusão que os valores observados estão dentro daqueles esperados e portanto suportando a hipótese de dominância para feniltiocarbamida (PTC). 38 a herança da sensibilidade a Genética de populações Luiz Alberto dos Santos Monjeló Frequências Gênicas para alguns locos em populações humanas. 1. Sistema MN de Grupos Sangüineos. Apresenta uma herança de dois alelos codominantes em um único locus. Utilizando anticorpos anti-M e anti-N, podemos tipar os indivíduos conforme segue: Tipo Reação com sanguíneo anti-M Genótipo anti-N M + - MM N - + NN MN + + MN Na Tabela a seguir estão as frequências de fenótipos, genótipos e gênicas para o Sistema MN de Grupos Sangüíneos em diferentes populações humanas. 39 Genética de populações Luiz Alberto dos Santos Monjeló GENÓTIPOS Pop. Australiano Aborígene Norte Americano (E.U.) Nativo Norte Americano (E.U.) Preto Norte Americano (E.U.) Branco Esquimó Alemão Brasil (ManausAmazonas) MM MN NN 0.0301 0.2959 0.6740 (0.0317) (0.2936) (0.6757) 0.6000 0.3512 0.0488 (0.6002) (0.3476) (0.0502) 0.2842 0.4964 0.2194 (0.2830) (0.4980) (0.2180) 0.2916 0.4938 0.2146 (0.2900) (0.4970) (0.2130) 0.4763 0.4314 0.1013 (0.4665) (0.4330) (0.1005) 0.3062 0.4913 0.2025 (0.3047) (0.4946) (0.2007) 0.4040 0.3689 0.2271 (0.3481) (0.4838) (0.1681) pM qN 0.1780 0.8220 0.7760 0.2240 0.5320 0.4680 0.6830 0.3170 0.6830 0.3170 0.5520 0.4480 0.5900 0.4100 3. Sistema Ss de Grupos Sangüíneos. Apresenta um padrão de herança de dois alelos S e s com anticorpos anti-S e anti-s. O loco do Sistema Ss está ligado ao Locus do Sistema MN de Grupos sanguíneos, com localização no cromossomo 4. Os alelos desses dois sistemas produzem antígenos ( glicoporfirinas A e B) que são polipeptídeos. Esses dois locos estão muito próximos e apresentam um padrão de herança denominado de ligação gênica: 40 Genética de populações Luiz Alberto dos Santos Monjeló Na Tabela Abaixo apresentamos as frequências Gaméticas para os locos ligados do Sistema MN e SS de grupos Sangüíneos em várias populações. Pop. Gametas MS Ms NS Ns Ainu 0.024 0.381 0.247 0.348 Inglaterra 0.247 0.283 0.080 0.290 Indios Navajos 0.185 0.702 0.062 0.051 Paquistão 0.177 0.405 0.127 0.291 Brasil* (Amazonas) 0.205 0.400 0.104 0.291 Uganda 0.134 0.356 0.071 0.438 * dados estimados a partir das informações gentilmente cedidas pelo HEMOAM-AM (1999), considerando (l=1.0). Para outros Sistemas de Grupos Sanguíneos na população do Amazonas foram encontrados as seguintes frequências Gênicas: (dados gentilmente cedidos pelo HEMOAM-AM-1999). Sistema Kidd:: Genótipos N0 Observado Jka jka 626 Jka jkb 986 Jkb jkb 475 Total 2087 Sistema Lewis: 41 Genética de populações Luiz Alberto dos Santos Monjeló N0 Observado Genótipos Le-a Le-a 165 Le-a Le-b 20 Le-b Le-b 1455 Total 1640 4. Erros inatos do Metabolismo. Algumas alterações em caminhos metabólicos devido a uma forma de alelo alternativa, explicam certas doenças humanas. Observe-se o ciclo metabólico da Tirosina: Nesse ciclo alterações em pontos diferentes do ciclo podem promover anomalias hereditárias como: 1. fenilcetonúria 2. albinismo 3. alcaptonúria. Podemos ainda observar outros exemplos de erros inatos ao metabolismo como a Intolerância a Lactose. A fenilcetonúria (PKU), é devida a um alelo autossômico recessivo que causa uma deficiência de enzima fenil-alanina hidroxalase, que converte fenil-alanina em tirosina. Homozigotos para o alelo recessivo terão retardo mental se não forem diagnosticados ao nascer e passarem a receber uma dieta pobre em fenil-alanina. A análise molecular revela que existe mais que um tipo de alelo recessivo que levam a perda da função por diferentes rotas. Pop. Suiça Indivíduos com PKU 1/30.000 (0.000033) Indivíduos heterozigotos Freq. do alelo com alelo p/PKU p/ PKU 42 0.012 0.0058 Genética de populações Luiz Alberto dos Santos Monjeló DiLella et al., 1986 refere que cerca de 38% dos alelos para PKU na população holandesa tem idênticos mapas de restrição de alta resolução. Esses alelos apresentam uma junção de corte anormal intron-exon. Ainda refere que outros 20% dos alelos PKU são caracterizados por causarem a substituição de um único aminoácido na cadeia polipeptídica. Na Tabela anterior são mostradas as frequências de genótipos de indivíduos homozigotos para PKU e inivíduos heterozigotos carregadores do gene para PKU. O Albinismo que caracteriza a ausência de formação de melanina, também é determinado por um gene recessivo, devido a deficiência de uma enzima, a tirosinase que catalise a transformação de tirosina em 3,4 43 Genética de populações Luiz Alberto dos Santos Monjeló dihidroxifenilalanina (DOPA) ou do DOPA em melanina, em uma sequência de reações cuja deficiência de enzimas nesses passos também impede a produção de melanina. A alcaptanúria, foi primeiro descrita por um cientista inglês estudadndo as causas de doenças hereditárias humanas, Sir Archibald Garrod, predizendo que os indivíduos afetados com alcaptanúria seriam deficientes em uma das enzimas do ciclo degradativo da fenilalanina-Tirosina. Ele sugeriu que a deficiência de uma enzima específica envolvida na degradação do ácido homogentísico (ácido homogentísico oxidase) era responsável pelo acúmulo nas células e consequente excreção pela urina desse ácido que deveria ser degradado normalmente até fumarato e acetato. No esquema abaixo verifica-se que a nítida deficiência na enzima acido homogentísico oxidase em pacientes com alcaptanúria quando comparada a indivíduos normais. ATIVIDADE ENZIMÁTICA INDÍVÍDUOS: NORMAIS ALCAPTANÚRICOS Fenil-Alanina Fenil-Alanina Hidroxilase Tirosina Tirosina Transaminase Ácido Hidróxido Fenil Pirúvico 3.6 3.2 6.7 4.6 Ác. HFP Oxidase Ácido Homogentísico 26.8 Ác. Homogentísico Oxidase 44 < 0.0048 Genética de populações Luiz Alberto dos Santos Monjeló Ácido Maleilacetoacético 960 Ác. Maleilacetoacetico Isomerase 780 Ácido Fumarilacetoacético 29 Ác. Fumarilacetoacético Hidrolase 22 Fumarato + Acetoacetato Na figura abaixo podemos observar pedigrees para casos de alcaptonúria. A Intolerância a Lactose é uma doença causada por um alelo recessivo e conforme as estimativas do NIDDK ( National Institute of Diabetes and Digestive and Kidney Diseases e o NIH entre 30 a 50 milhões de americanos são intolerantes a lactose. Isso inclui a intolerância a Lactose que afeta 75% de americanos-africanos e 90% de americanos nativos-asiáticos. Frequência e Distribuição de Intolerância a Lactose População Indivíduos Examinados Suécia Austrália (Europeus) 160 Suíça % de Intolerantes Freq. do Alelo 2% 0.140 4% 0.200 10% 0.316 Americanos (Caucasianos) 245 12% 0.346 Finlândia 134 18% 0.424 20% 0.447 África (Tussi) 45 Genética de populações Luiz Alberto dos Santos Monjeló África (Fulani) 23% 0.480 Estudos Unidos (Pretos) 20 75% 0.870 Austrália (Aborígenes) 44 85% 0.922 África (Bantu) 59 89% 0.943 China 71 93% 0.964 Tailândia 134 98% 0.990 24 100% 1.000 Estados Unidos (Indios) Dados obtidos de http://wsrv.clas.virginia.edu, referidos com obtenção em parte do artigo de Norman Kretchemer,1972. "Lactose and lactase", Scientific American. Estimação das Frequências Gênicas, para Genes Ligados ao Cromossomo X. Quando estivermos estudando alelos localizados no cromossomo X devemos perceber que a apresentação dos genótipos para esse tipo de herança é diferente nos homens e nas mulheres. Na população de homens esse alelo ocorre em hemizigose (XA1Y, XA2Y) enquanto que na população de mulheres ocorrem em homozigose (XA1XA1, XA2XA2) ou em heterozigose (XA1XA2). Nesse caso precisamos estimar as frequências gênicas separadamente na população de homens e na população de mulheres. Vejamos o seguinte exemplo: Homens Freq. Genotípica Observada XA1Y 200 XA2Y 800 0.2 0.8 46 Mulheres XAXA1 XA1XA2 XA2XA2 600 200 200 0.6 0.2 0.2 Genética de populações Luiz Alberto dos Santos Monjeló Observe que na populacão de homens a frequência genotípica observada de XA1Y é igual a 0.2 e de XA2Y 'igual a 0.8. Como cada homem só possui em seu genótipo um alelo XA1 ou XA2, as frequências desses alelos nessa população de homens, p(XA1) e q(XA2) serão iguais às respectivas frequências genotípicas, 0.2 e 0.8. Para estimar as frequencias gênicas de p(XA1) e q(XA2) na população de mulheres que tem genótipos homozigotos e heterozigotos procede-se de maneira similar a estimação da frequência gênica para alelos autossômicos, onde p (XA1) = frequência de genótipos homozigotos (XA1XA1) + 1/2 da frequência dos genótipos heterozigotos (XA1XA2) = 0.6 + 1/2( 0.2) = 0.7 e q(XA2) = frequência de genótipos homozigotos (XA2XA2) + 1/2 da frequência de genótipos heterozigotos(XA1XA2) = 0.2 + 1/2 (0.2) = 0.3 Estimadas as frequências dos genes nos homens e mulheres devemos procurar saber se essa população está em equilíbrio. A condição de equilíbrio ou seja de que não haja mudança nas frequências gênicas de geração para geração é que a frequência do alelo XA1 nos homens seja igual a frequência desse mesmo alelo nas mulheres o mesmo acontecendo com o outro alelo XA2. No exemplo dado portanto como pmachos (0.2) pfêmeas (0.7) e qmachos (0.8) qfêmeas (0.3) concluímos que essa população não está em equilíbrio. 47 Genética de populações Luiz Alberto dos Santos Monjeló Qual seria então a frequência em equilíbrio para o alelo XA1? Podemos definir a frequência em equilíbrio para XA1 como a frequência média da população total. Essa frequência estimada, deve ser ponderada pelo número de genes que cada sexo contribui na formação do seu genótipo. Assim p médio = 2/3 pfêmeas + 1/3 pmachos e q médio = 2/3 qfêmeas + 1/3 qmachos. No exemplo dado: pmédio = 2/3 (0.7) + 1/3 (0.2) = 0.0.46667 +0.0667 0.5333 qmédio = 2/3(0.3) + 1/3 (0.8) = 0.2 + 0.2667 0.4667 Quantas gerações seriam necessárias para que uma população que não tem as frequências em equilíbrio, atinja o equilíbrio se nenhum gene estiver sendo eliminado ou aumentado na população? Para isso precisamos calcular as frequências de homens e de mulheres nas próximas gerações. Sabemos por demonstração algébrica e numérica que para genes autossômicos, isso ocorre imediatamente na geração seguinte. Com genes ligados ao sexo devido a segregação diferente na formação dos gametas masculinos e femininos isso não é verdadeiro. Observemos que a frequência dos genes dos homens da próxima geração dependerá exclusivamente da frequência dos genes das mulheres da geração anterior pois somente elas fornecem gametas portando cromossomo X para os descendentes masculinos e os homens da geração anterior só fornecem o cromossomo Y para formar o genótipo de descendentes em relação a esse tipo de loco. 48 Genética de populações Luiz Alberto dos Santos Monjeló Assim no exemplo dado consideremos as frequências do gene XA1 da população atual como da geração 0: geração pmachos pfêmeas 0.7 d 0 0.2 0.50 1 0.7 1/2(0.2+0.7)= 0.45 0.25 2 0.45 1/2(0.7+0.45)= 0.575 0.125 3 0.575 1/2(0.45+0.575)= 0.5125 0.0625 4 0.5125 1/2(0.575+0.5125)=0.54375 0.03125 5 0.54375 1/2(0.5125+0.54375)=0.528125 6 0.528125 1/2(0.54375+0.528125)=0.5359375 0.0078125 0.015625 Podemos verificar pelo exemplo acima que o equilíbrio teoricamente somente seria alcançado no infinito pois na série real a metade de um número real sempre será um número real. O equilíbrio somente seria alcançado quando a diferença entre as frequências gênicas de machos e fêmeas (d) for igual a zero, isso somente seria possível no infinito. Entretanto na prática em 5-6 gerações as diferenças são tão pequenas que podemos dizer que d0! 49 Genética de populações Luiz Alberto dos Santos Monjeló Estimação das Frequências Gênicas, Considerando Dois Locos Gênicos. Supondo dois Locos com dois alelos cada um: loco A: alelos A e a. loco B: alelos B e b. Sejam as frequências dos alelos A e a do loco A, p e q respectivamente. Sejam as frequências dos alelos B e b do loco B, r e s respectivamente. Para estimar as frequências genicas, observados de uma amostra populacional, a partir dos valores para os genótipos considerando dois locos gênicos, podemos construir uma matriz zigótica. 50 Genética de populações Luiz Alberto dos Santos Monjeló As frequências de cada genótipo nessa matriz devem ser ponderadas pela probabilidade relativa de ocorrência na descendência, supondo uma população mendeliana (com cruzamentos aleatóreos). Observe as possibilidades dos cruzamentos: GAMETAS machos Fêmeas AB Ab aB ab AB AABB AABb AaBB AaBb Ab AABb AAbb AaBb Aabb aB AaBB AaBb aaBB aaBb ab AaBb Aabb aaBb aabb Observe que todos os genótipos homozigotos para os dois locos ocorrem um vez em relação aos outros, os genótipos de heterozigotos para ambos os locos ao mesmo tempo ocorrem 4 vezes e os demais genótipos, homzigotos para um loco e heterozigoto para outro ocorrem duas vezes. 51 Genética de populações Luiz Alberto dos Santos Monjeló Para construir a matriz zigótica de frequências genotípicas devemos considerar a linha para a variação de genótipos do loco A e a coluna para a variação de genótipos do loco B. Z= z11 AABB z12 AABb z13 AAbb z21 AaBB z 22 AaBB z23 Aabb z31 aaBB z32 aaBb z33 aabb onde a matriz gamética g11AB g12Ab G = é uma matriz quadrada 2x2 g21aB g22ab Existem duas situações a considerar. Supondo associação independente entre os dois locos (os locos estão localizados em diferentes cromossomos. Nesse caso a estimativa das frequências gaméticas serão: g11 = z11 + 1/2 (z12 + z21) + 1/4 z22 g12 = z13 + 1/2 (z12 + z23) + 1/4 z22 52 Genética de populações Luiz Alberto dos Santos Monjeló g21 = z31 + 1/2 ( z21+ z32) + 1/4 z22 g22 = z33 + 1/2 ( z23 + z32) + 1/4 z22 Para verificarmos se esta população se encontra no equilíbrio, podemos observar se não existe desequilíbrio gamético, obtendo o determinante de G, (D). Quando D=0, então a população apresenta equilíbrio para estes dois locos. Quando D0 então a população não está em equilíbrio! Exemplo 1. Considere dois locos com associação independente Supondo que dois locos enzimáticos produzam respectivamente enzimas do tipo A e do tipo B conforme o eletroferograma da figura abaixo, vamos considerar os fenótipos para as enzimas controladas pelos locos A e B em 100 indivíduos amostrados de uma população mendeliana. loco A loco B o + 5 10 5 15 20 15 53 15 10 5 Genética de populações Luiz Alberto dos Santos Monjeló Observe que para o loco A os primeiros 5 indivíduos são homozigotos AA e para o loco B também são homozigotos BB, produzindo para cada loco um único tipo de enzima do tipo A ou do tipo B. Os seguintes 10 indivíduos apresentam para o loco A homozigose mas para o loco B heterozigose, Bb (pois apresentam dois tipos de enzima B). Note também que 20 indivíduos amostrados são heterozigotos para ambos os locos, AaBb, pois produzem dois tipos de enzimas A e dois tipos de enzimas B. A caracterização de locos eletroforéticos para enzimas tem sido amplamente utilizada para estudos de variabilidade populacional embora atualmente marcadores genéticos enzimáticos tenham sido preteridos por marcadores de DNA que fornecem informações mais diretas sobre a variabilidade genética de populações. Do exemplo acima, as frequências relativas de zigotos podem ser expressas na matriz abaixo: Z= 0.05 0.10 0.05 0.15 0.20 0.15 0.15 0.10 0.05 e por conseguinte as frequências de gametas podem ser estimadas como segue: g11 (AB) = 0.05 + 1/2 (0.10 + 0.15) + 1/4 (0.20) = 0.2250 54 Genética de populações Luiz Alberto dos Santos Monjeló g12(Ab) = 0.05 + 1/2 (0.10 + 0.15) + 1/4 (0.20) = 0.2250 g21(aB) = 0.15 + 1/2 (0.15 + 0.10) + 1/4 (0.20) = 0.3250 g22(ab) = 0.05 + 1/2 (0.15 + 0.10) + 1/4 (0.20) = 0.2250 obtendo-se então a matriz gamética: 0.2250 0.2250 G = 0.3250 0.2250 estimando o Determinante de G temos: D = (0.2250) ( 0.2250) - (0.2250) (0.3250) = 0.0225 Como D0, podemos supor que a população apresenta desequilíbrio gamético logo não está em equilíbrio para os dois locos considerados. As frequências dos genes A e a , B e b são estimadas por: loco A: p = g11 + g12 q = g21 + g22 loco B: r = g11 + g21 s = g12 + g22 Desse modo podemos estimar no exemplo dado: LOCO A p = 0.225 + 0.225 = 0.45 LOCO B r = 0.225 + 0.325 = 0.55 55 Genética de populações Luiz Alberto dos Santos Monjeló q = 0.325 + 0.225 = 0.55 s = 0.225 + 0.225 = 0.45 Para determinar a frequência de zigotos na próxima geração considerando cruzamento aleatório, podemos indicar na matriz Z1, a partir das combinações das frequências dos gametas produzidos na geração atual (Z0): g112 Z1 = g122 2(g11) (g12) 2(g11)(g21) 2[ (g11) (g22) + (g12) (g21)] g212 2 (g12) (g22) g222 2( g21) (g22) Com a matriz G do exemplo dado acima, podemos determinar Z1: 0.2252 Z1 = 2 (0.225) (0.225) 2 (0.225) (0.325) 2[ (0.225) (0.225) + (0.225) (0.325)] 0.3252 Z1 = 2 (0.325) (0.225) 0.050625 0.101250 0.050625 0.146250 0.247500 0.101250 0.105625 0.146250 0.050625 56 0.2252 2 (0.225) (0.225) 0.2252 Genética de populações Luiz Alberto dos Santos Monjeló Essas frequências esperadas na próxima geração são aquelas esperadas no equilíbrio? O equilíbrio é atingido em 1 geração? Para que possamos responder essa questão precisamos obter a matriz zigótica com as frequências esperadas no equilíbrio. Se as frequências gênicas estimadas são p e q para o loco A e r e s para o loco B, podemos dizer que a matriz gamética no equilíbrio será: pr ps qr qs Ge = 0.2475 0.2025 0.3025 0.2475 e se no exemplo Ge = Observe que o determinante da matriz gamética no equilíbrio, D=0! Com os valores das frequências gaméticas no equilíbrio podemos agora obter Ze! Ze = 0.06125625 0.1002375 0.04100625 0.14973750 0.245025 0.10023750 0.09150625 0.14973750 0.06125625 57 Genética de populações Luiz Alberto dos Santos Monjeló Podemos observar comparando Z1 com Ze que o equilíbrio não foi alcançado na geração seguinte! Comparações estatísticas podem ser realizadas através do teste de bondade de ajuste do modelo de 2 ou G. Exemplo 2. Locos ligados. Considere o número observado de indivíduos para o Sistema MNSs de Grupos Sanguíneos na população de Manaus (AM) e de Outros Estados (OE), tipados pelo HEMOAM-AM: Número Frequência genotípica Fenótipo Observado AM Observada OE AM OE MMSS 105 031 0.0505 0.0405 MMSs 339 107 0.1630 0.1397 MMss 318 111 0.1529 0.1449 MNSS 093 038 0.0447 0.0496 MNSs 416 146 0.2000 0.1906 MNss 481 208 0.2312 0.2715 NNSS 016 010 0.0077 0.0131 NNSs 101 040 0.0486 0.0522 NNss 211 075 0.1014 0.0979 Total 2080 766 Total geral: 2846 58 1.0000 1.0000 Genética de populações Luiz Alberto dos Santos Monjeló Podemos então construir Z a partir da amostra populacional de AM: teremos: z11 é a frequência genotípica de MMSS z12 é a frequência genotípica de MMSs z13 é a frequência genotípica de MMss z21 é a frequência genotípica de MNSS z22 é a frequência genotípica de MNSs z23 é a frequência genotípica de MNss z31 é a frequência genotípica de NNSS z32 é a frequência genotípica de NNSs z33 é a frequência genotípica de NNss A partir dessa matriz zigótica podemos extrair a matriz de frequências gaméticas: g11 será a frequência de gametas MS g12 será a frequência de gametas Ms g21 será a frequência de gametas NS g22 será a frequência de gametas Ns logo Z, a matriz zigótica é uma matriz 3x3 59 Genética de populações z11 z12 Z = Luiz Alberto dos Santos Monjeló z13 z21 z22 z23 z31 z32 z33 Podemos escrever Z para a população de Manaus (AM) assim: Z= 0.0505 0.1630 0.1529 0.0447 0.2000 0.2312 0.0077 0.0486 0.1014 Supondo que a intensidade de ligação entre esses dois locos é igual a 0.94 então a frequência de recombinação entre esses dois locos será c=0.06. Para se obter as frequências gaméticas de dois locos ligados é necessário considerar l, a intensidade de ligação para as frequências de gametas parentais e c, a frequência de recombinação, para recombinantes. Assim: g11(AB) = z11 + 1/2 ( z12 + z21 ) + 1/2 l ( z22) g12(Ab) = z13 + 1/2 ( z12 + z23 ) + 1/2 c (z22) g21(aB) = z31 + 1/2 ( z21 + z32 ) + 1/2 c (z22) g22(ab) = z33 + 1/2 ( z23 + z32 ) + 1/2 l (z22) no exemplo dado: g11 = 0.05050 + 0.10385 + (0.47) (0.2) = 0.24835 g12 = 0.15290 + 0.19710 + (0.03) (0.2) = 0.35600 g21 = 0.00770 + 0.04665 + (0.03) (0.2) = 0.06035 60 gametas Genética de populações Luiz Alberto dos Santos Monjeló g22 = 0.1014 0 + 0.13990 + (0.47) (0.2) = 0.33530 Estimando as frequências gênicas: pM = 0.24835 + 0.35600 = 0.60435 0.6 qN = 0.06035 + 0.33530 = 0.39565 0.4 rS = 0.24835 + 0.06035 = 0.3087 0.3 ss = 0.35600 + 0.33530 = 0.6913 0.7 O determinante de G 0.06, logo a população apresenta um desequilíbrio gamético! A matriz zigótica na próxima geração Z1 será: Z1 = 0.062 0.177 0.127 0.030 0.209 0.239 0.004 0.040 0.112 A matriz gamética no equilíbrio será: 0.18 0.42 0.12 0.28 Ge = E a matriz zigótica no equilíbrio será: 61 Genética de populações Ze = Luiz Alberto dos Santos Monjeló 0.03 0.15 0.18 0.04 0.20 0.24 0.01 0.07 0.08 Estimação das Frequências Gênicas para casos de Polialelia. Observe a figura abaixo onde no eletroferograma podemos distinguir três alelos na população amostrada: + ao-11 ao-11 ao-11 ao-10.5 ao-11 ao-10.8 ao-10.8 ao-10.8 ao-10.8 ao-10.5 ao-10.5 ao-10.5 240 (0.48) 20 (0.04) 10 (0.02) 90 (0.18) 80 (0.16) 60 (0.12) Na figura acima estão representados fenótipos eletroforéticos correspondendo a bandas de enzimas do tipo aldeidooxidas, e assinalados acima de cada banda o genótipo correspondente a um loco (AO-1) com três alelos (ao-11, o alelo mais comum, ao-10.8 e o alelo ao-10.5) presentes 62 Genética de populações Luiz Alberto dos Santos Monjeló nesta população. abaixo de cada fenótipo estão assinalados o número de indivíduos encontrados com cada fenótipo eletroforético dessa enzima em amostra de 500 indivíduos. Supondo que nessa espécie a aldeido oxidase é controlada por um loco autossômico com 3 alelos codominantes, podemos estimar as frequências desses 3 alelos assim: pao-11 = frequência de homozigotos ao-11 ao-11 + 1/2 ( frequência dos heterozigotos que portam o alelo ao-11). qao-10.8 = frequência de homozigotos ao-10.8 ao-10.8 + 1/2 ( frequência dos heterozigotos que portam o alelo ao-10.8). ra0-10.5 = frequência de homozigotos ao-10.5 a0-10.5 + 1/2 ( frequência dos heterozigotsos que portam o alelo ao-10.5). p = 0.48 + 1/2 ( 0.18 + 0.16 ) = 0.65 q = 0.04 + 1/2 ( 0.18 + 0.12 ) = 0.19 r = 0.02 + 1/2 ( 0.16 + 0.12 ) = 0.16 total ...................................... = 1.00 As frequências esperadas no equilíbrio são obtidas a partir da expansão do trinômio: (p+q+r)2 = p2 + q2 + r2 + 2pq+2pr+2qr = 1 ao-11 ao-11 ao-10.8 ao-10.8 p2 q2 = 0.4225 = 0.0361 63 Genética de populações Luiz Alberto dos Santos Monjeló ao-10.5 ao-10.5 r2 = ao-11 ao-10.8 2pq = 1 0.5 ao-1 ao-1 2pr = 0.8 0.5 ao-1 ao-1 2qr = total ............................. = 0.0256 0.2470 0.2080 0.0608 1.0000 O teste de equilíbrio pode ser feito, obtendose os valores absolutos esperados para cada genótipo e comparando com os valores observados. Os testes do Qui-quadrado ou G de verosimilhança podem ser utilizados para se aceitar ou regeitar a hipótese de estado de equilíbrio. Observado ao-11 ao-10.8 ao-10.5 ao-11 ao-11 ao-10.8 Total ao-11 ao-10.8 ao-10.5 ao-10.8 ao-10.5 ao-10.5 Esperado p2N q2N r2N 2pqN 2prN 2qrN 240 20 10 90 80 60 500 211.25 18.05 12.80 123.50 104.00 30.40 500.00 Partindo de uma hipótese inicial h0 : O=E ( a população está em equilíbrio e portanto não devem existir diferenças relevantes entre o número observado de genótipos e o número esperado no equilíbrio). 1. hipóteses a serem testadas: h0: O=E ha: OE 64 Genética de populações Luiz Alberto dos Santos Monjeló 2. nível de = 0.05 graus de liberdade = n0 de genótipos - n0 de alelos = 6-3 = 3 4. Estatística do teste: Utilizar o teste G de verossimilhança que transforma o conjunto de dados para uma distribuição Qui-quadrado. O limite do teste será portanto dado pelo 2tabela ( =0.05 ; gl=3) = 7.52 Se Gcalculado 2tabela ( =0.05 ; gl=3) = 7.52, aceitamos H0; caso contrário regeitamos H0 e aceitamos Ha. Gcalc. = -2 [ 240 ln ( 211.25/240) + 20 ln ( 18.05/20) + 10 ln (12.8/10) + 90 ln ( 123.5/90) + 80 ln (104/80) + 60 ln (30.4/60)] = -2[-30.62 -2.05+2.47+28.47+20.99-40.79] = 43.06 5. Decisão G=calculado = 43.06 2tabela ( =0.05 ; gl=3) = 7.52, logo regeito h0 e aceito Ha. 5. Conclusão sobre o teste Considerando que através do teste de bondade de ajuste realizado com o teste G de verossimilhança, encontramos diferenças relevantes entre o observado e o esperado somos inclinados a concluir que a população não está em equilíbrio para o loco analisado com 3 alelos (P<0.05). 65 Genética de populações Luiz Alberto dos Santos Monjeló Um caso especial de polialelia corresponde a estimação das frequências gênicas para o Sistema ABO de grupos sanguíneos na população humana onde de maneira gera; temos dois alelos codominantes IA e IB e um alelo recessivo aos demais representado por I0 ou i. Assim os fenótipos A, correspondem ao conjunto de indivíduos que apresentam genótipos IAIA homozigotos ou heterozigotos IAIO. A B AB O - IAIA ou IAI0 - IBIB ou IBI0 - IAIB - I0I0 Se consideramos p a frequência gênica de IA, q a frequência gênica de IB e r a frequência gênica de I0, no equilíbrio esperamos ter as frequências genótípicas iguais a: IAIA IAI0 I0I0 IBIB IBI0 IAIB (p+q+r)2 = p2 + 2pr + r2 + q2 + 2qr + 2pq = 1 onde p+q+r = 1 Para estimar as frequências gênicas podemos utilizar o seguinte artifício de cálculo: 66 Genética de populações Luiz Alberto dos Santos Monjeló Frequência Observada A = 0.15 B = 0.32 AB = 0.04 O = 0.49 Se consideramos as frequências de fenótipos B + O temos na B O realidade q + 2qr + r2 = (q + r)2 2 assim extraindo a raiz quadrada de B + O temos q + r. se p+q+r = 1 então p = 1- (q+r) ou p =1 - (B+O) da mesma forma q = 1- (A+O) r = O No exemplo temos então: 67 Genética de populações Luiz Alberto dos Santos Monjeló p = 1- 0.32 + 0.49 = 1 - 0.81 = 0.1 q = 1- 0.15 + 0.49 = 1 - 0.64 = 0.2 r = 0.49 = 0.7 Existem casos em que o somatório de p + q + r 1, nesses casos é preciso efetuar a correção das frequências gênicas através do fator de correção de Bernstein. O conjunto de dados abaixo corresponde a uma amostra da população do Amazonas, tipada para o Sistema ABO de grupos sanguineos. Nessa amostra estão incluídos indivíduos nascidos no Amazonas e em outros estados em muito menor proporção mas que compõem a estrutura populacional do Estado do Amazonas.(dados gentilmente cedidos pelo HEMOAM-AM) em 1999. A B AB O total Freq. abs. Freq. relativa 476 0.3049 143 0.0916 29 0.0186 913 0.5849 1561 1.0000 p(IA) = 1- (0.0916+0.5849) = 1- 0.6765 = 0.1775 68 Genética de populações Luiz Alberto dos Santos Monjeló q (IB) = 1 - (0.3049+0.5849) =1 - 0.8898= 0.0567 r (I0) = 0.5849 = 0.7648 como p+q+r = 0.999, temos que realizar uma correção através das fórmulas de correção de Bernstein. primeiro acha-se d = 1- (p+q+r) aplica-se então esse valor nas fórmulas de correção: p' = p (1 + 1/2 d) q'= q ( 1+ 1/2 d) r'= (r+1/2 d) (1+ 1/2 d) Nesse exemplo d= 0.001 p'= 0.1775 (1.0005) = 0.1776 q'= 0.0567 (1.0005) = 0.0567 r'= (0.7648+0.0005) ( 1.0005) = (0.7653) (1.0005) = 0.7657 onde agora p'+ q'+ r'= 1.0 As frequências corrigidas são as estimativas das frequências gênicas para a amostra da população do Amazonas. Precisamos agora calcular as frquências genotípicas esperadas no eqilíbrio: 69 Genética de populações Luiz Alberto dos Santos Monjeló IAIA p'2 = (0.1776)2 = 0.0315 IAI0 2p'r'= 2 (0.1776) (0.7657) = 0. 2720 IBIB q'2 = (0.0567)2 = 0.0032 IBI0 2q'r' = 2 (0.0567) (0.7657) = 0.0868 IAIB 2p'q' = 2 (0.1776) (0.0567) = 0.0202 I0I0 r'2 = (0.7657)2 = 0.5863 Onde o somatório das frequências genotípicas ;e também igual a unidade. Com as frequências genotípicas esperadas no equilíbrio obtida pela expansão do trinômia (p+q+r)2 , podemos obter o número esperado para cada classe fenotípica e comparar estes valores com os valores observados através de um teste de bondade de ajuste que pode ser o teste G de verosimilhança. Nesse caso como temos dominância incompleta, só trabalhamos com as classes fenotípicas: 70 Genética de populações Luiz Alberto dos Santos Monjeló Observado Esperado A 476 (p2 + 2pr) N = (0.0315 + 0.2720) 1561 = 473,8 B 143 (q2 + 2qr) N = (0.0032 + 0.0868)1561 = 140.5 AB 29 O 913 (2pq) N = (0.0202) 1561 = 31.5 (r2) N = (0.5863) 1561 = 915.2 1) H0 : O = E Ha : O E 2) = 0.05 e gl = 4 classes - 3 alelos = 1 O limite do teste é o 2 tabela ( = 0.05 e gl = 4 classes - 3 alelos = 1) = 3.841 3) Estatística do Teste: Gcalc = -2 [ 476 ln ( 473.8/476) + 143 ln (140.5 / 143) + 29 ln (31.5/29) + 913 ln ( 915.2/913)] = -2 (-2.21 -2.52 + 2.40 + 2.20) = 0.26 4) Decisão Gcalc. = 0.26 < 3.84 logo somos inclinados a aceitar a H0 : O = E. 4) Conclusão De acordo com o teste G de verossimilhança realizado, somos inclinados a aceitar a hipótese que a população está em equilíbrio em relação ao locos do Sistema ABO de grupos sanguíneos, segundo o Princípio de Hardy & Weinberg. 71