ESTATÍSTICA BAYESIANA APLICADA A GENÉTICA* estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010. Flávia Melo Rodrigues** Resumo: este trabalho visa discorrer sobre mais um caminho para a análise estatística de dados genéticos, o modelo Bayesiano. A estatística Bayesiana permite incorporar informação a priori, facilitando a interpretação dos resultados de novos experimentos, sendo assim um bom caminho para resolver problemas complexos em genética nos quais a estatística clássica às vezes falha. Palavras-chave: Dados genéticos. Teorema de Bayes. Probabilidade a priori. Probabilidade a posteriori. Análise estatística. A nálises estatísticas sempre foram utilizadas em muitas áreas das pesquisas em Genética, e muitos geneticistas são adeptos das chamadas estatísticas clássicas, ou “frequentistas”. No entanto, o uso do método Bayesiano, uma concepção alternativa, tem aumentado na comunidade de estatísticos e de geneticistas, que tem observado o poder desta abordagem (COELLHO, 2002; SHOEMAKER, 1999, 1998). A estatística Bayesiana pode facilitar a interpretação dos resultados, sendo mais um caminho para resolver alguns problemas complexos em genética nos quais a estatística clássica às vezes falha. Esta abordagem tem sido utilizada em várias áreas da genética, 309 incluindo genética de populações, classificação genotípica, estimativas de parentesco, evolução molecular, genética quantitativa, mapas de ligação gênica, etc (SHOEMAKER, 1999; 1998). Sua utilidade reside no fato de oferecer uma abordagem mais direta para algumas questões, incorporando a informações disponíveis a priori, fornecendo uma maneira mais simples de interpretar os resultados (SHOEMAKER, 1999). Este trabalho tem como objetivo discorrer sobre mais um caminho satisfatório para a análise estatística de dados genéticos, o modelo Bayesiano. 310 Suponha que se pretende estudar a estrutura genética de 20 comunidades de um determinado organismo e que para isso iremos considerar estudos prévios realizados em uma dessas 20 comunidades. Será que descartar as informações das outras 19 comunidades não será relevante no estudo? Para obtermos esta resposta precisamos de um modelo que incorpore a informação a priori, e o método Bayesiano permite esta incorporação. O método Bayesiano produz estimativas de probabilidades de hipóteses alternativas, baseado em todos os dados disponíveis (HILBORN; MANGEL, 1997). A probabilidade para os estatísticos clássicos significa uma frequência em longo prazo (“long-term frequency”), ou seja, a probabilidade pode ser acessada a partir de um experimento repetido muitas vezes sob as mesmas circunstâncias (HILBORN; MANGEL, 1997). No paradigma Bayesiano também se usa a probabilidade para acessar significância estatística dos resultados, mas a definição de probabilidade é expandida (HILBORN; MANGEL, 1997). No método Bayesiano, a probabilidade é uma medida direta da incerteza, e pode ou não representar uma frequência em longo prazo (SHOEMAKER, 1999). Por exemplo, suponha que temos duas hipóteses (H1 e H2) e nossos estudos mostraram que H1 tem 90% de probabilidade de ser verdadeira. Poderíamos resolver parar o trabalho por aqui. No entanto, outro caminho pode ser seguido, ou seja, podemos combinar resultados de vários experimentos anteriores para determinar as probabilidades finais de H1 e H2. Podemos não apenas incluir resultados de nosso experimento, mas também de estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./abr. 2010. O MODELO BAYESIANO estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010. trabalhos prévios e assim perceber quão sem sentido podem ser nossos resultados sem levar em consideração resultados de outros experimentos (HILBORN; MANGEL, 1997). O teorema de Bayes fornece um caminho simples para usar todas as informações possíveis (COELLHO, 2002, SHOEMAKER, 1999). Por exemplo, admita-se que pretendemos definir o modo de herança de uma característica em plantas. No método estatístico clássico, assume-se um modo particular de herança, calcula-se a frequência fenotípica esperada por este modo de herança, realiza-se os experimentos, obtém-se a frequência observada e, utilizando métodos clássicos, compara-se as duas frequências. O teste estatístico leva a um valor de probabilidade (P), que é uma afirmativa de frequência em longo prazo sobre os dados, ou seja, é significativa ou não a diferença entre as frequências fenotípicas observada e esperada? Por outro lado, no método Bayesiano, o cálculo da probabilidade é feito sobre o parâmetro. No caso anterior, por exemplo, poder-se-ia considerar simultaneamente mais de um modo de herança e calcular a probabilidade associada a cada um deles (SHOEMAKER, 1999). Porém, para a aplicação do teorema de Bayes, é necessário conhecer as probabilidades a priori e as probabilidades condicionais. A probabilidade a priori de uma determinada hipótese está sumarizada nos conhecimentos que temos antes do experimento, enquanto que a probabilidade a posteriori resultará da combinação destes com novos experimentos (HILBORN; MANGEL, 1997). Podemos descrever o cálculo da probabilidade a posteriori (Pr {Hi|X}), condicional ao conjunto de dados observados (X), como: Assim sendo, se considerarmos dois eventos A e B, a probabilidade a posteriori Pr {A|B} será a probabilidade de X dado a hipótese Hi (L{X|Hi}) e Pr {B} será a probabilidade a priori (Priori{Hi}) (HILBORN; MANGEL, 1997). Por exemplo, sabe-se que nossos resultados sugerem que a hipótese H1 tem 80% de probabilidade de chance de ser verdadeira e 20% de H2 ser verdadeira. Mas suponha-se que experimentos anteriores resultaram em 60% de probabilidade de H1 e 311 40% de probabilidade de H2 serem verdadeiras, respectivamente. Esses últimos valores (experimento prévio) podem ser tratados como a informação a priori e, usando o teorema de Bayes, obteremos (HILBORN, MANGEL, 1997): Se considerarmos que existem apenas estas duas hipóteses (H1 e H2), então a probabilidade de H2 será: Pr {H2|ambos experimentos} = 1 - Pr {H1|ambos experimentos}, portanto igual a 0,143. Devido à incorporação da informação a priori ao segundo experimento, foi possível uma melhor discriminação entre as duas hipóteses. O ponto importante do teorema de Bayes é que ele faz uma distinção entre hipóteses competidoras, dependendo não só de seus resultados experimentais, mas também de probabilidades a priori das hipóteses (HILBORN; MANGEL, 1997). 312 Para exemplificarmos a aplicação da abordagem Bayesiana, suponhamos que uma amostra de DNA obtida na cena do crime sentenciou um suspeito a cumprir 60 anos de prisão, através da técnica de DNA “fingerprinting”, pois os estudos mostraram que há apenas uma chance em três milhões (1/3000000) da amostra coletada no local não ser do suspeito. Se aplicarmos o teorema de Bayes a este problema, a hipótese alternativa (competidora) é a de que o homem é inocente. O que precisamos calcular é a probabilidade a posteriori de que ele é inocente (Pr{inocente}). Para tanto, precisamos conhecer a probabilidade da combinação entre seu DNA e todas as amostras obtidas na cena do crime (L {combinação do DNA|inocente}). Esta é 1/3000000, como definido anteriormente, mas o mais importante é conhecermos a probabilidade a priori {inocente}. Como determinar essa probabilidade a priori? Isto vai depender muito mais de como este homem foi escolhido para o teste de DNA. Imagine-se que existe uma base nacional de dados de DNA de todos os homens do País em questão e o acusado foi detectado durante a pesquisa nesta base de dados. Neste caso, a probabilidade a priori de que estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./abr. 2010. APLICAÇÃO DO MODELO BAYESIANO EM GENÉTICA FORENSE o homem é inocente será igual a 1 sobre o número de homens nesta base de dados, por exemplo, 10 milhões. A probabilidade a priori de que ele é inocente será então igual a 9999999 / 10000000. Se nós aplicarmos o teorema de Bayes para calcular a probabilidade que o homem é inocente nós obteremos (HILBORN; MANGEL, 1997): estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010. Pr {inocente|combinação de DNA} = 0,77 Dado o resultado e supondo que existam apenas duas hipóteses, a probabilidade que ele é culpado será igual a 0,23. Baseandose neste resultado somos levados a pensar que se nós pesquisarmos 10 milhões de amostras de DNA, é provável que nós precisaríamos de muito mais combinações para obter uma probabilidade de 1 em 3 milhões. No entanto, o interessante é que a probabilidade a posteriori de ser inocente depende da probabilidade a priori da inocência, bem como das evidências experimentais. Neste caso, a probabilidade a priori de que ele é inocente, muda de 1/3000000 para 77/100 de ser inocente. Em outras palavras, se existem apenas 10000 homens com idade adequada vivendo no local e apenas estes homens tiveram seu DNA amostrados, então a probabilidade a posteriori de ser inocente diminui de 0,77 para 0,003. Ao mesmo tempo em que isto pode certamente satisfazer os critérios de jornais científicos (5% ou 1%), a nova evidência a ser dada para o júri agora é de 3/1000, que é bastante diferente de 1/3000000! O método Bayesiano incorpora a informação a priori sobre o número de homens testados. Portanto, vemos que discriminar entre hipótese competitiva depende não apenas de resultados experimentais, mas em incorporar probabilidade a priori da hipótese durante as análises estatísticas (HILBORN; MANGEL, 1997). ALGUMAS VANTAGENS DO MODELO BAYESIANO COM DADOS GENÉTICOS Shoemaker (1999) descreveu recentemente algumas das principais vantagens do paradigma Bayesiano na análise de dados genéticos: 313 ● Enfocar uma questão de interesse de modo mais direto Em estudos de genética de populações, uma questão frequentemente analisada pelos métodos clássicos é testar se uma população encontra-se em Equilíbrio de Hardy-Weinberg (EHW), ou seja, se estamos tratando de grande populações (tendendo ao infinito), com acasalamentos ao acaso e livres de forças evolutivas (AYRES, BALDING, 1998; HOLSINGER, 1999). Para tanto, testa-se os dados obtidos contra dados esperados sob uma hipótese nula. Entretanto, em muitos casos, os experimentos não demonstram que a população está em EHW e pode falhar ao rejeitar uma falsa hipótese nula. A abordagem Bayesiana poderia refletir sobre questões mais relevantes sobre o assunto, como: seriam suficientemente grandes os desvios da população ao EHW? O tamanho do desvio, que é importante, varia com o contexto (AYRES, BALDING, 1998; SHOEMAKER, 1998; PEREIRA, ROGATKO, 1984). Na análise Bayesiana, a informação a priori é incorporada, como já foi dito. Ela é incorporada com a informação dos dados para gerar uma distribuição a posteriori sobre os valores dos parâmetros, de acordo com o teorema de Bayes (SHOEMAKER, 1999). Um exemplo seria o impacto de erros de sequenciamento de DNA usados para predizer sequências de proteínas. Erros de sequenciamento, tais como substituições de nucleotídeos, diminuem a habilidade de alinhar corretamente as sequências. Incluindo a informação a priori destes possíveis erros nos permitirá um alinhamento mais acurado e, caso disponha-se de informações a priori vagas, uma saída seria atribuir pesos diferentes a cada informação (SHOEMAKER, 1999). ● Evitar problemas com os testes de hipóteses múltiplas 314 Na estatística clássica, acessar a significância de várias hipóteses é um problema, pois apenas duas hipóteses podem ser comparadas simultaneamente. No método Bayesiano, a probabilidade a posteriori de cada hipótese é calculada. Em Sinsheimer estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./abr. 2010. ● Incorporar informação a priori et al. (1996), é demonstrado um caso de construção de topologias filogenéticas de quatro táxons, onde existem três possíveis topologias a considerar. Na estatística clássica, testar as três topologias é equivalente a três pares de testes de hipóteses, enquanto que na perspectiva Bayesiana isso é equivalente a calcular a probabilidade das três hipóteses e os resultados obtidos são mais facilmente interpretados. Enquanto que na estatística clássica a significância é acessada indiretamente, no método Bayesiano a significância é acessada diretamente calculandose a probabilidade de uma dada filogenia ser a correta. Mau e Newton (1997) testaram o método Bayesiano para a reconstrução de topologias filogenéticas e observaram que este método forneceu um nível de significância facilmente interpretado, bem como o método se mostrou mais eficiente. estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010. ● Solucionar problemas complexos por métodos Bayesianos Em muitos problemas genéticos, o número de parâmetros considerados é grande. Para mapear QTL´s (“Quantitative Traits Loci”), os parâmetros considerados são vários, tais como marcadores alélicos, frequência de alelos QTL, número de QTL etc (SHOEMAKER, 1999). Para reconstrução de filogenias, os parâmetros que podem ser considerados incluem taxas de substituições de nucleotídeos, taxas de transição ou transversão, tempo de especiação etc (SHOEMAKER, 1999). Portanto, em alguns problemas genéticos, torna-se necessário diferir os parâmetros de interesse primário de parâmetros de interesse secundário para a análise. O método Bayesiano fornece um caminho que permite quantificar a importância dos parâmetros secundários e incorporar estas informações à análise (SHOEMAKER, 1999). CONCLUSÃO Algumas críticas são feitas a abordagem Bayesiana, sendo uma delas a de que a escolha da distribuição a priori é subjetiva. Essa é uma crítica comum principalmente quando a distribuição a posteriori é muito sensível a escolha da priori. No entanto, todos os métodos estatísticos que usam probabilidades são subjetivos. Porém, uma dificuldade comum do método Bayesiano está na sua 315 complexidade. Distribuições a priori devem ser especificadas para os parâmetros e as posteriores integradas aos parâmetros secundários. Essa integração pode ser complicada na prática, especialmente se o parâmetro é espacialmente e dimensionalmente grande e complexo. Entretanto, o aumento do desenvolvimento computacional, juntamente com o uso de métodos MCMC (algoritmos de Monte Carlo baseado em Cadeias de Markov), tem tornado a metodologia Bayesiana mais acessível (SHOEMAKER, 1999; 1998). Em suma, a abordagem Bayesiana pode contribuir para o desenvolvimento de métodos mais apropriados na análise de dados genéticos, fornecendo uma alternativa para muitas questões que poderiam ser respondidas diretamente (SHOEMAKER, 1999). Além disso, a incerteza de todos os parâmetros pode ser quantificada e a informação a priori pode ser incorporada, permitindo novas evidências para se obter a probabilidade a posteriori, contribuindo assim com interpretações mais diretas e confiáveis, dos resultados experimentais. Abstract: this paper aims to discuss one more way for the statistical analysis of genetic data, the Bayesian model. The Bayesian statistics allows to incorporate a priori information, facilitating the interpretation of the results of new experiments, so a good way to solve complex problems in genetics in which the classical statistical sometimes fails. Keywords: Genetic data. Bayes'theorem. Priori probability. Posterior probability. Statistical analysis. Referências AYRES, K.; BALDING, D. J. Measuring departures from HardyWeinberg: a Markov chain Monte Carlo method for estimating coefficient. Heredity, n. 80, p. 769-777, 1998. 316 COELLHO, A. S. G. Abordagem bayesiana na análise genética de populações utilizando dados de marcadores moleculares. Tese (Doutorado) – Escola Superior de Agricultura Luiz Queiroz, Piracicaba, 2002. estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./abr. 2010. APPLIED BAYESIAN STATISTICAL GENETICS HILBORN, R.; MANGEL M. The Confrontation: Bayesian goodness of fit. In: HILBORN, R. The ecological detective: confronting models with data. New Jersey: Princeton University Press, 1997. HOLSINGER, K. E. Analysis of genetic diversity in geographically structured populations: A Bayesian perspective. Hereditas, n. 130, p. 245-255, 1999. MAU, B.; NEWTON, M. A. Philogenetic inference for binary data on dendograms using Markov chain in Monte Carlo methods. J. Comp. Graph. Stat., p. 122-131, 1997. PEREIRA, C.; ROGATKO, A. The Hardy-Weinberg equilibrium under a Bayesian perspective. Rev. Bras. Genet., n. 4, p. 689-707, 1984. SHOEMAKER, J. S.; PINTER, I. S.; WEIR, B. S. Bayesian statistics in genetics: a guide for the uninitiated. Trends in Genetics, v. 9, n. 15, p. 354-358, 1999. estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010. SHOEMAKER, J. et al. Bayesian characterization of hardyWeinberg disequilibrium. Genetics, n. 149, p. 2079-2088, 1998. SINSHEIMER, J. S. et al. Bayesian hypothesis testing of fourtaxon topologies using molecular sequence data. Biometrics, n. 52, p. 193-210, 1996. * Recebido em: 2009. Aprovado em: 2009. ** Programa de Pós-Graduação, Doutor em Ciências Ambientais pela Universidade Federal de Goiás (UFG). E-mail: [email protected]. 317