Revista Estudos.indd

ESTATÍSTICA BAYESIANA
APLICADA A GENÉTICA*
estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010.
Flávia Melo Rodrigues**
Resumo: este trabalho visa discorrer sobre mais um
caminho para a análise estatística de dados genéticos, o
modelo Bayesiano. A estatística Bayesiana permite incorporar informação a priori, facilitando a interpretação dos
resultados de novos experimentos, sendo assim um bom caminho para resolver problemas complexos em genética nos
quais a estatística clássica às vezes falha.
Palavras-chave: Dados genéticos. Teorema de Bayes.
Probabilidade a priori. Probabilidade a posteriori. Análise
estatística.
A
nálises estatísticas sempre foram utilizadas
em muitas áreas das pesquisas em Genética,
e muitos geneticistas são adeptos das chamadas estatísticas clássicas, ou “frequentistas”. No entanto, o
uso do método Bayesiano, uma concepção alternativa, tem
aumentado na comunidade de estatísticos e de geneticistas,
que tem observado o poder desta abordagem (COELLHO,
2002; SHOEMAKER, 1999, 1998). A estatística Bayesiana pode facilitar a interpretação dos resultados, sendo mais
um caminho para resolver alguns problemas complexos em
genética nos quais a estatística clássica às vezes falha. Esta
abordagem tem sido utilizada em várias áreas da genética,
309
incluindo genética de populações, classificação genotípica, estimativas de parentesco, evolução molecular, genética quantitativa,
mapas de ligação gênica, etc (SHOEMAKER, 1999; 1998). Sua
utilidade reside no fato de oferecer uma abordagem mais direta
para algumas questões, incorporando a informações disponíveis
a priori, fornecendo uma maneira mais simples de interpretar os
resultados (SHOEMAKER, 1999). Este trabalho tem como objetivo discorrer sobre mais um caminho satisfatório para a análise
estatística de dados genéticos, o modelo Bayesiano.
310
Suponha que se pretende estudar a estrutura genética de
20 comunidades de um determinado organismo e que para
isso iremos considerar estudos prévios realizados em uma
dessas 20 comunidades. Será que descartar as informações
das outras 19 comunidades não será relevante no estudo? Para
obtermos esta resposta precisamos de um modelo que incorpore a informação a priori, e o método Bayesiano permite
esta incorporação. O método Bayesiano produz estimativas
de probabilidades de hipóteses alternativas, baseado em todos
os dados disponíveis (HILBORN; MANGEL, 1997).
A probabilidade para os estatísticos clássicos significa uma
frequência em longo prazo (“long-term frequency”), ou seja, a
probabilidade pode ser acessada a partir de um experimento repetido muitas vezes sob as mesmas circunstâncias (HILBORN;
MANGEL, 1997). No paradigma Bayesiano também se usa a
probabilidade para acessar significância estatística dos resultados, mas a definição de probabilidade é expandida (HILBORN;
MANGEL, 1997). No método Bayesiano, a probabilidade é uma
medida direta da incerteza, e pode ou não representar uma frequência em longo prazo (SHOEMAKER, 1999).
Por exemplo, suponha que temos duas hipóteses (H1 e H2)
e nossos estudos mostraram que H1 tem 90% de probabilidade de ser verdadeira. Poderíamos resolver parar o trabalho por
aqui. No entanto, outro caminho pode ser seguido, ou seja, podemos combinar resultados de vários experimentos anteriores para
determinar as probabilidades finais de H1 e H2. Podemos não
apenas incluir resultados de nosso experimento, mas também de
estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./abr. 2010.
O MODELO BAYESIANO
estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010.
trabalhos prévios e assim perceber quão sem sentido podem ser
nossos resultados sem levar em consideração resultados de outros experimentos (HILBORN; MANGEL, 1997). O teorema de
Bayes fornece um caminho simples para usar todas as informações possíveis (COELLHO, 2002, SHOEMAKER, 1999).
Por exemplo, admita-se que pretendemos definir o modo de
herança de uma característica em plantas. No método estatístico
clássico, assume-se um modo particular de herança, calcula-se a
frequência fenotípica esperada por este modo de herança, realiza-se
os experimentos, obtém-se a frequência observada e, utilizando métodos clássicos, compara-se as duas frequências. O teste estatístico
leva a um valor de probabilidade (P), que é uma afirmativa de frequência em longo prazo sobre os dados, ou seja, é significativa ou não
a diferença entre as frequências fenotípicas observada e esperada?
Por outro lado, no método Bayesiano, o cálculo da probabilidade é
feito sobre o parâmetro. No caso anterior, por exemplo, poder-se-ia
considerar simultaneamente mais de um modo de herança e calcular
a probabilidade associada a cada um deles (SHOEMAKER, 1999).
Porém, para a aplicação do teorema de Bayes, é necessário conhecer
as probabilidades a priori e as probabilidades condicionais. A probabilidade a priori de uma determinada hipótese está sumarizada
nos conhecimentos que temos antes do experimento, enquanto que
a probabilidade a posteriori resultará da combinação destes com
novos experimentos (HILBORN; MANGEL, 1997). Podemos descrever o cálculo da probabilidade a posteriori (Pr {Hi|X}), condicional ao conjunto de dados observados (X), como:
Assim sendo, se considerarmos dois eventos A e B, a probabilidade a posteriori Pr {A|B} será a probabilidade de X dado
a hipótese Hi (L{X|Hi}) e Pr {B} será a probabilidade a priori
(Priori{Hi}) (HILBORN; MANGEL, 1997).
Por exemplo, sabe-se que nossos resultados sugerem que a
hipótese H1 tem 80% de probabilidade de chance de ser verdadeira e 20% de H2 ser verdadeira. Mas suponha-se que experimentos anteriores resultaram em 60% de probabilidade de H1 e
311
40% de probabilidade de H2 serem verdadeiras, respectivamente. Esses últimos valores (experimento prévio) podem ser tratados como a informação a priori e, usando o teorema de Bayes,
obteremos (HILBORN, MANGEL, 1997):
Se considerarmos que existem apenas estas duas hipóteses
(H1 e H2), então a probabilidade de H2 será: Pr {H2|ambos experimentos} = 1 - Pr {H1|ambos experimentos}, portanto igual a
0,143. Devido à incorporação da informação a priori ao segundo experimento, foi possível uma melhor discriminação entre as
duas hipóteses. O ponto importante do teorema de Bayes é que
ele faz uma distinção entre hipóteses competidoras, dependendo
não só de seus resultados experimentais, mas também de probabilidades a priori das hipóteses (HILBORN; MANGEL, 1997).
312
Para exemplificarmos a aplicação da abordagem Bayesiana,
suponhamos que uma amostra de DNA obtida na cena do crime
sentenciou um suspeito a cumprir 60 anos de prisão, através da
técnica de DNA “fingerprinting”, pois os estudos mostraram que
há apenas uma chance em três milhões (1/3000000) da amostra
coletada no local não ser do suspeito. Se aplicarmos o teorema
de Bayes a este problema, a hipótese alternativa (competidora)
é a de que o homem é inocente. O que precisamos calcular é a
probabilidade a posteriori de que ele é inocente (Pr{inocente}).
Para tanto, precisamos conhecer a probabilidade da combinação
entre seu DNA e todas as amostras obtidas na cena do crime (L
{combinação do DNA|inocente}). Esta é 1/3000000, como definido anteriormente, mas o mais importante é conhecermos a
probabilidade a priori {inocente}. Como determinar essa probabilidade a priori? Isto vai depender muito mais de como este
homem foi escolhido para o teste de DNA. Imagine-se que existe uma base nacional de dados de DNA de todos os homens do
País em questão e o acusado foi detectado durante a pesquisa
nesta base de dados. Neste caso, a probabilidade a priori de que
estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./abr. 2010.
APLICAÇÃO DO MODELO BAYESIANO EM
GENÉTICA FORENSE
o homem é inocente será igual a 1 sobre o número de homens
nesta base de dados, por exemplo, 10 milhões. A probabilidade a priori de que ele é inocente será então igual a 9999999 /
10000000. Se nós aplicarmos o teorema de Bayes para calcular
a probabilidade que o homem é inocente nós obteremos (HILBORN; MANGEL, 1997):
estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010.
Pr {inocente|combinação de DNA} = 0,77
Dado o resultado e supondo que existam apenas duas hipóteses, a probabilidade que ele é culpado será igual a 0,23. Baseandose neste resultado somos levados a pensar que se nós pesquisarmos
10 milhões de amostras de DNA, é provável que nós precisaríamos
de muito mais combinações para obter uma probabilidade de 1
em 3 milhões. No entanto, o interessante é que a probabilidade a
posteriori de ser inocente depende da probabilidade a priori da
inocência, bem como das evidências experimentais. Neste caso, a
probabilidade a priori de que ele é inocente, muda de 1/3000000
para 77/100 de ser inocente. Em outras palavras, se existem apenas
10000 homens com idade adequada vivendo no local e apenas estes homens tiveram seu DNA amostrados, então a probabilidade a
posteriori de ser inocente diminui de 0,77 para 0,003. Ao mesmo
tempo em que isto pode certamente satisfazer os critérios de jornais científicos (5% ou 1%), a nova evidência a ser dada para o júri
agora é de 3/1000, que é bastante diferente de 1/3000000! O método Bayesiano incorpora a informação a priori sobre o número de
homens testados. Portanto, vemos que discriminar entre hipótese
competitiva depende não apenas de resultados experimentais, mas
em incorporar probabilidade a priori da hipótese durante as análises estatísticas (HILBORN; MANGEL, 1997).
ALGUMAS VANTAGENS DO MODELO BAYESIANO COM
DADOS GENÉTICOS
Shoemaker (1999) descreveu recentemente algumas das principais vantagens do paradigma Bayesiano na análise de dados genéticos:
313
● Enfocar uma questão de interesse de modo mais direto
Em estudos de genética de populações, uma questão frequentemente analisada pelos métodos clássicos é testar se
uma população encontra-se em Equilíbrio de Hardy-Weinberg
(EHW), ou seja, se estamos tratando de grande populações (tendendo ao infinito), com acasalamentos ao acaso e livres de forças evolutivas (AYRES, BALDING, 1998; HOLSINGER, 1999).
Para tanto, testa-se os dados obtidos contra dados esperados sob
uma hipótese nula. Entretanto, em muitos casos, os experimentos não demonstram que a população está em EHW e pode falhar ao rejeitar uma falsa hipótese nula. A abordagem Bayesiana
poderia refletir sobre questões mais relevantes sobre o assunto,
como: seriam suficientemente grandes os desvios da população
ao EHW? O tamanho do desvio, que é importante, varia com o
contexto (AYRES, BALDING, 1998; SHOEMAKER, 1998; PEREIRA, ROGATKO, 1984).
Na análise Bayesiana, a informação a priori é incorporada,
como já foi dito. Ela é incorporada com a informação dos dados
para gerar uma distribuição a posteriori sobre os valores dos parâmetros, de acordo com o teorema de Bayes (SHOEMAKER,
1999). Um exemplo seria o impacto de erros de sequenciamento de DNA usados para predizer sequências de proteínas. Erros de sequenciamento, tais como substituições de nucleotídeos,
diminuem a habilidade de alinhar corretamente as sequências.
Incluindo a informação a priori destes possíveis erros nos permitirá um alinhamento mais acurado e, caso disponha-se de informações a priori vagas, uma saída seria atribuir pesos diferentes a cada informação (SHOEMAKER, 1999).
● Evitar problemas com os testes de hipóteses múltiplas
314
Na estatística clássica, acessar a significância de várias hipóteses é um problema, pois apenas duas hipóteses podem ser
comparadas simultaneamente. No método Bayesiano, a probabilidade a posteriori de cada hipótese é calculada. Em Sinsheimer
estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./abr. 2010.
● Incorporar informação a priori
et al. (1996), é demonstrado um caso de construção de topologias filogenéticas de quatro táxons, onde existem três possíveis
topologias a considerar. Na estatística clássica, testar as três
topologias é equivalente a três pares de testes de hipóteses, enquanto que na perspectiva Bayesiana isso é equivalente a calcular a probabilidade das três hipóteses e os resultados obtidos
são mais facilmente interpretados. Enquanto que na estatística
clássica a significância é acessada indiretamente, no método
Bayesiano a significância é acessada diretamente calculandose a probabilidade de uma dada filogenia ser a correta. Mau e
Newton (1997) testaram o método Bayesiano para a reconstrução de topologias filogenéticas e observaram que este método forneceu um nível de significância facilmente interpretado,
bem como o método se mostrou mais eficiente.
estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010.
● Solucionar problemas complexos por métodos Bayesianos
Em muitos problemas genéticos, o número de parâmetros
considerados é grande. Para mapear QTL´s (“Quantitative Traits
Loci”), os parâmetros considerados são vários, tais como marcadores alélicos, frequência de alelos QTL, número de QTL etc
(SHOEMAKER, 1999). Para reconstrução de filogenias, os parâmetros que podem ser considerados incluem taxas de substituições de nucleotídeos, taxas de transição ou transversão, tempo
de especiação etc (SHOEMAKER, 1999). Portanto, em alguns
problemas genéticos, torna-se necessário diferir os parâmetros
de interesse primário de parâmetros de interesse secundário para
a análise. O método Bayesiano fornece um caminho que permite
quantificar a importância dos parâmetros secundários e incorporar estas informações à análise (SHOEMAKER, 1999).
CONCLUSÃO
Algumas críticas são feitas a abordagem Bayesiana, sendo
uma delas a de que a escolha da distribuição a priori é subjetiva.
Essa é uma crítica comum principalmente quando a distribuição a
posteriori é muito sensível a escolha da priori. No entanto, todos
os métodos estatísticos que usam probabilidades são subjetivos.
Porém, uma dificuldade comum do método Bayesiano está na sua
315
complexidade. Distribuições a priori devem ser especificadas
para os parâmetros e as posteriores integradas aos parâmetros
secundários. Essa integração pode ser complicada na prática, especialmente se o parâmetro é espacialmente e dimensionalmente
grande e complexo. Entretanto, o aumento do desenvolvimento
computacional, juntamente com o uso de métodos MCMC (algoritmos de Monte Carlo baseado em Cadeias de Markov), tem tornado a metodologia Bayesiana mais acessível (SHOEMAKER,
1999; 1998). Em suma, a abordagem Bayesiana pode contribuir
para o desenvolvimento de métodos mais apropriados na análise
de dados genéticos, fornecendo uma alternativa para muitas questões que poderiam ser respondidas diretamente (SHOEMAKER,
1999). Além disso, a incerteza de todos os parâmetros pode ser
quantificada e a informação a priori pode ser incorporada, permitindo novas evidências para se obter a probabilidade a posteriori,
contribuindo assim com interpretações mais diretas e confiáveis,
dos resultados experimentais.
Abstract: this paper aims to discuss one more way for the statistical analysis of genetic data, the Bayesian model. The Bayesian
statistics allows to incorporate a priori information, facilitating
the interpretation of the results of new experiments, so a good
way to solve complex problems in genetics in which the classical
statistical sometimes fails.
Keywords: Genetic data. Bayes'theorem. Priori probability.
Posterior probability. Statistical analysis.
Referências
AYRES, K.; BALDING, D. J. Measuring departures from HardyWeinberg: a Markov chain Monte Carlo method for estimating
coefficient. Heredity, n. 80, p. 769-777, 1998.
316
COELLHO, A. S. G. Abordagem bayesiana na análise genética
de populações utilizando dados de marcadores moleculares.
Tese (Doutorado) – Escola Superior de Agricultura Luiz Queiroz,
Piracicaba, 2002.
estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./abr. 2010.
APPLIED BAYESIAN STATISTICAL GENETICS
HILBORN, R.; MANGEL M. The Confrontation: Bayesian
goodness of fit. In: HILBORN, R. The ecological detective:
confronting models with data. New Jersey: Princeton University
Press, 1997.
HOLSINGER, K. E. Analysis of genetic diversity in
geographically structured populations: A Bayesian perspective.
Hereditas, n. 130, p. 245-255, 1999.
MAU, B.; NEWTON, M. A. Philogenetic inference for binary
data on dendograms using Markov chain in Monte Carlo methods.
J. Comp. Graph. Stat., p. 122-131, 1997.
PEREIRA, C.; ROGATKO, A. The Hardy-Weinberg equilibrium
under a Bayesian perspective. Rev. Bras. Genet., n. 4, p. 689-707,
1984.
SHOEMAKER, J. S.; PINTER, I. S.; WEIR, B. S. Bayesian
statistics in genetics: a guide for the uninitiated. Trends in
Genetics, v. 9, n. 15, p. 354-358, 1999.
estudos, Goiânia, v. 37, n. 3/4, p. 309-317, mar./fev. 2010.
SHOEMAKER, J. et al. Bayesian characterization of hardyWeinberg disequilibrium. Genetics, n. 149, p. 2079-2088, 1998.
SINSHEIMER, J. S. et al. Bayesian hypothesis testing of fourtaxon topologies using molecular sequence data. Biometrics, n.
52, p. 193-210, 1996.
* Recebido em: 2009.
Aprovado em: 2009.
** Programa de Pós-Graduação, Doutor em Ciências Ambientais pela Universidade Federal de Goiás (UFG). E-mail: [email protected].
317