Ferramentas para Análise de Associação de Estudos de Varredura Genômica Jessica Priscila Rivas Santos(1) , Rosemeire Leovigildo Fiaccone(2) 1. Bolsista de Iniciação Científica do CNPq/UFBA 2. Departamento de Estatística da UFBA 1. Introdução Estudos de varredura genômica têm sido importante para um melhor entendimento da base genética de muitas doenças complexas uma vez que se baseiam no estudo simultâneo de vários polimorfismos sendo possível investigar a associação entre os mesmos e as referidas doenças. Além disso, vale ressaltar que esses estudos de associação entre fatores de risco genéticos e doenças têm ganhado destaque na literatura. Assim, a escolha de um modelo estatístico apropriado é parte inerente do mapeamento genético de doenças complexas em estudos com população humana uma vez que essas doenças envolvem a regulação de muitos genes e possíveis interações entre eles e com o ambiente. A idéia é explorar algumas ferramentas de análise estatística para associação com o propósito de adquirir competência no uso de softwares gratuitos em ambiente Windows, em particular Plink e R. É bom lembrar que existem inúmeros programas (gratuitos para download) com os mais diversos propósitos. Existe um site onde é possível encontrar a maioria destes programas, chamado Genetics Analysis Software (http://linkage.rockefeller.edu/soft/list1.html). 2. Metodologia 2.1 Conceitos Básicos em Genética O cromossomo é formado por uma molécula de DNA. Os genes distribuem-se nos cromossomos de forma linear e correspondem a seqüências de DNA que codificam proteínas. Cada gene tem uma posição definida em um determinado cromossomo, que é denominado de loco. Formas alternativas de um gene em um dado loco são denominadas de alelos e as características que se observam em indivíduos representam o fenótipo. Um conceito importante em genética é o Equilíbrio de Hardy-Weinberg que menciona à relação entre freqüência alélica e freqüência genética em uma população, sem seleção, mutação e migração. Ou seja, se as freqüências alélicas permanecem inalteradas ao longo de gerações sucessivas podemos afirmar que a população está em Equilíbrio de Hardy-Weinberg (EHW). Na verdade EHW é considerado uma medida de associação entre alelos em um único loco. Outros conceitos fundamentais são: ligação, desequilíbrio de ligação e estratificação populacional. Ligação está fundamentada no fato de que os fenótipos e alelos marcadores tendem a serem herdados juntos. Já o desequilíbrio de ligação diz respeito à associação não-aleatória de alelos em dois ou mais lócus, não necessariamente no mesmo cromossomo. Em mapeamento genético, as medidas de desequilíbrio de ligação entre locos se apresentam como uma ferramenta útil. O conceito de estratificação populacional implica na existência de grupos geneticamente diferentes dentro da população em estudo, logo a população pode se apresentar de forma homogênea ou possuir estratos. 2.2 Estudos Genéticos de Associação Em Epidemiologia Genética a definição de associação se estende à várias situações. Segundo, Batista (2006), o conceito de associação pode representar desequilíbrio de ligação na distribuição da freqüência alélica dos locos ou representar um sinal de ligação entre um loco candidato na regulação de uma doença. Historicamente, estudos de associação foram utilizados para examinar genes candidatos de interesse, escolhidos com base na hipótese de relevância biológica para a doença em estudo. Em particular, iremos nos concentrar nos estudos de associação genoma completo (GWAS genome-wide association study, em inglês). Dessa forma, podemos afirmar que o estudo de associação em genoma completo compara as freqüências alélicas de todos os marcadores polimórficos disponíveis em indivíduos (não relacionados) que possuam um determinado sintoma ou condição patológica e em controles saudáveis, a fim de identificar marcadores associados com uma específica doença. Há dois tipos básicos de estudos de associação do genoma completo: estudos de caso controle e estudos baseados em famílias. Uma principal vantagem de análise de caso controle reside na sua relativa simplicidade. A primeira desvantagem dessa abordagem é que, se houver estratificação populacional, os resultados dessa associação podem ser espúrios. Já os estudos em família têm como vantagem a falta da necessidade de emparelhamento no delineamento evitando assim possíveis problemas associados com estratificação populacional. Contudo, os estudos em família são menos poderosos quando comparado aos de caso controle. Os estudos de varredura genômica completo (ou GWAS) envolvem a caracterização de 500kb para 1000kb regiões (SNPs) exigindo assim uma carga computacional muito grande para contemplar a natureza alto-dimensional dos dados. Portanto é indispensável conhecer as ferramentas estatísticas e os softwares disponíveis e adequados para cada situação. 2.3 Métodos Estatísticos nos Estudos de Associação Existem dois métodos básicos para associação da doença: Métodos envolvendo desenho de caso-controle e desenho em famílias. Com suas respectivas vantagens e limitações, ambos fornecem ferramentas para identificação de variantes genéticas envolvendo doenças complexas. No desenho de caso-controle as probabilidades de ocorrência de certos genótipos ou alelos são comparadas entre um grupo de indivíduos afetados (casos) e não afetados (controles) dentro da amostra. Para isto existem duas abordagens de análises: no nível genotípico e no nível cromossômico. Entre as abordagens de análise podemos citar o teste Qui-Quadrado de Pearson ou o teste da razão do log da verossimilhança das freqüências dos grupos de alelos ou grupos de genótipos. Alternativamente, métodos computacionais intensivos podem ser considerados como métodos de reamostragem (bootstrapping) paramétrica, ou testes baseados em aleatorização como os testes permutacionais. Um exemplo clássico é o teste exato de Fisher. Já nos estudos em família, o teste de desequilíbrio de transmissão (TDT) e o do risco relativo do haplótipo (HHRR) são os mais difundidos. 3. Ferramentas Computacionais Este projeto tem basicamente um propósito principal que é servir como uma referência para as pessoas que estão iniciando um trabalho na área de genética, pois fornece ferramentas computacionais básicas para análise de dados genéticos. Para isto, encontrase abaixo uma lista contendo diversos programas utilizados na estatística genômica e suas principais características. Entretanto, destacaremos dois programas que foram utilizados neste projeto, Plink e R. 3.1. Programas de análise estatística para dados genéticos É perfeitamente compreensível deparamos com problemas computacionais no momento de realizar nossas análises, principalmente nos estudos de varredura genômica onde é necessário ter uma alta capacidade de memória de processamento e armazenamento. O autor do blog, Rodrigo Secolin (http://rodrigosecolin.blogspot.com) apresenta algumas dicas de programas computacionais para análise estatística de dados de genética citando como exemplo softwares bem específicos PEDCHECK (para análise de dados em família), HAPLOVIEW (para análise de dados de estudos caso controle e de estudos em família) envolvendo traços binários. Entretanto, destacaremos dois programas que foram utilizados neste projeto até o momento: PLINK e R. O PLINK contém um conjunto de ferramentas para análise de varredura genômica e foi projetado para executar diferentes bases de dados simultaneamente. É possível encontrá-lo no link: http://pngu.mgh.harvard.edu/~purcell/plink/index.shtml. O programa R, altamente difundido na comunidade acadêmica de Estatística, possui um package “ genetics” de simples uso para análise de dados genéticos. Ambos os programas usados neste projeto, possuem a vantagem de serem programas gratuitos, que podem ser instalados por qualquer usuário com simplicidade e praticidade. Em relação à leitura dos dados vale ressaltar que os arquivos utilizados no PLINK possuem duas extensões: “ped” e “map”. Esses arquivos estão em formato texto simples; os arquivos com extensão “ped” contêm informações sobre o genótipo (uma pessoa por linha) e os com extensão “map” contêm informações sobre o nome e a posição dos marcadores no arquivo “ped”. Muitas vezes é sugerido usar o programa R para visualização e tabulação quando os arquivos citados anteriormente são grandes. Para isto, existe um pacote “Rserve” que faz a comunicação entre o PLINK e o R. Neste trabalho iremos utilizar algumas análises que estão implementadas no R mas ainda não estão disponíveis no PLINK ou vice-versa, bem como procedimentos contidos em ambos softwares. Uma das vantagens que se pode destacar no PLINK é a facilidade de excluir os SNPs que estão em desequilíbrio de ligação, o que não acontece com o R. Entretanto uma das principais vantagens do R é a disponibilidade do recurso gráfico. Um exemplo prático também relacionado com a questão do desequilíbrio de ligação é a visualização de blocos de haplótipos, através de um simples gráfico. Quando esses blocos apresentam uma taxa de LD elevada, eles podem fornecer haplótipos para serem utilizados como marcadores genéticos. Além disso, poderiam também utilizar informações sobre o espaçamento de SNPs em estudos de associação, ou seja, onde SNPs devem ou não ser considerados. Usando alguns comandos no R, é possível visualizar este artifício gráfico: O gráfico resultante encontra-se na figura ao lado, onde o sombreamento representa o grau da intensidade de associação. Pairwise LD Physical Length:3kb Color Key 0 0.2 0.4 0.6 0.8 1 Dentro do contexto de associação genética, ambos os programas fornecem bons recursos para análise de dados. Para executar, por exemplo, uma análise de associação pelo teste exato de Fisher no PLINK basta usar a opção “plink – nomedoarquivo – Fisher”. De forma equivalente é possível utilizar a função “Fisher. Test” no R desde que a leitura dos dados esteja num formato de tabela. 4. Conclusão É notável que haja uma infinidade de problemas que podem ser resolvidos com maior rapidez e facilidade, através de ferramentas computacionais adequadas. Aqui vimos que o R e o Plink são programas úteis na análise de associação genética, apesar de ambos terem algumas desvantagens. Para amenizá-las é recomendável fazer uso de não apenas uma, mas de diversas ferramentas, onde uma possa complementar a funcionalidade da outra. 5. Referências Bibliográficas Batista, M. J. Análise de Associação aplicada ao mapeamento genético de doenças. Dissertação (Mestrado em Estatística), Universidade de São Paulo, 2006. Neale, B. M., Ferreira, M.AR., Medland, S.E., Posthuma,D. Statistical Genetics – Gene Mapping Through Linkage and Association. Taylor & Francis, 2008. Forabosco, P., Falchi, M.; Devoto, M.. Statistical tools for linkage analysis and genetic association studies. Expert Rev. Mol. Diagn., v.5 (5): 781-796, 2005. Foulkes, A.S. Applied statistical genetics with R – For population based Association Studies. Springer, 2009. Soler, J. M. P (USP). Métodos estatísticos em genética quantitativa (notas de aula). Biostatistical Aspects of Genome-Wide Association Studies. Biometrical Journal.V.50 (1): 8-28, 2008. Ziegler, A.