Jessica Rivas-Sinape 2010

Propaganda
Ferramentas para Análise de Associação de Estudos de
Varredura Genômica
Jessica Priscila Rivas Santos(1) , Rosemeire Leovigildo Fiaccone(2)
1. Bolsista de Iniciação Científica do CNPq/UFBA
2. Departamento de Estatística da UFBA
1. Introdução
Estudos de varredura genômica têm sido importante para um melhor entendimento da
base genética de muitas doenças complexas uma vez que se baseiam no estudo
simultâneo de vários polimorfismos sendo possível investigar a associação entre os
mesmos e as referidas doenças. Além disso, vale ressaltar que esses estudos de
associação entre fatores de risco genéticos e doenças têm ganhado destaque na
literatura. Assim, a escolha de um modelo estatístico apropriado é parte inerente do
mapeamento genético de doenças complexas em estudos com população humana uma
vez que essas doenças envolvem a regulação de muitos genes e possíveis interações
entre eles e com o ambiente.
A idéia é explorar algumas ferramentas de análise estatística para associação com o
propósito de adquirir competência no uso de softwares gratuitos em ambiente Windows,
em particular Plink e R. É bom lembrar que existem inúmeros programas (gratuitos para
download) com os mais diversos propósitos. Existe um site onde é possível encontrar a
maioria
destes
programas,
chamado
Genetics
Analysis
Software
(http://linkage.rockefeller.edu/soft/list1.html).
2. Metodologia
2.1 Conceitos Básicos em Genética
O cromossomo é formado por uma molécula de DNA. Os genes distribuem-se nos
cromossomos de forma linear e correspondem a seqüências de DNA que codificam
proteínas. Cada gene tem uma posição definida em um determinado cromossomo, que é
denominado de loco. Formas alternativas de um gene em um dado loco são
denominadas de alelos e as características que se observam em indivíduos representam
o fenótipo.
Um conceito importante em genética é o Equilíbrio de Hardy-Weinberg que menciona à
relação entre freqüência alélica e freqüência genética em uma população, sem seleção,
mutação e migração. Ou seja, se as freqüências alélicas permanecem inalteradas ao
longo de gerações sucessivas podemos afirmar que a população está em Equilíbrio de
Hardy-Weinberg (EHW). Na verdade EHW é considerado uma medida de associação
entre alelos em um único loco. Outros conceitos fundamentais são: ligação,
desequilíbrio de ligação e estratificação populacional. Ligação está fundamentada no
fato de que os fenótipos e alelos marcadores tendem a serem herdados juntos. Já o
desequilíbrio de ligação diz respeito à associação não-aleatória de alelos em dois ou
mais lócus, não necessariamente no mesmo cromossomo. Em mapeamento genético, as
medidas de desequilíbrio de ligação entre locos se apresentam como uma ferramenta
útil. O conceito de estratificação populacional implica na existência de grupos
geneticamente diferentes dentro da população em estudo, logo a população pode se
apresentar de forma homogênea ou possuir estratos.
2.2 Estudos Genéticos de Associação
Em Epidemiologia Genética a definição de associação se estende à várias situações.
Segundo, Batista (2006), o conceito de associação pode representar desequilíbrio de
ligação na distribuição da freqüência alélica dos locos ou representar um sinal de
ligação entre um loco candidato na regulação de uma doença.
Historicamente, estudos de associação foram utilizados para examinar genes candidatos
de interesse, escolhidos com base na hipótese de relevância biológica para a doença em
estudo. Em particular, iremos nos concentrar nos estudos de associação genoma
completo (GWAS genome-wide association study, em inglês). Dessa forma, podemos
afirmar que o estudo de associação em genoma completo compara as freqüências
alélicas de todos os marcadores polimórficos disponíveis em indivíduos (não
relacionados) que possuam um determinado sintoma ou condição patológica e em
controles saudáveis, a fim de identificar marcadores associados com uma específica
doença.
Há dois tipos básicos de estudos de associação do genoma completo: estudos de caso
controle e estudos baseados em famílias. Uma principal vantagem de análise de caso
controle reside na sua relativa simplicidade. A primeira desvantagem dessa abordagem é
que, se houver estratificação populacional, os resultados dessa associação podem ser
espúrios. Já os estudos em família têm como vantagem a falta da necessidade de
emparelhamento no delineamento evitando assim possíveis problemas associados com
estratificação populacional. Contudo, os estudos em família são menos poderosos
quando comparado aos de caso controle.
Os estudos de varredura genômica completo (ou GWAS) envolvem a caracterização de
500kb para 1000kb regiões (SNPs) exigindo assim uma carga computacional muito
grande para contemplar a natureza alto-dimensional dos dados. Portanto é indispensável
conhecer as ferramentas estatísticas e os softwares disponíveis e adequados para cada
situação.
2.3 Métodos Estatísticos nos Estudos de Associação
Existem dois métodos básicos para associação da doença: Métodos envolvendo desenho
de caso-controle e desenho em famílias. Com suas respectivas vantagens e limitações,
ambos fornecem ferramentas para identificação de variantes genéticas envolvendo
doenças complexas. No desenho de caso-controle as probabilidades de ocorrência de
certos genótipos ou alelos são comparadas entre um grupo de indivíduos afetados
(casos) e não afetados (controles) dentro da amostra. Para isto existem duas abordagens
de análises: no nível genotípico e no nível cromossômico. Entre as abordagens de
análise podemos citar o teste Qui-Quadrado de Pearson ou o teste da razão do log da
verossimilhança das freqüências dos grupos de alelos ou grupos de genótipos.
Alternativamente, métodos computacionais intensivos podem ser considerados como
métodos de reamostragem (bootstrapping) paramétrica, ou testes baseados em
aleatorização como os testes permutacionais. Um exemplo clássico é o teste exato de
Fisher. Já nos estudos em família, o teste de desequilíbrio de transmissão (TDT) e o do
risco relativo do haplótipo (HHRR) são os mais difundidos.
3. Ferramentas Computacionais
Este projeto tem basicamente um propósito principal que é servir como uma referência
para as pessoas que estão iniciando um trabalho na área de genética, pois fornece
ferramentas computacionais básicas para análise de dados genéticos. Para isto, encontrase abaixo uma lista contendo diversos programas utilizados na estatística genômica e
suas principais características. Entretanto, destacaremos dois programas que foram
utilizados neste projeto, Plink e R.
3.1. Programas de análise estatística para dados genéticos
É perfeitamente compreensível deparamos com problemas computacionais no momento
de realizar nossas análises, principalmente nos estudos de varredura genômica onde é
necessário ter uma alta capacidade de memória de processamento e armazenamento. O
autor do blog, Rodrigo Secolin (http://rodrigosecolin.blogspot.com) apresenta algumas
dicas de programas computacionais para análise estatística de dados de genética citando
como exemplo softwares bem específicos PEDCHECK (para análise de dados em
família), HAPLOVIEW (para análise de dados de estudos caso controle e de estudos em
família) envolvendo traços binários. Entretanto, destacaremos dois programas que
foram utilizados neste projeto até o momento: PLINK e R. O PLINK contém um
conjunto de ferramentas para análise de varredura genômica e foi projetado para
executar diferentes bases de dados simultaneamente. É possível encontrá-lo no link:
http://pngu.mgh.harvard.edu/~purcell/plink/index.shtml. O programa R, altamente
difundido na comunidade acadêmica de Estatística, possui um package “ genetics” de
simples uso para análise de dados genéticos.
Ambos os programas usados neste projeto, possuem a vantagem de serem programas
gratuitos, que podem ser instalados por qualquer usuário com simplicidade e
praticidade. Em relação à leitura dos dados vale ressaltar que os arquivos utilizados no
PLINK possuem duas extensões: “ped” e “map”. Esses arquivos estão em formato texto
simples; os arquivos com extensão “ped” contêm informações sobre o genótipo (uma
pessoa por linha) e os com extensão “map” contêm informações sobre o nome e a
posição dos marcadores no arquivo “ped”. Muitas vezes é sugerido usar o programa R
para visualização e tabulação quando os arquivos citados anteriormente são grandes.
Para isto, existe um pacote “Rserve” que faz a comunicação entre o PLINK e o R. Neste
trabalho iremos utilizar algumas análises que estão implementadas no R mas ainda não
estão disponíveis no PLINK ou vice-versa, bem como procedimentos contidos em
ambos softwares.
Uma das vantagens que se pode destacar no PLINK é a facilidade de excluir os SNPs
que estão em desequilíbrio de ligação, o que não acontece com o R. Entretanto uma das
principais vantagens do R é a disponibilidade do recurso gráfico. Um exemplo prático
também relacionado com a questão do desequilíbrio de ligação é a visualização de
blocos de haplótipos, através de um simples gráfico. Quando esses blocos apresentam
uma taxa de LD elevada, eles podem fornecer haplótipos para serem utilizados como
marcadores genéticos. Além disso, poderiam também utilizar informações sobre o
espaçamento de SNPs em estudos de associação, ou seja, onde SNPs devem ou não ser
considerados. Usando alguns comandos no R, é possível visualizar este artifício gráfico:
O gráfico resultante encontra-se na figura
ao lado, onde o sombreamento representa
o grau da intensidade de associação.
Pairwise LD
Physical Length:3kb
Color Key
0
0.2
0.4
0.6
0.8
1
Dentro do contexto de associação genética, ambos os programas fornecem bons
recursos para análise de dados. Para executar, por exemplo, uma análise de associação
pelo teste exato de Fisher no PLINK basta usar a opção “plink – nomedoarquivo –
Fisher”. De forma equivalente é possível utilizar a função “Fisher. Test” no R desde que
a leitura dos dados esteja num formato de tabela.
4. Conclusão
É notável que haja uma infinidade de problemas que podem ser resolvidos com maior
rapidez e facilidade, através de ferramentas computacionais adequadas. Aqui vimos que
o R e o Plink são programas úteis na análise de associação genética, apesar de ambos
terem algumas desvantagens. Para amenizá-las é recomendável fazer uso de não apenas
uma, mas de diversas ferramentas, onde uma possa complementar a funcionalidade da
outra.
5. Referências Bibliográficas
Batista, M. J. Análise de Associação aplicada ao mapeamento genético de doenças.
Dissertação (Mestrado em Estatística), Universidade de São Paulo, 2006.
Neale, B. M., Ferreira, M.AR., Medland, S.E., Posthuma,D. Statistical Genetics – Gene
Mapping Through Linkage and Association. Taylor & Francis, 2008.
Forabosco, P., Falchi, M.; Devoto, M.. Statistical tools for linkage analysis and genetic
association studies. Expert Rev. Mol. Diagn., v.5 (5): 781-796, 2005.
Foulkes, A.S. Applied statistical genetics with R – For population based Association
Studies. Springer, 2009.
Soler, J. M. P (USP). Métodos estatísticos em genética quantitativa (notas de aula).
Biostatistical Aspects of Genome-Wide Association Studies. Biometrical
Journal.V.50 (1): 8-28, 2008.
Ziegler, A.
Download