ufla_old - Lab. Biodados UFMG

Propaganda
Bioinformática
Dr. J. Miguel Ortega
Lab. Biodados, UFMG
1. Apresentação
O progresso recente no estudo de genomas no Brasil criou uma forte demanda para o
desenvolvimento e aplicação da bioinformática. Aparentemente a bioinformática é uma
ferramenta para a prospecção de informações dos dados biológicos após a sua obtenção. Na
realidade, a bioinformática é importante na condução do estudo de genomas desde os
passos iniciais. Sem dúvida, é também através dela que os dados são classificados e
publicados. Neste capítulo vamos abordar alguns passos onde a bioinformática se faz
presente em estudos de genomas e algumas tecnologias desenvolvidas pelo laboratório de
Biodados da UFMG.
2. A bioinformática e a era genômica
Há pouco tempo atrás, o seqüenciamento de DNA era conduzido em géis de poliacrilamida
e revelado com um auto-radiograma do gel, pois era baseado na polimerização de DNA
marcado radioativamente. Em geral, um operador eficiente obtinha oito seqüências por dia.
Na era genômica, um operador obtém, com auxílio de um equipamento seqüenciador
automático, 96 seqüências em duas horas e processa cinco grupos de 96 diariamente. Não é
incomum uma rede genoma contar com dez seqüenciadores automáticos. Muito embora o
operador possa processar essas seqüências com o software que é ofertado junto com o
equipamento, nem há tempo suficiente, nem os recursos disponíveis localmente são os
melhores possíveis. Por isso, a central de bioinformática inicia seu trabalho já no momento
da obtenção da seqüência.
Na verdade, é um mito da era genômica o conceito de que o seqüenciador automático gera
seqüências de DNA. A reação de seqüenciamento baseia-se na interrupção da
polimerização do DNA com precursores em cuja ribose faltam duas hidroxilas (di-desoxiriboses). Esses precursores que envenenam a reação estão presentes em baixa quantidade e
dispõe-se deles para as quatro bases, sendo que cada qual resulta em um uma fluorescência
diferenciada. O equipamento seqüenciador realiza uma eletroforese em capilar e detecta
esta fluorescência, produzindo um fluorograma, que é convertido em picos coloridos, por
isso denominados de cromatograma. Pois bem, o cromatograma é o produto gerado pelo
seqüenciador. Ele é interpretado por um software denominado nomeador de bases ou “base
caller”. O mais usado é o software PHRED. Assim, na era genômica, nem sequer a
seqüência do DNA é determinada sem bioinformática.
3. Software PHRED
O programa PHRED faz a leitura dos picos do cromatograma e nomeia a base
correspondente a cada pico. A esta nomeação, ele associa a probabilidade de erro do
processo e esta probabilidade é convertida em um índice de qualidade. Assim, na era
genômica as seqüências de DNA existem sempre acompanhadas de um arquivo que contém
os valores de qualidade da nomeação das bases. A escala de PHRED é similar à de pH, mas
adiciona um zero a mais. Por exemplo, se na análise de um dado pico a base T é nomeada
com uma chance de erro de um em 100, isto corresponde a 10-2 e extraindo-se o logaritmo
de seu inverso obtém-se o valor dois, portanto o valor de PHRED será 20. Se o erro for de
10%, o valor de PHRED será 10 e assim por diante.
Quando uma reação de seqüenciamento é analisada pelo software PHRED, verifica-se que
o início e o final dela apresentam valores de PHRED tão baixos que a nomeação é
praticamente aleatória, não correspondendo à verdade e nem sequer sendo reconhecível.
Portanto, é uma arte definir o valor de corte para podar as regiões de baixa qualidade das
seqüências. É notório que, tendo definindo com precisão este limite, a bioinformática pode
ampliar em muitas vezes a força de trabalho do operador do equipamento de
seqüenciamento automático, pois uma maior extensão da seqüência será aproveitada.
O Laboratório de Biodados em colaboração com o Laboratório de Computação Científica
da UFMG realizou estudos de calibração de valores de PHRED e demonstrou que é
possível podar as seqüências quando o valor de qualidade cai para PHRED 8; nessas
condições, as seqüências são o mais longas possíveis, contém 3% de erro global e são
eficientemente reconhecidas pelo programa BLAST, discutido adiante.
4. Bancos de dados de seqüências
As seqüências de DNA geradas no planeta são depositadas em três bancos de dados ditos
primários, pois acondicionam todos os tipos de dados, um americano, outro europeu e o
outro, japonês. Como eles trocam dados a cada 24 horas, é suficiente consultar um deles. O
mais próximo localmente é o GenBank, do “National Center for Biotechnology
Information” (NCBI). Em 1982 ele continha apenas 606 entradas e seu crescimento
exponencial na última década o levou a conter mais de 15 milhões de seqüências.
Dois tipos predominantes de seqüências são depositados, dentre vários. Um deles é o
resultado de seqüenciamento de DNA genômico. Esta abordagem é apropriada quando se
dispõe de uma enorme capacidade de seqüenciamento ou, em contrapartida, o genoma é
suficientemente pequeno, como o de bactérias. Por outro lado, organismos mais complexos
são sempre inicialmente caracterizados pelo seqüenciamento do conjunto de mRNA, os os
transcritos, ou o transcriptoma. Não se trabalha com mRNA, na verdade, e sim com uma
cópia obtida com o uso da transcriptase reversa, tornada dupla fita com uso de DNA
polimerase. A esta cópia se denomina cDNA. Geralmente a molécula de cDNA é produzida
a partir da cauda de poli(A) do mRNA, iniciada por um oligômero de 18 dT. Esta
amostragem tem a vantagem de focar diretamente na mensagem expressa, mas
necessariamente retrata apenas o tecido, estágio evolutivo, ou o momento em que a
expressão gênica foi avaliada. Os genes mais ativos são os mais amostrados, o que é um
entrave para a caracterização do total dos genes, mas pode ser usado como uma medida da
intensidade de expressão gênica. Muitos metazoários têm sido caracterizados por este
segundo tipo de abordagem. No GenBank, mais de 4 milhões de entradas humanas são
desse tipo e, delas, mais de um milhão foi feita no Brasil pela rede ONSA. A rede genoma
de Minas Gerais, da qual o laboratório de Biodados faz parte, está envolvida no estudo do
transcriptoma do Schistosoma mansoni, com a previsão de obtenção de 100 mil seqüências.
5. Etiquetas de Seqüências Expressas (ESTs)
A montagem das seqüências genômicas termina com a geração de um genoma completo.
Estima-se que, ao se gerar cerca de 10 vezes em comprimento de seqüências o tamanho de
um genoma, toda a sua extensão é coberta eficientemente. Todavia, o transcriptoma é
retratado de maneira diferente. São feitos seqüenciamentos de tentativa única, sem direito a
correção de erros inerentes do processo (cerca de 3% como mencionado antes), a partir das
extremidades, com o objetivo de etiquetar, ou documentar, a presença do referido transcrito
num transcriptoma. Esta Etiqueta de Seqüência Expressa (EST) é suficiente para que se
reconheça o transcrito, pois não é muito provável a ocorrência de sequer 40 bases em série
na ordem correta num transcriptoma como o humano. O procedimento é similar a retratar a
presença da palavra otorrinolaringologista na língua portuguesa com apenas uma
extremidade da palavra (otorrin...). O DNA é feito de desoxirribonucleotídeos, o mRNA de
ribonucleotídeos, mas a EST é feita de bytes em um computador. Ela não é uma molécula,
mas apenas a informação, assim como uma etiqueta de papelão pode falar sobre a
composição de uma peça de roupa. As ESTs são depositadas na divisão dbEST do
GenBank (data base for ESTs) e não são nada mais que o seqüenciamento parcial de cDNA
em tentativa única.
Uma variação de EST foi desenvolvida no Brasil e denominada ORESTES (ORF rich
ESTs). Ao invés de utilizar oligo dT para fazer a primeira fita do cDNA, são utilizados
iniciadores emprestados de outros projetos em temperatura muito inferior à específica, 37C
por exemplo, para um iniciador que anela especificamente a 60C. Isso faz com que o
iniciador permita a amplificação de um conjunto de mRNA aleatoriamente. Como o mesmo
iniciador é utilizado para, também na temperatura incorreta, gerar a segunda fita do cDNA,
é mais provável a cópia das partes centrais da molécula de cDNA. Por isso, a técnica de
ORESTES é tida como capaz de retratar melhor as ORFs, “Open Reading Frames” ou fases
de leitura abertas. ORESTES foram utilizados no projeto genoma de Schistosoma mansoni
da rede ONSA, dentre outros.
6. As seqüências geradas e depositadas
O formato FASTA é o mais simples utilizado para uma seqüência de DNA. Ele é sempre
iniciado pelo caracter “>”, seguido do identificador da seqüência, sem nenhum espaço em
branco. Vários identificadores, de bases de dados diferentes, podem se seguir após o “>”,
sempre separados pelo caracter “|”. Se o identificador é seguido pela descrição da
seqüência, esta é feita na mesma linha do identificador, mas após alguns espaços em
branco. Na linha seguinte é encontrada a seqüência, como abaixo:
>Gene5
EST com homologia à catalase
ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTGATGCTGACTGATCGTAGC
TAGCTGACTGATCGTACGTAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc
Quando a seqüência contém uma descrição, dizemos que ela foi “anotada”. A anotação de
seqüências é uma das mais intensas atividades da bioinformática. Quando uma seqüência é
maior que 50 nucleotídeos e não há erros em sua extensão, ela pode ser convertida a
proteína e depositada como seqüência de aminoácidos deduzida. Assim, ela pode ser
depositada numa divisão do GenBank chamada “Entrez Protein”.
7. O mundo BLAST
A anotação das seqüências é feita principalmente com o pacote de softwares BLAST. Este
programa é um alinhador local cuja finalidade é identificar, numa coleção de seqüências, as
que apresentam alinhamento significativo com a que se acabou de gerar (“query”).
Inicialmente ele fragmenta a “query” em pedaços pequenos e procura homologia perfeita na
base de dados. Depois, estende o alinhamento iniciado pela semente nas duas direções, até
produzir o máximo segmento alinhado. Ele descarta rapidamente todas as pesquisas com
pontuação baixa (escore baixo) e continua alinhando a vizinhança das regiões de boa
pontuação a´te chegar ao máximo valor. O alinhador local não quer chegar ao alinhamento
completo, mas identificar seqüências com um nível de homologia significativo. O
fundamento teórico por trás disso é que a função gênica está quase sempre confinada em
domínios contínuos de uma proteína, senão não faria sentido usar BLAST para anotação.
Identificando-se a seqüência com maior similaridade à “query”, é possível inferir a sua
função pela homologia apresentada com a seqüência identificada na base de dados
(denominada “subject”).
Há vários programas BLAST úteis. Alguns são usados quando a seqüência “query” é de
nucleotídeos (BLASTn, BLASTx e tBLASTx). Outros são usados quando a seqüência é de
aminoácidos (BLASTp e tBLASTn). E vários bancos de dados para se pesquisar - nr, pdb,
dbEST, yeast, month, etc. O banco de dados nr reúne todas as seqüências depositadas com
extração de redundância ao máximo exeqüível. Pode-se facilmente restringir a pesquisa
com limites a seqüências de um dado organismo. Quando a “query” é composta por
nucleotídeos e “subject”, a base de dados pesquisada, também, utiliza-se BLASTn. Mas se
com uma EST (nt) se procura uma proteína homóloga, utiliza-se a característica do mundo
BLAST, que é descartar alinhamentos não significativos com rapidez, perseguindo-se o
alinhamento melhor. Isso é obtido com BLASTx, que traduz as seis fases de leitura aberta
possíveis, produzindo seis proteínas, sendo que somente uma terá significado biológico. É
tão raro um único cDNA codificar para mais de uma proteína como encontrar canções onde
uma única expressão tenha duplo sentido (“d’acor” e “acorda” em canção de Chico
Buarque). Assim, uma EST pode ser anotada pela homologia com proteínas, utilizanso-se
BLASTx. É relevante lembrar que a conservação entre as proteínas de diversos organismos
é maior no nível de aminoácidos que em nível de DNA.
Um outro programa do pacote é o tBLASTx, que traduz ua seqüência de nucleotídeos
“query” para proteína nas 6 possibilidades, exatamente como BLASTx, e depois pesquisa
com essas 6 proteínas deduzidas um banco de dados de nucleotídeos, também traduzido
desta maneira. Imagine que a telomerase de Euplotes seja parecida com a telomerase
humana, mas os dois genomas não! Traduzindo a seqüência pesquisada e o banco de dados
dbEST, foi possível encontrar seqüências da telomerase humana homólogas à do
protozoário.
8. Aglomerados e o UniGene
Uma das atividades em bioinformática é formar aglomerados de todas as seqüências
geradas no projeto (como juntar as figurinhas repetidas de um álbum). Podemos saber
quantas vezes um gene foi seqüenciado, e detectar os mais freqüentes! E saber quantos dos
genes já foram detectados. Usa-se também a formação de aglomerados para validar
bibliotecas de cDNA. Não é esperado que a amostragem escape muito de uma distribuição
de Poisson, com a classe de genes amostrados apenas uma vez predominando, seguida das
demais em amostragem cada vez menores. Bibliotecas ruins apresentam grnade quantidade
de clones amostrados mais de uma vez, fugindo da distribuição de Poisson.
Vários programas têm sido usados para aglomeração: Icatools. PHRAP, Cap3, Cap4,
SWAT, BLASTn e MegaBLAST. O produto esperado é um aglomerado = um gene.
Alguns desse programas (PHRAP, Cap3) não foram criados para algomeração, mas para
junção de fragmentos de seqüências em uma única, mas como eles são capazes de desistir
se elas não forem relacionadas, alguns projetos genoma se apóiam nessa característica para
utilizá-los na geração de aglomerados.
Nota-se aqui que apenas com a aplicação de um algoritmo de aglomeração os genes
distintos são reconhecidos. O procedimento que adotamos na Rede Genoma de Minas
Gerais é similar àquele que gera o UniGene no NCBI. Inicialmente todas as seqüências são
comparadas contra todas com o uso de MegaBLAST, um programa similar a BLASTn mas
muito mais rápido por ser “guloso”. Somente alinhamentos com similaridade superior a
96% são separados e exige-se que regiões potencialmente alinháveis das seqüências
estejam alinhadas por pelo menos 70% desse tamanho, ou seja, foram eficientemente
alinhadas e são idênticas. Depois disso é conduzido o procedimento de “single linkage”, ou
seja, se a seqüência A é igual a B e B é igual a C, então estas três formam um aglomerado.
No NCBI, o UniGene representa a organização das seqüências do GenBank em um
conjunto de aglomerados, cada aglomerado do UniGene contendo as seqüências que
representam um gene único. E também informações relacionadas, como em que tecidos o
gene é expresso, onde está mapeado, etc.
9. Outros serviços
As informações genômicas são encontradas, no NCBI, no sub-site Entrez Genome. É
possível localizar genes nos diversos cromossomos. Uma base de dados importante é o
OMIM (“Online Mendelian Inheritance in Man”), um catálogo de genes humanos e
anomalias genéticas de autoria do Dr. Victor A. McKusick e seus colaboradores e
desenvolvido para a web pelo NCBI. O banco de dados PopSet apresenta depósitos de
polimorfismos de único nucleotídeo. O sub-site “Entrez Structure” acessa um banco de
dados de estruturas tridimencionais MMDB (“Molecular Modelling DataBase”, que é
equivalente ao banco de dados PDB excluindo-se os modelos teóricos). O banco de dados
KOG apresenta proteínas de organismos modelo como H. sapiens, D. melanogaster e A.
thaliana organizadas por categorias funcionais. O laboratório de biodados tem em seu
servidor (biodados.icb.ufmg.br) um serviço denominado “Protein Classification Tool”, que
realiza uma pesquisa BLAST em bases de dados como esta – KOG – e retorna não somente
a anotação, mas a classificação funcional da proteína. Inclusive modelagem molecular pode
ser feita em servidores na web, como o Swiss Model, desde que uma proteína homóloga já
tenha sido resolvida por cristalografia ou ressonância magnética nuclear e depositada no
banco de dados PDP ou MMDB, mencionados acima. São muitos os recursos
bioinformáticos disponíveis atualmente, na web ou através de distribuições de software
livre, para uso local. São também muitos os resultados de análises já feitas que são
depositadas na web. Alguns consideram que a bioinformática tem um quê de computação,
muito de biologia e alguma coisa de jornalismo, na publicação de resultados tão complexos
como os genomas, transcriptomas e proteomas.
Download