Bioinformática Dr. J. Miguel Ortega Lab. Biodados, UFMG 1. Apresentação O progresso recente no estudo de genomas no Brasil criou uma forte demanda para o desenvolvimento e aplicação da bioinformática. Aparentemente a bioinformática é uma ferramenta para a prospecção de informações dos dados biológicos após a sua obtenção. Na realidade, a bioinformática é importante na condução do estudo de genomas desde os passos iniciais. Sem dúvida, é também através dela que os dados são classificados e publicados. Neste capítulo vamos abordar alguns passos onde a bioinformática se faz presente em estudos de genomas e algumas tecnologias desenvolvidas pelo laboratório de Biodados da UFMG. 2. A bioinformática e a era genômica Há pouco tempo atrás, o seqüenciamento de DNA era conduzido em géis de poliacrilamida e revelado com um auto-radiograma do gel, pois era baseado na polimerização de DNA marcado radioativamente. Em geral, um operador eficiente obtinha oito seqüências por dia. Na era genômica, um operador obtém, com auxílio de um equipamento seqüenciador automático, 96 seqüências em duas horas e processa cinco grupos de 96 diariamente. Não é incomum uma rede genoma contar com dez seqüenciadores automáticos. Muito embora o operador possa processar essas seqüências com o software que é ofertado junto com o equipamento, nem há tempo suficiente, nem os recursos disponíveis localmente são os melhores possíveis. Por isso, a central de bioinformática inicia seu trabalho já no momento da obtenção da seqüência. Na verdade, é um mito da era genômica o conceito de que o seqüenciador automático gera seqüências de DNA. A reação de seqüenciamento baseia-se na interrupção da polimerização do DNA com precursores em cuja ribose faltam duas hidroxilas (di-desoxiriboses). Esses precursores que envenenam a reação estão presentes em baixa quantidade e dispõe-se deles para as quatro bases, sendo que cada qual resulta em um uma fluorescência diferenciada. O equipamento seqüenciador realiza uma eletroforese em capilar e detecta esta fluorescência, produzindo um fluorograma, que é convertido em picos coloridos, por isso denominados de cromatograma. Pois bem, o cromatograma é o produto gerado pelo seqüenciador. Ele é interpretado por um software denominado nomeador de bases ou “base caller”. O mais usado é o software PHRED. Assim, na era genômica, nem sequer a seqüência do DNA é determinada sem bioinformática. 3. Software PHRED O programa PHRED faz a leitura dos picos do cromatograma e nomeia a base correspondente a cada pico. A esta nomeação, ele associa a probabilidade de erro do processo e esta probabilidade é convertida em um índice de qualidade. Assim, na era genômica as seqüências de DNA existem sempre acompanhadas de um arquivo que contém os valores de qualidade da nomeação das bases. A escala de PHRED é similar à de pH, mas adiciona um zero a mais. Por exemplo, se na análise de um dado pico a base T é nomeada com uma chance de erro de um em 100, isto corresponde a 10-2 e extraindo-se o logaritmo de seu inverso obtém-se o valor dois, portanto o valor de PHRED será 20. Se o erro for de 10%, o valor de PHRED será 10 e assim por diante. Quando uma reação de seqüenciamento é analisada pelo software PHRED, verifica-se que o início e o final dela apresentam valores de PHRED tão baixos que a nomeação é praticamente aleatória, não correspondendo à verdade e nem sequer sendo reconhecível. Portanto, é uma arte definir o valor de corte para podar as regiões de baixa qualidade das seqüências. É notório que, tendo definindo com precisão este limite, a bioinformática pode ampliar em muitas vezes a força de trabalho do operador do equipamento de seqüenciamento automático, pois uma maior extensão da seqüência será aproveitada. O Laboratório de Biodados em colaboração com o Laboratório de Computação Científica da UFMG realizou estudos de calibração de valores de PHRED e demonstrou que é possível podar as seqüências quando o valor de qualidade cai para PHRED 8; nessas condições, as seqüências são o mais longas possíveis, contém 3% de erro global e são eficientemente reconhecidas pelo programa BLAST, discutido adiante. 4. Bancos de dados de seqüências As seqüências de DNA geradas no planeta são depositadas em três bancos de dados ditos primários, pois acondicionam todos os tipos de dados, um americano, outro europeu e o outro, japonês. Como eles trocam dados a cada 24 horas, é suficiente consultar um deles. O mais próximo localmente é o GenBank, do “National Center for Biotechnology Information” (NCBI). Em 1982 ele continha apenas 606 entradas e seu crescimento exponencial na última década o levou a conter mais de 15 milhões de seqüências. Dois tipos predominantes de seqüências são depositados, dentre vários. Um deles é o resultado de seqüenciamento de DNA genômico. Esta abordagem é apropriada quando se dispõe de uma enorme capacidade de seqüenciamento ou, em contrapartida, o genoma é suficientemente pequeno, como o de bactérias. Por outro lado, organismos mais complexos são sempre inicialmente caracterizados pelo seqüenciamento do conjunto de mRNA, os os transcritos, ou o transcriptoma. Não se trabalha com mRNA, na verdade, e sim com uma cópia obtida com o uso da transcriptase reversa, tornada dupla fita com uso de DNA polimerase. A esta cópia se denomina cDNA. Geralmente a molécula de cDNA é produzida a partir da cauda de poli(A) do mRNA, iniciada por um oligômero de 18 dT. Esta amostragem tem a vantagem de focar diretamente na mensagem expressa, mas necessariamente retrata apenas o tecido, estágio evolutivo, ou o momento em que a expressão gênica foi avaliada. Os genes mais ativos são os mais amostrados, o que é um entrave para a caracterização do total dos genes, mas pode ser usado como uma medida da intensidade de expressão gênica. Muitos metazoários têm sido caracterizados por este segundo tipo de abordagem. No GenBank, mais de 4 milhões de entradas humanas são desse tipo e, delas, mais de um milhão foi feita no Brasil pela rede ONSA. A rede genoma de Minas Gerais, da qual o laboratório de Biodados faz parte, está envolvida no estudo do transcriptoma do Schistosoma mansoni, com a previsão de obtenção de 100 mil seqüências. 5. Etiquetas de Seqüências Expressas (ESTs) A montagem das seqüências genômicas termina com a geração de um genoma completo. Estima-se que, ao se gerar cerca de 10 vezes em comprimento de seqüências o tamanho de um genoma, toda a sua extensão é coberta eficientemente. Todavia, o transcriptoma é retratado de maneira diferente. São feitos seqüenciamentos de tentativa única, sem direito a correção de erros inerentes do processo (cerca de 3% como mencionado antes), a partir das extremidades, com o objetivo de etiquetar, ou documentar, a presença do referido transcrito num transcriptoma. Esta Etiqueta de Seqüência Expressa (EST) é suficiente para que se reconheça o transcrito, pois não é muito provável a ocorrência de sequer 40 bases em série na ordem correta num transcriptoma como o humano. O procedimento é similar a retratar a presença da palavra otorrinolaringologista na língua portuguesa com apenas uma extremidade da palavra (otorrin...). O DNA é feito de desoxirribonucleotídeos, o mRNA de ribonucleotídeos, mas a EST é feita de bytes em um computador. Ela não é uma molécula, mas apenas a informação, assim como uma etiqueta de papelão pode falar sobre a composição de uma peça de roupa. As ESTs são depositadas na divisão dbEST do GenBank (data base for ESTs) e não são nada mais que o seqüenciamento parcial de cDNA em tentativa única. Uma variação de EST foi desenvolvida no Brasil e denominada ORESTES (ORF rich ESTs). Ao invés de utilizar oligo dT para fazer a primeira fita do cDNA, são utilizados iniciadores emprestados de outros projetos em temperatura muito inferior à específica, 37C por exemplo, para um iniciador que anela especificamente a 60C. Isso faz com que o iniciador permita a amplificação de um conjunto de mRNA aleatoriamente. Como o mesmo iniciador é utilizado para, também na temperatura incorreta, gerar a segunda fita do cDNA, é mais provável a cópia das partes centrais da molécula de cDNA. Por isso, a técnica de ORESTES é tida como capaz de retratar melhor as ORFs, “Open Reading Frames” ou fases de leitura abertas. ORESTES foram utilizados no projeto genoma de Schistosoma mansoni da rede ONSA, dentre outros. 6. As seqüências geradas e depositadas O formato FASTA é o mais simples utilizado para uma seqüência de DNA. Ele é sempre iniciado pelo caracter “>”, seguido do identificador da seqüência, sem nenhum espaço em branco. Vários identificadores, de bases de dados diferentes, podem se seguir após o “>”, sempre separados pelo caracter “|”. Se o identificador é seguido pela descrição da seqüência, esta é feita na mesma linha do identificador, mas após alguns espaços em branco. Na linha seguinte é encontrada a seqüência, como abaixo: >Gene5 EST com homologia à catalase ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTGATGCTGACTGATCGTAGC TAGCTGACTGATCGTACGTAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc Quando a seqüência contém uma descrição, dizemos que ela foi “anotada”. A anotação de seqüências é uma das mais intensas atividades da bioinformática. Quando uma seqüência é maior que 50 nucleotídeos e não há erros em sua extensão, ela pode ser convertida a proteína e depositada como seqüência de aminoácidos deduzida. Assim, ela pode ser depositada numa divisão do GenBank chamada “Entrez Protein”. 7. O mundo BLAST A anotação das seqüências é feita principalmente com o pacote de softwares BLAST. Este programa é um alinhador local cuja finalidade é identificar, numa coleção de seqüências, as que apresentam alinhamento significativo com a que se acabou de gerar (“query”). Inicialmente ele fragmenta a “query” em pedaços pequenos e procura homologia perfeita na base de dados. Depois, estende o alinhamento iniciado pela semente nas duas direções, até produzir o máximo segmento alinhado. Ele descarta rapidamente todas as pesquisas com pontuação baixa (escore baixo) e continua alinhando a vizinhança das regiões de boa pontuação a´te chegar ao máximo valor. O alinhador local não quer chegar ao alinhamento completo, mas identificar seqüências com um nível de homologia significativo. O fundamento teórico por trás disso é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína, senão não faria sentido usar BLAST para anotação. Identificando-se a seqüência com maior similaridade à “query”, é possível inferir a sua função pela homologia apresentada com a seqüência identificada na base de dados (denominada “subject”). Há vários programas BLAST úteis. Alguns são usados quando a seqüência “query” é de nucleotídeos (BLASTn, BLASTx e tBLASTx). Outros são usados quando a seqüência é de aminoácidos (BLASTp e tBLASTn). E vários bancos de dados para se pesquisar - nr, pdb, dbEST, yeast, month, etc. O banco de dados nr reúne todas as seqüências depositadas com extração de redundância ao máximo exeqüível. Pode-se facilmente restringir a pesquisa com limites a seqüências de um dado organismo. Quando a “query” é composta por nucleotídeos e “subject”, a base de dados pesquisada, também, utiliza-se BLASTn. Mas se com uma EST (nt) se procura uma proteína homóloga, utiliza-se a característica do mundo BLAST, que é descartar alinhamentos não significativos com rapidez, perseguindo-se o alinhamento melhor. Isso é obtido com BLASTx, que traduz as seis fases de leitura aberta possíveis, produzindo seis proteínas, sendo que somente uma terá significado biológico. É tão raro um único cDNA codificar para mais de uma proteína como encontrar canções onde uma única expressão tenha duplo sentido (“d’acor” e “acorda” em canção de Chico Buarque). Assim, uma EST pode ser anotada pela homologia com proteínas, utilizanso-se BLASTx. É relevante lembrar que a conservação entre as proteínas de diversos organismos é maior no nível de aminoácidos que em nível de DNA. Um outro programa do pacote é o tBLASTx, que traduz ua seqüência de nucleotídeos “query” para proteína nas 6 possibilidades, exatamente como BLASTx, e depois pesquisa com essas 6 proteínas deduzidas um banco de dados de nucleotídeos, também traduzido desta maneira. Imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois genomas não! Traduzindo a seqüência pesquisada e o banco de dados dbEST, foi possível encontrar seqüências da telomerase humana homólogas à do protozoário. 8. Aglomerados e o UniGene Uma das atividades em bioinformática é formar aglomerados de todas as seqüências geradas no projeto (como juntar as figurinhas repetidas de um álbum). Podemos saber quantas vezes um gene foi seqüenciado, e detectar os mais freqüentes! E saber quantos dos genes já foram detectados. Usa-se também a formação de aglomerados para validar bibliotecas de cDNA. Não é esperado que a amostragem escape muito de uma distribuição de Poisson, com a classe de genes amostrados apenas uma vez predominando, seguida das demais em amostragem cada vez menores. Bibliotecas ruins apresentam grnade quantidade de clones amostrados mais de uma vez, fugindo da distribuição de Poisson. Vários programas têm sido usados para aglomeração: Icatools. PHRAP, Cap3, Cap4, SWAT, BLASTn e MegaBLAST. O produto esperado é um aglomerado = um gene. Alguns desse programas (PHRAP, Cap3) não foram criados para algomeração, mas para junção de fragmentos de seqüências em uma única, mas como eles são capazes de desistir se elas não forem relacionadas, alguns projetos genoma se apóiam nessa característica para utilizá-los na geração de aglomerados. Nota-se aqui que apenas com a aplicação de um algoritmo de aglomeração os genes distintos são reconhecidos. O procedimento que adotamos na Rede Genoma de Minas Gerais é similar àquele que gera o UniGene no NCBI. Inicialmente todas as seqüências são comparadas contra todas com o uso de MegaBLAST, um programa similar a BLASTn mas muito mais rápido por ser “guloso”. Somente alinhamentos com similaridade superior a 96% são separados e exige-se que regiões potencialmente alinháveis das seqüências estejam alinhadas por pelo menos 70% desse tamanho, ou seja, foram eficientemente alinhadas e são idênticas. Depois disso é conduzido o procedimento de “single linkage”, ou seja, se a seqüência A é igual a B e B é igual a C, então estas três formam um aglomerado. No NCBI, o UniGene representa a organização das seqüências do GenBank em um conjunto de aglomerados, cada aglomerado do UniGene contendo as seqüências que representam um gene único. E também informações relacionadas, como em que tecidos o gene é expresso, onde está mapeado, etc. 9. Outros serviços As informações genômicas são encontradas, no NCBI, no sub-site Entrez Genome. É possível localizar genes nos diversos cromossomos. Uma base de dados importante é o OMIM (“Online Mendelian Inheritance in Man”), um catálogo de genes humanos e anomalias genéticas de autoria do Dr. Victor A. McKusick e seus colaboradores e desenvolvido para a web pelo NCBI. O banco de dados PopSet apresenta depósitos de polimorfismos de único nucleotídeo. O sub-site “Entrez Structure” acessa um banco de dados de estruturas tridimencionais MMDB (“Molecular Modelling DataBase”, que é equivalente ao banco de dados PDB excluindo-se os modelos teóricos). O banco de dados KOG apresenta proteínas de organismos modelo como H. sapiens, D. melanogaster e A. thaliana organizadas por categorias funcionais. O laboratório de biodados tem em seu servidor (biodados.icb.ufmg.br) um serviço denominado “Protein Classification Tool”, que realiza uma pesquisa BLAST em bases de dados como esta – KOG – e retorna não somente a anotação, mas a classificação funcional da proteína. Inclusive modelagem molecular pode ser feita em servidores na web, como o Swiss Model, desde que uma proteína homóloga já tenha sido resolvida por cristalografia ou ressonância magnética nuclear e depositada no banco de dados PDP ou MMDB, mencionados acima. São muitos os recursos bioinformáticos disponíveis atualmente, na web ou através de distribuições de software livre, para uso local. São também muitos os resultados de análises já feitas que são depositadas na web. Alguns consideram que a bioinformática tem um quê de computação, muito de biologia e alguma coisa de jornalismo, na publicação de resultados tão complexos como os genomas, transcriptomas e proteomas.