Universidade Federal do Rio Grande do Norte Centro de Tecnologia Programa de Pós-Graduação em Engenharia Elétrica Dissertação de Mestrado Um Sistema Computacional para Diagnosticar Viroses de Plantas Usando a Técnica de PCR com Construção de “Primers Espécie-Específicos” AUTOR: Kliger Kissinger Fernandes Rocha ORIENTADOR: Prof. Dr. Luiz Marcos Garcia Gonçalves CO-ORIENTADOR: Prof. Dr. Paulo Sérgio Marinho Lúcio Natal/RN – Brasil Abril de 2005 Um Sistema Computacional para Diagnosticar Viroses de Plantas Usando a Técnica de PCR com Construção de “Primers Espécie-Específicos” Kliger Kissinger Fernandes Rocha Aprovada, em 04 de abril de 2005, pela Comissão Examinadora formada pelos seguintes membros: _____________________________________________________________ Profa. Dra. Eliana Silva de Almeida – TCI-UFAL _____________________________________________________________ Prof. Dr. José Alfredo Ferreira da Costa – UFRN ______________________________________________________________ Prof. Dr. Paulo Sérgio Marinho Lúcio – UFRN (Co-Orientador) ______________________________________________________________ Prof. Dr. Luiz Marcos Garcia Gonçalves – UFRN (Orientador) NATAL, RN – BRASIL Abril de 2005. Universidade Federal do Rio Grande do Norte Centro de Tecnologia Programa de Pós-Graduação em Engenharia Elétrica Kliger Kissinger Fernandes Rocha Um Sistema Computacional para Diagnosticar Viroses de Plantas Usando a Técnica de PCR com Construção de “Primers Espécie-Específicos” Dissertação submetida ao Programa de PósGraduação em Engenharia Elétrica da Universidade Federal do Rio Grande do Norte, como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências (M.Sc.). ORIENTADOR: Prof. D.Sc. Luiz Marcos Garcia Gonçalves CO-ORIENTADOR: Prof. D.Sc. Paulo Sérgio Marinho Lúcio Natal/RN – Brasil Abril de 2005 A Deus onde sempre encontro forças para superar as dificuldades. Aos meus pais; Consuelo Fernandes Rocha e Manoel Ferreira da Rocha (in memorian), exemplos de vida, mentores da minha evolução profissional e moral. As minhas irmãs, Kelly Cristina Fernandes Rocha e Janine Fernandes Rocha, facilitadoras de meu aprendizado, minha paz e felicidade. UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE Date: abril de 2005 Author: Kliger Kissinger Fernandes Rocha Title: Um Sistema Computacional para Diagnosticar Viroses de Plantas Usando a Técnica de PCR com Construção de “Primers Espécie-Específicos” Department: Programa de Pós-Graduação em Engenharia Elétrica Degree: M.Sc. Convocation: May Year: 2005 Permission is herewith granted to Federal University of Rio Grande do Norte to circulate and to have copied for non-commercial purposes, at its discretion, the above title upon the request of individuals or institutions. THE AUTHOR RESERVES OTHER PUBLICATION RIGHTS, AND NEITHER THE THESIS NOR EXTENSIVE EXTRACTS FROM IT MAY BE PRINTED OR OTHERWISE REPRODUCED WITHOUT THE AUTHOR’S WRITTEN PERMISSION. THE AUTHOR ATTESTS THAT PERMISSION HAS BEEN OBTAINED FOR THE USE OF ANY COPYRIGHTED MATERIAL APPEARING IN THIS THESIS (OTHER THAN BRIEF EXCERPTS REQUIRING ONLY PROPER ACKNOWLEDGEMENT IN SCHOLARLY WRITING) AND THAT ALL SUCH USE IS CLEARLY ACKNOWLEDGED. ii Agradecimentos Agradeço principalmente à Deus, inteligência suprema, causa primária de todas as coisas, por sempre me doar todas as condições necessárias para evoluir como consciência e tantos motivos para agradecer e ser feliz. Aos meus amorosos pais, por vários motivos: pela educação fundamentada na ética e no amor responsável, pelo apoio financeiro, pelos exemplos de seres humanos louváveis na conduta moral, por terem me concebido com muito amor, pelas renuncias, pela paciência, pelas crenças e valores Cristãos... Enfim, por dedicarem-se tanto pela felicidade dos filhos. Às minhas irmãs, pelo convívio amoroso que sempre facilita o meu sucesso e felicidade. Aos prezados orientadores (Prof. Paulo Marinho e Prof. Luiz Marcos), modelos de profissionais, por me aceitarem como orientando, pelas valiosas informações para minha formação profissional, e principalmente por me incentivarem e investirem tanto na minha qualificação profissional. À banca examinadora, pelas importantes contribuições para melhorar este trabalho. À CAPES, pelo apoio financeiro recebido. Aos amigos: Hani e família, Sheila Mara e Susy; por todos os momentos que passamos juntos compartilhando sentimentos e idéias que contribuíram para o meu sucesso neste trabalho. E agradeço também aos colegas: Francisco Cardoso, César e Maristela Holanda. iii A todos os professores do meu histórico como estudante, pelos ensinamentos que contribuíram para uma melhor compreensão deste trabalho, e ampliação da minha visão de mundo. E, nesta fase de Pós-Graduação, agradeço em especial aos seguintes Professores: Dr. Luiz Affonso Henderson Guedes de Oliveira pela orientação no Estágio Docente; e Dra. Patrícia Sommer pelo incentivo e apoio. Aos funcionários da UFRN que colaboraram, principalmente a Santana, por sempre ser prestativo. A todos que, de bom grado, contribuíram direta e indiretamente até em anonimato para a minha formação profissional e não foram citados nestes agradecimentos. iv Conteúdo Resumo Abstract 1 Introdução 1.1 Motivação para o Trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 1.2 Organização da Dissertação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Os Primers e a Técnica PCR 2.1 A técnica PCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 8 3 O Problema do Projeto e Escolha de Primers 3.1 O Método Tradicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 13 3.2 O Problema de Alinhamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 O Algoritmo de Força Bruta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1.1 Algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 16 3.3 O Problema da Construção de Primers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Temperatura de desnaturação (Tm) e tempo . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Temperatura de Anelamento (TA) e construção de primer . . . . . . . . . . . . . 3.3.3 Comprimento do primer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Primers degenerados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.5 Temperatura de Extensão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.6 Número de Ciclos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 19 20 21 22 23 4 Uma Solução Computacional 4.1 O Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 O Módulo de Alinhamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 O Módulo de Construção de Primers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Programação, Plataforma e Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 26 29 30 30 5 Experimentos e Resultados 5.1 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Cenário 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Cenário 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 37 38 50 6 Conclusão e Perspectivas 56 Referências Bibliográficas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2 v Lista de Figuras 1.1 Etapas do ciclo de PCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2.1 Interfaces dos locais na Internet usados para alinhamento de seqüências de genomas 7 2.2 Primer na fita-molde com hidroxila livre e nucleotídeo com fosfato livre . . . . . . . . . 9 2.3 Os primeiros quatro ciclos de uma PCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.4 Etapas de PCR (amplificação exponencial em 30 ciclos). . . . . . . . . . . . . . . . . . . . . . . 10 2.5 Termociclador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.6 Ingredientes da reação in vitro da PCR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1 Exemplos de complementaridade inter- e intra-primers que resulta em problemas. . . 14 3.2 Gel de Eletroforese com vários tamanhos de fragmentos amplificados por PCR . . . . 14 3.3 Funcionamento do Algoritmo de Força Bruta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.4 Seqüências de primers foram derivadas dos alinhamentos múltiplos de seqüência . . 21 4.1 Formato Fasta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2 Formato do arquivo de primers do programa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.3 Tela inicial do programa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.4 Tela mostra em que sequencia e posição da sequencia se encontra o primer. . . . . . . . 33 4.5 Tela de resultados que mostra as regiões especificas. . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.6 Tela de resultados que mostra as regiões universais. . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.7 Tela mostrando os primers da região específica com seus respectivos parâmetros. . . 13 5.1 Tela de resultados do Entrez no NCBI mostrando 7 genomas de vírus da batata . . . . 39 5.2 Tela de Resultados do Blast-N para Potato Vírus V. . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.3 Tela de Resultados do Blast-N para Cherry rasp leaf virus RNA2. . . . . . . . . . . . . . . . 42 5.4 Tela de Resultados do Blast-N para Cherry rasp leaf virus . . . . . . . . . . . . . . . . . . . . 44 vi 5.5 Tela de Resultados do Blast-N para Potato Vírus Y . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.6 Tela de Resultados do Blast-N para Narcissus mosaic virus . . . . . . . . . . . . . . . . . . . . 47 5.7 Tela de Resultados do Blast-N para Potato Vírus M . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.8 Tela de Resultados do Blast-N para Potato Vírus A. . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.9 Tela de resultados do Entrez no NCBI com 4 genomas de vírus de meloeiro . . . . . . . 51 5.10 Tela de Resultados do Blast-N para Cucurbit yellow stunting disorder virus RNA2. . 52 5.11 Tela de Resultados do Blast-N para Cucurbit yellow stunting disorder virus RNA1. . 53 5.12 Tela de Resultados do Blast-N para Melon chlorotic leaf curl virus . . . . . . . . . . . . . . 54 5.13 Tela de Resultados do Blast-N para Melon necrotic spot virus . . . . . . . . . . . . . . . . . . 55 vii Lista de Gráficos, Diagramas e Tabelas 3.1 Gráfico de Tempo de Execução de Força Bruta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.1 Gráfico de performance da última versão do algoritmo de Força Bruta . . . . . . . . . . . . 37 4.1 Diagrama de Acessibilidade ao banco de dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.2 Diagrama de Arquitetura do Sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.3 Diagrama do Módulo de Alinhamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.4 Diagrama do Módulo de Construção de Primers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.1 Soluções do Sistema Dadas aos Diversos Problemas Abordados . . . . . . . . . . . . . . . . . 45 5.1 Tabela de Primers de Espécies de Viroses de Batata Obtida Pelo Programa Proposto . 39 5.2 Tabela de Primers de Espécies de Vírus do Meloeiro Obtida Pelo Programa Proposto. 50 viii Resumo Propõe-se uma solução computacional baseada no desenvolvimento de um software para construir primers espécie-específicos, usados para melhorar o diagnóstico de viroses de planta por PCR. Primers são indispensáveis à reação PCR, além de proporcionar a especificidade do diagnóstico. Um primer é um fragmento de DNA sintético, curto e de fita simples, utilizado como um iniciador na técnica PCR que flanqueia a seqüência que se deseja amplificar. Primers espécie-específicos são primers que só indicam a região bem conhecida de início e término onde a enzima polimerase vai amplificar, de uma determinada espécie, ou seja, é específica para somente uma espécie. Assim, o objetivo principal deste trabalho é automatizar o processo de escolha de primers, otimizando a especificidade dos primers escolhidos pelo método tradicional. Palavras chaves: Design de Primer, PCR, Bioinformática ix Abstract It proposes a established computational solution in the development of a software to construct species-specific primers, used to improve the diagnosis of virus of plant for PCR. Primers are indispensable to PCR reaction, besides providing the specificity of the diagnosis. Primer is a synthetic, short, single stranded piece of DNA, used as a starter in PCR technique. It flanks the sequence desired to amplify. Species-specific primers indicate the well known region of beginning and ending where the polymerase enzyme is going to amplify on a certain species, i.e. it is specific for only a species. Thus, the main objective of this work is to automatize the process of choice of primers, optimizing the specificity of chosen primers by the traditional method. Keywords: Primer Design, PCR, Bioinformatics x Capítulo 1 Introdução A Bioinformática visa compreender problemas em que questões biológicas delineiam questões algorítmicas, bem como propor suas soluções. É uma área de pesquisa relativamente nova, com um crescimento substancial de trabalhos. Na primeira metade da década de 80, foi desenvolvido um método de amplificação de seqüências de DNA que revolucionou a análise genética nestes últimos anos: a “reação em cadeia da polimerase” (ou PCR, do inglês Polymerase Chain Reaction). Esta técnica possibilita que múltiplas cópias de uma molécula de DNA sejam geradas por meio da amplificação enzimática de uma seqüência de DNA escolhida. A técnica baseia-se na capacidade que a enzima DNA polimerase tem de replicar seqüências de DNA, em certas condições laboratoriais, a partir de um par de pequenos fragmentos iniciadores da fita molde, denominados de primers. Figura 1.1 - Etapas do ciclo de PCR [41] A Figura 1.1 ilustra a técnica. Através de variações alternadas e cíclicas de temperatura que permitem a desnaturação (ex. 92ºC, abertura da fita dupla de DNA), anelamento (ex. 54ºC, pareamento dos primers ou iniciadores) e extensão (ex. 72ºC, cópia da fita dupla original pela incorporação de nucleotídeos nas fitas complementares). Assim, uma determinada seqüência de DNA é replicada, ciclo após ciclo, em progressão geométrica (figura 2.3), o que torna possível sua visualização em gel de eletroforese na forma de uma banda (figura 2.7). O desenvolvimento dessa técnica e suas aplicações concederam ao americano Kary Mullis o Prêmio Nobel em Química em 1993. As aplicações da técnica são inúmeras, conforme pode ser verificado em revisão feita por Mullis, Rerré e Gibbs [23]. A PCR tem sido utilizada, por exemplo, desde experimentos relacionados ao seqüenciamento de DNA até aplicações comerciais na área de diagnose. Algumas variações da PCR levaram ao desenvolvimento de outras técnicas poderosas na análise de diversidade genética, como: AFLP, RAPD, SAMPL e SSR. " $ O trabalho desenvolvido foi inicialmente motivado pela necessidade de se estabelecer condições técnicas de identificação por PCR de viroses em plantas no Estado do Rio Grande do Norte. Especificamente, procurou-se desenvolver uma ferramenta em bioinformática que aperfeiçoasse a escolha de primers ou oligonucleotídeos para a reação de PCR. Neste trabalho, o aplicativo desenvolvido e otimizado evitaria a fabricação de oligonucleotídeos pouco eficientes na identificação das viroses em plantas caso fossem escolhidos manualmente. Para o desenvolvimento da ferramenta foi necessário, no entanto, especificar quais os parâmetros que influenciariam na qualidade da amplificação por PCR. Estes parâmetros têm uma influência direta na construção de primers. Por outro lado, há que considerar que a região do genoma viral tem que garantir a especificidade do diagnóstico em nível de espécie do agente causador da virose. Uma das principais motivações que encontramos é a tentativa de diminuir ou eliminar o prejuízo na fruticultura do Estado do Rio Grande do Norte, onde plantadores têm queimado plantas em áreas agrícolas por causa de suspeita de apenas um ou alguns exemplares da planta com virose. O problema é que muitas vezes não é virose, podendo ser outro agente patogênico ou deficiência ou mesmo o excesso de nutrientes. Mas, para evitar o risco de uma epidemia, infelizmente, quase sempre é preferido o modo drástico de resolver o problema; queimando toda a área plantada. Isso gera prejuízo na agricultura de exportação do Estado, e do país. 2 A motivação biológica de ser um programa de primers para vírus é o fato de que, por serem organismos altamente instáveis, compostos por genes mutantes e recombinantes, os vírus pesquisados apresentam problemas quanto a sua erradicação. Basicamente, o software contempla dois módulos: um módulo de alinhamento dos genomas de vírus para separar as áreas polimórficas, e o segundo módulo é de construção de primers específicos para diagnosticarem uma determinada espécie de vírus por PCR. Testes e experimentos foram realizados e os resultados foram satisfatórios para genomas pequenos como os de vírus. O presente trabalho já publicou resultados parciais em pôster no SIBGRAPI 2003 [44], e em artigo completo no 4th IEEE International Symposium on Bioinformatics and Bioengineering (BIBE 2004) [45]. Mesmo usando o Algoritmo da Força Bruta [12], considerado um método simples, uma intensa modificação realizada foi no sentido de evitar comparações desnecessárias e melhorou em 75% a performance de tempo do programa. A principal questão deste trabalho é propor uma estratégia de escolha de primers eficiente para diagnosticar um patógeno (agente biológico capaz de causar doença) suspeito. A resposta a esta questão avança a metodologia de diagnóstico molecular em nível de espécie, facilitando no processo de tratamento. Como contribuições deste trabalho podem-se citar a construção de um banco de dados, contendo seqüências de vírus de plantas, e um sistema para alinhar e separar domínios de seqüências. O banco de dados que este trabalho se refere é uma coleção ordenada de arquivos semelhantes, em conformidade com um formato padrão de conteúdo. O banco de dados de arquivos simples pode ser pesquisado devido à indexação. Contudo, à medida que a coleção de arquivos simples fica cada vez maior, torna-se ineficaz trabalhar com ela. Esta estratégia melhora a mineração de dados no banco de dados, encontrando seqüências e gerando múltiplos alinhamentos. Essas seqüências podem compartilhar similaridades com domínios e diferenciar entre domínios polimórficos. Trabalhou-se com domínios polimórficos para construir primers com especificidade elevada. Além disso, o programa desenvolvido possibilita também um estudo de polimorfismo por possuir um módulo de alinhamento indicando regiões com polimorfismo e regiões similares entre duas ou mais espécies de vírus. A construção de um banco de dados contendo arquivos de vírus de plantas é também uma necessidade do sistema, além de otimizar o acesso e a mineração de dados para tomada de decisões pelo pesquisador, pode ser fonte de pesquisa para o pesquisador descobrir aspectos importantes da Filogenia de vírus. A Filogenia descreve a origem e a evolução das espécies. 3 O Capítulo 2 trata dos trabalhos relacionados, discutindo a contribuição deste trabalho comparado às publicações estudadas. Um apanhado do estado da arte é apresentado, incluindo informações teóricas básicas, necessárias ao entendimento do problema tratado. No Capítulo 3, apresentamos o histórico, especificação e detalhamento do problema abordado, incluindo um estudo dos parâmetros necessários à técnica PCR. O capítulo 4 aborda a solução teórica encontrada, apontando para possíveis formas de resolver o problema. Neste Capítulo, apresentamos também a solução computacional adotada para solucionar o problema e os módulos do programa implementados. No capítulo 5 são mostrados os resultados de diversos experimentos e testes realizados para validar o sistema computacional proposto. Por fim, no Capítulo 6 é apresentada a conclusão sobre o trabalho, e perspectivas futuras relacionadas ao projeto. 4 Capítulo 2 Os Primers e a Técnica PCR Muitos trabalhos na área de Biologia Molecular estão relacionados com a construção e escolha de primers para diagnóstico, sendo alguns deles estudados neste trabalho [01 a 11]. A maioria desses usa programas somente para construção de primers sem prever por alinhamento que região do genoma a ser amplificada seria ideal. A proposta deste trabalho é automatizar e aperfeiçoar o processo com a estratégia do alinhamento antes da construção de primers. Alguns métodos computacionais ou programas estão disponíveis atualmente para a construção de primers [01,02,03], com uma finita probabilidade de produzir erros. Os trabalhos encontrados na literatura descrevem os passos envolvidos no processo e os esforços dispensados para automatizá-lo. A proposta geral é selecionar uma região para construir um primer onde a probabilidade de erro de diagnóstico usando PCR seja baixa [01,03], considerando não somente as regiões selecionadas visualmente, mas também regiões examinadas estatisticamente. Convém ressaltar que, em relação aos programas disponíveis na Internet, públicos e privados, o programa proposto neste trabalho tem várias vantagens, sendo a automação do processo de diagnóstico para um usuário sem muitos conhecimentos técnicos de computação uma das principais delas. O programa desenvolvido lista vários primers candidatos com os respectivos atributos para a correta decisão do especialista. No modo como são listados os primers, pode-se distinguir facilmente as vantagens dos candidatos. No módulo de alinhamento do programa proposto, deseja-se comparar duas ou mais seqüências genéticas, sendo esta, tradicionalmente, a operação básica de bioinformática. Através da comparação de seqüências, podem-se obter várias informações, tais como: similaridade (medida numérica que indica quão similares são duas seqüências); presença ou não de homologia (indica se dois ou mais genes possuem uma história evolutiva comum); alinhamento entre seqüências (forma de se colocar uma seqüência "em cima" da outra, de maneira a evidenciar a correspondência entre caracteres ou subcadeias similares das seqüências); entre outras. Esta 5 metodologia não é aplicada pela maioria dos programas para projetar primers estudados neste trabalho. O programa público Gene Fisher tem a mesma metodologia [40] de busca, mas usa o CLUSTALW ou DCA como programa de alinhamento, dependendo da demora na Internet o processo é moroso e não é considerado totalmente automatizado. Ainda, o programa proposto neste trabalho não tem somente uma funcionalidade básica (construção de primers espécieespecíficos), mas também permite ao pesquisador estudar o polimorfismo de vírus em uma mesma família, e entre taxonomias diferentes. Existem alguns problemas no caso múltiplo que não existem no caso básico: a pontuação dos alinhamentos; complexidade da abordagem que utiliza programação dinâmica pura (trata-se de um problema NP - completo); criação de heurísticas que aumentem a velocidade da computação; etc. Existem tanto estudos teóricos que atacam esses problemas quanto algoritmos que implementam essas heurísticas (métodos de alinhamento em estrela, em árvore, e outros), tornando possível, assim, viabilizar o alinhamento de múltiplas seqüências. O estudo de algoritmos de Bioinformática teria sido incompleto se não fosse abordado um tema cuja importância aumenta a cada dia: a comparação de seqüências genéticas em bancos de dados. A busca de seqüências em bancos de dados permite determinar quais das centenas de milhares de seqüências presentes no banco podem estar relacionadas a uma dada seqüência. Nesse tipo de ambiente, a operação básica consiste em alinhar uma seqüência de consulta com as seqüências do banco de dados. Os atuais bancos de dados de seqüências já são gigantescos, e continuam a crescer numa taxa exponencial, como por exemplo o “Genbank” em 2004 publicou 44.575.745.176 pares de bases e 40.604.319 seqüências [43]. Isso torna a aplicação de programação dinâmica pura inviável, obrigando o uso de heurísticas, que aumentam bastante a velocidade dos alinhamentos (mas com uma pequena probabilidade de perder alinhamentos verdadeiros). Os dois programas de busca de seqüências mais usados na atualidade são o “FASTA” e o “BLAST” (vide Figura 2.1). O FASTA foi o primeiro de todos os programas do tipo a ser amplamente utilizado, enquanto o BLAST, posteriormente introduzido, trouxe uma série de refinamentos. Quando de uma busca, ambos aplicam em primeiro lugar métodos heurísticos e, após a obtenção de uma lista inicial de seqüências, métodos baseados em programação dinâmica são usados para, finalmente, gerarem a lista final de hits. Esta palavra hits pode ser identificada rapidamente pre-indexando todas as palavras da query e então consultando o índice na medida que o BD é pecorrido. A Figura 2.1 mostra as telas de entrada de dados do FASTA e do BLAST, respectivamente, acessíveis por seus web sites [42,43]. 6 Figura 2.1: Interfaces dos locais na Internet usados para alinhamento de seqüências de genomas. 7 O programa desenvolvido neste trabalho compara as seqüências obtidas de um banco de dados com uma seqüência padrão, identificando e numerando as alterações encontradas. Além disso, é possível no sistema concluir informações importantes cruzando estes resultados de alinhamento com os dados dos respectivos vírus estudados. O sistema desenvolvido forma uma parte do elo de ligação entre os dados biológicos de vírus, de um lado, e as informações de seqüências genéticas, de outro, recebendo dados tanto de arquivos Fasta de seqüenciadores quanto dos bancos de dados genéticos de vírus de plantas. Esta ferramenta computacional é extremamente útil em comparação às outras de domínio público, ao permitir um controle muito mais acurado no projeto de primers específicos, e uma mineração de dados pelo relacionamento com o banco de dados de vírus. A técnica de PCR (do inglês Polymerase Chain Reaction, reação em cadeia da polimerase) consiste numa reação em que uma região pequena e específica do genoma é amplificada por síntese, pela polimerase de DNA. A reação em cadeia da polimerase possibilita a amplificação de uma seqüência rara de DNA a partir de uma mistura complexa, sem a necessidade de clonagem molecular. Esta técnica é amplamente utilizada em pesquisa básica, em medicina forense e no diagnóstico de doenças genéticas e infecciosas. Inicialmente, é necessária a construção por síntese química de dois oligonucleotídeos de DNA ou primers (iniciadores) complementares, as extremidades de cada fita de DNA, flanqueando a região de interesse. Estes oligonucleotídeos servem como iniciadores da síntese de DNA in vitro, que é catalisada pela DNA polimerase, devido ao primer fornecer uma extremidade de hidroxila livre onde a DNA polimerase catalisará a reação deste composto com o grupo fosfato de um nucleotídeo correspondente à base nitrogenada da fita-molde (vide Figura 2.2). Um ciclo de PCR começa com a desnaturação por calor (95°C), promovendo a separação da fita dupla de DNA. A reação é resfriada na presença de um excesso dos dois oligonucleotídeos, possibilitando a hibridização dos dois iniciadores com a seqüência complementar presente no DNA alvo. Em seguida, a reação é incubada para atividade da DNA polimerase, produzindo novas fitas de DNAs a partir dos iniciadores e utilizando quatro desoxirribonucleotídeos (dATP, dCTP, dGTP e dTTP) (vide Figura 2.6) [24]. Cada novo ciclo da reação inicia-se com o aquecimento para desnaturação da dupla fita de DNA, seguido de resfriamento para hibridação dos iniciadores e síntese de uma nova fita pela 8 DNA polimerase a partir dos iniciadores, sendo que as fitas de DNA recém sintetizadas servem de molde no ciclo seguinte. Portanto, em cada ciclo é sintetizado o dobro do DNA produzido no ciclo anterior. A Figura 2.3 mostra no terceiro ciclo, duas duplas fitas que apresentam o tamanho correto sendo copiadas (as duas fitas com o mesmo tamanho). No quarto ciclo, 8 duplas fitas que apresentam o mesmo tamanho são copiadas. Usualmente, são realizados entre 20 e 30 ciclos para amplificação de um segmento de DNA específico dentro de um genoma (Figura 2.4) usando uma máquina termocicladora (máquina que varia a temperatura da PCR em segundos, vide Figura 2.5) e os ingredientes dentro de um tubo onde ocorre a reação mostrada na Figura 2.6. Grupo fosfato Hidroxila Fita-molde Primer Figura 2.2: Primer na fita-molde com hidroxila livre e nucleotídeo com fosfato livre Figura 2.3: Os primeiros 4 ciclos de uma PCR (http:// allserv.rug.ac.be/ ~avierstr/index.html) 9 Figura 2.4: Etapas de PCR (amplificação exponencial em 30 ciclos) Figura 2.5: Termociclador Figura 2.6: Ingredientes da reação in vitro da PCR 10 Nas primeiras iniciativas para amplificar fragmentos de DNA, utilizava-se a enzima DNA polimerase da Escherichia coli, que possui atividade máxima a 37°C. Esta enzima deveria ser adicionada a cada ciclo, pois o passo de desnaturação inativa a enzima. Um importante avanço ocorreu com a descoberta de a enzima Taq DNA polimerase [25] oriunda da bactéria Thermus aquaticus. A Taq DNA polimerase possui atividade ótima a 72°C e permanece razoavelmente estável mesmo a 95°C e com isto, a enzima é adicionada somente no inicio do processo. 11 Capítulo 3 O Problema do Projeto e Escolha de Primers Viroses de plantas constituem um sério problema que afeta a produção de plantas tropicais. No caso de algumas plantas como o mamão, por exemplo, eles são responsáveis pelo abandono da área contaminada pelo PRSV (Papaya Ring Spot Virus), PMV (Papaya Mosaic Virus) ou PMeV (Papaya Meleira Virus) [27], como tem recentemente ocorrido no Brasil. Outros vírus de planta poderiam ser citados aqui que apresentem as mesmas conseqüências. O controle de vírus de planta empregado em produção de plantas é baseado na identificação dos sintomas da virose que são visíveis quando a contaminação é potencialmente um risco para outras plantas. Estas plantas são então eliminadas da plantação e normalmente queimadas. A identificação prévia do vírus de planta pelas técnicas da biologia molecular representa uma maneira eficiente para prevenir contaminações de vírus em grande escala e pode ser empregada em muitas situações como a triagem de plantas importadas pelas instituições de segurança de plantas. Estas técnicas moleculares estão baseadas na PCR que permite a amplificação de seqüências de vírus específicos do DNA da planta afetada. Reações de PCR específicas são mais eficientes usando oligonucleotídeos normalmente com um tamanho entre 16 e 30 bases [05]. Estes primers específicos são escolhidos concordando com seqüências conhecidas presentes no DNA amplificado do genoma, que neste caso são regiões do genoma do vírus. Alguns critérios que permitem uma boa escolha de primers devem ser considerados. É importante, por exemplo, evitar as seguintes falhas: formação de dímeros de primers, auto-complementariedade (vide figura 3.1), temperatura de fusão muito baixa, e/ou estabilidade interna incorreta. Primers devem ser construídos com mecanismos de detecção de conteúdo de G+C baixo. Estes critérios podem ser tratados por ferramentas de Bioinformática na escolha de primers sem problemas da fonte de DNA e pode ser produzido pela escolha de qualquer primer para PCR. A 12 escolha de primers específicos para a identificação de vírus de plantas para serem usados no diagnóstico de viroses deveria considerar, tendo em vista os critérios gerais acima, a complexidade de famílias de vírus de plantas e diferentes espécies. Portanto, a construção do primer é o principal fator a ser considerado e todos os outros parâmetros devem ser considerados na sua construção. Por isso, esta abordagem computacional é eficiente para a identificação de vírus de plantas. A escolha de primers pelo processo tradicional [07] é mais propícia a erros, pois, neste processo, o pesquisador utiliza várias ferramentas diferentes para a escolha do par de primers, conseqüentemente sofre a demora do processo por depender da Internet, e nem sempre os primers escolhidos garantem a eficiência ou especificidade do diagnóstico. Isso acarreta prejuízo com o gasto de primers ineficientes e demora no diagnóstico. O processo tradicional de escolha de primers tem os seguintes passos: 1. O pesquisador deve procurar as seqüências do genoma do(s) vírus desejados em um banco de dados. O banco mundial de dados genômicos é o Genbank [42]. O processo de copiar a seqüência genômica de interesse do Genebank é demorado por ser bastante requisitado via Internet. 2. Em seguida deve-se fazer um alinhamento múltiplo com as várias seqüências genômicas suspeitas usando algum programa disponível na Internet. Isso é necessário para descobrir se existe uma ou mais regiões espécie-específicas. 3. Tal região deve ter um tamanho de no mínimo 150 bases, pois será amplificada na técnica de PCR pela escolha de dois primers. A visualização pela eletroforese torna-se mais eficiente quanto maior for esta região (vide Figura 3.2). Além do tamanho da região a ser amplificada, o pesquisador deve também se preocupar em encontrar de 14 a 20 bases iniciadoras nas extremidades desta região, complementares a primers que tenham características similares. 4. Estas características similares devem ser calculadas cuidadosamente seguindo alguns parâmetros. No entanto, os parâmetros usados para que os primers sejam específicos para uma determinada espécie de vírus de planta não são controlados de modo eficiente pelos programas de construção de primers também disponíveis na Internet. 13 5. Em seguida deve-se comprar os oligonucleotídeos específicos para o patógeno, de acordo com as características estabelecidas, o que não garante o correto diagnóstico por PCR. Figura 3.1: Exemplos de complementaridade inter- e intra-primers que resultaria em problemas. Telas de análises feitas usando o programa DNAMAN (Lynnon Biosoft, Quebec, Canadá). Figura 3.2: Gel de Eletroforese com vários tamanhos de fragmentos amplificados por PCR 14 # Mesmo usando o Algoritmo da Força Bruta [12], considerado um método simples, uma intensa modificação realizada foi no sentido de evitar comparações desnecessárias e melhorou em 75% a performance de tempo do programa. O exemplo canônico do algoritmo de Força Bruta é associado com o problema do caixeiro viajante (TSP), um problema clássico NP-completo. Descreve um estilo de programação no qual o programador confia no poder de processamento do computador em vez de usar sua própria inteligência para simplificar o problema. Para que a programação do algoritmo de Força Bruta seja considerada boa, dependeria do contexto: se o problema não for terrivelmente grande, o tempo extra do processador gasto em uma solução pelo Algoritmo de Força Bruta pode custar menos do que o tempo que o programador faria para desenvolver um algoritmo mais inteligente. Adicionalmente, um algoritmo mais inteligente pode implicar uma complexidade de longo prazo e custo de manutenção que se justificaria pela melhoria da velocidade. Convém ressaltar que foram feitas algumas modificações no algoritmo de Força Bruta. A versão final atende perfeitamente a finalidade do programa, incluindo a especificação do problema e o tempo da solução. A interface executa um cruzamento de dados para obter a subseqüência, encontrando uma a ser comparada com a seqüência do vírus. A lista de informações seguintes tem que ser armazenada baseando-se em ocorrências de similaridade relativa: a identidade de seqüência comparada, posição inicial e tamanho da subseqüência, e a posição da ocorrência. Veja Diagrama 4.2 para mais detalhes sobre o sistema. ' * # 0 2 5 8 # O algoritmo de Forca Bruta é o algoritmo mais simples dentre os algoritmos de alinhamento. Sua simplicidade resulta na sua baixa performance em velocidade, devido ao grande número de comparações, às vezes sem necessidade. O algoritmo funciona através de indexações na subcadeia B [26] (de tamanho m, indexada por Índice B) e na cadeia-alvo A (de tamanho n, indexada por Índice A), efetuando sucessivas comparações nos elementos de ambas. A partir do primeiro caracter da cadeia-alvo, compara-se 15 seqüencialmente cada caracter da cadeia-alvo com o caracter igualmente indexado da subcadeia, enquanto forem iguais, ou até que se chegue ao fim da subcadeia (nesse caso, o casamento de cadeias ocorreu na posição Índice A, e teve início na posição Índice A - m). Caso o fim da subcadeia não tenha sido alcançado, significa que foi encontrado algum caracter diferente na cadeia principal, e então deve se reiniciar todo o processo de comparação, posicionando Índice B no início da subcadeia, e incrementando Índice A de uma posição, como segue no algoritmo apresentado abaixo: ? : Q $ . a # # # . B [ # : . . ) D D 6 $ Q ! . ! , G $ . $ 6 ! 0 # Y : 4 $ . D d i : ! ! # 4 $ B & . J 6 J # $ ! 8 . . & : . [ 8 : 2 ! M ! 8 ] & : : [ = = # > J . B 2 J 6 Q 2 $ J ! # & : B J $ . & . : M & = = > $ D q D J 6 d # # d d : = j # 4 & Q . ~ J Q : J $ 6 D d . j d ! $ d # & $ . ! $ d i = o . , . ~ J : $ j 4 J : p t = J 6 q l d & = o . , . > : $ > # . s > & d f f ~ > z : p d t f p . D q z z a ) Q s d 4 & D 2 q D : q $ 6 > p ) J > f : l q # 2 > p ) ! j & B f $ $ . d Q J ! V : D ! $ z f > > & Um esquema do funcionamento do algoritmo de força bruta é apresentado na Figura 3.3, assumindo que o texto é igual a “ALGORITMOS FAVORITOS” e o padrão P é igual a “RITO”. Na tabela da página seguinte, a primeira coluna apresenta os valores do teste de mesa para o 16 algoritmo e a segunda traz o número de comparações efetuadas. Portanto, após 22 comparações, o padrão P foi encontrado no texto T, iniciando-se no índice i = 15. Essas duas comparações seqüenciais e alinhadas são responsáveis pela complexidade quadrática O(m x n) para o pior caso (não encontrar B em A), já que o primeiro laço varre toda a cadeia A (n interações para o pior caso), e para cada caracter de A, é feita uma varredura em B (m interações para o pior caso). Esse algoritmo pode ser facilmente mapeado para um algoritmo de busca numa matriz, onde as colunas são os caracteres de A, e as linhas os caracteres de B, e a simples necessidade de varrer toda a estrutura matricial para o pior caso dá-se a complexidade quadrática. Para o melhor caso, a complexidade é O(1), e no caso médio O(n). A garantia de que o algoritmo funciona está no fato de que todas as subcadeias possíveis na cadeia-alvo são comparadas até que se encontrem caracteres diferentes nas mesmas. Por outro lado, o ponto fraco do algoritmo reside nas indexações seqüenciais, e no excesso de comparações desnecessárias realizadas no percurso ao longo da cadeia-alvo. Considerando-se que essa cadeia alvo é um texto de grande porte, como uma revista, ou mesmo um livro, não se poderia dar ao luxo de realizar tamanho número de operações desnecessárias. As modificações do Algoritmo de Força Bruta foram ao sentido de evitar essas operações desnecessárias, e a performance alcançada é satisfatória para o alinhamento de seqüências nucleotídicas de até 40000 bases de tamanho. Figura 3.3: Funcionamento do Algoritmo de Força Bruta Na figura 3.4, pode-se observar que o tempo de execução do algoritmo cresce proporcionalmente ao tamanho do texto de entrada, tendo-se assim uma complexidade de O(n) 17 no caso médio. Ressaltamos que o algoritmo usando Força Bruta pode ser empregado nesta ferramenta, pois dificilmente ela cairia no pior caso que é de O(nm). Gráfico 3.1: Gráfico de Tempo de Execução de Força Bruta ! # % ) Existem vários fatores que podem afetar a técnica PCR como: temperatura de desnaturação, número de ciclos, tempo de extensão, uso de primers degenerados, comprimento do primer, temperatura de anelamento. Dependendo destes fatores a PCR pode reagir melhor. Portanto, a construção do primer é o principal fator a ser considerado e todos os outros parâmetros deveriam ser considerados na sua construção. Para resolver o problema vários fatores que podem afetar a técnica PCR foram tratados, como: temperatura de desnaturação, número de ciclos, tempo de extensão, uso de primers degenerados, comprimento do primer, temperatura de anelamento. / 0 3 ! ! # % > 0 A 3 A associação da complementaridade especifica das bases devido às pontes de hidrogênio da fita simples dos ácidos nucléicos é referida como “anelamento”: duas seqüências complementares formarão pontes de hidrogênio entre suas bases complementares: (G) guanina para (C) citosina, e (A) adenina para (T) timina ou (U) uracila e formam uma dupla fita estável, molécula híbrida antiparalela. Uma pode fazer a fita simples de acido nucléico pela tendência de anelamento, se ainda não é fita única, como a maioria dos vírus de RNA, por aquecê-lo a um ponto acima da temperatura de fusão da forma dupla fita, e então bruscamente resfriá-lo: isto 18 assegura que as fitas separadas ou desnaturadas não reanelarão ou juntar-se-ão. Adicionalmente, se o ácido nucléico é aquecido num tampão de força iônica menor do que 150mM de cloreto de sódio, a temperatura de fusão é geralmente menor do que 100ºC – isso é o porquê que na PCR se trabalha com temperaturas de desnaturação (Tm) entre 91 à 97ºC. Sabe-se que a enzima Taq polimerase tem uma meia vida de 30 minutos à 95ºC, por isso, uma enzima não deve fazer mais do que 30 ciclos de amplificação. Entretanto, é possível reduzir a temperatura de desnaturação depois de aproximadamente 10 ciclos de amplificação. Como o principal comprimento do DNA alvo é diminuído, por cópias de 300 pares de bases ou menos, a temperatura de desnaturação pode ser reduzida a 88ºC por cópias com 50% (G+C) [10], ou seja, uma pode desempenhar sua função um pouco mais de 40 ciclos sem muita diminuição da eficiência da enzima. O tempo em uma determinada temperatura é a razão principal para a desnaturação ou perda da atividade da Taq polimerase. Desta forma, se uma reduz isto, o número de ciclos possíveis pode ser aumentado se a temperatura é reduzida ou não. Normalmente o tempo de desnaturação é 1 minuto à 94ºC. Então é possível, para seqüências de copias curtas, reduzir isto para 30 segundos ou menos. Aumentando a temperatura de desnaturação e diminuindo o tempo pode também funcionar. Innis e Gelfand [5] recomendou 96ºC a 15 segundos. $ & * - $ . 2 3 $ 8 O comprimento do primer e a seqüência são de importância crítica na configuração dos parâmetros de uma amplificação bem sucedida: a temperatura de fusão ou temperatura de anelamento de uma dupla hélice de DNA aumenta com o seu comprimento, e com o aumento do conteúdo (G+C). Uma fórmula simples para calcular o Tm é dada por [9]: Tm = 4(G + C) + 2(A + T)ºC. Dessa forma, a temperatura de anelamento escolhida para a PCR depende diretamente do comprimento e composição dos primers. Um dos métodos visa o uso de uma temperatura de anelamento (Ta) de aproximadamente 5ºC abaixo do mínimo Tm do par de primers a ser usado [5]. Um tratamento mais rigoroso de Ta é dado por Rychlik et al. [8]. Eles concluem que se a Ta for aumentada por 1ºC em cada outro ciclo, a especificidade de amplificação e o rendimento dos produtos menor do que 1kb de comprimento são aumentados. Uma conseqüência de ter a Ta demasiado baixa é que um ou ambos os primers anelarão às outras seqüências, exceto o alvo 19 verdadeiro, então as más combinações internas de única-base ou anelamento parcial podem ser tolerados. Isto é bom para amplificar alvos similares ou relacionados. Entretanto, pode conduzir à amplificação "não-específica" e à redução conseqüente no rendimento do produto desejado se a maioria das bases 3' for emparelhada com um alvo. Uma conseqüência da Ta muito elevada é que uma quantidade muito pequena do produto será produzida, assim como a probabilidade de um anelamento de primer é reduzida. Uma outra consideração importante é que um par de primers com temperaturas muito diferentes de anelamento pode nunca dar rendimentos apreciáveis de um produto único, e pode também resultar em inadvertida amplificação "assimétrica" de fita simples da fita produto mais eficientemente anelada ao primer. O anelamento não demora muito tempo. A maioria de primers anelarão eficientemente em 30 segundo ou menos, a menos que Ta seja muito próxima da Tm, ou a menos que sejam atipicamente longos. O comprimento melhor de um primer depende de seu conteúdo (A+T) e do Tm de seu parceiro, se um tem o risco de ter problemas tais como descrito nos parâmetros anteriores. Fora o Tm, uma consideração principal é que os primers devem ser complexos o bastante de modo que a probabilidade do anelamento com as outras seqüências à exceção do alvo escolhido seja muito baixa. Por exemplo, há uma possibilidade de ¼ (4-1) de encontrar um A, um G, um C ou um T em toda a seqüência dada do DNA; há uma possibilidade 1/16 (16-1) de encontrar qualquer seqüência dinucleotídica (por exemplo: AG); uma possibilidade de 1/256 de encontrar uma dada seqüência de 4-bases. Assim, uma seqüência de dezesseis bases estará estatisticamente presente somente uma vez em cada 416 bases (=4.294.967.296, ou 4 bilhões). Isto é aproximadamente o tamanho do genoma do ser humano ou do milho, e 1000x maior do que o tamanho do genoma de E. coli. Assim, a associação de um oligonucleotídeo de tamanho maior do que 17 bases com sua seqüência alvo é um processo extremamente seqüênciaespecífico, igualmente à especificidade de anticorpos monoclonais em ligar às determinantes antigênicas específicas. Conseqüentemente, 17 bases ou primers mais longos são usados rotineiramente para a amplificação do DNA genômico de animais, plantas e microorganismos. Um primer de comprimento muito longo pode significar que mesmo as altas temperaturas de anelamento não são bastantes para impedir de se emparelhar em uma mau combinação e priming não-específico. 20 Para a amplificação de seqüências cognatas de organismos diferentes, ou para "PCR evolucionário", um pode aumentar as possibilidades de obter produto construindo primers "degenerados". Estes seriam, de fato, um grupo de primers que têm a possibilidade de anelar em diversas posições na seqüência e amplificar uma variedade de seqüências relacionadas. Para o exemplo, Compton [4] usa grupos de primers de 14 bases com 4 e 5 degenerâncias tanto primers no sentido direto e reverso, respectivamente, para a amplificação da glicoproteína B (gB) de vírus de herpes. A seqüência reversa do primer usada é como se segue: TCGAATTCNCCYAA Na seqüência acima, Y = T + C, e N = A + G + C + T. Degenerância reduz obviamente a especificidade do(s) primer(s), significando que as oportunidades de não combinação são maiores, e o ruído de fundo aumenta. Também, degenerância aumentada significa que a concentração de primers individuais diminui. Assim degenerância maior do que 512-fold deve ser evitada. Entretanto, primers com amplitude de degenerância de 256- e 1024-fold para a amplificação bem sucedida e o seqüenciamento direto subseqüente de uma escala larga de Mastreviruses de encontro a um fundo de DNA genômico de milho [6]. 21 Figura 3.4: Seqüências de primers foram derivadas dos alinhamentos múltiplos de seqüência A Figura 3.5 mostra as posições de má-combinação que foram usadas como degenerâncias de 4-bases para os primers (mostrados como asteriscos; 5 em F e 4 em R). Apesar da degenerância, os primers podiam ser usados para amplificar uma seqüência de 250 bp de vírus, diferindo na seqüência tanto quanto acima de 50% for a seqüência alvo, e 60% total. Poderiam também ser usados para detectar muito sensivelmente a presença do DNA do vírus da estria do milho contra o DNA genômico do milho, nas diluições abaixo de 1/109 da seiva infectada. " $ Esta é normalmente 70 - 72ºC por 0,5 - 3 minutos. A enzima Taq polimerase tem realmente uma atividade específica em 37ºC que é muito perto daquela do fragmento de Klenow da polimerase I do DNA de E coli, que explica o aparente paradoxo que resulta quando um tenta compreender como os primers que anelam em uma temperatura ótima podem então ser alongados em uma temperatura consideravelmente mais alta. A resposta é que a elongação ocorre do momento do anelamento, mesmo se este é passageiro, que resulta em uma estabilidade consideravelmente maior. Em torno de 70ºC a atividade é ótima, e uma extensão do primer ocorre em até 100 bases por segundo. Aproximadamente 1 minuto é suficiente para a amplificação fidedigna das seqüências de 2 kb [5]. Produtos mais longos requerem tempos mais longos: 3 minutos é uma boa medida para 3kb e produtos mais longos. Tempos mais longos podem também ser úteis em ciclos mais atrasados quando a concentração do produto excede a concentração da enzima (> 1nM), e quando dNTP e/ou esgotamento do primer pode se tornar limitante. Concentrações maiores do que 50mM de cloreto de potássio ou cloreto de sódio inibe a Taq, mas algum é necessário para facilitar o anelamento do primer. A concentração de Mg2+ afeta o anelamento do primer; Tm da fita molde, produto e associações da fita molde com o primer; especificidade do produto; atividade e fidelidade da enzima. Taq requer Mg2+ livre, assim que 22 as atenuações forem feitas pelos dNTPs, primers e fita molde, todos os quais são quelados e seqüestrados o cátion; destes, os dNTPs são os mais concentrado, assim que [ Mg2+ ] estivesse entre 0,5 - 2.5mM maior do que a concentração de dNTP. Uma titulação deve ser executada com variação da concentração de Mg2+ com todas as combinações novas da fita-molde-primer, como estas podem diferir marcantemente em suas exigências, ainda sob as mesmas condições das concentrações e ciclagem de tempos/temperaturas. Algumas enzimas não necessitam adicionar proteína, outras são dependentes dela. Algumas enzimas trabalham marcantemente melhor na presença de detergente, provavelmente porque evita a tendência natural da enzima se agregar. Concentrações de primer não deveriam ir acima de 1uM a menos que houvesse um grau elevado de degenerância; 0.2uM é suficiente para primers homólogos. A concentração do nucleotídeo não necessita estar acima de 50uM cada. Entretanto, os produtos longos podem requerer mais. O número dos ciclos de amplificação necessários para produzir uma banda visível no gel de eletroforese depende em grande parte da concentração inicial do DNA alvo: Innis e Gelfand [5] recomendam de 40 - 45 ciclos para amplificar 50 moléculas alvo, e de 25 - 30 para amplificar as moléculas 3x105 à mesma concentração. Esta desproporcionalidade é devido a um efeito platô bem conhecido, que é a atenuação na taxa exponencial da acumulação do produto em estágios tardios de uma PCR, quando o produto alcança 0,3 - 1,0 nM (nanomolar). Isto pode ser causado pela degradação dos reagentes (dNTPs, enzima); esgotamento de reagente (primers, dNTPs formam um problema com os produtos curtos, e tardios para produtos longos); inibição do produto final (formação do pirofosfato); competição de reagentes por produtos não-específicos; competição por ligação de primer pelo reanelamento do produto concentrado (de 10nM) [5]. O produto desejado não sendo feito em 30 ciclos deve-se fazer exame de uma amostra pequena (1 microlitro) da mistura amplificada e reamplificá-la de 20 a 30 vezes em uma mistura de reação nova, melhor do que estender o funcionamento para mais ciclos. Em alguns casos onde a concentração da fita molde está limitando, isto pode dar um produto bom onde a extensão do ciclo a 40 vezes não funciona. 23 24 Capítulo 4 Uma Solução Computacional Pelo exposto nos Capítulos anteriores, o projeto de primers é fundamentalmente importante em métodos de detecção baseados em PCR. Os critérios gerais para primers são muito simples. Contudo, é difícil escolher primers bons para uma dada seqüência do molde. Não são somente os cálculos. O mecanismo de alinhamento para escolher a região espécie-específica também é muito sofisticado. Portanto, a ajuda computacional na construção de primer é uma tarefa crítica na Bioinformática. Há diversos serviços na Internet ou software autônomo fornecidos ao público para construção de primers, tal como PRIDE (35), PRIMER MASTER (36), PRIMO (37), PrimeArray (38), Primer3 (34), Prime (39) e Web Primer (http://genome-www2.stanford.edu/cgi-bin/SGD/webprimer). Os usuários podem definir os parâmetros listados no menu destas ferramentas e então obter diversos pares de primers para a seqüência do molde alvo. Entretanto, a maioria deles somente analisa uma única seqüência de pesquisa. A proposta deste trabalho é definir, por alinhamento de várias seqüências nucleotídicas, uma região ideal para construção de primers. Assim, considerando as limitações descritas no item 3.3 desta dissertação, um grupo de regras pode ser derivado para garantir a especificidade do diagnóstico: 1) Os primers devem ser 18 a 25 bases de comprimento; 2) A composição de base deve ser 50 a 60% (G+C); 3) Temperaturas de desnaturação entre 55 à 80ºC são preferidas; 4) Extremidades 3' de primers não deve ser complementar com outro primer, caso contrário dímeros de primers serão formados preferencialmente a qualquer outro produto. A autocomplementaridade de primer (habilidade de formar estruturas secundárias tais como frisos) deve ser evitadas (veja Figura 3.1); 5) O produto amplificado por PCR indicado pelo par de primers não deve exceder 1200 pares de bases de comprimento; 6) Os parâmetros para o par de primers devem ser similares. 25 Quanto maior for o primer, maior será sua especificidade. Apesar disso, há problemas na PCR com a construção de primers muito extensos. As variações de comprimento de primer de 18 a 25 nucleotídeos são aconselhadas e a configuração padrão do programa é 19. Em primers de tamanho acima de 25 bases há maior probabilidade de formar estruturas secundárias (frisos pela auto-complementaridade) ou dímeros entre o par de primers. Portanto, para diagnóstico, experimentos apontam que os primers não devem exceder de 25 bases. A composição de bases é importante devido às pontes de hidrogênio que conferem maior estabilidade no anelamento entre citosina e guanina do que em adenina e timina. Por isso um conteúdo de CG estável deve ser a partir de 50% e não pode exceder de 60% devido a elevada reatividade destas bases nitrogenadas em parearem-se formando dímeros entre primers. No programa proposto a configuração padrão do conteúdo de GC do par de primers varia de 50% a 60%. Primers com Tm menor do que 50ºC são excluídos. A diferença aceitável de valores de Tm em um par de primers é de 5ºC. Critérios básicos para a seleção de Tm de primer. A temperatura de anelamento (Ta) é determinada pela temperatura de desnaturação (Tm). A temperatura de desnaturação é o parâmetro mais importante porque o termociclador ao elevar e diminuir a temperatura muito rapidamente afeta também os primers que devem ser capazes de anelarem-se a partir de 54 ºC e não deve passar de 80ºC para que possibilite a desnaturação necessária na PCR. Deve-se ter cautela com a distribuição de nucleotídeos formar um anagrama de bases bem variado, principalmente nas extremidades. Ao usar um par de primers para diagnóstico deve-se preocupar-se se ocorre inter-complementaridade entre os dois primers. Esse cuidado também é nas extremidades porque em um primer também se pode formar estruturas secundárias como um friso ou um círculo devido a complementaridade das extremidades. O par de primers são os limites da região que vai ser amplificada ou copiada várias vezes. É necessário estabelecer um tamanho mínimo de 100 bases, pois a partir deste tamanho o fragmento pode ser melhor visualizado em um gel de eletroforese. O tamanho máximo deve ser de 1200 bases porque a partir deste tamanho a polimerase terá diminuição de performance. Em um minuto a polimerase é capaz de encadear até 2000 bases. Há uma preocupação do par de primers possuírem parâmetros como Tm e conteúdo GC similares, devido à variação de temperatura que são submetidos. O software desenvolvido para diagnóstico de viroses em plantas, ajuda em selecionar primers para uma região específica e bem conhecida do genoma viral para ser amplificada na reação da PCR. 26 O sistema computacional na sua primeira versão consiste de dois módulos: um módulo para alinhamento das seqüências nucleotídicas e separação das regiões polimórficas, outro módulo para construção de primers usando os melhores parâmetros de primers eficientes no diagnóstico por padrão ou configurados pelo pesquisador. A Tabela 4.1 pode resumir os tratamentos dados aos problemas solucionados neste trabalho. PROBLEMAS ATUAIS Prejuizo no agronegócio do RN e Brasil; Busca de genomas em banco de dados (demorado); Alinhamento múltiplo (demorado, falho); Escolher região a ser amplificada (manual); Parâmetros controlados de modo ineficiente; Problema performance de tempo do algoritmo. SOLUÇÕES DO SISTEMA Análise prévia do diagnóstico por PCR e melhor tratamento; Busca mais rápida, devido banco de dados localmente instalado; Alinhamento mais rápido do que na Internet, correto; Escolha automática rápida detalhada (parâmetros); Controle mais eficiente para diagnóstico; Modificações evitando comparações desnecessárias. Tabela 4.1: Soluções do Sistema Dadas aos Diversos Problemas Abordados O objetivo do sistema é automatizar o processo tradicional de escolhas de primers espécieespecíficos. O sistema tem dois módulos: um módulo para alinhamento de seqüências e outro para projetar ou construir primers. Este sistema deve ser modelado orientado a objeto usando UML [48]. No processo de desenvolvimento do software orientado a objetos é necessário ter uma visão mais ampla do que a oferecida pelo modelo estático do sistema, pois este não reflete a mudança dos objetos e seu comportamento através do tempo [47]. Os bancos de dados de arquivos simples são o tipo de banco de dados que os não-especialistas entendem com mais facilidade. Um banco de dados de arquivos simples não é realmente um banco de dados, é simplesmente uma coleção ordenada de arquivos semelhantes, geralmente em conformidade com um formato padrão de conteúdo [46]. Os bancos de dados de arquivos simples organizam os dados de forma sensata e podem ser pesquisados devido a indexação, e, portanto, não são essencialmente ruins. Entretanto quando eles ficam cada vez maiores, como é o caso dos bancos de dados biológicos em geral, faz-se necessário um sistema de gerenciamento de banco de dados, como Postgree, ou SQL Server, ou Oracle. 27 A proposta inicial do sistema atendeu as expectativas com um índice unidimensional em um banco de dados de arquivos simples indexado. A coleção de arquivos texto tem o formato Fasta (vide figura 4.1). Muitos usuários de dados de seqüências biológicas armazenam e acessam as seqüências localmente, utilizando o Sequence Retrieval System (SRS), um sistema de indexação de arquivos simples projetado para utilização com dados biológicos. Figura 4.1: Formato Fasta O sistema não tem controle de acesso por senha ou preocupações maiores de segurança por não estar acessível pela Internet, e sim localmente. No entanto, faz-se necessário criar um sistema de segurança do banco de dados para desenvolvimento, manutenção, e prevenção de problemas futuros. O sistema sempre estará em fase contínua de desenvolvimento e outros processos podem ser implementados. O processo de assegurar-se de que a informação seja alcançada somente em maneiras autorizadas é chamado controle de acesso. O controle de acesso é um de diversos objetivos possíveis da segurança dentro de um sistema computacional; ilustrase no Esquema 4.1, que mostra a informação do banco de dados sendo transferida para e do programa do usuário de acordo com um grupo de regras de acesso. O controle de fluxo da informação visa prevenir o escape da segurança da informação. E todo o sistema desenvolvido deverá possuir documentação. 28 Analisando o sistema tradicional de escolha de primers espécie específicos constatamos os seguintes problemas: • A busca em banco de dados públicos, o alinhamento de genomas e a construção de primers são demorados por depender do tráfego via Internet. • Utiliza-se vários programas diferentes para obter os primers espécie-específicos. • Cada etapa do processo implica em copiar e colar resultados manualmente, isso pode gerar algum erro. • A visualização dos dados do processo é menos compreensível, visto que tem interfaces diferentes sendo utilizadas. • O alinhamento múltiplo usado em um programa público na Internet demora e pode dar dados imprecisos. O sistema proposto resolve todos esses problemas do método tradicional: • O processo de construção de primers espécie-específicos é automatizado portanto não é necessário utilizar vários programas, e o tempo de resposta em comparação ao método tradicional é mais rápido. • Utiliza-se apenas a interface de um programa para obter os resultados. • Não é necessário copiar e colar manualmente os dados. O fluxo de dados é dirigido para obter os resultados. • O processo completo para obter os primers espécie-específicos é melhor compreendido, por ter uma única interface, e por ser uma interface compreensível facilitando a visualização dos dados sendo processados ou transformados. E, pode-se voltar etapas do processo para entender o processamento. • O alinhamento múltiplo de seqüências até 40000 bases de comprimento tem no pior caso um tempo de resposta inferior a três minutos. A arquitetura do sistema é mostrada no diagrama 4.2. A entrada do programa são arquivos texto no formato Fasta e a saída são primers com os parâmetros otimizados por padrão ou estabelecidos pelo usuário no sentido 3’-5’ou 5’-3’. Os arquivos texto estão armazenados localmente na máquina no formato Fasta, onde se pode obter os genomas de várias espécies de vírus de plantas que estão disponíveis nos bancos de dados públicos, ou que foram seqüenciados no laboratório do usuário. O usuário escolhe as espécies suspeitas que deseja estabelecer uma comparação e submete ao alinhamento múltiplo global. Em seguida o programa pode mostrar as regiões comuns (regiões universais) e incomuns (regiões espécie-específicas) entre os genomas. 29 As regiões espécie-específicas são processadas em um grupo de regras ou parâmetros otimizados para desenhar primers. No entanto, o usuário tem a liberdade de decidir o tamanho do fragmento que quer amplificar, o tamanho do primers, a média do conteúdo de C+G, e a temperatura de desnaturação antes do processamento das regiões espécie-específicas para desenhar os primers. Nos resultados finais ou saída do programa, pode-se escolher em uma lista de primers fornecida pelo programa, um par de primers limítrofes de parâmetros similares. SERVIDOR Controle de Acesso BANCO DE DADOS PROGRAMA USUÁRIO Diagrama 4.1: Acessibilidade do Banco de Dados ENTRADA: Seqüência query Arquivo .txt Formato Fasta Infraestrutura de Bioinformática Processando… BANCO DE DADOS Arquivos de vírus de planta Dados de vírus de planta Seqüência de virus query Detalhando… Cálculos do pipeline VírusPlanta IrParaSeqüênciaVírus Ambiente de mineração de dados Região espécie-específica da seqüência query 3’5’ Ex.: (XXAGTCXX…) SAÍDA: Lista de Primers de vírus / seqüência. Ex.: 3’5’| Tm |C+G| 5’3’ | AGTC|54 ºC |52%|TCAG GERENCIAMENTO DA INFORMAÇÃO Diagrama 4.2: Arquitetura do Sistema 30 Inicialmente, desenvolveu-se um módulo de alinhamento (vide Diagrama 4.3), que aceita como entrada arquivo texto com seqüências nucleotídicas em formato Fasta de vários comprimentos e fornece como saída: domínios com similaridades e domínios espécieespecíficos. Um domínio espécie-específico é uma seqüência do genoma viral que está presente somente em uma das espécies como resultado de uma comparação entre genomas. O alinhamento é feito usando o algoritmo de Força Bruta modificado, usando uma string ou tamanho de palavra configurado pelo usuário. A primeira seqüência escolhida no banco de dados é a seqüência query, ou seja, é a seqüência que será fragmentada em várias strings e comparada com as seqüências subseqüentes de modo global. O resultado do alinhamento será mostrado na seqüência query. Depois, pode-se fazer um detalhamento do resultado indicando as regiões universais e as regiões espécie-específicas. Diagrama 4.3: Diagrama do Módulo de Alinhamento # O módulo subseqüente “constrói” os primers usando por padrão parâmetros otimizados ou parâmetros especificados pelo usuário (vide Diagrama 4.4). Uma lista de primers candidatos é 31 exibida com seus respectivos parâmetros para ajudar o usuário a minimizar primers ineficientes, e estabelecer o tamanho do fragmento de DNA que deve ser amplificado na reação de PCR da Biologia Molecular. Os parâmetros otimizados já foram listados no conjunto de regras derivados para garantir a especificidade do diagnóstico no início deste capítulo. A idéia da aplicação é usar regiões espécie-específicas de genomas virais para construir primers de alta especificidade para diagnosticar vírus de plantas usando PCR. Primers devem estar prontos para anelarem-se ao ácido nucléico alvo em uma localização prevista e ser estendida pela enzima Taq Polimerase. O resultado é uma lista de primers com seus respectivos parâmetros. Os parâmetros mostrados são: tamanho, porcentagem do conteúdo de C+G, temperatura de desnaturação, e primer complementar. O primer complementar é a versão 5’-3’ do primeiro primer listado. No par de primers deve necessariamente ser um no sentido 3’-5’ e outro no sentido 5’-3’ de primers diferentes e de distância conhecida. Diagrama 4.4: Diagrama do Módulo de Construção de Primers 32 A ferramenta usada no desenvolvimento do sistema foi o Borland Delphi 5.0, para ambiente Windows. A escolha dessa ferramenta decorreu do fato de a mesma ser visual e orientada a objetos, bem como possuir boa integração com aplicações de bancos de dados. Ambos os fatos contribuíram para a diminuição do tempo de desenvolvimento, ao evitar a preocupação com a API do Windows e o acesso às tabelas Paradox. A interface é compreensível, pois é intuitivo o modo de utilizar o programa ao observar as telas. O programa permite que o usuário especifique o tamanho da string de busca ou subseqüência no alinhamento entre seqüências, como mostra o item 1 na tela apresentada na Figura 4.3. O tamanho de string padrão é 10. Há na tela inicial do programa o botão de arquivos de seqüências (vide figura 4.3, item 2) para acionar a tela de busca do arquivo texto do sistema operacional e assim o usuário pode buscar os arquivos texto com seqüências de vírus em formato Fasta (vide figura 4.1). As seqüências são mostradas no item 7 da figura 4.3 e a primeira seqüência é a seqüência query ou seqüência de busca, onde todas as seqüências subsequentes serão comparadas, e onde os resultados serão mostrados. Há também o botão de arquivos de primers (vide figura 4.3, item 3). Este botão ao ser acionado mostra a tela de busca do arquivo texto do sistema operacional, e o usuário pode escolher um arquivo texto mostrando primers, cada um já escolhido para um respectivo vírus (vide figura 4.2). Este arquivo de extensão .txt não tem seqüências no formato Fasta, mas lista primers em texto padronizado para o programa proposto. E mostra os primers específicos de vírus no item 6 da figura 4.3. O botão Processar mostrado na figura 4.3 no item 4 serve para verificar se os primers são realmente específicos para as seqüências de vírus adicionadas no programa. Ao acionar este botão uma tela de resultados será exibida mostrando em que ordem de seqüência nucleotídica viral se encontra o primer e sua respectiva posição de base inicial (vide figura 4.4). O botão Localizar RE’s da figura 4.3 no item 5 serve para localizar as regiões específicas da primeira seqüência de genoma de vírus do arquivo texto adicionado (vide figura 4.3, item 6). Este botão acionará a tela de resultados (vide figura 4.4), que mostra uma região ou as regiões específicas existentes na primeira seqüência do arquivo de seqüências. Quando não há região específica a tela mostra todas as bases com a letra X. E quando há regiões específicas mostra na primeira seqüência nucleotídica viral fragmentos em modo texto representadas pelas letras: G, C, A e T. Pode-se também visualizar as regiões comuns ou universais entre os vírus escolhidos 33 (vide figura 4.6). Na tela de resultados (Figura 4.5) são mostradas também as configurações dos primers que serão desenhados. As configurações que podem ser modificadas pelo usuário são: número mínimo de bases, número máximo de bases, intervalo de temperatura de desnaturação (Tm) em graus Celcius, e intervalo de porcentagem de conteúdo G+C. Há tambem na leta de resultados dois botões; um para detalhar as regiões específicas, e outro para detalhar as regiões universais. Ao ser acionado um dos botões ele mostrará uma outra tela (vide figura 4.6) com os primers desenhados de acordo com as configurações estabelecidas na tela de resultados. A tela de primers específicos mostrada na figura 4.7 mostra as regiões específicas detalhadas com um número em ordem crescente no sentido 5’-3’, a posição da base inicial e a posição da base final na primeira seqüência viral, e o comprimento da região espécie-específica em número de bases. Ao selecionar um tamanho de região específica, mostrará nesta mesma tela os respectivos primers que podem ser desenhados nesta região de acordo com as configurações estabelecidas. Cada primer de uma região espécie-específica é listado com sua respectiva: seqüência de bases representadas em letras, temperatura de desnaturação em graus Celcius (Tm), porcentagem do conteúdo G+C, tamanho em número de bases, posição na região espécie específica, e o primer complementar. Ao selecionar a seqüência de bases do primer nesta seção, será mostrada na seção Seqüência, as bases pintadas na cor verde e toda a região especie específica pintada na cor vermelha. O usuário pode copiar a seqüência verde. Para saber o tamanho de fragmento de DNA que será copiado várias vezes na técnica e PCR para diagnosticar a espécie de virus, é preciso saber o resultado da subtração da posição inicial do primeiro primer e a posição final do segundo primer da primeira seqüência viral ou seqüência query. Figura 4.2: Formato do Arquivo de Primers do Programa 34 Figura 4.3: Tela inicial do programa Figura 4.4: Tela mostra em que seqüência e posicão da seqüência se encontra o primer 35 Figura 4.5: Tela de resultados que mostra as regiões especificas Figura 4.6: Tela de resultados que mostra as regiões universais 36 Figura 4.7: Tela mostrando os primers da região específica com seus respectivos parâmetros 37 Capítulo 5 Experimentos e Resultados No sistema desenvolvido, a adaptação do algoritmo de força bruta prolongada. A busca executa uma verificação em todas as seqüências em ordem para obter a subseqüência, usando um tamanho de seqüência de nucleotídeos configurada pelo usuário. Uma lista de subseqüências é armazenada baseada na ocorrência de similaridade relativa: ID da seqüência comparada, posição inicial e tamanho das subseqüências. A figura 4.1 ilustra o sistema final projetado com base em modificações propostas. Este sistema também pode ser usado para análise de polimorfismo. Realizou-se testes com o Algoritmo de Força Bruta modificado para algumas seqüências de vírus selecionados e os resultados mostram que os primers não são ambíguos para cada seqüência. O tempo gasto para casar uma seqüência única de comprimento 40.000 bases (pior caso de teste) com outra seqüência de 1000 bases, usando uma string de busca de tamanho 10, foi de 2 minutos e 43 segundos, usando uma máquina com processador AMD Athlon 2,4 GHz, 256 MB de memória RAM. Executaram-se vários experimentos com o algoritmo, principalmente testando o tempo de execução com seqüências de tamanhos variados, em relação à versão original. A figura 5.1 mostra um resultado mais extensivo demonstrando a performance do algoritmo. No último caso, o banco de dados de seqüências cresceu, denotando dados mais precisos. Foi realizado um experimento para algumas seqüências de vírus de planta selecionadas em banco de dados público e os resultados mostram que os primers também não são ambíguos para cada seqüência. Na versão atual, executou-se uma comparação algorítmica do tempo com tamanhos variáveis da seqüência. O gráfico na figura 5.1 mostra que o programa proposto no pior caso (40.000 pares de bases de comprimento) tem uma performance tempo aproximado de 3 minutos. 38 Performance de Tempo do Programa 1200 900 720 Tempo 600 (segundos) 293 300 140 37 0 14 0 4 30 43 60 8 12 16 74 94 20 24 105 120 28 32 163 157 36 40 Número de bases da seqüê ncia nucleotídica e m Kb (1000 bases) Algoritmo de Força Bruta Algoritmo de Força Bruta Modificado Gráfico 5.1: Gráfico de performance da última versão do algoritmo de Força Bruta Dois cenários de experimentos com viroses de planta foram executados para verificar se o programa implementado atende ao objetivo proposto. A situação é descobrir uma virose de planta de um determinado cultivar, através da técnica de PCR, usando os primers projetados pelo programa proposto, sem ter conhecimento dos sintomas da planta doente. A limitação é que as opções de primers para diagnóstico é de acordo com os genomas disponíveis nos bancos de dados de genomas de vírus de planta. Tanto na Bioinformática quanto na Biologia Molecular, os experimentos validaram o programa proposto. 39 A simulação é para diagnosticar viroses de batata (Solanum tuberosum). Os genomas completos de viroses de Solanum tuberosum disponíveis no banco de dados de domínio público NCBI são sete, até 16 de setembro de 2004, como mostra na figura 5.3. Em seguida, obteve-se o formato Fasta de cada genoma de vírus da batata. Todos os sete genomas foram processados pelo programa proposto com o cuidado de manter as configurações padronizadas para todos. O alinhamento foi feito com uma string de tamanho 10, e em 25 segundos obteve-se o resultado usando o processador AMD Athlon 2,4 GHz, 256 MB de memória RAM. O programa usa o primeiro genoma da lista como alvo para alinhar os subseqüentes. Para cada genoma, obteve-se um par de primers com características iguais (tamanho, Tm e conteúdo G+C) configuradas na tabela 5.1. Estas características estão otimizadas segundo Innis e Gelfand [05]. O tamanho do primer foi de 21 bases por ser mais específico e menos provável de formar problemas de complementaridade (vide figura 3.1). Quanto maior o primer mais específico ao alvo, porém também se considera que primers muito longos podem formar frisos com a intra-complementaridade. Tendo em vista isso, as extremidades dos primers foram escolhidas procurando não formar dímeros entre o par de primers nem frisos intra-primer. A temperatura de desnaturação (Tm em ºC) escolhida foi 54,36 por ser um valor experimentalmente eficiente na reação. A porcentagem de guanina e citosina (% G+C) foi de 52.38% também estável experimentalmente no anelamento da reação de PCR. O tamanho do fragmento do genoma do vírus amplificado por PCR foi entre 150 à 1200 pares de bases por ser um tamanho de extensão viável para a enzima polimerase expandir na reação. Este tamanho é limitado pelo par de primers escolhido. Tabela 5.1: Primers de espécies de viroses de batata obtida pelo programa proposto 40 Figura 5.1: Tela de resultados do Entrez no NCBI mostrando 7 genomas de vírus da batata. Os pares de primers específicos obtidos de cada espécie de vírus também foram testados usando o Blast-n do NCBI e comprova-se que são específicos em nível de espécie, em 16 de dezembro de 2004. E em todos os primers 5`-3` de viroses de batata, constata-se a especificidade com o vírus respectivo, porque o Blast-N alinhou no banco de dados com várias seqüências de genomas parciais e com o genoma completo de cada vírus analisado. Além disso, as outras seqüências alinhadas que não são de vírus têm um E-value alto, indicando que foram alinhadas ao acaso (vide figuras 5.4 a 5.10). E-value (Expectation value) é um número, resultado de cálculos estatísticos, que indica o grau de "validade" de um alinhamento. Quanto menor o Evalue mais significativo é o alinhamento. O BLAST mostra os E-values do alinhamento colocando-os em ordem decrescente de significância. 41 Figura 5.2: Tela de Resultados do Blast-N para Potato Vírus V 42 Figura 5.3: Tela de Resultados do Blast-N para Cherry rasp leaf virus RNA2 43 ! Figura 5.4: Tela de Resultados do Blast-N para Cherry rasp leaf virus 44 ! Figura 5.5: Tela de Resultados do Blast-N para Potato virus Y 45 Figura 5.6: Tela de Resultados do Blast-N para Narcissus mosaic virus 46 Figura 5.7: Tela de Resultados do Blast-N para Potato virus M 47 Figura 5.8: Tela de Resultados do Blast-N para Potato virus A 48 O Rio Grande do Norte é o maior exportador de melão do Brasil. Neste cenário simula-se um experimento para diagnosticar viroses do meloeiro (Cucumis melo L). Os genomas completos de viroses de Cucumis melo L disponíveis no banco de dados de domínio público NCBI são quatro, até 16 de setembro de 2004, como mostra na figura 5.11. Em seguida, obtive-se o formato Fasta de cada genoma de vírus do meloeiro. Todos os quatro genomas foram processados pelo programa proposto com o cuidado de manter as configurações padronizadas para todos. O alinhamento foi feito com uma string de tamanho 10, e em 13 segundos obteve-se o resultado usando um processador AMD Athlon 2,4 GHz, 256 MB de memória RAM. O programa usa o primeiro genoma da lista como alvo para alinhar os subseqüentes. Para cada genoma obteve-se um par de primers com características iguais (tamanho, Tm e conteúdo G+C) configuradas na tabela 5.2. Estas características estão otimizadas segundo Innis e Gelfand [05]. O tamanho do primer foi de 21 bases por ser mais específico e menos provável de formar problemas de complementaridade (vide figura 3.1). Quanto maior o primer mais específico ao alvo, porém também se considera que primers muito longos podem formar frisos com a intra-complementaridade. Tendo em vista isso, as extremidades dos primers foram escolhidas procurando não formar dímeros entre o par de primers nem friso intra-primer. A temperatura de desnaturação (Tm em ºC) escolhida foi 54,36 por ser um valor experimentalmente eficiente na reação. A porcentagem de guanina e citosina (% G+C) foi de 52.38% também estável experimentalmente no anelamento da reação de PCR. O tamanho do fragmento do genoma do vírus amplificado por PCR foi entre 150 à 1200 pares de bases por ser um tamanho de extensão viável para a enzima polimerase expandir na reação. Este tamanho é limitado pelo par de primers escolhido. Tabela 5.2: Tabela de Primers de Espécies de Vírus do Meloeiro Obtida Pelo Programa Proposto 49 Figura 5.9: Tela de resultados do Entrez no NCBI com 4 genomas de vírus de meloeiro. Os pares de primers específicos obtidos de cada espécie de vírus também foram testados usando o Blast-n do NCBI e comprova-se que são específicos em nível de espécie, em 16 de dezembro de 2004. E em todos os primers 5`-3` de viroses do meloeiro, constata-se a especificidade com o vírus respectivo, porque o Blast-N alinhou no banco de dados com várias seqüências de genomas parciais e com o genoma completo de cada vírus analisado. Além disso, as outras seqüências alinhadas que não são de vírus têm um E-value alto, indicando que foram alinhadas ao acaso (vide figuras 5.12 a 5.15). 50 Figura 5.10: Tela de Resultados do Blast-N para Cucurbit yellow stunting disorder virus RNA2 51 Figura 5.11: Tela de Resultados do Blast-N para Cucurbit yellow stunting disorder virus RNA1 52 Figura 5.12: Tela de Resultados do Blast-N para Melon chlorotic leaf curl virus 53 Figura 5.13: Tela de Resultados do Blast-N para Melon necrotic spot virus 54 Capítulo 6 Conclusão e Perspectivas Eu obtive um diferencial em relação aos softwares existentes em domínio público e em domínio privado. O diferencial do sistema proposto está na estratégia para realizar um diagnóstico em nível de espécie de modo eficiente. A estratégia é procurar similaridades e nãosimilaridades nas regiões do genoma do vírus. Regiões onde ocorrem não-similaridades são regiões espécie-específicas, ou seja, os primers projetados a partir desta região serão específicos para apenas uma espécie suspeita. O sistema também possibilita ao usuário configurar a estringência do alinhamento, bem como os parâmetros de primers ótimos para o diagnóstico. Estringência é o número de bases da string ou palavra de busca (tamanho da subseqüência). A priori, o sistema tem uma configuração padrão baseada em medidas otimizadas da literatura pesquisada. A estratégia de escolher regiões específicas de uma espécie antes da construção de primers é eficiente para diagnosticar uma virose suspeita. A resposta avança então a metodologia de diagnóstico molecular em nível de espécie de vírus e de outros patógenos facilitando no processo de tratamento. Além de beneficiar o controle de pragas na agricultura de importação e exportação, pode-se fazer um estudo de polimorfismo entre espécie e estudar a filogenia entre espécies de microorganismos. O programa proposto para diagnóstico de vírus de planta pode ser aplicado para outros patógenos com uma simples adaptação de sua interface e algoritmo. A base principal é o módulo de alinhamento que pode ser tão simples quanto usar o algoritmo de força bruta. O alinhamento de seqüências de vírus também pode ser útil para identificar marcadores moleculares. As modificações implementadas no Algoritmo de Bruta melhoraram consideravelmente sua performance de tempo. Justifica-se o uso deste algoritmo porque em geral o tamanho de uma seqüência de um vírus de planta não é maior do que 40.000 bases, e o processamento foi realizado em 2 minutos e 43 segundos, sendo satisfatório em comparação ao tempo de demora usando outros programas de alinhamento e construção de primers disponíveis na Internet. 55 Ao longo dos últimos anos, a pesquisa na área de genômica e de bioinformática vem obtendo crescente importância no país. Projetos bem sucedidos, como os da Xylella fastidiosa, da canade-açúcar, do câncer e outros apenas comprovam essa afirmação. Nesse contexto, a criação de um programa para identificar viroses em plantas torna-se mais um passo na aquisição de excelência por pesquisadores brasileiros nessa área. O estudo desenvolvido é importante também devido à escassez de pesquisas realizadas no Brasil que proponham técnicas qualitativas de diagnóstico da Biologia Molecular. De um modo geral, o trabalho alcançou o objetivo proposto, entretanto resta resolver a escolha do par de primers limitando a seqüência a ser amplificada. Alem disso, pretende-se criar o banco de dados de genoma de vírus de planta e o banco de primers. Para versões posteriores do programa sugere-se o uso do Algoritmo de Needleman-Wunsch [48] para alinhamento global de seqüências nucleotídicas, indicado para alinhamento de genomas de outros patógenos com genoma superior a 40000 pares de bases [49]. Tendo em vista que a metodologia adotada pode ser utilizada e adaptada para outros trabalhos com diferentes patógenos. 56 Referências Bibliográficas [01] Thomson K. at al., Identification of Zucchini yellow mosaic potyvirus by RT-PCR and analysis of sequence variability, Journal of Virological Methods, 55, p. 83-96. ed. Addison-Wesley, 1995. [02] Gitton F. at al., A two-step multiplex RT-PCR method for simultaneous detection of soilborne wheat mosaic virus and wheat spindle streak mosaic virus from France, Plant Pathology, 48, p. 635-641, 1999. [03] Antoniw, J., A new method for designing PCR primers specific for groups of sequences and its application to plant viruses, Molecular Biotechnology, 4, 111- 119, 1995. [04] Compton T., Degenerate primers for DNA amplification. pp. 39-45 in: PCR Pro tocols (Innis, Gelfand, Sninsky and White, eds.); Academic Press, New York, 1990. [05] Innis M. A. and Gelfand D. H., Optimization of PCRs. pp. 3-12 in: PCR Protocols (Innis, Gelfand, Sninsky and White, eds.); Academic Press, New York, 1990. [06] Rybicki E.P. and Hughes F.L., Detection and typing of maize streak virus and other distantly related geminiviruses of grasses by polymerase chain reaction amplification of a conserved viral sequence. Journal of General Virology 71:2519-2526, 1990. [07] Rybicki E. P., PCR primer design and reaction optimization. Department of Molecular and Cell Biology, University of Cape Town, 2001. [08] Rychlik W., Spencer W.J. and Rhoads R.E., Optimization of the annealing temperature for DNA amplification in vitro. Nucleic Acids Research 18 (21):6409-6412, 1990. [09] Thweatt R., Goldstein S. and Reis R.J.S., A universal primer mixture for sequence determination at the 3' ends of cDNAs. Analytical Biochemistry 190:314-316, 1990. [10] Yap E.P.H. and McGee JO'D, Short PCR product yields improved by lower denaturation temperatures. Nucleic Acids Research 19 (7):1713, 1991. [11] Exposito at al. PCR Strategy for Identification and Differentiation of Smallpox and Other Orthopoxviruses. Journal of Clinic Microbiology, 95, p. 2069-2076. American Society for Microbiology, 1995. Cormen, T. H., Leiserson, C. E., Rivest, R.L., Introduction to Algorithms. MIT Press, 1990. [12] [13] Elmasri, R., Navathe, S. B., Fundamentals of Database Systems. Addison-Wesley. 3rd ed. 2000. 57 [14] Hammond, J., Calef, C., Larder, B., Schinazi, R., Mellors, J. W., Mutations in Retroviral Genes Associated with Drug Resistance, 1999. [15] National Center for Biotechnology Information. URL http://www.ncbi.nlm.nih.gov. Acessado em junho de 2004. [16] Setubal, J., Meidanis, J., Introduction to Computational Molecular Biology. Boston: PWS, p. 1-103, 1997. [17] Silberschatz, A., Korth, H. F., Sudarshan, S., Sistema de Banco de Dados. Makron Books, São Paulo, 3ª ed. 1999. [18] Stanford HIV RT and Protease Sequence Database. URL http://hivdb.stanford.edu/hiv. Acessado em junho de 2004. [19] Baxevanis, A. D., Ouellette, B. F. F., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins. John Wiley & Sons, 1998. [20] Hillier L. and Green P., OSP: a Computer Program for Choosing PCR and DNA Sequencing Primers, PCR Methods and Applications, 1, pp. 124-128, 1991. [21] Lowe T., Sharefkin J., Yang S. Q., and Dieffenbach, A Computer Program for selection of oligonucleotide primers for polymerase chain reactions, Nuc. Acids Res., 18, pp. 1757-1761, 1990. [22] Lucas K., Busch M., Mossinger S., and Thompson J. A., An Improved Microcomputer Program for finding Gene- or Gene Family-Specific Oligonucleotides Suitable as Primers for Polymerase Chain Reactions or as Probes, Comp. Appl. Biosci., 7, pp. 525-9, 1991. [23] Mullis, K.B., Ferré, F., and Gibbs, R.A. The Polymerase Chain Reaction. Birkhäuser, 1994. [24] Nascimento A., Espreafico E.M., Larson M.L., Monesi N., Rossi N..M., Rodrigues V. Tecnologia do DNA Recombinante. USP, 2003. [25] Saiki R.K., Gelfand D.H., Stoffel S., Scharf S.J., Higuchi R., Horn G.T., Mullis K.B., Erlich H.A. Primer-directed enzymatic amplification of DNA with a thermostable DNApolymerase. Science 239: 487-491, 1988. [26] Pádua A., Santana A.J., Bonfim P.S., Algoritmos de Busca em texto. URL http://www.buscaemtexto.hpg.com.br. Acessado em junho de 2004. [27] Lima, R.C.A., Lima, J.A.A., Souza Jr., M.T., Pio-Ribeiro, G. & Andrade, G.P., Etiologia e estratégias de controle de viroses do mamoeiro no Brasil. Fitopatologia Brasileira. 26:689-702, 2001. [28] Cuticchia A.J., Arnold J., Timberlake W.E.; RT "PCAP: probe choice and analysis package - set of programs to RT aid in choosing synthetic oligomers for contig mapping."; RL Comput. Appl. Biosci. 9:201-203, 1993. 58 [29] Engels W.R.; RT "Contributing software to the Internet: the Amplify program."; RL Trends Biochem. Sci. 18:448-450, 1993. [30] Proutski V.Y., Sokur O.V.; RT "New original software for optimized design of RT PCR primers."; RL (In) Abstracts of the IX International Conference RL "Progress in Clinical Virology",(August 1994, Stockholm). [31] Usdin K.; RT "Hypercard-based data management tools for molecular biologists."; RL Comput. Appl. Biosci. 8:107-111, 1992. [32] Napiwotzki J., Becker A., Damian M.; RT "Primer Design - a new program to choose PCR primers RT and oligonucleotide probes."; RL Medizinische Genetic, Programme and Abstracts, Vol. 2, 1995. [33] RA Resnick, R.; RT "Primers! for the WWW"; URL http://www.williamstone.com. Acessado em julho 2004. [34] Rozen,S. and Skaletsky,H. Primer3 on the WWW for general users and for biologist programmers. Methods Mol. Biol., 132, 365–386, 2000. [35] Haas,S., Vingron,M., Poustka,A. and Wiemann,S. Primer design for large scale sequencing. Nucleic Acids Res., 26, 3006–3012, 1998. [36] Proutski,V. and Holmes,E.C. Primer Master: a new program for the design and analysis of PCR primers. Comput. Appl. Biosci., 12, 253–255, 1996 [37] Li,P., Kupfer,K.C., Davies,C.J., Burbee,D., Evans,G.A. and Garner,H.R. PRIMO: a primer design program that applies base quality statistics for automated large-scale DNA sequencing. Genomics, 40, 476–485, 1997. [38] Raddatz,G., Dehio,M., Meyer,T.F. and Dehio,C. PrimeArray: genome-scale primer design for DNA-microarray construction. Bioinformatics, 17, 98–99, 2001. [39] Eberhardt,N.L. A shell program for the design of PCR primers using genetics computer group (GCG) software (7.1) on VAX/VMS systems. Biotechniques, 13, 914–917, 1992. [40] Meyer,F., Schleiermacher,C. and Giegerich,R. Gene-Fisher software support for the detection of postulated genes, 1995. [41] Andy Vierstraete Homepage. URL http://allserv.rug.ac.be/~avierstr/index.html. Acessado em maio de 2004. [42] BLAST. URL http://www.genbank.org/blast. Acessado em maio de 2004. [43] NCBI GenBank Statistics. http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html. Acessado em fevereiro de 2005. [44] Rocha K. K. F., Medeiros C., Monteiro M., Gonçalves L. M., Marinho P. Primer Design for Automated Virus Diagnosis in Plants. SIBGRAPI 2003, p036. URL http://w3.impa.br/~lhf/sib2003/p036.pdf Acessado em maio de 2004. 59 [45] Rocha K. K. F., Medeiros C., Monteiro M., Gonçalves L. M., Marinho P. Design of Specie-Specific Primers for Virus Diagnosis in Plants with PCR. BIBE 2004: 149-158. URL http://csdl.computer.org/comp/proceedings/bibe/2004/2173/00/21730149abs.htm. Acessado em fevereiro de 2005. [46] Gibas, C., Jambeck, P. Trad. Cristina de Amorim Machado. Desenvolvendo bioinformática. Rio de Janeiro: Campus, 2001. 440p. [47] Furlan, J. D. Modelagem de Objetos Através da UML - The Unified Modeling Language, Makron Books,São Paulo, 1998. [48] Rumbaugh, J.; Blaha, M.; Premerlani, W.; Eddy, F.; Lorensen, W.; Object-Oriented Modeling and Design, Prentice-Hall International, New Jersey, 1991. [49] Needleman, S. B. and Wunsch, C. D. (1970) J. Mol. Biol. 48, 443-453. [50] Ye, Liang, Huang, Xiaoqiu. MAP2: multiple alignment of syntenic genomic sequences; Nucl. Acids Res. 2005 33: 162-170 60