ICB057 – Introdução à Sistemática Molecular- Segundo Tutorial Prof. Almir R. Pepato Aluno: Programas/Algoritmos a serem abordados: Mega Instruções básicas: Não pule nenhum passo, siga com a turma cada etapa deste tutorial. Lembre-se: Ele é parte de sua avaliação. Você deve preenchê-lo de maneira sucinta mas completa, eventualmente com a captura de telas (Ctrl+PrtScr e Ctrl+V). Ao final da aula, mande o arquivo para [email protected] com o assunto “Tutorial DATA ALUNO”. Dada a natureza condensada da disciplina, os programas serão tratados de forma exploratória, permitindo apenas uma noção aproximada de suas potencialidades. Eles apresentam manuais detalhados que podem ser consultados em caso de dúvida. Instalação: O programa MEGA6 pode ser obtido a partir do link abaixo (BioEdit já foi instalado na última aula, usaremos no segundo ítem). MEGA6 http://www.megasoftware.net/ 1-MEGA6 1.1- Obtendo sequências da Internet (GenBank) 1.1.1-Da janela principal do MEGA selecione “Align | Edit/Build Alignment”. Na janela que se abrirá, selecione “Create New Alignment” e clique ok. Selecione DNA. 1.1.2-Selecione Web | Query Genbank no menu principal. O programa abrirá o sítio do NCBI. Entre “Pepato 28S” e pressione o botão “Search”. 1.1.3- Selecione 20 sequências e no menu chamado “Display Settings” escolha a opção FASTA(Text) e depois “Apply”. A pagina irá recarregar com os resultados da busca em formato fasta. 1.1.4- Pressione o “Add to Alignment” no menu superior isto irá importar as sequências no “Alignment Explorer”. Feche a janela com o sítio do NCBI. Pronto: Você obteve sequências do GenBank para utilizar em análises posteriores. 1.2- Alinhamento de sequências utilizando o Muscle 1.2.1- Selecione, no menu principal do “Alignment Explorer” selecione “Edit | Select All”. Pressione o botão do Muscle (adivinhe qual é...) e selecione “Align DNA”. 1.2.2- Uma vez que o alinhamento foi completo salve-o selecionando a opção “Data | Save Session” do menu principal. Dê um nome adequado terminado com “.mas”, salve o arquive e envie junto a esse tutorial. 1.3-Estimando distâncias evolucionárias Daqui em diante, usaremos sequências do gene Desidrogenase Alcólica de 11 espécies de Drosophila (arquivo Drosophila_Adh.meg). Os dados foram obtidos junto ao próprio MEGA, disponibilizados pelos autores. 1.3.1- Distâncias observadas, não corrigidas para multiplas substituições. Abra o arquivo "Drosophila_Adh.meg". Da barra superior do MEGA, selecione “Distance | Compute Pairwise Distance”.Na janela “Analysis Preferences”, clique em “Substitutions Type” e pressione a opção “Nucleotide”. Clique em Model/Method e selecione o “modelo” p-distance. Para esse exemplo usaremos o default para as outras opções. Clique Compute para começar a rodar. Em “File” selecione “Print/Export Distances” e na janela que se abrirá “XL/Microsoft Excel workbook”. Copie e cole a tabela de distâncias abaixo: 1.3.2-Distâncias corrigidas para multiplas substitições usando o modelo Jukes/Cantor: Repita o passo anterior mas ao invés do modelo “p-distance” escolha o “Jukes/Cantor”. Copie os resultados abaixo. 1.3.3- Distâncias corrigidas para multiplas substitições usando o modelo TamuraNei: Repita o passo anterior mas ao invés do modelo “Jukes/Cantor” escolha o “Tamura-Nei model”. Copie os resultados abaixo. Compare os valores com os obtidos nos itens 4.3.1 e 4.3.2. O que muda? Por quê? 1.4.4- Traduzindo sequências nucleotídicas em aminoácidos: Algo sempre útil ao trabalhar com sequências codificantes é poder traduzi-las em aminoácidos. Com frequência, podemos perceber assim problemas com o sequenciamento, além de utilizar os aminoácidos como caracteres. Para tanto, verifique se em “Data | Select Genetic Code Table” a opção “Select Gene Code Table” está em “Standard”, abra o alinhamento dos exercícios anteriores clicando sobre o ícone da esquerda da área de trabalho do MEGA6 e utilize o botão . Clicar novamente neste botão leva de volta aos nucleotídeos. Repare que nesta tela também é possível verificar os sítios conservados, variáveis e parcimônia informativos. Assim, para a sequência de aminoácidos e nucleotídeos verifique esses valores e anote-os abaixo. 1.5. Estatísticas 1.5.1 Composição nucleotídica. Selecione “Statistics | Use All Selected Sites”. Para calcular a frequência de nucleotídeos utilize a opção “Nucleotide Composition”, do menu Statistic. Cole a tabela resultante abaixo e explique-a. 1.5.2 Utilização de códons. Para verificar a utilização de Códons vá ao “Sequence Data Explorer” e selecione Statistics | Codon Usage. Que informações são fornecidas pela tabela? 1.5.3 Frequência de transições observadas entre nucleotídeos. Selecione “Statistics | Nucleotide Pair Frequencies | Directional (16 pairs)”, e em seguida o “Statistics | Nucleotide Pair Frequencies | Undirectional (10 pairs)” Verifique os resultados, copieos abaixo e comente seu significado, inclusive no que as duas opções diferem. 1.6- Inferindo uma árvore atráves do método de “Neighbor-Joining (NJ)”. Ative o arquivo “Drosophila_Adh.meg” caso ainda não esteja ativo. A partir do menu principal selecione a opção “Phylogeny | Construct/Test Neighbor-Joining Tree” menu option. No janela “Analysis Preferences” selecione a opção “p-distance” no item “Model/Method”. Clique em “Compute”. Quando a inferência terminar a árvore aparecerá em uma janela chamada “Tree Explorer”. Exporte a árvore através do menu “File | Export current tree (newick)”. Abra o arquivo no programa “wordpad”e copie a árvore em notação parentética abaixo. O que significam os valores numéricos associados à ela? 1.6.1- Para selecionar um ramo da árvore clique nele com o botão esquerdo do mouse. Com o direito clique no ramo selecionado. Quais opções aparecem? O que elas fazem? 2. Alinhamento manual utilizando estrutura secundária do rRNA. Para este trabalho utilizaremos os genes 12S e o RNAtransportador que baixamos já no primeiro tutorial. Detalhes a respeito de como fazer o alinhamento utilizando a estrutura secundária estão no artigo, que discutiremos na próxima aula: Kjer, K. M., Roshan, U. & Gillespie, J. 2009. Structural and evolutionary considerations for multiple sequence alignment of RNA, and challenges for algorithms that ignore them. Em: Sequence alignment. Methods, Models, Concepts, and Strategies. Rosemberg, M. (ed). University of California Press, Londres, Reino Unido. Os modelos são os seguintes: tRNA: 12S: Sugiro as seguintes mudanças nas etapas descritas: 2.1- Como você deve ter percebido, as instruções sugerem o uso de um editor de texto convencional como o MSword para editar as sequências. Mas é muito mais produtivo utilizar o BioEdit. O primeiro passo é, portanto abrir as sequências neste programa. 2.2- Faça um alinhamento preliminar utilizando o ClustalW, ele ajudará a encontrar as regiões conservadas entre todas as sequências. 2.3- Adicione duas máscaras (Bioedit Sequence menu > Masks > New secondary structure mask). Seguindo a estrutura secundária escolhida como modelo utilize a linha superior para indicar o nome das hélices e a segunda para indicar os nucleotídeos que fazem pareamentos com símbolos como ( e ), { e }, < e > etc. Para sua facilidade delimite nesta etapa as cadeias complementares com colchetes. Nucleotídeos sem pareamento confirmado por substituições compensatórias ou conservados ao longo do alinhamento devem ser indicados por pontos e ficam fora dos colchetes. 2.4-Você pode explorar os pareamentos potenciais usando algoritmos que buscam a estrutura secundária minimizando a energia livre. Um bom exemplo é o programa mfold que pode ser utilizado remotamente a partir da página: http://mfold.rna.albany.edu/?q=mfold/RNA-Folding-Form. Tenha em mente que esses algoritmos não são capazes de predizer sempre (na verdade, quase nunca!) estruturas que façam sentido biológico. Assim, algumas das estruturas apresentadas como subótimas podem ser mais próximas da biologicamente funcional que a estrutura apresentada pelo programa como ótima. Isso é assim porque o ribossomo também inclui proteínas e está imerso em um meio com íons em solução que influenciam a maneira como o RNA se dobra. Desta maneira a evidência mais segura para a inferência das regiões pareantes é mesmo a ocorrência de substituições compensatórias. Outra coisa que se deve ter sempre presente é que no RNA o pareamento transitório G:U é quase tão frequente quanto os pares canônicos (A:U, C:G). Por exemplo: substituições que levem de um par A:U para um U:G devem ser consideradas como compensatórias. Podemos pensar, por exemplo, que a substituição de A por U levou a seleção de uma G na posição outrora ocupada pela U na outra cadeia. 2.5- Para verificar o seu alinhamento e a máscara indicando os pareamentos, você pode empregar o software Rnaalifold que oferece uma estrutura secundária de consenso a partir de um alinhamento empregando algoritmos que levam ao mesmo tempo a minimização da energia livre da molécula de RNA e as substituições compensatórias. O servidor que permite rodar o programa Rnaalifold pode ser acessado no endereço: http://rna.tbi.univie.ac.at/cgi-bin/RNAalifold.cgi. Os resultados fornecidos pelo programa podem levar a refinamentos no alinhamento. 2.6- Ao final do alinhamento será possível detectar diversas regiões de alinhamento ambíguo. Isto é, regiões para as quais a estrutura secundária não fornece evidência para em suporte à homologia entre os nucleotídeos. Emprega-se então a notação proposta por Joseph Gillespie (2004) para essas regiões: RAA- (Regions of alignment ambiguity): Regiões de fita simples e com comprimento variável. RSC- (Regions of slipped-strand compensation): Regiões em que o pareamento entre os sítios varia “deslizando” entre as posições, impedindo a formulação de hipóteses de homologia. REC (Regions of expansion and contraction)- Regiões pareantes de comprimento variável nas extremidades das hélices. 3- Use o aalinhamento para rodar uma análise de parcimônia no TNT. Para isso devemos utilizar o MEGA6 para transformar o alinhamento obtido em um formato capaz de ser lido por aquele programa, o formato Nexus. Pode parecer curioso, mas da forma como os arquivos Nexus são produzidos pelo MEGA6, com os dados relacionados aos táxons e caracteres em blocos separados, eles não são lidos pelo TNT. Precisamos então editar o arquivo nexus resultante no wordpad, substituindo a parte inicial do arquivo: Arquivo original, editamos ele de forma a ficar com o seguinte formato: #NEXUS BEGIN DATA; DIMENSIONS NTAX=XX NCHAR=XXXX; FORMAT DATATYPE = DNA GAP = - MISSING = ?; MATRIX Fica algo assim: Envie o alinhamento e a árvore de consenso estrito obtido na análise de parcimônia para meu e-mail. Descreva qualquer outra eventual decisão tomada durante a análise dos dados.