ICB057 – Introdução à Sistemática Molecular

ICB057 – Introdução à Sistemática Molecular- Segundo Tutorial
Prof. Almir R. Pepato
Aluno:
Programas/Algoritmos a serem abordados:

Mega
Instruções básicas:
Não pule nenhum passo, siga com a turma cada etapa deste tutorial. Lembre-se: Ele é parte
de sua avaliação. Você deve preenchê-lo de maneira sucinta mas completa, eventualmente
com a captura de telas (Ctrl+PrtScr e Ctrl+V). Ao final da aula, mande o arquivo para
[email protected] com o assunto “Tutorial DATA ALUNO”.
Dada a natureza condensada da disciplina, os programas serão tratados de forma
exploratória, permitindo apenas uma noção aproximada de suas potencialidades. Eles
apresentam manuais detalhados que podem ser consultados em caso de dúvida.
Instalação:
O programa MEGA6 pode ser obtido a partir do link abaixo (BioEdit já foi instalado na última
aula, usaremos no segundo ítem).
MEGA6
http://www.megasoftware.net/
1-MEGA6
1.1- Obtendo sequências da Internet (GenBank)
1.1.1-Da janela principal do MEGA selecione “Align | Edit/Build Alignment”. Na janela
que se abrirá, selecione “Create New Alignment” e clique ok. Selecione DNA.
1.1.2-Selecione Web | Query Genbank no menu principal. O programa abrirá o sítio do
NCBI. Entre “Pepato 28S” e pressione o botão “Search”.
1.1.3- Selecione 20 sequências e no menu chamado “Display Settings” escolha a opção
FASTA(Text) e depois “Apply”. A pagina irá recarregar com os resultados da busca em
formato fasta.
1.1.4- Pressione o “Add to Alignment” no menu superior isto irá importar as sequências
no “Alignment Explorer”. Feche a janela com o sítio do NCBI. Pronto: Você obteve
sequências do GenBank para utilizar em análises posteriores.
1.2- Alinhamento de sequências utilizando o Muscle
1.2.1- Selecione, no menu principal do “Alignment Explorer” selecione “Edit | Select
All”. Pressione o botão do Muscle (adivinhe qual é...) e selecione “Align DNA”.
1.2.2- Uma vez que o alinhamento foi completo salve-o selecionando a opção “Data |
Save Session” do menu principal. Dê um nome adequado terminado com “.mas”, salve
o arquive e envie junto a esse tutorial.
1.3-Estimando distâncias evolucionárias
Daqui em diante, usaremos sequências do gene Desidrogenase Alcólica de 11 espécies
de Drosophila (arquivo Drosophila_Adh.meg). Os dados foram obtidos junto ao próprio
MEGA, disponibilizados pelos autores.
1.3.1- Distâncias observadas, não corrigidas para multiplas substituições. Abra o
arquivo "Drosophila_Adh.meg". Da barra superior do MEGA, selecione “Distance |
Compute Pairwise Distance”.Na janela “Analysis Preferences”, clique em
“Substitutions Type” e pressione a opção “Nucleotide”. Clique em Model/Method e
selecione o “modelo” p-distance. Para esse exemplo usaremos o default para as outras
opções. Clique Compute para começar a rodar. Em “File” selecione “Print/Export
Distances” e na janela que se abrirá “XL/Microsoft Excel workbook”. Copie e cole a
tabela de distâncias abaixo:
1.3.2-Distâncias corrigidas para multiplas substitições usando o modelo
Jukes/Cantor: Repita o passo anterior mas ao invés do modelo “p-distance” escolha o
“Jukes/Cantor”. Copie os resultados abaixo.
1.3.3- Distâncias corrigidas para multiplas substitições usando o modelo TamuraNei: Repita o passo anterior mas ao invés do modelo “Jukes/Cantor” escolha o
“Tamura-Nei model”. Copie os resultados abaixo. Compare os valores com os obtidos
nos itens 4.3.1 e 4.3.2. O que muda? Por quê?
1.4.4- Traduzindo sequências nucleotídicas em aminoácidos: Algo sempre útil ao
trabalhar com sequências codificantes é poder traduzi-las em aminoácidos. Com
frequência, podemos perceber assim problemas com o sequenciamento, além de utilizar
os aminoácidos como caracteres. Para tanto, verifique se em “Data | Select Genetic
Code Table” a opção “Select Gene Code Table” está em “Standard”, abra o alinhamento
dos exercícios anteriores clicando sobre o ícone da esquerda da área de trabalho do
MEGA6 e utilize o botão
. Clicar novamente neste botão leva de volta aos
nucleotídeos. Repare que nesta tela também é possível verificar os sítios conservados,
variáveis e parcimônia informativos. Assim, para a sequência de aminoácidos e
nucleotídeos verifique esses valores e anote-os abaixo.
1.5. Estatísticas
1.5.1 Composição nucleotídica. Selecione “Statistics | Use All Selected Sites”. Para
calcular a frequência de nucleotídeos utilize a opção “Nucleotide Composition”, do
menu Statistic. Cole a tabela resultante abaixo e explique-a.
1.5.2 Utilização de códons. Para verificar a utilização de Códons vá ao “Sequence Data
Explorer” e selecione Statistics | Codon Usage. Que informações são fornecidas pela
tabela?
1.5.3 Frequência de transições observadas entre nucleotídeos. Selecione “Statistics |
Nucleotide Pair Frequencies | Directional (16 pairs)”, e em seguida o “Statistics |
Nucleotide Pair Frequencies | Undirectional (10 pairs)” Verifique os resultados, copieos abaixo e comente seu significado, inclusive no que as duas opções diferem.
1.6- Inferindo uma árvore atráves do método de “Neighbor-Joining (NJ)”. Ative o
arquivo “Drosophila_Adh.meg” caso ainda não esteja ativo. A partir do menu principal
selecione a opção “Phylogeny | Construct/Test Neighbor-Joining Tree” menu option.
No janela “Analysis Preferences” selecione a opção “p-distance” no item
“Model/Method”. Clique em “Compute”. Quando a inferência terminar a árvore
aparecerá em uma janela chamada “Tree Explorer”. Exporte a árvore através do menu
“File | Export current tree (newick)”. Abra o arquivo no programa “wordpad”e copie a
árvore em notação parentética abaixo. O que significam os valores numéricos
associados à ela?
1.6.1- Para selecionar um ramo da árvore clique nele com o botão esquerdo do mouse.
Com o direito clique no ramo selecionado. Quais opções aparecem? O que elas fazem?
2. Alinhamento manual utilizando estrutura secundária do rRNA.
Para este trabalho utilizaremos os genes 12S e o RNAtransportador que baixamos já no primeiro
tutorial. Detalhes a respeito de como fazer o alinhamento utilizando a estrutura secundária estão
no artigo, que discutiremos na próxima aula: Kjer, K. M., Roshan, U. & Gillespie, J. 2009.
Structural and evolutionary considerations for multiple sequence alignment of RNA, and
challenges for algorithms that ignore them. Em: Sequence alignment. Methods, Models,
Concepts, and Strategies. Rosemberg, M. (ed). University of California Press, Londres,
Reino Unido.
Os modelos são os seguintes:
tRNA:
12S:
Sugiro as seguintes mudanças nas etapas descritas:
2.1- Como você deve ter percebido, as instruções sugerem o uso de um editor de texto
convencional como o MSword para editar as sequências. Mas é muito mais produtivo utilizar o
BioEdit. O primeiro passo é, portanto abrir as sequências neste programa.
2.2- Faça um alinhamento preliminar utilizando o ClustalW, ele ajudará a encontrar as
regiões conservadas entre todas as sequências.
2.3- Adicione duas máscaras (Bioedit Sequence menu > Masks > New secondary
structure mask). Seguindo a estrutura secundária escolhida como modelo utilize a linha
superior para indicar o nome das hélices e a segunda para indicar os nucleotídeos que
fazem pareamentos com símbolos como ( e ), { e }, < e > etc. Para sua facilidade
delimite nesta etapa as cadeias complementares com colchetes. Nucleotídeos sem
pareamento confirmado por substituições compensatórias ou conservados ao longo do
alinhamento devem ser indicados por pontos e ficam fora dos colchetes.
2.4-Você pode explorar os pareamentos potenciais usando algoritmos que buscam a
estrutura secundária minimizando a energia livre. Um bom exemplo é o programa mfold
que pode ser utilizado remotamente a partir da página:
http://mfold.rna.albany.edu/?q=mfold/RNA-Folding-Form. Tenha em mente que esses
algoritmos não são capazes de predizer sempre (na verdade, quase nunca!) estruturas
que façam sentido biológico. Assim, algumas das estruturas apresentadas como subótimas podem ser mais próximas da biologicamente funcional que a estrutura
apresentada pelo programa como ótima. Isso é assim porque o ribossomo também inclui
proteínas e está imerso em um meio com íons em solução que influenciam a maneira
como o RNA se dobra. Desta maneira a evidência mais segura para a inferência das
regiões pareantes é mesmo a ocorrência de substituições compensatórias.
Outra coisa que se deve ter sempre presente é que no RNA o pareamento transitório G:U é
quase tão frequente quanto os pares canônicos (A:U, C:G). Por exemplo: substituições que
levem de um par A:U para um U:G devem ser consideradas como compensatórias. Podemos
pensar, por exemplo, que a substituição de A por U levou a seleção de uma G na posição outrora
ocupada pela U na outra cadeia.
2.5- Para verificar o seu alinhamento e a máscara indicando os pareamentos, você pode
empregar o software Rnaalifold que oferece uma estrutura secundária de consenso a
partir de um alinhamento empregando algoritmos que levam ao mesmo tempo a
minimização da energia livre da molécula de RNA e as substituições compensatórias. O
servidor que permite rodar o programa Rnaalifold pode ser acessado no endereço:
http://rna.tbi.univie.ac.at/cgi-bin/RNAalifold.cgi. Os resultados fornecidos pelo
programa podem levar a refinamentos no alinhamento.
2.6- Ao final do alinhamento será possível detectar diversas regiões de alinhamento ambíguo.
Isto é, regiões para as quais a estrutura secundária não fornece evidência para em suporte à
homologia entre os nucleotídeos. Emprega-se então a notação proposta por Joseph Gillespie
(2004) para essas regiões:
RAA- (Regions of alignment ambiguity): Regiões de fita simples e com comprimento variável.
RSC- (Regions of slipped-strand compensation): Regiões em que o pareamento entre os sítios
varia “deslizando” entre as posições, impedindo a formulação de hipóteses de homologia.
REC (Regions of expansion and contraction)- Regiões pareantes de comprimento variável nas
extremidades das hélices.
3- Use o aalinhamento para rodar uma análise de parcimônia no TNT. Para isso devemos
utilizar o MEGA6 para transformar o alinhamento obtido em um formato capaz de ser lido por
aquele programa, o formato Nexus. Pode parecer curioso, mas da forma como os arquivos
Nexus são produzidos pelo MEGA6, com os dados relacionados aos táxons e caracteres em
blocos separados, eles não são lidos pelo TNT. Precisamos então editar o arquivo nexus
resultante no wordpad, substituindo a parte inicial do arquivo:
Arquivo original, editamos ele de forma a ficar com o seguinte formato:
#NEXUS
BEGIN DATA;
DIMENSIONS NTAX=XX NCHAR=XXXX;
FORMAT DATATYPE = DNA GAP = - MISSING = ?;
MATRIX
Fica algo assim:
Envie o alinhamento e a árvore de consenso estrito obtido na análise de parcimônia para meu
e-mail. Descreva qualquer outra eventual decisão tomada durante a análise dos dados.