Atividade-3 - IFSC-USP

Biologia molecular computacional - 22/08/12
Atividade-Alinhamento local utilizando o blast
O blast é uma ferramenta de alinhamento local muito utilizada para busca de
seqüências similares em bancos de dados. O seu algoritmo permite com que
pesquisemos rapidamente grandes bancos de dados e obtenhamos alinhamentos que
permitem a caracterização de seqüências biológicas.
Atividade 1- Ajuste de parâmetros do blast
Esta atividade tem como objetivo a familiarização do ajuste de certos
parâmetros do algoritmo do blast. Na maioria de situações, realizamos alinhamentos
de seqüências longas onde os parâmetros padrões do programa já são suficientes.
Entretanto, o alinhamento de seqüências curtas é muito útil, por exemplo, quando
queremos realizar a localização de primers que usualmente tem entre 15 a 25 bases
de comprimento.
Nesta atividade, iremos utilizar um exemplo extremo, no qual temos que alinhar
pequenas porções de DNA, no qual o ajuste correto destes parâmetros são mais
críticos. Neste caso teremos duas seqüências e o objetivo da atividade é alinhar toda a
extensão da seqüência 1 na seqüência 2 em vários HSPs
1) Entre no site http://blast.ncbi.nlm.nih.gov/
2) Selecione a opção nucleotide blast.
3) Selecione a opção “align two or more sequences”
4) Selecione a opção “Somewhat similar sequences (blastn)"
5) Abra o arquivo de seqüências número 1 obtido a partir do site da disciplina
6) Coloque cada uma das seqüências em um dos espaços de entrada do programa
e aperte o botão “Blast”
7) Examine o alinhamento obtido. Foi possível alinhar toda a seqüência? Qual
porção esta faltando? (Q1)
8) Refaça
o
alinhamento
anterior
com
os
mesmos
parâmetros,
mas
desselecionando a opção “low complexity filter” do campo filter. Realize o
alinhamento apertando o botão “Blast” de novo
9) Inspecione o resultado. Ocorreu alguma diferença em relação ao resultado
anterior? (Q2)
10) Refaça o alinhamento anterior com os mesmos parâmetros do item 8, mas
selecione o valor do campo expect para 1 e selecione o valor do “word size” para
7. Realize o alinhamento apertando o botão “blast” de novo.
11) Inspecione o resultado. Algum novo alinhamento surgiu? Por que este
alinhamento não estava presente anteriormente? O alinhamento presente
cobre todas as bases da seqüência 1? (Q3)
(Atenção: esta atividade foi realizada com seqüências preparadas para a atividade.
Normalmente, alinhamento de seqüências deste tamanho resultam em resultados
muito mais dúbios)
ATIVIDADE-2 USO DE BLASTX PARA CARACTERIZAÇÃO DE SEQÜÊNCIAS DE
EST.
Esta atividade tem como objetivo familiarizar o aluno à analise de seqüências de
ESTs, que são seqüência de single-pass de qualidade variável. A familiarização de
análise de seqüências deste tipo é desejável, pois quando obtemos resultados
preliminares de sequenciamento, o tipo de informação obtida é muito parecida.
1) Vá ao banco do entrez nucleotide e busque a seqüência de EST com o número
de acesso EX496532.1
2) Vá ao programa ORF Finder ( http://www.ncbi.nlm.nih.gov/gorf/gorf.html ) e
tente determinar qual o quadro de leitura mais provável. (sugestão: após
submeter as seqüências, aperte o botão “six frames” para ver todos os sinais
de parada, em vermelho, e metioninas, em verde)
3) Vá à webpage do blast http://blast.ncbi.nlm.nih.gov/Blast.cgi e selecione a
opção blastx
4) Coloque a seqüência no campo de pesquisa e analise o resultado. É possível
determinar qual é o quadro de leitura correto da seqüência? É possível
determinar a função da proteína codificada? (Q4)
5) Repita o procedimento de 1 a 4 com a EST com o número de acesso
EX494460.1 e responda novamente a questão Q4 para esta seqüência (Q5)
ATIVIDADE-3 USO DA FERRAMENTA LOCAL DO BLAST PARA ANÁLISES EM
BANCOS DE SEQÜÊNCIAS PRÓPRIOS
Apesar da interface do blast no site do NCBI oferecer diversos bancos, e uma
eventual busca ainda poder limitar estes bancos a buscas de palavras chaves, muitas
vezes podemos querer realizar bancos em bases de seqüências próprias. Para
realizar isto, iremos utilizar uma versão do programa blast que é obtida a partir do
próprio site do NCBI que permite que o programa inteiro seja executado em seu
computador utilizando bases de dados próprias (ou bases publicas importadas para o
computador). Uma vantagem adicional é que o uso destes programas permite que
varias seqüências sejam analisadas simultaneamente.
Neste caso iremos simular uma busca de membros de uma família de
proteínas existente em humanos (ectonucleoside triphosphate diphosphohydrolase)
em um banco de dados contendo seqüências de EST de um organismo
(Oncorhynchus nerka, uma espécie de salmão). O objetivo é descobrir o maior número
de seqüências codificando para proteínas desta família no salmão. Devido a isso
iremos utilizar todos os membros descritos em humano como query.
1) Va ao site do entrez nucleotide
http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore&itool=toolbar
2) Faça a busca “Oncorhynchus nerka [orgn]”
3) Selecione as ESTs deste organismo e salve o arquivo multi-fasta contendo
as sequências conforme instruções da atividade anterior. Nomeie o arquivo
como “database.txt” e salve em uma pasta com o nome “at3”
4) Entre no prompt do DOS (Vá no menu do windows e escolha a opção
executar, escreva no campo em branco “cmd” e clique ok)
5) Utilizando comando de Linha no prompt vá ao disco que contem seu
diretório (se for o z escreva z: e aperte enter)
6) Utilizando comando de Linha no prompt vá ao diretório que contem seu
arquivo (digite o comando cd)
7) No prompt escreva o comando: makeblastdb –in database.txt -dbtype
nucl –parse_seqids
8) Aperte enter
Este comando executará o programa chamado makeblastdb, que serve para
formatar bases de dados para que o programa blastn possa utilizar. O
parametro -in indica para o programa o arquivo contendo as sequências. O
parâmetro –dbtype indica que as seqüências utilizadas são de nucleotídeos. O
parâmetro –parse_seqids indica que as sequências deverão ser indexadas
para futura recuperação. Para obter mais informações sobre outros parâmetros
deste programa digite: makeblastdb -h e aperte o enter.
9) Faça uma busca “homo sapiens [orgn] ectonucleoside triphosphate
diphosphohydrolase” no entrez protein. Antes de apertar o botão Search, vá
a aba “limits” e selecione “Ref Seq” no campo “Source database”
10) Salve o arquivo multi-fasta contendo as sequências obtidas com o nome
“query.txt” na pasta “at3”
11) No prompt escreva o comando: tblastn –query query.txt –db database.txt
–out blastout.txt –evalue 0.00001
12) Aperte enter
Este comando executará o programa tblastn, uma versão standalone do
programa que utilizamos na rede. O nome do programa indica o tipo de
programa que iremos utilizar (blastn, blastp, blastx, etc..),
-query indica o
arquivo contendo as seqüências (em formato multi-fasta) que queremos utilizar
como query; -db indica a base de dados que queremos interrogar (a base tem
que necessariamente ter sido formatada pelo programa makeblastdb antes de
realizar o blast), -out indica o arquivo de saída no qual desejamos que os
dados do alinhamento sejam gravados e o –evalue indica o limite de corte do
e-value para que o alinhamento seja mostrado no resultado (no caso somente
alinhamentos com e-value menor que 0.00001 serão mostrados). Para obter
mais informações sobre outros parâmetros deste programa digite: tblastn -h e
aperte o enter.
13) Abra o arquivo blastout.txt no bloco de notas. Examine os alinhamentos.
Em todas as buscas as mesmas EST foram recuperadas?
possível
identificar
todas
as
ESTs
com
similaridade
Seria
com
ectonucleoside triphosphate diphosphohydrolases caso utilizássemos
apenas um dos membros da família como query? (Q6)
14) Em um novo arquivo escreva o acession number de três destas EST (um
número por linha) e salve o arquivo como EST.txt
15) Na tela do prompt escreva: blastdbcmd –entry_batch EST.txt –db
database.txt –out fastaEST.txt
16) Aperte enter
Este comando executará o programa blastdbcmd, que permite recuperar
sequências selecionadas de um banco de dados formatado com o makeblastdb
(somente aqueles bancos formatados com o parametro –parse_seqids). Neste
caso, –entry_batch indica o arquivo contendo o identificador de cada
seqüência, -db o banco a ser procurado e –out o arquivo de saída das
seqüências.
17) Verifique se as seqüências estão no arquivo fastaEST.txt.
18) Com as seqüências obtidas, realize um blastx no site do ncbi contra o
banco nr. O primeiro hit destas ESTs é com um membro da família das
ectonucleoside triphosphate diphosphohydrolase? (atenção, membros
desta família também pode ser nomeados como apyrase, ATPdiphosphohydrolase ou CD39) (Q7)
Este último passo é importante na validação dos resultados obtidos, pois
muitas vezes podemos obter seqüências com similaridade com membros de
uma família, mas com maior similaridade com membros de outra família,
especialmente se as duas famílias forem distantemente relacionadas.