Biologia molecular computacional- -29/08/11 Atividade

Propaganda
Biologia molecular computacional- -29/08/11
Atividade-Alinhamento local utilizando o blast
O blast é uma ferramenta de alinhamento local muito utilizada para busca de seqüências
similares em bancos de dados. O seu algoritmo permite com que pesquisemos
rapidamente grandes bancos de dados e obtenhamos alinhamentos que permitem a
caracterização de seqüências biológicas.
Atividade 1- Ajuste de parâmetros do blast
Esta atividade tem como objetivo a familiarização o ajuste de certos parâmetros
do algoritmo do blast. Na maioria de situações realizamos alinhamentos de seqüências
longas onde os parâmetros padrões do programa já são suficientes. Entretanto o
alinhamento de seqüências curtas é muito útil, por exemplo, quando queremos realizar a
localização de primers que usualmente tem entre 15 a 25 bases de comprimento.
Nesta atividade iremos utilizar um exemplo extremo, no qual temos que alinhar
pequenas porções de DNA, no qual o ajuste correto destes parâmetros são mais críticos.
Neste caso teremos duas seqüências e o objetivo da atividade é alinhar toda a extensão
da seqüência 1 na seqüência 2 em vários HSPs
1)
2)
3)
4)
5)
6)
Entre no site http://blast.ncbi.nlm.nih.gov/
Selecione a opção nucleotide blast.
Selecione a opção “align two or more sequences”
Selecione a opção “Somewhat similar sequences (blastn)
Abra o arquivo de seqüências numero 1 obtido a partir do site da disciplina
Coloque cada uma das seqüências em um dos espaços de entrada do programa e
aperte o botão “Blast”
7) Examine o alinhamento obtido. Foi possível alinhar toda a seqüência? Qual porção
esta faltando? (Q1)
8) Refaça o alinhamento anterior com os mesmos parâmetros, mas deselecionando a
opção “low complexity filter” do campo filter. Realize o alinhamento apertando o
botão “Blast” de novo
9) Inspecione o resultado. Ocorreu alguma diferença em relação ao resultado
anterior? (Q2)
10) Refaça o alinhamento anterior com os mesmos parâmetros do item 8, mas
selecione o valor do campo expect para 1 e selecione o valor do “word size” para
7. Realize o alinhamento apertando o botão “blast” de novo.
11) Inspecione o resultado. Algum novo alinhamento surgiu? Por que este alinhamento
não estava presente anteriormente? O alinhamento presente cobre todas as bases da
seqüência 1? (Q3)
(Atenção: esta atividade foi realizada com seqüências preparadas para a atividade. Na
vida real, normalmente alinhamento de seqüências deste tamanho resultam em
resultados muito mais dúbios)
Atividade-2 Uso de blastx para caracterização de seqüências de EST.
Esta atividade tem como objetivo familiarizar o aluno a analise de seqüências de ESTs, que são
seqüência de single-pass de qualidade variável. A familiarização de analise de seqüências deste
tipo é desejável, pois quando obtemos resultados preliminares de seqüenciamento o tipo de
informação obtida é muito parecida.
1) Vá ao banco do entrez nucleotide e busque a seqüência de EST com o numero de
acesso EX496532.1
2) Vá ao programa ORF Finder (http://www.ncbi.nlm.nih.gov/gorf/gorf.html) e tente
determinar qual o quadro de leitura mais provável. (sugestão: após submeter as
seqüências aperte o botão “six frames” para ver todos os sinais de parada, em
vermelho, e metioninas, em verde)
3) Vá à webpage do blast http://blast.ncbi.nlm.nih.gov/Blast.cgi e selecione a opção
blastx
4) Coloque a seqüência no campo de pesquisa e analise o resultado. É possível
determinar qual é o quadro de leitura correto da seqüência. É possível determinar a
função da proteína codificada? (Q4)
5) Repita o procedimento de 1 a 4 com a EST com o numero de acesso EX494460.1 e
responda novamente a questão Q4 para esta seqüência (Q5)
Atividade-3 Uso da ferramenta local do blast para analises em bancos de seqüências
próprios
Apesar da interface do blast no site do NCBI oferecer diversos bancos e uma eventual busca
ainda pode limitar estes bancos a buscas de palavras chaves, muitas vezes podemos quere
realizar bancos em bases de seqüências próprias. Para realizar isto iremos utilizar uma versão
do programa blast que é obtida a partir do próprio site do NCBI que permite que o programa
inteiro seja executado em seu computador utilizando bases de dados próprias (ou bases
publicas importadas para o computador). Uma vantagem adicional é que o uso destes
programas permite que varias seqüências sejam analisadas simultaneamente.
Neste caso irmos simular uma busca de membros de uma família de proteínas existente em
humanos (ectonucleoside triphosphate diphosphohydrolase) em um banco de dados contendo
seqüências de EST de um organismo (Oncorhynchus nerka, uma espécie de salmão). O objetivo
é descobrir o maior numero de seqüências codificando para proteínas desta família no salmão.
Devido a isso iremos utilizar todos os membros descritos em humano como query.
1) Va ao site do entrez nucleotide
http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore&itool=toolbar
2) Faça a busca “Oncorhynchus nerka [orgn]”
3) Selecione as ESTs deste organismo e salve o arquivo multi-fasta contendo as
sequencias conforme instruções da atividade anterior. Nomeie o arquivo como
“database.txt” e salve em uma pasta com o nome “at3”
4) Entre no prompt do DOS (Vá no menu do window e escolha a opção executar,
escreva no campo em branco “cmd” e clique ok)
5) Utilizando comando de Linha no prompt vá ao disco que contem seu diretório (se
for o z escreva z: e aperte enter)
6) Utilizando comando de Linha no prompt vá ao diretório que contem seu arquivo
(utilizando o comando cd)
7) No prompt escreva o comando: formatdb –i database.txt –p F –o T
8) Aperte enter
Este comando executará o programa chamado formatdb, que serve para formatar
bases de dados para que o programa blastall possa utilizar. O parametro–i indica para
o programa o arquivo contendo as sequencias. O parâmetro –p indica se as seqüências
utilizadas são protéicas (no caso a opção foi F de False). O parametro –o indica que as
sequencias deverão ser indexadas para futura recuperação (no caso a opção foi T de
True). Para obter mais informações sobre outros parâmetros deste programa digite:
Formatdb ? e aperte o enter
9) Abra o arquivo formatdb.log, você deve ler que 11389 seqüências foram
formatadas.
10) Faça uma busca “homo sapiens [orgn] ectonucleoside triphosphate
diphosphohydrolase” no entrez protein. Antes de apertar o botão Search, vá a aba
“limits” e selecione “Ref Seq” no campo “Source database”
11) Salve o arquivo multi-fasta contendo as sequencias obtidas com o nome
“query.txt” na pasta “at3”
12) No prompt escreva o comando: Blastall –p tblastn –i query.txt –d database.txt –o
blastout.txt –e 0.00001
13) Aperte enter
Este comando executará o programa blastall que uma versão standalone do programa
que utilizamos na rede. O parâmetro –p indica o tipo de programa que iremos utilizar
(blastn, blastp, blastx, etc..), -i indica o arquivo contendo as seqüência (em formato
multi-fasta) que queremos utilizar como query, -d indica a base de dados que
queremos interrogar (a base tem que necessariamente ter sido formatada pelo
programa formatdb antes de realizar o blast), -o indica o arquivo de saída no qual
desejamos que os dados do alinhamento sejam gravados e o –e indica o limite de corte
do e-value para que o alinhamento seja mostrado no resultado (no caso somente
alinhamentos com e-value menor que 0.00001 serão mostrados). Para obter mais
informações sobre outros parâmetros deste programa digite: blastall ? e aperte o
enter.
14) Abra o arquivo blastout.txt no bloco de notas. Examine os alinhamentos. Em todas
as buscas as mesmas EST foram recuperadas? Seria possível identificar todas as
ESTs com similaridade com ectonucleoside triphosphate diphosphohydrolases caso
utilizássemos apenas um dos membros da família como query? (Q6)
15) Em um novo arquivo escreva o acession number de ddestas EST (um numero por
linha) e salve o arquivo como EST.txt
16) Na tela do prompt escreva: fastacmd –i EST.txt –d database.txt –o fastaEST.txt
17) Aperte enter
Este comando executará o programa fastacmd que permite recuperar sequencias
selecionadas de um banco de dados formatado com o formatdb (somente aqueles
bancos formatados com o parametro –o T). Neste caso –i indica o arquivo contendo o
identificador de cada seqüência, -d o banco a ser procurado e –o o arquivo de saída
das seqüências
18) Verifique se as seqüências estão no arquivo fastaEST.txt.
19) Com as seqüências obtidas realize um blastx no site do ncbi contra o banco nr. O
primeiro hit destas ESTs é com um membro da família das ectonucleoside
triphosphate diphosphohydrolase (atenção, membros desta família também pode
ser nomeados como apyrase, ATP-diphosphohydrolase ou CD39)? (Q7)
Este último passo é importante na validação dos resultados obtidos, pois muitas vezes
podemos obter seqüências com similaridade com membros de uma família, mas com
maior similaridade com membros de outra família, especialmente se as duas famílias
forem distantemente relacionadas.
Download