Biologia molecular computacional- -29/08/11 Atividade-Alinhamento local utilizando o blast O blast é uma ferramenta de alinhamento local muito utilizada para busca de seqüências similares em bancos de dados. O seu algoritmo permite com que pesquisemos rapidamente grandes bancos de dados e obtenhamos alinhamentos que permitem a caracterização de seqüências biológicas. Atividade 1- Ajuste de parâmetros do blast Esta atividade tem como objetivo a familiarização o ajuste de certos parâmetros do algoritmo do blast. Na maioria de situações realizamos alinhamentos de seqüências longas onde os parâmetros padrões do programa já são suficientes. Entretanto o alinhamento de seqüências curtas é muito útil, por exemplo, quando queremos realizar a localização de primers que usualmente tem entre 15 a 25 bases de comprimento. Nesta atividade iremos utilizar um exemplo extremo, no qual temos que alinhar pequenas porções de DNA, no qual o ajuste correto destes parâmetros são mais críticos. Neste caso teremos duas seqüências e o objetivo da atividade é alinhar toda a extensão da seqüência 1 na seqüência 2 em vários HSPs 1) 2) 3) 4) 5) 6) Entre no site http://blast.ncbi.nlm.nih.gov/ Selecione a opção nucleotide blast. Selecione a opção “align two or more sequences” Selecione a opção “Somewhat similar sequences (blastn) Abra o arquivo de seqüências numero 1 obtido a partir do site da disciplina Coloque cada uma das seqüências em um dos espaços de entrada do programa e aperte o botão “Blast” 7) Examine o alinhamento obtido. Foi possível alinhar toda a seqüência? Qual porção esta faltando? (Q1) 8) Refaça o alinhamento anterior com os mesmos parâmetros, mas deselecionando a opção “low complexity filter” do campo filter. Realize o alinhamento apertando o botão “Blast” de novo 9) Inspecione o resultado. Ocorreu alguma diferença em relação ao resultado anterior? (Q2) 10) Refaça o alinhamento anterior com os mesmos parâmetros do item 8, mas selecione o valor do campo expect para 1 e selecione o valor do “word size” para 7. Realize o alinhamento apertando o botão “blast” de novo. 11) Inspecione o resultado. Algum novo alinhamento surgiu? Por que este alinhamento não estava presente anteriormente? O alinhamento presente cobre todas as bases da seqüência 1? (Q3) (Atenção: esta atividade foi realizada com seqüências preparadas para a atividade. Na vida real, normalmente alinhamento de seqüências deste tamanho resultam em resultados muito mais dúbios) Atividade-2 Uso de blastx para caracterização de seqüências de EST. Esta atividade tem como objetivo familiarizar o aluno a analise de seqüências de ESTs, que são seqüência de single-pass de qualidade variável. A familiarização de analise de seqüências deste tipo é desejável, pois quando obtemos resultados preliminares de seqüenciamento o tipo de informação obtida é muito parecida. 1) Vá ao banco do entrez nucleotide e busque a seqüência de EST com o numero de acesso EX496532.1 2) Vá ao programa ORF Finder (http://www.ncbi.nlm.nih.gov/gorf/gorf.html) e tente determinar qual o quadro de leitura mais provável. (sugestão: após submeter as seqüências aperte o botão “six frames” para ver todos os sinais de parada, em vermelho, e metioninas, em verde) 3) Vá à webpage do blast http://blast.ncbi.nlm.nih.gov/Blast.cgi e selecione a opção blastx 4) Coloque a seqüência no campo de pesquisa e analise o resultado. É possível determinar qual é o quadro de leitura correto da seqüência. É possível determinar a função da proteína codificada? (Q4) 5) Repita o procedimento de 1 a 4 com a EST com o numero de acesso EX494460.1 e responda novamente a questão Q4 para esta seqüência (Q5) Atividade-3 Uso da ferramenta local do blast para analises em bancos de seqüências próprios Apesar da interface do blast no site do NCBI oferecer diversos bancos e uma eventual busca ainda pode limitar estes bancos a buscas de palavras chaves, muitas vezes podemos quere realizar bancos em bases de seqüências próprias. Para realizar isto iremos utilizar uma versão do programa blast que é obtida a partir do próprio site do NCBI que permite que o programa inteiro seja executado em seu computador utilizando bases de dados próprias (ou bases publicas importadas para o computador). Uma vantagem adicional é que o uso destes programas permite que varias seqüências sejam analisadas simultaneamente. Neste caso irmos simular uma busca de membros de uma família de proteínas existente em humanos (ectonucleoside triphosphate diphosphohydrolase) em um banco de dados contendo seqüências de EST de um organismo (Oncorhynchus nerka, uma espécie de salmão). O objetivo é descobrir o maior numero de seqüências codificando para proteínas desta família no salmão. Devido a isso iremos utilizar todos os membros descritos em humano como query. 1) Va ao site do entrez nucleotide http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore&itool=toolbar 2) Faça a busca “Oncorhynchus nerka [orgn]” 3) Selecione as ESTs deste organismo e salve o arquivo multi-fasta contendo as sequencias conforme instruções da atividade anterior. Nomeie o arquivo como “database.txt” e salve em uma pasta com o nome “at3” 4) Entre no prompt do DOS (Vá no menu do window e escolha a opção executar, escreva no campo em branco “cmd” e clique ok) 5) Utilizando comando de Linha no prompt vá ao disco que contem seu diretório (se for o z escreva z: e aperte enter) 6) Utilizando comando de Linha no prompt vá ao diretório que contem seu arquivo (utilizando o comando cd) 7) No prompt escreva o comando: formatdb –i database.txt –p F –o T 8) Aperte enter Este comando executará o programa chamado formatdb, que serve para formatar bases de dados para que o programa blastall possa utilizar. O parametro–i indica para o programa o arquivo contendo as sequencias. O parâmetro –p indica se as seqüências utilizadas são protéicas (no caso a opção foi F de False). O parametro –o indica que as sequencias deverão ser indexadas para futura recuperação (no caso a opção foi T de True). Para obter mais informações sobre outros parâmetros deste programa digite: Formatdb ? e aperte o enter 9) Abra o arquivo formatdb.log, você deve ler que 11389 seqüências foram formatadas. 10) Faça uma busca “homo sapiens [orgn] ectonucleoside triphosphate diphosphohydrolase” no entrez protein. Antes de apertar o botão Search, vá a aba “limits” e selecione “Ref Seq” no campo “Source database” 11) Salve o arquivo multi-fasta contendo as sequencias obtidas com o nome “query.txt” na pasta “at3” 12) No prompt escreva o comando: Blastall –p tblastn –i query.txt –d database.txt –o blastout.txt –e 0.00001 13) Aperte enter Este comando executará o programa blastall que uma versão standalone do programa que utilizamos na rede. O parâmetro –p indica o tipo de programa que iremos utilizar (blastn, blastp, blastx, etc..), -i indica o arquivo contendo as seqüência (em formato multi-fasta) que queremos utilizar como query, -d indica a base de dados que queremos interrogar (a base tem que necessariamente ter sido formatada pelo programa formatdb antes de realizar o blast), -o indica o arquivo de saída no qual desejamos que os dados do alinhamento sejam gravados e o –e indica o limite de corte do e-value para que o alinhamento seja mostrado no resultado (no caso somente alinhamentos com e-value menor que 0.00001 serão mostrados). Para obter mais informações sobre outros parâmetros deste programa digite: blastall ? e aperte o enter. 14) Abra o arquivo blastout.txt no bloco de notas. Examine os alinhamentos. Em todas as buscas as mesmas EST foram recuperadas? Seria possível identificar todas as ESTs com similaridade com ectonucleoside triphosphate diphosphohydrolases caso utilizássemos apenas um dos membros da família como query? (Q6) 15) Em um novo arquivo escreva o acession number de ddestas EST (um numero por linha) e salve o arquivo como EST.txt 16) Na tela do prompt escreva: fastacmd –i EST.txt –d database.txt –o fastaEST.txt 17) Aperte enter Este comando executará o programa fastacmd que permite recuperar sequencias selecionadas de um banco de dados formatado com o formatdb (somente aqueles bancos formatados com o parametro –o T). Neste caso –i indica o arquivo contendo o identificador de cada seqüência, -d o banco a ser procurado e –o o arquivo de saída das seqüências 18) Verifique se as seqüências estão no arquivo fastaEST.txt. 19) Com as seqüências obtidas realize um blastx no site do ncbi contra o banco nr. O primeiro hit destas ESTs é com um membro da família das ectonucleoside triphosphate diphosphohydrolase (atenção, membros desta família também pode ser nomeados como apyrase, ATP-diphosphohydrolase ou CD39)? (Q7) Este último passo é importante na validação dos resultados obtidos, pois muitas vezes podemos obter seqüências com similaridade com membros de uma família, mas com maior similaridade com membros de outra família, especialmente se as duas famílias forem distantemente relacionadas.