Biologia molecular computacional - 22/08/12 Atividade-Alinhamento local utilizando o blast O blast é uma ferramenta de alinhamento local muito utilizada para busca de seqüências similares em bancos de dados. O seu algoritmo permite com que pesquisemos rapidamente grandes bancos de dados e obtenhamos alinhamentos que permitem a caracterização de seqüências biológicas. Atividade 1- Ajuste de parâmetros do blast Esta atividade tem como objetivo a familiarização do ajuste de certos parâmetros do algoritmo do blast. Na maioria de situações, realizamos alinhamentos de seqüências longas onde os parâmetros padrões do programa já são suficientes. Entretanto, o alinhamento de seqüências curtas é muito útil, por exemplo, quando queremos realizar a localização de primers que usualmente tem entre 15 a 25 bases de comprimento. Nesta atividade, iremos utilizar um exemplo extremo, no qual temos que alinhar pequenas porções de DNA, no qual o ajuste correto destes parâmetros são mais críticos. Neste caso teremos duas seqüências e o objetivo da atividade é alinhar toda a extensão da seqüência 1 na seqüência 2 em vários HSPs 1) Entre no site http://blast.ncbi.nlm.nih.gov/ 2) Selecione a opção nucleotide blast. 3) Selecione a opção “align two or more sequences” 4) Selecione a opção “Somewhat similar sequences (blastn)" 5) Abra o arquivo de seqüências número 1 obtido a partir do site da disciplina 6) Coloque cada uma das seqüências em um dos espaços de entrada do programa e aperte o botão “Blast” 7) Examine o alinhamento obtido. Foi possível alinhar toda a seqüência? Qual porção esta faltando? (Q1) 8) Refaça o alinhamento anterior com os mesmos parâmetros, mas desselecionando a opção “low complexity filter” do campo filter. Realize o alinhamento apertando o botão “Blast” de novo 9) Inspecione o resultado. Ocorreu alguma diferença em relação ao resultado anterior? (Q2) 10) Refaça o alinhamento anterior com os mesmos parâmetros do item 8, mas selecione o valor do campo expect para 1 e selecione o valor do “word size” para 7. Realize o alinhamento apertando o botão “blast” de novo. 11) Inspecione o resultado. Algum novo alinhamento surgiu? Por que este alinhamento não estava presente anteriormente? O alinhamento presente cobre todas as bases da seqüência 1? (Q3) (Atenção: esta atividade foi realizada com seqüências preparadas para a atividade. Normalmente, alinhamento de seqüências deste tamanho resultam em resultados muito mais dúbios) ATIVIDADE-2 USO DE BLASTX PARA CARACTERIZAÇÃO DE SEQÜÊNCIAS DE EST. Esta atividade tem como objetivo familiarizar o aluno à analise de seqüências de ESTs, que são seqüência de single-pass de qualidade variável. A familiarização de análise de seqüências deste tipo é desejável, pois quando obtemos resultados preliminares de sequenciamento, o tipo de informação obtida é muito parecida. 1) Vá ao banco do entrez nucleotide e busque a seqüência de EST com o número de acesso EX496532.1 2) Vá ao programa ORF Finder ( http://www.ncbi.nlm.nih.gov/gorf/gorf.html ) e tente determinar qual o quadro de leitura mais provável. (sugestão: após submeter as seqüências, aperte o botão “six frames” para ver todos os sinais de parada, em vermelho, e metioninas, em verde) 3) Vá à webpage do blast http://blast.ncbi.nlm.nih.gov/Blast.cgi e selecione a opção blastx 4) Coloque a seqüência no campo de pesquisa e analise o resultado. É possível determinar qual é o quadro de leitura correto da seqüência? É possível determinar a função da proteína codificada? (Q4) 5) Repita o procedimento de 1 a 4 com a EST com o número de acesso EX494460.1 e responda novamente a questão Q4 para esta seqüência (Q5) ATIVIDADE-3 USO DA FERRAMENTA LOCAL DO BLAST PARA ANÁLISES EM BANCOS DE SEQÜÊNCIAS PRÓPRIOS Apesar da interface do blast no site do NCBI oferecer diversos bancos, e uma eventual busca ainda poder limitar estes bancos a buscas de palavras chaves, muitas vezes podemos querer realizar bancos em bases de seqüências próprias. Para realizar isto, iremos utilizar uma versão do programa blast que é obtida a partir do próprio site do NCBI que permite que o programa inteiro seja executado em seu computador utilizando bases de dados próprias (ou bases publicas importadas para o computador). Uma vantagem adicional é que o uso destes programas permite que varias seqüências sejam analisadas simultaneamente. Neste caso iremos simular uma busca de membros de uma família de proteínas existente em humanos (ectonucleoside triphosphate diphosphohydrolase) em um banco de dados contendo seqüências de EST de um organismo (Oncorhynchus nerka, uma espécie de salmão). O objetivo é descobrir o maior número de seqüências codificando para proteínas desta família no salmão. Devido a isso iremos utilizar todos os membros descritos em humano como query. 1) Va ao site do entrez nucleotide http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore&itool=toolbar 2) Faça a busca “Oncorhynchus nerka [orgn]” 3) Selecione as ESTs deste organismo e salve o arquivo multi-fasta contendo as sequências conforme instruções da atividade anterior. Nomeie o arquivo como “database.txt” e salve em uma pasta com o nome “at3” 4) Entre no prompt do DOS (Vá no menu do windows e escolha a opção executar, escreva no campo em branco “cmd” e clique ok) 5) Utilizando comando de Linha no prompt vá ao disco que contem seu diretório (se for o z escreva z: e aperte enter) 6) Utilizando comando de Linha no prompt vá ao diretório que contem seu arquivo (digite o comando cd) 7) No prompt escreva o comando: makeblastdb –in database.txt -dbtype nucl –parse_seqids 8) Aperte enter Este comando executará o programa chamado makeblastdb, que serve para formatar bases de dados para que o programa blastn possa utilizar. O parametro -in indica para o programa o arquivo contendo as sequências. O parâmetro –dbtype indica que as seqüências utilizadas são de nucleotídeos. O parâmetro –parse_seqids indica que as sequências deverão ser indexadas para futura recuperação. Para obter mais informações sobre outros parâmetros deste programa digite: makeblastdb -h e aperte o enter. 9) Faça uma busca “homo sapiens [orgn] ectonucleoside triphosphate diphosphohydrolase” no entrez protein. Antes de apertar o botão Search, vá a aba “limits” e selecione “Ref Seq” no campo “Source database” 10) Salve o arquivo multi-fasta contendo as sequências obtidas com o nome “query.txt” na pasta “at3” 11) No prompt escreva o comando: tblastn –query query.txt –db database.txt –out blastout.txt –evalue 0.00001 12) Aperte enter Este comando executará o programa tblastn, uma versão standalone do programa que utilizamos na rede. O nome do programa indica o tipo de programa que iremos utilizar (blastn, blastp, blastx, etc..), -query indica o arquivo contendo as seqüências (em formato multi-fasta) que queremos utilizar como query; -db indica a base de dados que queremos interrogar (a base tem que necessariamente ter sido formatada pelo programa makeblastdb antes de realizar o blast), -out indica o arquivo de saída no qual desejamos que os dados do alinhamento sejam gravados e o –evalue indica o limite de corte do e-value para que o alinhamento seja mostrado no resultado (no caso somente alinhamentos com e-value menor que 0.00001 serão mostrados). Para obter mais informações sobre outros parâmetros deste programa digite: tblastn -h e aperte o enter. 13) Abra o arquivo blastout.txt no bloco de notas. Examine os alinhamentos. Em todas as buscas as mesmas EST foram recuperadas? possível identificar todas as ESTs com similaridade Seria com ectonucleoside triphosphate diphosphohydrolases caso utilizássemos apenas um dos membros da família como query? (Q6) 14) Em um novo arquivo escreva o acession number de três destas EST (um número por linha) e salve o arquivo como EST.txt 15) Na tela do prompt escreva: blastdbcmd –entry_batch EST.txt –db database.txt –out fastaEST.txt 16) Aperte enter Este comando executará o programa blastdbcmd, que permite recuperar sequências selecionadas de um banco de dados formatado com o makeblastdb (somente aqueles bancos formatados com o parametro –parse_seqids). Neste caso, –entry_batch indica o arquivo contendo o identificador de cada seqüência, -db o banco a ser procurado e –out o arquivo de saída das seqüências. 17) Verifique se as seqüências estão no arquivo fastaEST.txt. 18) Com as seqüências obtidas, realize um blastx no site do ncbi contra o banco nr. O primeiro hit destas ESTs é com um membro da família das ectonucleoside triphosphate diphosphohydrolase? (atenção, membros desta família também pode ser nomeados como apyrase, ATPdiphosphohydrolase ou CD39) (Q7) Este último passo é importante na validação dos resultados obtidos, pois muitas vezes podemos obter seqüências com similaridade com membros de uma família, mas com maior similaridade com membros de outra família, especialmente se as duas famílias forem distantemente relacionadas.