query - DBBM

Análise Computacional de
Seqüências Nucleotídicas e
Protéicas
BLAST
Antonio Basílio de Miranda
24/11/2004
Adaptado por Marcos Catanho
10/05/2005
As Origens...

Rigorous Dynamic Programming:



Needleman & Wunsch (1970)
Smith & Waterman (1981)
Heuristics:


Lipman & Pearson (1985,1988)
Altschul et al. (1990,1997)
BLAST 



Basic Local Alignment Search Tool
Provavelmente a ferramenta computacional mais
utilizada em biologia molecular e bioinformática
Busca seqüências armazenadas nos bancos de dados
pela similaridade entre a estrutura primária da
seqüência query e as seqüências armazenadas no
banco
Propriedades biológicas descritas para seqüências
armazenadas podem ser transferidas para a
seqüência query desde que suas estruturas primárias
sejam semelhantes
O maior problema é definir um cut-off, um limite
abaixo do qual as similaridades encontradas entre a
query e os hits não sejam mais significativos
BLAST



É um método heurístico para
alinhamentos locais
Projetado especialmente para buscas
em bancos de dados
Idéia básica: bons alinhamentos irão
conter pequenos trechos de
combinações iguais
BLAST

Existem vários “sabores” e tipos de
BLAST:




Nucleotídeo
Proteína
Traduzido
Genomas
BLAST

Nucleotídeo:





Nucleotídeo-nucleotídeo (blastn)
Megablast
Megablast descontínuo
Busca por hits curtos e quase perfeitos
Busca em cromatogramas
BLAST

Proteína:





Proteína-proteína (blastp)
Busca através da obtenção de perfis (PHIBLAST e PSI-BLAST)
Busca por hits curtos e quase perfeitos
Busca em bancos de dados de domínios
conservados (Smart, PFam e COG) (rpsblast)
Busca pela arquitetura de domínios (cdart)
PHI-BLAST e PSI-BLAST


PHI-BLAST: Em quais outras seqüências
protéicas há ocorrência do padrão P e
ao mesmo tempo estas seqüências são
similares à query P na vizinhança do
padrão?
PSI-BLAST: Construção de uma matriz
de valores posição-específica (Position
Specific Scoring Matrix, PSSM)
BLAST

Traduzido:



query traduzida x banco de dados de
proteínas (blastx)
query de proteína x banco de dados
traduzido (tblastn)
query traduzida x banco de dados
traduzido (tblastx)
BLAST

Genomas:






Galinha, vaca, porco, cachorro, ovelha, gato
Amostras ambientais
Homem, camundongo, rato
Fugu rubripes, zebrafish
Insetos, nematódeos, plantas, fungos, malária
Genomas microbianos, outros genomas
eucarióticos
BLAST - algoritmo


1. Filtrar as regiões de baixa complexidade
2. Fragmentar a seqüência query e as seqüências
depositadas no banco de dados, criando “palavras“
(de comprimento 3 para proteínas e 11 para DNA)
através do uso de uma janela deslizante
MEFPGLGSLGTSEPLPQFVDPALVSS
MEF
EFP
FPG
PGL
GLG
BLAST - algoritmo

3. Utilizando uma matriz de substituição
(PAM, BLOSUM), encontrar todas as
“palavras” de tamanho W que
obtenham, no mínimo, um no. de
pontos (score) T quando comparadas
com a seqüência query, criando uma
lista de “palavras” de alta pontuação
(Parênteses – matrizes de
substituição)


É uma matriz representando todas as
possíveis trocas entre aminoácidos,
onde um valor é atribuído a cada uma
destas trocas
Esses valores são proporcionais à
probabilidade de ocorrência de cada
troca, tomando-se como base um
determinado modelo evolutivo
(Parênteses – matrizes de
substituição)
(Parênteses – matrizes de
substituição)

PAM family:




Baseiam-se em alinhamentos globais de proteínas muito
próximas
PAM1 é a matriz calculada a partir da comparação de
seqüências com não mais do que 1% de divergência
As demais matrizes PAM são extrapolações da PAM1
BLOSUM family:



Baseiam-se em alinhamentos locais de proteínas
BLOSUM 62 é a matriz calculada a partir da comparação de
seqüências com não menos do que 62% de divergência
Todas as matrizes BLOSUM baseiam-se em alinhamentos
observados; não há extrapolações
BLAST - algoritmo


4. Procurar em cada seqüência depositada no
banco de dados por uma ou mais ocorrências
de cada “palavra” de alta pontuação. Cada
uma destas ocorrências (hit) será uma
“semente” para um alinhamento sem gaps
5. Estender os hits em ambas as direções, na
tentativa de gerar alinhamentos com score
acima de um limiar S
BLAST - algoritmo


5.1. BLAST original: extensão dos hits à
esquerda e à direita da “semente”, sem gaps.
Esta extensão irá continuar enquanto o score
aumentar ou pelo menos continuar o mesmo.
O alinhamento obtido é chamado HSP (High
Scoring Pair)
5.2. Atualmente: hits ao longo da mesma
diagonal (Dot plot) com uma distância A
entre os dois são reunidos e a extensão se dá
com a seqüência maior obtida
(Parênteses – Dot Plots matrizes de homologia)
BLAST - algoritmo



6. Reter somente os HSPs com score
acima do limiar S
7. Determinar a significância estatística
de cada alinhamento remanescente (pvalue e E-value)
8. Mostrar os alinhamentos locais (de
acordo com Smith-Waterman)
Resultado (BLASTN)
Resultado (campo de busca)
Resultado (opções)
Resultado (formato)
Resultado (BLASTN)

O output é dividido em cinco partes:





1. Header contendo a versão do BLAST, data da
compilação, referência, RID, etc.
2. Representação gráfica dos alinhamentos
3. Sumário com uma descrição em uma linha de
cada hit
4. Os alinhamentos com seus respectivos
parâmetros calculados
5. Rodapé com a descrição detalhada dos
parâmetros de busca empregados, o banco de
dados, etc.
Resultado (header)
Resultado (graphical overview)
Resultado (one-line descriptions)
Resultado (links)



G: Gene
U: UniGene
E: GEO Profile (dados de expressão
gênica e hibridização genômica obtidos
por tecnologia high-throughput)
Resultado (alignments)
>gi|50363246|gb|AY661748.1|
Length = 1452
Polyodon spathula Hoxa-11 (Hoxa-11) gene, partial cds
Score = 278 bits (140), Expect = 1e-71
Identities = 203/224 (90%)
Strand = Plus / Plus
Query: 19
Sbjct: 2
Query: 79
HSPs
Sbjct: 62
tactacgtttcgggtcccgatttctccagcctcccttcttttttgccccagaccccgtct 78
|||||||| |||||||| |||||||||||||||||||| ||||| |||||||| ||||||
tactacgtctcgggtcctgatttctccagcctcccttcctttttaccccagacaccgtct 61
tctcgccccatgacatactcctattcgtctaatctaccccaagttcaacctg tgagagaa 138
|||||||||||||| ||||| ||| ||||||| || ||||| ||||||||||||||||||
tctcgccccatgacgtactcttatccgtctaacctgccccaggttcaacctgtgagagaa 121
Query: 139 gttaccttcagggactatgccattgatacatccaataaatggcatcccagaagcaattta 198
|| |||||||||||||||||||||||| |||||| ||||||||||| |||||||||| ||
Sbjct: 122 gtaaccttcagggactatgccattgatgcatccagtaaatggcatcacagaagcaatcta 181
Query: 199 ccccattgctactcaacagaggagattctgcacagggactgcct 242
|||||||||| ||| ||||||||||| ||||||| ||||||||
Sbjct: 182 tcccattgctattcagcagaggagattatgcacagagactgcct 225
Score = 48.1 bits (24), Expect = 0.024
Identities = 33/36 (91%)
Strand = Plus / Plus
Query: 529 agcccagagtcttcttccggcaacaatgaggagaaa 564
||||| ||||| ||||||||||||||||| ||||||
Sbjct: 509 agccctgagtcctcttccggcaacaatgaagagaaa 544
Score = 46.1 bits (23), Expect = 0.095
Identities = 32/35 (91%)
Strand = Plus / Plus
Query: 367 caagcctttgaccagtttttcgagacggcttatgg 401
||||||||||| |||||||| |||||||| |||||
Sbjct: 347 caagcctttgatcagttttttgagacggcgtatgg 381
Resultado (footer)
CDART