Alinhar

Propaganda
Bioinformática
Alinhamento de Sequências
Prof. Msc. Rommel Ramos
2013
Sumário
1. Comparação de Sequências
2. O que é alinhamento?
3. Tipos de Alinhamento
4. Algoritmos
5. Métodos de Alinhamento
Comparação de Sequências
Objetivo: Identificar semelhanças/diferenças entre
sequências de DNA, RNA e de Proteínas.
DNA (nucleotídeos)
ADENINA CITOSINA GUANITA TIMINA
RNA (nucleotídeos)
ADENINA CITOSINA GUANITA Uracila
Proteínas
DNA
RNA
Proteína
Comparação de Sequências
Proteínas
Códon: Trinca de nucleotídeos;
Comparação de Sequências
O que fazer?
1. Analisar duas ou mais sequências;
2. Identificar diferenças
Como fazer?
Alinhar
Alinhamento de Sequências
Significado de acordo com o dicionário Aurélio
Alinhar
v.t.d. Dispor-se em linha reta.
Colocar lado a lado na mesma linha: alinhar tijolos.
Exemplo de alinhar um texto
Universidade Federal do Pará
Curso de Verão
Data: XX/XX/XXXX
Alinhado à esquerda
Alinhamento de Sequências
Definição: Segundo Lesk (2005), consiste na determinação
da correspondência entre pares de resíduos.
Uma das técnicas mais utilizadas na bioinformática
Formato tradicional das sequências: Fasta
Alinhamento de Sequências
Exemplo:
GTCGATCGATCGAGCTAGCTAGCTA
ATTGATCCAGCT-GCTAGAT
Match: Correspondência correta entre pares de resíduos;
Mismatch: Falso alinhamento;
Gap: Sequência de espaços ou apenas um no alinhamento;
Alinhamento de Sequências
Objetivos
1. Medir a similaridade entre duas ou mais sequências
2. Inferir relações evolucionárias
3. Observar padrões de conservação e variabilidade para
predições estruturais e funcionais.
Alinhamento de Sequências
Definição de termos
1. Identidade: Quantos idênticos;
2. Similaridade: Quantos parecidos;
3. Homologia: Relação evolutiva entre duas sequências, ou
seja: se tem ancestral comum.
4. Query: Sequência alvo, sequência de Busca;
5. Subject: Sequência(s) de Referência
Tipos de Alinhamento
Alinhamento Global
Algoritmo de Needleman-Wunsch (1970);
Compara sequências em toda sua extensão;
Espera-se semelhanças por toda a extensão da sequência;
Programas:ClustalW e ALIGN
t
Fonte: http://www.tactic-tech.com/blog/application-of-sequence-alignment/
Tipos de Alinhamento
Alinhamento Local
Algoritmo de Smith-Waterman (1981);
Modificação do algoritmo de Needleman-Wunsch;
Encontra o melhor alinhamento de algum segmento de uma
sequência contra o segmento de outra;
Programas: FASTA e BLAST
S1:
S2:
AGTATACCTGCGCAGCGAATT
CAATCACCTGCGCATTAGGGG
AGTATACCTGCGCAGCGTTAG
|||||||||
CAATCACCTGCGCATTAGGGG
Tipos de Alinhamento
Comparação entre Alinhamento Local e Global
S1:
S2:
TCCCAGTTATGTCAGGGGACACGAGCATGCAGAGAC
AATTGCCGCCGTCGTTTTCAGCAGTTATGTCAGATC
Alinhamento Global
--T--CC-C-AGT--TATGT-CAGGGGACACG--AGCATGCAGA-GAC
| || | || | | | ||
|| | |
| ||||
|
AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C
Alinhamento Local
TCCCAGTTATGTCAGGGGACACGAGCATGCAGAGAC
||||||||||||
AATTGCCGCCGTCGTTTTCAGCAGTTATGTCAGATC
Tipos de Alinhamento
Alinhamento Semi-global
Similar ao alinhamento global mas ignora os espaços nos
extremos das sequências.
Tipos de Alinhamento
Alinhamento Semi-global
--------CAGCACTTGGATTAGAC
TACCTGCGCAGCG-TGG-------Aplicações:Montagem de fragmentos
Alinhamentos entre sequências são
pontuados
ATCGATGCGTAGC
TACCTGCGTAGCG
+2
ATCGATGCGTATC
TAGCTGCGTAGCG
+2
ATCGATGCGTA-A
TAGCTGCGTAGCG
-1
ATCGATGCGT-C
TGCGGCGTAGCG
0
Match: +1
Mismatch: -1
Abertura de Gap: -2
Extensão de Gap: -1
Faça os alinhamentos e os pontue
Seq1
Seq2
Seq1
Seq2
ATCGA TGCGT AGCGC TAGCT AGCATG
TAGCT AGCAT GTGCG TAGCG
GGGTT ACAAC ACCCG GTACG TGGTA
CACCG GTACG TGGTA
Seq1
TCGGT CATCA GTCATT AAACA ACA
Seq2
CGATC GTAGG TCGAT GTCAT CA
Seq1
TCGGT CATCA GTACA ACTAC AACA
Seq2
ACAAC AACAA CAGAT GTCAT CA
Respostas
Seq1
Seq2
ATCGATGCGTAGCGCTAGCTAGCATG
TAGCTAGCATGTGCGTAGCG
Seq1
GGGTTACAACACCCGGTACGTGGTA
Seq2
CA-CCGGTACGTGGTA
Seq1
Seq2
Seq1
Seq2
TCG--GTCATCAGTCATTAAACAACA
CGATCGTAGGTCGATGTCATCA
TCGGTCATCAGTACAACTACAACA
ACAACAACAACAGATGTCATCA
TCGGTCATCAGTACAACAACAACA
ACAACAACAACAGATGTCATCA
Errado:
TCGGTCATCAGTACAACAACAACAACAACAGATGTCATCA
Ref
TCGGTCATCAGTACAACAACAACA------GATGTCATCA
Métodos de Alinhamento
Comparando sequências
Distância Hammig: Quantidade de mal pareamentos e
sequências de mesmo comprimento;
GCTAGCTTGCTATTAGCTA
GCTAGCTAGCTAGTAGCTA
2
GTGACTGATGCTAGCTAGG
GTGACTGATGCTAGCTAGC
1
Métodos de Alinhamento
Comparando sequências
Distância Levenshtein: Quantidade de edições necessárias
para transformar uma sequência em outra. (inserção, deleção
ou substituição de caracteres);
GCTAGCTTG-TATTAGCTA
GCTAGCTAGCTAGTAGCTA
3
GTG---GATGCTAGCTAGG
GTGACTGATGCTAGCTAGC
4
Métodos de Alinhamento
Matriz de Pontos
- Permite observar a similaridade entre sequências;
- Consiste em um matriz, cujas linhas e colunas representam
sequências;
- Pontos são deixados em branco quando os caracteres são
diferentes;
- Pontos são preenchidos quando os caracteres são iguais;
Métodos de Alinhamento
Matriz de Pontos
Fonte: Lesk(2008)
Métodos de Alinhamento
Programação Dinâmica
Termo utilizado pela primeira vez em 1950 por Richard

Bellman;

Utilizado por Needleman e Wunsch e Smith-Waterman;

Divide um problema em sub-problemas, que devem ter
soluções ótimas;

Retorna uma solução ótima global: o score ótimo;

Aplicado a alinhamentos: globais, locais e semi-globais;
Métodos de Alinhamento
Programação Dinâmica
LIMITAÇÕES

Elevado tempo computacional;

Não é indicado para busca de sequências em bancos de
dados ou comparações “todos contra todos”;
Métodos de Alinhamento
Método de Palavras
Heurístico
Motivação: Pesquisa em bancos de dados com PD muito
lenta.
Não garantem a obtenção de um resultado ótimo;
Exemplos: FASTA (Pearson & Lipman, 1988) e BLAST
(Altschul et al., 1990)
Métodos de Alinhamento
Método de Palavras
Basic Local Alignment Search Tool (BLAST)
Heurística + Programação dinâmica
1. Algoritmo Heurístico
Procura sementes(seeds) com alto escore de
alinhamento;
2. Programação Dinâmica
Extensão dos alinhamentos identificados no
passo anterior;
Métodos de Alinhamento
Alinhamento Multiplos
Definição: Segundo Lesk(2005), é alinhamento que utiliza 3
ou mais sequências, podendo ser local ou global;
Objetivo:
– Caracterização de famílias proteicas;
– Identificar padrões de conservação de aminoácidos;
– Identificar relações distantes;
Aplicações:
– Perfis
– PSI-Blast
– HMM
Download