Bioinformática Alinhamento de Sequências Prof. Msc. Rommel Ramos 2013 Sumário 1. Comparação de Sequências 2. O que é alinhamento? 3. Tipos de Alinhamento 4. Algoritmos 5. Métodos de Alinhamento Comparação de Sequências Objetivo: Identificar semelhanças/diferenças entre sequências de DNA, RNA e de Proteínas. DNA (nucleotídeos) ADENINA CITOSINA GUANITA TIMINA RNA (nucleotídeos) ADENINA CITOSINA GUANITA Uracila Proteínas DNA RNA Proteína Comparação de Sequências Proteínas Códon: Trinca de nucleotídeos; Comparação de Sequências O que fazer? 1. Analisar duas ou mais sequências; 2. Identificar diferenças Como fazer? Alinhar Alinhamento de Sequências Significado de acordo com o dicionário Aurélio Alinhar v.t.d. Dispor-se em linha reta. Colocar lado a lado na mesma linha: alinhar tijolos. Exemplo de alinhar um texto Universidade Federal do Pará Curso de Verão Data: XX/XX/XXXX Alinhado à esquerda Alinhamento de Sequências Definição: Segundo Lesk (2005), consiste na determinação da correspondência entre pares de resíduos. Uma das técnicas mais utilizadas na bioinformática Formato tradicional das sequências: Fasta Alinhamento de Sequências Exemplo: GTCGATCGATCGAGCTAGCTAGCTA ATTGATCCAGCT-GCTAGAT Match: Correspondência correta entre pares de resíduos; Mismatch: Falso alinhamento; Gap: Sequência de espaços ou apenas um no alinhamento; Alinhamento de Sequências Objetivos 1. Medir a similaridade entre duas ou mais sequências 2. Inferir relações evolucionárias 3. Observar padrões de conservação e variabilidade para predições estruturais e funcionais. Alinhamento de Sequências Definição de termos 1. Identidade: Quantos idênticos; 2. Similaridade: Quantos parecidos; 3. Homologia: Relação evolutiva entre duas sequências, ou seja: se tem ancestral comum. 4. Query: Sequência alvo, sequência de Busca; 5. Subject: Sequência(s) de Referência Tipos de Alinhamento Alinhamento Global Algoritmo de Needleman-Wunsch (1970); Compara sequências em toda sua extensão; Espera-se semelhanças por toda a extensão da sequência; Programas:ClustalW e ALIGN t Fonte: http://www.tactic-tech.com/blog/application-of-sequence-alignment/ Tipos de Alinhamento Alinhamento Local Algoritmo de Smith-Waterman (1981); Modificação do algoritmo de Needleman-Wunsch; Encontra o melhor alinhamento de algum segmento de uma sequência contra o segmento de outra; Programas: FASTA e BLAST S1: S2: AGTATACCTGCGCAGCGAATT CAATCACCTGCGCATTAGGGG AGTATACCTGCGCAGCGTTAG ||||||||| CAATCACCTGCGCATTAGGGG Tipos de Alinhamento Comparação entre Alinhamento Local e Global S1: S2: TCCCAGTTATGTCAGGGGACACGAGCATGCAGAGAC AATTGCCGCCGTCGTTTTCAGCAGTTATGTCAGATC Alinhamento Global --T--CC-C-AGT--TATGT-CAGGGGACACG--AGCATGCAGA-GAC | || | || | | | || || | | | |||| | AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C Alinhamento Local TCCCAGTTATGTCAGGGGACACGAGCATGCAGAGAC |||||||||||| AATTGCCGCCGTCGTTTTCAGCAGTTATGTCAGATC Tipos de Alinhamento Alinhamento Semi-global Similar ao alinhamento global mas ignora os espaços nos extremos das sequências. Tipos de Alinhamento Alinhamento Semi-global --------CAGCACTTGGATTAGAC TACCTGCGCAGCG-TGG-------Aplicações:Montagem de fragmentos Alinhamentos entre sequências são pontuados ATCGATGCGTAGC TACCTGCGTAGCG +2 ATCGATGCGTATC TAGCTGCGTAGCG +2 ATCGATGCGTA-A TAGCTGCGTAGCG -1 ATCGATGCGT-C TGCGGCGTAGCG 0 Match: +1 Mismatch: -1 Abertura de Gap: -2 Extensão de Gap: -1 Faça os alinhamentos e os pontue Seq1 Seq2 Seq1 Seq2 ATCGA TGCGT AGCGC TAGCT AGCATG TAGCT AGCAT GTGCG TAGCG GGGTT ACAAC ACCCG GTACG TGGTA CACCG GTACG TGGTA Seq1 TCGGT CATCA GTCATT AAACA ACA Seq2 CGATC GTAGG TCGAT GTCAT CA Seq1 TCGGT CATCA GTACA ACTAC AACA Seq2 ACAAC AACAA CAGAT GTCAT CA Respostas Seq1 Seq2 ATCGATGCGTAGCGCTAGCTAGCATG TAGCTAGCATGTGCGTAGCG Seq1 GGGTTACAACACCCGGTACGTGGTA Seq2 CA-CCGGTACGTGGTA Seq1 Seq2 Seq1 Seq2 TCG--GTCATCAGTCATTAAACAACA CGATCGTAGGTCGATGTCATCA TCGGTCATCAGTACAACTACAACA ACAACAACAACAGATGTCATCA TCGGTCATCAGTACAACAACAACA ACAACAACAACAGATGTCATCA Errado: TCGGTCATCAGTACAACAACAACAACAACAGATGTCATCA Ref TCGGTCATCAGTACAACAACAACA------GATGTCATCA Métodos de Alinhamento Comparando sequências Distância Hammig: Quantidade de mal pareamentos e sequências de mesmo comprimento; GCTAGCTTGCTATTAGCTA GCTAGCTAGCTAGTAGCTA 2 GTGACTGATGCTAGCTAGG GTGACTGATGCTAGCTAGC 1 Métodos de Alinhamento Comparando sequências Distância Levenshtein: Quantidade de edições necessárias para transformar uma sequência em outra. (inserção, deleção ou substituição de caracteres); GCTAGCTTG-TATTAGCTA GCTAGCTAGCTAGTAGCTA 3 GTG---GATGCTAGCTAGG GTGACTGATGCTAGCTAGC 4 Métodos de Alinhamento Matriz de Pontos - Permite observar a similaridade entre sequências; - Consiste em um matriz, cujas linhas e colunas representam sequências; - Pontos são deixados em branco quando os caracteres são diferentes; - Pontos são preenchidos quando os caracteres são iguais; Métodos de Alinhamento Matriz de Pontos Fonte: Lesk(2008) Métodos de Alinhamento Programação Dinâmica Termo utilizado pela primeira vez em 1950 por Richard Bellman; Utilizado por Needleman e Wunsch e Smith-Waterman; Divide um problema em sub-problemas, que devem ter soluções ótimas; Retorna uma solução ótima global: o score ótimo; Aplicado a alinhamentos: globais, locais e semi-globais; Métodos de Alinhamento Programação Dinâmica LIMITAÇÕES Elevado tempo computacional; Não é indicado para busca de sequências em bancos de dados ou comparações “todos contra todos”; Métodos de Alinhamento Método de Palavras Heurístico Motivação: Pesquisa em bancos de dados com PD muito lenta. Não garantem a obtenção de um resultado ótimo; Exemplos: FASTA (Pearson & Lipman, 1988) e BLAST (Altschul et al., 1990) Métodos de Alinhamento Método de Palavras Basic Local Alignment Search Tool (BLAST) Heurística + Programação dinâmica 1. Algoritmo Heurístico Procura sementes(seeds) com alto escore de alinhamento; 2. Programação Dinâmica Extensão dos alinhamentos identificados no passo anterior; Métodos de Alinhamento Alinhamento Multiplos Definição: Segundo Lesk(2005), é alinhamento que utiliza 3 ou mais sequências, podendo ser local ou global; Objetivo: – Caracterização de famílias proteicas; – Identificar padrões de conservação de aminoácidos; – Identificar relações distantes; Aplicações: – Perfis – PSI-Blast – HMM