Curso de Extensão em Bioinformática – CCE/PUC-RJ

Análise Computacional de
Seqüências Nucleotídicas e
Protéicas
Alinhamentos múltiplos
Antonio Basílio de Miranda
25/11/2004
Um exemplo de um
alinhamento múltiplo
Porque precisamos de
alinhamentos múltiplos?


Um alinhamento múltiplo, seja de sequências
de DNA ou de proteína, pode fornecer muito
mais informação do que uma única
sequência.
Quando lidando com uma nova proteína, de
função desconhecida, a presença de domínios
similares a outros em proteínas conhecidas
pode implicar em função ou estrutura
semelhante.
Porque precisamos de
alinhamentos múltiplos?


É sabido que a pressão seletiva resulta da
necessidade de se conservar uma função.
Em proteínas, a manutenção da função
requer uma estrutura 3D específica. Portanto,
alinhamentos múltiplos de proteínas podem
fornecer alguma informação sobre a estrutura
3D das mesmas.
Estratégia
Alinhamento par-a-par
Busca nos bancos de dados
Alinhamento múltiplo
Estratégia
Alinhamento múltiplo
Modelagem por homologia
Análise filogenética
Buscas avançadas em bancos de dados:
padrões, motivos, promotores
Porque precisamos de
alinhamentos múltiplos?



Para revelar os relacionamentos entre
um grupo de sequências (homologia).
Para caracterizar famílias protéicas –
identificar regiões conservadas e
determinar as regiões variáveis.
Regiões similares podem indicar
funções similares (por exemplo,
promotores no DNA).
Porque precisamos de
alinhamentos múltiplos?


Planejar mutações pontuais, desenhar
primers e/ou sondas especiais.
Construir um perfil da família, o que
possibilitará buscas mais avançadas,
capazes de localizar membros mais
distantes da mesma família.
Porque precisamos de
alinhamentos múltiplos?



Alinhamentos múltiplos são utilizados
por programas de modelagem protéica.
Podem ajudar na predição das
estruturas secundária e terciária de
novas sequências.
Alinhamentos múltiplos servem de input
para a construção de árvores
filogenéticas.
O desafio computacional dos
alinhamentos múltiplos


Encontrar o alinhamento ótimo de um
grupo de sequências incluindo matches,
mismatches e gaps é muito difícil.
Para alinhamentos par-a-par, métodos
de programação dinâmica são
utilizados, mas não são práticos para
alinhamentos múltiplos (muitos
cálculos, muito tempo de CPU).
O desafio computacional dos
alinhamentos múltiplos


As dificuldades de se alinhar um grupo
de sequências variam conforme o grau
de similaridade entre as sequências.
Um alto grau de variação entre as
sequências implica em um grande
número de alinhamentos possíveis, o
que torna muito difícil encontrar o
alinhamento “ótimo”.
O desafio computacional dos
alinhamentos múltiplos


Métodos aproximados são utilizados ao
invés de métodos de programação
dinâmica.
Outro desafio computacional é a
inserção e pontuação de gaps nas
sequências alinhadas.
Métodos aproximados


Alinhamento global progressivo de todas as
sequências. Começa com as sequências mais
similares, construindo o alinhamento pela
adição do resto das sequências.
Métodos iterativos: começa pela construção
de um alinhamento múltiplo de um pequeno
grupo de sequências, e depois revisa o
alinhamento para a obtenção de melhores
resultados.
Métodos aproximados


Alinhamentos baseados em pequenos
domínios (ou padrões) conservados,
encontrados na mesma ordem nas
sequências alinhadas.
Alinhamentos baseados em modelos
probabilísticos ou estatísticos das
sequências.
Alinhamento múltiplo


O método mais prático e utilizado para
a construção de alinhamentos múltiplos
é o alinhamento global progressivo.
Como funciona?
Passos para a construção de
um alinhamento múltiplo

Comparações par-a-par de todas as
sequências.


Começa com o par mais relacionado
(similar), depois o par seguinte, e assim
por diante.
Realizar análise de “clusterização” para a
obtenção de uma hierarquia para o
alinhamento, que pode ser na forma de
uma árvore binária.
Dicas na escolha de suas
sequências


Sequências retiradas diretamente dos bancos
de dados podem conter dados irrelevantes
(vários genes, fragmentos de diferentes
tamanhos). Cheque suas sequências e use
somente a parte relevante para o
alinhamento. Edite e remova as outras partes
antes do alinhamento.
Tente usar sequências com aproximadamente
o mesmo tamanho para o alinhamento.
Dicas na escolha de suas
sequências

De forma geral:



Quanto mais sequências, melhor.
Não inclua sequências muito similares
(>80%).
Os sub-grupos devem ser alinhados
separadamente, e somente um membro de
cada sub-grupo deve ser incluído no
alinhamento múltiplo final.
O que você necessita saber sobre os
programas para a construção de
alinhamentos múltiplos




Quase todos os programas irão alinhar quaisquer
sequências que o usuário fornecer como input.
Sempre retornarão um alinhamento, mesmo que as
sequências não sejam relacionadas entre si.
A maioria dos programas irá inserir gaps. Entretanto,
uma vez inseridos, eles estão lá para ficar.
Você deve checar como o programa trata com a
inclusão de gaps nos finais das sequências.
Métodos de alinhamento
múltiplo global

Clustalw


MSA


http://npsa-pbil.ibcp.fr/cgibin/npsa_automat.pl?page=npsa_clustalw.html
http://www.ibc.wustl.edu/ibc/msa.html
PRALIGN

http://mathbio.nimr.mrc.ac.uk/~jhering/pralign
Métodos iterativos de
alinhamento múltiplo

DIALIGN


http://www.gsf.de/biodv/dialign.html
MultAlign

http://protein.toulouse.inra.fr/multalign.html
Métodos de alinhamento
múltiplo local

BLOCKS


HMMER


http://hmmer.wustl.edu
MEME


http://blocks.fhcrc.org/blocks/
http://meme.sdsc.edu/meme/website
SAM

http://www.cse.ucsc.edu/research/compbio/sam.html
ClustalW


O ClustalW pode criar alinhamentos
múltiplos, editar alinhamentos
existentes e criar árvores filogenéticas.
O alinhamento pode ser feito por dois
métodos:


Lento e preciso
Rápido e aproximado
ClustalW


O seu algoritmo consiste em três etapas:
1. Alinhamentos par-a-par são feitos entre
todas as sequências no grupo em estudo.
Pontuações são utilizadas para se construir
uma matriz de distâncias. Ao calcular essa
matriz, o programa leva em consideração a
divergência entre as sequências.
ClustalW

2. Uma árvore “guia” (filogenética) é
construída a partir da matriz de
distâncias utilizando o método de
neighbour-joining. Essa árvore-guia tem
ramos de diferentes tamanhos. Seu
tamanho é proporcional ao tempo de
divergência estimado ao longo de cada
ramo.
ClustalW

3. O alinhamento progressivo das
sequências é feito, seguindo a ordem
dos ramos na árvore-guia. As
sequências são alinhadas das
extremidades até a raiz. Este
alinhamento é feito de acordo com as
relações filogenéticas encontradas na
árvore-guia.
ClustalW
ClustalW
ClustalX – uma interface
Windows para o ClustalW
Outras opções

T-Coffee


http://igs-server.cnrs-mrs.fr/Tcoffee/
PileUp (GCG)

http://www.accelrys.com/products/gcg_wis
consin_package/
T-Coffee




Gera dois conjuntos de alinhamentos, um
global (ClustalW) e outro local (lalign).
Pesa, compara e combina.
Faz pontuação posição-específica.
Alinhamento progressivo (as penalidades para
os gaps não são necessárias devido a
estratégia de ponderação)
T-Coffee
PileUp (GCG)

O PileUp cria um alinhamento múltiplo
de sequências a partir de um grupo de
sequências relacionadas usando
alinhamentos par-a-par de forma
progressiva. Também pode “plotar” uma
árvore mostrando os agrupamentos
usados na construção do alinhamento.
PileUp (GCG)
PileUp (GCG)
PileUp (GCG)



O PileUp faz alinhamento par-a-par de todas
as sequências utilizando o método de
Needleman & Wunsch.
As pontuações dos alinhamentos são
utilizadas para produzir uma árvore pelo
método UPGMA (Unweighted Pair-Group
Method with Arithmetic mean) de Sneath &
Sokal.
Esta árvore é usada para guiar o alinhamento
de um grupo de sequências relacionadas.
PileUp (GCG)



O PileUp faz um alinhamento múltiplo global, e
portanto é bom para um grupo de sequências
similares.
Irá falhar na determinação da região de maior
similaridade (como por exemplo um motivo
compartilhado) entre sequências relacionadas mas
distantes.
Sempre alinha todas as sequências que você
especificar, mesmo que não sejam relacionadas. O
alinhamento pode perder em qualidade caso algumas
das sequências sejam relacionadas mas bastante
divergentes.