Resumo - capítulo 3 - Alinhamento de pares de sequências

Propaganda
Resumo - capítulo 3 - Alinhamento de pares de
sequências
Pedro Ivo Gomes de Faria
Sumário
1 Introdução
1.1 Definição de alinhamento de sequências . . . . . . . . . .
1.1.1 Alinhamento global . . . . . . . . . . . . . . . . .
1.1.2 Alinhamento local . . . . . . . . . . . . . . . . . .
1.2 Significância do alinhamento de sequências . . . . . . . .
1.3 Visão geral dos métodos para alinhamento de sequências
1.3.1 Alinhamento de pares de sequências . . . . . . . .
1.3.2 Alinhamento múltiplo de sequências . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
3
3
3
4
4
4
2 Métodos
5
2.1 Comparação de sequências por matrizes de pontos . . . . . . . 5
2.1.1 Comparação de sequências duas a duas . . . . . . . . . 5
2.1.2 Repetições de sequências . . . . . . . . . . . . . . . . . 5
2.1.3 Repetições de um único símbolo da sequência . . . . . 6
2.2 Algoritmo de programação dinâmica para o alinhamento de
sequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Descrição do algoritmo . . . . . . . . . . . . . . . . . . 6
2.2.2 Descrição formal do algoritmo de programação dinâmica 7
2.2.3 Programação dinâmica pode prover alinhamentos de
sequências locais ou globais . . . . . . . . . . . . . . . 7
2.2.4 Um programa de alinhamento local sempre produz um
alinhamento local e um programa de alinhamento global
sempre produz um alinhamento global? . . . . . . . . . 8
2.2.5 Desenvolvimento adicional e uso do algoritmo de programação dinâmica para alinhamentos de sequências . 9
2.3 Uso de matrizes de pontuação e penalidades para lacunas em
alinhamentos de sequências . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Matrizes de substituição de aminoácidos . . . . . . . . 9
1
2.3.2
2.3.3
2.3.4
2.4
2.5
Matrizes de pontuação de ácidos nucleicos PAM . . . .
Penalidades para lacunas . . . . . . . . . . . . . . . . .
Combinações ótimas de matrizes de pontuação e penalidades para lacunas na descoberta de proteínas relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . .
Avaliando a significância de alinhamentos de sequência . . . .
2.4.1 Significância de alinhamentos globais . . . . . . . . . .
2.4.2 Modelando um alinhamento de sequências de DNA
aleatórias . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3 Alinhamentos com lacunas . . . . . . . . . . . . . . . .
2.4.4 A distribuição do valor extremo de Gumbel . . . . . .
2.4.5 Determinação da significância da pontuação de um alinhamento . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.6 A importância do tipo de matriz de pontuação para
análises estatísticas . . . . . . . . . . . . . . . . . . . .
2.4.7 Significância de alinhamentos locais com lacunas . . . .
2.4.8 Métodos para calcular os parâmetros da distribuição
do valor extremo . . . . . . . . . . . . . . . . . . . . .
2.4.9 A significância estatística de pontuações de alinhamentos individuais entre sequências e a significância de
pontuações encontradas em uma busca em um banco
de dados são calculados de forma diferente . . . . . . .
Alinhamento de sequências e estimação da distância evolutiva
por métodos estatísticos bayesianos . . . . . . . . . . . . . . .
2.5.1 Introdução à estatística bayesiana . . . . . . . . . . . .
2.5.2 Aplicação da estatística bayesiana à análise de sequências
2.5.3 Distância evolutiva bayesiana . . . . . . . . . . . . . .
2.5.4 Algoritmos bayesianos para alinhamento de sequências
2
12
13
15
15
15
16
18
18
20
20
21
21
22
23
23
24
24
25
1
1.1
Introdução
Definição de alinhamento de sequências
O alinhamento de sequências é a comparação de duas ou mais sequências
buscando uma série de caracteres individuais ou padrões de caracteres que
estejam na mesma ordem nas duas sequências. Caracteres idênticos ou similares são dispostos na mesma coluna, enquanto os não idênticos podem ser
colocados na mesma coluna (casamento sem êxito) ou opostos a uma lacuna
na outra sequência.
1.1.1
Alinhamento global
No alinhamento global é feita uma tentativa de alinhar toda a sequência,
usando quantos caracteres forem possíveis, até ambos os terminais de cada
sequência. Sequências similares e aproximadamente do mesmo tamanho são
candidatas apropriadas para o alinhamento global.
1.1.2
Alinhamento local
No alinhamento local, regiões das sequências com a maior densidade de casamentos são alinhadas, gerando uma ou mais “ilhas” de casamentos ou subalinhamentos. O alinhamento para nas extremidades dessas regiões, e sua
descoberta possui maior prioridade do que a extensão do alinhamento para
incluir pares de aminoácidos vizinhos. É apropriado para sequências com
regiões de similaridade descontínuas, que difiram em tamanho ou que compartilhem um domínio ou região conservada.
1.2
Significância do alinhamento de sequências
O alinhamento de sequências é útil para descobrir informação funcional, estrutural e evolucionária em sequências biológicas. Para tanto, é necessário
descobrir o alinhamento “ótimo”. Sequências muito parecidas (similares)
provavelmente têm a mesma função e, se forem de organismos diferentes,
são definidas como homólogas caso tenha existido uma sequência que seja
ancestral de ambas.
A similaridade de sequências pode ser um indício de várias possíveis relações de ancestralidade, inclusive a ausência de uma origem comum. Por
exemplo, pensa-se que a evolução gênica ocorra após a duplicação em tandem de um mesmo gene, seguida por mutações nas cópias e evolução por vias
separadas (especiação).
3
Outra complicação no rastreamento da origem de sequências similares é
a de que genes individuais podem não compartilhar a mesma origem do resto
do genoma em que estão. Eventos genéticos como simbioses e transduções induzidas por vírus podem causar transferência horizontal de material genético
entre organismos não-relacionados (em tais casos, as histórias evolutivas do
organismo e da sequência transferida serão diferentes).
1.3
1.3.1
Visão geral dos métodos para alinhamento de sequências
Alinhamento de pares de sequências
O alinhamento de duas sequências pode ser feito por análise de matrizes de
pontos, programação dinâmica ou métodos de palavras ou de k-tuplas.
A análise de matrizes de pontos mostra possíveis alinhamentos como diagonais na matriz, e pode facilmente revelar a presença de inserções, deleções
ou repetições que são mais difíceis de encontrar por outros métodos mais automatizados. Sua principal limitação é a de não mostrar um alinhamento de
fato.
Na programação dinâmica, um alinhamento é gerado começando nos terminais das duas sequências e é estendido tentando casar todos os pares possíveis de caracteres entre as sequências (de acordo com algum esquema de
pontuação). Isso gera uma matriz numérica, cujo maior conjunto de pontuações em sequência define um alinhamento ótimo. O método sempre encontra
um alinhamento ótimo (algo provado matematicamente) para um dado conjunto de variáveis definidas pelo usuário (incluindo a matriz de pontuação e
as penalidades para as lacunas).
Os métodos de palavras ou de k-tuplas (usados pelo BLAST ou pelo
FASTA) procuram por pequenas regiões idênticas das sequências (palavras
ou k-tuplas) e as unem em um alinhamento pelo método de programação
dinâmica. Esses métodos são rápidos o suficiente para fazer uma busca num
banco de dados inteiro pela sequência que melhor se alinhe com a consulta.
1.3.2
Alinhamento múltiplo de sequências
A partir de um alinhamento múltiplo de três ou mais sequências proteicas,
os resíduos altamente conservados que definem domínios estruturais e funcionais em famílias de proteínas podem ser identificados. Apesar do grande
valor de um alinhamento múltiplo, a sua obtenção é um problema difícil
computacionalmente.
4
2
2.1
Métodos
Comparação de sequências por matrizes de pontos
Uma análise de uma matriz de pontos é basicamente um método de comparação de duas sequências para procurar por possíveis alinhamentos entre
as mesmas. O método também é usado para encontrar repetições diretas
ou inversas (por exemplo, 50 -GACTGC . . . GCAGTC-30 ) em sequências de
proteínas e de DNA, além de predizer regiões no RNA que são autocomplementares (e, portanto, possuem o potencial para formar uma estrutura
secundária).
2.1.1
Comparação de sequências duas a duas
No método de matrizes de pontos para comparação de sequências, uma sequência (A) é listada acima da primeira linha da matriz e a outra sequência
(B) é listada ao lado da primeira coluna. Começando com o primeiro caractere de B, move-se pela primeira linha colocando um ponto nas colunas
cujo caractere correspondente em A seja igual ao caractere de B analisado
(nesse caso, o primeiro). Faz-se o procedimento análogo com segundo caractere de B (colocando os pontos na segunda linha da matriz) e assim por
diante. Regiões de similaridade são indicadas por segmentos diagonais, enquanto pontos isolados representam casamentos aleatórios que provavelmente
não são significativos.
A detecção das regiões de casamentos pode ser melhorada filtrando os
casamentos aleatórios, utilizando uma “janela deslizante” (de tamanho prédefinido). A janela compara posições adjacentes nas duas sequências ao
mesmo tempo, imprimindo um ponto na página apenas se um número mínimo de casamentos (a estringência) ocorrer.
Para sequências de DNA deve-se usar janelas extensas (de comprimento
7 ou 11) e estringência elevada (igual a 11 ou 15), pois como existem apenas
4 nucleotídeos é alto o número de casamentos aleatórios. Por outro lado,
para proteínas costuma-se utilizar janelas curtas (de comprimento 1) e baixa
estringência (igual a 1), pois existem basicamente 20 aminoácidos diferentes
(o que reduz bastante os casamentos aleatórios).
2.1.2
Repetições de sequências
A análise de matrizes de pontos também pode servir para encontrar repetições
diretas e inversas em sequências (incluindo as de cromossomos inteiros), analisando uma determinada sequência em oposição a ela mesma. Repetições
5
diretas também podem ser achadas fazendo alinhamento de sequências por
métodos de programação dinâmica.
2.1.3
Repetições de um único símbolo da sequência
A análise de matrizes de pontos também pode revelar a presença de repetições
de um único caractere, que são responsáveis por criar alinhamentos com pontuações artificialmente altas (um problema similar acontece nas regiões com
baixa alternância de caracteres, chamadas regiões de baixa complexidade).
Essas repetições ficam aparentes na matriz de pontos de uma proteína em
oposição a ela mesma através de segmentos verticais de pontos que se fundem
a padrões retangulares ou quadriculares.
2.2
Algoritmo de programação dinâmica para o alinhamento de sequências
O método de programação dinâmica compara todos os pares de caracteres
de duas sequências e gera um alinhamento ótimo (com o maior número possível casamentos entre caracteres idênticos ou relacionados), que provê informações úteis aos biólogos para predições funcionais, estruturais e evolutivas.
Programas de alinhamentos globais são baseados no algoritmo de NeedlemanWunsch, enquanto os de alinhamentos locais são baseados no de SmithWaterman. O alinhamento receberá uma pontuação, e existem métodos para
calcular se ele é ou não estatisticamente significante.
Na hora de fazer um alinhamento de sequências, é importante ter em
mente o objetivo da análise, pois esse irá influenciá-la. Várias decisões devem
ser feitas, incluindo o tipo de programa, de alinhamento (local ou global), a
matriz de pontuação e as penalidades para as lacunas.
2.2.1
Descrição do algoritmo
O alinhamento de duas sequências sem lacunas requer um algoritmo que
faz um número de comparações proporcional ao quadrado do comprimento
médio das sequências. Para alinhamentos que permitem lacunas em posições
arbitrárias, métodos de comparação direta exigem um número astronômico de
comparações (enquanto algoritmos de programação dinâmica ainda exigem
proporcional ao produto do comprimento das sequências).
A qualidade do alinhamento entre duas sequências é calculada por um
sistema de pontuação que favorece o casamento de caracteres idênticos ou
relacionados e penaliza lacunas ou caracteres pouco relacionados. Essas pontuações são determinadas a partir das seguintes probabilidades:
6
1. de que um particular caractere seja encontrado em alinhamentos de
sequências relacionadas;
2. de que um mesmo par esteja alinhado ao acaso nas sequências (pois
alguns resíduos podem ser abundantes nas sequências e outros raros);
3. de que a inserção de uma lacuna de um ou mais resíduos em uma das
sequências (forçando o alinhamento de cada componente do par com
outro caractere) seria uma melhor escolha.
A proporção das duas primeiras probabilidades é comumente fornecida
por uma matriz de substituição (como a BLOSUM e a PAM), em que cada
entrada dá a taxa (pontuação das chances) da frequência observada de substituição de pares de resíduos de sequências relacionadas em relação à esperada
por acaso. Essas taxas são transformadas em seus logaritmos (pontuação
do logaritmo das chances), de modo que pontuações de pares diferentes possam ser adicionadas para representar a chance global de um alinhamento ter
acontecido ao acaso ou não.
2.2.2
Descrição formal do algoritmo de programação dinâmica
Sejam a = a1 a2 . . . an e b = b1 b2 . . . bn duas sequências, Sij = S(a1 a2 . . . ai , b1 b2 . . . bj )
a pontuação do alinhamento ótimo entre a1 a2 . . . ai e b1 b2 . . . bj , s(ai bj ) a pontuação por alinhar ai com bj , wx a penalidade para uma lacuna de comprimento x na sequência a e wy a penalidade para uma lacuna de comprimento
y na sequência b. Logo, temos que
Sij = max





Si−1,j−1 + s(ai bj );
max(Si−x,j − wx );
x≥1



 max(Si,j−y
y≥1
− wy )
Notando que S11 = s(a1 b1 ), temos uma descrição quase completa do algoritmo. Quando todas as posições da matriz (todos os Sij ) forem calculados, a
pontuação do alinhamento ótimo entre a e b estará em Snn . Para determinar
qual é o alinhamento ótimo a partir da matriz S, uma segunda matriz T (a
de rastreamento reverso) é usada. Cada entrada Tij da matriz armazena qual
entrada da matriz S contribuiu para a pontuação ótima armazenada em Sij .
2.2.3
Programação dinâmica pode prover alinhamentos de sequências locais ou globais
Alinhamento global: algoritmo de Needleman-Wunsch
7
O método de programação dinâmica descrito acima fornece um alinhamento global de sequências, como descrito por Needleman e Wunsch (1970).
O algoritmo irá maximizar o número de casamentos entre as sequências por
toda a extensão das duas.
Alinhamento local: algoritmo de Smith-Waterman
Uma modificação do algoritmo de Needleman-Wunsch pode encontrar alinhamentos locais de sequências, que normalmente são mais significativos
do que os globais por incluir padrões que estão conservados nas sequências.
Sendo Hij = H(a1 a2 . . . ai , b1 b2 . . . bj ) a pontuação do alinhamento ótimo entre a1 a2 . . . ai e b1 b2 . . . bj , temos que
Hij = max







Hi−1,j−1 + s(ai bj );
max(Hi−x,j − wx );
x≥1

max(Hi,j−y


y≥1



− wy );
0
As principais diferenças para o cálculo da matriz de pontuação são:
1. o sistema deve incluir pontuações negativas para casamentos sem sucesso
2. quando um valor da matriz tornar-se negativo ele deve receber 0, o que
tem o efeito de terminar qualquer alinhamento até aquele ponto.
2.2.4
Um programa de alinhamento local sempre produz um alinhamento local e um programa de alinhamento global sempre
produz um alinhamento global?
Tanto o algoritmo de Smith-Waterman pode devolver um alinhamento global
quanto o algoritmo de Needleman-Wunsch pode devolver um alinhamento
local, dependendo do esquema de pontuação utilizado.
Se usarmos uma matriz que atribua (em média) uma pontuação positiva
para cada posição alinhada, combinada com uma penalidade para lacunas
pequena o suficiente para permitir a extensão do alinhamento por regiões
com poucos casamentos, teremos um alinhamento global. Inversamente,
com uma pontuação (em média) negativa para casamentos sem sucesso e
uma penalidade para lacunas grande o suficiente para prevenir a extensão do
alinhamento por regiões com poucos casamentos, teremos um alinhamento
local.
Para alinhamentos de sequências aleatórias, a pontuação de um alinhamento global cresce proporcionalmente ao tamanho das sequências, en-
8
quanto a pontuação de um alinhamento local cresce proporcionalmente ao
logaritmo do produto dos tamanhos da sequências.
2.2.5
Desenvolvimento adicional e uso do algoritmo de programação dinâmica para alinhamentos de sequências
Uso de pontuações de distância para o alinhamento de sequências
Um método alternativo para a pontuação de alinhamentos baseia-se em
quantas mudanças são necessárias para transformar uma sequência em outra.
Usando essa medida, quanto maior for a distância entre as sequências, maior
o tempo evolutivo passado desde que as sequências divergiram de seu ancestral comum. Portanto, pontuações de distância fornecem um método mais
natural biologicamente do que as pontuações de similaridade.
Melhora na complexidade de tempo e de espaço do algoritmo
de programação dinâmica
Apesar de os algoritmos originais exigirem algo como número de passos
entre n × m e n × m2 (onde n é o tamanho da sequência menor) e alocação de
matrizes de tamanho n × m, várias melhorias já foram propostas. Algumas
delas são:
1. decréscimo no número de passos do algoritmo
2. redução da complexidade de memória para uma função linear no comprimento das sequências
3. habilidade para encontrar alinhamentos quase ótimos e alinhar sequências longas
4. habilidade para encontrar os alinhamentos alternativos de melhor pontuação que não alinhem as mesmas posições das sequências
2.3
2.3.1
Uso de matrizes de pontuação e penalidades para
lacunas em alinhamentos de sequências
Matrizes de substituição de aminoácidos
Saber quais são os tipos de substituição de aminoácidos e com que frequência
ocorrem em um grande número de proteínas pode ajudar na predição de
alinhamentos para qualquer conjunto de sequências proteicas. Se sequências
proteicas relacionadas são similares, elas são fáceis de alinhar e, portanto, é
possível determinar prontamente as mudanças ocorridas nos aminoácidos.
9
Em matrizes de substituição de aminoácidos, cada elemento possui uma
pontuação que reflete com que frequência o aminoácido na linha estaria
pareado com o da coluna num alinhamento de sequências proteicas relacionadas. Supõe-se que a probabilidade de transformar A em B é mesma
de transformar B em A, pois o aminoácido ancestral na árvore filogenética
normalmente não é conhecido.
Matrizes de substituição de aminoácidos de Dayhoff (ou matrizes PAM)
Essa família de matrizes lista a probabilidade de mudança de um aminoácido pra outro em sequências proteicas homólogas durante a evolução. Até o
momento não existe outro tipo de matriz de pontuação baseada em princípios
evolutivos sólidos como as matrizes PAM são. Apesar de serem originalmente
construídas a partir de um conjunto de dados relativamente pequeno, as matrizes PAM ainda são ferramentas úteis para o alinhamento de sequências. A
matriz P AM 1, por exemplo, fornece a probabilidade de substituição de um
aminoácido por outro após um intervalo evolutivo de 1 PAM (≈ 10 milhões
de anos).
Na construção das matrizes PAM, é feita a suposição de que a mudança
de um aminoácido em um sítio particular é independente dos eventos mutacionais que ocorreram anteriormente no mesmo sítio. Portanto, substituições de aminoácidos numa sequência proteica são vistos como uma cadeia
de Markov, em que mudanças de um estado para outro não dependem do
histórico do estado.
Devido a isso, a matriz PAM1 pode ser multiplicada por ela mesma N
vezes (notação: P AM N = (P AM 1)N para N ≥ 1) para obtermos matrizes de transição que permitam comparar sequências com níveis cada vez
mais baixos de similaridade. Por exemplo, as matrizes P AM 120, P AM 80 e
P AM 60 devem ser usadas para alinhar sequências que são 40%, 50% e 60%
similares, respectivamente.
Matrizes PAM normalmente são convertidas para outra forma, chamada
de matriz do logaritmo das chances. A pontuação das chances é a razão
entre a probabilidade de que a mudança represente uma variação evolutiva
autêntica naquele sítio e a probabilidade de que a mudança tenha ocorrido
devido à variação aleatória (sem significado biológico), sendo o logaritmo das
chances igual ao logaritmo desse valor.
Escolhendo a melhor matriz PAM para detecção de similaridade
entre sequências
Cada matriz PAM é apropriada para comparar proteínas que tenham
certo grau de similaridade mas, inicialmente, a similaridade entre as sequên10
cias pode não ser conhecida. Apesar disso, a pontuação de um alinhamento
local sem lacunas é máxima quando a matriz PAM correta (que corresponde
ao grau de similaridade entre as sequências) é utilizada.
Além disso, a habilidade das matrizes PAM de discriminar alinhamentos
locais reais (biologicamente significantes) de alinhamentos ao acaso (a entropia relativa H) também varia (em geral - mantendo constantes os outros
fatores -, quanto maior o valor de H, maior a capacidade de discriminação).
Para efetuar o seu cálculo, a pontuação para cada par de aminoácidos sij (em
unidades de log2 , chamadas bits) é multiplicada pela probabilidade de ocorrência do par no conjunto de dados original (qij ). Essa pontuação, somada
sobre todos os aminoácidos, produz o valor de H:
H=
20 X
i
X
qij × sij
i=1 j=1
Análise do modelo de evolução proteica de Dayhoff
Várias ressalvas já foram feitas em relação às suposições que fundamentam as matrizes PAM. Apesar de supor que todas as posições são igualmente mutáveis, é bem conhecido da genética molecular que existem “sítios
quentes” de mutação, assim como variações na mutabilidade de diferentes
sítios de aminoácidos nas proteínas. Além disso, quanto mais conservado é
um aminoácido de proteínas similares em diferentes espécies, maior é a sua
importância para a estrutura e função da proteína. Portanto, vários fatores
influenciam tanto a localização quanto os tipo de mudança que ocorrem em
aminoácidos.
Outra crítica é a análise circular que envolve a sua construção, já que os alinhamentos são usados para pontuar mudanças nos aminoácidos (registradas
na matriz), que por sua vez são usados para produzir novos alinhamentos.
Apesar disso, nenhum método para contornar completamente o problema foi
desenvolvido, considerando qualquer tipo de análise de sequências.
Uma última crítica baseia-se no fato de as matrizes terem sido construídas a partir de um conjunto relativamente pequeno de proteínas intimamente
relacionadas. Em resposta a isso, o conjunto de dados de Dayhoff foi aumentado para incluir o banco de dados de proteínas de 1991.
Matrizes de substituição de aminoácidos por blocos (BLOSUM)
As matrizes de substituição BLOSUM (em particular a BLOSU M 62)
são amplamente utilizadas para pontuar alinhamentos de sequências proteicas. Os valores da matriz são baseados em substituições de aminoácidos
observadas num conjunto de ≈ 2000 padrões de aminoácidos conservados,
11
chamados de blocos. Esses blocos foram encontrados num banco de dados
de sequências proteicas que representa mais de 500 famílias de proteínas, e
agem como assinaturas dessas.
A contagem de mudanças nos aminoácidos por blocos pode, porém, levar
a uma super-representação das substituições que ocorrem nos membros mais
intimamente relacionados de cada família. Para reduzir essa contribuição
das sequências mais parecidas, elas foram agrupadas como uma sequência
só antes da atribuição da pontuação aos blocos alinhados. Em seguida, foi
tirada a média das substituições nessas sequências agrupadas. Padrões que
eram 60% idênticos foram agrupados para fazer uma matriz de substituição
chamada BLOSUM60, os que eram 80% idênticos fundamentaram a BLOSUM 80, e assim por diante. Como ocorre nas matrizes PAM, as BLOSUMs
diferem no modo com que os pares de aminoácidos mais comuns são pontuados em relação aos menos comuns (e também diferem na habilidade de
distinguir alinhamentos reais dos que ocorrem ao acaso).
Comparação das matrizes PAM e BLOSUM
O modelo PAM foi projetado para rastrear a origem evolutiva das proteínas, assumindo que as mutações ocorram por um processo de Markov.
Ele foi baseado na predição das primeiras mudanças que ocorrem quando as
proteínas divergem a partir de um ancestral comum.
Já o modelo BLOSUM foi projetado para encontrar domínios conservados das proteínas, e não é baseado em um modelo evolutivo explícito. Ele foi
construído a partir de famílias de proteínas relacionadas bioquimicamente,
independentemente do grau de similaridade entre suas sequências.
Outras matrizes de pontuação para aminoácidos
Além das matrizes PAM e BLOSUM, várias outras matrizes de substituição de aminoácidos foram produzidas, variando de uma comparação simples de propriedades químicas de aminoácidos até uma análise complexa de
substituições que ocorrem em domínios secundários de proteínas. Como a
maioria delas alinha proteínas de acordo com características dos aminoácidos
(e não de acordo com um modelo evolutivo), elas são mais apropriadas para
descobrir relações funcionais e estruturais (e não para análise evolutiva).
2.3.2
Matrizes de pontuação de ácidos nucleicos PAM
Do mesmo modo como existem matrizes de pontuação para alinhamentos
de proteínas, matrizes de pontuação para alinhamentos de sequências de
DNA também foram desenvolvidas. Ela pode incorporar símbolos de DNA
ambíguos (como S - de strong - para denominar as bases C ou G, que fazem
12
3 ligações de hidrogênio entre si) e informações de análises mutacionais, que
revelam que transições (substituições entre as purinas A e G ou entre as
pirimidinas C e T) são mais prováveis que transversões (substituições entre
purinas e pirimidinas).
Como ocorre com as matrizes de aminoácidos, são produzidas matrizes do
logaritmo das chances que representam a frequência de substituições esperada
com distâncias evolutivas crescentes. Num alinhamento, a probabilidade sij
de obter um casamento entre os nucleotídeos i e j, dividida pela probabilidade
de alinhar i e j ao acaso é dada por
sij = log(pi Mij /pi pj )
Onde Mij é o valor na matriz de mutação e pi e pj são as frequências de
cada nucleotídeo (supostamente iguais a 0, 25). De modo análogo, matrizes
que representem a distância evolutiva de n PAMs são deduzidas multiplicando a matriz PAM1 por si mesma n vezes. A entropia relativa (capacidade de distinguir alinhamentos reais dos aleatórios) para cada matriz (em
unidades de bit) pode ser calculada a partir da equação (onde os sij também
são expressos em unidades de bit)
H=
X
pi pj sij 2sij
i,j
Como ocorre com as matrizes de pontuação para aminoácidos, a matriz
usada deve ser a correspondente à porcentagem de similaridade entre as sequências. Por exemplo, para sequências que são 21% diferentes, a matriz da
distância de 25 PAMs deve ser usada. Já que não é possível saber qual a
porcentagem de similaridade entre duas sequências antes de fazer um alinhamento, é necessário fazer alguns alinhamentos como tentativas.
2.3.3
Penalidades para lacunas
As penalidades para lacunas são necessárias para obter o melhor alinhamento
possível entre duas sequências. Uma penalidade para a abertura de qualquer
lacuna (g) e uma penalidade para cada elemento da lacuna (r) são comumente
utilizada, sendo a pontuação total wx dada pela função de penalidade afim
(onde x é o tamanho da lacuna)
wx = g + rx
Se a penalidade usada for muito grande em relação às pontuações da matriz
de substituição, as lacunas nunca irão aparecer no alinhamento. Inversamente, se a penalidade for muito pequena em relação às pontuações da matriz, as lacunas irão aparecer em quase todo o alinhamento para maximizar o
13
número de casamentos. Felizmente, a maioria dos programas de alinhamento
sugere penalidades apropriadas para uma dada matriz de pontuação na maioria das situações.
Ainda, se um alinhamento for formulado em termos de distâncias em
vez de similaridades, uma melhor interpretação biológica das lacunas é possível. Nesse caso, a distância é o número de mudanças necessárias para
converter uma sequência em outra, e representa o número de mutações que
ocorreu desde a separação dos genes durante a evolução (com uma substituição fornecendo uma pontuação +1, sendo a soma da distância com a
pontuação de similaridade sempre igual a 1). Essa formulação satisfaz a desigualdade triangular, no sentido de que se d(x, y) é a distância entre x e y e
a, b e c são três sequências quaisquer então
d(a, b) + d(b, c) ≥ d(a, c)
Penalidades para lacunas nos terminais dos alinhamentos
Lacunas nos terminais de um alinhamento podem receber a mesma pontuação das lacunas internas ou, de modo alternativo, não receber penalidades
(para sequências de homologia desconhecida ou tamanhos diferentes). Se as
lacunas terminais não receberem penalidades, elas podem utilizadas de modo
excessivo pelo algoritmo para aumentar o número de casamentos de caracteres internos.
Efeitos da variação de penalidades para lacunas divergentes em
pontuações de alinhamentos locais
Vários efeitos podem ser observados a partir da variação e parâmetros
para o alinhamento de sequências aleatórias de DNA e proteínas. Os principais são:
1. o uso de penalidades (para lacunas ou casamentos sem sucesso) que são
maiores do que a pontuação para casamentos irá produzir alinhamentos
locais;
2. quando a penalidade para um casamento sem sucesso for maior ou igual
ao dobro da pontuação para um casamento, a penalidade da lacuna
torna-se o parâmetro decisivo para o alinhamento;
3. quando a penalidade para um casamento sem sucesso for menor que
o dobro da pontuação para uma lacuna, muitos alinhamentos irão depender das pontuações para as penalidades (para lacunas e casamentos
sem sucesso).
14
2.3.4
Combinações ótimas de matrizes de pontuação e penalidades para lacunas na descoberta de proteínas relacionadas
Os principais pontos sobre combinações de parâmetros para a busca de proteínas homólogas são os seguintes:
1. algumas matrizes (como a BLOSUM62, construída a partir de famílias
de proteínas relacionadas) são superiores às outras (como a PAM250,
construída por extrapolação) na busca de proteínas relacionadas;
2. penalidades para as lacunas ajustadas para produzir alinhamentos locais são mais apropriadas;
3. para identificar sequências relacionadas, a significância do alinhamento
deve ser estimada.
2.4
Avaliando a significância de alinhamentos de sequência
Um dos mais importantes avanços na análise de sequências foi o desenvolvimento de métodos para estimar a significância de um alinhamento de sequência. Uma das principais aplicações dos testes de significância é ajudar
a decidir se um dado alinhamento seria realmente esperado entre sequências
relacionadas ou se seria achado com igual probabilidade entre sequências não
relacionadas.
Inicialmente, a significância era estimada sob a suposição de que as pontuações dos alinhamentos seguiam uma distribuição normal. Porém, gerando
sequências aleatoriamente por métodos Monte Carlo ou por embaralhamento
de sequências, chegou-se à conclusão de que as pontuações dos alinhamentos
seguiam a distribuição do valor extremo de Gumbel.
Além disso, a análise estatística das pontuações de alinhamentos locais
avançou bem mais do que a de alinhamentos globais. Alinhamentos locais
servem para revelar regiões com alta similaridade, que praticamente não
existem em sequências não relacionadas ou aleatórias. Por outro lado, é
possível achar sequências dessa natureza que possuam uma pontuação muito
alta se alinhadas globalmente (isso dificulta a estimação da significância de
alinhamentos globais).
2.4.1
Significância de alinhamentos globais
Em geral, programas de alinhamento global usam o algoritmo de NeedlemanWunsch e utilizam uma pontuação (em média) positiva para um par de nu15
cleotídeos ou aminoácidos alinhados. Consequentemente, a pontuação do alinhamento de sequências aleatórias ou não relacionadas cresce proporcionalmente ao tamanho das sequências. Como pequenas mudanças no sistema de
pontuação usado produzem um alinhamento diferente, estimar a significância
de um alinhamento global não é uma tarefa fácil.
Dayhoff (1978) e Dayhoff et al. (1983) avaliaram pontuações de alinhamentos dados pelo algoritmo de Needleman-Wunsch para sequências proteicas aleatórias e não relacionadas, utilizando a matriz PAM250 e penalidade constante para as lacunas. A distribuição das pontuações resultantes foi
compatível com uma normal. A partir disso, a significância do alinhamento
entre duas sequências aparentemente relacionadas A e B foi determinada pela
obtenção da média e do desvio padrão da pontuação de 100 alinhamentos de
permutações de A com permutações de B. Se a pontuação entre A e B for
significante, então a pontuação real deve ser pelo menos 3 a 5 desvios padrão
maior do que a média das pontuações aleatórias.
Várias outras abordagens para o assunto foram tentadas por Waterman
(1989), Chvátal e Sankoff (1975) e Lipman et al. (1984), e uma das conclusões foi de que a presença de padrões locais conservados pode influenciar
a pontuação em testes estatísticos, fazendo com que um alinhamento pareça
ser mais significante do que é. Finalmente, um dos principais problemas com
os métodos acima foi a utilização do modelo estatístico incorreto.
2.4.2
Modelando um alinhamento de sequências de DNA aleatórias
Para estimar o número de casamentos consecutivos entre sequências aleatórias,
podemos modelar um alinhamento como lançamentos de moeda. Seja P (H) =
p a probabilidade do lançamento de uma moeda resultar em cara (H) e
P (T ) = 1 − p a probabilidade do lançamento da mesma moeda resultar em
coroa (T ). O comprimento esperado da maior sequência de caras consecutivas (R) em n lançamentos é dado pela seguinte equação (demonstrada por
Erdös e Rényi)
R = log1/p (n)
Para usar o modelo, um alinhamento de duas sequências aleatórias a =
a1 a2 . . . an e b = b1 b2 . . . bn é convertido para uma série de caras e coroas. Se
ai = bi o lançamento resultante é cara (H), caso contrário é coroa (T ).
Com isso, o maior número de casamentos consecutivos (para sequências
de mesmo tamanho n) é equivalente ao maior número de caras consecutivas
em n lançamentos. Se duas sequências de tamanhos n e m forem alinhadas
do mesmo modo, esse número passa a ser log1/p (mn). Seja M uma variável
aleatória que indique qual o comprimento da maior sequência de casamentos
16
consecutivos entre as sequências de tamanhos n e m. Logo, fórmulas mais
precisas para a esperança e variância de M são:
E(M ) ≈ log1/p (mn) + log1/p (q) + γ log(e) − 1/2 ≈ [loge (Kmn)]/λ
V (M ) ≈ [πlog1/p (e)]2 /6 + 1/12
onde γ ≈ 0, 577 é a constante de Euler-Mascheroni, q = 1 − p, K é uma
constante que depende da composição das bases na sequência e λ = loge (1/p).
A estimativa para E(M) é fundamentalmente importante para o cálculo
da significância estatística da pontuação de alinhamentos. Basicamente, ela
afirma que conforme os comprimentos de sequências aleatórias ou não relacionadas aumentam, a média das maiores pontuações possíveis para alinhamentos locais será proporcional ao logaritmo do produto dos comprimentos das sequências A estimativa para V(M) prediz variância constante para
a pontuação desse tipo de alinhamento, algo confirmado por experimentos.
Utilizando alguns métodos de normalização, também é possível usar as
equações acima para predizer o valor esperado E(S) da pontuação do alinhamento entre duas sequências aleatórias de tamanhos m e n:
E(S) = [loge (Kmn)]/λ
Assim, estimar a significância estatística se reduz a calcular a probabilidade de que a pontuação de um alinhamento entre sequências aleatórias ou
não relacionadas seja maior que E(S). Para isso é necessário prever qual o
número de regiões de casamentos cujas pontuações excedem E(S), algo que
pode ser feito pela distribuição de Poisson (cuja média x é dada por E(S)),
dada por Pn = e−x xn /n! para n ≥ 0. Para um grande número de ensaios cuja
probabilidade de sucesso é pequena, Pn é uma aproximação da probabilidade
de obter n sucessos.
Portanto, a probabilidade de que nenhum alinhamento (de um número
grande de alinhamentos) tenha pontuação maior que x é P0 = e−x , e a
probabilidade de que pelo menos um deles tenha pontuação maior que x é
P (S > x) = 1 − P0 = 1 − e−x = 1 − e−E(S) = 1 − exp(−Kmne−λx )
A aproximação de Poisson fornece um modo conveniente de estimar os
parâmetros K e λ a partir de pontuações de muitos alinhamentos entre sequências aleatórias ou não relacionadas, a partir da fração de alinhamentos
que tiverem uma pontuação menor que x.
17
2.4.3
Alinhamentos com lacunas
Um tipo similar de análise vale para alinhamentos de sequências que incluem
lacunas. Smith et al. (1985) alinharam um grande número de sequências
de DNA não relacionadas (DNA de vertebrados e DNA viral) de tamanhos diferentes (n e m), plotando um gráfico S (pontuação do alinhamento)
× log1/p (nm). O resultado foi uma reta da forma
Smédio = 2, 55(log1/p (mn)) − 8, 99
e desvio padrão constante σ = 1, 78. Esse resultado foi então usado para
calcular quantos desvios padrão estavam entre a média prevista e a variância
da pontuação dos alinhamentos locais para sequências não relacionadas. Se a
pontuação real do alinhamento excedesse o Smédio previsto por vários desvios
padrão, então a pontuação deveria ser significante.
2.4.4
A distribuição do valor extremo de Gumbel
Quando duas sequências são alinhadas localmente de modo ótimo, a significância da pontuação pode ser testada com base na distribuição esperada das pontuações de alinhamentos de duas sequências aleatórias de iguais
tamanhos e mesma composição das sequências alvo. As pontuações dos alinhamentos dessas sequências aleatórias seguem uma distribuição chamada
distribuição do valor extremo (ou de Gumbel), e não uma normal (como se
pensava).
Essa distribuição aparece porque é obtida a partir das maiores pontuações
(valores extremos) de um grande número de alinhamentos. A meta é avaliar
qual a probabilidade de que uma pontuação entre sequências aleatórias ou
não relacionadas alcance a pontuação entre duas sequências reais de interesse. Se essa probabilidade for baixa, o alinhamento é significante. A função
densidade de probabilidade da distribuição do valor extremo é dada a seguir:
Yev = exp[−x − e−x ]
Ela possui média µ = γ ≈ 0, 577 (a constante de Euler-Mascheroni) e
variância σ 2 = π 2 /6 ≈ 1, 6. A probabilidade de que uma pontuação S seja
menor que y é dada por
P (S < y) =
Zy
Yev dx
−∞
18
=
Zy
exp[−x − e−x ] dx
−∞
= exp(−e−x )|y−∞
= exp(−e−y ) − lim exp(−e−t )
t→−∞
= exp(−e−y ) − 0
= exp(−e−y )
e portanto temos
P (S ≥ y) = 1 − P (S < y) = 1 − exp(−e−y )
Alterando a equação acima para acomodar valores extremos como sendo
pontuações de alinhamentos de sequências, obtemos
P (S ≥ x) = 1 − exp(−e−λ(x−u) )
onde u é a moda da distribuição e λ é um parâmetro de escala. Esses
parâmetros podem ser estimados a partir da média e do desvio padrão da
distribuição de Gumbel (método dos momentos), como segue:
√
λ = π/(σ 6) ≈ 1, 2828/σ
U = x − γ/λ ≈ x − 0, 45σ
Pontuações z podem ser calculadas para cada valor extremo x, onde z =
(x − m)/σ é o número de desvios padrão a partir da média. A equação para
P (S ≥ x) pode ser reescrita para usá-las:
P (Z > z) = 1 − exp(−e−1,2858z−0,5772 )
Para alinhamentos que não incluem lacunas, u e λ podem ser calculados
a partir da matriz de pontuação, utilizando as equações
X
pi pj esij λ = 1
u = (ln Kmn)/λ
onde pi e pj são as representações relativas dos resíduos i e j nas sequências, sij é a pontuação para o casamento de i com j, m e n são os tamanhos
das sequências e K é uma constante que pode ser calculada a partir de pi e
sij . Atualizando a equação para P (S ≥ x), obtemos
P (S ≥ x) = 1−exp(−e−λ(x−u) ) = 1−exp(−e−λ(x−(ln Kmn)/λ) ) = 1−exp(−Kmne−λx )
19
Para facilitar alguns cálculos, adotemos a normalização S 0 = λS−ln Kmn,
correspondente a u = 0 e λ = 1. Assim, temos que
P (S 0 ≥ x) = 1 − exp(−e−x )
Para x > 2, podem ser usadas as aproximações
P (S ≥ x) ≈ Kmne−λx
P (S 0 ≥ x) ≈ e−x
2.4.5
Determinação da significância da pontuação de um alinhamento
Suponhamos que duas sequências proteicas de aproximadamente 250 aminoácidos cada tenham sido alinhadas localmente usando a matriz PAM250 e
uma penalidade alta para lacunas (para omiti-las do alinhamento), e o alinhamento resultante (com pontuação de 75) é
FWLEVEGNSMTAPTG
FWLDVQGDSMTAPAG
Altschul e Gish (1996) deram estimativas de K = 0, 09 e λ = 0, 229 para a
matriz PAM250, uma distribuição típica para aminoácidos e alta penalidade
para as lacunas. Daí, temos
S 0 = λS − ln Kmn = 0, 229 × 75 − ln(0, 09 × 250 × 250) = 8, 55 bits
P (S 0 ≥ 8, 55) = 1 − exp(−e−8,55 ) = 1, 9 × 10−4
Portanto, a probabilidade de que um alinhamento entre duas sequências
aleatórias (utilizando os mesmos parâmetros) consiga uma pontuação maior
ou igual a 75 é 1, 9 × 10−4 , o que faz o alinhamento ser significante.
2.4.6
A importância do tipo de matriz de pontuação para análises
estatísticas
Usar uma matriz do logaritmo das chances (com as PAMs ou BLOSUMs) em
unidades de bit simplifica a estimação da significância de um alinhamento.
Tais matrizes também são úteis para encontrar alinhamentos locais porque
ela inclui valores positivos e negativos. Outra importante característica é que
essa é a forma ótima para avaliar a significância estatística das pontuações
de alinhamentos.
20
Um dos parâmetros importantes das matrizes de pontuação é o valor
esperado de um par médio de aminoácidos, dado pela seguinte equação:
E=
20 X
i
X
pi pj sij
i=1 j=1
onde sij é a pontuação do par de aminoácidos i e j e pi e pj são suas taxas
de ocorrência. Esse valor deve ser negativo se a pontuação do alinhamento
que use a matriz for usada para testes estatísticos, pois caso contrário (para
qualquer par de sequências alinhadas) as pontuações irão aumentar (com o
aumento do tamanho das sequências) mais rápido do que o logaritmo do
tamanho das sequências. Os valores esperados das matrizes do logaritmo das
chances como PAM, BLOSUM, JTT, JO93 e PET91 satisfazem esse requisito
estatístico.
2.4.7
Significância de alinhamentos locais com lacunas
Para duas sequências aleatórias ou não relacionadas de tamanhos n e m,
prediz-se que a pontuação (x) do alinhamento ótimo seja proporcional ao
logaritmo do produto de seus tamanhos (x ≈ log2 (nm)). Na comparação de
uma sequência (a consulta) de tamanho m a uma sequência de um banco de
dados de tamanho n, m é constante e a pontuação prevista deve crescer linearmente com log(n). Essa relação foi encontrada em vários estudos sobre a
distribuição da pontuação de alinhamentos locais ótimas que incluíam penalidades para as lacunas. Portanto, os mesmos métodos estatísticos descritos
para avaliar a significância de alinhamentos sem lacunas pode também ser
usada para alinhamentos com lacunas.
2.4.8
Métodos para calcular os parâmetros da distribuição do
valor extremo
Na análise de Altschul e Gish (1996), 10000 sequências aleatórias de aminoácidos de tamanhos variáveis foram alinhadas usando o algoritmo de SmithWaterman e combinações apropriadas de matrizes de pontuação e penalidades para as lacunas. As pontuações encontradas seguiram a mesma distribuição do valor extremo previsto pela teoria estatística subjacente. Os
valores de K e λ foram estimados para cada combinação pelo ajuste dos
dados à distribuição prevista do valor extremo.
Porém, deve-se ter cuidado no uso desses parâmetros. Em primeiro lugar,
eles foram gerados pelo alinhamento de sequências aleatórias supondo uma
distribuição de aminoácidos em particular, o que pode não ser um modelo
apropriado para algumas proteínas. Sem segundo lugar, a precisão de λ e
21
de K não pode ser estimada facilmente. Por último, para custos nas lacunas
que resultam numa entropia H < 0, 15 o tamanho esperado do alinhamento
ótimo é uma fração significante do tamanho das sequências, o que produz
uma fonte de erros chamada de efeito terminal. Quando esse efeito ocorre,
alinhamentos que começaram perto dos terminais das sequências podem não
ser completados. Se o tamanho esperado não for subtraído do tamanho da
sequência antes da estimação de λ, o parâmetro poderá ser superestimado.
Um dos programas comumente usados para busca por similaridade em
banco de dados é o BLAST. Ele calcula a significância estatística das maiores
pontuações entre sequências similares, mas de um modo um tanto quanto
diferente. O BLAST usa os valores de K e λ encontrados a partir do alinhamento de sequências aleatórias e a equação já apresentada
P (S ≥ x) = 1 − exp(−Kmne−λx )
, onde n e m são encurtados para compensar a incapacidade de alinhar
os terminais das sequências.
2.4.9
A significância estatística de pontuações de alinhamentos
individuais entre sequências e a significância de pontuações
encontradas em uma busca em um banco de dados são calculados de forma diferente
Numa busca em um banco de dados utilizando uma sequência de consulta,
uma nova comparação é feita para cada sequência no banco. Como exemplo, o
BLAST calcula os parâmetros estatísticos baseados na matriz de pontuação e
na composição das sequências. Os parâmetros são então usados para calcular
a probabilidade de encontrar padrões conservados por alinhamento casual de
sequências não relacionadas.
A probabilidade de não observar (num banco de dados de D sequências)
alinhamentos com pontuações maiores do que s (sendo s a média das maiores
pontuações possíveis para alinhamentos locais) é e−Ds , e a de observar pelo
menos um com pontuação s é P ≈ 1 − e−Ds . Para os valores P de interesse
(P < 0, 1), temos P ≈ Ds. Portanto, quanto maiores forem o banco de
dados e a média das maiores pontuações possíveis, menor será a significância
do alinhamento.
22
2.5
2.5.1
Alinhamento de sequências e estimação da distância evolutiva por métodos estatísticos bayesianos
Introdução à estatística bayesiana
Métodos estatísticos bayesianos diferem dos outros devido ao uso de probabilidades condicionais. Suponhamos que o evento A seja composto apenas
pelos eventos disjuntos A1 e A2, ocorrendo algo análogo para o evento B
e seus subeventos B1 e B2. Esses subeventos podem (por exemplo) corresponder aos estados alélicos dos genes A e B. Temos então que P (B) =
P (B1) + P (B2) = 1 e P (A) = P (A1) + P (A2) = 1.
Suponhamos que P (B1) = 0, 3 (o que implica P (B2) = 1−P (B1) = 0, 7),
P (A1|B1) = 0, 8, P (A2|B2) = 0, 7, e desejamos saber as probabilidades
conjuntas de todas as combinações de subeventos de A com subeventos de
B. Primeiro notemos que P (A1|B1) + P (A2|B1) = 1 (pois B1 = (A1 ∩
B1) ∪ (A2 ∩ B1) e os eventos A1 ∩ B1 e A2 ∩ B1 são disjuntos) e portanto
P (A2|B1) = 1 − 0, 8 = 0, 2. Analogamente, P (A1|B2) = 1 − 0, 7 = 0, 3 . As
probabilidades restantes podem ser calculadas pelo teorema de Bayes (válido
para quaisquer eventos A1 e B1), dado a seguir:
P (A1 ∩ B1) = P (B1|A1)P (A1) = P (A1|B1)P (B1)
Pelo teorema, temos que P (A1 ∩ B1) = P (B1)P (A1|B1) = 0, 3.0, 8 =
0, 24 e P (A2 ∩ B2) = P (B2)P (A2|B2) = 0, 7.0, 7 = 0, 49. As outras
duas probabilidades conjuntas podem ser calculadas por subtração, ou seja:
P (A2 ∩ B1) = P (B1) − P (A1 ∩ B1) = 0, 3 − 0, 24 = 0, 06 e P (A1 ∩ B2) =
P (B2) − P (A2 ∩ B2) = 0, 7 − 0, 49 = 0, 21. O resultado final está na tabela
em seguida.
A1
A2
B1 0,24 0,06
B2 0.21 0,49
0,45 0,55
0,3
0,7
1
Tabela 1: Tabela de probabilidades marginais e conjuntas para A e B.
Podemos desenvolver a fórmula da probabilidade condicional usando o
teorema de Bayes para encontrar a probabilidade posteriores P(B2|A1) e o
fato de que A1 = (A1 ∩ B1) ∪ (A1 ∩ B2) da seguinte forma:
P (B2|A1) = P (A1 ∩ B2)/P (A1)
23
= P (B2)P (A1|B2)/P (A1)
= P (B2)P (A1|B2)/[P (B1)P (A1|B1) + P (B2)P (A1|B2)]
Portanto, temos P (B2|A1) = 0, 7.0, 3/[0, 3.0, 8 + 0, 7.0, 3] = 0, 467 e portanto P (B1|A1) = 1 − 0, 467 = 0, 533. Assim, baseado nas probabilidades
a priori e na informação adicional, o teorema de Bayes permite o cálculo de
probabilidades a posteriori (não disponíveis inicialmente).
2.5.2
Aplicação da estatística bayesiana à análise de sequências
Na análise de sequências, a pontuação de um alinhamento local (s) entre
duas sequências varia com a escolha da matriz de pontuação e do sistema de
penalidades para lacunas. Até então, esses parâmetros foram escolhidos com
base no desempenho de identificação de sequências relacionadas.
A aplicação da estatística bayesiana ao problema permite que o efeito
de informação a priori (como a matriz de substituição escolhida) na probabilidade de que duas sequências sejam homólogas possa ser examinado. O
método fornece uma distribuição de probabilidades posteriores de todos os alinhamentos levando em conta todos os sistemas de pontuação. Dessa forma,
os alinhamentos mais prováveis e suas probabilidades podem ser determinados. Esse método contorna a necessidade de escolher uma matriz de pontuação e uma penalidade para lacunas em particular porque uma faixa de
escolhas disponíveis pode ser testada.
2.5.3
Distância evolutiva bayesiana
Agarwal e States (1996) aplicaram métodos bayesianos para obter a melhor
estimativa para a distância evolutiva entre duas sequências de DNA. Os exemplos usados foram de sequências de mesmo comprimento que contém certo
número de casamentos sem sucesso.
Uma abordagem descrita previamente foi avaliar as pontuações de alinhamentos usando várias matrizes diferentes e então identificar qual a matriz
que resultava na maior pontuação. A abordagem bayesiana continua essa
análise para descobrir a probabilidade do alinhamento em função de cada
distância evolutiva representada por uma matriz PAM diferente. Sejam x
a distância evolutiva representada pela matriz PAMN dividida por 100, k
o número de casamentos sem sucesso numa sequência de comprimento n,
P (x|k) a probabilidade de que uma sequência com k casamentos sem sucesso
esteja a uma distância x, P (k|x) o logaritmo da pontuação das chances para
a sequência com k casamentos sem sucesso na matriz PAM100x de DNA e
P (x) a probabilidade a priori da distância x (normalmente igual a 1 dividido
pelo número de matrizes). Logo, pelo teorema de Bayes obtemos
24
P (x|k) = P (k|x)P (x)/P (k)
X
= P (k|x)P (x)/
P (k|x)P (x)
x
O denominador é a soma é a soma da pontuação das chances sobre x (que
varia de 0, 01 a 4, representando as distâncias de P AM 1 a P AM 400 - ≈ 10
milhões a 4 bilhões de anos) vezes a probabilidade a priori de cada valor de
x. Essa soma representa a área sob a curva de probabilidade e tem o efeito
de normalizá-la para cada matriz de pontuação usada. O formato da curva
de probabilidade indica como P (x|k) varia com x.
Uma das dificuldades com tais estimações é que a estimativa depende da
suposição de que a taxa de mutação em sequências é constante com o tempo
(a hipótese do relógio molecular) e é a mesma para todos os nucleotídeos.
Outra dificuldade está em decidir qual o comprimento da sequência que foi
duplicada. Em genomas, a presença de repetições pode ser revelada por
extensas de posições que casam dispersas entre regiões que ao casam. Porém,
conforme a frequência dos casamentos sem sucesso aumenta, fica mais difícil
determinar a extensão da região de repetição.
Uma desvantagem da abordagem bayesiana é o requisito de um modelo mutacional específico, enquanto outros métodos (como o da máxima
verossimilhança) podem estimar tanto a distância quanto o melhor modelo mutacional (embora o método bayesiano seja computacionalmente mais
eficiente).
2.5.4
Algoritmos bayesianos para alinhamento de sequências
Zhu et al. (1998) desenvolveram um programa chamado alinhador de blocos
de Bayes, no qual duas sequências são comparadas para achar os blocos
(regiões sem lacunas com as maiores pontuações possíveis). Em seguida,
esses blocos são unidos de várias formas para produzir alinhamentos. Em
vez de usar uma dada matriz de substituição e um sistema de pontuação
para lacunas, uma abordagem bayesiana é utilizada. Dado um conjunto
de matrizes de substituição e número esperado de blocos no alinhamento
como informação a priori, o método fornece distribuições de probabilidades
posteriores de alinhamentos.
Outro tipo de análise que pode ser feita com o alinhador de blocos de
Bayes é sobre a probabilidade de alinhamentos. Nesse método, todos os
alinhamentos possíveis são considerados para um número razoável de blocos
e um conjunto de matrizes de substituição, e são devolvidas as probabilidades
de vários alinhamentos.
25
Uma das principais críticas ao método é a predição de falsos negativos em
alinhamentos estruturais, provavelmente por causa das condições relaxadas
para a pontuação de alinhamentos no uso de informação a priori irrestrita.
Portanto, a escolha prudente é usar o alinhador de Bayes como uma ferramenta entre várias para alinhar sequências.
26
Download