Resumo - capítulo 3 - Alinhamento de pares de sequências Pedro Ivo Gomes de Faria Sumário 1 Introdução 1.1 Definição de alinhamento de sequências . . . . . . . . . . 1.1.1 Alinhamento global . . . . . . . . . . . . . . . . . 1.1.2 Alinhamento local . . . . . . . . . . . . . . . . . . 1.2 Significância do alinhamento de sequências . . . . . . . . 1.3 Visão geral dos métodos para alinhamento de sequências 1.3.1 Alinhamento de pares de sequências . . . . . . . . 1.3.2 Alinhamento múltiplo de sequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 3 3 4 4 4 2 Métodos 5 2.1 Comparação de sequências por matrizes de pontos . . . . . . . 5 2.1.1 Comparação de sequências duas a duas . . . . . . . . . 5 2.1.2 Repetições de sequências . . . . . . . . . . . . . . . . . 5 2.1.3 Repetições de um único símbolo da sequência . . . . . 6 2.2 Algoritmo de programação dinâmica para o alinhamento de sequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2.1 Descrição do algoritmo . . . . . . . . . . . . . . . . . . 6 2.2.2 Descrição formal do algoritmo de programação dinâmica 7 2.2.3 Programação dinâmica pode prover alinhamentos de sequências locais ou globais . . . . . . . . . . . . . . . 7 2.2.4 Um programa de alinhamento local sempre produz um alinhamento local e um programa de alinhamento global sempre produz um alinhamento global? . . . . . . . . . 8 2.2.5 Desenvolvimento adicional e uso do algoritmo de programação dinâmica para alinhamentos de sequências . 9 2.3 Uso de matrizes de pontuação e penalidades para lacunas em alinhamentos de sequências . . . . . . . . . . . . . . . . . . . . 9 2.3.1 Matrizes de substituição de aminoácidos . . . . . . . . 9 1 2.3.2 2.3.3 2.3.4 2.4 2.5 Matrizes de pontuação de ácidos nucleicos PAM . . . . Penalidades para lacunas . . . . . . . . . . . . . . . . . Combinações ótimas de matrizes de pontuação e penalidades para lacunas na descoberta de proteínas relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . Avaliando a significância de alinhamentos de sequência . . . . 2.4.1 Significância de alinhamentos globais . . . . . . . . . . 2.4.2 Modelando um alinhamento de sequências de DNA aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Alinhamentos com lacunas . . . . . . . . . . . . . . . . 2.4.4 A distribuição do valor extremo de Gumbel . . . . . . 2.4.5 Determinação da significância da pontuação de um alinhamento . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.6 A importância do tipo de matriz de pontuação para análises estatísticas . . . . . . . . . . . . . . . . . . . . 2.4.7 Significância de alinhamentos locais com lacunas . . . . 2.4.8 Métodos para calcular os parâmetros da distribuição do valor extremo . . . . . . . . . . . . . . . . . . . . . 2.4.9 A significância estatística de pontuações de alinhamentos individuais entre sequências e a significância de pontuações encontradas em uma busca em um banco de dados são calculados de forma diferente . . . . . . . Alinhamento de sequências e estimação da distância evolutiva por métodos estatísticos bayesianos . . . . . . . . . . . . . . . 2.5.1 Introdução à estatística bayesiana . . . . . . . . . . . . 2.5.2 Aplicação da estatística bayesiana à análise de sequências 2.5.3 Distância evolutiva bayesiana . . . . . . . . . . . . . . 2.5.4 Algoritmos bayesianos para alinhamento de sequências 2 12 13 15 15 15 16 18 18 20 20 21 21 22 23 23 24 24 25 1 1.1 Introdução Definição de alinhamento de sequências O alinhamento de sequências é a comparação de duas ou mais sequências buscando uma série de caracteres individuais ou padrões de caracteres que estejam na mesma ordem nas duas sequências. Caracteres idênticos ou similares são dispostos na mesma coluna, enquanto os não idênticos podem ser colocados na mesma coluna (casamento sem êxito) ou opostos a uma lacuna na outra sequência. 1.1.1 Alinhamento global No alinhamento global é feita uma tentativa de alinhar toda a sequência, usando quantos caracteres forem possíveis, até ambos os terminais de cada sequência. Sequências similares e aproximadamente do mesmo tamanho são candidatas apropriadas para o alinhamento global. 1.1.2 Alinhamento local No alinhamento local, regiões das sequências com a maior densidade de casamentos são alinhadas, gerando uma ou mais “ilhas” de casamentos ou subalinhamentos. O alinhamento para nas extremidades dessas regiões, e sua descoberta possui maior prioridade do que a extensão do alinhamento para incluir pares de aminoácidos vizinhos. É apropriado para sequências com regiões de similaridade descontínuas, que difiram em tamanho ou que compartilhem um domínio ou região conservada. 1.2 Significância do alinhamento de sequências O alinhamento de sequências é útil para descobrir informação funcional, estrutural e evolucionária em sequências biológicas. Para tanto, é necessário descobrir o alinhamento “ótimo”. Sequências muito parecidas (similares) provavelmente têm a mesma função e, se forem de organismos diferentes, são definidas como homólogas caso tenha existido uma sequência que seja ancestral de ambas. A similaridade de sequências pode ser um indício de várias possíveis relações de ancestralidade, inclusive a ausência de uma origem comum. Por exemplo, pensa-se que a evolução gênica ocorra após a duplicação em tandem de um mesmo gene, seguida por mutações nas cópias e evolução por vias separadas (especiação). 3 Outra complicação no rastreamento da origem de sequências similares é a de que genes individuais podem não compartilhar a mesma origem do resto do genoma em que estão. Eventos genéticos como simbioses e transduções induzidas por vírus podem causar transferência horizontal de material genético entre organismos não-relacionados (em tais casos, as histórias evolutivas do organismo e da sequência transferida serão diferentes). 1.3 1.3.1 Visão geral dos métodos para alinhamento de sequências Alinhamento de pares de sequências O alinhamento de duas sequências pode ser feito por análise de matrizes de pontos, programação dinâmica ou métodos de palavras ou de k-tuplas. A análise de matrizes de pontos mostra possíveis alinhamentos como diagonais na matriz, e pode facilmente revelar a presença de inserções, deleções ou repetições que são mais difíceis de encontrar por outros métodos mais automatizados. Sua principal limitação é a de não mostrar um alinhamento de fato. Na programação dinâmica, um alinhamento é gerado começando nos terminais das duas sequências e é estendido tentando casar todos os pares possíveis de caracteres entre as sequências (de acordo com algum esquema de pontuação). Isso gera uma matriz numérica, cujo maior conjunto de pontuações em sequência define um alinhamento ótimo. O método sempre encontra um alinhamento ótimo (algo provado matematicamente) para um dado conjunto de variáveis definidas pelo usuário (incluindo a matriz de pontuação e as penalidades para as lacunas). Os métodos de palavras ou de k-tuplas (usados pelo BLAST ou pelo FASTA) procuram por pequenas regiões idênticas das sequências (palavras ou k-tuplas) e as unem em um alinhamento pelo método de programação dinâmica. Esses métodos são rápidos o suficiente para fazer uma busca num banco de dados inteiro pela sequência que melhor se alinhe com a consulta. 1.3.2 Alinhamento múltiplo de sequências A partir de um alinhamento múltiplo de três ou mais sequências proteicas, os resíduos altamente conservados que definem domínios estruturais e funcionais em famílias de proteínas podem ser identificados. Apesar do grande valor de um alinhamento múltiplo, a sua obtenção é um problema difícil computacionalmente. 4 2 2.1 Métodos Comparação de sequências por matrizes de pontos Uma análise de uma matriz de pontos é basicamente um método de comparação de duas sequências para procurar por possíveis alinhamentos entre as mesmas. O método também é usado para encontrar repetições diretas ou inversas (por exemplo, 50 -GACTGC . . . GCAGTC-30 ) em sequências de proteínas e de DNA, além de predizer regiões no RNA que são autocomplementares (e, portanto, possuem o potencial para formar uma estrutura secundária). 2.1.1 Comparação de sequências duas a duas No método de matrizes de pontos para comparação de sequências, uma sequência (A) é listada acima da primeira linha da matriz e a outra sequência (B) é listada ao lado da primeira coluna. Começando com o primeiro caractere de B, move-se pela primeira linha colocando um ponto nas colunas cujo caractere correspondente em A seja igual ao caractere de B analisado (nesse caso, o primeiro). Faz-se o procedimento análogo com segundo caractere de B (colocando os pontos na segunda linha da matriz) e assim por diante. Regiões de similaridade são indicadas por segmentos diagonais, enquanto pontos isolados representam casamentos aleatórios que provavelmente não são significativos. A detecção das regiões de casamentos pode ser melhorada filtrando os casamentos aleatórios, utilizando uma “janela deslizante” (de tamanho prédefinido). A janela compara posições adjacentes nas duas sequências ao mesmo tempo, imprimindo um ponto na página apenas se um número mínimo de casamentos (a estringência) ocorrer. Para sequências de DNA deve-se usar janelas extensas (de comprimento 7 ou 11) e estringência elevada (igual a 11 ou 15), pois como existem apenas 4 nucleotídeos é alto o número de casamentos aleatórios. Por outro lado, para proteínas costuma-se utilizar janelas curtas (de comprimento 1) e baixa estringência (igual a 1), pois existem basicamente 20 aminoácidos diferentes (o que reduz bastante os casamentos aleatórios). 2.1.2 Repetições de sequências A análise de matrizes de pontos também pode servir para encontrar repetições diretas e inversas em sequências (incluindo as de cromossomos inteiros), analisando uma determinada sequência em oposição a ela mesma. Repetições 5 diretas também podem ser achadas fazendo alinhamento de sequências por métodos de programação dinâmica. 2.1.3 Repetições de um único símbolo da sequência A análise de matrizes de pontos também pode revelar a presença de repetições de um único caractere, que são responsáveis por criar alinhamentos com pontuações artificialmente altas (um problema similar acontece nas regiões com baixa alternância de caracteres, chamadas regiões de baixa complexidade). Essas repetições ficam aparentes na matriz de pontos de uma proteína em oposição a ela mesma através de segmentos verticais de pontos que se fundem a padrões retangulares ou quadriculares. 2.2 Algoritmo de programação dinâmica para o alinhamento de sequências O método de programação dinâmica compara todos os pares de caracteres de duas sequências e gera um alinhamento ótimo (com o maior número possível casamentos entre caracteres idênticos ou relacionados), que provê informações úteis aos biólogos para predições funcionais, estruturais e evolutivas. Programas de alinhamentos globais são baseados no algoritmo de NeedlemanWunsch, enquanto os de alinhamentos locais são baseados no de SmithWaterman. O alinhamento receberá uma pontuação, e existem métodos para calcular se ele é ou não estatisticamente significante. Na hora de fazer um alinhamento de sequências, é importante ter em mente o objetivo da análise, pois esse irá influenciá-la. Várias decisões devem ser feitas, incluindo o tipo de programa, de alinhamento (local ou global), a matriz de pontuação e as penalidades para as lacunas. 2.2.1 Descrição do algoritmo O alinhamento de duas sequências sem lacunas requer um algoritmo que faz um número de comparações proporcional ao quadrado do comprimento médio das sequências. Para alinhamentos que permitem lacunas em posições arbitrárias, métodos de comparação direta exigem um número astronômico de comparações (enquanto algoritmos de programação dinâmica ainda exigem proporcional ao produto do comprimento das sequências). A qualidade do alinhamento entre duas sequências é calculada por um sistema de pontuação que favorece o casamento de caracteres idênticos ou relacionados e penaliza lacunas ou caracteres pouco relacionados. Essas pontuações são determinadas a partir das seguintes probabilidades: 6 1. de que um particular caractere seja encontrado em alinhamentos de sequências relacionadas; 2. de que um mesmo par esteja alinhado ao acaso nas sequências (pois alguns resíduos podem ser abundantes nas sequências e outros raros); 3. de que a inserção de uma lacuna de um ou mais resíduos em uma das sequências (forçando o alinhamento de cada componente do par com outro caractere) seria uma melhor escolha. A proporção das duas primeiras probabilidades é comumente fornecida por uma matriz de substituição (como a BLOSUM e a PAM), em que cada entrada dá a taxa (pontuação das chances) da frequência observada de substituição de pares de resíduos de sequências relacionadas em relação à esperada por acaso. Essas taxas são transformadas em seus logaritmos (pontuação do logaritmo das chances), de modo que pontuações de pares diferentes possam ser adicionadas para representar a chance global de um alinhamento ter acontecido ao acaso ou não. 2.2.2 Descrição formal do algoritmo de programação dinâmica Sejam a = a1 a2 . . . an e b = b1 b2 . . . bn duas sequências, Sij = S(a1 a2 . . . ai , b1 b2 . . . bj ) a pontuação do alinhamento ótimo entre a1 a2 . . . ai e b1 b2 . . . bj , s(ai bj ) a pontuação por alinhar ai com bj , wx a penalidade para uma lacuna de comprimento x na sequência a e wy a penalidade para uma lacuna de comprimento y na sequência b. Logo, temos que Sij = max Si−1,j−1 + s(ai bj ); max(Si−x,j − wx ); x≥1 max(Si,j−y y≥1 − wy ) Notando que S11 = s(a1 b1 ), temos uma descrição quase completa do algoritmo. Quando todas as posições da matriz (todos os Sij ) forem calculados, a pontuação do alinhamento ótimo entre a e b estará em Snn . Para determinar qual é o alinhamento ótimo a partir da matriz S, uma segunda matriz T (a de rastreamento reverso) é usada. Cada entrada Tij da matriz armazena qual entrada da matriz S contribuiu para a pontuação ótima armazenada em Sij . 2.2.3 Programação dinâmica pode prover alinhamentos de sequências locais ou globais Alinhamento global: algoritmo de Needleman-Wunsch 7 O método de programação dinâmica descrito acima fornece um alinhamento global de sequências, como descrito por Needleman e Wunsch (1970). O algoritmo irá maximizar o número de casamentos entre as sequências por toda a extensão das duas. Alinhamento local: algoritmo de Smith-Waterman Uma modificação do algoritmo de Needleman-Wunsch pode encontrar alinhamentos locais de sequências, que normalmente são mais significativos do que os globais por incluir padrões que estão conservados nas sequências. Sendo Hij = H(a1 a2 . . . ai , b1 b2 . . . bj ) a pontuação do alinhamento ótimo entre a1 a2 . . . ai e b1 b2 . . . bj , temos que Hij = max Hi−1,j−1 + s(ai bj ); max(Hi−x,j − wx ); x≥1 max(Hi,j−y y≥1 − wy ); 0 As principais diferenças para o cálculo da matriz de pontuação são: 1. o sistema deve incluir pontuações negativas para casamentos sem sucesso 2. quando um valor da matriz tornar-se negativo ele deve receber 0, o que tem o efeito de terminar qualquer alinhamento até aquele ponto. 2.2.4 Um programa de alinhamento local sempre produz um alinhamento local e um programa de alinhamento global sempre produz um alinhamento global? Tanto o algoritmo de Smith-Waterman pode devolver um alinhamento global quanto o algoritmo de Needleman-Wunsch pode devolver um alinhamento local, dependendo do esquema de pontuação utilizado. Se usarmos uma matriz que atribua (em média) uma pontuação positiva para cada posição alinhada, combinada com uma penalidade para lacunas pequena o suficiente para permitir a extensão do alinhamento por regiões com poucos casamentos, teremos um alinhamento global. Inversamente, com uma pontuação (em média) negativa para casamentos sem sucesso e uma penalidade para lacunas grande o suficiente para prevenir a extensão do alinhamento por regiões com poucos casamentos, teremos um alinhamento local. Para alinhamentos de sequências aleatórias, a pontuação de um alinhamento global cresce proporcionalmente ao tamanho das sequências, en- 8 quanto a pontuação de um alinhamento local cresce proporcionalmente ao logaritmo do produto dos tamanhos da sequências. 2.2.5 Desenvolvimento adicional e uso do algoritmo de programação dinâmica para alinhamentos de sequências Uso de pontuações de distância para o alinhamento de sequências Um método alternativo para a pontuação de alinhamentos baseia-se em quantas mudanças são necessárias para transformar uma sequência em outra. Usando essa medida, quanto maior for a distância entre as sequências, maior o tempo evolutivo passado desde que as sequências divergiram de seu ancestral comum. Portanto, pontuações de distância fornecem um método mais natural biologicamente do que as pontuações de similaridade. Melhora na complexidade de tempo e de espaço do algoritmo de programação dinâmica Apesar de os algoritmos originais exigirem algo como número de passos entre n × m e n × m2 (onde n é o tamanho da sequência menor) e alocação de matrizes de tamanho n × m, várias melhorias já foram propostas. Algumas delas são: 1. decréscimo no número de passos do algoritmo 2. redução da complexidade de memória para uma função linear no comprimento das sequências 3. habilidade para encontrar alinhamentos quase ótimos e alinhar sequências longas 4. habilidade para encontrar os alinhamentos alternativos de melhor pontuação que não alinhem as mesmas posições das sequências 2.3 2.3.1 Uso de matrizes de pontuação e penalidades para lacunas em alinhamentos de sequências Matrizes de substituição de aminoácidos Saber quais são os tipos de substituição de aminoácidos e com que frequência ocorrem em um grande número de proteínas pode ajudar na predição de alinhamentos para qualquer conjunto de sequências proteicas. Se sequências proteicas relacionadas são similares, elas são fáceis de alinhar e, portanto, é possível determinar prontamente as mudanças ocorridas nos aminoácidos. 9 Em matrizes de substituição de aminoácidos, cada elemento possui uma pontuação que reflete com que frequência o aminoácido na linha estaria pareado com o da coluna num alinhamento de sequências proteicas relacionadas. Supõe-se que a probabilidade de transformar A em B é mesma de transformar B em A, pois o aminoácido ancestral na árvore filogenética normalmente não é conhecido. Matrizes de substituição de aminoácidos de Dayhoff (ou matrizes PAM) Essa família de matrizes lista a probabilidade de mudança de um aminoácido pra outro em sequências proteicas homólogas durante a evolução. Até o momento não existe outro tipo de matriz de pontuação baseada em princípios evolutivos sólidos como as matrizes PAM são. Apesar de serem originalmente construídas a partir de um conjunto de dados relativamente pequeno, as matrizes PAM ainda são ferramentas úteis para o alinhamento de sequências. A matriz P AM 1, por exemplo, fornece a probabilidade de substituição de um aminoácido por outro após um intervalo evolutivo de 1 PAM (≈ 10 milhões de anos). Na construção das matrizes PAM, é feita a suposição de que a mudança de um aminoácido em um sítio particular é independente dos eventos mutacionais que ocorreram anteriormente no mesmo sítio. Portanto, substituições de aminoácidos numa sequência proteica são vistos como uma cadeia de Markov, em que mudanças de um estado para outro não dependem do histórico do estado. Devido a isso, a matriz PAM1 pode ser multiplicada por ela mesma N vezes (notação: P AM N = (P AM 1)N para N ≥ 1) para obtermos matrizes de transição que permitam comparar sequências com níveis cada vez mais baixos de similaridade. Por exemplo, as matrizes P AM 120, P AM 80 e P AM 60 devem ser usadas para alinhar sequências que são 40%, 50% e 60% similares, respectivamente. Matrizes PAM normalmente são convertidas para outra forma, chamada de matriz do logaritmo das chances. A pontuação das chances é a razão entre a probabilidade de que a mudança represente uma variação evolutiva autêntica naquele sítio e a probabilidade de que a mudança tenha ocorrido devido à variação aleatória (sem significado biológico), sendo o logaritmo das chances igual ao logaritmo desse valor. Escolhendo a melhor matriz PAM para detecção de similaridade entre sequências Cada matriz PAM é apropriada para comparar proteínas que tenham certo grau de similaridade mas, inicialmente, a similaridade entre as sequên10 cias pode não ser conhecida. Apesar disso, a pontuação de um alinhamento local sem lacunas é máxima quando a matriz PAM correta (que corresponde ao grau de similaridade entre as sequências) é utilizada. Além disso, a habilidade das matrizes PAM de discriminar alinhamentos locais reais (biologicamente significantes) de alinhamentos ao acaso (a entropia relativa H) também varia (em geral - mantendo constantes os outros fatores -, quanto maior o valor de H, maior a capacidade de discriminação). Para efetuar o seu cálculo, a pontuação para cada par de aminoácidos sij (em unidades de log2 , chamadas bits) é multiplicada pela probabilidade de ocorrência do par no conjunto de dados original (qij ). Essa pontuação, somada sobre todos os aminoácidos, produz o valor de H: H= 20 X i X qij × sij i=1 j=1 Análise do modelo de evolução proteica de Dayhoff Várias ressalvas já foram feitas em relação às suposições que fundamentam as matrizes PAM. Apesar de supor que todas as posições são igualmente mutáveis, é bem conhecido da genética molecular que existem “sítios quentes” de mutação, assim como variações na mutabilidade de diferentes sítios de aminoácidos nas proteínas. Além disso, quanto mais conservado é um aminoácido de proteínas similares em diferentes espécies, maior é a sua importância para a estrutura e função da proteína. Portanto, vários fatores influenciam tanto a localização quanto os tipo de mudança que ocorrem em aminoácidos. Outra crítica é a análise circular que envolve a sua construção, já que os alinhamentos são usados para pontuar mudanças nos aminoácidos (registradas na matriz), que por sua vez são usados para produzir novos alinhamentos. Apesar disso, nenhum método para contornar completamente o problema foi desenvolvido, considerando qualquer tipo de análise de sequências. Uma última crítica baseia-se no fato de as matrizes terem sido construídas a partir de um conjunto relativamente pequeno de proteínas intimamente relacionadas. Em resposta a isso, o conjunto de dados de Dayhoff foi aumentado para incluir o banco de dados de proteínas de 1991. Matrizes de substituição de aminoácidos por blocos (BLOSUM) As matrizes de substituição BLOSUM (em particular a BLOSU M 62) são amplamente utilizadas para pontuar alinhamentos de sequências proteicas. Os valores da matriz são baseados em substituições de aminoácidos observadas num conjunto de ≈ 2000 padrões de aminoácidos conservados, 11 chamados de blocos. Esses blocos foram encontrados num banco de dados de sequências proteicas que representa mais de 500 famílias de proteínas, e agem como assinaturas dessas. A contagem de mudanças nos aminoácidos por blocos pode, porém, levar a uma super-representação das substituições que ocorrem nos membros mais intimamente relacionados de cada família. Para reduzir essa contribuição das sequências mais parecidas, elas foram agrupadas como uma sequência só antes da atribuição da pontuação aos blocos alinhados. Em seguida, foi tirada a média das substituições nessas sequências agrupadas. Padrões que eram 60% idênticos foram agrupados para fazer uma matriz de substituição chamada BLOSUM60, os que eram 80% idênticos fundamentaram a BLOSUM 80, e assim por diante. Como ocorre nas matrizes PAM, as BLOSUMs diferem no modo com que os pares de aminoácidos mais comuns são pontuados em relação aos menos comuns (e também diferem na habilidade de distinguir alinhamentos reais dos que ocorrem ao acaso). Comparação das matrizes PAM e BLOSUM O modelo PAM foi projetado para rastrear a origem evolutiva das proteínas, assumindo que as mutações ocorram por um processo de Markov. Ele foi baseado na predição das primeiras mudanças que ocorrem quando as proteínas divergem a partir de um ancestral comum. Já o modelo BLOSUM foi projetado para encontrar domínios conservados das proteínas, e não é baseado em um modelo evolutivo explícito. Ele foi construído a partir de famílias de proteínas relacionadas bioquimicamente, independentemente do grau de similaridade entre suas sequências. Outras matrizes de pontuação para aminoácidos Além das matrizes PAM e BLOSUM, várias outras matrizes de substituição de aminoácidos foram produzidas, variando de uma comparação simples de propriedades químicas de aminoácidos até uma análise complexa de substituições que ocorrem em domínios secundários de proteínas. Como a maioria delas alinha proteínas de acordo com características dos aminoácidos (e não de acordo com um modelo evolutivo), elas são mais apropriadas para descobrir relações funcionais e estruturais (e não para análise evolutiva). 2.3.2 Matrizes de pontuação de ácidos nucleicos PAM Do mesmo modo como existem matrizes de pontuação para alinhamentos de proteínas, matrizes de pontuação para alinhamentos de sequências de DNA também foram desenvolvidas. Ela pode incorporar símbolos de DNA ambíguos (como S - de strong - para denominar as bases C ou G, que fazem 12 3 ligações de hidrogênio entre si) e informações de análises mutacionais, que revelam que transições (substituições entre as purinas A e G ou entre as pirimidinas C e T) são mais prováveis que transversões (substituições entre purinas e pirimidinas). Como ocorre com as matrizes de aminoácidos, são produzidas matrizes do logaritmo das chances que representam a frequência de substituições esperada com distâncias evolutivas crescentes. Num alinhamento, a probabilidade sij de obter um casamento entre os nucleotídeos i e j, dividida pela probabilidade de alinhar i e j ao acaso é dada por sij = log(pi Mij /pi pj ) Onde Mij é o valor na matriz de mutação e pi e pj são as frequências de cada nucleotídeo (supostamente iguais a 0, 25). De modo análogo, matrizes que representem a distância evolutiva de n PAMs são deduzidas multiplicando a matriz PAM1 por si mesma n vezes. A entropia relativa (capacidade de distinguir alinhamentos reais dos aleatórios) para cada matriz (em unidades de bit) pode ser calculada a partir da equação (onde os sij também são expressos em unidades de bit) H= X pi pj sij 2sij i,j Como ocorre com as matrizes de pontuação para aminoácidos, a matriz usada deve ser a correspondente à porcentagem de similaridade entre as sequências. Por exemplo, para sequências que são 21% diferentes, a matriz da distância de 25 PAMs deve ser usada. Já que não é possível saber qual a porcentagem de similaridade entre duas sequências antes de fazer um alinhamento, é necessário fazer alguns alinhamentos como tentativas. 2.3.3 Penalidades para lacunas As penalidades para lacunas são necessárias para obter o melhor alinhamento possível entre duas sequências. Uma penalidade para a abertura de qualquer lacuna (g) e uma penalidade para cada elemento da lacuna (r) são comumente utilizada, sendo a pontuação total wx dada pela função de penalidade afim (onde x é o tamanho da lacuna) wx = g + rx Se a penalidade usada for muito grande em relação às pontuações da matriz de substituição, as lacunas nunca irão aparecer no alinhamento. Inversamente, se a penalidade for muito pequena em relação às pontuações da matriz, as lacunas irão aparecer em quase todo o alinhamento para maximizar o 13 número de casamentos. Felizmente, a maioria dos programas de alinhamento sugere penalidades apropriadas para uma dada matriz de pontuação na maioria das situações. Ainda, se um alinhamento for formulado em termos de distâncias em vez de similaridades, uma melhor interpretação biológica das lacunas é possível. Nesse caso, a distância é o número de mudanças necessárias para converter uma sequência em outra, e representa o número de mutações que ocorreu desde a separação dos genes durante a evolução (com uma substituição fornecendo uma pontuação +1, sendo a soma da distância com a pontuação de similaridade sempre igual a 1). Essa formulação satisfaz a desigualdade triangular, no sentido de que se d(x, y) é a distância entre x e y e a, b e c são três sequências quaisquer então d(a, b) + d(b, c) ≥ d(a, c) Penalidades para lacunas nos terminais dos alinhamentos Lacunas nos terminais de um alinhamento podem receber a mesma pontuação das lacunas internas ou, de modo alternativo, não receber penalidades (para sequências de homologia desconhecida ou tamanhos diferentes). Se as lacunas terminais não receberem penalidades, elas podem utilizadas de modo excessivo pelo algoritmo para aumentar o número de casamentos de caracteres internos. Efeitos da variação de penalidades para lacunas divergentes em pontuações de alinhamentos locais Vários efeitos podem ser observados a partir da variação e parâmetros para o alinhamento de sequências aleatórias de DNA e proteínas. Os principais são: 1. o uso de penalidades (para lacunas ou casamentos sem sucesso) que são maiores do que a pontuação para casamentos irá produzir alinhamentos locais; 2. quando a penalidade para um casamento sem sucesso for maior ou igual ao dobro da pontuação para um casamento, a penalidade da lacuna torna-se o parâmetro decisivo para o alinhamento; 3. quando a penalidade para um casamento sem sucesso for menor que o dobro da pontuação para uma lacuna, muitos alinhamentos irão depender das pontuações para as penalidades (para lacunas e casamentos sem sucesso). 14 2.3.4 Combinações ótimas de matrizes de pontuação e penalidades para lacunas na descoberta de proteínas relacionadas Os principais pontos sobre combinações de parâmetros para a busca de proteínas homólogas são os seguintes: 1. algumas matrizes (como a BLOSUM62, construída a partir de famílias de proteínas relacionadas) são superiores às outras (como a PAM250, construída por extrapolação) na busca de proteínas relacionadas; 2. penalidades para as lacunas ajustadas para produzir alinhamentos locais são mais apropriadas; 3. para identificar sequências relacionadas, a significância do alinhamento deve ser estimada. 2.4 Avaliando a significância de alinhamentos de sequência Um dos mais importantes avanços na análise de sequências foi o desenvolvimento de métodos para estimar a significância de um alinhamento de sequência. Uma das principais aplicações dos testes de significância é ajudar a decidir se um dado alinhamento seria realmente esperado entre sequências relacionadas ou se seria achado com igual probabilidade entre sequências não relacionadas. Inicialmente, a significância era estimada sob a suposição de que as pontuações dos alinhamentos seguiam uma distribuição normal. Porém, gerando sequências aleatoriamente por métodos Monte Carlo ou por embaralhamento de sequências, chegou-se à conclusão de que as pontuações dos alinhamentos seguiam a distribuição do valor extremo de Gumbel. Além disso, a análise estatística das pontuações de alinhamentos locais avançou bem mais do que a de alinhamentos globais. Alinhamentos locais servem para revelar regiões com alta similaridade, que praticamente não existem em sequências não relacionadas ou aleatórias. Por outro lado, é possível achar sequências dessa natureza que possuam uma pontuação muito alta se alinhadas globalmente (isso dificulta a estimação da significância de alinhamentos globais). 2.4.1 Significância de alinhamentos globais Em geral, programas de alinhamento global usam o algoritmo de NeedlemanWunsch e utilizam uma pontuação (em média) positiva para um par de nu15 cleotídeos ou aminoácidos alinhados. Consequentemente, a pontuação do alinhamento de sequências aleatórias ou não relacionadas cresce proporcionalmente ao tamanho das sequências. Como pequenas mudanças no sistema de pontuação usado produzem um alinhamento diferente, estimar a significância de um alinhamento global não é uma tarefa fácil. Dayhoff (1978) e Dayhoff et al. (1983) avaliaram pontuações de alinhamentos dados pelo algoritmo de Needleman-Wunsch para sequências proteicas aleatórias e não relacionadas, utilizando a matriz PAM250 e penalidade constante para as lacunas. A distribuição das pontuações resultantes foi compatível com uma normal. A partir disso, a significância do alinhamento entre duas sequências aparentemente relacionadas A e B foi determinada pela obtenção da média e do desvio padrão da pontuação de 100 alinhamentos de permutações de A com permutações de B. Se a pontuação entre A e B for significante, então a pontuação real deve ser pelo menos 3 a 5 desvios padrão maior do que a média das pontuações aleatórias. Várias outras abordagens para o assunto foram tentadas por Waterman (1989), Chvátal e Sankoff (1975) e Lipman et al. (1984), e uma das conclusões foi de que a presença de padrões locais conservados pode influenciar a pontuação em testes estatísticos, fazendo com que um alinhamento pareça ser mais significante do que é. Finalmente, um dos principais problemas com os métodos acima foi a utilização do modelo estatístico incorreto. 2.4.2 Modelando um alinhamento de sequências de DNA aleatórias Para estimar o número de casamentos consecutivos entre sequências aleatórias, podemos modelar um alinhamento como lançamentos de moeda. Seja P (H) = p a probabilidade do lançamento de uma moeda resultar em cara (H) e P (T ) = 1 − p a probabilidade do lançamento da mesma moeda resultar em coroa (T ). O comprimento esperado da maior sequência de caras consecutivas (R) em n lançamentos é dado pela seguinte equação (demonstrada por Erdös e Rényi) R = log1/p (n) Para usar o modelo, um alinhamento de duas sequências aleatórias a = a1 a2 . . . an e b = b1 b2 . . . bn é convertido para uma série de caras e coroas. Se ai = bi o lançamento resultante é cara (H), caso contrário é coroa (T ). Com isso, o maior número de casamentos consecutivos (para sequências de mesmo tamanho n) é equivalente ao maior número de caras consecutivas em n lançamentos. Se duas sequências de tamanhos n e m forem alinhadas do mesmo modo, esse número passa a ser log1/p (mn). Seja M uma variável aleatória que indique qual o comprimento da maior sequência de casamentos 16 consecutivos entre as sequências de tamanhos n e m. Logo, fórmulas mais precisas para a esperança e variância de M são: E(M ) ≈ log1/p (mn) + log1/p (q) + γ log(e) − 1/2 ≈ [loge (Kmn)]/λ V (M ) ≈ [πlog1/p (e)]2 /6 + 1/12 onde γ ≈ 0, 577 é a constante de Euler-Mascheroni, q = 1 − p, K é uma constante que depende da composição das bases na sequência e λ = loge (1/p). A estimativa para E(M) é fundamentalmente importante para o cálculo da significância estatística da pontuação de alinhamentos. Basicamente, ela afirma que conforme os comprimentos de sequências aleatórias ou não relacionadas aumentam, a média das maiores pontuações possíveis para alinhamentos locais será proporcional ao logaritmo do produto dos comprimentos das sequências A estimativa para V(M) prediz variância constante para a pontuação desse tipo de alinhamento, algo confirmado por experimentos. Utilizando alguns métodos de normalização, também é possível usar as equações acima para predizer o valor esperado E(S) da pontuação do alinhamento entre duas sequências aleatórias de tamanhos m e n: E(S) = [loge (Kmn)]/λ Assim, estimar a significância estatística se reduz a calcular a probabilidade de que a pontuação de um alinhamento entre sequências aleatórias ou não relacionadas seja maior que E(S). Para isso é necessário prever qual o número de regiões de casamentos cujas pontuações excedem E(S), algo que pode ser feito pela distribuição de Poisson (cuja média x é dada por E(S)), dada por Pn = e−x xn /n! para n ≥ 0. Para um grande número de ensaios cuja probabilidade de sucesso é pequena, Pn é uma aproximação da probabilidade de obter n sucessos. Portanto, a probabilidade de que nenhum alinhamento (de um número grande de alinhamentos) tenha pontuação maior que x é P0 = e−x , e a probabilidade de que pelo menos um deles tenha pontuação maior que x é P (S > x) = 1 − P0 = 1 − e−x = 1 − e−E(S) = 1 − exp(−Kmne−λx ) A aproximação de Poisson fornece um modo conveniente de estimar os parâmetros K e λ a partir de pontuações de muitos alinhamentos entre sequências aleatórias ou não relacionadas, a partir da fração de alinhamentos que tiverem uma pontuação menor que x. 17 2.4.3 Alinhamentos com lacunas Um tipo similar de análise vale para alinhamentos de sequências que incluem lacunas. Smith et al. (1985) alinharam um grande número de sequências de DNA não relacionadas (DNA de vertebrados e DNA viral) de tamanhos diferentes (n e m), plotando um gráfico S (pontuação do alinhamento) × log1/p (nm). O resultado foi uma reta da forma Smédio = 2, 55(log1/p (mn)) − 8, 99 e desvio padrão constante σ = 1, 78. Esse resultado foi então usado para calcular quantos desvios padrão estavam entre a média prevista e a variância da pontuação dos alinhamentos locais para sequências não relacionadas. Se a pontuação real do alinhamento excedesse o Smédio previsto por vários desvios padrão, então a pontuação deveria ser significante. 2.4.4 A distribuição do valor extremo de Gumbel Quando duas sequências são alinhadas localmente de modo ótimo, a significância da pontuação pode ser testada com base na distribuição esperada das pontuações de alinhamentos de duas sequências aleatórias de iguais tamanhos e mesma composição das sequências alvo. As pontuações dos alinhamentos dessas sequências aleatórias seguem uma distribuição chamada distribuição do valor extremo (ou de Gumbel), e não uma normal (como se pensava). Essa distribuição aparece porque é obtida a partir das maiores pontuações (valores extremos) de um grande número de alinhamentos. A meta é avaliar qual a probabilidade de que uma pontuação entre sequências aleatórias ou não relacionadas alcance a pontuação entre duas sequências reais de interesse. Se essa probabilidade for baixa, o alinhamento é significante. A função densidade de probabilidade da distribuição do valor extremo é dada a seguir: Yev = exp[−x − e−x ] Ela possui média µ = γ ≈ 0, 577 (a constante de Euler-Mascheroni) e variância σ 2 = π 2 /6 ≈ 1, 6. A probabilidade de que uma pontuação S seja menor que y é dada por P (S < y) = Zy Yev dx −∞ 18 = Zy exp[−x − e−x ] dx −∞ = exp(−e−x )|y−∞ = exp(−e−y ) − lim exp(−e−t ) t→−∞ = exp(−e−y ) − 0 = exp(−e−y ) e portanto temos P (S ≥ y) = 1 − P (S < y) = 1 − exp(−e−y ) Alterando a equação acima para acomodar valores extremos como sendo pontuações de alinhamentos de sequências, obtemos P (S ≥ x) = 1 − exp(−e−λ(x−u) ) onde u é a moda da distribuição e λ é um parâmetro de escala. Esses parâmetros podem ser estimados a partir da média e do desvio padrão da distribuição de Gumbel (método dos momentos), como segue: √ λ = π/(σ 6) ≈ 1, 2828/σ U = x − γ/λ ≈ x − 0, 45σ Pontuações z podem ser calculadas para cada valor extremo x, onde z = (x − m)/σ é o número de desvios padrão a partir da média. A equação para P (S ≥ x) pode ser reescrita para usá-las: P (Z > z) = 1 − exp(−e−1,2858z−0,5772 ) Para alinhamentos que não incluem lacunas, u e λ podem ser calculados a partir da matriz de pontuação, utilizando as equações X pi pj esij λ = 1 u = (ln Kmn)/λ onde pi e pj são as representações relativas dos resíduos i e j nas sequências, sij é a pontuação para o casamento de i com j, m e n são os tamanhos das sequências e K é uma constante que pode ser calculada a partir de pi e sij . Atualizando a equação para P (S ≥ x), obtemos P (S ≥ x) = 1−exp(−e−λ(x−u) ) = 1−exp(−e−λ(x−(ln Kmn)/λ) ) = 1−exp(−Kmne−λx ) 19 Para facilitar alguns cálculos, adotemos a normalização S 0 = λS−ln Kmn, correspondente a u = 0 e λ = 1. Assim, temos que P (S 0 ≥ x) = 1 − exp(−e−x ) Para x > 2, podem ser usadas as aproximações P (S ≥ x) ≈ Kmne−λx P (S 0 ≥ x) ≈ e−x 2.4.5 Determinação da significância da pontuação de um alinhamento Suponhamos que duas sequências proteicas de aproximadamente 250 aminoácidos cada tenham sido alinhadas localmente usando a matriz PAM250 e uma penalidade alta para lacunas (para omiti-las do alinhamento), e o alinhamento resultante (com pontuação de 75) é FWLEVEGNSMTAPTG FWLDVQGDSMTAPAG Altschul e Gish (1996) deram estimativas de K = 0, 09 e λ = 0, 229 para a matriz PAM250, uma distribuição típica para aminoácidos e alta penalidade para as lacunas. Daí, temos S 0 = λS − ln Kmn = 0, 229 × 75 − ln(0, 09 × 250 × 250) = 8, 55 bits P (S 0 ≥ 8, 55) = 1 − exp(−e−8,55 ) = 1, 9 × 10−4 Portanto, a probabilidade de que um alinhamento entre duas sequências aleatórias (utilizando os mesmos parâmetros) consiga uma pontuação maior ou igual a 75 é 1, 9 × 10−4 , o que faz o alinhamento ser significante. 2.4.6 A importância do tipo de matriz de pontuação para análises estatísticas Usar uma matriz do logaritmo das chances (com as PAMs ou BLOSUMs) em unidades de bit simplifica a estimação da significância de um alinhamento. Tais matrizes também são úteis para encontrar alinhamentos locais porque ela inclui valores positivos e negativos. Outra importante característica é que essa é a forma ótima para avaliar a significância estatística das pontuações de alinhamentos. 20 Um dos parâmetros importantes das matrizes de pontuação é o valor esperado de um par médio de aminoácidos, dado pela seguinte equação: E= 20 X i X pi pj sij i=1 j=1 onde sij é a pontuação do par de aminoácidos i e j e pi e pj são suas taxas de ocorrência. Esse valor deve ser negativo se a pontuação do alinhamento que use a matriz for usada para testes estatísticos, pois caso contrário (para qualquer par de sequências alinhadas) as pontuações irão aumentar (com o aumento do tamanho das sequências) mais rápido do que o logaritmo do tamanho das sequências. Os valores esperados das matrizes do logaritmo das chances como PAM, BLOSUM, JTT, JO93 e PET91 satisfazem esse requisito estatístico. 2.4.7 Significância de alinhamentos locais com lacunas Para duas sequências aleatórias ou não relacionadas de tamanhos n e m, prediz-se que a pontuação (x) do alinhamento ótimo seja proporcional ao logaritmo do produto de seus tamanhos (x ≈ log2 (nm)). Na comparação de uma sequência (a consulta) de tamanho m a uma sequência de um banco de dados de tamanho n, m é constante e a pontuação prevista deve crescer linearmente com log(n). Essa relação foi encontrada em vários estudos sobre a distribuição da pontuação de alinhamentos locais ótimas que incluíam penalidades para as lacunas. Portanto, os mesmos métodos estatísticos descritos para avaliar a significância de alinhamentos sem lacunas pode também ser usada para alinhamentos com lacunas. 2.4.8 Métodos para calcular os parâmetros da distribuição do valor extremo Na análise de Altschul e Gish (1996), 10000 sequências aleatórias de aminoácidos de tamanhos variáveis foram alinhadas usando o algoritmo de SmithWaterman e combinações apropriadas de matrizes de pontuação e penalidades para as lacunas. As pontuações encontradas seguiram a mesma distribuição do valor extremo previsto pela teoria estatística subjacente. Os valores de K e λ foram estimados para cada combinação pelo ajuste dos dados à distribuição prevista do valor extremo. Porém, deve-se ter cuidado no uso desses parâmetros. Em primeiro lugar, eles foram gerados pelo alinhamento de sequências aleatórias supondo uma distribuição de aminoácidos em particular, o que pode não ser um modelo apropriado para algumas proteínas. Sem segundo lugar, a precisão de λ e 21 de K não pode ser estimada facilmente. Por último, para custos nas lacunas que resultam numa entropia H < 0, 15 o tamanho esperado do alinhamento ótimo é uma fração significante do tamanho das sequências, o que produz uma fonte de erros chamada de efeito terminal. Quando esse efeito ocorre, alinhamentos que começaram perto dos terminais das sequências podem não ser completados. Se o tamanho esperado não for subtraído do tamanho da sequência antes da estimação de λ, o parâmetro poderá ser superestimado. Um dos programas comumente usados para busca por similaridade em banco de dados é o BLAST. Ele calcula a significância estatística das maiores pontuações entre sequências similares, mas de um modo um tanto quanto diferente. O BLAST usa os valores de K e λ encontrados a partir do alinhamento de sequências aleatórias e a equação já apresentada P (S ≥ x) = 1 − exp(−Kmne−λx ) , onde n e m são encurtados para compensar a incapacidade de alinhar os terminais das sequências. 2.4.9 A significância estatística de pontuações de alinhamentos individuais entre sequências e a significância de pontuações encontradas em uma busca em um banco de dados são calculados de forma diferente Numa busca em um banco de dados utilizando uma sequência de consulta, uma nova comparação é feita para cada sequência no banco. Como exemplo, o BLAST calcula os parâmetros estatísticos baseados na matriz de pontuação e na composição das sequências. Os parâmetros são então usados para calcular a probabilidade de encontrar padrões conservados por alinhamento casual de sequências não relacionadas. A probabilidade de não observar (num banco de dados de D sequências) alinhamentos com pontuações maiores do que s (sendo s a média das maiores pontuações possíveis para alinhamentos locais) é e−Ds , e a de observar pelo menos um com pontuação s é P ≈ 1 − e−Ds . Para os valores P de interesse (P < 0, 1), temos P ≈ Ds. Portanto, quanto maiores forem o banco de dados e a média das maiores pontuações possíveis, menor será a significância do alinhamento. 22 2.5 2.5.1 Alinhamento de sequências e estimação da distância evolutiva por métodos estatísticos bayesianos Introdução à estatística bayesiana Métodos estatísticos bayesianos diferem dos outros devido ao uso de probabilidades condicionais. Suponhamos que o evento A seja composto apenas pelos eventos disjuntos A1 e A2, ocorrendo algo análogo para o evento B e seus subeventos B1 e B2. Esses subeventos podem (por exemplo) corresponder aos estados alélicos dos genes A e B. Temos então que P (B) = P (B1) + P (B2) = 1 e P (A) = P (A1) + P (A2) = 1. Suponhamos que P (B1) = 0, 3 (o que implica P (B2) = 1−P (B1) = 0, 7), P (A1|B1) = 0, 8, P (A2|B2) = 0, 7, e desejamos saber as probabilidades conjuntas de todas as combinações de subeventos de A com subeventos de B. Primeiro notemos que P (A1|B1) + P (A2|B1) = 1 (pois B1 = (A1 ∩ B1) ∪ (A2 ∩ B1) e os eventos A1 ∩ B1 e A2 ∩ B1 são disjuntos) e portanto P (A2|B1) = 1 − 0, 8 = 0, 2. Analogamente, P (A1|B2) = 1 − 0, 7 = 0, 3 . As probabilidades restantes podem ser calculadas pelo teorema de Bayes (válido para quaisquer eventos A1 e B1), dado a seguir: P (A1 ∩ B1) = P (B1|A1)P (A1) = P (A1|B1)P (B1) Pelo teorema, temos que P (A1 ∩ B1) = P (B1)P (A1|B1) = 0, 3.0, 8 = 0, 24 e P (A2 ∩ B2) = P (B2)P (A2|B2) = 0, 7.0, 7 = 0, 49. As outras duas probabilidades conjuntas podem ser calculadas por subtração, ou seja: P (A2 ∩ B1) = P (B1) − P (A1 ∩ B1) = 0, 3 − 0, 24 = 0, 06 e P (A1 ∩ B2) = P (B2) − P (A2 ∩ B2) = 0, 7 − 0, 49 = 0, 21. O resultado final está na tabela em seguida. A1 A2 B1 0,24 0,06 B2 0.21 0,49 0,45 0,55 0,3 0,7 1 Tabela 1: Tabela de probabilidades marginais e conjuntas para A e B. Podemos desenvolver a fórmula da probabilidade condicional usando o teorema de Bayes para encontrar a probabilidade posteriores P(B2|A1) e o fato de que A1 = (A1 ∩ B1) ∪ (A1 ∩ B2) da seguinte forma: P (B2|A1) = P (A1 ∩ B2)/P (A1) 23 = P (B2)P (A1|B2)/P (A1) = P (B2)P (A1|B2)/[P (B1)P (A1|B1) + P (B2)P (A1|B2)] Portanto, temos P (B2|A1) = 0, 7.0, 3/[0, 3.0, 8 + 0, 7.0, 3] = 0, 467 e portanto P (B1|A1) = 1 − 0, 467 = 0, 533. Assim, baseado nas probabilidades a priori e na informação adicional, o teorema de Bayes permite o cálculo de probabilidades a posteriori (não disponíveis inicialmente). 2.5.2 Aplicação da estatística bayesiana à análise de sequências Na análise de sequências, a pontuação de um alinhamento local (s) entre duas sequências varia com a escolha da matriz de pontuação e do sistema de penalidades para lacunas. Até então, esses parâmetros foram escolhidos com base no desempenho de identificação de sequências relacionadas. A aplicação da estatística bayesiana ao problema permite que o efeito de informação a priori (como a matriz de substituição escolhida) na probabilidade de que duas sequências sejam homólogas possa ser examinado. O método fornece uma distribuição de probabilidades posteriores de todos os alinhamentos levando em conta todos os sistemas de pontuação. Dessa forma, os alinhamentos mais prováveis e suas probabilidades podem ser determinados. Esse método contorna a necessidade de escolher uma matriz de pontuação e uma penalidade para lacunas em particular porque uma faixa de escolhas disponíveis pode ser testada. 2.5.3 Distância evolutiva bayesiana Agarwal e States (1996) aplicaram métodos bayesianos para obter a melhor estimativa para a distância evolutiva entre duas sequências de DNA. Os exemplos usados foram de sequências de mesmo comprimento que contém certo número de casamentos sem sucesso. Uma abordagem descrita previamente foi avaliar as pontuações de alinhamentos usando várias matrizes diferentes e então identificar qual a matriz que resultava na maior pontuação. A abordagem bayesiana continua essa análise para descobrir a probabilidade do alinhamento em função de cada distância evolutiva representada por uma matriz PAM diferente. Sejam x a distância evolutiva representada pela matriz PAMN dividida por 100, k o número de casamentos sem sucesso numa sequência de comprimento n, P (x|k) a probabilidade de que uma sequência com k casamentos sem sucesso esteja a uma distância x, P (k|x) o logaritmo da pontuação das chances para a sequência com k casamentos sem sucesso na matriz PAM100x de DNA e P (x) a probabilidade a priori da distância x (normalmente igual a 1 dividido pelo número de matrizes). Logo, pelo teorema de Bayes obtemos 24 P (x|k) = P (k|x)P (x)/P (k) X = P (k|x)P (x)/ P (k|x)P (x) x O denominador é a soma é a soma da pontuação das chances sobre x (que varia de 0, 01 a 4, representando as distâncias de P AM 1 a P AM 400 - ≈ 10 milhões a 4 bilhões de anos) vezes a probabilidade a priori de cada valor de x. Essa soma representa a área sob a curva de probabilidade e tem o efeito de normalizá-la para cada matriz de pontuação usada. O formato da curva de probabilidade indica como P (x|k) varia com x. Uma das dificuldades com tais estimações é que a estimativa depende da suposição de que a taxa de mutação em sequências é constante com o tempo (a hipótese do relógio molecular) e é a mesma para todos os nucleotídeos. Outra dificuldade está em decidir qual o comprimento da sequência que foi duplicada. Em genomas, a presença de repetições pode ser revelada por extensas de posições que casam dispersas entre regiões que ao casam. Porém, conforme a frequência dos casamentos sem sucesso aumenta, fica mais difícil determinar a extensão da região de repetição. Uma desvantagem da abordagem bayesiana é o requisito de um modelo mutacional específico, enquanto outros métodos (como o da máxima verossimilhança) podem estimar tanto a distância quanto o melhor modelo mutacional (embora o método bayesiano seja computacionalmente mais eficiente). 2.5.4 Algoritmos bayesianos para alinhamento de sequências Zhu et al. (1998) desenvolveram um programa chamado alinhador de blocos de Bayes, no qual duas sequências são comparadas para achar os blocos (regiões sem lacunas com as maiores pontuações possíveis). Em seguida, esses blocos são unidos de várias formas para produzir alinhamentos. Em vez de usar uma dada matriz de substituição e um sistema de pontuação para lacunas, uma abordagem bayesiana é utilizada. Dado um conjunto de matrizes de substituição e número esperado de blocos no alinhamento como informação a priori, o método fornece distribuições de probabilidades posteriores de alinhamentos. Outro tipo de análise que pode ser feita com o alinhador de blocos de Bayes é sobre a probabilidade de alinhamentos. Nesse método, todos os alinhamentos possíveis são considerados para um número razoável de blocos e um conjunto de matrizes de substituição, e são devolvidas as probabilidades de vários alinhamentos. 25 Uma das principais críticas ao método é a predição de falsos negativos em alinhamentos estruturais, provavelmente por causa das condições relaxadas para a pontuação de alinhamentos no uso de informação a priori irrestrita. Portanto, a escolha prudente é usar o alinhador de Bayes como uma ferramenta entre várias para alinhar sequências. 26