Disciplina de BIOLOGIA COMPUTACIONAL Mestrado em ENGENHARIA BIOMÉDICA 4º Ano, 1º Semestre 2007/08 MODELOS PROBABILÍSTICOS Relatório 4 Ana Calhau 54605 Ângela Pisco 55748 Nuno Santos 55746 Palavras-Chave: HMMs, Estados, Caminhos, Ilhas CpG, Algoritmo de Viterbi Resumo Com este trabalho, pretendeu-se analisar a utilidade das HMMs na modelação de problemas reais. Inicialmente, estudou-se o problema do “Fair Bet Casino”, pretendendo-se saber quantos e quais os caminhos que podem gerar uma dada sequência, bem como a sua probabilidade. De seguida, analisou-se o problema de identificação de ilhas CpG numa longa sequência de DNA. Para resolver este problema construiu-se uma matriz de transição para a HMM em estudo, que representa de forma unificada os modelos de Markov (+) e (-), uma matriz de emissão e calculou-se ainda a probabilidade de uma dada sequência de estados gerar uma dada sequência de C e G, bem como o caminho mais provável associado à sequência pretendida, recorrendo-se ao algoritmo de Viterbi. 1. “FAIR BET CASINO” O problema do “Fair Bet Casino” é bastante conhecido residindo o seu interesse na analogia que se consegue estabelecer com o problema biológico da procura de ilhas CpG numa sequência de DNA. Um agente responsável por um jogo num casino tem duas moedas, possivelmente viciadas. O agente começa o jogo sempre com a moeda m1 e em cada jogada muda de moeda, podendo escolher ou a mesma moeda ou a outra, com uma determinada probabilidade. O jogador apenas observa o resultado da jogada, isto é, só vê cara ou coroa, sem nunca saber qual das moedas está ser utilizada. Existem dois estados, S1 e S2, que correspondem a cada uma das moedas, e é possível fazer duas observações: cara ou coroa. O sistema pode ter início, com igual probabilidade, em qualquer um dos estados. Os restantes parâmetros correspondem à probabilidade de ver cara no estado S1, p1, à probabilidade de ver cara no estado S2, p2, à probabilidade de transição do estado S1 para o estado S2, q1, e à probabilidade de transição do estado S2 para o S1, q2. 1.1. Admitindo que no estado S1 apenas é possível observar cara, que no estado S2 apenas é possível observar coroa e que a probabilidade de transição entre estados (ou ficar no mesmo) é de 0,5, o Hidden Markov Model (HMM) que descreve esta situação é dado por: Pesquisa de Motivos 0.5 0.5 0.5 Não Viciada Viciada 1 – p2 = 1 0.5 p1 = 1 p2 = 0 1 – p1 = 0 Cara Coroa Cara Coroa Figura 1 HMM para o problema proposto. 1.2. Para uma dada sequência de caras e coroas de tamanho T (X1,T), existe apenas um caminho, na HMM da alínea anterior, capaz de gerar a sequência X1,T, com probabilidade diferente de zero (sai sempre cara ou coroa). O facto de o estado S1 apenas gerar caras e o estado S2 apenas gerar coroas faz com que a HMM anterior se transforme num MM com estados não escondidos. Desta forma, se sair cara estamos necessariamente no estado S1 e se sair coroa estamos necessariamente no estado S2, pelo que a cada sequência de caras e coroas corresponde um e um só caminho. 1.3. Para se calcular a probabilidade de observar a sequência X1,T de acordo com a HMM da alínea 1.1, há que ter em conta que há igual probabilidade de sair cara ou coroa para cada um dos T lançamentos. Desta forma, a probabilidade vem dada por: P(X1,T)= (1) em que T é o tamanho da sequência X1,T. 1.4. Considerando agora que os estados S1 e S2 correspondem, respectivamente, a uma moeda viciada e não viciada, que as probabilidades de ver cara e coroa são idênticas para o estado S1 e iguais a 0,6 e 0,4 para o estado S2, e ainda que é possível transitar entre estados com uma probabilidade q=0,3, a HMM e respectivos parâmetros que descrevem esta situação são: 0.7 0.7 0.3 Não Viciada Viciada 1 – p1 = 0,5 Cara 1 – p2 = 0,4 0.3 p1 = 0,5 Coroa p2 = 0,6 Cara Coroa Figura 2 HMM para o problema proposto. 2 Ana Calhau Ângela Pisco Nuno Santos 1.5. Os HMMs podem ser vistos como máquinas abstractas, com k estados escondidos que emitem símbolos a partir de um alfabeto ∑. Cada um destes estados tem a sua própria distribuição de probabilidade e a “máquina” vai mudando entre estados de acordo com essa distribuição. Desta forma, considerando a sequência X = {1,1,0,0,0} em que {1,0} = {Cara,Coroa}, através do método HMM, é possível determinar a sequência de estados mais provável dessa sequência. 1 1 0 0 0 T–> 0.3 0.126 0.0353 0.0099 0.0028 B–> 0.6 0.21 b) 0.0882 0.6 0.4 0.0247 0.4 0.0069 0.4 a) 0.5 0.0028 0.0378 0.09 0.0106 0.0030 Início Fim 0.075 0.5 0.0262 0.0092 0.0032 0.0038 a) F–> 0.5 T–> 0.25 b) 0.175 0.5 0.0612 0.0875 0.5 0.0214 0.0306 0.5 0.0075 0.0107 0.5 0.0038 Figura 3 Diagrama que representa os vários passos para a obtenção da sequência de estados mais provável sabendo a sequência X. Os valores a) e b) são 0,3 e 0,7, respectivamente, e são equivalentes em cada coluna do diagrama. Às linhas B e F correspondem, respectivamente, os estados S2 e S1. O diagrama anterior pode ser resumido numa tabela de programação dinâmica 2x5, tal como evidenciado de seguida: Tabela 1 Tabela de programação dinâmica 2x5 para o caso considerado, estando evidente a sequência de estados mais provável Begin 1 S1 0 S2 0 1 0 0,25 0,30 1 0 0,0875 0,1260 0 0 0,03063 0,03528 0 0 0,01072 0,00988 0 0 0,00375 0,00277 Pela análise da tabela e diagramas anteriores, torna-se evidente que a sequência de estados mais provável é S={S1, S1, S1, S1, S1}. 2. IDENTIFICAÇÃO DE ILHAS CpG 2.1. As ilhas CpG são zonas do DNA que possuem elevado número de citosinas imediatamente seguidas por guaninas. Neste exercício, foram consideradas sequências de DNA humano, nas quais, segundo o modelo de Markov considerado, foram identificadas 48 ilhas CpG. Considerando que a probabilidade de se estar numa ilha CpG é equivalente à de se estar fora dela, obtém-se a matriz com as probabilidades de transição, para uma HMM unificada dos dois modelos utilizados no estudo: 3 Pesquisa de Motivos Tabela 2 Matriz 8x8 onde estão evidenciadas as probabilidades de transição para uma HMM que representa de forma unificada os modelos de Markov + e -. A+ C+ G+ T+ ACGT- A+ 0.09 0.0855 0.0805 0.0395 0.125 0.125 0.125 0.125 C+ 0.137 0.184 0.1695 0.1775 0.125 0.125 0.125 0.125 G+ 0.213 0.137 0.1875 0.192 0.125 0.125 0.125 0.125 T+ 0.06 0.094 0.0625 0.091 0.125 0.125 0.125 0.125 A0.125 0.125 0.125 0.125 0.15 0.161 0.124 0.0885 C0.125 0.125 0.125 0.125 0.1025 0.149 0.123 0.1195 G0.125 0.125 0.125 0.125 0.1425 0.039 0.149 0.146 T0.125 0.125 0.125 0.125 0.105 0.151 0.104 0.146 Pode-se dizer que a matriz obtida é constituída por quatro submatrizes. Uma vez que a probabilidade de estar ou não numa ilha CpG é igual, a transição de um nucleótido + para outro + será metade do que no modelo em que apenas se considera o estado + (ilha CpG). O mesmo se passa para o modelo –. No caso de uma transição + para – ou vice-versa, a probabilidade de um qualquer nucleótido transitar para outro será o produto de ¼ e ½, já que existe uma equiprobabilidade entre os nucleótidos. 2.2.Para o caso que se pretende estudar, a sequência X é igual a X={C,G,C,G} e a matriz dos caminhos p dada por p={C+,G-,C-,G+}. O cálculo da probabilidade pedida pode ser feito de acordo com a equação abaixo (2) Simplificando (2) vem (3) Desenvolvendo (3) fica-se com ! ! " ! # (4) Para se ficar com o resultado independente de parâmetros não fornecidos pela tabela anterior assumiram-se duas condições. Dado que a probabilidade de estar numa ilha CpG é igual à de estar fora, então a probabilidade de ir do estado begin para qualquer um dos estados pode ser considerada igual, o que corresponde a ter-se em valor numérico $%&'(. Por outro lado, quando se está no último estado do caminho, e apenas por simplificação, admitiu-se que a probabilidade de ir do último estado para o estado end é a mesma, independentemente do estado em que se esteja, e vale 1 (! # &). De acordo com o enunciado, a matriz de emissão é dada pela tabela abaixo: Tabela 3 Matriz de emissão da HMM. A+ C+ G+ T+ ACGT- A+ 1 0 0 0 1 0 0 0 C+ 0 1 0 0 0 1 0 0 G+ 0 0 1 0 0 0 1 0 T+ 0 0 0 1 0 0 0 1 A1 0 0 0 1 0 0 0 C0 1 0 0 0 1 0 0 G0 0 1 0 0 0 1 0 T0 0 0 1 0 0 0 1 4 Ana Calhau Ângela Pisco Nuno Santos Substituindo as variáveis em (4) pelos valores dados pelas tabelas 2 e 3, a probabilidade pedida vale $%&'( & $%&'( & $%&') & $%&'( & '%* &$+" 2.3.Algoritmo de Viterbi e cálculo do caminho mais provável O Algoritmo de Viterbi é utilizado para encontrar a sequência de estados que gera, com maior probabilidade, a sequência observada, isto é, identifica qual o caminho mais provável, para a HMM em causa. Este algoritmo pode ser definido da seguinte forma &////0 123457 $////0 6 12345 8 9-:; <,-% = -8 >% ? $% @ % A B &//C : D ,-% . ,8% (5) Sendo p* o caminho óptimo, tem-se que E 9-:; <,-% = -%FGH > (6) Para este caso concreto não é necessário considerar todos os estados possíveis, já que de acordo com a matriz de emissão apenas são relevantes os estados C e G (tanto em ilha CpG, como fora), dado que todos os outros têm probabilidade nula para a sequência em causa. Com base em (5) e (6) e no parágrafo anterior, construiu-se a seguinte tabela: Tabela 4 Tabela de programação dinâmica 4x4 para o caso considerado, estando evidente a sequência de estados mais provável. C G C G 0 0 0 0,002903 0 Begin 1 C+ 0 0 0,125 G+ 0 0 0,017125 0 0,000397668 C- 0 0,125 0 0,002141 0 G- 0 0 0,015625 0 0,000362836 0 O caminho mais provável é, portanto, {C+, G+, C+, G+}. 3. CONCLUSÃO Ao longo deste trabalho foi possível tomar conhecimento de todas as potencialidades dos modelos de Markov. Estes modelos, na sua versão geral, não apresentam uma correspondência biunívoca entre estados e símbolos, já que pode existir mais do que um estado que emita o mesmo símbolo. Isto leva a que exista mais do que um caminho com a capacidade de gerar uma dada sequência. A pesquisa de ilhas CpG é um problema importante na medida em que encontrar ilhas CpG corresponde a encontrar, em grande parte dos casos, regiões promotoras de genes. O par CG está tipicamente sub-representado num genoma, porque o nucleótido C é facilmente metilado, tendo posteriormente tendência a mutar para T. No entanto, a metilação é suprimida nas zonas 5 Pesquisa de Motivos envolventes dos genes, razão pela qual existe um maior número de CG nestas regiões. No último ponto do primeiro exercício, o resultado obtido está de acordo com o esperado, pois existe um maior número de coroas do que caras na sequência, e o estado S1 emite coroas com maior probabilidade do que S2. O mesmo se verifica na última alínea do segundo exercício, em que o modelo admite que se está numa ilha CpG. As sequências são, no entanto, pequenas para que se possam extrapolar conclusões. Em termos globais, a realização deste trabalho foi bastante útil para entender o funcionamento dos HMMs. Apesar da sua natureza heurística, considera-se que os resultados conseguidos com estes modelos são bastante bons. 4. BIBLIOGRAFIA [1] Freitas, Ana T., Modelos Probabilísticos, Guia do 4º Laboratório de Biologia Computacional, Novembro de 2007 [2] Freitas, Ana T., Apontamentos das aulas teóricas de Biologia Computacional, 2007 [3] An Introduction to Bioinformatics Algorithms , N. C. Jones and P. Pevzner, 2005, MIT Press [4] Biological Sequence Analysis - Probabilistic models of proteins and , R. Durbin, S. Eddy, A. Krogh, G. Mitchison, 1998, Cambridge 6