GFB IST 2005/2006 Laboratório 1: Alinhamento de sequências Com este trabalho de laboratório pretende-se abordar o problema do alinhamento simples de sequências, explorando os conceitos de alinhamento global e alinhamento local. O exemplo 1 ilustra um procedimento real onde novas informações são obtidas por homologia. 1. Considere os dois alinhamentos seguintes: Alinhamento 1 Seq1 Seq2 AGTGTGAAGGTCCCGGCTAAT---CG : :: : : : ::: ::: :: A-TGCG--GCTAATGGC-AATATACG Alinhamento 2 Seq1 Seq2 AGTGTGAAGGTCCCGGCTAAT---------CG : :: :::::::: :: A---TG-------CGGCTAATGGCAATATACG a) Os dois alinhamentos anteriores foram obtidos utilizando a seguinte função para a contabilização dos espaçamentos introduzidos: ( g ) d ( g 1)e sendo g o tamanho do espaçamento, d o valor de cada alinhamento com um espaçamento e e o valor atribuido a cada extensão do espaçamento. Nos dois alinhamentos anteriores foi utilizado o mesmo valor para a variável d e valores diferentes para a variável e. o Faça um comentário sobre os valores relativos considerados para a variável e nestes dois alinhamentos. o Que alinhamento seria de esperar se fosse considerado d = . Descreva-o. 2. Preencha as seguintes tabelas de programação dinâmica utilizando os seguintes parâmetros: igualdade (match) = +1; desigualdade (mismatch) = -1; espaçamento (gap) = -1. a. Escreva os melhores alinhamentos obtidos, ilustrando o caminho que os originou. b. Calcule o valor associado a cada um dos alinhamentos. Alinhamento global: A A C G A T A A C Alinhamento local: A A C G A T A A C C G T T A C C G T T A C Exemplo 1: Semelhanças entre Oncogenes No fim dos anos 70, o investigador Russell Doolittle [1] utilizou uma base de dados de sequências biológicas para identificar genes com funções semelhantes. Este trabalho foi pioneiro na utilização de algoritmos para análise de sequências biológicas [2, 3]. Pretende-se neste trabalho seguir os passos dados por Doolittle quando tentava descobrir os módulos funcionais do v-mos oncogene do vírus Moloney Murine Sarcoma. Pela mesma época foram publicadas algumas descobertas, incluindo a sequência, relativas ao v-src oncogene do vírus Rous Sarcoma. Para realizar o trabalho serão utilizados um conjunto de algoritmos disponíveis no seguinte site: Biology WorkBench (http://workbench.sdsc.edu/). a. Se for utilizador pela primeira vez, registe-se no site. Nota: Por omissão serão utilizados os parâmetros especificados para os algoritmos. b. Utilizando o menu “Nucleic Tools” e a acção “Add New Nucleic Sequence” carregue para o sistema os ficheiros com as sequências em formato fasta dos dois genes, vmos.fasta e vsrc.fasta. Atribua uma Label a cada sequência e faça Save após cada carregamento. c. Selecione as duas sequências introduzidas. Utilize o algoritmo ALIGN [4] para obter um alinhamento global e o algoritmo LALIGN [5] para obter um alinhamento local das sequências. Registe os resultados, percentagem de nucleótidos identicos e valor, obtidos para cada um dos alinhamentos. d. Com base nos alinhamentos obtidos, considera que estas sequências são homólogas? (Nota: Para duas sequências aleatórias, qual esperaria ser a percentagem de caracteres idênticos?) e. Traduza cada uma das sequências de nucleótidos numa sequência de aminoácidos. Utilize a ferramenta SIXFRAME. Porque é que se obtém seis possíveis traduções? Qual é a que deve ser escolhida? Justifique. f. Seleccione a tradução que considera mais promissora e carregue-a utilizando o botão “Import Sequences” no fundo da página. g. Alinhe as duas sequências de aminoácidos utilizando os algoritmos ALIGN e LALIGN a partir do menu “Protein Tools”. Considera que os alinhamentos obtidos apresentam uma maior evidência de homologia relativamente aos obtidos com o alinhamento das sequências de nucleótidos? Bibliografia: [1] - http://juno.ucsd.edu/ [2] – Doolittle RF. 1997. Some reflections on the early days of sequence searching. J Mol Med. Apr;75(4):239-41. [3] Doolittle RF, Hunkapiller MW, Hood LE, Devare SG, Robbins KC, Aaronson SA, Antoniades HN. Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. 1983. Science. Jul 15;221(4607):275-7. [4] - E. W. Myers and W. Miller. 1988. Optimal alignments in linear-space. CABIOS 4:11-17 [5] - X. Huang and W. Miller. 1991. A time-efficient, linear-space local similarity algorithm. Adv. Appl. Math. 12:337-357 [6] Gotoh, O. 1982. An improved algorithm for matching biological sequences. J. Mol. Biol. 162, 705-708