Alinhamento simples

Propaganda
GFB
IST
2005/2006
Laboratório 1: Alinhamento de sequências
Com este trabalho de laboratório pretende-se abordar o problema do alinhamento
simples de sequências, explorando os conceitos de alinhamento global e alinhamento
local. O exemplo 1 ilustra um procedimento real onde novas informações são obtidas
por homologia.
1. Considere os dois alinhamentos seguintes:
Alinhamento 1
Seq1
Seq2
AGTGTGAAGGTCCCGGCTAAT---CG
: :: : : :
::: :::
::
A-TGCG--GCTAATGGC-AATATACG
Alinhamento 2
Seq1
Seq2
AGTGTGAAGGTCCCGGCTAAT---------CG
:
::
::::::::
::
A---TG-------CGGCTAATGGCAATATACG
a) Os dois alinhamentos anteriores foram obtidos utilizando a seguinte função
para a contabilização dos espaçamentos introduzidos:
 ( g )  d  ( g  1)e
sendo g o tamanho do espaçamento, d o valor de cada alinhamento com um
espaçamento e e o valor atribuido a cada extensão do espaçamento.
Nos dois alinhamentos anteriores foi utilizado o mesmo valor para a variável d
e valores diferentes para a variável e.
o Faça um comentário sobre os valores relativos considerados para a
variável e nestes dois alinhamentos.
o Que alinhamento seria de esperar se fosse considerado d = .
Descreva-o.
2. Preencha as seguintes tabelas de programação dinâmica utilizando os seguintes
parâmetros: igualdade (match) = +1; desigualdade (mismatch) = -1; espaçamento
(gap) = -1.
a. Escreva os melhores alinhamentos obtidos, ilustrando o caminho que os
originou.
b. Calcule o valor associado a cada um dos alinhamentos.
 Alinhamento global:
A
A
C
G
A
T
A
A
C
 Alinhamento local:
A
A
C
G
A
T
A
A
C
C
G
T
T
A
C
C
G
T
T
A
C
Exemplo 1: Semelhanças entre Oncogenes
No fim dos anos 70, o investigador Russell Doolittle [1] utilizou uma base de dados
de sequências biológicas para identificar genes com funções semelhantes. Este
trabalho foi pioneiro na utilização de algoritmos para análise de sequências biológicas
[2, 3].
Pretende-se neste trabalho seguir os passos dados por Doolittle quando tentava
descobrir os módulos funcionais do v-mos oncogene do vírus Moloney Murine
Sarcoma. Pela mesma época foram publicadas algumas descobertas, incluindo a
sequência, relativas ao v-src oncogene do vírus Rous Sarcoma.
Para realizar o trabalho serão utilizados um conjunto de algoritmos disponíveis no
seguinte site: Biology WorkBench (http://workbench.sdsc.edu/).
a. Se for utilizador pela primeira vez, registe-se no site.
Nota: Por omissão serão utilizados os parâmetros especificados para os
algoritmos.
b. Utilizando o menu “Nucleic Tools” e a acção “Add New Nucleic
Sequence” carregue para o sistema os ficheiros com as sequências em
formato fasta dos dois genes, vmos.fasta e vsrc.fasta. Atribua uma Label a
cada sequência e faça Save após cada carregamento.
c. Selecione as duas sequências introduzidas. Utilize o algoritmo ALIGN [4]
para obter um alinhamento global e o algoritmo LALIGN [5] para obter
um alinhamento local das sequências. Registe os resultados, percentagem
de nucleótidos identicos e valor, obtidos para cada um dos alinhamentos.
d. Com base nos alinhamentos obtidos, considera que estas sequências são
homólogas? (Nota: Para duas sequências aleatórias, qual esperaria ser a
percentagem de caracteres idênticos?)
e. Traduza cada uma das sequências de nucleótidos numa sequência de
aminoácidos. Utilize a ferramenta SIXFRAME. Porque é que se obtém
seis possíveis traduções? Qual é a que deve ser escolhida? Justifique.
f. Seleccione a tradução que considera mais promissora e carregue-a
utilizando o botão “Import Sequences” no fundo da página.
g. Alinhe as duas sequências de aminoácidos utilizando os algoritmos
ALIGN e LALIGN a partir do menu “Protein Tools”. Considera que os
alinhamentos obtidos apresentam uma maior evidência de homologia
relativamente aos obtidos com o alinhamento das sequências de
nucleótidos?
Bibliografia:
[1] - http://juno.ucsd.edu/
[2] – Doolittle RF. 1997. Some reflections on the early days of sequence searching. J
Mol Med. Apr;75(4):239-41.
[3] Doolittle RF, Hunkapiller MW, Hood LE, Devare SG, Robbins KC, Aaronson SA,
Antoniades HN. Simian sarcoma virus onc gene, v-sis, is derived from the gene (or
genes) encoding a platelet-derived growth factor. 1983. Science. Jul
15;221(4607):275-7.
[4] - E. W. Myers and W. Miller. 1988. Optimal alignments in linear-space. CABIOS
4:11-17
[5] - X. Huang and W. Miller. 1991. A time-efficient, linear-space local similarity
algorithm. Adv. Appl. Math. 12:337-357
[6] Gotoh, O. 1982. An improved algorithm for matching biological
sequences. J. Mol. Biol. 162, 705-708
Download