EG - TP2 bioinformática

Propaganda
Mestrado em Engenharia Biomédica
Engenharia Genética
Relatório
TP2 A – Análise de uma sequência de nucleótidos e de uma sequência
proteica recorrendo a ferramentas bioinformáticas
Relatório realizado por:
Tatiana Sirgado nº 58412
Miguel Amador Rosa nº58484
Joana David Nunes nº58497
João Silva Marques nº58513
1º Semestre, Ano Lectivo 2008/2009
TP2 A
Engenharia Genética
2008/2009
Índice
Análise de uma sequência de nucleótidos ...................................................................................... 3
Análise de uma sequência proteica ................................................................................................ 7
BLAST:........................................................................................................................................ 7
Propriedades Físico-Químicas .................................................................................................... 9
Localização da proteína na célula ............................................................................................. 15
Modificações pós-traducionais e domínios ............................................................................... 17
Estrutura Secundária ................................................................................................................ 22
Estrutura Terciária ................................................................................................................... 25
Alinhamento ............................................................................................................................ 28
Conclusão .................................................................................................................................... 30
2
TP2 A
Engenharia Genética
2008/2009
a) Análise de uma sequência de nucleótidos
Usámos como base para esta análise a seguinte sequência de nucleótidos em formato FASTA:
>SMb | 4912 | SMb; | SMb-15439-20350
ATAGAGCGTTTCACTGTTTGATTGAGACAGCTACGCACTTGCGCACGGCCGTCCGGAACTTTTGGCCAGGGGGCAGGTTGGAGCTCTGGCAAGGAGC
GCGGTCGATGCGCGGACCACATCCGCCTTTCGGGACTGCGGGTGTGTCCCCTCGTTCTCGGCGCCGCCTTCGGCATGCGATCACAAGGGGGTACTCGC
GCACCTCCCCCCGCTGATGACCACCCTGGGCAGCGATGAATAATGATCTCCTGATCATCCTGGGAATTGCGGCGGCGGCGGCCGTCGCATCGCCCCTG
GGCGGCCTGGTGGCGATCTCGCTCAGGCCGTCCAGCCTCGTGCTCTCGATCGCCGTCGGCTTCGCGGCCGGCGTCCTCATGGGCACCTTCGCTTTCGA
GATGATGCCCACCTCCATGGAACTTGCAGGTCTTCCGCTTGCCGTTGCCGGGTTTCTGCTCGGCCTGGGACTCGTCTATATTCTCGACCTCTACGTCAAC
CGCTGGAAAATGGCCGGACCGGAAGCGGATCAGAAGGCCGAGGTCGATCGCCTGCACCGGCGGCGCAGGCCGCGCGGGAGCAATGTCGCGGTGCT
CGCCGGCGGCACGAGTGCGGAAGAGCTGATCGAAGGCATGACGATCGGTGTCGGCGCGACCTTCGAGCCTGAGGTGGCGCTGATCGTGGGTCTCGC
GATCTGCATCGACAATTTCAGCGAGGGAATGAGCATCGGCGAATTGACGCTCGACGAGGAGCGGAAGAACGCAAAGCGCCGGACACTCGGATGGAC
ATCACTCATCGGACTCTCCCTTTTCGTTTCCGCCGTGGCAGGGTGGTTCCTCCTGAAAGGCCTGGCCCAGCCGGTCACCGGTTTTCTTTTCGCGACGGGA
GCGGGCGGGATGTTCTACCTGACGATTACCGACCTCGTGCCGGAAGCGGAGTCGCACCAGTTCCAGCAATCCTCCGCGATCGCCAATGCCGCCGGCTT
CCTGCTCGTCATGGTGCTTGCGCAGATGAGCTGACGCAATCGCGTCTTGAGGAGTGCCCGTCCGTTCAGACGATCGCCCGGTCCCAGCCCCCATAATG
TTCTTCGCTGCGCGTGCCGCGCGGAAGGCTGAGCGCGATCAATGCCAGGCCGATCGCGAGATTGGCCACGGTGGCGACCGTGCTGCCGCCGGCAAGC
AGGAAGGGCGAAGCCGCCACCCAGGCGCCGAGCAGCACATTCAGGAAACGCACCGGACGGACGACCTCCGCCATGGCGGTGACGGCAACCAGGATC
ACGACGCAGCCGAGAATGTGGTCGCTGTGATAGAGCGGCGGGACGCTGCCGAAAACTATGGGCGTCGTCATCAGGACCGCGCCGAGCAGAGCGCTC
GCGACCAGCGTCCAGGGGAAGTTGACGCCGCCGACGATGAATTCCTTCAGCAGCTCGGAGGCGGGCCGGTTGAGGTCGGGGGCCGGCGTCTGGTCC
TCCGAAATGGCCGGGCCGCCCATCCAGAACGTCCGCCAGAAGGGCTCGCCCGCCTTTCTTACGCGCCAGAGATACTGGATGGTCGCGAGCACCTCGTC
GATCGAATAGGGGATGAGCACGACGGTGACGGCCGCCTGGATGATGCAGAGCGTGCAGAGTGCGCCGATAAGCGGCGGCTGGATGATGATGAAGG
AGACGCTGACGGCGCCGAGGGGCACGATCAGCAGGCCGAAGAGGAGCACCATCCAGGGCATGGTGCGCCAGCGGCGACTGTCTCCGATCGCGCCG
GCCAGAATGTCAAGCGCATAGGCGAAGGCGCCCAGGCCGGCATCGGCGATCGGAAAGCCCTTGGAAACCCAGGACGTCACGACCGCCTCGCTGCCG
TTGCGGACGGGGGCCTCGCCCGGGCCGAAGAACGGGTCCCAGAGCCCGTCGACATGGCCCATCTGATAGGCGGCGAGATAGCGCGAGACGAAGAG
GCCGACGAAGGCGAGCGCGACGATCGGCATGCGCTGGGTGAAGGAGGACGGCGAATAGCTCCAGCCGAGCGGCCGGTCGTCGTCGGCCGCGAGCG
CCCGCAGCCTTATGCCGGGTGTCGGCGGAATCATAACCGCAAAAGCCACGATCAGCATGCCGGCAAGCGTATCGACGGCGTAGGCCGCAGCACTCGT
CGTCCAGAAGACAAGCGGGGCCAGCATGATCCAGACGCCGAGCGCTGCCGTGATCCATTGCGCATGGGACCAGCGCCGGTACATGCCGAAAAGCGC
GAATGCCGCAACGAGCAATCCGGACAGGATCTCGCTGATCCCGAGTCGGGCATTGCGTATGGCGGGCTCCGCGATCTCGTGGCCGAGCGCCGGCGGC
AGTGGCACGCCGACGGGGTCGAAAAGGCCGAGCGTCGCCGGCGAGGAGACGAGCCACAGGCCGAGAGCGACATTTGCCAGCGGCGCCCAGAGCGT
GCGCAGCCGGTGTTCTTCCACGGCAACTTCGACTTCAGCGTCGCTGCGCTCCAGCGGCTCCGCCAGGCGTTTCTCCGCCTGCTCGATTTCCGGATCCGA
GGCGGCGACCACGGAGGGCTCCAGCTTGTTCTTCGCGTACCAGGCGGTCGGGTCTTGCTTGAGCCGCCGGATCATTTCCGGCAACGTCGCAGCTAGG
CTGTGTCTCGGCTCCCAGCCGAGCTTTTTGCGGGCACGGGAGATGTCGATCTCGTAATGATCGTCCGAGTTCTCGATCATCCACGGCTTAATCTCCGAC
TCCTCGTCGAGCACCTCGGTCTGCATCCATGCCCCCGGCTTGGCAAGGCTCTTCGGCAGGGCGAGCGTGCGCCAGTCCTCGCCGTGGATCAGCCGGCC
GATACGCTTCTGCAAGTCGCCATAGGAGAGCGTTTCCTCCTCGCCGATCAGGAACACGCAATCGTCGGGCAATTCGTTGCGGTGGCCGACGGTGCGCG
CGAAAGCCTCGACCAGATCGTCCTTGTGCAGATAGGGCTGGCCCGCGTCCAGATCGCCGCTGAACAGATAGGCCGTCGGGAGCCGCTCGAAGATGCG
GGCGATCTGCTGGGCGATGAAAGCGGCTCGGCAGTCCTCGTCATAGACGCCGGCGAGGCGAAGAGTCGCGGTCCTGATCGCGCCGCGATGTTTGGC
GATTCCCGCCTCGGTTTCGGCCTTCGACTTGGGGTAGGCCCAGGCGGGGTCCAGCGGATCATCCTCGTTGATCCGCGCACCCTTGGCCGGACTGGGTG
CCTGCACCAGCAGCGTGCTTGCATAGATGAACTGTTCGGTGGGAAGGCCCTGCAGCGCCTCCAGCAGCCGGCGCGTGCCCTCGACATTGACGGCACC
GTATTTGGGGTTGTCCTTGCCGGTGGTGTCGTAATAGGCGGCAAGATGAATGACGGAAGCAAGGCGCCCGCCGCTACGCTTACCCGCCGTCTCGATC
GCCTCTCTCACGCTTTCGTCGGAGGTGATGTCGAGTTTGATCGTCTCTTCGGTCTCGGACTCGCCCTTCGGAGGGGACAGGTCGAGCCCGATGACGCG
ATACCGGTCCCTCAGGCGATGCGCGATCGCCTGGCCCAGGAAACCGCTCGAGCCGGTAATGAGAACGGTCGGCTGATTTGCATCTTTCGGCATGCCGA
AGCAAACCGCGCTCCGGCAGGAAGGTTCCCGACCTGGTTGAGCGAAAGAACTACGCCCCCGTTCGCGCCACGACGGGCACATAGTCTTCCAGCTCCG
GCGCGGGGAAATGCAGCGTCGCGCCGATCTCGGCGGAGCGGTAGAGGCCCATCAGGATTTCGACGACCGCCAGGCCGTCCTCGAAGGTTTCGAGCG
GCTTTATCCCCTTGCGGAAGCATTCGACCATGTGGCGGTTTTCGTCCGTATAGCCGTAGACGCCGGCCTCGTCCTCAAGCACCGGCATCAGGCCCTGCT
CGGCATTCTGTTTTTCGACGAGGTCCTCGCCCTCGGTGCCCTGCACGGCCCGCGACAGGAATATCTTCAAGCCGGTGCCGAGCGAATTGTACTCCAGC
GCATATTCGGGCCCGAGAAGCTCGAGCTGGATGCGCAGGCCGGCGCCGACATAGGCCCAGGAGGTCGTTGCCTCGATCATCAGTTCGTTGCCCTCCTC
GTCCTCCAGCGCCGCGGTGGCGCGGGCGAAATCCTCCGATGGGCGCCGGCGGTAGTCGACATCCTCACCGAAGCGGCGGCGCAGCTCATCGGCATAG
CCCGCCCGCGTCCATTTGAGGTTCGCCACCGTGCCGTTCACCGACTTGACCTTCAGCGAATTGCGGGGGGCACCGGGCGCCGTGAGCAGATGGCGCG
CCACCTCAACGCTGTGGCACATCATATCGGAAAGCACCCCACCGCCCTGCTTGTCGCCCTGCCAGAACCAGGGCTCGTGCGGACCGGCATGTTCTTCCG
CGGCGCGTGCGAGATAGGGCCGGCCGGTGGTCGAGGCGGCGCGCCGCCAGATGATCTCCTTGCCCCGCAGCACCGGTGTGCAGAAGACCTGGTTTTC
GAGATAGCCATGGTTGAGACCGGCATCCTCGGCCAGGTGCAGCATCTCGCGTGCCTCCGCCACAGTGCGCGCAAGCGGCTTCTCGCAGGCGACCGCA
AAGATCTTGCCGCGTCCCGCCTTGATCTCCCGGTGGAGCGTCCGCATGACGTCGAGCCGGGTGTAGTTCGGCGACAGAATCCAGACCGCATCGACGTC
GCCGGCGGACAGGAGCGATTCGAGACTCTCATGCGCGCGGCACTCGCCGAGATCGAGCGCCTCGACTTCGCTCACGAAGCGCGCGCGGTTTTCGGGA
TTGCGGCTGTAGACGCCGGTCACCTCGACATTGCGTACCCCGATGAGCGATTTGAGGTGGAAATGCGCGATAAAGCCGGTGCCGACGAAGCCGACGC
GCAAGGTCTGTTTCGGTAATGTGGTCATTCTTTCCTCCCCGATAATGAGCGGCGA
3
TP2 A
Engenharia Genética
2008/2009
Recorrendo ao site http://www.ncbi.nlm.nih.gov foi-nos possível, através da ferramenta
BLAST, identificar esta sequência de nucleótidos como sendo pertencente a Sinorhizobium meliloti
1021, com 100% de correspondências e 0% de interrupções na cadeia, como podemos ver pela
seguinte imagem:
Figura 1: BLAST da sequência de nucleótidos
De seguida, recorremos à ferramenta ORF Finder (http://www.ncbi.nlm.nih.gov/gorf/gorf.html)
para determinar o número de genes presentes nesta região e a sua orientação. Assim, obtivemos
os seguintes resultados:
Figura 2: Resultados do ORF Finder
Com base nos dados obtidos, procedemos à análise de cada um dos possíveis genes, sendo
que se verificou que três deles possuíam domínios conservados, pelo que se conclui que a nossa
sequência é composta por três genes:
Figura 3: Genes que compõem a sequência
Agora, para podermos determinar a orientação de cada gene na sequência, fizemos BLAST
de cada um dos três genes e verificámos que, por ordem decrescente de tamanho, os dois
primeiros genes estão orientados no sentido 3’–5’ enquanto que o último está orientado no
sentido 5’–3’. Este facto está representado na figura seguinte:
4
TP2 A
Engenharia Genética
2008/2009
Figura 4: Orientação dos genes que compõem a sequência, por ordem decrescente de tamanho
Por fim, para concluir esta primeira parte do trabalho, determinámos, através dos dados
obtidos com o ORF Finder, a sequência de aminoácidos correspondente a cada um dos três genes,
a origem da proteína composta por essa sequência de aminoácidos, e os cinco melhores
homólogos dessa proteína. Assim, começando para o gene de maior tamanho, a sequência de
aminoácidos é:
MPKDANQPTVLITGSSGFLGQAIAHRLRDRYRVIGLDLSPPKGESETEETIKLDITSDESVREAIETAGKRSGGRLASVIHLAAYYDTTGKDNPKYGAVNVEGTR
RLLEALQGLPTEQFIYASTLLVQAPSPAKGARINEDDPLDPAWAYPKSKAETEAGIAKHRGAIRTATLRLAGVYDEDCRAAFIAQQIARIFERLPTAYLFSGDLDA
GQPYLHKDDLVEAFARTVGHRNELPDDCVFLIGEEETLSYGDLQKRIGRLIHGEDWRTLALPKSLAKPGAWMQTEVLDEESEIKPWMIENSDDHYEIDISRAR
KKLGWEPRHSLAATLPEMIRRLKQDPTAWYAKNKLEPSVVAASDPEIEQAEKRLAEPLERSDAEVEVAVEEHRLRTLWAPLANVALGLWLVSSPATLGLFDPV
GVPLPPALGHEIAEPAIRNARLGISEILSGLLVAAFALFGMYRRWSHAQWITAALGVWIMLAPLVFWTTSAAAYAVDTLAGMLIVAFAVMIPPTPGIRLRALA
ADDDRPLGWSYSPSSFTQRMPIVALAFVGLFVSRYLAAYQMGHVDGLWDPFFGPGEAPVRNGSEAVVTSWVSKGFPIADAGLGAFAYALDILAGAIGDSRR
WRTMPWMVLLFGLLIVPLGAVSVSFIIIQPPLIGALCTLCIIQAAVTVVLIPYSIDEVLATIQYLWRVRKAGEPFWRTFWMGGPAISEDQTPAPDLNRPASELLK
EFIVGGVNFPWTLVASALLGAVLMTTPIVFGSVPPLYHSDHILGCVVILVAVTAMAEVVRPVRFLNVLLGAWVAASPFLLAGGSTVATVANLAIGLALIALSLPR
GTRSEEHYGGWDRAIV
Figura 5: Sequência de aminoácidos do gene de maior tamanho (proteína NP 436555)
Esta proteína provém, tal como a sequência de aminoácidos, de Sinorhizobium meliloti
1021, com 100% de correspondências e 0% de interrupções na cadeia. Os 5 melhores homólogos
desta proteína estão representados na seguinte tabela:
Nome
Organismo
Identidades
Positivos
Gaps
Score
E Value
YP 001312859
YP 001424189
YP 617594
ZP 02154912
YP 157107
Sinorhizobium
89%
93%
0%
medicae WSM419
Coxiella burnetii
43%
64%
2%
Dugway 5J108-111
Sphingopyxis
44%
61%
5%
alaskensis RB2256
Oceanibulbus
43%
62%
1%
indolifex HEL-45
Aromatoleum
47%
62%
4%
aromaticum EbN1
Tabela 1: 5 melhores homólogos da proteína NP 436555
1546
0.0
741
0.0
728
0.0
723
0.0
715
0.0
Agora, para o segundo gene de maior tamanho, a sequência de aminoácidos é:
MTTLPKQTLRVGFVGTGFIAHFHLKSLIGVRNVEVTGVYSRNPENRARFVSEVEALDLGECRAHESLESLLSAGDVDAVWILSPNYTRLDVM
RTLHREIKAGRGKIFAVACEKPLARTVAEAREMLHLAEDAGLNHGYLENQVFCTPVLRGKEIIWRRAASTTGRPYLARAAEEHAGPHEPWFW
QGDKQGGGVLSDMMCHSVEVARHLLTAPGAPRNSLKVKSVNGTVANLKWTRAGYADELRRRFGEDVDYRRRPSEDFARATAALEDEEGNELM
IEATTSWAYVGAGLRIQLELLGPEYALEYNSLGTGLKIFLSRAVQGTEGEDLVEKQNAEQGLMPVLEDEAGVYGYTDENRHMVECFRKGIKP
LETFEDGLAVVEILMGLYRSAEIGATLHFPAPELEDYVPVVARTGA
Figura 6: Sequência de aminoácidos do segundo gene de maior tamanho (proteína NP 436556)
5
TP2 A
Engenharia Genética
2008/2009
Esta proteína, tal como a anterior, provém de Sinorhizobium meliloti 1021, com 100% de
correspondências e 0% de interrupções na cadeia. Os 5 melhores homólogos desta proteína estão
representados na seguinte tabela:
Nome
Organismo
YP 001312857
YP 672830
YP 643181
NP 344320
ZP 03179970
Identidades
Positivos
Gaps
Sinorhizobium medicae
93%
96%
0%
WSM419
Mesorhizobium sp.
83%
90%
0%
BNC1
Rubrobacter
66%
78%
0%
xylanophilus DSM 9941
Sulfolobus solfataricus
47%
64%
0%
P2
Streptomyces sp. SPB74
47%
64%
0%
Tabela 2: 5 melhores homólogos da proteína NP 436556
Score
E Value
806
0.0
717
0.0
553
9e-156
405
3e-111
378
6e-103
Finalmente, para o gene de menor tamanho, a sequência de nucleótidos é:
MNNDLLIILGIAAAAAVASPLGGLVAISLRPSSLVLSIAVGFAAGVLMGTFAFEMMPTSMELAGLPLAVAGFLLGLGLVYILDLYVNRWKMA
GPEADQKAEVDRLHRRRRPRGSNVAVLAGGTSAEELIEGMTIGVGATFEPEVALIVGLAICIDNFSEGMSIGELTLDEERKNAKRRTLGWTS
LIGLSLFVSAVAGWFLLKGLAQPVTGFLFATGAGGMFYLTITDLVPEAESHQFQQSSAIANAAGFLLVMVLAQMS
Figura 7: Sequência de aminoácidos do terceiro gene de maior tamanho (proteína NP 436554)
Esta proteína, tal como a anterior, provém de Sinorhizobium meliloti 1021, com 100% de
correspondências e 0% de interrupções na cadeia. Os 5 melhores homólogos desta proteína estão
representados na seguinte tabela:
Nome
Organismo
Identidades Positivos Gaps
Score
E Value
YP 001312860
Sinorhizobium medicae
WSM419
YP 674431
Mesorhizobium sp. BNC1
YP 001322002
Alkaliphilus metalliredigens
QYMF
ZP 02861197
Anaerofustis stercorihominis
DSM 17244
YP 001916223
Natranaerobius
thermophilus JW/NM-WN-LF
Tabela 3: 5 melhores homólogos da proteína NP 436554
90%
95%
0%
426
9e-118
62%
29%
75%
48%
0%
6%
293
78.2
1e-77
6e-13
27%
46%
7%
73.9
1e-11
28%
45%
9%
72.4
3e-11
6
TP2 A
Engenharia Genética
2008/2009
b) Análise de uma sequência proteica
A base desta segunda parte do nosso trabalho foi a identificação P38441, correspondente
à proteína que pretendemos identificar e estudar.
Para dar inicio à análise foi necessário encontrar a sequência de aminoácidos
correspondente à identificação fornecida pelos docentes. Assim recorremos à base de dados NCBI
(http://www.ncbi.nlm.nih.gov/) e obtivemos a sequência de aminoácidos da proteína em formato
FASTA como está indicada abaixo.
>gi|461600|sp|P34097.1|AZUR_PSEPU RecName: Full=Azurin
AECKVTVDSTDQMSFNTKDIAIDKSCKTFTVELTHSGSLPKNVMGHNLVISKEADMQPIATDGLSAGIDK
QYLKDGDARVIAHTKVIGAGEKDSVTFDVSKLAAGEKYGFFCSFPGHISMMKGTVTLK
Figura 8: Proteína dada em formato FASTA
Para além disto foi também possível identificar que a proteína associada à identificação
fornecida é a Azurin, e é proveniente da bactéria Pseudomonas putida.
BLAST:
Para prosseguir com o nosso trabalho é necessário recorrer a mais uma ferramenta, para
encontrarmos alguns homólogos da proteína dada. A ferramenta utilizada é o BLAST, mais
concretamente
BLASTp
(proteína-proteína),
que
é
disponibilizada
pelo
NBCI
(http://blast.ncbi.nlm.nih.gov/Blast.cgi). De seguida apresentamos os 5 melhores resultados obtidos, de
proteínas homólogas à dada, para organismos distintos entre si.
Identificação
da Proteína
P00284
P00286
YP_233699
AAM21270
P00283
Organismo
Pseudomonas
fluorescens bv. B
Pseudomonas
chlororaphis
Pseudomonas
syringae
Pseudomonas sp.
OPS1
Pseudomonas
denitrificans
Identidades
Positivos
Gaps
Score
(Bits)
E-Value
89%
93%
0%
240
3e-62
82%
88%
0%
219
6e-56
76%
85%
0%
206
6e-52
71%
85%
0%
204
2e-51
69%
82%
0%
197
2e-49
Tabela 4: 5 melhores homólogos da proteína P34097 encontrados através do BLASTp
7
TP2 A
Engenharia Genética
2008/2009
Podemos concluir através da observação dos resultados que há uma grande homologia
entre as sequências seleccionadas pois os valores de score são elevados e os valores do erro são
muito próximos de 0.
Para que seja possível utilizar estas proteínas nas próximas análises é necessário obter a
sua sequência de aminoácidos em formato FASTA. Esses resultados são apresentados na tabela
seguinte.
Identificação
da Proteína
Sequência em formato FASTA
>gi|114747|sp|P00284.1|AZUR_PSEFB RecName: Full=Azurin
AECKTTIDSTDQMSFNTKAIEIDKACKTFTVELTHSGSLPKNVMGHNLVISKQADMQPIATDGLSAG
IDKNYLKEGDTRVIAHTKVIGAGEKDSLTIDVSKLNAAEKYGFFCSFPGHISMMKGTVTLK
>gi|114749|sp|P00286.1|AZUR_PSECL RecName: Full=Azurin
AECKVDVDSTDQMSFNTKEITIDKSCKTFTVNLTHSGSLPKNVMGHNWVLSKSADMAGIATDGMAAG
P00286
IDKDYLKPGDSRVIAHTKIIGSGEKDSVTFDVSKLTAGESYEFFCSFPGHNSMMKGAVVLK
>gi|66043858|ref|YP_233699.1| blue (type1) copper domain-containing
protein [Pseudomonas syringae pv. syringae B728a]
MIRKLVAISLLSLASGQLLAAECSVTVDSTDQMMYDTKAIEIDKSCKEFTVNLTHSGSLPKNVMGHN
YP_233699
WVLGKKADTQAVVTDGMAAGIDKDYLKPDDSRVIAHTKVIGAGEKDSVTFDVSKLDPAQEYQFFCTF
PGHISMMKGAVTLK
>gi|20385340|gb|AAM21270.1|AF368761_5 azurin [Pseudomonas sp. OPS1]
MIRTLISASLITLFSGQLLAAECSLKVESTDQMTFNYSSIIVDKSCKIFTVELQHTGKLPKNIMGHN
AAM21270
WVLSKEADARAIATDGMSAGVEREYLKDGDMRVIAHTKIIGGGERDSVTFVVSKLNVSDKYLFFCSF
PGHISMMKGTLTLK
>gi|114750|sp|P00283.1|AZUR_PSEDE RecName: Full=Azurin
AECSVDIQGNDQMQFSTNAITVDKACKTFTVNLSHPGSLPKNVMGHNWVLTTAADMQGVVTDGMAAG
P00283
LDKNYVKDGDTRVIAHTKIIGSGEKDSVTFDVSKLKAGDAYAFFCSFPGHSAMMKGTLTLK
Tabela 5: Sequências FASTA dos homólogos da proteína P34097
P00284
Vamos de seguida analisar algumas propriedades e características, tanto da proteína dada
como das suas 5 homólogas.
8
TP2 A
Engenharia Genética
2008/2009
Propriedades Físico-Químicas
Foi feita uma análise das propriedades físico-químicas das proteínas utilizando para isso
uma ferramenta disponível através da Expasy (http://www.expasy.ch/tools/protparam.html). Os
resultados obtidos para cada proteína estão representados de seguida:
Proteína P34097 (dada):
Nº de aminoácidos
Peso molecular (Daltons)
Ponto Isoelectrónico (Teórico)
Composição Atómica
128
13718,6
6,46
Carbono (C)
Hidrogénio (H)
Azoto (N)
Oxigénio (O)
Enxofre (S)
Nº total de resíduos carregados negativamente (Asp + Glu)
Nº total de resíduos carregados positivamente (Arg + Lys)
Formula Química
Nº total de átomos
Coeficiente de Extinção (M-1cm-1, at 280 nm measured in
water)
Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys
aparecem como meias cisteínas
Tempo de meia-vida estimado (o terminal-N considerado
na sequência foi a Alanina)
Índice de instabilidade
Índice alifático
GRAVY (Grand average of hydropathicity)
Ala (A)
Arg (R)
Asn (N)
Asp (D)
Cys (C)
Gln (Q)
Glu (E)
Gly (G)
His (H)
Ile (I)
Leu (L)
10
1
3
11
3
3
5
11
4
8
7
600
965
159
191
8
16
15
C600H965N159O191S8
1923
3150
0,226
4,4 horas (retículos dos mamíferos,
in vitro)
>20 horas (levedura, in vivo)
>10 horas (E. coli, in vivo)
20,60 (proteína estável)
76,17
-0,163
Composição em aminoácidos
7,8%
Lys (K)
0,8%
Met (M)
2,3%
Phe (F)
8,6%
Pro (P)
2,3%
Ser (S)
2,3%
Thr (T)
3,9%
Trp (W)
8,6%
Tyr (Y)
3,1%
Val (V)
6,2%
Pyl (O)
5,5%
Sec (U)
14
5
6
3
11
11
0
2
10
0
0
10,9%
3,9%
4,7%
2,3%
8,6%
8,6%
0,0%
1,6%
7,8%
0,0%
0,0%
Tabela 6: Resultados da análise das propriedades físico-químicas da proteína P34097
9
TP2 A
Engenharia Genética
2008/2009
Proteína P00284:
Nº de aminoácidos
Peso molecular (Daltons)
Ponto Isoelectrónico (Teórico)
Composição Atómica
128
13798,8
7,10
Carbono (C)
Hidrogénio (H)
Azoto (N)
Oxigénio (O)
Enxofre (S)
Nº total de resíduos carregados negativamente (Asp + Glu)
Nº total de resíduos carregados positivamente (Arg + Lys)
Formula Química
Nº total de átomos
Coeficiente de Extinção (M-1cm-1, at 280 nm measured in
water)
Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys
aparecem como meias cisteínas
Tempo de meia-vida estimado (o terminal-N considerado
na sequência foi a Alanina)
Índice de instabilidade
Índice alifático
GRAVY (Grand average of hydropathicity)
Ala (A)
Arg (R)
Asn (N)
Asp (D)
Cys (C)
Gln (Q)
Glu (E)
Gly (G)
His (H)
Ile (I)
Leu (L)
10
1
5
9
3
3
6
10
4
10
8
602
977
161
192
8
15
15
C602H977N161O192S8
1940
3105
0,225
4,4 horas (retículos dos
mamíferos, in vitro)
>20 horas (levedura, in vivo)
>10 horas (E. coli, in vivo)
27,66 (proteína estável)
78,52
-0,212
Composição em aminoácidos
7,8%
Lys (K)
0,8%
Met (M)
3,9%
Phe (F)
7,0%
Pro (P)
2,3%
Ser (S)
2,3%
Thr (T)
4,7%
Trp (W)
7,8%
Tyr (Y)
3,1%
Val (V)
7,8%
Pyl (O)
6,2%
Sec (U)
14
5
5
3
10
13
0
2
7
0
0
10,9%
3,9%
3,9%
2,3%
7,8%
10,2%
0,0%
1,6%
5,5%
0,0%
0,0%
Tabela 7: Resultados da análise das propriedades físico-químicas da proteína P00284
10
TP2 A
Engenharia Genética
2008/2009
Proteína P00286:
Nº de aminoácidos
Peso molecular (Daltons)
Ponto Isoelectrónico (Teórico)
Composição Atómica
128
13742,6
6,06
Carbono (C)
Hidrogénio (H)
Azoto (N)
Oxigénio (O)
Enxofre (S)
Nº total de resíduos carregados negativamente (Asp + Glu)
Nº total de resíduos carregados positivamente (Arg + Lys)
Formula Química
Nº total de átomos
Coeficiente de Extinção (M-1cm-1, at 280 nm measured in
water)
Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys
aparecem como meias cisteínas
Tempo de meia-vida estimado (o terminal-N considerado
na sequência foi a Alanina)
Índice de instabilidade
Índice alifático
GRAVY (Grand average of hydropathicity)
Ala (A)
Arg (R)
Asn (N)
Asp (D)
Cys (C)
Gln (Q)
Glu (E)
Gly (G)
His (H)
Ile (I)
Leu (L)
9
1
5
11
3
1
5
11
4
7
6
598
949
159
193
9
16
14
C598H949N159O193S9
1908
8605
0,626
4,4 horas (retículos dos
mamíferos, in vitro)
>20 horas (levedura, in vivo)
>10 horas (E. coli, in vivo)
22,95 (proteína estável)
69,30
-0,216
Composição em aminoácidos
7,0%
Lys (K)
0,8%
Met (M)
3,9%
Phe (F)
8,6%
Pro (P)
2,3%
Ser (S)
0,8%
Thr (T)
3,9%
Trp (W)
8,6%
Tyr (Y)
3,1%
Val (V)
5,5%
Pyl (O)
4,7%
Sec (U)
13
6
6
3
14
10
1
2
10
0
0
10,2%
4,7%
4,7%
2,3%
10,9%
7,8%
0,8%
1,6%
7,8%
0,0%
0,0%
Tabela 8: Resultados da análise das propriedades físico-químicas da proteína P00286
11
TP2 A
Engenharia Genética
2008/2009
Proteína YP_233699:
Nº de aminoácidos
Peso molecular (Daltons)
Ponto Isoelectrónico (Teórico)
Composição Atómica
148
16029,4
6,05
Carbono (C)
Hidrogénio (H)
Azoto (N)
Oxigénio (O)
Enxofre (S)
Nº total de resíduos carregados negativamente (Asp + Glu)
Nº total de resíduos carregados positivamente (Arg + Lys)
Formula Química
Nº total de átomos
Coeficiente de Extinção (M-1cm-1, at 280 nm measured in
water)
Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys
aparecem como meias cisteínas
Tempo de meia-vida estimado (o terminal-N considerado
na sequência foi a Alanina)
Índice de instabilidade
Índice alifático
GRAVY (Grand average of hydropathicity)
Ala (A)
Arg (R)
Asn (N)
Asp (D)
Cys (C)
Gln (Q)
Glu (E)
Gly (G)
His (H)
Ile (I)
Leu (L)
13
2
3
13
3
5
5
10
4
8
12
705
1137
185
219
10
18
16
C705H1137N185O219S10
2256
10095
0,630
30 horas (retículos dos mamíferos,
in vitro)
>20 horas (levedura, in vivo)
>10 horas (E. coli, in vivo)
25,00 (proteína estável)
86,96
-0.037
Composição em aminoácidos
8,8%
Lys (K)
1,4%
Met (M)
2,0%
Phe (F)
8,8%
Pro (P)
2,0%
Ser (S)
3,4%
Thr (T)
3,4%
Trp (W)
6,8%
Tyr (Y)
2,7%
Val (V)
5,4%
Pyl (O)
8,1%
Sec (U)
14
7
5
4
12
11
1
3
13
0
0
9,5%
4,7%
3,4%
2,7%
8,1%
7,4%
0,7%
2,0%
8,8%
0,0%
0,0%
Tabela 9: Resultados da análise das propriedades físico-químicas da proteína YP_233699
12
TP2 A
Engenharia Genética
2008/2009
Proteína AAM21270:
Nº de aminoácidos
Peso molecular (Daltons)
Ponto Isoelectrónico (Teórico)
Composição Atómica
148
16297.9
8,44
Carbono (C)
Hidrogénio (H)
Azoto (N)
Oxigénio (O)
Enxofre (S)
Nº total de resíduos carregados negativamente (Asp + Glu)
Nº total de resíduos carregados positivamente (Arg + Lys)
Formula Química
Nº total de átomos
Coeficiente de Extinção (M-1cm-1, at 280 nm measured in
water)
Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys
aparecem como meias cisteínas
Tempo de meia-vida estimado (o terminal-N considerado
na sequência foi a Alanina)
Índice de instabilidade
Índice alifático
GRAVY (Grand average of hydropathicity)
Ala (A)
Arg (R)
Asn (N)
Asp (D)
Cys (C)
Gln (Q)
Glu (E)
Gly (G)
His (H)
Ile (I)
Leu (L)
9
5
4
8
3
3
7
11
4
12
14
723
1169
191
215
10
15
17
C723H1169N191O215S10
2308
10095
0,619
30 horas (retículos dos mamíferos,
in vitro)
>20 horas (levedura, in vivo)
>10 horas (E. coli, in vivo)
22,61 (proteína estável)
94.19
0.099
Composição em aminoácidos
6,1%
Lys (K)
3,4%
Met (M)
2,7%
Phe (F)
5,4%
Pro (P)
2,0%
Ser (S)
2,0%
Thr (T)
4,7%
Trp (W)
7,4%
Tyr (Y)
2,7%
Val (V)
8,1%
Pyl (O)
9,5%
Sec (U)
12
7
7
2
15
11
1
3
10
0
0
8,1%
4,7%
4,7%
1,4%
10,1%
7,4%
0,7%
2,0%
6,8%
0,0%
0,0%
Tabela 10: Resultados da análise das propriedades físico-químicas da proteína AAM21270
13
TP2 A
Engenharia Genética
2008/2009
Proteína P00283:
Nº de aminoácidos
Peso molecular (Daltons)
Ponto Isoelectrónico (Teórico)
Composição Atómica
128
13620,4
6,45
Carbono (C)
Hidrogénio (H)
Azoto (N)
Oxigénio (O)
Enxofre (S)
Nº total de resíduos carregados negativamente (Asp + Glu)
Nº total de resíduos carregados positivamente (Arg + Lys)
Formula Química
Nº total de átomos
Coeficiente de Extinção (M-1cm-1, at 280 nm measured in
water)
Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys
aparecem como meias cisteínas
Tempo de meia-vida estimado (o terminal-N considerado
na sequência foi a Alanina)
Índice de instabilidade
Índice alifático
GRAVY (Grand average of hydropathicity)
Ala (A)
Arg (R)
Asn (N)
Asp (D)
Cys (C)
Gln (Q)
Glu (E)
Gly (G)
His (H)
Ile (I)
Leu (L)
12
1
6
11
3
4
2
12
4
5
7
593
939
161
188
9
13
12
C593H939N161O188S9
1890
8605
0,632
4,4 horas (retículos dos
mamíferos, in vitro)
>20 horas (levedura, in vivo)
>10 horas (E. coli, in vivo)
10,44 (proteína estável)
70,86
-0.131
Composição em aminoácidos
9,4%
Lys (K)
0,8%
Met (M)
4,7%
Phe (F)
8,6%
Pro (P)
2,3%
Ser (S)
3,1%
Thr (T)
1,6%
Trp (W)
9,4%
Tyr (Y)
3,1%
Val (V)
3,9%
Pyl (O)
5,5%
Sec (U)
11
6
6
3
9
12
1
2
11
0
0
8,6%
4,7%
4,7%
2,3%
7,0%
9,4%
0,8%
1,6%
8,6%
0,0%
0,0%
Tabela 11: Resultados da análise das propriedades físico-químicas da proteína P00283
14
TP2 A
Engenharia Genética
2008/2009
Localização da proteína na célula
Seguidamente pretendemos estudar a localização das proteínas nas respectivas células.
Para isso vamos recorrer a duas ferramentas. A primeira delas para saber se a proteína apresenta
domínios transmembranares TMHMM (http://www.cbs.dtu.dk/services/TMHMM-2.0/
2.0/) e a segunda para
definirmos exactamente qual a sua localização PSORT (http://www.psort.org/psortb/index.html
http://www.psort.org/psortb/index.html).
Os resultados encontram
encontram-se representados nas figuras abaixo.
Proteína P34097 (dada):
Figura 9: Probabilidades da localização dos aminoácidos ao longo da
Figura 10: Resultados da pesquisa do PSORT - localização da sequência proteica P34097
sequência proteica P34097
Proteína P00284:
Figura 11: Probabilidades da localização dos aminoácidos ao longo da
sequência proteica P00284
Figura 12: Resultados da pesquisa do PSORT - localização da sequência proteica
P00284
15
TP2 A
Engenharia Genética
2008/2009
Proteína P00286:
Figura 13: Probabilidades da localização dos aminoácidos ao longo da
sequência proteica P00286
Figura 14: Resultados da pesquisa do PSORT - localização da sequência proteica
P00286
Proteína YP_233699:
Figura 16: Probabilidades da localização dos aminoácidos ao longo da
sequência proteica YP_233699
Figura 15: Resultados da pesquisa do PSORT - localização da sequência proteica
YP_233699
Proteína AAM21270:
Figura 18: Probabilidades da localização dos aminoácidos ao longo da
Figura 17: Resultados da pesquisa do PSORT - localização da sequência proteica
sequência proteica AAM21270
0
AAM21270
16
TP2 A
Engenharia Genética
2008/2009
Proteína P00283:
Figura 19: Probabilidades da localização dos aminoácidos ao longo da
sequência proteica P00283
Figura 20: Resultados da pesquisa do PSORT - localização da sequência proteica P00283
Quanto a esta análise podemos concluir que, devido ao facto de as proteínas não
apresentarem domínios transmembranares, não podemos ter em conta os gráficos obtidos no
TMHMM. As informações sobre a localização, interior ou exterior na célula, não podem ser tidas
em consideração uma vez que esta base de dados não analisa este facto de forma correcta. Para
além disto, através da análise no PSORT podemos concluir que todas as proteínas se encontram no
periplasma.
Modificações pós-traducionais e domínios
O próximo passo desta análise consistiu em tentar perceber através das pesquisa em
diversas bases de dados quais as modificações pós-traducionais que as proteínas podem sofrer.
Para além disto pesquisamos sobre os domínios que as proteínas apresentam bem como as
funções que desempenham dentro da célula.
Para o primeiro ponto utilizamos a base de dados do Expasy
(http://www.expasy.org/tools/scanprosite/) e para o segundo foi utilizada a base de dados InterProScan
(http://www.ebi.ac.uk/Tools/InterProScan/). Os resultados obtidos foram abaixo representados.
Proteína P34097 (dada):
Figura 21: Resultado para a pesquisa de padrões da proteína P34097 (1)
17
TP2 A
Engenharia Genética
2008/2009
Figura 22: Resultado para a pesquisa de padrões da proteína P34097 (2)
Blue (type 1) copper domain
Posição inicial
Posição final
Funções
copper ion binding
128 aa
1
128
electron carrier activity
Tabela 12: Resultados da pesquisa de domínios da proteína P34097
Nº de nucleótidos da sequência
Processo Biológico
electron transport
Proteína P00284:
Figura 23: Resultado para a pesquisa de padrões da proteína P00284 (1)
Figura 24: Resultado para a pesquisa de padrões da proteína P00284 (2)
Blue (type 1) copper domain
Posição inicial
Posição final
Funções
copper ion binding
128 aa
1
128
electron carrier activity
Tabela 13: Resultados da pesquisa de domínios da proteína P00284
Nº de nucleótidos da sequência
Processo Biológico
electron transport
18
TP2 A
Engenharia Genética
2008/2009
Proteína P00286:
Figura 25: Resultado para a pesquisa de padrões da proteína P00286 (1)
Figura 26: Resultado para a pesquisa de padrões da proteína P00286 (2)
Blue (type 1) copper domain
Posição inicial
Posição final
Funções
copper ion binding
128 aa
1
128
electron carrier activity
Tabela 14: Resultados da pesquisa de domínios da proteína P00286
Nº de nucleótidos da sequência
Processo Biológico
electron transport
Proteína YP_233699:
Figura 27: Resultado para a pesquisa de padrões da proteína YP_233699 (1)
19
TP2 A
Engenharia Genética
2008/2009
Figura 28: Resultado para a pesquisa de padrões da proteína YP_233699 (2)
Blue (type 1) copper domain
Posição inicial
Posição final
Funções
copper ion binding
148 aa
21
148
electron carrier activity
Tabela 15: Resultados da pesquisa de domínios da proteína YP_233699
Nº de nucleótidos da sequência
Processo Biológico
electron transport
Proteína AAM21270:
Figura 29: Resultado para a pesquisa de padrões da proteína AAM21270
20
TP2 A
Engenharia Genética
2008/2009
Blue (type 1) copper domain
Posição inicial
Posição final
Funções
copper ion binding
148 aa
21
148
electron carrier activity
Tabela 16: Resultados da pesquisa de domínios da proteína AAM21270
Nº de nucleótidos da sequência
Processo Biológico
electron transport
Proteína P00283:
Figura 30: Resultado para a pesquisa de padrões da proteína P00283 (1)
Figura 31: Resultado para a pesquisa de padrões da proteína P00283 (2)
Blue (type 1) copper domain
Posição inicial
Posição final
Funções
copper ion binding
128 aa
1
128
electron carrier activity
Tabela 17: Resultados da pesquisa de domínios da proteína P00283
Nº de nucleótidos da sequência
Processo Biológico
electron transport
Aqui podemos verificar que as correspondências com alta probabilidade de ocorrência não
são do nosso interesse, pois localizam na proteína sítios de fosforilação, miristilização, glicosilação
e amidação quando estas proteínas, no contexto em que se inserem (bactérias) não estão em
contacto com as enzimas necessárias para que estes processos ocorram. Assim, o que nos
interessa é que algumas das proteínas homólogas partilham com a proteína inicial em estudo um
domínio de cobre, bem como funções de transportador electrónico.
21
TP2 A
Engenharia Genética
2008/2009
Estrutura Secundária
Até aqui temos estado a analisar a estrutura primária e as funções desempenhadas por
estas proteínas, agora vamos analisar a sua estrutura secundária e terciária. Vamos começar por
prever
a
estrutura
secundária
recorrendo
à
ferramenta
PSIPRED
(http://bioinf.cs.ucl.ac.uk/psipred/psiform.html). Vamos focar a nossa análise nos três principais tipos de
estruturas: hélices, folhas β e random coil.
Os resultados desta análise, para cada uma das proteínas são apresentados de seguida.
Proteína P34097 (dada):
Figura 32: Resultados da previsão da estrutura secundária da proteína P34097
22
TP2 A
Engenharia Genética
2008/2009
Proteína P00284:
Figura 33: Resultados da previsão da estrutura secundária da proteína P00284
Proteína P00286:
Figura 34: Resultados da previsão da estrutura secundária da proteína P00286
23
TP2 A
Engenharia Genética
2008/2009
Proteína YP_233699:
Figura 35: Resultados da previsão da estrutura secundária da proteína YP_233699
Proteína AAM21270:
Figura 36: Resultados da previsão da estrutura secundária da proteína AAM21270
24
TP2 A
Engenharia Genética
2008/2009
Proteína P00283:
Figura 37: da previsão da estrutura secundária da proteína P00283
Estrutura Terciária
De seguida vamos analisar a estrutura terciária das proteínas recorrendo à observação da
estrutura 3D. Para obter os resultados vamos utilizar a base de dados
(http://www.rcsb.org/pdb/home/home.do). De todas as visualizações que obtivemos escolhemos duas de
cada proteína para apresentar neste relatório.
Proteína P34097 (dada):
Figura 38: Representações da estrutura tridimensional da proteína P34097
25
TP2 A
Engenharia Genética
2008/2009
Proteína P00284:
Figura 39: Representações da estrutura tridimensional da proteína P00284
Proteína P00286:
Figura 40: Representações da estrutura tridimensional da proteína P00286
Proteína YP_233699:
Figura 41: Representações da estrutura tridimensional da proteína YP_233699
26
TP2 A
Engenharia Genética
2008/2009
Proteína AAM21270:
Figura 42: Representações da estrutura tridimensional da proteína AAM21270
Proteína P00283:
Figura 43: Representações da estrutura tridimensional da proteína P00283
Podemos verificar por observação destas figuras que todas as 6 proteínas são bastante
semelhantes em termos de estrutura terciária, como seria de esperar, pois são proteínas
homólogas, com funções muito parecidas entre si, e sabemos da teoria que a organização espacial
da proteína é fundamental na sua função.
27
TP2 A
Engenharia Genética
2008/2009
Alinhamento
No que respeita ao alinhamento múltiplo foi utilizado o programa ClustalW
Alinharam-se todas as sequências de aminoácidos
guardadas na primeira fase desta análise, isto é no BLAST, para além disso alinhou-se também com
estas sequências a proteína dada. Os resultados obtidos encontram-se representados abaixo.
(http://www.ebi.ac.uk/Tools/clustalw2/index.html).
Figura 44: Resultados para o alinhamento múltiplo
Verifica-se a existência de homologia entre todas as proteínas, com zonas muito
semelhantes. Verificam-se algumas alterações, ao longo da cadeia, nos aminoácidos, no entanto
apesar de serem proteínas homólogas estas são provenientes de organismos diferentes, o que
pode justificar estas diferença. Apesar disto podemos observar que há um grande número de
sequências alinhadas.
Mostramos ainda os resultados em forma de tabela para facilitar a interpretação
quantitativa.
Sequência A
1
1
1
1
1
2
2
2
2
3
3
3
4
4
5
Nome
P34097
P34097
P34097
P34097
P34097
P00284
P00284
P00284
P00284
P00286
P00286
P00286
YP_233699
YP_233699
AAM21270
Tamanho
128
128
128
128
128
128
128
128
128
128
128
128
148
148
148
Sequência B
2
3
4
5
6
3
4
5
6
4
5
6
5
6
6
Nome
P00284
P00286
YP_233699
AAM21270
P00283
P00286
YP_233699
AAM21270
P00283
YP_233699
AAM21270
P00283
AAM21270
P00283
P00283
Tamanho
128
128
148
148
128
128
148
148
128
148
148
128
148
128
128
Tabela 18: Resultados obtidos para o alinhamento múltiplo
28
Score
89
82
76
71
69
78
75
67
69
78
68
74
65
69
65
TP2 A
Engenharia Genética
2008/2009
Os dados anteriores revelam alguma semelhança entre os tamanhos das sequências e os
valores da variável Score para cada par de sequências. Verifica-se que todos os valores de score
estão acima dos 65% o que indica bastante semelhança entre as sequências alinhadas.
Aquando desta análise foi ainda possível obter o cladograma e o filograma,para este
alinhamento múltiplo. Estes encontram-se representados abaixo.
Figura 45: Filograma do alinhamento múltiplo afectuado
Figura 46: Cladograma do alinhamento múltiplo efectuado
O cladograma e o filograma estabelecem uma relação entre as proteínas submetidas ao
alinhamento e a semelhança entre cada uma delas, ou seja, clusters de proteínas que sejam mais
semelhantes uns aos outros. Estes dados têm especial importância, uma vez que permitem saber,
mesmo entre proteínas homólogas, como é o caso, quais são as mais próximas entre si.
Conseguimos ver que todas as proteínas apresentam bastante proximidade, mas há algumas mais
semelhantes entre si do que outras.
29
TP2 A
Engenharia Genética
2008/2009
Conclusão
Através da realização de análises detalhadas a uma sequência de nucleótidos e a uma
proteína específica, foi-nos possível compreender a vastidão do mundo da bio-informática e da
sua importância na ciência de hoje em dia. Através de uma simples sequência de nucleótidos,
pudemos identificar o seu organismo de origem, quais os genes que estão codificados por esta
sequência e qual a sua orientação. Do mesmo modo, através da identificação de uma proteína,
pudemos saber qual a sua origem, a sua localização celular, função, domínios pós-traducionais,
qual a sua estrutura primária, secundária, e também a sua organização espacial. Pudemos também
encontrar outras proteínas semelhantes à proteína em análise e perceber quão semelhantes estas
são entre si. Para além disto, foi-nos também possível identificar toda uma outra série de
propriedades físico-químicas da proteína. Notámos no entanto, após analisar os resultados dos
alinhamentos, verificamos que apesar de alguma disparidade existente, não é por isso que estas
proteínas desempenham um papel diferente na célula, ainda que cada uma em seu organismo.
Isto pode levar-nos a pensar que estes organismos diferentes tenham tido cada um sua linha
evolutiva, mas no fim, estas proteínas, ainda que ligeiramente diferentes umas das outras,
continuam a desempenhar todas a mesma função celular: a de transportadora de electrões.
Podemos, através destes resultados, ver que diferentes linhas evolutivas evoluíram no sentido de
manifestarem as mesmas adaptações, ainda que de formas diferentes.
Podemos concluir que a actividade foi realizada com sucesso, pois foi-nos possível encontrar
em bases de dados todas as propriedades em análise e relacionar os resultados entre si.
30
Download