Mestrado em Engenharia Biomédica Engenharia Genética Relatório TP2 A – Análise de uma sequência de nucleótidos e de uma sequência proteica recorrendo a ferramentas bioinformáticas Relatório realizado por: Tatiana Sirgado nº 58412 Miguel Amador Rosa nº58484 Joana David Nunes nº58497 João Silva Marques nº58513 1º Semestre, Ano Lectivo 2008/2009 TP2 A Engenharia Genética 2008/2009 Índice Análise de uma sequência de nucleótidos ...................................................................................... 3 Análise de uma sequência proteica ................................................................................................ 7 BLAST:........................................................................................................................................ 7 Propriedades Físico-Químicas .................................................................................................... 9 Localização da proteína na célula ............................................................................................. 15 Modificações pós-traducionais e domínios ............................................................................... 17 Estrutura Secundária ................................................................................................................ 22 Estrutura Terciária ................................................................................................................... 25 Alinhamento ............................................................................................................................ 28 Conclusão .................................................................................................................................... 30 2 TP2 A Engenharia Genética 2008/2009 a) Análise de uma sequência de nucleótidos Usámos como base para esta análise a seguinte sequência de nucleótidos em formato FASTA: >SMb | 4912 | SMb; | SMb-15439-20350 ATAGAGCGTTTCACTGTTTGATTGAGACAGCTACGCACTTGCGCACGGCCGTCCGGAACTTTTGGCCAGGGGGCAGGTTGGAGCTCTGGCAAGGAGC GCGGTCGATGCGCGGACCACATCCGCCTTTCGGGACTGCGGGTGTGTCCCCTCGTTCTCGGCGCCGCCTTCGGCATGCGATCACAAGGGGGTACTCGC GCACCTCCCCCCGCTGATGACCACCCTGGGCAGCGATGAATAATGATCTCCTGATCATCCTGGGAATTGCGGCGGCGGCGGCCGTCGCATCGCCCCTG GGCGGCCTGGTGGCGATCTCGCTCAGGCCGTCCAGCCTCGTGCTCTCGATCGCCGTCGGCTTCGCGGCCGGCGTCCTCATGGGCACCTTCGCTTTCGA GATGATGCCCACCTCCATGGAACTTGCAGGTCTTCCGCTTGCCGTTGCCGGGTTTCTGCTCGGCCTGGGACTCGTCTATATTCTCGACCTCTACGTCAAC CGCTGGAAAATGGCCGGACCGGAAGCGGATCAGAAGGCCGAGGTCGATCGCCTGCACCGGCGGCGCAGGCCGCGCGGGAGCAATGTCGCGGTGCT CGCCGGCGGCACGAGTGCGGAAGAGCTGATCGAAGGCATGACGATCGGTGTCGGCGCGACCTTCGAGCCTGAGGTGGCGCTGATCGTGGGTCTCGC GATCTGCATCGACAATTTCAGCGAGGGAATGAGCATCGGCGAATTGACGCTCGACGAGGAGCGGAAGAACGCAAAGCGCCGGACACTCGGATGGAC ATCACTCATCGGACTCTCCCTTTTCGTTTCCGCCGTGGCAGGGTGGTTCCTCCTGAAAGGCCTGGCCCAGCCGGTCACCGGTTTTCTTTTCGCGACGGGA GCGGGCGGGATGTTCTACCTGACGATTACCGACCTCGTGCCGGAAGCGGAGTCGCACCAGTTCCAGCAATCCTCCGCGATCGCCAATGCCGCCGGCTT CCTGCTCGTCATGGTGCTTGCGCAGATGAGCTGACGCAATCGCGTCTTGAGGAGTGCCCGTCCGTTCAGACGATCGCCCGGTCCCAGCCCCCATAATG TTCTTCGCTGCGCGTGCCGCGCGGAAGGCTGAGCGCGATCAATGCCAGGCCGATCGCGAGATTGGCCACGGTGGCGACCGTGCTGCCGCCGGCAAGC AGGAAGGGCGAAGCCGCCACCCAGGCGCCGAGCAGCACATTCAGGAAACGCACCGGACGGACGACCTCCGCCATGGCGGTGACGGCAACCAGGATC ACGACGCAGCCGAGAATGTGGTCGCTGTGATAGAGCGGCGGGACGCTGCCGAAAACTATGGGCGTCGTCATCAGGACCGCGCCGAGCAGAGCGCTC GCGACCAGCGTCCAGGGGAAGTTGACGCCGCCGACGATGAATTCCTTCAGCAGCTCGGAGGCGGGCCGGTTGAGGTCGGGGGCCGGCGTCTGGTCC TCCGAAATGGCCGGGCCGCCCATCCAGAACGTCCGCCAGAAGGGCTCGCCCGCCTTTCTTACGCGCCAGAGATACTGGATGGTCGCGAGCACCTCGTC GATCGAATAGGGGATGAGCACGACGGTGACGGCCGCCTGGATGATGCAGAGCGTGCAGAGTGCGCCGATAAGCGGCGGCTGGATGATGATGAAGG AGACGCTGACGGCGCCGAGGGGCACGATCAGCAGGCCGAAGAGGAGCACCATCCAGGGCATGGTGCGCCAGCGGCGACTGTCTCCGATCGCGCCG GCCAGAATGTCAAGCGCATAGGCGAAGGCGCCCAGGCCGGCATCGGCGATCGGAAAGCCCTTGGAAACCCAGGACGTCACGACCGCCTCGCTGCCG TTGCGGACGGGGGCCTCGCCCGGGCCGAAGAACGGGTCCCAGAGCCCGTCGACATGGCCCATCTGATAGGCGGCGAGATAGCGCGAGACGAAGAG GCCGACGAAGGCGAGCGCGACGATCGGCATGCGCTGGGTGAAGGAGGACGGCGAATAGCTCCAGCCGAGCGGCCGGTCGTCGTCGGCCGCGAGCG CCCGCAGCCTTATGCCGGGTGTCGGCGGAATCATAACCGCAAAAGCCACGATCAGCATGCCGGCAAGCGTATCGACGGCGTAGGCCGCAGCACTCGT CGTCCAGAAGACAAGCGGGGCCAGCATGATCCAGACGCCGAGCGCTGCCGTGATCCATTGCGCATGGGACCAGCGCCGGTACATGCCGAAAAGCGC GAATGCCGCAACGAGCAATCCGGACAGGATCTCGCTGATCCCGAGTCGGGCATTGCGTATGGCGGGCTCCGCGATCTCGTGGCCGAGCGCCGGCGGC AGTGGCACGCCGACGGGGTCGAAAAGGCCGAGCGTCGCCGGCGAGGAGACGAGCCACAGGCCGAGAGCGACATTTGCCAGCGGCGCCCAGAGCGT GCGCAGCCGGTGTTCTTCCACGGCAACTTCGACTTCAGCGTCGCTGCGCTCCAGCGGCTCCGCCAGGCGTTTCTCCGCCTGCTCGATTTCCGGATCCGA GGCGGCGACCACGGAGGGCTCCAGCTTGTTCTTCGCGTACCAGGCGGTCGGGTCTTGCTTGAGCCGCCGGATCATTTCCGGCAACGTCGCAGCTAGG CTGTGTCTCGGCTCCCAGCCGAGCTTTTTGCGGGCACGGGAGATGTCGATCTCGTAATGATCGTCCGAGTTCTCGATCATCCACGGCTTAATCTCCGAC TCCTCGTCGAGCACCTCGGTCTGCATCCATGCCCCCGGCTTGGCAAGGCTCTTCGGCAGGGCGAGCGTGCGCCAGTCCTCGCCGTGGATCAGCCGGCC GATACGCTTCTGCAAGTCGCCATAGGAGAGCGTTTCCTCCTCGCCGATCAGGAACACGCAATCGTCGGGCAATTCGTTGCGGTGGCCGACGGTGCGCG CGAAAGCCTCGACCAGATCGTCCTTGTGCAGATAGGGCTGGCCCGCGTCCAGATCGCCGCTGAACAGATAGGCCGTCGGGAGCCGCTCGAAGATGCG GGCGATCTGCTGGGCGATGAAAGCGGCTCGGCAGTCCTCGTCATAGACGCCGGCGAGGCGAAGAGTCGCGGTCCTGATCGCGCCGCGATGTTTGGC GATTCCCGCCTCGGTTTCGGCCTTCGACTTGGGGTAGGCCCAGGCGGGGTCCAGCGGATCATCCTCGTTGATCCGCGCACCCTTGGCCGGACTGGGTG CCTGCACCAGCAGCGTGCTTGCATAGATGAACTGTTCGGTGGGAAGGCCCTGCAGCGCCTCCAGCAGCCGGCGCGTGCCCTCGACATTGACGGCACC GTATTTGGGGTTGTCCTTGCCGGTGGTGTCGTAATAGGCGGCAAGATGAATGACGGAAGCAAGGCGCCCGCCGCTACGCTTACCCGCCGTCTCGATC GCCTCTCTCACGCTTTCGTCGGAGGTGATGTCGAGTTTGATCGTCTCTTCGGTCTCGGACTCGCCCTTCGGAGGGGACAGGTCGAGCCCGATGACGCG ATACCGGTCCCTCAGGCGATGCGCGATCGCCTGGCCCAGGAAACCGCTCGAGCCGGTAATGAGAACGGTCGGCTGATTTGCATCTTTCGGCATGCCGA AGCAAACCGCGCTCCGGCAGGAAGGTTCCCGACCTGGTTGAGCGAAAGAACTACGCCCCCGTTCGCGCCACGACGGGCACATAGTCTTCCAGCTCCG GCGCGGGGAAATGCAGCGTCGCGCCGATCTCGGCGGAGCGGTAGAGGCCCATCAGGATTTCGACGACCGCCAGGCCGTCCTCGAAGGTTTCGAGCG GCTTTATCCCCTTGCGGAAGCATTCGACCATGTGGCGGTTTTCGTCCGTATAGCCGTAGACGCCGGCCTCGTCCTCAAGCACCGGCATCAGGCCCTGCT CGGCATTCTGTTTTTCGACGAGGTCCTCGCCCTCGGTGCCCTGCACGGCCCGCGACAGGAATATCTTCAAGCCGGTGCCGAGCGAATTGTACTCCAGC GCATATTCGGGCCCGAGAAGCTCGAGCTGGATGCGCAGGCCGGCGCCGACATAGGCCCAGGAGGTCGTTGCCTCGATCATCAGTTCGTTGCCCTCCTC GTCCTCCAGCGCCGCGGTGGCGCGGGCGAAATCCTCCGATGGGCGCCGGCGGTAGTCGACATCCTCACCGAAGCGGCGGCGCAGCTCATCGGCATAG CCCGCCCGCGTCCATTTGAGGTTCGCCACCGTGCCGTTCACCGACTTGACCTTCAGCGAATTGCGGGGGGCACCGGGCGCCGTGAGCAGATGGCGCG CCACCTCAACGCTGTGGCACATCATATCGGAAAGCACCCCACCGCCCTGCTTGTCGCCCTGCCAGAACCAGGGCTCGTGCGGACCGGCATGTTCTTCCG CGGCGCGTGCGAGATAGGGCCGGCCGGTGGTCGAGGCGGCGCGCCGCCAGATGATCTCCTTGCCCCGCAGCACCGGTGTGCAGAAGACCTGGTTTTC GAGATAGCCATGGTTGAGACCGGCATCCTCGGCCAGGTGCAGCATCTCGCGTGCCTCCGCCACAGTGCGCGCAAGCGGCTTCTCGCAGGCGACCGCA AAGATCTTGCCGCGTCCCGCCTTGATCTCCCGGTGGAGCGTCCGCATGACGTCGAGCCGGGTGTAGTTCGGCGACAGAATCCAGACCGCATCGACGTC GCCGGCGGACAGGAGCGATTCGAGACTCTCATGCGCGCGGCACTCGCCGAGATCGAGCGCCTCGACTTCGCTCACGAAGCGCGCGCGGTTTTCGGGA TTGCGGCTGTAGACGCCGGTCACCTCGACATTGCGTACCCCGATGAGCGATTTGAGGTGGAAATGCGCGATAAAGCCGGTGCCGACGAAGCCGACGC GCAAGGTCTGTTTCGGTAATGTGGTCATTCTTTCCTCCCCGATAATGAGCGGCGA 3 TP2 A Engenharia Genética 2008/2009 Recorrendo ao site http://www.ncbi.nlm.nih.gov foi-nos possível, através da ferramenta BLAST, identificar esta sequência de nucleótidos como sendo pertencente a Sinorhizobium meliloti 1021, com 100% de correspondências e 0% de interrupções na cadeia, como podemos ver pela seguinte imagem: Figura 1: BLAST da sequência de nucleótidos De seguida, recorremos à ferramenta ORF Finder (http://www.ncbi.nlm.nih.gov/gorf/gorf.html) para determinar o número de genes presentes nesta região e a sua orientação. Assim, obtivemos os seguintes resultados: Figura 2: Resultados do ORF Finder Com base nos dados obtidos, procedemos à análise de cada um dos possíveis genes, sendo que se verificou que três deles possuíam domínios conservados, pelo que se conclui que a nossa sequência é composta por três genes: Figura 3: Genes que compõem a sequência Agora, para podermos determinar a orientação de cada gene na sequência, fizemos BLAST de cada um dos três genes e verificámos que, por ordem decrescente de tamanho, os dois primeiros genes estão orientados no sentido 3’–5’ enquanto que o último está orientado no sentido 5’–3’. Este facto está representado na figura seguinte: 4 TP2 A Engenharia Genética 2008/2009 Figura 4: Orientação dos genes que compõem a sequência, por ordem decrescente de tamanho Por fim, para concluir esta primeira parte do trabalho, determinámos, através dos dados obtidos com o ORF Finder, a sequência de aminoácidos correspondente a cada um dos três genes, a origem da proteína composta por essa sequência de aminoácidos, e os cinco melhores homólogos dessa proteína. Assim, começando para o gene de maior tamanho, a sequência de aminoácidos é: MPKDANQPTVLITGSSGFLGQAIAHRLRDRYRVIGLDLSPPKGESETEETIKLDITSDESVREAIETAGKRSGGRLASVIHLAAYYDTTGKDNPKYGAVNVEGTR RLLEALQGLPTEQFIYASTLLVQAPSPAKGARINEDDPLDPAWAYPKSKAETEAGIAKHRGAIRTATLRLAGVYDEDCRAAFIAQQIARIFERLPTAYLFSGDLDA GQPYLHKDDLVEAFARTVGHRNELPDDCVFLIGEEETLSYGDLQKRIGRLIHGEDWRTLALPKSLAKPGAWMQTEVLDEESEIKPWMIENSDDHYEIDISRAR KKLGWEPRHSLAATLPEMIRRLKQDPTAWYAKNKLEPSVVAASDPEIEQAEKRLAEPLERSDAEVEVAVEEHRLRTLWAPLANVALGLWLVSSPATLGLFDPV GVPLPPALGHEIAEPAIRNARLGISEILSGLLVAAFALFGMYRRWSHAQWITAALGVWIMLAPLVFWTTSAAAYAVDTLAGMLIVAFAVMIPPTPGIRLRALA ADDDRPLGWSYSPSSFTQRMPIVALAFVGLFVSRYLAAYQMGHVDGLWDPFFGPGEAPVRNGSEAVVTSWVSKGFPIADAGLGAFAYALDILAGAIGDSRR WRTMPWMVLLFGLLIVPLGAVSVSFIIIQPPLIGALCTLCIIQAAVTVVLIPYSIDEVLATIQYLWRVRKAGEPFWRTFWMGGPAISEDQTPAPDLNRPASELLK EFIVGGVNFPWTLVASALLGAVLMTTPIVFGSVPPLYHSDHILGCVVILVAVTAMAEVVRPVRFLNVLLGAWVAASPFLLAGGSTVATVANLAIGLALIALSLPR GTRSEEHYGGWDRAIV Figura 5: Sequência de aminoácidos do gene de maior tamanho (proteína NP 436555) Esta proteína provém, tal como a sequência de aminoácidos, de Sinorhizobium meliloti 1021, com 100% de correspondências e 0% de interrupções na cadeia. Os 5 melhores homólogos desta proteína estão representados na seguinte tabela: Nome Organismo Identidades Positivos Gaps Score E Value YP 001312859 YP 001424189 YP 617594 ZP 02154912 YP 157107 Sinorhizobium 89% 93% 0% medicae WSM419 Coxiella burnetii 43% 64% 2% Dugway 5J108-111 Sphingopyxis 44% 61% 5% alaskensis RB2256 Oceanibulbus 43% 62% 1% indolifex HEL-45 Aromatoleum 47% 62% 4% aromaticum EbN1 Tabela 1: 5 melhores homólogos da proteína NP 436555 1546 0.0 741 0.0 728 0.0 723 0.0 715 0.0 Agora, para o segundo gene de maior tamanho, a sequência de aminoácidos é: MTTLPKQTLRVGFVGTGFIAHFHLKSLIGVRNVEVTGVYSRNPENRARFVSEVEALDLGECRAHESLESLLSAGDVDAVWILSPNYTRLDVM RTLHREIKAGRGKIFAVACEKPLARTVAEAREMLHLAEDAGLNHGYLENQVFCTPVLRGKEIIWRRAASTTGRPYLARAAEEHAGPHEPWFW QGDKQGGGVLSDMMCHSVEVARHLLTAPGAPRNSLKVKSVNGTVANLKWTRAGYADELRRRFGEDVDYRRRPSEDFARATAALEDEEGNELM IEATTSWAYVGAGLRIQLELLGPEYALEYNSLGTGLKIFLSRAVQGTEGEDLVEKQNAEQGLMPVLEDEAGVYGYTDENRHMVECFRKGIKP LETFEDGLAVVEILMGLYRSAEIGATLHFPAPELEDYVPVVARTGA Figura 6: Sequência de aminoácidos do segundo gene de maior tamanho (proteína NP 436556) 5 TP2 A Engenharia Genética 2008/2009 Esta proteína, tal como a anterior, provém de Sinorhizobium meliloti 1021, com 100% de correspondências e 0% de interrupções na cadeia. Os 5 melhores homólogos desta proteína estão representados na seguinte tabela: Nome Organismo YP 001312857 YP 672830 YP 643181 NP 344320 ZP 03179970 Identidades Positivos Gaps Sinorhizobium medicae 93% 96% 0% WSM419 Mesorhizobium sp. 83% 90% 0% BNC1 Rubrobacter 66% 78% 0% xylanophilus DSM 9941 Sulfolobus solfataricus 47% 64% 0% P2 Streptomyces sp. SPB74 47% 64% 0% Tabela 2: 5 melhores homólogos da proteína NP 436556 Score E Value 806 0.0 717 0.0 553 9e-156 405 3e-111 378 6e-103 Finalmente, para o gene de menor tamanho, a sequência de nucleótidos é: MNNDLLIILGIAAAAAVASPLGGLVAISLRPSSLVLSIAVGFAAGVLMGTFAFEMMPTSMELAGLPLAVAGFLLGLGLVYILDLYVNRWKMA GPEADQKAEVDRLHRRRRPRGSNVAVLAGGTSAEELIEGMTIGVGATFEPEVALIVGLAICIDNFSEGMSIGELTLDEERKNAKRRTLGWTS LIGLSLFVSAVAGWFLLKGLAQPVTGFLFATGAGGMFYLTITDLVPEAESHQFQQSSAIANAAGFLLVMVLAQMS Figura 7: Sequência de aminoácidos do terceiro gene de maior tamanho (proteína NP 436554) Esta proteína, tal como a anterior, provém de Sinorhizobium meliloti 1021, com 100% de correspondências e 0% de interrupções na cadeia. Os 5 melhores homólogos desta proteína estão representados na seguinte tabela: Nome Organismo Identidades Positivos Gaps Score E Value YP 001312860 Sinorhizobium medicae WSM419 YP 674431 Mesorhizobium sp. BNC1 YP 001322002 Alkaliphilus metalliredigens QYMF ZP 02861197 Anaerofustis stercorihominis DSM 17244 YP 001916223 Natranaerobius thermophilus JW/NM-WN-LF Tabela 3: 5 melhores homólogos da proteína NP 436554 90% 95% 0% 426 9e-118 62% 29% 75% 48% 0% 6% 293 78.2 1e-77 6e-13 27% 46% 7% 73.9 1e-11 28% 45% 9% 72.4 3e-11 6 TP2 A Engenharia Genética 2008/2009 b) Análise de uma sequência proteica A base desta segunda parte do nosso trabalho foi a identificação P38441, correspondente à proteína que pretendemos identificar e estudar. Para dar inicio à análise foi necessário encontrar a sequência de aminoácidos correspondente à identificação fornecida pelos docentes. Assim recorremos à base de dados NCBI (http://www.ncbi.nlm.nih.gov/) e obtivemos a sequência de aminoácidos da proteína em formato FASTA como está indicada abaixo. >gi|461600|sp|P34097.1|AZUR_PSEPU RecName: Full=Azurin AECKVTVDSTDQMSFNTKDIAIDKSCKTFTVELTHSGSLPKNVMGHNLVISKEADMQPIATDGLSAGIDK QYLKDGDARVIAHTKVIGAGEKDSVTFDVSKLAAGEKYGFFCSFPGHISMMKGTVTLK Figura 8: Proteína dada em formato FASTA Para além disto foi também possível identificar que a proteína associada à identificação fornecida é a Azurin, e é proveniente da bactéria Pseudomonas putida. BLAST: Para prosseguir com o nosso trabalho é necessário recorrer a mais uma ferramenta, para encontrarmos alguns homólogos da proteína dada. A ferramenta utilizada é o BLAST, mais concretamente BLASTp (proteína-proteína), que é disponibilizada pelo NBCI (http://blast.ncbi.nlm.nih.gov/Blast.cgi). De seguida apresentamos os 5 melhores resultados obtidos, de proteínas homólogas à dada, para organismos distintos entre si. Identificação da Proteína P00284 P00286 YP_233699 AAM21270 P00283 Organismo Pseudomonas fluorescens bv. B Pseudomonas chlororaphis Pseudomonas syringae Pseudomonas sp. OPS1 Pseudomonas denitrificans Identidades Positivos Gaps Score (Bits) E-Value 89% 93% 0% 240 3e-62 82% 88% 0% 219 6e-56 76% 85% 0% 206 6e-52 71% 85% 0% 204 2e-51 69% 82% 0% 197 2e-49 Tabela 4: 5 melhores homólogos da proteína P34097 encontrados através do BLASTp 7 TP2 A Engenharia Genética 2008/2009 Podemos concluir através da observação dos resultados que há uma grande homologia entre as sequências seleccionadas pois os valores de score são elevados e os valores do erro são muito próximos de 0. Para que seja possível utilizar estas proteínas nas próximas análises é necessário obter a sua sequência de aminoácidos em formato FASTA. Esses resultados são apresentados na tabela seguinte. Identificação da Proteína Sequência em formato FASTA >gi|114747|sp|P00284.1|AZUR_PSEFB RecName: Full=Azurin AECKTTIDSTDQMSFNTKAIEIDKACKTFTVELTHSGSLPKNVMGHNLVISKQADMQPIATDGLSAG IDKNYLKEGDTRVIAHTKVIGAGEKDSLTIDVSKLNAAEKYGFFCSFPGHISMMKGTVTLK >gi|114749|sp|P00286.1|AZUR_PSECL RecName: Full=Azurin AECKVDVDSTDQMSFNTKEITIDKSCKTFTVNLTHSGSLPKNVMGHNWVLSKSADMAGIATDGMAAG P00286 IDKDYLKPGDSRVIAHTKIIGSGEKDSVTFDVSKLTAGESYEFFCSFPGHNSMMKGAVVLK >gi|66043858|ref|YP_233699.1| blue (type1) copper domain-containing protein [Pseudomonas syringae pv. syringae B728a] MIRKLVAISLLSLASGQLLAAECSVTVDSTDQMMYDTKAIEIDKSCKEFTVNLTHSGSLPKNVMGHN YP_233699 WVLGKKADTQAVVTDGMAAGIDKDYLKPDDSRVIAHTKVIGAGEKDSVTFDVSKLDPAQEYQFFCTF PGHISMMKGAVTLK >gi|20385340|gb|AAM21270.1|AF368761_5 azurin [Pseudomonas sp. OPS1] MIRTLISASLITLFSGQLLAAECSLKVESTDQMTFNYSSIIVDKSCKIFTVELQHTGKLPKNIMGHN AAM21270 WVLSKEADARAIATDGMSAGVEREYLKDGDMRVIAHTKIIGGGERDSVTFVVSKLNVSDKYLFFCSF PGHISMMKGTLTLK >gi|114750|sp|P00283.1|AZUR_PSEDE RecName: Full=Azurin AECSVDIQGNDQMQFSTNAITVDKACKTFTVNLSHPGSLPKNVMGHNWVLTTAADMQGVVTDGMAAG P00283 LDKNYVKDGDTRVIAHTKIIGSGEKDSVTFDVSKLKAGDAYAFFCSFPGHSAMMKGTLTLK Tabela 5: Sequências FASTA dos homólogos da proteína P34097 P00284 Vamos de seguida analisar algumas propriedades e características, tanto da proteína dada como das suas 5 homólogas. 8 TP2 A Engenharia Genética 2008/2009 Propriedades Físico-Químicas Foi feita uma análise das propriedades físico-químicas das proteínas utilizando para isso uma ferramenta disponível através da Expasy (http://www.expasy.ch/tools/protparam.html). Os resultados obtidos para cada proteína estão representados de seguida: Proteína P34097 (dada): Nº de aminoácidos Peso molecular (Daltons) Ponto Isoelectrónico (Teórico) Composição Atómica 128 13718,6 6,46 Carbono (C) Hidrogénio (H) Azoto (N) Oxigénio (O) Enxofre (S) Nº total de resíduos carregados negativamente (Asp + Glu) Nº total de resíduos carregados positivamente (Arg + Lys) Formula Química Nº total de átomos Coeficiente de Extinção (M-1cm-1, at 280 nm measured in water) Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys aparecem como meias cisteínas Tempo de meia-vida estimado (o terminal-N considerado na sequência foi a Alanina) Índice de instabilidade Índice alifático GRAVY (Grand average of hydropathicity) Ala (A) Arg (R) Asn (N) Asp (D) Cys (C) Gln (Q) Glu (E) Gly (G) His (H) Ile (I) Leu (L) 10 1 3 11 3 3 5 11 4 8 7 600 965 159 191 8 16 15 C600H965N159O191S8 1923 3150 0,226 4,4 horas (retículos dos mamíferos, in vitro) >20 horas (levedura, in vivo) >10 horas (E. coli, in vivo) 20,60 (proteína estável) 76,17 -0,163 Composição em aminoácidos 7,8% Lys (K) 0,8% Met (M) 2,3% Phe (F) 8,6% Pro (P) 2,3% Ser (S) 2,3% Thr (T) 3,9% Trp (W) 8,6% Tyr (Y) 3,1% Val (V) 6,2% Pyl (O) 5,5% Sec (U) 14 5 6 3 11 11 0 2 10 0 0 10,9% 3,9% 4,7% 2,3% 8,6% 8,6% 0,0% 1,6% 7,8% 0,0% 0,0% Tabela 6: Resultados da análise das propriedades físico-químicas da proteína P34097 9 TP2 A Engenharia Genética 2008/2009 Proteína P00284: Nº de aminoácidos Peso molecular (Daltons) Ponto Isoelectrónico (Teórico) Composição Atómica 128 13798,8 7,10 Carbono (C) Hidrogénio (H) Azoto (N) Oxigénio (O) Enxofre (S) Nº total de resíduos carregados negativamente (Asp + Glu) Nº total de resíduos carregados positivamente (Arg + Lys) Formula Química Nº total de átomos Coeficiente de Extinção (M-1cm-1, at 280 nm measured in water) Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys aparecem como meias cisteínas Tempo de meia-vida estimado (o terminal-N considerado na sequência foi a Alanina) Índice de instabilidade Índice alifático GRAVY (Grand average of hydropathicity) Ala (A) Arg (R) Asn (N) Asp (D) Cys (C) Gln (Q) Glu (E) Gly (G) His (H) Ile (I) Leu (L) 10 1 5 9 3 3 6 10 4 10 8 602 977 161 192 8 15 15 C602H977N161O192S8 1940 3105 0,225 4,4 horas (retículos dos mamíferos, in vitro) >20 horas (levedura, in vivo) >10 horas (E. coli, in vivo) 27,66 (proteína estável) 78,52 -0,212 Composição em aminoácidos 7,8% Lys (K) 0,8% Met (M) 3,9% Phe (F) 7,0% Pro (P) 2,3% Ser (S) 2,3% Thr (T) 4,7% Trp (W) 7,8% Tyr (Y) 3,1% Val (V) 7,8% Pyl (O) 6,2% Sec (U) 14 5 5 3 10 13 0 2 7 0 0 10,9% 3,9% 3,9% 2,3% 7,8% 10,2% 0,0% 1,6% 5,5% 0,0% 0,0% Tabela 7: Resultados da análise das propriedades físico-químicas da proteína P00284 10 TP2 A Engenharia Genética 2008/2009 Proteína P00286: Nº de aminoácidos Peso molecular (Daltons) Ponto Isoelectrónico (Teórico) Composição Atómica 128 13742,6 6,06 Carbono (C) Hidrogénio (H) Azoto (N) Oxigénio (O) Enxofre (S) Nº total de resíduos carregados negativamente (Asp + Glu) Nº total de resíduos carregados positivamente (Arg + Lys) Formula Química Nº total de átomos Coeficiente de Extinção (M-1cm-1, at 280 nm measured in water) Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys aparecem como meias cisteínas Tempo de meia-vida estimado (o terminal-N considerado na sequência foi a Alanina) Índice de instabilidade Índice alifático GRAVY (Grand average of hydropathicity) Ala (A) Arg (R) Asn (N) Asp (D) Cys (C) Gln (Q) Glu (E) Gly (G) His (H) Ile (I) Leu (L) 9 1 5 11 3 1 5 11 4 7 6 598 949 159 193 9 16 14 C598H949N159O193S9 1908 8605 0,626 4,4 horas (retículos dos mamíferos, in vitro) >20 horas (levedura, in vivo) >10 horas (E. coli, in vivo) 22,95 (proteína estável) 69,30 -0,216 Composição em aminoácidos 7,0% Lys (K) 0,8% Met (M) 3,9% Phe (F) 8,6% Pro (P) 2,3% Ser (S) 0,8% Thr (T) 3,9% Trp (W) 8,6% Tyr (Y) 3,1% Val (V) 5,5% Pyl (O) 4,7% Sec (U) 13 6 6 3 14 10 1 2 10 0 0 10,2% 4,7% 4,7% 2,3% 10,9% 7,8% 0,8% 1,6% 7,8% 0,0% 0,0% Tabela 8: Resultados da análise das propriedades físico-químicas da proteína P00286 11 TP2 A Engenharia Genética 2008/2009 Proteína YP_233699: Nº de aminoácidos Peso molecular (Daltons) Ponto Isoelectrónico (Teórico) Composição Atómica 148 16029,4 6,05 Carbono (C) Hidrogénio (H) Azoto (N) Oxigénio (O) Enxofre (S) Nº total de resíduos carregados negativamente (Asp + Glu) Nº total de resíduos carregados positivamente (Arg + Lys) Formula Química Nº total de átomos Coeficiente de Extinção (M-1cm-1, at 280 nm measured in water) Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys aparecem como meias cisteínas Tempo de meia-vida estimado (o terminal-N considerado na sequência foi a Alanina) Índice de instabilidade Índice alifático GRAVY (Grand average of hydropathicity) Ala (A) Arg (R) Asn (N) Asp (D) Cys (C) Gln (Q) Glu (E) Gly (G) His (H) Ile (I) Leu (L) 13 2 3 13 3 5 5 10 4 8 12 705 1137 185 219 10 18 16 C705H1137N185O219S10 2256 10095 0,630 30 horas (retículos dos mamíferos, in vitro) >20 horas (levedura, in vivo) >10 horas (E. coli, in vivo) 25,00 (proteína estável) 86,96 -0.037 Composição em aminoácidos 8,8% Lys (K) 1,4% Met (M) 2,0% Phe (F) 8,8% Pro (P) 2,0% Ser (S) 3,4% Thr (T) 3,4% Trp (W) 6,8% Tyr (Y) 2,7% Val (V) 5,4% Pyl (O) 8,1% Sec (U) 14 7 5 4 12 11 1 3 13 0 0 9,5% 4,7% 3,4% 2,7% 8,1% 7,4% 0,7% 2,0% 8,8% 0,0% 0,0% Tabela 9: Resultados da análise das propriedades físico-químicas da proteína YP_233699 12 TP2 A Engenharia Genética 2008/2009 Proteína AAM21270: Nº de aminoácidos Peso molecular (Daltons) Ponto Isoelectrónico (Teórico) Composição Atómica 148 16297.9 8,44 Carbono (C) Hidrogénio (H) Azoto (N) Oxigénio (O) Enxofre (S) Nº total de resíduos carregados negativamente (Asp + Glu) Nº total de resíduos carregados positivamente (Arg + Lys) Formula Química Nº total de átomos Coeficiente de Extinção (M-1cm-1, at 280 nm measured in water) Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys aparecem como meias cisteínas Tempo de meia-vida estimado (o terminal-N considerado na sequência foi a Alanina) Índice de instabilidade Índice alifático GRAVY (Grand average of hydropathicity) Ala (A) Arg (R) Asn (N) Asp (D) Cys (C) Gln (Q) Glu (E) Gly (G) His (H) Ile (I) Leu (L) 9 5 4 8 3 3 7 11 4 12 14 723 1169 191 215 10 15 17 C723H1169N191O215S10 2308 10095 0,619 30 horas (retículos dos mamíferos, in vitro) >20 horas (levedura, in vivo) >10 horas (E. coli, in vivo) 22,61 (proteína estável) 94.19 0.099 Composição em aminoácidos 6,1% Lys (K) 3,4% Met (M) 2,7% Phe (F) 5,4% Pro (P) 2,0% Ser (S) 2,0% Thr (T) 4,7% Trp (W) 7,4% Tyr (Y) 2,7% Val (V) 8,1% Pyl (O) 9,5% Sec (U) 12 7 7 2 15 11 1 3 10 0 0 8,1% 4,7% 4,7% 1,4% 10,1% 7,4% 0,7% 2,0% 6,8% 0,0% 0,0% Tabela 10: Resultados da análise das propriedades físico-químicas da proteína AAM21270 13 TP2 A Engenharia Genética 2008/2009 Proteína P00283: Nº de aminoácidos Peso molecular (Daltons) Ponto Isoelectrónico (Teórico) Composição Atómica 128 13620,4 6,45 Carbono (C) Hidrogénio (H) Azoto (N) Oxigénio (O) Enxofre (S) Nº total de resíduos carregados negativamente (Asp + Glu) Nº total de resíduos carregados positivamente (Arg + Lys) Formula Química Nº total de átomos Coeficiente de Extinção (M-1cm-1, at 280 nm measured in water) Abs 0,1% (=1 g/l) assumindo que todos os resíduos Cys aparecem como meias cisteínas Tempo de meia-vida estimado (o terminal-N considerado na sequência foi a Alanina) Índice de instabilidade Índice alifático GRAVY (Grand average of hydropathicity) Ala (A) Arg (R) Asn (N) Asp (D) Cys (C) Gln (Q) Glu (E) Gly (G) His (H) Ile (I) Leu (L) 12 1 6 11 3 4 2 12 4 5 7 593 939 161 188 9 13 12 C593H939N161O188S9 1890 8605 0,632 4,4 horas (retículos dos mamíferos, in vitro) >20 horas (levedura, in vivo) >10 horas (E. coli, in vivo) 10,44 (proteína estável) 70,86 -0.131 Composição em aminoácidos 9,4% Lys (K) 0,8% Met (M) 4,7% Phe (F) 8,6% Pro (P) 2,3% Ser (S) 3,1% Thr (T) 1,6% Trp (W) 9,4% Tyr (Y) 3,1% Val (V) 3,9% Pyl (O) 5,5% Sec (U) 11 6 6 3 9 12 1 2 11 0 0 8,6% 4,7% 4,7% 2,3% 7,0% 9,4% 0,8% 1,6% 8,6% 0,0% 0,0% Tabela 11: Resultados da análise das propriedades físico-químicas da proteína P00283 14 TP2 A Engenharia Genética 2008/2009 Localização da proteína na célula Seguidamente pretendemos estudar a localização das proteínas nas respectivas células. Para isso vamos recorrer a duas ferramentas. A primeira delas para saber se a proteína apresenta domínios transmembranares TMHMM (http://www.cbs.dtu.dk/services/TMHMM-2.0/ 2.0/) e a segunda para definirmos exactamente qual a sua localização PSORT (http://www.psort.org/psortb/index.html http://www.psort.org/psortb/index.html). Os resultados encontram encontram-se representados nas figuras abaixo. Proteína P34097 (dada): Figura 9: Probabilidades da localização dos aminoácidos ao longo da Figura 10: Resultados da pesquisa do PSORT - localização da sequência proteica P34097 sequência proteica P34097 Proteína P00284: Figura 11: Probabilidades da localização dos aminoácidos ao longo da sequência proteica P00284 Figura 12: Resultados da pesquisa do PSORT - localização da sequência proteica P00284 15 TP2 A Engenharia Genética 2008/2009 Proteína P00286: Figura 13: Probabilidades da localização dos aminoácidos ao longo da sequência proteica P00286 Figura 14: Resultados da pesquisa do PSORT - localização da sequência proteica P00286 Proteína YP_233699: Figura 16: Probabilidades da localização dos aminoácidos ao longo da sequência proteica YP_233699 Figura 15: Resultados da pesquisa do PSORT - localização da sequência proteica YP_233699 Proteína AAM21270: Figura 18: Probabilidades da localização dos aminoácidos ao longo da Figura 17: Resultados da pesquisa do PSORT - localização da sequência proteica sequência proteica AAM21270 0 AAM21270 16 TP2 A Engenharia Genética 2008/2009 Proteína P00283: Figura 19: Probabilidades da localização dos aminoácidos ao longo da sequência proteica P00283 Figura 20: Resultados da pesquisa do PSORT - localização da sequência proteica P00283 Quanto a esta análise podemos concluir que, devido ao facto de as proteínas não apresentarem domínios transmembranares, não podemos ter em conta os gráficos obtidos no TMHMM. As informações sobre a localização, interior ou exterior na célula, não podem ser tidas em consideração uma vez que esta base de dados não analisa este facto de forma correcta. Para além disto, através da análise no PSORT podemos concluir que todas as proteínas se encontram no periplasma. Modificações pós-traducionais e domínios O próximo passo desta análise consistiu em tentar perceber através das pesquisa em diversas bases de dados quais as modificações pós-traducionais que as proteínas podem sofrer. Para além disto pesquisamos sobre os domínios que as proteínas apresentam bem como as funções que desempenham dentro da célula. Para o primeiro ponto utilizamos a base de dados do Expasy (http://www.expasy.org/tools/scanprosite/) e para o segundo foi utilizada a base de dados InterProScan (http://www.ebi.ac.uk/Tools/InterProScan/). Os resultados obtidos foram abaixo representados. Proteína P34097 (dada): Figura 21: Resultado para a pesquisa de padrões da proteína P34097 (1) 17 TP2 A Engenharia Genética 2008/2009 Figura 22: Resultado para a pesquisa de padrões da proteína P34097 (2) Blue (type 1) copper domain Posição inicial Posição final Funções copper ion binding 128 aa 1 128 electron carrier activity Tabela 12: Resultados da pesquisa de domínios da proteína P34097 Nº de nucleótidos da sequência Processo Biológico electron transport Proteína P00284: Figura 23: Resultado para a pesquisa de padrões da proteína P00284 (1) Figura 24: Resultado para a pesquisa de padrões da proteína P00284 (2) Blue (type 1) copper domain Posição inicial Posição final Funções copper ion binding 128 aa 1 128 electron carrier activity Tabela 13: Resultados da pesquisa de domínios da proteína P00284 Nº de nucleótidos da sequência Processo Biológico electron transport 18 TP2 A Engenharia Genética 2008/2009 Proteína P00286: Figura 25: Resultado para a pesquisa de padrões da proteína P00286 (1) Figura 26: Resultado para a pesquisa de padrões da proteína P00286 (2) Blue (type 1) copper domain Posição inicial Posição final Funções copper ion binding 128 aa 1 128 electron carrier activity Tabela 14: Resultados da pesquisa de domínios da proteína P00286 Nº de nucleótidos da sequência Processo Biológico electron transport Proteína YP_233699: Figura 27: Resultado para a pesquisa de padrões da proteína YP_233699 (1) 19 TP2 A Engenharia Genética 2008/2009 Figura 28: Resultado para a pesquisa de padrões da proteína YP_233699 (2) Blue (type 1) copper domain Posição inicial Posição final Funções copper ion binding 148 aa 21 148 electron carrier activity Tabela 15: Resultados da pesquisa de domínios da proteína YP_233699 Nº de nucleótidos da sequência Processo Biológico electron transport Proteína AAM21270: Figura 29: Resultado para a pesquisa de padrões da proteína AAM21270 20 TP2 A Engenharia Genética 2008/2009 Blue (type 1) copper domain Posição inicial Posição final Funções copper ion binding 148 aa 21 148 electron carrier activity Tabela 16: Resultados da pesquisa de domínios da proteína AAM21270 Nº de nucleótidos da sequência Processo Biológico electron transport Proteína P00283: Figura 30: Resultado para a pesquisa de padrões da proteína P00283 (1) Figura 31: Resultado para a pesquisa de padrões da proteína P00283 (2) Blue (type 1) copper domain Posição inicial Posição final Funções copper ion binding 128 aa 1 128 electron carrier activity Tabela 17: Resultados da pesquisa de domínios da proteína P00283 Nº de nucleótidos da sequência Processo Biológico electron transport Aqui podemos verificar que as correspondências com alta probabilidade de ocorrência não são do nosso interesse, pois localizam na proteína sítios de fosforilação, miristilização, glicosilação e amidação quando estas proteínas, no contexto em que se inserem (bactérias) não estão em contacto com as enzimas necessárias para que estes processos ocorram. Assim, o que nos interessa é que algumas das proteínas homólogas partilham com a proteína inicial em estudo um domínio de cobre, bem como funções de transportador electrónico. 21 TP2 A Engenharia Genética 2008/2009 Estrutura Secundária Até aqui temos estado a analisar a estrutura primária e as funções desempenhadas por estas proteínas, agora vamos analisar a sua estrutura secundária e terciária. Vamos começar por prever a estrutura secundária recorrendo à ferramenta PSIPRED (http://bioinf.cs.ucl.ac.uk/psipred/psiform.html). Vamos focar a nossa análise nos três principais tipos de estruturas: hélices, folhas β e random coil. Os resultados desta análise, para cada uma das proteínas são apresentados de seguida. Proteína P34097 (dada): Figura 32: Resultados da previsão da estrutura secundária da proteína P34097 22 TP2 A Engenharia Genética 2008/2009 Proteína P00284: Figura 33: Resultados da previsão da estrutura secundária da proteína P00284 Proteína P00286: Figura 34: Resultados da previsão da estrutura secundária da proteína P00286 23 TP2 A Engenharia Genética 2008/2009 Proteína YP_233699: Figura 35: Resultados da previsão da estrutura secundária da proteína YP_233699 Proteína AAM21270: Figura 36: Resultados da previsão da estrutura secundária da proteína AAM21270 24 TP2 A Engenharia Genética 2008/2009 Proteína P00283: Figura 37: da previsão da estrutura secundária da proteína P00283 Estrutura Terciária De seguida vamos analisar a estrutura terciária das proteínas recorrendo à observação da estrutura 3D. Para obter os resultados vamos utilizar a base de dados (http://www.rcsb.org/pdb/home/home.do). De todas as visualizações que obtivemos escolhemos duas de cada proteína para apresentar neste relatório. Proteína P34097 (dada): Figura 38: Representações da estrutura tridimensional da proteína P34097 25 TP2 A Engenharia Genética 2008/2009 Proteína P00284: Figura 39: Representações da estrutura tridimensional da proteína P00284 Proteína P00286: Figura 40: Representações da estrutura tridimensional da proteína P00286 Proteína YP_233699: Figura 41: Representações da estrutura tridimensional da proteína YP_233699 26 TP2 A Engenharia Genética 2008/2009 Proteína AAM21270: Figura 42: Representações da estrutura tridimensional da proteína AAM21270 Proteína P00283: Figura 43: Representações da estrutura tridimensional da proteína P00283 Podemos verificar por observação destas figuras que todas as 6 proteínas são bastante semelhantes em termos de estrutura terciária, como seria de esperar, pois são proteínas homólogas, com funções muito parecidas entre si, e sabemos da teoria que a organização espacial da proteína é fundamental na sua função. 27 TP2 A Engenharia Genética 2008/2009 Alinhamento No que respeita ao alinhamento múltiplo foi utilizado o programa ClustalW Alinharam-se todas as sequências de aminoácidos guardadas na primeira fase desta análise, isto é no BLAST, para além disso alinhou-se também com estas sequências a proteína dada. Os resultados obtidos encontram-se representados abaixo. (http://www.ebi.ac.uk/Tools/clustalw2/index.html). Figura 44: Resultados para o alinhamento múltiplo Verifica-se a existência de homologia entre todas as proteínas, com zonas muito semelhantes. Verificam-se algumas alterações, ao longo da cadeia, nos aminoácidos, no entanto apesar de serem proteínas homólogas estas são provenientes de organismos diferentes, o que pode justificar estas diferença. Apesar disto podemos observar que há um grande número de sequências alinhadas. Mostramos ainda os resultados em forma de tabela para facilitar a interpretação quantitativa. Sequência A 1 1 1 1 1 2 2 2 2 3 3 3 4 4 5 Nome P34097 P34097 P34097 P34097 P34097 P00284 P00284 P00284 P00284 P00286 P00286 P00286 YP_233699 YP_233699 AAM21270 Tamanho 128 128 128 128 128 128 128 128 128 128 128 128 148 148 148 Sequência B 2 3 4 5 6 3 4 5 6 4 5 6 5 6 6 Nome P00284 P00286 YP_233699 AAM21270 P00283 P00286 YP_233699 AAM21270 P00283 YP_233699 AAM21270 P00283 AAM21270 P00283 P00283 Tamanho 128 128 148 148 128 128 148 148 128 148 148 128 148 128 128 Tabela 18: Resultados obtidos para o alinhamento múltiplo 28 Score 89 82 76 71 69 78 75 67 69 78 68 74 65 69 65 TP2 A Engenharia Genética 2008/2009 Os dados anteriores revelam alguma semelhança entre os tamanhos das sequências e os valores da variável Score para cada par de sequências. Verifica-se que todos os valores de score estão acima dos 65% o que indica bastante semelhança entre as sequências alinhadas. Aquando desta análise foi ainda possível obter o cladograma e o filograma,para este alinhamento múltiplo. Estes encontram-se representados abaixo. Figura 45: Filograma do alinhamento múltiplo afectuado Figura 46: Cladograma do alinhamento múltiplo efectuado O cladograma e o filograma estabelecem uma relação entre as proteínas submetidas ao alinhamento e a semelhança entre cada uma delas, ou seja, clusters de proteínas que sejam mais semelhantes uns aos outros. Estes dados têm especial importância, uma vez que permitem saber, mesmo entre proteínas homólogas, como é o caso, quais são as mais próximas entre si. Conseguimos ver que todas as proteínas apresentam bastante proximidade, mas há algumas mais semelhantes entre si do que outras. 29 TP2 A Engenharia Genética 2008/2009 Conclusão Através da realização de análises detalhadas a uma sequência de nucleótidos e a uma proteína específica, foi-nos possível compreender a vastidão do mundo da bio-informática e da sua importância na ciência de hoje em dia. Através de uma simples sequência de nucleótidos, pudemos identificar o seu organismo de origem, quais os genes que estão codificados por esta sequência e qual a sua orientação. Do mesmo modo, através da identificação de uma proteína, pudemos saber qual a sua origem, a sua localização celular, função, domínios pós-traducionais, qual a sua estrutura primária, secundária, e também a sua organização espacial. Pudemos também encontrar outras proteínas semelhantes à proteína em análise e perceber quão semelhantes estas são entre si. Para além disto, foi-nos também possível identificar toda uma outra série de propriedades físico-químicas da proteína. Notámos no entanto, após analisar os resultados dos alinhamentos, verificamos que apesar de alguma disparidade existente, não é por isso que estas proteínas desempenham um papel diferente na célula, ainda que cada uma em seu organismo. Isto pode levar-nos a pensar que estes organismos diferentes tenham tido cada um sua linha evolutiva, mas no fim, estas proteínas, ainda que ligeiramente diferentes umas das outras, continuam a desempenhar todas a mesma função celular: a de transportadora de electrões. Podemos, através destes resultados, ver que diferentes linhas evolutivas evoluíram no sentido de manifestarem as mesmas adaptações, ainda que de formas diferentes. Podemos concluir que a actividade foi realizada com sucesso, pois foi-nos possível encontrar em bases de dados todas as propriedades em análise e relacionar os resultados entre si. 30