Minerando Padrões em estruturas de proteínas : Um estudo da família das serino protease Cristina Ribeiro 1- Contexto HANS NEURATH foi um dos primeiros cientistas a reconhecer que as proteases não atuam somente como enzimas digestivas, mas empenham numerosas outras funções no organismo. Proteases têm um tipo de relação ‘berço-ao-túmulo’ com as proteínas. Elas assistem o nascimento removendo os resíduos de metionina iniciais. Elas participam na entrega em um destino apropriado pela remoção dos peptídeos sinais. Na morte elas convertem tanto as proteínas exógenas (digestão de alimentos) quanto as endógenas em aminoácidos, os quais são utilizadas para a síntese de novas proteínas. Entretanto, a maior interação das proteínas com as proteases acontecem em sua vida adulta. O processamento de proteínas controla numerosas atividades do tipo ‘liga’ e ‘desliga’ e essas atividades por sua vez, são responsáveis por uma grande faixa de fenômenos biológicos como coagulação sanguínea, dissolução de coágulos, ação de hormônios, penetração das camadas interna do óvulo pelo espermatozóide, diferenciação, morte celular e apoptose (Neurath, 1989). Proteinases são classificadas atualmente de acordo com seus mecanismos catalíticos. Mais recentemente, tem se sugerido que essa classificação por tipos catalíticos seja estendida para uma classificação por famílias baseada nas relações evolutivas das proteases (Rawlings & Barrett, 1993) que está disponível no banco de dados SwissProt (http://weww.ebi.ac.uk/swissprot/). Existem hoje quatro classes mecanísticas reconhecidas: proteinases aspárticas, proteinases cisteínicas, metaloproteinases e serino proteases. Além destas quatros classes mecanísticas, existe ainda uma seção da nomenclatura das enzimas que é destinada para proteases cujo mecanismo catalítico ainda não tem sido identificado. Neste projeto iremos estudar somente as serino proteases. As serino proteases compreendem duas famílias distintas. A família da quimotripsina, a qual inclui as enzimas de mamíferos como quimotripsina, tripsina, elastase, calicreína, trombina, etc.; e a família da subtilisina, a qual inclui as enzimas de bactéria (como a subtilisina). A estrutura 3D geral, é diferente nas duas famílias, mas elas possuem a mesma geometria para o sítio ativo e por isso a catálise se dá pelo mesmo mecanismo. As serino proteases exibem diferentes especificidades por substrato o que está relacionado com as substituições de aminoácidos nos vários subsítios das enzimas. Três resíduos, os quais formam a chamada tríade catalítica, são essenciais no processo catalítico: His 57, Asp 102 e Ser 195 (seguindo a numeração do quimotripsinogênio). A elucidação da proteína tridimensional é vista hoje como o maior passo para o entendimento da base molecular de uma função biológica. Entretanto o conhecimento da estrutura pode não ser o suficiente, para entender o mecanismo da função, porque a função biológica frequentemente depende da conformação dinâmica. A função das proteínas está associada com uma seqüência particular ou motivos estruturais, e a identificação de padrões funcionais e seu papel dentro da dinâmica da proteína requerem uma adicional analise de dados. A analise da seqüência e da estrutura da proteína frequentemente revela padrões comums (FP – Frequent Patterns) associado com a função biológica . 2 2- Objetivo Este trabalho poderá fornecer um bom entendimento das características moleculares que afetam a função catalítica, e em particular, a importância da flexibilidade dos resíduos. Ele também poderá identificar resíduos conservados nas subfamílias da serino protease , baseados em características bioquímicas geométricas e dinâmicas. 3- Descrição A abordagem deste trabalho apresenta uma ferramenta para detectar padrões funcionais, o que proporciona uma co-relação entre estrutura da proteína, dinâmica e função, e ele descreve uma nova abordagem para descobrir FPs em famílias de proteínas baseado em características bioquímicas, geométrica e dinâmica. Sem qualquer conhecimento adquirido a priori esse método pode descobrir FPs para cada tipo de aminoácido e identificar os resíduos conservados nas subfamílias de proteases. Primeiramente iremos selecionar um conjunto de proteínas para ser usado na nossa pesquisa, depois iremos extrair os resíduos importantes baseados em características bioquímicas, geométrica e dinâmica. Posteriormente iremos usar o algoritmo Apriori de mineração de dados para encontramos os padrões mais relevantes e assim identificaremos os resíduos conservados que serão classificados pelo nível de sua interconectividade na estrutura 3D. 4- Plano de atividades Estudo do algoritmo de mineração de dados Apriori Estudo dos trabalhos publicados sobre descoberta de padrões com algoritmos baseados em mineração de dados; Selecionar um conjunto de dados Selecionar um conjunto de proteínas, serino proteases e suas subfamílias (PDB – Protein Data Bank, UniProt ); Levantamento bibliográfico das serino proteases; Consultar bancos de dados que caracterizam estruturas similares , CSA (Catalytic Site Atlas), WEBFEATURE, PINTS (Patterns in Non-homologous Tertiary Structures) e TRYLOGY; Implementação do algoritmo Implementar o algorimto a Apriori; Aplicar o algoritmo ao conjunto de dados selecionados; Identificar aqueles resíduos conservados que participam das FPs encontradas; Classificar os resíduos conservados de acordo com sua interconectividade 3D; Visualização dos resíduos conservados Mostrar na estrutura tridimensional onde esses resíduos conservados estão localizados; 3 5- Cronograma Março/2007 Levantamento bibliográfico e estudo das técnicas de mineração de dados-algoritmo Apriori Abril/2007 Levantamento bibliográfico sobre serino protease e suas subfamílias. Maio/2007 Junho/2007 Selecionar serino Selecionar serino proteases a partir proteases a partir dos bancos de dos bancos de dados existentes, dados existentes, e estudar os e estudar os bancos que bancos que caracterizam caracterizam proteinas PDB, proteinas PDB, CSA (Catalytic CSA (Catalytic Site Atlas), Site Atlas), WEBFEATURE, WEBFEATURE, PINTS (Patterns PINTS (Patterns in Nonin Nonhomologous homologous Tertiary Tertiary Structures) e Structures) e TRYLOGY TRYLOGY Julho/2007 Implementação do algoritmo Apriori. Agosto/2007 Implementação do algoritmo Apriori. Novembro/2007 Desenvolvimento do sistema de visualização dos resíduos conservados. Dezembro/2007 Desenvolvimento do sistema de visualização dos resíduos conservados. Setembro/2007 Comparação dos resultados entre as subfamilias. Janeiro/2008 Preparação de um artigo com os resultados do projeto. Outubro/2007 Comparação dos resultados entre as subfamilias. Fevereiro/2008 Finalização e submissão do artigo; Escrita de relatório de iniciação científica. 6- Bibliografia NEURATH, H. Proteolytic processing and physiological regulation. Trends Biochem. Sci 14, p.268-71, 1989. RAWLINGS, N. D. & BARRETT, A. J. Evolutionary families of peptidases Biochem. J., 290, p.205-218, 1993. LEHNINGER, A. L., NELSON, D. L., COX, M. M.. Principles of biochemistry. 2.ed. New York : Worth Publisher, 1993 GREIGHTON, T. E. Proteins: structures and molecular principles. New York : W. H. 4 Freeman and Co, 1983. PAULING, L The Structure of Protein Molecules. Scientific American, jul 1954. . ANFINSEN, C.B. Principles that govern the folding of protein chains. Science, v. 181, p.223230, 1973 RICHARDS, F. M. The Protein folding problem. Scientific American, p.34-41, jan. 1991 CHEN, S.C., BAHAR, I. Mining frequent patterns in protein structures: a study of protease families. Bioinformatics. 2004 Aug 4;20 Suppl 1:I77-I85. NESHICH, G., MANCINI, A.L., YAMAGISHI, M.E., KUSER, P.R., FILETO, R., PINTO, I.P., PALANDRANI, J.F., KRAUCHENCO, J.N., BAUDET, C., MONTAGNER, A.J., HIGA, R.H. STING Report: convenient web-based application for graphic and tabular presentations of protein sequence, structure and function descriptors from the STING database. Nucleic Acids Res. Jan 1;33 Database Issue:D269-74, 2005. LASKOWSKI Jr, M. & KATO, I. Protein inhibitors of proteinases. Annu Rev. Biochem., 49, p.593-626, 1980. LASKOWSKI Jr, M., QASIM, M. A. & STEPHEN, M. L. Protein – Protein recognition (KLEANTHOUS, C., HAMES, B. D. & GLOVER, D. M., eds), Oxford University Press New York, p.228-79, 2000