Disciplina de BIOLOGIA COMPUTACIONAL Mestrado em ENGENHARIA BIOMÉDICA 4º Ano, 1º Semestre 2007/08 BASES DE DADOS COM INTERESSE BIOLÓGIO Relatório 1 Ana Calhau 54605 Ângela Pisco 55748 Nuno Santos 55746 Palavras-Chave: Bases de Dados, DNA, genoma, proteína, aniridia, PAX6 Resumo. Com este trabalho pretendeu-se explorar os recursos informáticos disponíveis online gratuitamente, com o intuito de descobrir, de forma completa, informações sobre uma doença genética, a aniridia. Este estudo foi feito recorrendo a diversas bases de dados, nas quais foi possível recolher dados sobre o gene responsável pela doença. Para aceder a algumas destas bases de dados foi ainda necessário recorrer a motores de busca (SRS e EBI) que, de forma eficiente, reencaminham o utilizador para a base de dados desejada. Ao longo do trabalho, para além da aquisição de conhecimento sobre as bases de dados e as ferramentas disponíveis, foram recolhidos alguns dados existentes sobre a doença que serviu de mote ao estudo. 1. INTRODUÇÃO A aniridia é uma doença genética congénita rara. Consiste na formação incompleta ou ausência total da íris, o que provoca perda de visão. Pode afectar apenas um olho ou ambos, sendo geralmente acompanhada por outro tipo de doenças oculares. O principal sintoma é a fotofobia (intolerância à luz). A doença resulta de uma delecção no gene PAX 6, localizado no cromossoma 11, banda p13. Pode ser esporádica (se não existirem antecedentes familiares da doença), mas uma vez adquirida torna-se hereditária devido ao padrão hereditário ser autossómico dominante. Dado que a doença em estudo é pouco conhecida, torna-se de todo relevante a pesquisa em bases de dados onde a informação encontrada seja fidedigna, daí a motivação para este trabalho. Bases de Dados com Interesse Biológico 2. NON-SEQUENCE DATABASES 2.1.GeneCards O GeneCards consiste numa base de dados integrada de genes humanos. Esta base de dados oferece informação concisa para uma vasta gama de genes e respectivas funções. Entre as informações que se obtêm, destacam-se as informações transcriptotómicas e proteómicas, bem como relações que associam doenças a determinadas expressões de genes. Assim, se se estiver interessado numa dada doença, é possível saber qual o gene envolvido e, após o conhecimento deste, é possível saber todo um conjunto de informações, como localização citogenética, número de isoformas, orientação e tamanho. Esta base de dados on-line possui ainda vários links para outras bases de dados com informação igualmente relevante para o gene em causa, como é o caso do Genome Database (GDB) e o Mendelian Inheritance in Man (OMIM). Assim, para se iniciar a procura de informação relativamente ao gene responsável pela aniridia, acedeu-se a esta base de dados. Ao introduzir-se o nome da doença é devolvido um conjunto de genes que de alguma forma se encontram relacionados com ela. Destaca-se que a GeneCards disponibiliza minicards ordenados por relevância, sendo por isso bastante fácil encontrar o gene efectivamente responsável pela doença (corresponde ao primeiro da lista). Concluiu-se desta forma que o gene que se pretendia estudar era o PAX6. Verificou-se que existem três proteínas isoformas (variantes da proteína que têm entre si tão grande semelhança que a função não é alterada). Encontraram-se também diversas sequências listadas sob o tópico “Additional cDNA sequence”. Estas sequências são várias devido a todas as possibilidades que existem de splicing alternativo, pois nem sempre são retirados os mesmos intrões, nem a colagem dos exões é feita pela mesma ordem. Como resultado de diferentes splicing’s têm-se diferentes mRNA’s. Dado que o cDNA é construído, com auxílio da transcriptase inversa, a partir do mRNA que já foi processado, para cada mRNA tem-se um cDNA e daí a diversidade subjacente a este conjunto de sequências. Convém também conhecer os accession numbers, que são únicos para cada sequência, não devendo variar entre bases de dados diferentes, podendo assim aceder-se às entradas de outras bases de dados, sem precisar de pesquisas fastidiosas. 2.2.Genome Database (GDB) Esta base de dados oferece uma vastíssima informação do gene que se pretende conhecer, entre ela polimorfismos, famílias, mutações, fenótipos e homologias. Encontram-se também aqui referências a artigos com conteúdo relevante sobre o gene em causa. Esta base de dados não armazena sequências ou dados mapeados em bruto. Assim, para se conhecer a informação completa quanto ao número de genes PAX (são nove), qual o paired box patern (R-P-C-x(11)-C-V-S) bem como a largura desse padrão, de resíduo a resíduo (começa no resíduo 35 e acaba no 51), acedeu-se ao GDB partindo do link existente no GeneCards. Para saber quais as possíveis funções associadas ao PAX6 consultaram-se alguns dos artigos disponíveis, tendo-se concluído que estará provavelmente relacionado com a formação do globo ocular durante a embriogénese. 2.3.OMIM O Mendelian Inheritance in Man (OMIM) trata-se de uma base de dados dos fenótipos das doenças humanas, que têm uma componente genética considerável. Relaciona as desordens genéticas, os genes e as características genéticas em humanos. 2 Ana Calhau Ângela Pisco Nuno Santos 3. SEQUENCE DATABASES 3.1.Sequence Retrieval System (SRS) Em praticamente toda a Europa, a base de dados que é utilizada para armazenar e pesquisar sequências de ácidos nucleicos é a EMBL. Para as proteínas usa-se essencialmente a UniProt. Dado que estas bases de dados têm enormes quantidades de informação, difíceis de gerir quanto à organização, é frequentemente usado o Sequence Retrieval System (SRS), que não é mais do que um motor de busca extremamente eficiente para a procura de dados. Este motor de busca faz pesquisas baseadas em texto, pelo que o gene aqui não tem o nome PAX6, mas sim Oculorhombin, que é o seu nome alternativo. O SRS é extremamente útil uma vez que reúne informação de variadas bases de dados europeias, para além de cruzar essa informação e apresentar os melhores resultados. 3.1.1. EMBL Como dito anteriormente, para se aceder à base de dados EMBL usa-se o sistema SRS. A partir do link “Library”, é possível procurar toda a informação disponível sobre o gene de interesse do ser humano por “accession number” e “description”. A “description” dá a informação que nos permite concluir qual o gene que efectivamente procuramos. Ao se identificar a sequência de interesse acede-se então a toda a informação disponível pelo EMBL. Um dos campos mais importantes é a “Feature table”, devido à possibilidade que esta oferece ao nível de combinar e organizar hierarquicamente os dados, permitindo de forma simples a expressão de ideias complexas. Para se aceder ao UniProtKB/SwissProt é também necessário aceder ao motor de busca SRS. Aqui procura-se igualmente o gene de interesse sendo relevante retirar o “UniProt acession number” e o “Uniprot identifier”. 3.2.UniProtKB A UniProt (Universal Protein Resource) é o maior catálogo mundial de informação sobre proteínas. Funciona como um depósito de sequências e de funções de proteínas e reúne a informação contida na TrEMBL, na Swiss-Prot e na PIR. A UniProtKB (UniProt Knowledgebase) é o ponto de acesso central à informação proteíca, reunida de forma extensiva, que inclui função, classificação e referências cruzadas sobre proteínas. 3.2.1. TrEMBL Esta base de dados regista as sequências proteicas resultantes da tradução automática das sequências nucleotídicas na EMBL. A TrEMBL é vista como a percursora da SwissProt. 3.2.2. SwissProt A SwissProt, ao contrário da TrEMBL, apenas contém sequências peptídicas que tenham sido manualmente anotadas. 3.2.3. PIR A PIR (Protein Information Resource) é um recurso bioinformático de suporte à investigação genómica e proteómica. 3.3.EBI A EBI é um motor de busca, semelhante ao SRS. Nesta base de dados foi procurada mais informação sobre a proteína do gene PAX6 humano, tendo-se chegado à conclusão que a informação obtida é igual à recolhida a partir da GeneCards. A proteína possui três isoformas, devido a eventos de splicing alternativo, sendo 3 Bases de Dados com Interesse Biológico possível encontrar na UniProt/SwissProt informação sobre elas. Esta base de dados tem ainda disponível o algoritmo de alinhamento ClustalW, que permite comparar sequências, dando o melhor alinhamento possível e mostrando as diferenças entre as cadeias. Como estas sequências têm mais ou menos o mesmo comprimento e são extremamente parecidas, este método fornece rapidamente as diferenças, as quais se devem à presença de aminoácidos extra numa das cadeias peptídicas. 3.4.HGVBASE A Human Genome Variation Database traduz qualquer informação sobre variações no genoma humano. Por meio dela (recorrendo mais uma vez ao SRS) foi possível encontrar uma variação nos alelos C/T no mRNA relacionada com a mutação no PAX6 que provoca a doença. A partir dela existem também links para outras bases de dados onde estão descritos SNP’s (Single Nucleotide Polymorphism). A maioria dos SNP’s não tem efeito, apesar alguns causarem diferenças fenotípicas subtis entre os indivíduos e outros, como aquele que está a ser alvo de estudo neste trabalho, influenciarem o risco para certas doenças. 3.5.Ensembl A Ensembl tem uma interface muito intuitiva, com gráficos, cores e figuras que a tornam bastante apelativa e fácil de utilizar. É um projecto colaborativo interessante e bastante dinâmico, no qual a informação é automaticamente inserida ou eliminada, consoante existam dados que a suportem ou descredibilizem. Os genes são descobertos utilizando o Genscan e o GeneWise e o conteúdo é corroborado com informação de suporte encontrada nas bases de dados de proteínas. Nesta base de dados pode visualizar-se, entre outros, todo o genoma humano como num mapa (isto é, mostra o cariótipo). Dentro desta estão referidos o comprimento do cromossoma, os intrões e exões responsáveis por determinada proteína, a ocorrência de SNP’s, entre outros. Ao clicar no cromossoma 11 foi possível localizar a região deste onde se encontra o PAX6. Esta região não é muito densa ao nível do número de genes, apesar de possuir uma densidade de SNP considerável (ligeiramente acima da média). A percentagem de conteúdo CG é elevada, o que indica um grande potencial daquela região para codificar proteínas. A Ensembl oferece para cada gene diferentes modos de visualização interligados entre si (“View’s”). O ContigView permite olhar para dentro de um cromossoma. O GeneView mostra a informação referente a um gene específico. O TransView e o ExonView permitem obter informação detalhada sobre transcritos e os exões, respectivamente. Ao nível da informação dos exões, é possível saber qual o grau de exactidão das sequências transcritas por um diagrama de cores, onde o azul corresponde a um mapeamento manual e o vermelho a uma previsão bioinformática. O SNPView permite visualizar SNP’s inseridos no DNA do cromossoma. Pesquisou-se um dos SNP’s relacionados com o PAX6, vistos anteriormente, e foi possível verificar a mutação de troca entre os alelos C e T (apesar de na base de dados estar mencionado o seu conjugado, ou seja a troca de um G por um A). Na “Feature table” é possível contar o número de exões associado à entrada M93650 da EMBL, que são 13. Alguns destes exões não pertencem à região codificante para a proteína. Isto deve-se aos eventos de splicing alternativo, ou seja, nem todos os exões são codificantes para a mesma proteína, podendo o mesmo conjunto de exões, com diferentes combinações, originar diferentes proteínas. O Ensembl funciona como uma ponte para a base de dados mais completa, a EnsMart. A EnsMart pode ser ainda utilizada, além do conseguido a partir da Ensembl, para procurar genes responsáveis pela síntese de proteínas com função semelhante às que são 4 Ana Calhau Ângela Pisco Nuno Santos comandadas pelo gene em estudo. Esta base de dados tem ainda a capacidade de fornecer a sequência genómica que representa exactamente o maior transcrito do gene (sequência manualmente mapeada e não bioinformaticamente inferida). No domínio da Ensembl podemos ainda encontrar a Biomart. A Biomart permite escolher que base de dados utilizar, devendo, regra geral, utilizar-se a mais actualizada da Ensembl, ou seja, a que tiver o número maior, e qual o organismo que pretendemos pesquisar. Tem duas funções bastante importantes na análise dos dados: uma é o “Filters”, que permite de forma rápida e simples limitar as ocorrências àquelas que respeitam os parâmetros definidos pelo utilizador; a outra é o “Attributes”, utilizado para especificar quais as propriedades do gene em estudo que o utilizador deseja tomar conhecimento. Aquando da obtenção dos resultados, por defeito, apenas aparecem 10 entradas. Este número pode ser expandido, mas dado que a lista é ordenada por ordem de relevância, consoante as relações que se pretendem estabelecer, assim deve ser escolhido o número de ocorrências a mostrar. Deve ainda ser tido em conta que quantas mais entradas forem pedidas, maior será a quantidade de informação repetida, pois cada gene respeita muitos critérios e pode ser mapeado por diversos fenótipos. Para obter a sequência genómica devem adaptar-se as opções das duas funções acima referidas (Filters e Attributes), de forma a visualizar o pretendido. 3.6.Expert Protein Analysis System (ExPASy) Por último neste estudo foi travado conhecimento com uma base de dados adequada a estudos no âmbito das proteínas. A ExPASy, para além de cruzar informação da SwissProt e da TrEMBL, oferece ainda um conjunto de ferramentas a utilizar na análise das suas sequências proteicas. De referir que em termos do cruzamento de informação das duas bases de dados acima referenciadas, esta coincide com a obtida via SRS na EBI, mudando apenas o aspecto de visualização gráfica. 5 Bases de Dados com Interesse Biológico 4. CONCLUSÃO Ao longo de todo o desenvolvimento da actividade experimental foi possível tomar conhecimento, ainda que superficialmente, do universo da biologia computacional, através do uso de várias bases de dados de informação biológica. Esta abordagem consciencializou o grupo para a necessidade de agrupar e organizar toda a informação que urge de uma forma sistemática, o que aliás foi discutido nas aulas teóricas. A ideia retida, em termos globais, foi a facilidade de encontrar informação ao nível dos genes e das proteínas. Tendo o utilizador conhecimento da forma como cada base de dados funciona, é bastante rápido e simples obter aquilo que procura. É também notório o facto de as bases de dados estarem disponíveis de forma gratuita e a sua forma de utilização ser mais ou menos intuitiva. No entanto, uma das maiores dificuldades encontradas está exactamente ao nível do conhecimento por parte do utilizador das ferramentas a utilizar em cada base de dados, já que estas variam bastante. A existência de um único código identificador para cada gene é realmente decisivo na possibilidade do cruzamento de informação entre bases de dados. Para além de garantir que a informação associada a cada código é a pretendida, permite ainda a mobilização rápida entre bases de dados, de forma a melhorar os resultados obtidos. Existe ainda uma questão fundamental associada à actualização das bases de dados que é a sincronização. Este passo é fundamental na disponibilização do conteúdo o mais actualizado possível em todas as bases de dados, isto é, quando é adicionado um novo tópico numa base de dados, após sincronização esse tópico fica disponível nas restantes. Se por exemplo existirem duas referências iguais numa base de dados, na próxima revisão automática, a base de dados será actualizada e uma das cópias apagada. Este problema só se verifica para bases de dados mais antigas. Os recursos bioinformáticos disponíveis permitem ainda subscrever serviços de alerta, que automaticamente enviam um e-mail quando são publicados artigos relevantes sobre o tema de interesse ou quando são actualizados os conteúdos de sequências tanto nucleotídicas como peptídicas. Como exemplo de um destes serviços tem-se a PubCrawler, que procura diariamente por actualizações na PubMed e no GenBank. Concretizando ao estudo da doença em causa, descobriu-se que o gene responsável pela aniridia é o PAX6. Este gene está localizado no cromossoma 11, banda p13. Tem 3 isoformas e a mutação que origina a doença é um SNP, em que uma citosina é substituída por uma timina na posição 837bp. Sabe-se ainda que este gene desempenha uma importante função no comando do desenvolvimento do globo ocular durante a embriogénese, pelo que a mutação condiciona a boa formação deste. Em suma, ficou-se com uma ideia geral acerca da forma como os dados são guardados e manipulados a nível bioinformático, de forma a ajudarem ao progresso da investigação, não só académica, mas também clínica e farmacêutica. As bases de dados consultadas são apenas algumas das muitas existentes neste universo. Consoante os organismos sobre os quais incida a nossa pesquisa assim deve ser escolhida a base de dados, de forma a optimizar os resultados obtidos e a rapidez a que estes são conseguidos. 5. BIBLIOGRAFIA [1] Mullan L., Judge D.; Recursos Bioinformáticos na Internet, IGC, Oeiras [2] http://pt.wikipedia.org/wiki/Aniridia [3] http://www.angelfire.com/trek/bioinformatica/database/database_1.htm 6