BASES DE DADOS COM INTERESSE BIOLÓGIO

Disciplina de BIOLOGIA COMPUTACIONAL
Mestrado em ENGENHARIA BIOMÉDICA
4º Ano, 1º Semestre 2007/08
BASES DE DADOS COM INTERESSE
BIOLÓGIO
Relatório 1
Ana Calhau
54605
Ângela Pisco
55748
Nuno Santos
55746
Palavras-Chave: Bases de Dados, DNA, genoma, proteína, aniridia, PAX6
Resumo. Com este trabalho pretendeu-se explorar os recursos informáticos disponíveis online gratuitamente, com o intuito de descobrir, de forma completa, informações sobre uma
doença genética, a aniridia. Este estudo foi feito recorrendo a diversas bases de dados, nas
quais foi possível recolher dados sobre o gene responsável pela doença. Para aceder a
algumas destas bases de dados foi ainda necessário recorrer a motores de busca (SRS e EBI)
que, de forma eficiente, reencaminham o utilizador para a base de dados desejada. Ao longo
do trabalho, para além da aquisição de conhecimento sobre as bases de dados e as
ferramentas disponíveis, foram recolhidos alguns dados existentes sobre a doença que serviu
de mote ao estudo.
1. INTRODUÇÃO
A aniridia é uma doença genética congénita rara. Consiste na formação incompleta ou
ausência total da íris, o que provoca perda de visão. Pode afectar apenas um olho ou ambos,
sendo geralmente acompanhada por outro tipo de doenças oculares. O principal sintoma é a
fotofobia (intolerância à luz).
A doença resulta de uma delecção no gene PAX 6, localizado no cromossoma 11, banda
p13. Pode ser esporádica (se não existirem antecedentes familiares da doença), mas uma vez
adquirida torna-se hereditária devido ao padrão hereditário ser autossómico dominante.
Dado que a doença em estudo é pouco conhecida, torna-se de todo relevante a pesquisa em
bases de dados onde a informação encontrada seja fidedigna, daí a motivação para este
trabalho.
Bases de Dados com Interesse Biológico
2. NON-SEQUENCE DATABASES
2.1.GeneCards
O GeneCards consiste numa base de dados integrada de genes humanos. Esta base de
dados oferece informação concisa para uma vasta gama de genes e respectivas funções. Entre
as informações que se obtêm, destacam-se as informações transcriptotómicas e proteómicas,
bem como relações que associam doenças a determinadas expressões de genes. Assim, se se
estiver interessado numa dada doença, é possível saber qual o gene envolvido e, após o
conhecimento deste, é possível saber todo um conjunto de informações, como localização
citogenética, número de isoformas, orientação e tamanho. Esta base de dados on-line possui
ainda vários links para outras bases de dados com informação igualmente relevante para o
gene em causa, como é o caso do Genome Database (GDB) e o Mendelian Inheritance in
Man (OMIM).
Assim, para se iniciar a procura de informação relativamente ao gene responsável pela
aniridia, acedeu-se a esta base de dados. Ao introduzir-se o nome da doença é devolvido um
conjunto de genes que de alguma forma se encontram relacionados com ela. Destaca-se que a
GeneCards disponibiliza minicards ordenados por relevância, sendo por isso bastante fácil
encontrar o gene efectivamente responsável pela doença (corresponde ao primeiro da lista).
Concluiu-se desta forma que o gene que se pretendia estudar era o PAX6.
Verificou-se que existem três proteínas isoformas (variantes da proteína que têm entre si
tão grande semelhança que a função não é alterada). Encontraram-se também diversas
sequências listadas sob o tópico “Additional cDNA sequence”. Estas sequências são várias
devido a todas as possibilidades que existem de splicing alternativo, pois nem sempre são
retirados os mesmos intrões, nem a colagem dos exões é feita pela mesma ordem. Como
resultado de diferentes splicing’s têm-se diferentes mRNA’s. Dado que o cDNA é construído,
com auxílio da transcriptase inversa, a partir do mRNA que já foi processado, para cada
mRNA tem-se um cDNA e daí a diversidade subjacente a este conjunto de sequências.
Convém também conhecer os accession numbers, que são únicos para cada sequência, não
devendo variar entre bases de dados diferentes, podendo assim aceder-se às entradas de outras
bases de dados, sem precisar de pesquisas fastidiosas.
2.2.Genome Database (GDB)
Esta base de dados oferece uma vastíssima informação do gene que se pretende conhecer,
entre ela polimorfismos, famílias, mutações, fenótipos e homologias. Encontram-se também
aqui referências a artigos com conteúdo relevante sobre o gene em causa. Esta base de dados
não armazena sequências ou dados mapeados em bruto.
Assim, para se conhecer a informação completa quanto ao número de genes PAX (são
nove), qual o paired box patern (R-P-C-x(11)-C-V-S) bem como a largura desse padrão, de
resíduo a resíduo (começa no resíduo 35 e acaba no 51), acedeu-se ao GDB partindo do link
existente no GeneCards.
Para saber quais as possíveis funções associadas ao PAX6 consultaram-se alguns dos
artigos disponíveis, tendo-se concluído que estará provavelmente relacionado com a formação
do globo ocular durante a embriogénese.
2.3.OMIM
O Mendelian Inheritance in Man (OMIM) trata-se de uma base de dados dos fenótipos
das doenças humanas, que têm uma componente genética considerável. Relaciona as
desordens genéticas, os genes e as características genéticas em humanos.
2
Ana Calhau
Ângela Pisco
Nuno Santos
3. SEQUENCE DATABASES
3.1.Sequence Retrieval System (SRS)
Em praticamente toda a Europa, a base de dados que é utilizada para armazenar e
pesquisar sequências de ácidos nucleicos é a EMBL. Para as proteínas usa-se essencialmente
a UniProt. Dado que estas bases de dados têm enormes quantidades de informação, difíceis
de gerir quanto à organização, é frequentemente usado o Sequence Retrieval System (SRS),
que não é mais do que um motor de busca extremamente eficiente para a procura de dados.
Este motor de busca faz pesquisas baseadas em texto, pelo que o gene aqui não tem o nome
PAX6, mas sim Oculorhombin, que é o seu nome alternativo.
O SRS é extremamente útil uma vez que reúne informação de variadas bases de dados
europeias, para além de cruzar essa informação e apresentar os melhores resultados.
3.1.1. EMBL
Como dito anteriormente, para se aceder à base de dados EMBL usa-se o sistema SRS. A
partir do link “Library”, é possível procurar toda a informação disponível sobre o gene de
interesse do ser humano por “accession number” e “description”. A “description” dá a
informação que nos permite concluir qual o gene que efectivamente procuramos. Ao se
identificar a sequência de interesse acede-se então a toda a informação disponível pelo
EMBL. Um dos campos mais importantes é a “Feature table”, devido à possibilidade que
esta oferece ao nível de combinar e organizar hierarquicamente os dados, permitindo de forma
simples a expressão de ideias complexas.
Para se aceder ao UniProtKB/SwissProt é também necessário aceder ao motor de busca
SRS. Aqui procura-se igualmente o gene de interesse sendo relevante retirar o “UniProt
acession number” e o “Uniprot identifier”.
3.2.UniProtKB
A UniProt (Universal Protein Resource) é o maior catálogo mundial de informação sobre
proteínas. Funciona como um depósito de sequências e de funções de proteínas e reúne a
informação contida na TrEMBL, na Swiss-Prot e na PIR.
A UniProtKB (UniProt Knowledgebase) é o ponto de acesso central à informação
proteíca, reunida de forma extensiva, que inclui função, classificação e referências cruzadas
sobre proteínas.
3.2.1. TrEMBL
Esta base de dados regista as sequências proteicas resultantes da tradução automática das
sequências nucleotídicas na EMBL. A TrEMBL é vista como a percursora da SwissProt.
3.2.2. SwissProt
A SwissProt, ao contrário da TrEMBL, apenas contém sequências peptídicas que tenham
sido manualmente anotadas.
3.2.3. PIR
A PIR (Protein Information Resource) é um recurso bioinformático de suporte à
investigação genómica e proteómica.
3.3.EBI
A EBI é um motor de busca, semelhante ao SRS.
Nesta base de dados foi procurada mais informação sobre a proteína do gene PAX6
humano, tendo-se chegado à conclusão que a informação obtida é igual à recolhida a partir da
GeneCards. A proteína possui três isoformas, devido a eventos de splicing alternativo, sendo
3
Bases de Dados com Interesse Biológico
possível encontrar na UniProt/SwissProt informação sobre elas.
Esta base de dados tem ainda disponível o algoritmo de alinhamento ClustalW, que
permite comparar sequências, dando o melhor alinhamento possível e mostrando as diferenças
entre as cadeias. Como estas sequências têm mais ou menos o mesmo comprimento e são
extremamente parecidas, este método fornece rapidamente as diferenças, as quais se devem à
presença de aminoácidos extra numa das cadeias peptídicas.
3.4.HGVBASE
A Human Genome Variation Database traduz qualquer informação sobre variações no
genoma humano. Por meio dela (recorrendo mais uma vez ao SRS) foi possível encontrar uma
variação nos alelos C/T no mRNA relacionada com a mutação no PAX6 que provoca a
doença.
A partir dela existem também links para outras bases de dados onde estão descritos SNP’s
(Single Nucleotide Polymorphism). A maioria dos SNP’s não tem efeito, apesar alguns
causarem diferenças fenotípicas subtis entre os indivíduos e outros, como aquele que está a
ser alvo de estudo neste trabalho, influenciarem o risco para certas doenças.
3.5.Ensembl
A Ensembl tem uma interface muito intuitiva, com gráficos, cores e figuras que a tornam
bastante apelativa e fácil de utilizar.
É um projecto colaborativo interessante e bastante dinâmico, no qual a informação é
automaticamente inserida ou eliminada, consoante existam dados que a suportem ou
descredibilizem. Os genes são descobertos utilizando o Genscan e o GeneWise e o conteúdo é
corroborado com informação de suporte encontrada nas bases de dados de proteínas.
Nesta base de dados pode visualizar-se, entre outros, todo o genoma humano como num
mapa (isto é, mostra o cariótipo). Dentro desta estão referidos o comprimento do
cromossoma, os intrões e exões responsáveis por determinada proteína, a ocorrência de
SNP’s, entre outros.
Ao clicar no cromossoma 11 foi possível localizar a região deste onde se encontra o PAX6.
Esta região não é muito densa ao nível do número de genes, apesar de possuir uma densidade
de SNP considerável (ligeiramente acima da média). A percentagem de conteúdo CG é
elevada, o que indica um grande potencial daquela região para codificar proteínas.
A Ensembl oferece para cada gene diferentes modos de visualização interligados entre si
(“View’s”). O ContigView permite olhar para dentro de um cromossoma. O GeneView mostra
a informação referente a um gene específico. O TransView e o ExonView permitem obter
informação detalhada sobre transcritos e os exões, respectivamente. Ao nível da informação
dos exões, é possível saber qual o grau de exactidão das sequências transcritas por um
diagrama de cores, onde o azul corresponde a um mapeamento manual e o vermelho a uma
previsão bioinformática. O SNPView permite visualizar SNP’s inseridos no DNA do
cromossoma. Pesquisou-se um dos SNP’s relacionados com o PAX6, vistos anteriormente, e
foi possível verificar a mutação de troca entre os alelos C e T (apesar de na base de dados
estar mencionado o seu conjugado, ou seja a troca de um G por um A).
Na “Feature table” é possível contar o número de exões associado à entrada M93650 da
EMBL, que são 13. Alguns destes exões não pertencem à região codificante para a proteína.
Isto deve-se aos eventos de splicing alternativo, ou seja, nem todos os exões são codificantes
para a mesma proteína, podendo o mesmo conjunto de exões, com diferentes combinações,
originar diferentes proteínas.
O Ensembl funciona como uma ponte para a base de dados mais completa, a EnsMart.
A EnsMart pode ser ainda utilizada, além do conseguido a partir da Ensembl, para
procurar genes responsáveis pela síntese de proteínas com função semelhante às que são
4
Ana Calhau
Ângela Pisco
Nuno Santos
comandadas pelo gene em estudo. Esta base de dados tem ainda a capacidade de fornecer a
sequência genómica que representa exactamente o maior transcrito do gene (sequência
manualmente mapeada e não bioinformaticamente inferida).
No domínio da Ensembl podemos ainda encontrar a Biomart. A Biomart permite escolher
que base de dados utilizar, devendo, regra geral, utilizar-se a mais actualizada da Ensembl, ou
seja, a que tiver o número maior, e qual o organismo que pretendemos pesquisar. Tem duas
funções bastante importantes na análise dos dados: uma é o “Filters”, que permite de forma
rápida e simples limitar as ocorrências àquelas que respeitam os parâmetros definidos pelo
utilizador; a outra é o “Attributes”, utilizado para especificar quais as propriedades do gene
em estudo que o utilizador deseja tomar conhecimento.
Aquando da obtenção dos resultados, por defeito, apenas aparecem 10 entradas. Este
número pode ser expandido, mas dado que a lista é ordenada por ordem de relevância,
consoante as relações que se pretendem estabelecer, assim deve ser escolhido o número de
ocorrências a mostrar. Deve ainda ser tido em conta que quantas mais entradas forem pedidas,
maior será a quantidade de informação repetida, pois cada gene respeita muitos critérios e
pode ser mapeado por diversos fenótipos.
Para obter a sequência genómica devem adaptar-se as opções das duas funções acima
referidas (Filters e Attributes), de forma a visualizar o pretendido.
3.6.Expert Protein Analysis System (ExPASy)
Por último neste estudo foi travado conhecimento com uma base de dados adequada a
estudos no âmbito das proteínas.
A ExPASy, para além de cruzar informação da SwissProt e da TrEMBL, oferece ainda um
conjunto de ferramentas a utilizar na análise das suas sequências proteicas.
De referir que em termos do cruzamento de informação das duas bases de dados acima
referenciadas, esta coincide com a obtida via SRS na EBI, mudando apenas o aspecto de
visualização gráfica.
5
Bases de Dados com Interesse Biológico
4. CONCLUSÃO
Ao longo de todo o desenvolvimento da actividade experimental foi possível tomar
conhecimento, ainda que superficialmente, do universo da biologia computacional, através do
uso de várias bases de dados de informação biológica.
Esta abordagem consciencializou o grupo para a necessidade de agrupar e organizar toda a
informação que urge de uma forma sistemática, o que aliás foi discutido nas aulas teóricas.
A ideia retida, em termos globais, foi a facilidade de encontrar informação ao nível dos
genes e das proteínas. Tendo o utilizador conhecimento da forma como cada base de dados
funciona, é bastante rápido e simples obter aquilo que procura. É também notório o facto de
as bases de dados estarem disponíveis de forma gratuita e a sua forma de utilização ser mais
ou menos intuitiva. No entanto, uma das maiores dificuldades encontradas está exactamente
ao nível do conhecimento por parte do utilizador das ferramentas a utilizar em cada base de
dados, já que estas variam bastante.
A existência de um único código identificador para cada gene é realmente decisivo na
possibilidade do cruzamento de informação entre bases de dados. Para além de garantir que a
informação associada a cada código é a pretendida, permite ainda a mobilização rápida entre
bases de dados, de forma a melhorar os resultados obtidos.
Existe ainda uma questão fundamental associada à actualização das bases de dados que é a
sincronização. Este passo é fundamental na disponibilização do conteúdo o mais actualizado
possível em todas as bases de dados, isto é, quando é adicionado um novo tópico numa base
de dados, após sincronização esse tópico fica disponível nas restantes. Se por exemplo
existirem duas referências iguais numa base de dados, na próxima revisão automática, a base
de dados será actualizada e uma das cópias apagada. Este problema só se verifica para bases
de dados mais antigas.
Os recursos bioinformáticos disponíveis permitem ainda subscrever serviços de alerta, que
automaticamente enviam um e-mail quando são publicados artigos relevantes sobre o tema de
interesse ou quando são actualizados os conteúdos de sequências tanto nucleotídicas como
peptídicas. Como exemplo de um destes serviços tem-se a PubCrawler, que procura
diariamente por actualizações na PubMed e no GenBank.
Concretizando ao estudo da doença em causa, descobriu-se que o gene responsável pela
aniridia é o PAX6. Este gene está localizado no cromossoma 11, banda p13. Tem 3 isoformas
e a mutação que origina a doença é um SNP, em que uma citosina é substituída por uma
timina na posição 837bp. Sabe-se ainda que este gene desempenha uma importante função no
comando do desenvolvimento do globo ocular durante a embriogénese, pelo que a mutação
condiciona a boa formação deste.
Em suma, ficou-se com uma ideia geral acerca da forma como os dados são guardados e
manipulados a nível bioinformático, de forma a ajudarem ao progresso da investigação, não
só académica, mas também clínica e farmacêutica.
As bases de dados consultadas são apenas algumas das muitas existentes neste universo.
Consoante os organismos sobre os quais incida a nossa pesquisa assim deve ser escolhida a
base de dados, de forma a optimizar os resultados obtidos e a rapidez a que estes são
conseguidos.
5. BIBLIOGRAFIA
[1] Mullan L., Judge D.; Recursos Bioinformáticos na Internet, IGC, Oeiras
[2] http://pt.wikipedia.org/wiki/Aniridia
[3] http://www.angelfire.com/trek/bioinformatica/database/database_1.htm
6