Allan Lima [email protected] Revisão sobre BDs Biológicos Integração de Dados para DBs Biológicos ◦ Aplicação de Ontologias The Gene Ontology Desafios para a próxima geração de BDs Biológicos ◦ Permitem a previsão de indivíduos com tendência a doenças Imunoterapia Porém, para que Evitar condições ambientais queisto possam estimular uma doençaseja possível temos Substituição de genes problemáticos que armazenar as (“curativo genético”) informações genéticas Novas oportunidades de negócios na em bases de dados ◦ ◦ ◦ ◦ Medicina Agronomia Zootecnia Etc... Então surge o conceito Bancos de Dados Biológicos ◦ Guardam seqüências de ácidos nucléicos e aminoácidos e suas respectivas anotações ◦ Fornecem algoritmos para recuperação e análise destes dados Laboratório de Genética Aplicada na UFRPE ◦ Mapeamento de DNA Mitocondrial litopenaeus vannamei já publicado no NCBI http://www.ncbi.nlm.nih.gov/Taxonomy/ Browser/wwwtax.cgi?id=6689 Hyporhamphus (unifasciatus e roberti) e Hemirhamphus (brasiliensis e balao) Auxiliar no estudo de ecologia, conservação ou distribuição geográfica Em processo de mapeamento The Gene Ontology Problema: Bancos de dados de biologia molecular possuem um grande e variado montante de tipos de dados Mas por que? Ainda não há um padrão que as implementações pretendem seguir Arquivos com uma dada estrutura própria ◦ GenBank, ACeDB Bancos de dados implementados via SGBD ◦ Relacional, OO, OR. Arquivos com dados em formato apropriado para execução de determinadas aplicações ◦ FASTA e BLAST Como padronizar e integrar os projetos? É um esforço colaborativo para endereçar a necessidade de descrições dos genes em diferentes bases de dados The Gene Ontology Search Engine BD Relacional XML Flat Files Iniciado em 1998 com apenas 3 projetos ◦ FlyBase (Drosophila) ◦ Saccharomyces Genome Database (SGD) ◦ Mouse Genome Database (MGD) Estado atual ◦ Conjunto de ontologias que diversos projetos já utilizam Representação dos dados biológicos e dos seus significados (anotações) Ferramentas de busca e análise ◦ Ferramenta de edição de ontologias Padroniza ◦ Processos biológicos Estruturas anatômicas Retículo Endoplasmático Rugoso Produtos de um gene Ribossomo ◦ Componentes celulares Série de eventos efetuados por um conjunto de funções moleculares Transporte de glicose Padroniza (Continuação) Funções Moleculares Atividade que ocorrem no nível molecular Catálise Relacionamentos is_a Simples relacionamento entre subclasses Cromossomo Nuclear is_a Cromossomo part_of Núcleo part_of Célula O Núcleo sempre é parte de uma célula, mas nem toda célula possui um núcleo Os aquivos de definem as ontologias são distribuídos livremente ◦ Modelos SQL (MySQL) ◦ Definição para o formato dos FlatFiles ◦ Esquemas DTD para validar aquivos XML Há ainda um conjunto de arquivos de mapeamento para algumas bases Go Downloads termdb ◦ ontologias, definições e mapeamentos para outros bancos assocdb ◦ adiciona suporte para os produtos dos genes seqdb ◦ adiciona suporte para seqüências de proteínas seqdblite ◦ versão simplificada do bd Busca um termo da ontologia e mostra todos os produtos de gene anotados para este Procura por produto de gene e mostra suas associações Realiza indentificações de seqüências com o algoritmo BLAST Pontos negativos ◦ ◦ ◦ ◦ Padrões podem inibir a criatividade Nem sempre a adaptação é perfeita Ferramenta de modelagem de ontologia bugada!? Modelo obsoleto das ontologias (DTD) Pontos positivos ◦ TGO ataca o problema de padronização no armazenamento em diversos sentidos ◦ Possui uma vasta documentação Exemplos, Definições, Tutoriais, Wiki, etc. ◦ Conta com várias bases de dados ◦ Comunidade de pesquisadores ◦ Links para Ferramentas Compactação dos dados ◦ Genoma humano ~ 3 gigabytes Ontologias de integração Metadados para as anotações Inferência do significado das cadeias de DNA Verssionamento Seibel, L. F. B.; Lemos, M.; Lifschitz, S. Bancos de Dados de Genoma. Departamento de Informática. Pontifícia Universidade Católica do Rio de Janeiro Laboratório de Genética e Expressão. Disponível em: http://www.lge.ibi.unicamp.br/. Último acesso: 25.07.2007 PIR: Protein Information Resource. Disponível em: http://wwwnbrf.georgetown.edu/. Último acesso: 25.07.2007 GO: Gene Ontology. Disponível em: http://www.geneontology.org/. Último acesso: 25.07.2007 NCBI: National Center for Biotechnology Information. Disponível em: http://www.ncbi.nlm.nih.gov/. Último acesso: 25.07.2007 GenBank Overview. Disponível em: http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html. Último acesso: 25.07.2007 IF694 - Bancos de Dados Distribuídos e Móveis. Disponível em: http://www.cin.ufpe.br/~if694/. Último acesso: 25.07.2007 The Gene Ontology Project. Disponível em: http://www.cin.ufpe.br/~if694/. Último acesso: 25.07.2007 Allan Lima [email protected]