Bancos%20de%20Dados%20Biol%F3gicos

Propaganda
Allan Lima
[email protected]


Revisão sobre BDs Biológicos
Integração de Dados para DBs Biológicos
◦ Aplicação de Ontologias
 The Gene Ontology

Desafios para a próxima geração de BDs
Biológicos
◦
Permitem a previsão de indivíduos com
tendência a doenças
 Imunoterapia
Porém,
para que
 Evitar condições
ambientais
queisto
possam estimular
uma doençaseja possível temos
 Substituição de
genes
problemáticos
que
armazenar
as (“curativo
genético”)

informações genéticas
Novas oportunidades de negócios na
em bases de dados
◦
◦
◦
◦
Medicina
Agronomia
Zootecnia
Etc...

Então surge o conceito Bancos de Dados
Biológicos
◦ Guardam seqüências de ácidos nucléicos e
aminoácidos e suas respectivas anotações
◦ Fornecem algoritmos para recuperação e análise
destes dados

Laboratório de Genética Aplicada
na UFRPE
◦ Mapeamento de DNA Mitocondrial
 litopenaeus vannamei já publicado no
NCBI
 http://www.ncbi.nlm.nih.gov/Taxonomy/
Browser/wwwtax.cgi?id=6689
 Hyporhamphus (unifasciatus e roberti)
e Hemirhamphus (brasiliensis e balao)
 Auxiliar no estudo de ecologia,
conservação ou distribuição geográfica
 Em processo de mapeamento
The Gene Ontology
Problema:
Bancos de dados de biologia
molecular possuem um grande e
variado montante de tipos de
dados
Mas por que?
Ainda não há um padrão
que as implementações
pretendem seguir

Arquivos com uma dada estrutura própria
◦ GenBank, ACeDB

Bancos de dados implementados via SGBD
◦ Relacional, OO, OR.

Arquivos com dados em formato apropriado
para execução de determinadas aplicações
◦ FASTA e BLAST
Como padronizar e
integrar os projetos?
É um esforço colaborativo para
endereçar a necessidade de
descrições dos genes em
diferentes bases de dados
The Gene
Ontology
Search Engine
BD Relacional
XML
Flat Files

Iniciado em 1998 com apenas 3 projetos
◦ FlyBase (Drosophila)
◦ Saccharomyces Genome Database (SGD)
◦ Mouse Genome Database (MGD)

Estado atual
◦ Conjunto de ontologias que diversos projetos já
utilizam
 Representação dos dados biológicos e dos seus
significados (anotações)
 Ferramentas de busca e análise
◦ Ferramenta de edição de ontologias

Padroniza
◦ Processos biológicos
 Estruturas anatômicas
 Retículo Endoplasmático Rugoso
 Produtos de um gene
 Ribossomo
◦ Componentes celulares
 Série de eventos efetuados por um conjunto de
funções moleculares
 Transporte de glicose

Padroniza (Continuação)

Funções Moleculares

Atividade que ocorrem no nível molecular


Catálise
Relacionamentos

is_a

Simples relacionamento entre subclasses
Cromossomo Nuclear is_a Cromossomo
part_of
 Núcleo part_of Célula



O Núcleo sempre é parte de uma célula, mas nem toda célula
possui um núcleo

Os aquivos de definem as ontologias são
distribuídos livremente
◦ Modelos SQL (MySQL)
◦ Definição para o formato dos FlatFiles
◦ Esquemas DTD para validar aquivos XML


Há ainda um conjunto de arquivos de
mapeamento para algumas bases
Go Downloads

termdb
◦ ontologias, definições e mapeamentos para outros
bancos

assocdb
◦ adiciona suporte para os produtos dos genes

seqdb
◦ adiciona suporte para seqüências de proteínas

seqdblite
◦ versão simplificada do bd



Busca um termo da ontologia e mostra todos
os produtos de gene anotados para este
Procura por produto de gene e mostra suas
associações
Realiza indentificações de seqüências com o
algoritmo BLAST

Pontos negativos
◦
◦
◦
◦

Padrões podem inibir a criatividade
Nem sempre a adaptação é perfeita
Ferramenta de modelagem de ontologia bugada!?
Modelo obsoleto das ontologias (DTD)
Pontos positivos
◦ TGO ataca o problema de padronização no
armazenamento em diversos sentidos
◦ Possui uma vasta documentação
 Exemplos, Definições, Tutoriais, Wiki, etc.
◦ Conta com várias bases de dados
◦ Comunidade de pesquisadores
◦ Links para Ferramentas

Compactação dos dados
◦ Genoma humano ~ 3 gigabytes




Ontologias de integração
Metadados para as anotações
Inferência do significado das cadeias de DNA
Verssionamento








Seibel, L. F. B.; Lemos, M.; Lifschitz, S. Bancos de Dados de Genoma.
Departamento de Informática. Pontifícia Universidade Católica do Rio de
Janeiro
Laboratório de Genética e Expressão. Disponível em:
http://www.lge.ibi.unicamp.br/. Último acesso: 25.07.2007
PIR: Protein Information Resource. Disponível em: http://wwwnbrf.georgetown.edu/. Último acesso: 25.07.2007
GO: Gene Ontology. Disponível em: http://www.geneontology.org/.
Último acesso: 25.07.2007
NCBI: National Center for Biotechnology Information. Disponível em:
http://www.ncbi.nlm.nih.gov/. Último acesso: 25.07.2007
GenBank Overview. Disponível em:
http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html. Último
acesso: 25.07.2007
IF694 - Bancos de Dados Distribuídos e Móveis. Disponível em:
http://www.cin.ufpe.br/~if694/. Último acesso: 25.07.2007
The Gene Ontology Project. Disponível em:
http://www.cin.ufpe.br/~if694/. Último acesso: 25.07.2007
Allan Lima
[email protected]
Download