Exemplos em Softwares - Departamento de Informática e Estatística

Propaganda
Bancos de Dados Biológicos
Luis Artur Ribeiro
Rafael Justino
Poline Lottin
Debora Comochina
Conceitos
Bioinformática: especialização da Informática aplicada à informação
originada pela/para Biologia; ou estudo da aplicação de técnicas computacionais
e matemáticas à geração e gerenciamento de (bio)informação.
A Bioinformática combina conhecimentos de química, física, biologia, ciências da
computação, informática e matemática/estatística para processar dados
biológicos ou biomédicos.
Exemplos em Softwares: identificar genes, prever a configuração
tridimensional de proteínas, identificar inibidores de enzimas, organizar e
relacionar informação biológica, simular células, agrupar proteínas homólogas,
montar árvores filogenéticas, analisar experimentos de expressão gênica entre
outras inúmeras aplicações.
Conceitos
“BD biológicos se tornaram uma importante ferramenta no
entendimento da vasta quantidade de fenômenos
biológicos existentes, desde a estrutura das biomoléculas
e sua interação ao metabolismo como um todo e a
evolução das espécies.
Este entendimento contribui para facilitar a luta contra
doenças, auxilia no desenvolvimento de novos fármacos e
na descoberta de relações entre espécies.”
(Wikipedia, 2006)
Conceitos
•São tanto bancos públicos (ex: Genbank) como privados
•Mais de 1000 bancos de dados biológicos comerciais e
públicos disponíveis atualmente
•Acesso a esses bancos de dados através de padrões abertos
(open standards) como a web é importante dadas as
características dos usuários destes bancos – Servidores UNIX
x Macintosh
•A revista NucleicAcidsResearch é um importante recurso com
informações sobre estes BD
(http://www3.oup.co.uk/nar/database/c/)
Motivação
• Disponibilizar dados biológicos para os cientistas.
• O máximo possível de um tipo particular de informação
deve estar disponível em um único lugar.
• Dados publicados podem ser difíceis de encontrar ou
acessar.
• Coletá-los da literatura consume muito tempo.
• Disponibilizar dados em formato que possa ser lido por
um computador.
Conteúdo
Dados de genômica, transcriptômica, proteômica, taxonomia,
ecologia, doenças, fármacos...
Informações:
• Seqüências de nucleotídeos, aminoácidos
• Função, estrutura, localização no cromossomo
• Mapas metabólicos
• Efeitos clínicos de mutações
• Características genéticas de populações específicas
• Catálogo de espécies ou recursos naturais
Conteúdo
Bancos de Dados bibliográficos.
• Resumem a literatura cientifica de uma forma legível para a máquina.
Bancos de Dados Taxonômicos.
• Bancos de dados de
classificação de espécies. São extremamente dependentes da classificaç
ão feita por um especialista.
Bancos de Dados de Seqüências de Nucleotídeos.
• Enfocam entidades biológicas como genes e ácidos nucléicos. Visam o
armazenamento e divulgação dedados de seqüências de nucleotídeos de
uma comunidade de pesquisa. As seqüências de DNA e RNA são
normalmente apresentadas juntamente com outras informações como o
organismo a qual a seqüência pertence ou ainda com as funções fisiológicas
relacionadas à seqüência.
Conteúdo
Bancos de Dados Genômicos.
• Disponibilizam dados genéticos de um organismo especial, variando muito no
conteúdo. As informações armazenadas em bancos de
dados genômicos incluem informações sobre genótipos, nome de
genes, propriedades de genes, mutações específicas, assim como mapas
genômicos e informações referentes a raças.
Bancos de Dados Proteômicos.
• Em geral, podem ser vistos como uma mistura de banco de dados de
seqüências de nucleotídeos, seqüências de proteínas e outros.
Bancos de Dados de Vias Metabólicas.
• Armazenam informações sobre o metabolismo de um organismo ou de vários
organismos diferentes. As enzimas participantes de reações são
freqüentemente relacionadas com bancos de dados de seqüências.
Conteúdo
Bancos de Dados de Seqüências de Proteínas.
• Proporcionam informações sobre proteínas. Bancos de dados universais que
armazenam informações sobre proteínas de todos organismos devem ser
diferenciados de bancos de dados especializados que armazenam
informações sobre famílias especificas ou grupo de proteínas ou sobre
as proteínas em espécies específicas.
Bancos de Dados de Estrutura Protéica.
• Estes bancos mantêm dados relativos à estrutura de proteínas. A estrutura
3D completa de proteínas é representada pelo armazenamento de
coordenadas no espaço 3D.
Bancos de Dados Híbridos.
• Trata-se de bancos de dados que armazenam diferentes conteúdos,
pertencendo a mais de um dos grupos citados.Com o crescente número de
dados biológicos que vem sendo
gerados,vários bancos de dados têm surgido.
Exemplos
Alguns tipos de bancos de dados biológicos:
•Bancos de dados primários de seqüência (nucleotídeos e
aminoácidos) –GenBank, UniProt
•Bancos de genomas – Mouse GenomeDatabase, NCBI
Genomic Biology
•Bancos de dados especializados - Flybase, Wormbase, CGAP
•Bancos de dados de estrutura de proteínas – PDB, SCOP
•Bancos de dados de interações proteína-proteína – STRING,
BioGRID
•Bancos de Cadastro de recursos naturais – AmazonLink,
ENDS, National Whale and Dolphins Stranding Database
Relembrando
Nucleotídeos ou nucleótidos são compostos ricos em energia e
que auxiliam os processos metabólicos, principalmente as
biossínteses, na maioria das células.
Funcionam ainda como sinais químicos, respondendo assim a
hormônios e outros estímulos extracelulares; eles são também
componentes estruturais de cofactores enzimáticos,
intermediários metabólicos e ácidos nucleicos. Os nucleóticos
podem ser considerados os monómeros da DNA/RNA, sendo o
polimero, o próprio DNA/RNA.
Relembrando
Genótipos, o conjunto dos cromossomos que se situam no
núcleo das células. Os cromossomos são interpretados como
uma sequência de genes. São os genes os portadores das
informações que condicionam o fenótipo. Ao conjunto dos
genes de um indivíduo damos o nome de genótipo.
• É o conjunto dos genes, condiciona os fenótipos totais.
• São as informações hereditárias de um organismo contidas
em seu genoma.
• gene é uma seqüência de nucleotídeos do DNA que pode
ser transcrita em uma versão de RNA.
Relembrando
Fenótipo são as características observáveis ou caracteres de um
organismo como, por exemplo: morfologia, desenvolvimento,
propriedades bioquímicas ou fisiológicas e comportamento.
Resulta da expressão dos genes do organismo, da influência de
fatores ambientais e da possível interação entre os dois.
Nem todos os organismos com um mesmo fenótipo parecem ou agem
da mesma forma, porque a aparência e o comportamento, assim como
os demais componentes do fenótipo, são modificados por condições
ambientais e de desenvolvimento. Do mesmo modo, nem todos os
organismos cujas aparências se assemelham possuem
necessariamente o mesmo genótipo.
O DNA é uma hélice dupla onde os pares seguem algumas regras.
Características BDB
• Tratam de dados biológicos altamente heterogêneos
mas relacionados
• Informações dinâmicas, modificações e atualizações
constantes
• Grande volume e variedade de dados biológicos
Geração de Dados
Fontes de dados:
• sequenciamento e anotação de genomas
• experimentos em larga escala: identificação de proteínas,
estrutura 3D de proteínas, microarranjos de DNA
Anotação:
• anexar conhecimento biológico relevante aos dados de
sequenciamento do genoma de um organismo.
Geração de Dados
• Visão direcionada para a biologia molecular
• Base da biologia molecular: DNA
o Nucleotídeos {A, C, G, T}
• Além do DNA, existem outros tipos de dados na
linha de evolução (RNA e proteínas)
• Uma seqüência de DNA pode possuir milhares de
pares de nucleotídeos.
• Cada seqüência possui uma identificação, funções
biológicas e podem pertencer a vários organismos.
Requisitos
•Qualidade dos dados (obtenção).
•Anotações consistentes.
•Integração entre ferramentas.
•Fácil acesso às informações disponíveis.
•Mecanismos para extrair do conjunto de dados apenas
aqueles de interesse do pesquisador.
Fatos
Mais de 1000 bases de dados diferentes
• 968 databases em The Molecular Biology Database
Collection: 2007 update by Galperin, Nucleic Acids
Research, 2007, Vol. 35, Database issue D3-D4
Tamanho dos bancos: de 100kB até 100GB
• DNA: >100GB
• Proteina: 1GB
• 3D structure: 5GB
Fatos
Organismos, Número de genes:
Plantas, <50.000
Mamíferos, 100.000
Vermes, 14.000
Bactérias, 2-4.000
dsDNAVírus
Vacina, <300
ssRNAVírus
INfluenza 12
Modelagem
Atualmente, os modelos de dados “tradicionais” mais referenciados
para
desenvolvimento de bancos de dados de biologia molecular são:
o modelo relacional, o modelo orientado a objetos e o modelo semiestruturado (bancos de dados XML).
Cada vez mais bancos de dados com diferentes conteúdos
do domínio abordado estão utilizando um SGBD relacional.
Por exemplo:
• Genome Sequence Database (GSDB), um banco de dados de seqüências de
nucleotídeos, é implementado usando o SGBD Relacional Sybase.
• CyanoBase, um banco de dados genético, também está implementado
usando o Sybase
• O banco de dados proteômico YPD é gerenciado por um SGBD relacional
Oracle.
Modelagem - Modelo Relacional
Dados biológicos são complexos. Um típico tipo de dado tem uma estrutura
aninhada de difícil representação no modelo relacional. Sistemas gerenciadores
de bancos de dados relacionais freqüentemente proporcionam um projeto
fragmentado e não intuitivo.
São melhores quando o esquema é simples, o dado é regular e consultas
sucessivas são independentes. Apesar disso, SGBDs relacionais são utilizados
para gerenciar todo tipo de dado biológico.
O esquema do modelo relacional é pré-definido. Os dados são abstraídos em
entidades e relacionamentos, sendo armazenados em tabelas. Além disso, o
modelo relacional é muito restritivo quanto à habilidade de ser estendido
O fato de decisões serem tomadas nos estágios iniciais, como a definição das
entidades e dos atributos, caracteriza uma desvantagem do modelo
relacional. Em dados biológicos, não há como predizer qual fator se provará
importante ou sujeito à modificação, isto se tornar um problema, pois se mostra
difícil e trabalhoso, senão impossível, alterar o esquema.
Modelagem - Modelo Relacional
A força do modelo relacional é sua total provisão por SQL. Mas sua
principal fraqueza é a ineficiência para modelagem de objetos
genômicos complexos.
O modelo relacional é orientado em direção a um eficiente
armazenamento e gerenciamento de dados, mas não provê
construtores para uma boa captura da semântica dos dados: a
representação de um objeto conceitual complexo em um banco de
dados relacional
pode se estender por muitos registros em várias tabelas distintas,
fazendo do esquema relacional um pobre veículo para comunicação
semântica de um banco de dados.
Com relação ao desempenho pode–se destacar que SGBDs
relacionais apresentam melhor desempenho em operações de
pesquisa para bases de dados de grande dimensão.
Modelagem - Modelo Orientado a
Objeto
Assim como o modelo relacional, o modelo orientado a objeto está
sendo bastante empregado para o tratamento de dados biológicos.
O INTERACT, por exemplo, um banco de dados sobre interações de
proteína, utiliza o SGBD orientado a objetos Poet.
Outros bancos de dados como o PSD/PIR, um banco de seqüências
de proteínas também foram implementados usando um SGBD
orientado a objetos.
Modelagem - Modelo Orientado a
Objeto
No modelo orientado a objeto os dados são abstraídos e armazenados como
objetos, possuindo estruturas com tipos pré-definidos. Sistemas orientados a
objeto são melhores quando o esquema é complexo, o dado irregular e as
consulta correlatas, sendo mais fácil pesquisar nas vizinhanças.
Uma vantagem de armazenar dados em um SGBD orientado a objeto é que ele é
capaz de proporcionar uma melhor performance para dados complexos (ex:
dados biológicos) como gráficos complicados, de 10-1000% comparado com o
padrão de banco de dados relacional.
Diferentemente do modelo relacional, modelos orientados a objeto são
extensíveis, contudo enfatizam o comportamento de objetos e insistem que cada
objeto tem sua própria identidade.
Modelagem - Modelo Orientado a
Objeto
A extensibilidade de sistemas de bancos de dados baseados em orientação a
objeto também nos permite incorporar operações sobre os dados diretamente
nas descrições de classe do objeto no banco de dados, deste modo escondendo
os detalhes de implementação do usuário e permitindo ser usado diretamente
com a linguagem de consulta do banco de dados.
A principal força do modelo orientado a objeto é seu poder de modelagem de
dados altamente flexível, oferecendo uma elegante maneira de representação de
objetos genômicos complexos. A principal fraqueza inclui a falta de uma forma
genérica de acesso aos objetos complexos.
A orientação a objeto permite ainda mais concisão e facilidade para entender
definições do banco de dados quando comparados com construtores de bancos
de dados relacionais.
A experiência tem mostrado que este tipo de
modelagem permite criar esquemas que são mais intuitivos para biólogos
moleculares compreender se comparados com os esquemas relacionais.
Modelagem - Modelo Semi-Estruturado (XML)
Dados biológicos nem sempre são bem estruturados, muitas vezes se mostram
incompletos, irregulares, redundantes ou contem erros. A maioria deles são
implicitamente estruturados. Portanto, dados da biologia molecular são bons
candidatos para um modelo de dados semi-estruturado.
No modelo semi-estruturado, o esquema é definido dinamicamente através dos
dados (auto-descritivo), apresentando uma descrição flexível de dados com
relacionamentos complexos.
A natureza auto-descritiva de XML a torna uma forma promissora para definição
de dados semi-estruturados.
XML é altamente flexível. Atualizar um modelo de dados é, portanto, simples.
XML é orientado a Internet e tem grande capacidade para vincular dados,
podendo ser utilizado para interconectar bancos de dados.
Modelagem - Modelo Semi-Estruturado (XML)
XML proporciona uma área aberta para definir especificações padronizadas.
Ponto importante, pois claramente há falta de padronização na bioinformática.
O custo de um formato baseado em texto na analise de dados, armazenamento e
transmissão precisam ser avaliados antes de adotar XML como uma solução
geral. Contudo, um formato texto significa que o código fonte pode ser lido e
editado com um editor de texto.
A expressividade de um modelo de dados XML provavelmente não será
suficiente para a biologia molecular. A semântica de dados biológicos é bastante
rica e requer um modelo de dados bastante expressiva.
XML não tem mecanismos de herança e nem métodos em objetos. O conceito de
relacionamento pode ser imitado através de referências lentas, mas não existe
como tal.
Apenas restrições de unicidade, cardinalidade e não nulo podem ser
especificadas: não há simetria, nem restrições elaboradas e nem ‘triggers’;
XML não tem suporte para valores numéricos, tabelas e matrizes.
Desafios
Armazenar dados de sequenciamento, experimentos e
resultado das anotações (conhecimento biológico).
Projetar banco de forma eficiente para facilitar recuperação de
informações.
Disponibilizar acesso às informações (ferramentas)
• Interface com usuário: intuitiva, fácil manipulação
• Flexibilidade de acesso: tipos de informação que podem ser
recuperadas (consultas)
• Flexibilidade de visualização: formato de apresentação dos
dados (texto, gráfico, links)
Desafios
Integrar dados heterogêneos
• Integração física (bancos distribuídos geograficamente)
o
Tecnologias de integração de dados (web services,
DAS)
• Integração conceitual (semântica)
o
Ontologias (bases de conhecimento)
Desafios
Diferentes bases de dados para armazenamento de dados
biológicos:
• arquivos em formato de texto
• arquivos estruturados
• bancos de dados relacionais
• bancos de dados objeto-relacionais
• bancos de dados orientado a objetos
Ontologias
Desafios
Muitas bases de dados foram construídas por biólogos.
• Não padronização da taxonomia
• Dificuldade na adoção de um vocabulário comum entre
os grupos de pesquisa
• Termos diferentes para conceitos iguais
• Conceitos diferentes para termos iguais
Desafios
Qualidade dos dados disponíveis na Web
• Grupos de pesquisa submetem suas descobertas
• Algumas bases aceitam de qualquer entrada
• Muitas bases não verificam a qualidade dos dados
• Outras bases preocupam-se com a qualidade dos
dados, onde um comitê valida-os. Estas bases ganham
destaque da comunidade científica.
Buscas
Muitos tipos de seqüências de entrada
• Pode ser uma seqüência de aminoácido ou de nucleotídeo
• Genômica, cDNA/mRNA, proteína
• Completa ou fragmentada
Matches exatos são raros
• Em geral, o objetivo é recuperar um conjunto de seqüências
similares
Buscas
O que queremos saber sobre a seqüência?
• Ela é similar ao algum gene conhecido? Quão próximo é o
melhor match? Significância?
• O que sabemos sobre este gene?
o Genômica(localização no cromossomo, regiões
reguladoras, ...)
o Estrutural (estrutura conhecida? ...)
o Funcional (molecular, celular e doença)
•Informação evolutiva
o Este gene é encontrado em outros organismos?
o Qual é sua árvore taxonômica?
NCBI - National Center for Biotechnology
Information - GenBank
NCBI disponibiliza o banco de sequência de DNA GenBank desde
1992. O GenBank tem acesso aberto e possui uma coleção de todas
as sequências de nucleotídios disponíveis publicamente e suas
proteínas traduzidas.
• Recebe sequências prodozidas em laboratórios de todo o mundo
de mais de 100,000 organismos.
• Cresce a ritmo exponencial, duplicando sua base a cada 18 meses.
• Em agosto de 2006 possuía mais de 65 milhões de bases de
nucleotídios em mais de 61 milhões de sequências.
Se coordena com laboratórios individuais e outros bancos de
sequências como European Molecular Biology Laboratory (EMBL) e
DNA Database of Japan (DDBJ).
Basic Local Alignment Search Tool (BLAST)
Algoritmo de comparação de sequências biológicas primárias
(aminoácidos e nucleotídios)
Permite ao pesquisador comparar uma sequência com outras
disponíveis na base de dados e idientificar as parecidas com
um determinado grau de confiabilidade.
•
•
•
•
Algorítmo de busca de sequências genéticas
Cria lista de partes da sequência de busca
Pesquisa a base de dados
Calcula semelhanças
Protein Data Bank (PDB) & Fasta
PDB:
• Banco de dados que compõe o projeto NCBI.
• É um repositório de informações estruturais 3-D de grandes
moléculas biológicas como preoteínas e ácidos nucléicos.
• Trabalho com o MMDB (Molecular Modeling DB) .
Fasta
• Formato de texto que representa sequências de
nucleotídios ou peptídios, em que pares base ou
aminoácidos são representados usando letras.
Exemplo
Influenzavirus A
• gripe aviária
• gripe suína
o depende da espécie do hospedeiro
Neuraminidase
• enzima presente na superfície dos vírus influenza que
permite ao vírus ser liberado da célula hospedeira
Exemplo
Links:
http://en.wikipedia.org/wiki/Influenzavirus_A
http://en.wikipedia.org/wiki/Viral_neuraminidase
Exemplo
Influenza Research Database
http://www.biohealthbase.org/GSearch/fluSegmentDetails.do?ncbiGenomicAcces
sion=FJ998214&decorator=influenza
NCBI - Nucleotide Database
http://www.ncbi.nlm.nih.gov/nuccore/229484043?report=genbank
NCBI - Taxonomy Browser
http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=6437
80
NCBI - Blast
*http://blast.ncbi.nlm.nih.gov/Blast.cgi*
NCBI - PDB - MMDB
http://www.ncbi.nlm.nih.gov/Structure/mmdb/mmdbsrv.cgi?uid=67153
Influenza Research Database
Através de palavras-chave pesquisa-se:
• Segmentos de Nucleotídios
• Proteínas
• Tipos de Influenzas
o tipos de hospedeiro
o país
o data de adição
o e outros.
Pesquisando Neuraminidase em tipo s de influenza, obtêm-se mais de
10 mil resultados, e arbitrariamente seleciona-se um caso mexicano de
2009 com um hospedeiro humano.
Atributos (taxonomia, segmento...) possuem IDs que "linkam"
diretamente outras bases usadas na consulta. (NCBI, UniProtKB,
GBrowse, TARGET, IEDB)
NCBI - Nucleotide - Taxonomy
Através do ID de segmento (FJ998214) se acessa página do
mesmo na base de Nucleotídios do NCBI.
• autores, referências, sequência do segmento, tradução
Fasta.
Através do ID de taxonomia (643780) se acessa a página da
espécie (Influenza A virus (A/Mexico/InDRE4487/2009(H1N1)))
na base de Taxonomia do NCBI.
Na página de segmento já há um link para usar o Blast e fazer
comparação do segmento genético em outras espécies sem
precisar copiar e colar a sequência Fasta.
NCBI - Blast - PDB - MMDB
Através de múltiplas consultas como resultado são
apresentadas dezenas de variações de vírus que possuem a
mesma sequência exata (100%) e aproximadas (99%); toas
com seus IDs linkados para continuar a pesquisa no NCBI.
No mesmo portal há ferramentas de visualização 3D das
estruturas dos vírus, o formato pode ser baixado e visualizado
com o uso de um software (Cn3D) na máquina do usuário.
Toda a navegação é intuitiva feita a partir de links e IDs e as
bases funcionam de forma interligada.
Bibliografia
http://www.icb.ufmg.br/biq/maira/biodbfiles/aula1-introducaobioinfo.pdf
http://biotec.icb.ufmg.br/cabi/aulas/aula21.pdf
http://www.inf.ufrgs.br/~clesio/cmp151/cmp15120031/BDsBiologicos.pdf
http://en.wikipedia.org/wiki/National_Center_for_Biotechnology_Information
http://en.wikipedia.org/wiki/BLAST
http://en.wikipedia.org/wiki/Protein_data_bank#Viewing_the_data
http://en.wikipedia.org/wiki/FASTA_format
http://pt.wikipedia.org/wiki/Gene
Bibliografia
http://pt.wikipedia.org/wiki/Gen%C3%B3tipo
http://pt.wikipedia.org/wiki/Fen%C3%B3tipo
http://www2.dc.uel.br/nourau/document/?view=127
Download