Versão 0.3 Capítulo 5 Bancos de dados Estrutura e modelos de

Propaganda
Versão 0.3
Capítulo 5
Bancos de dados
Estrutura e modelos de dados
Banco de dados, em uma definição geral, é uma coleção dados inter-relacionados que representa algum
aspecto do mundo real ou um subconjunto dele. A parte do mundo real dos bancos de dados muitas vezes é referida
como "universo de discurso", termo que tem origem na teoria dos modelos, ou como "database miniworld", termo em
inglês que poderia ser traduzido como "o pequeno mundo da base de dados". Em uma definição mais restritiva, um
banco de dados é uma coleção persistente, logicamente coerente de dados inerentemente significativos, relevante para
alguns aspectos do mundo real. Deste modo, os bancos de dados foram criados para operar em grandes quantidades de
informação, propiciando um ambiente conveniente e eficiente para introdução, armazenamento, recuperação e
gerenciamento das informações.
Um sistema de gerenciamento de banco de dados (database management system, DBMS) é um conjunto
de softwares, ou programas computacionais que provém uma interface entre o(s) usuário(s) e o(s) banco(s) de dados.
Esse gerenciamento envolve tanto a definição das estruturas de armazenamento da informação quanto o fornecimento
de mecanismos para construí-los e manipulá-los. Além disso, um DBMS é responsável por manter a integridade e
segurança dos dados armazenados e também para recuperação de informação se o sistema falhar. Um DBMS deve ser
concebido em um sistema de multi-camadas, segundo relatório da ANSI/SPARC, como mostrado na figura 1.
Figura 1. As camadas de um banco de dados, desde o armazenamento físico (bits em um sistema de armazenamento )
até a interface que deve fazer sentido para o usuário final.
Um sistema de banco de dados consiste na combinação dos DBMS e dos bancos de dados. Os
elementos de um sistema de bancos de dados consistem em:
•
Modelo de dados
•
Esquemas e instâncias
•
Arquitetura três esquemas
•
Dicionário de dados
•
Linguagens DBMS
Modelo de dados
Conjunto de conceitos que são usados para descrever a estrutura do banco de dados. E este modelo
determinará a estrutura lógica do banco de dados que, na prática, significa a maneira pela qual os dados serão
armazenados, organizados e manipulados. Os tipos de modelos de dados são:
Modelo conceitual de dados – Alto nível de conceitos, uma representação da realidade (ou parte dela), próximo de
como o usuário percebe os dados, por exemplo, modelo de Entidade-Relacionamento, modelo orientado a objeto.
Modelo de dados de implementação– Conceitos que podem ser compreendidos pelo usuário final, mas que não estão
muito longe da organização de dados. Eles escondem alguns detalhes de armazenamento de dados, mas podem ser
implementados em um sistema de computador de forma direta. Por exemplo, modelo hierárquico, modelo de rede,
modelo relacional.
Modelo físico de dados – Conceitos de baixo nível que descreve detalhes físicos de armazenamento dos dados.
Esquemas e instâncias
Em quaisquer modelos de dados é importante distinguir a diferença entre a descrição dos dados e os
próprios dados. Esquema do banco de dados é a descrição do banco de que é específica da etapa de projeto do banco de
dados e não deverá mudar com muita frequência. Instância do banco de dados é o conjunto de dados guardados em
determinado momento, sendo que qualquer introdução, modificação ou exclusão de informações altera o estado do
banco de dados.
Para exemplificar, usaremos um banco de dados de um herbário para um esquema de banco de dados.
Note que o esquema do banco de dados deve ter uma estrutura fixa e não deve estar sujeito a muitas mudanças.
Figura 2. Modelo de um banco de dados para um herbário fictício.
Arquitetura três esquemas
A proposta dessa abordagem é utilizar três níveis de abstrações diferentes no desenvolvimento do
sistema. Nesta proposta, cada nível representa um modelo diferente das mesmas informações e processos, mas utiliza
um sistema de expressões que envolve um conjunto único de objetos e composições que se aplicam em apenas um
determinado domínio. Cada nível relativamente abstrato superior baseia-se em um nível relativamente concreto inferior.
Neste tipo de arquitetura, as mudanças em um nível devem ter um impacto mínimo nos outros níveis.
Visão externa/ visão do usuário – Cada esquema externo descreve parte do banco de dados no qual um
grupo particular de usuários é interessado e esconde o restante do banco de dados do grupo de usuários. Modelos de
modelo de dados de alto nível ou uma implementação de modelos de dados pode ser utilizada neste nível.
Esquema conceitual – Nele os detalhes físicos de armazenamento são ocultos, concentrando-se nas
descrições das entradas, o tipo de dados, relações e restrições. Aqui também pode ser utilizado um alto nível de
modelagem de dados ou uma implementação de modelos de dados.
Esquema Interno – Especifica como os dados serão armazenados e organizados fisicamente. Aqui as
estruturas complexas e os caminhos de acesso ao banco de dados são descritas em detalhes.
A independência dos dados é um ponto importante na utilização de bancos de dados, pois permite que o
usuário faça modificações em um esquema de dados sem afetar a definição de um esquema em um nível mais alto.
Existem dois tipos de independência de dados, são eles:
Independência física de dados o qual é possível modificar o esquema físico sem a necessidade de
modificar programas. Tais modificações são utilizadas para otimizar o desempenho. DBMS provem a interface entre os
modelos de dados conceituais e físicos;
Independência lógica dos dados o qual modifica-se o sem a necessidade refazer algum programa. Esta
independência possibilita modificações na estrutura lógica, como por exemplo, a adição de um novo atributo. DBMS
provem a interface entre o esquema conceitual e a visão externa.
Dicionário de dados
É o repositório central com informações sobre os dados, tais como: significado, relações com outros
dados, origem uso e formato., ou seja, ele é uma estrutura de dados que armazena os metadados, dados estruturados
sobre os dados contento as informações sobre visão externa, esquema conceitual e físico.
Linguagens DBMS
Linguagens de banco de dados são linguagens de propósito específico, que fazem um ou mais dos
seguintes procedimentos:
Linguagem de definição de dados (data definition language, DDL) – linguagem utilizada pelo
administrador do banco de dados para definir os esquemas do banco de dados. E o resultado da compilação dos
comandos desta linguagem é o conjunto das tabelas que serão armazenadas no dicionário de dados.
Linguagem de manipulação de dados (data manipulation language, DML) – linguagem utilizada para
recuperar, inserir, deletar e modificar os dados. As declarações DML podem ser introduzidas a partir de um terminal ou
incorporadas em uma linguagem de programação de propósito geral.
Banco de dados biológicos
Os bancos de dados tiveram um impacto significativo para o avanço no entendimento da biologia.
Atualmente, os bancos de dados em biologia são bibliotecas com conteúdo diversificado de informações obtidos por
diferentes técnicas experimentais, análises computacionais e publicados em literaturas científicas. As informações
contidas em bancos de dados biológicos vem de diferentes áreas de pesquisas, tais como: genômica, proteômicas,
metabolômica, transcriptomica, filogenética, entre outras. Banco de dados é uma grande ferramenta a qual auxilia o
cientista a analisar e explicar uma série de fenômenos biológicos desde análise de estrutura e interação de biomoléculas,
passando pelo metabolismo de um organismo e para a compreensão da evolução das espécies. E este conhecimento tem
impacto biotecnológico possibilitando que sejam desenvolvidos no campo da saúde ou do agronegócio desenvolver ou
modificar produtos ou processos que utilizem organismos vivos ou derivados dele.
Outro ponto importante quanto ao uso dos bancos de dados biológicos é que os bancos de dados
possibilitam que os dados biológicos sejam lidos por computadores. Como a análise de dados biológicos quase sempre
envolve computadores, com os dados em suporte informático em vez de impressos em papel, torna possível executar
tarefas em larga escala integrando informações de uma forma que seria humanamente impossível.
Bancos de dados bioinformáticos: Um breve histórico
Em 1962, utilizando-se de dados recém obtidos de sequências de resíduos de aminoácidos de
citocromos de diferentes espécies de organismos, Zuckerkandl e Pauling propuseram uma nova estratégia para o estudo
das relações evolutivas entre os organismos chamaram de relógio evolutivo molecular. Esta teoria se baseia no fato da
similaridade existente entre as sequências de proteínas funcionalmente relacionados e que esta similaridade é
inversamente proporcional ao tempo transcorrido entre seus ACMR.
A história dos bancos de dados biológicos inicia no começo da década de 1960 quando o grupo liderado
por Margareth Dayhoff do recurso de informação sobre proteína (protein information resource, PIR) coletaram e
alinharam, se baseando no princípio de evolução molecular, todas as sequências de proteínas existentes até aquele
momento e as publicaram em um livro que se chamou de Atlas de sequências e estruturas proteicas (Atlas of Protein
Sequence and Structure). E quando uma grande quantidade de sequências nucleotídicas tornaram-se disponíveis os
autores também as incluíram no livro. Diferentemente de outros livros publicados anteriormente, o Atlas de sequências
e estruturas proteicas continha anotações por similaridade de sequências que até então não havia sido relacionadas.
Dayhoff havia criado, no formato impresso, o primeiro banco de dados de proteínas anotadas, o qual se tornou uma
ferramenta crucial não só para o desenvolvimento no campo de evolução molecular, mas de forma mais ampla para as
ciências da vida. Anos depois por motivos óbvios o PIR passou a disponibilizar em formato digital o atlas o qual era
distribuído em fitas magnéticas. Além do atlas na fita também havia alguns programas para realizar buscas e avaliar a
distâncias evolutivas entre as sequências.
Em 1981 foi criado a biblioteca de dados do EMBL (European Molecular Biology Laboratory) baseada
em Heidelberg, Alemanha, que foi o primeiro repositório central de dados de sequências de nucleotídeos do mundo. No
ano seguinte o EMBL se juntou ao GenBank criando uma nova fase na história dos bancos de dados de sequências. Os
institutos EMBL e NCBI (National Center for Biotechnology Information) inciaram uma atividade inicial que consistia
em transcrever e interpretar o que havia sido publicado em revistas científicas impressas para um formato eletrônico.
Poucos anos depois, o DNA Databank of Japan (DDBJ) se juntou a esta colaboração de coleção de dados que passou a
se referida como Colaboração Internacional de Banco de Dados de Sequências Nucleotídicas após um encontro
realizado entre os três grupos. Neste encontro eles também determinaram um acordo para usar um formato comum para
o elemento de dados dentro de uma unidade de registro que eram submetidas para eles. Além disso, os três centros
armazenam as submissões diretas e compartilham todas as sequências entre eles. Contudo o gerenciamento das
sequências fica a cargo do centro que subiu aquela sequência para o banco de dados. Ao longo das 24 horas as
sequências automaticamente são compartilhadas entre os bancos de dados.
Nesta mesma época, o início dos anos de 1980, houve a criação do banco de dados de sequência
proteica Swiss-Prot quando transformaram o Atlas em um formato semelhante ao utilizado pelo EMBL. A primeira
versão Swiss-Prot chamava-se PIR+ e informações sobre cada proteínas eram integradas ao banco melhorando a
descrição sobre as proteínas. Em 1986, o banco PIR+ passou a ser distribuído em um precursor da internet atual (US
BIONET) e renomeado para Swiss-Prot. Naquele momento já continha informações sobre 3900 proteínas que era visto
com um expressivo montante de dados um contraste com os padrões atuais. Com o tempo a colaboração entre o SwissProt e EMBL se tornou mais forte e as operações de ambos os grupos foram transferidas para EBI (European
Bioinformatics Institute) em Hinxton, Reino Unido. E uma dos primeiros projetos colaborativos foi criar um
suplemento aos dados do Swiss-Prot. E a este suplemento criado se deu o nome de TrEMBL e basicamente consistia de
anotações computacionais (tradução) de todas as sequências codificantes (CDS, do inglês coding sequences) presentes
em DDBJ/EMBL/GenBank e que não estavam contidas no Swiss-Prot. O TrEMBL permitia a liberação rápida dos
dados de sequências não anotados com o padrão do Swiss-Prot.
Bancos de dados primários
Os bancos de dados primários contêm, em sua maior parte, apenas dados obtidos de resultados
experimentais. Ocasionalmente os bancos de dados primário também pode conter algumas interpretações, mas não
curadoria em seus dados. Atualmente, a submissão de sequências a um banco de dados é precondição para publicação
na maioria das revistas científicas para garantir que os dados possam ser disponibilizados. Entretanto essas sequências
não representam um consenso na população, nem
Bancos de dados secundários e biocuradoria
As sequências em banco de dados primários frequentemente contêm mínimas informações. Para tornar
as informações acerca das sequências em um conhecimento biologicamente mais sofisticado é necessário que as
informações obtidas dos bancos de dados primários sejam processadas, ou seja, é necessários que os dados primários
sejam anotados. As anotações atribuem as sequências um significado biológico e estas anotações pode ser feitas tanto
por humanos quanto por computadores. Entretanto considera-se um banco de dados secundários aquele banco que
contenha informações processadas por um curador, um profissional com uma boa experiência no assunto.
Biocuradoria consiste na revisão de literatura ou conjuntos de dados publicados, levando à identificação
e abstração dos principais resultados. Estes resultados são incorporados em uma base de dados de uma maneira
organizada, muitas vezes utilizando vocabulários controlados, e está associada com os genes apropriados ou as regiões
cromossômicas. Como o volume de dados biológicos continua a aumentar, biocuradoria está se tornando cada vez mais
importante aspecto da pesquisa biomédica. Há poucos anos, biocuradores formaram uma sociedade profissional, a
Sociedade Internacional para Biocuradoria, que se reúnem regularmente para trocar idéias e métodos para melhorar a
precisão e a eficiência de todos os tipos de curadoria de dados biológicos.
Banco de dados privados
A maioria dos bancos de dados biológicos são públicos que significa que eles estão livres acessível para
todos em todos os lugares do mundo. Mas nos últimos anos tornou-se cada vez mais comum as empresas privadas se
interessarem em sequenciar genomas de organismos comercialmente ou cientificamente interessantes. Devido à
necessidade das empresas em produzir lucros que normalmente não disponibilizam gratuitamente para o público o que
significa que se você quiser ter acesso às informações contidas nos bancos de dados terá que arcar com os custos. A
academia normalmente não é capaz de pagar o dinheiro necessário para o acesso a esses bancos de dados e que são
utilizados principalmente pelas indústrias farmacêuticas e de biotecnologia. Isto significa que algumas informações
sequências está disponível para todos, enquanto um monte de informações sequência está disponível apenas para as
grandes indústrias.
Integração dos bancos de dados
Apesar dos esforços de curadores em todo mundo, ainda persiste entre os bancos de dados um grande
problema: a integração dos dados biológicos existentes entre os diversos bancos de dados. Integrar os dados biológicos
implica estabelecer uma via eficiente e automática de para integrar grandes conjuntos de dados biológicos, heterogêneos
vindos de múltiplas fontes. Nos últimos anos, várias abordagens têm sido propostas para que haja integração de dados
que de maneira geral podem ser classificadas em cinco grupos, descritos a seguir.
1.- Armazenamento de dados (data warehousing) – esta abordagem focaliza a tradução dos dados, buscando
todos dados disponíveis nas diferentes bases de dados, transformando e importando para dentro do “data
warehousing”;
2.- Bancos de dados federado – nesta abordagem são executadas todas as consultas sobre as fontes distribuídas
por traduzir uma consulta no banco de dados federado em uma consulta contra muitas fontes. O banco de
dados federado busca os dados de diferentes fontes de dados e exibe os dados buscados para sua base de
usuários.;
3.- Integração orientada a serviço– a abordagem orientada a serviço permite a integração de dados de múltiplas
fontes de dados heterogêneos através da interoperabilidade de computador. ou seja, a integração de dados é
conduzida através de programação via web service e fontes de dados servem como prestadores de serviços;
4.- Integração semântica - a maioria das páginas da web em fontes de dados biológicos são projetados para
leitura humana. A Web Semântica oferece uma forma legível por máquina para a representação de dados e
interoperabilidade. A integração semântica usa ontologias para a descrição de dados e, portanto, representa
integração baseada em ontologia;
5.- Integrações baseadas em wiki - com o crescente volume de dados biológicos, a integração de dados,
inevitavelmente, vai exigir um grande número de participações dos usuários. Um exemplo de sucesso que
utiliza a inteligência coletiva para a agregação de dados e de conhecimento é a Wikipedia, uma enciclopédia
on-line (http://www.wikipedia.org) que permite a qualquer usuário criar e editar conteúdo. Embora existam
temores de inconsistência e imprecisão, pois os usuários podem livremente e anonimamente mudar qualquer
conteúdo e/ou adicionar novos conteúdos no wiki, já foi testado que é o wiki supera a enciclopédia tradicional
em precisão. No entanto, a integração baseada em wiki tem suas próprias deficiências, incluindo os dados nãoestruturados gerados, a falta de um formato padrão para a troca de dados, a falta de crédito para a autoria e
vulnerabilidade a edição maliciosa.
Uma visão geral dos bancos de dados biológicos
Neste tópico será dada descrição geral de alguns bancos de dados.
Bancos de sequências nucleotídicas
Existem três grandes bases de dados de nucleotídecas: EMBL (European Molecular Biology
Laboratory), GenBank (Centro Nacional de Informações sobre Biotecnologia) e DDJB (DNA Databank do Japão).
EMBL, GenBank e DDBJ colaboraram e sincronizam seus bancos de dados para que todos os bancos de dados
contenham as mesmas informações. Como uma sequência é submetido apenas a um deles, há um atraso muito curto de
tempo, para que estes bancos de dados se comuniquem um com o outro, diariamente. Como resultado, os dados das três
bases são idênticos, embora o formato no qual eles são armazenados e a natureza de anotação, variem um pouco entre
si. A maioria dos dados são gerados a partir do genoma sequenciado organismos, tais como o Homo sapiens,
Caenorhabditis elegans, Mus musculus e Arabidopsis thaliana. Muitas dessas espécies também têm bases de dados
especiais que combinam a sequência do genoma e sua anotação com outros dados relacionados. A taxa de crescimento
das bases de dados de sequências nucleotídicas tem uma tendência exponencial, com um tempo de duplicação estimada
em 9 a 12 meses.
Bancos de sequências proteicas
Bancos de dados de sequências proteicas coletam informações adicionais sobre as proteínas, como
ligantes, associação da subunidade, pontes de dissulfeto, a atividade catalítica, família, etc. A maioria das informações
são coletadas a partir da literatura. Estas bases de dados surgem pela tradução de sequências de ácidos nucleicos.
Existem várias bases de dados de sequências de proteínas. Dois dos mais importantes são PIR Internacional e
SwissProt.
Bancos de estruturas tridimensionais
Banco de dados de estruturas, armazenam, anotam e distribuem os conjuntos de coordenadas atômicas
para visualizar estruturas tridimensionais. Existem várias bases de dados de estrutura. Bancos de dados estruturais
contêm informações específicas sobre análise estereoquímica, tais como: comprimentos de ligação e ângulos, estruturas
cristalinas de raios-X e os dados espectroscópicos de ressonância magnética nuclear. A melhor base de dados
estabelecida para estruturas macromoleculares biológicas é o PDB (protein data bank).
•
Bancos de motivos e domínios
•
Bancos de famílias
•
Bancos de expressão
Banco de dados de expressão são utilizados para mensurar a abundância de RNAm de um grande
número de genes simultaneamente ou para genotipar múltiplas regiões de um genoma. As informações podem ser
geradas por técnicas, tais como microarranjos e RNAseq. A quantidade de deste tipo de dados nós últimos anos têm
crescido muto e esse montante de dados tem gerado valiosos dados para genômica funcional.
Banco de literatura científica
As bases de dados bibliográficas contêm artigos científicos ou resumos dos mesmos. Procuras neste tipo
de banco costumam retornar como resultado: o nome do autor, o título, a publicação e a data que são as informações
para citação de um artigo. Alguns também oferecem resumos do artigo. Existem vários bancos de dados de alta
qualidade, mas o mais utilizado é o PubMed.
PubMed é um projeto desenvolvido pelo Centro Nacional de Informações sobre Biotecnologia na
Biblioteca Nacional de Medicina, localizada no Instituto Nacional de Saúde nos Estados Unidos da América. Ele
fornece acesso a mais de 24 milhões de citações no MEDLINE, revistas científicas sobre a vida e livros onlines.
PubMed é um banco de dados muito útil, sua cobertura é mundial, sendo a maioria dos artigos ou seus resumos
publicados são em inglês.
Download