Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de 2004 Bancos de Dados BD Introdução – Conceitos Básicos Bancos de dados (BD) são conjuntos de dados relacionados e acessíveis. Sistemas Gerenciadores de Bancos de Dados (SGBD) são pacotes de programas que gerenciam BD, são linguagens utilizadas para manter os BD. Sistemas de BD são sistemas desenvolvidos com funções específicas, que usam BD, desenvolvidos em SGBD. Bancos de Dados e Recuperação de informação 3 Introdução – Conceitos Básicos SGBD é um pacote de softwares que facilita a criação e manutenção de um BD. Sozinho um SGBD não significa nada, com um BD e um programa escrito para sua manipulação forma-se um sistema de BD. Uma analogia sobre a diferença de um SGBD e um sistema de BD, pode ser por exemplo, um programa escrito em C e seu compilador, juntos formam uma aplicação. Bancos de Dados e Recuperação de informação 4 Introdução – Conceitos Básicos Num BD os dados relacionados têm que possuir interesses comuns e têm que ser ligados à realidade. Os dados são matéria-prima de forma crua, fatos que podem ser gravados com significado implícito. Bancos de Dados e Recuperação de informação 5 Introdução – Conceitos Básicos Mini-Mundo (Universo de Discurso) é a parte do Mundo real sobre o qual vai ser criado o BD e a aplicação. Mini-Mundo Bancos de Dados e Recuperação de informação Banco de Dados 6 Definição para Banco de Dados Um banco de dados é um conjunto de dados armazenados, cujo conteúdo informativo representa, a qualquer instante, o estado de uma determinada aplicação. ou Um banco de dados é um modelo de uma determinada parte da realidade, geralmente denominada de Universo de Discurso. Bancos de Dados e Recuperação de informação 7 Ambiente de um Sistema de Banco de Dados Programadores / Usuários Sistema de BD SGBD Programas de aplicação / Consultas Programa para processar consultas / Programas Programas para acessar dados armazenados Definição dos dados Bancos de Dados e Recuperação de informação Dados armazenados 8 Características da tecnologia BD Isolamento entre programas e dados Múltiplas visões dos dados Compartilhamento entre múltiplos usuários Controle de redundância Diferentes tipos de interface para diferentes usuários Representação dos dados complexos Garante a restrição de integridade Mecanismos de backup e recuperação de dados Flexibilidade na mudança das estruturas de dados Redução do tempo de desenvolvimento da aplicação Bancos de Dados e Recuperação de informação 9 Pessoas Envolvidas com BD Administrador de bancos de dados (ADB ou DBA – Database Administrator) Projetistas do banco de dados Analistas de sistemas Usuários finais: casuais, ingênuos e sofisticados Bancos de Dados e Recuperação de informação 10 Linguagens do SGBD DCL (Data Control Language) – usada pelo DBA para controlar o acesso aos dados, os usuários, etc. DDL (Data Definition Language) – descreve a estrutura do BD. Usada pelo DBA e pelos projetistas. DML (Data Manipulation Language) – permite especificar recuperação e alterações dos dados do BD. Pode ser embutida em outra linguagem, por exemplo C. SQL = DCL + DDL + DML (Structured Query Language) Bancos de Dados e Recuperação de informação 11 Evolução das Aplicações de BD Gerência de dados • Compreende facilidades para armazenar e manipular dados estruturados e de formato fixo, características das aplicações comerciais tradicionais. Gerência de objetos • Compreende facilidades para armazenar e manipular dados de estruturas complexas e tipos não tradicionais, tais como: imagens, textos, gráficos, mapas, figuras, etc. Gerência de conhecimento • Compreende facilidades para armazenar e garantir a aplicação de regras que possibilitam a manutenção de restrições de integridade entre os dados e a inferência automática de dados. Bancos de Dados e Recuperação de informação 12 Cronograma de Evolução dos BD SGBDs tradicionais Sistemas de Arquivos Redes Hierárquico 70 Bancos de Dados e Recuperação de informação SGBDs relacionais SGBDs OO/OR SQL SQL3 80 90 13 Sistemas Avançados em BD Bancos de Dados Distribuídos Bancos de Dados Temporais (Tempo-Real) Bancos de Dados Semi-estruturados Bancos de Dados na Web Bancos de Dados Móveis Bancos de Dados e Recuperação de informação 14 Recuperação de Informação RI Introdução - Conceito Recuperação de Informação (RI) é uma área da Ciência da Computação que lida com armazenamento automático e recuperação de documentos. Bancos de Dados e Recuperação de informação 16 Introdução - Motivação Crescimento no volume das informações Bibliotecas Digitais Complexidade dos dados Bancos de Dados e Recuperação de informação 17 Componentes de um Sistema de RI Necessidade do usuário Documentos PROCESSO DE INDEXAÇÃO Índices PERDA DE INFORMAÇÃO Uma representação dos documentos PROCESSO DE ESPECIFICAÇÃO DE CONSULTA Consulta PROCESSO DE RECUPERAÇÃO Lista de documentos recuperados Bancos de Dados e Recuperação de informação 18 Modelos Clássicos Apresentam estratégias de busca de documentos importantes para uma consulta (query). Cada documento é descrito pelo conjunto de palavras, que o compõe, ou termos de indexação. Os modelos clássicos: Booleano Vetorial Probabilístico Bancos de Dados e Recuperação de informação 19 Arquivo Invertido Termo1 doc5 50 doc1 30 doc3 15 ... Termo2 doc1 45 doc5 23 doc2 10 ... Termo3 doc4 66 doc3 59 doc5 47 ... doc3 26 doc5 13 doc2 ... TermoN Bancos de Dados e Recuperação de informação 7 ... 20 Modelos Clássicos Taxas (índices) de similaridade são calculadas com base na comparação entre a consulta e os documentos. O índice atribuído aos documentos deve indicar qual documento é mais relevante que outro, estabelecendo uma ordem de relevância (Ranking). Bancos de Dados e Recuperação de informação 21 Termos x Documentos Termos Documentos Bancos de Dados e Recuperação de informação 22 Termos x Documentos Query Termos Documentos Bancos de Dados e Recuperação de informação 23 Avaliação de Sistemas de RI Avalia-se um SRI comparando as respostas geradas por este sistema e o conjunto ideal de respostas de uma coleção de documentos. Coleções de documentos • Tipster (Wall Street Journal - TREC) • Fibrose Cística • Lexis / Nexis Índices de avaliação • Precisão ( Precision ) • Revocação ( Recall ) Bancos de Dados e Recuperação de informação 24 Tópicos especiais em RI Passagens Expansão de Consultas Filtragem de Informação Categorização e extração da informação Visualização Bancos de Dados e Recuperação de informação 25 Passagens Bancos de Dados e Recuperação de informação 26 Tópicos especiais em RI Passagens Expansão de Consultas Filtragem de Informação Categorização e extração da informação Visualização Bancos de Dados e Recuperação de informação 27 Expansão de Consultas Usuário Consulta: Redes de Computadores + www Sistema Consulta: Redes de Computadores + www + Internet + web + http + net + w3 + backbone Bancos de Dados e Recuperação de informação 28 Tópicos especiais em RI Passagens Expansão de Consultas Filtragem de Informação Categorização e extração da informação Visualização Bancos de Dados e Recuperação de informação 29