Recuperação de Informação

Propaganda
Bancos de Dados
e
Recuperação de Informação
Olinda Nogueira Paes Cardoso
DCC - UFLA
Maio de 2004
Bancos de Dados
BD
Introdução – Conceitos Básicos



Bancos de dados (BD) são conjuntos de dados
relacionados e acessíveis.
Sistemas Gerenciadores de Bancos de Dados
(SGBD) são pacotes de programas que gerenciam
BD, são linguagens utilizadas para manter os BD.
Sistemas de BD são sistemas desenvolvidos com
funções específicas, que usam BD, desenvolvidos
em SGBD.
Bancos de Dados e Recuperação de informação
3
Introdução – Conceitos Básicos


SGBD é um pacote de softwares que facilita a
criação e manutenção de um BD. Sozinho um
SGBD não significa nada, com um BD e um
programa escrito para sua manipulação forma-se
um sistema de BD.
Uma analogia sobre a diferença de um SGBD e
um sistema de BD, pode ser por exemplo, um
programa escrito em C e seu compilador, juntos
formam uma aplicação.
Bancos de Dados e Recuperação de informação
4
Introdução – Conceitos Básicos

Num BD os dados relacionados têm que
possuir interesses comuns e têm que ser
ligados à realidade.
 Os dados são matéria-prima de forma crua,
fatos que podem ser gravados com
significado implícito.
Bancos de Dados e Recuperação de informação
5
Introdução – Conceitos Básicos

Mini-Mundo (Universo de Discurso) é a parte do
Mundo real sobre o qual vai ser criado o BD e a
aplicação.
Mini-Mundo
Bancos de Dados e Recuperação de informação
Banco
de
Dados
6
Definição para Banco de Dados


Um banco de dados é um conjunto de dados
armazenados, cujo conteúdo informativo
representa, a qualquer instante, o estado de uma
determinada aplicação.
ou
Um banco de dados é um modelo de uma
determinada parte da realidade, geralmente
denominada de Universo de Discurso.
Bancos de Dados e Recuperação de informação
7
Ambiente de um Sistema de Banco de Dados
Programadores / Usuários
Sistema
de BD
SGBD
Programas de aplicação / Consultas
Programa para processar consultas / Programas
Programas para acessar dados armazenados
Definição
dos dados
Bancos de Dados e Recuperação de informação
Dados
armazenados
8
Características da tecnologia BD










Isolamento entre programas e dados
Múltiplas visões dos dados
Compartilhamento entre múltiplos usuários
Controle de redundância
Diferentes tipos de interface para diferentes usuários
Representação dos dados complexos
Garante a restrição de integridade
Mecanismos de backup e recuperação de dados
Flexibilidade na mudança das estruturas de dados
Redução do tempo de desenvolvimento da aplicação
Bancos de Dados e Recuperação de informação
9
Pessoas Envolvidas com BD

Administrador de bancos de dados (ADB ou
DBA – Database Administrator)

Projetistas do banco de dados

Analistas de sistemas

Usuários finais: casuais, ingênuos e sofisticados
Bancos de Dados e Recuperação de informação
10
Linguagens do SGBD



DCL (Data Control Language) – usada pelo DBA para
controlar o acesso aos dados, os usuários, etc.
DDL (Data Definition Language) – descreve a estrutura
do BD. Usada pelo DBA e pelos projetistas.
DML (Data Manipulation Language) – permite
especificar recuperação e alterações dos dados do BD.
Pode ser embutida em outra linguagem, por exemplo C.
SQL = DCL + DDL + DML
(Structured Query Language)
Bancos de Dados e Recuperação de informação
11
Evolução das Aplicações de BD

Gerência de dados
• Compreende facilidades para armazenar e manipular dados
estruturados e de formato fixo, características das aplicações
comerciais tradicionais.

Gerência de objetos
• Compreende facilidades para armazenar e manipular dados de
estruturas complexas e tipos não tradicionais, tais como:
imagens, textos, gráficos, mapas, figuras, etc.

Gerência de conhecimento
• Compreende facilidades para armazenar e garantir a aplicação
de regras que possibilitam a manutenção de restrições de
integridade entre os dados e a inferência automática de dados.
Bancos de Dados e Recuperação de informação
12
Cronograma de Evolução dos BD
SGBDs
tradicionais
Sistemas de
Arquivos
Redes
Hierárquico
70
Bancos de Dados e Recuperação de informação
SGBDs
relacionais
SGBDs
OO/OR
SQL
SQL3
80
90
13
Sistemas Avançados em BD

Bancos de Dados Distribuídos

Bancos de Dados Temporais (Tempo-Real)

Bancos de Dados Semi-estruturados

Bancos de Dados na Web

Bancos de Dados Móveis
Bancos de Dados e Recuperação de informação
14
Recuperação de Informação
RI
Introdução - Conceito

Recuperação de Informação (RI) é uma área da
Ciência da Computação que lida com armazenamento
automático e recuperação de documentos.
Bancos de Dados e Recuperação de informação
16
Introdução - Motivação
 Crescimento
no volume das
informações
 Bibliotecas
Digitais
 Complexidade
dos dados
Bancos de Dados e Recuperação de informação
17
Componentes de um Sistema de RI
Necessidade do usuário
Documentos
PROCESSO
DE
INDEXAÇÃO
Índices
PERDA DE INFORMAÇÃO
Uma representação dos documentos
PROCESSO DE
ESPECIFICAÇÃO
DE CONSULTA
Consulta
PROCESSO DE
RECUPERAÇÃO
Lista de documentos recuperados
Bancos de Dados e Recuperação de informação
18
Modelos Clássicos

Apresentam estratégias de busca de documentos
importantes para uma consulta (query).

Cada documento é descrito pelo conjunto de
palavras, que o compõe, ou termos de indexação.

Os modelos clássicos:
 Booleano
 Vetorial
 Probabilístico
Bancos de Dados e Recuperação de informação
19
Arquivo Invertido
Termo1
doc5 50
doc1 30
doc3 15 ...
Termo2
doc1 45
doc5 23
doc2 10 ...
Termo3
doc4 66
doc3 59
doc5 47 ...
doc3 26
doc5 13
doc2
...
TermoN
Bancos de Dados e Recuperação de informação
7
...
20
Modelos Clássicos

Taxas (índices) de similaridade são
calculadas com base na comparação entre a
consulta e os documentos.
O
índice atribuído aos documentos deve
indicar qual documento é mais relevante
que outro, estabelecendo uma ordem de
relevância (Ranking).
Bancos de Dados e Recuperação de informação
21
Termos x Documentos
Termos
Documentos
Bancos de Dados e Recuperação de informação
22
Termos x Documentos
Query
Termos
Documentos
Bancos de Dados e Recuperação de informação
23
Avaliação de Sistemas de RI
 Avalia-se
um SRI comparando as respostas
geradas por este sistema e o conjunto ideal de
respostas de uma coleção de documentos.

Coleções de documentos
• Tipster (Wall Street Journal - TREC)
• Fibrose Cística
• Lexis / Nexis

Índices de avaliação
• Precisão ( Precision )
• Revocação ( Recall )
Bancos de Dados e Recuperação de informação
24
Tópicos especiais em RI

Passagens

Expansão de Consultas

Filtragem de Informação

Categorização e extração da informação

Visualização
Bancos de Dados e Recuperação de informação
25
Passagens
Bancos de Dados e Recuperação de informação
26
Tópicos especiais em RI

Passagens

Expansão de Consultas

Filtragem de Informação

Categorização e extração da informação

Visualização
Bancos de Dados e Recuperação de informação
27
Expansão de Consultas
Usuário
Consulta:
Redes de Computadores + www
Sistema
Consulta:
Redes de Computadores + www + Internet +
web + http + net + w3 + backbone
Bancos de Dados e Recuperação de informação
28
Tópicos especiais em RI

Passagens

Expansão de Consultas

Filtragem de Informação

Categorização e extração da informação

Visualização
Bancos de Dados e Recuperação de informação
29
Download