Bancos de Dados: De onde vieram? Onde estão - DI PUC-Rio

Propaganda
Seminário
Bancos de Dados:
De onde vieram? Onde estão? Para onde vão?
Marco A. Casanova
5/3/2006
(c) Dept. Informática - PUC-Rio
1
Paul Gauguin, French, 1848–1903
Where Do We Come From? What Are We? Where Are We Going?
1897–1898
Oil on canvas
Image: 139.1 x 374.6 cm (54 3/4 x 147 1/2 in.)
Framed: 171.5 x 406.4 x 8.9 cm (67 1/2 x 160 x 3 1/2 in.)
Wildenstein 561
Museum of Fine Arts, Boston: Tompkins Collection 36.270
http://www.mfa.org/artemis/fullrecord.asp?oid=32558&did=500
5/3/2006
Description: In 1891, Gauguin left France for Tahiti,
seeking in the South Seas a society that was simpler
and more elemental than that of his homeland. In Tahiti,
he created paintings that express a highly personal
mythology. He considered this work—created in 1897,
at a time of great personal crisis—to be his masterpiece
and the summation of his ideas. Gauguin's letters
suggest that the fresco-like painting should be read
from right to left, beginning with the sleeping infant. He
describes the various figures as pondering the
questions of human existence given in the title; the blue
idol represents "the Beyond." The old woman at the far
left, "close to death," accepts her fate with resignation.
(c) Dept. Informática - PUC-Rio
2
Cicero Dias, Brasil 2003
Eu vi o mundo… Ele começava no Recife
Rio de Janeiro, 1926-1929
Guache e técnica mista s/ papel,
colado em tela, 1,94 x 12m
Coleção do artista, Paris
http://www.estadao.com.br/divirtaseonline/galeria/
cicerodias/painel/index.frm
5/3/2006
O Painel do Escândalo (Salão de 1931)
...Na arte de vanguarda brasileira não fora feita até
então obra similar. Nem no porte, nem na ousadia da
concepção. Media quinze metros de largura, por dois e
meio de altura. Estava impregnada das forças
incontroláveis e misteriosas do inconsciente. Cícero
Dias fez uma composição telúrica, cheia de desvarios e
animada de uma convulsão subjetiva de enorme
intensidade.
Figuras voam no alto. Mostrou o universo visto a partir
de Pernambuco ou do Brasil. Tanto que seu título era
este: Eu vi o mundo...ele começava no Recife. Uma
denominação ao mesmo tempo regional, nacional e
internacional. A capital pernambucana estava
representada. E igualmente o Rio de Janeiro.
(c) Dept. Informática - PUC-Rio
3
Referências
www.inf.puc-rio.br/~casanova/
Database Systems: Achievements and Opportunities. 'Lagunita-I' NSF Invitational Workshop
on the Future of Database Systems Research, Palo Alto, CA (Feb. 1990)
SIGMOD Record and IEEE Data Engineering Bulletin, 19:4 (Dec. 1990), pp. 6-22.
Communications ACM, 43:10, (Oct. 1991), pp. 110-120.
http://www-db.stanford.edu/~hector/lagi.ps
Database Research: Achievements and Opportunities into the 21st Century. ‘Lagunita II’ NSF
Workshop on the Future of Database Systems Research. San Jose, CA (May 1995)
SIGMOD Record, 25(1): March 1996
http://www-db.stanford.edu/pub/papers/lagii.ps
The Asilomar Report on Database Research. SIGMOD Record, 27(4): 74-80 (Dec. 1998)
http://www.acm.org/sigmod/record/issues/9812/asilomar.html
The Lowell Database Research Self Assessment (June 2003)
http://www-rocq.inria.fr/~abitebou/pub/LowellDatabaseResearchSelfAssessment.pdf
http://research.microsoft.com/~gray/lowell/
5/3/2006
(c) Dept. Informática - PUC-Rio
4
Tópicos
•
De onde vieram?
– Década de 60 - Primórdios
– Década de 70 - Gênesis
– Década de 80 - Desenvolvimento
– Década de 90 - Maturidade
•
Onde estão?
– O que aprendemos?
– Onde estamos?
•
Para onde vão?
– The 1998 Asilomar Report
– The 2003 Lowell Report
– Resumo
5/3/2006
(c) Dept. Informática - PUC-Rio
5
Década de 60 - Primórdios
• Início da Década:
– dados armazenados diretamente em arquivos
– problemas:
• redundâncias e inconsistências
• dificuldade de acesso
• integridade lógica
• atomicidade das transações
• segurança
5/3/2006
(c) Dept. Informática - PUC-Rio
6
Década de 60 - Primórdios
• Final da Década:
– sistemas de gerência de bancos de dados (SGBDs) pioneiros:
• IMS
• TOTAL
– problemas parcialmente endereçados:
• redundância e inconsistências
• atomicidade das transações
• segurança
– problemas em aberto:
• dificuldade de acesso
• integridade lógica
5/3/2006
(c) Dept. Informática - PUC-Rio
7
Década de 70 - Gênesis
• Início da Década:
– CODASYL DBTG Report [1971] e ANSI/SPARC Report [1975]
EE
5/3/2006
EE
Esquema Externo
EC
Esquema Conceitual
EI
Esquema Interno
(c) Dept. Informática - PUC-Rio
8
Década de 70 - Gênesis
• Início da Década:
– Modelo Relacional [1970]
• uma única estrutura de dados - relações
• álgebra relacional
• cálculo relacional
• formas normais: 1NF, 2NF, 3NF
– B-trees [1972]
• índices em memória secundária para grandes volumes de chaves
5/3/2006
(c) Dept. Informática - PUC-Rio
9
Communications of the ACM, Vol. 13, No. 6, June 1970, pp. 377-387.
A Relational Model of Data for Large Shared Data Banks
E. F. Codd
Abstract
Future users of large data banks must be protected from having to know how the data is organized in the machine (the
internal representation). A prompting service which supplies such information is not a satisfactory solution. Activities of
users at terminals and most application programs should remain unaffected when the internal representation of data is
changed and even when some aspects of the external representation are changed. Changes in data representation will often
be needed as' a result of changes in query, update, and report traffic and natural growth in the types of stored information.
Existing non inferential, formatted data systems provide users with tree-structured files or slightly more general network
models of the data. In Section 1, inadequacies of these models are discussed. A model based on n-ary relations, a normal
form for data base relations, and the concept of a universal data sub language are introduced. In Section 2, certain
operations on relations (other than logical inference) are discussed and applied to the problems of redundancy and
consistency in the user's model.
Key Words and Phrases
data bank, data base, data structure, data organization;, hierarchies of data, network of data, relations, derivability,
redundancy, consistency, composition, join, retrieval language, predicate calculus, security, data integrity
CR Categories
3.70, 3.73, 3.75, 4 20, 4.22, 4.29
5/3/2006
(c) Dept. Informática - PUC-Rio
10
Década de 70 - Gênesis
•
Metade da Década:
– SGBDs relacionais pioneiros (SGBD-Rs):
• System R [1976] e Ingres [1976]
• introdução da maior parte da tecnologia utilizada nos SGBDs atuais,
incluindo a linguagem SQL [1974]
– problemas endereçados:
• redundância e inconsistências
• atomicidade das transações
• segurança
• dificuldade de acesso
– problemas parcialmente endereçados:
• integridade lógica
5/3/2006
(c) Dept. Informática - PUC-Rio
11
Década de 80 - Desenvolvimento
• Início da Década:
– Codd recebe o ACM Turing Award em 1981
5/3/2006
(c) Dept. Informática - PUC-Rio
12
Década de 80 - Desenvolvimento
• Início da Década:
– SGBD-Rs distribuídos pioneiros (SGBDD-R):
• System R* e Ingres Distribuído
– extensões da tecnologia relacional para tratar BDDs
• exemplo: otimização de consultas distribuídas
– desenvolvimento de novas tecnologias para tratar de novos
problemas
• exemplo: 2PC protocol para terminação de transações
5/3/2006
(c) Dept. Informática - PUC-Rio
13
Década de 80 - Desenvolvimento
•
Metade da Década:
– SGBDs Orientados a Objeto (SGBD-OO):
• baseiam-se no paradigma de orientação a objeto (OO),
como as linguagens de programação OO (LP-OO)
– SGBD-OO x LP-OO persistente
– endereçam requisitos de aplicações não-convencionais:
• objetos complexos
• encapsulamento
• transações longas
– SGDB-OOs pioneiros:
• O2 [1988]
• Exodus [1986]
• ORION [1986]
5/3/2006
(c) Dept. Informática - PUC-Rio
14
Década de 80 - Desenvolvimento
• Metade da Década:
– "Próxima geração" de SGBD-Rs:
• combinam características de OO com o modelo relacional
• expandem a arquitetura de SGBDs com novas possibilidades
• exemplo: otimizadores de consultas configuráveis
– Exemplos:
• POSTGRES [1986]
• STARBURST
5/3/2006
(c) Dept. Informática - PUC-Rio
15
Década de 80 - Desenvolvimento
• Final da Década:
– Maturidade da tecnologia de SGBDs:
• vários SGBD-Rs com desempenho aceitável
– DB2, Ingres, Oracle, Sybase, Informix
– padronização do SQL [1986, 1989]
5/3/2006
(c) Dept. Informática - PUC-Rio
16
Década de 90 - Maturidade
• Início da Década:
– Maturidade da tecnologia de SGBDs:
• primeiros SGBD-OOs comerciais
• SGDBs paralelos / dedutivos / ativos / tempo real / ...
• avanços em padronização de interfaces e interoperabilidade
5/3/2006
(c) Dept. Informática - PUC-Rio
17
Década de 90 - Maturidade
•
Metade da Década:
– novas classes de aplicações:
• Data Mining
• Bibliotecas Digitais
• Vídeo-sob-demanda
• Animação
• Hipermídia e Multimídia em geral
• GIS
• Meteorologia
• Física de Alta Energia (HEP)
5/3/2006
(c) Dept. Informática - PUC-Rio
18
Earth Observation System
Data and Information System
EDOS - EOS Data and Oper. System
FOS - Flight Operations Segment
s
a
t
é
l
i
t
e
s
EDOS
DAAC - Distributed Active Archive Center
SCF - Scientific Computing Facility
CSMS - Comm. and System Mng System
DAAC
FOS
SCF
o
u
t
r
o
s
CSMS
EOS Network
5/3/2006
(c) Dept. Informática - PUC-Rio
19
Década de 90 - Maturidade
• Final da Década:
– WIIS - Web Information Integration System:
• sistema para tratar dados oriundos de vários Web sites
• WIIS devem lidar com:
– um grande número de Web sites
– maior autonomia dos componentes
– dados semi-estruturados
• Enfoque de Data Warehouse:
– dados são extraídos das fontes e armazenados em uma warehouse
• Enfoque de Multi-SGBD:
– dados são mantidos nos Web sites
– consultas são decompostas e enviadas aos vários Web sites
5/3/2006
(c) Dept. Informática - PUC-Rio
20
Década de 90 - Maturidade
• Final da Década:
– Jim Gray recebe o ACM Turing Award em 1998
5/3/2006
(c) Dept. Informática - PUC-Rio
21
Tópicos
•
De onde vieram?
– Década de 60 - Primórdios
– Década de 70 - Gênesis
– Década de 80 - Desenvolvimento
– Década de 90 - Maturidade
•
Onde estão?
– O que aprendemos?
– Onde estamos?
•
Para onde vão?
– The 1998 Asilomar Report
– The 2003 Lowell Report
– Resumo
5/3/2006
(c) Dept. Informática - PUC-Rio
22
O quê aprendemos?
• Otimização de Consultas
– otimização de consultas declarativas (“select-from-where”)
– variações, dependendo de…
• modelo de dados
• arquitetura
• Processamento de Transações
– processamento de transações ACID
– variações, dependendo de…
• necessidades das aplicações
• arquitetura
5/3/2006
(c) Dept. Informática - PUC-Rio
23
Onde estamos?
Market Share
2002
2003
Crescimento
das vendas
(2002-2003)
IBM+Informix
35.7%
35.7%
+4.9%
Oracle
33.4%
32.6%
+2,4%
Microsoft
17.7%
18.7%
+11.0%
2002
2003
Crescimento
das vendas*
(2002-2003)
Linux
0.116B
0.299B
+257.7%
Unix
2.48B
2.34B
-5.9%
Windows
2.69B
2.79B
+3.8%
TOTAL
6.6B
6.93B
+5.1%
Fornecedor
Sistema
Operacional
Vendas
(*) Vendas de licenças novas
5/3/2006
(c) Dept. Informática - PUC-Rio
24
Onde estamos?
• Dados sobre dados em 2002:
– 5 milhões de terabytes,
ou 5 exabytes,
de informação nova
– 92% da informação
armazenada em meio digital
– 0,4 milhões de terabytes
enviados por e-mail
[http://www.sims.berkeley.edu/research/projects/how-much-info-2003/]
5/3/2006
(c) Dept. Informática - PUC-Rio
25
Onde estamos?
©2005 Google - Pesquisando
8.058.044.651 páginas na Web
5/3/2006
(c) Dept. Informática - PUC-Rio
26
Onde estamos?
Oracle compra a PeopleSoft
por 7.7B USD
(outubro de 2004)
IBM compra a Informix
por 1B USD
(abril de 2001)
5/3/2006
(c) Dept. Informática - PUC-Rio
27
Onde estamos?
Microsoft Announces
2006 Target Date for
Broad Availability Of
Windows "Longhorn"
Client Operating System
5/3/2006
(c) Dept. Informática - PUC-Rio
28
Onde estamos?
Vem aí o Estado policial-informático
(Elio Gaspari – O Globo 17/04/05)
•
•
LexisNexis e ChoicePoint (2001)
–
contas de 3 bilhões de cartões de crédito
–
139 milhões de números de telefones
–
200 milhões de pleitos de seguradoras
–
mais 100 milhões de fichas criminais
ChoicePoint (2001)
–
nome e endereço dos eleitores mexicanos
–
passaportes dos cidadãos da Costa Rica
–
RG e telefone de todos os argentinos
–
registro civil de todos os colombianos
5/3/2006
(c) Dept. Informática - PUC-Rio
29
Onde estamos?
• Trivialização do uso da tecnologia de BDs (!)
• Proliferação de produtores e consumidores de dados (!!)
• Aplicações armazenando da ordem de petabytes (!!!)
5/3/2006
(c) Dept. Informática - PUC-Rio
30
5/3/2006
(c) Dept. Informática - PUC-Rio
31
Tópicos
•
De onde vieram?
– Década de 60 - Primórdios
– Década de 70 - Gênesis
– Década de 80 - Desenvolvimento
– Década de 90 - Maturidade
•
Onde estão?
– O que aprendemos?
– Onde estamos?
•
Para onde vão?
– The 1998 Asilomar Report
– The 2003 Lowell Report
– Resumo
5/3/2006
(c) Dept. Informática - PUC-Rio
32
The 1998 Asilomar Report - Research Agenda
• SGBD “Plug and Play”
– bancos de dados sem necessidade de administração
– “descoberta automática de informação” baseada em
metadados capturando a semântica dos dados
– temas de pesquisa:
• bancos de dados auto-configuráveis
• bancos de dados ricos em metadados
5/3/2006
(c) Dept. Informática - PUC-Rio
33
The 1998 Asilomar Report - Research Agenda
• Federações de bancos de dados em larga escala
– a Web é um grande sistema federado
• bilhões de clientes Web acessam milhões de bancos
– temas de pesquisa:
• otimizadores de consultas para federações com milhares de bancos
• execução de consultas baseada em “acumulação de evidência”
• integração assistida por ferramentas
5/3/2006
(c) Dept. Informática - PUC-Rio
34
The 1998 Asilomar Report - Research Agenda
• Revisão da arquitetura tradicional de SGBDs
– necessidade de operação contínua
– necessidade de armazenar grandes volumes de dados
• sensoriamento remoto, TV digital, …
– tema de pesquisa:
• revisão da maioria dos componentes de um SGBD
5/3/2006
(c) Dept. Informática - PUC-Rio
35
The 1998 Asilomar Report - Research Agenda
• Integração de dados estruturados e semi-estruturados
– XML = dados organizados hierarquicamente
– tema de pesquisa:
• unificação das tecnologias de banco de dados e da Web
5/3/2006
(c) Dept. Informática - PUC-Rio
36
The 2003 Lowell Report - Research Agenda
Lowell Workshop
=
Asilomar Workshop revisited
(same old people)
5/3/2006
(c) Dept. Informática - PUC-Rio
37
The 2003 Lowell Report - Research Agenda
•
Tópicos cobertos
– Integration of Text, Data, Code and Streams
– Information Fusion
– Sensor Data and Sensor Networks
– Multimedia Queries
– Reasoning about Uncertain Data
– Personalization
– Data Mining
– Self Adaptation
– Privacy
– Trustworthy Systems
– New User Interfaces - Semantic Web?
– One Hundred Year Storage
– Query Optimization
5/3/2006
(c) Dept. Informática - PUC-Rio
38
The 2003 Lowell Report - Research Agenda
• Integração de texto, dados, código e seqüências
– novas classes de aplicações geram dados de vários tipos:
• aplicações científicas ou de engenharia
geram grande volume de dados exóticos
– repensar SGBDs para tratar uniformemente dados exóticos
• armazenamento e consulta a dados exóticos
• pipelining de dados produzidos por processos de análise
• integração de dados em um “grid” na Web
5/3/2006
(c) Dept. Informática - PUC-Rio
39
The 2003 Lowell Report - Research Agenda
• Integração de texto, dados, código e seqüências
– observações:
• formatos de dados auto-descritivos (i.e., XML) podem ser úteis
para transferência de dados, mas não para armazenamento
• novas arquiteturas não devem ter compromissos
com o passado,
embora
fornecedores devam manter a estratégia de desenvolver
extensões incrementais de SQL e XML
5/3/2006
(c) Dept. Informática - PUC-Rio
40
The 2003 Lowell Report - Research Agenda
• “Fusão de Informação”
– a Web facilita o desenvolvimento de aplicações
envolvendo várias empresas
• empresas interessadas em interagir com fornecedores e clientes,
trocando dados, para fornecer melhores produtos e serviços
– repensar SGBDs para integrar milhões de fontes de informação
em tempo real
• a questão espinhosa de heterogeneidade semântica permanece…
5/3/2006
(c) Dept. Informática - PUC-Rio
41
The 2003 Lowell Report - Research Agenda
• Redes de Sensores
– redes de sensores possibilitam uma nova classe de aplicações
de monitoramento que geram seqüências de dados
– repensar SGBDs para tratar redes de sensores
• processamento de consultas sobre seqüências de dados:
– necessitam adaptação a perfis de geração de dados rapidamente
mutáveis
– plano de execução deve acompanhar modificações no perfil
• gerência de redes de sensores requer formas mais sofisticadas de
integração de dados
5/3/2006
(c) Dept. Informática - PUC-Rio
42
The 2003 Lowell Report - Research Agenda
• Tratamento de incerteza
– incerteza ou imprecisão nos dados ocorrem em medições
científicas, posição de objetos móveis, …
– repensar SGBDs para tratar incerteza ou imprecisão nos dados
• “rastreabilidade” dos dados
• processamento de consultas deve passar...
– de um modelo determinístico, onde consultas possuem resultado exato
– para um modelo estocástico, onde o processador de consultas
acumula evidência para prover respostas cada vez mais precisas
5/3/2006
(c) Dept. Informática - PUC-Rio
43
The 2003 Lowell Report - Research Agenda
• Personalização
– resposta de consulta deve depender de perfil do usuário
– repensar SGBDs para oferecer personalização
baseada em modelos do usuário e em metadados
• personalização e tratamento de incerteza requer verificar
se o sistema está produzindo a resposta “correta”
5/3/2006
(c) Dept. Informática - PUC-Rio
44
The 2003 Lowell Report - Research Agenda
• “Armazenamento secular”
– informação arquivada pode desaparecer
– repensar SGBDs para oferecer armazenamento perene dos
dados
• migrar conteúdo para novos formatos e
manter hardware e software para processar os dados
• gerenciar metadados junto com os documentos
5/3/2006
(c) Dept. Informática - PUC-Rio
45
Resumo
• Modelos flexíveis de consultas
– “suposição do mundo aberto”
• resultados incompletos ou imprecisos
– consultas a fontes autônomas “pelo melhor esforço”
– rastreabilidade + explicação + personalização
5/3/2006
(c) Dept. Informática - PUC-Rio
46
Resumo
• Modelos transacionais flexíveis
– “non ACID transactions”
• ações compensatórias / ações alternativas
– transações sobre fontes autônomas “pelo melhor esforço”
– rastreabilidade + explicação + personalização
5/3/2006
(c) Dept. Informática - PUC-Rio
47
Resumo
• Projeto baseado em padrões e reuso de especificações
– “padrões para tudo” – domínios, metadados, padrões estruturais
– interoperabilidade deve se tornar um não-problema
(ou continuará a ser um problema insolúvel)
R
ROO
O
O22
O
O11
DB
DB11
DB
DB22
IIRR
II11
5/3/2006
II22
(c) Dept. Informática - PUC-Rio
48
E o futuro ?
5/3/2006
(c) Dept. Informática - PUC-Rio
49
O futuro é previsível ?
“Consider a future device for individual use, which is a sort of mechanized private file and library. It
needs a name, and, to coin one at random, "memex" will do. A memex is a device in which an individual
stores all his books, records, and communications, and which is mechanized so that it may be consulted
with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory.”
“... The process of tying two items together is the important thing. When the user is building a trail, he
names it, inserts the name in his code book, and taps it out on his keyboard. ...”
“Thereafter, at any time, when one of these items is in view, the other can be instantly recalled merely
by tapping a button below the corresponding code space. Moreover, when numerous items have been
thus joined together to form a trail, they can be reviewed in turn, rapidly or slowly, by deflecting a lever
like that used for turning the pages of a book. ...”
“Wholly new forms of encyclopedias will appear, ready made with a mesh of associative trails running
through them, ready to be dropped into the memex and there amplified....”
by Vannevar Bush
The Atlantic Monthly; July, 1945;
As We May Think; Volume 176, No. 1; pages 101-108.
5/3/2006
(c) Dept. Informática - PUC-Rio
50
O futuro é imprevisível !
5/3/2006
(c) Dept. Informática - PUC-Rio
51
www.inf.puc-rio.br/~casanova/
5/3/2006
(c) Dept. Informática - PUC-Rio
52
Download