Seminário Bancos de Dados: De onde vieram? Onde estão? Para onde vão? Marco A. Casanova 5/3/2006 (c) Dept. Informática - PUC-Rio 1 Paul Gauguin, French, 1848–1903 Where Do We Come From? What Are We? Where Are We Going? 1897–1898 Oil on canvas Image: 139.1 x 374.6 cm (54 3/4 x 147 1/2 in.) Framed: 171.5 x 406.4 x 8.9 cm (67 1/2 x 160 x 3 1/2 in.) Wildenstein 561 Museum of Fine Arts, Boston: Tompkins Collection 36.270 http://www.mfa.org/artemis/fullrecord.asp?oid=32558&did=500 5/3/2006 Description: In 1891, Gauguin left France for Tahiti, seeking in the South Seas a society that was simpler and more elemental than that of his homeland. In Tahiti, he created paintings that express a highly personal mythology. He considered this work—created in 1897, at a time of great personal crisis—to be his masterpiece and the summation of his ideas. Gauguin's letters suggest that the fresco-like painting should be read from right to left, beginning with the sleeping infant. He describes the various figures as pondering the questions of human existence given in the title; the blue idol represents "the Beyond." The old woman at the far left, "close to death," accepts her fate with resignation. (c) Dept. Informática - PUC-Rio 2 Cicero Dias, Brasil 2003 Eu vi o mundo… Ele começava no Recife Rio de Janeiro, 1926-1929 Guache e técnica mista s/ papel, colado em tela, 1,94 x 12m Coleção do artista, Paris http://www.estadao.com.br/divirtaseonline/galeria/ cicerodias/painel/index.frm 5/3/2006 O Painel do Escândalo (Salão de 1931) ...Na arte de vanguarda brasileira não fora feita até então obra similar. Nem no porte, nem na ousadia da concepção. Media quinze metros de largura, por dois e meio de altura. Estava impregnada das forças incontroláveis e misteriosas do inconsciente. Cícero Dias fez uma composição telúrica, cheia de desvarios e animada de uma convulsão subjetiva de enorme intensidade. Figuras voam no alto. Mostrou o universo visto a partir de Pernambuco ou do Brasil. Tanto que seu título era este: Eu vi o mundo...ele começava no Recife. Uma denominação ao mesmo tempo regional, nacional e internacional. A capital pernambucana estava representada. E igualmente o Rio de Janeiro. (c) Dept. Informática - PUC-Rio 3 Referências www.inf.puc-rio.br/~casanova/ Database Systems: Achievements and Opportunities. 'Lagunita-I' NSF Invitational Workshop on the Future of Database Systems Research, Palo Alto, CA (Feb. 1990) SIGMOD Record and IEEE Data Engineering Bulletin, 19:4 (Dec. 1990), pp. 6-22. Communications ACM, 43:10, (Oct. 1991), pp. 110-120. http://www-db.stanford.edu/~hector/lagi.ps Database Research: Achievements and Opportunities into the 21st Century. ‘Lagunita II’ NSF Workshop on the Future of Database Systems Research. San Jose, CA (May 1995) SIGMOD Record, 25(1): March 1996 http://www-db.stanford.edu/pub/papers/lagii.ps The Asilomar Report on Database Research. SIGMOD Record, 27(4): 74-80 (Dec. 1998) http://www.acm.org/sigmod/record/issues/9812/asilomar.html The Lowell Database Research Self Assessment (June 2003) http://www-rocq.inria.fr/~abitebou/pub/LowellDatabaseResearchSelfAssessment.pdf http://research.microsoft.com/~gray/lowell/ 5/3/2006 (c) Dept. Informática - PUC-Rio 4 Tópicos • De onde vieram? – Década de 60 - Primórdios – Década de 70 - Gênesis – Década de 80 - Desenvolvimento – Década de 90 - Maturidade • Onde estão? – O que aprendemos? – Onde estamos? • Para onde vão? – The 1998 Asilomar Report – The 2003 Lowell Report – Resumo 5/3/2006 (c) Dept. Informática - PUC-Rio 5 Década de 60 - Primórdios • Início da Década: – dados armazenados diretamente em arquivos – problemas: • redundâncias e inconsistências • dificuldade de acesso • integridade lógica • atomicidade das transações • segurança 5/3/2006 (c) Dept. Informática - PUC-Rio 6 Década de 60 - Primórdios • Final da Década: – sistemas de gerência de bancos de dados (SGBDs) pioneiros: • IMS • TOTAL – problemas parcialmente endereçados: • redundância e inconsistências • atomicidade das transações • segurança – problemas em aberto: • dificuldade de acesso • integridade lógica 5/3/2006 (c) Dept. Informática - PUC-Rio 7 Década de 70 - Gênesis • Início da Década: – CODASYL DBTG Report [1971] e ANSI/SPARC Report [1975] EE 5/3/2006 EE Esquema Externo EC Esquema Conceitual EI Esquema Interno (c) Dept. Informática - PUC-Rio 8 Década de 70 - Gênesis • Início da Década: – Modelo Relacional [1970] • uma única estrutura de dados - relações • álgebra relacional • cálculo relacional • formas normais: 1NF, 2NF, 3NF – B-trees [1972] • índices em memória secundária para grandes volumes de chaves 5/3/2006 (c) Dept. Informática - PUC-Rio 9 Communications of the ACM, Vol. 13, No. 6, June 1970, pp. 377-387. A Relational Model of Data for Large Shared Data Banks E. F. Codd Abstract Future users of large data banks must be protected from having to know how the data is organized in the machine (the internal representation). A prompting service which supplies such information is not a satisfactory solution. Activities of users at terminals and most application programs should remain unaffected when the internal representation of data is changed and even when some aspects of the external representation are changed. Changes in data representation will often be needed as' a result of changes in query, update, and report traffic and natural growth in the types of stored information. Existing non inferential, formatted data systems provide users with tree-structured files or slightly more general network models of the data. In Section 1, inadequacies of these models are discussed. A model based on n-ary relations, a normal form for data base relations, and the concept of a universal data sub language are introduced. In Section 2, certain operations on relations (other than logical inference) are discussed and applied to the problems of redundancy and consistency in the user's model. Key Words and Phrases data bank, data base, data structure, data organization;, hierarchies of data, network of data, relations, derivability, redundancy, consistency, composition, join, retrieval language, predicate calculus, security, data integrity CR Categories 3.70, 3.73, 3.75, 4 20, 4.22, 4.29 5/3/2006 (c) Dept. Informática - PUC-Rio 10 Década de 70 - Gênesis • Metade da Década: – SGBDs relacionais pioneiros (SGBD-Rs): • System R [1976] e Ingres [1976] • introdução da maior parte da tecnologia utilizada nos SGBDs atuais, incluindo a linguagem SQL [1974] – problemas endereçados: • redundância e inconsistências • atomicidade das transações • segurança • dificuldade de acesso – problemas parcialmente endereçados: • integridade lógica 5/3/2006 (c) Dept. Informática - PUC-Rio 11 Década de 80 - Desenvolvimento • Início da Década: – Codd recebe o ACM Turing Award em 1981 5/3/2006 (c) Dept. Informática - PUC-Rio 12 Década de 80 - Desenvolvimento • Início da Década: – SGBD-Rs distribuídos pioneiros (SGBDD-R): • System R* e Ingres Distribuído – extensões da tecnologia relacional para tratar BDDs • exemplo: otimização de consultas distribuídas – desenvolvimento de novas tecnologias para tratar de novos problemas • exemplo: 2PC protocol para terminação de transações 5/3/2006 (c) Dept. Informática - PUC-Rio 13 Década de 80 - Desenvolvimento • Metade da Década: – SGBDs Orientados a Objeto (SGBD-OO): • baseiam-se no paradigma de orientação a objeto (OO), como as linguagens de programação OO (LP-OO) – SGBD-OO x LP-OO persistente – endereçam requisitos de aplicações não-convencionais: • objetos complexos • encapsulamento • transações longas – SGDB-OOs pioneiros: • O2 [1988] • Exodus [1986] • ORION [1986] 5/3/2006 (c) Dept. Informática - PUC-Rio 14 Década de 80 - Desenvolvimento • Metade da Década: – "Próxima geração" de SGBD-Rs: • combinam características de OO com o modelo relacional • expandem a arquitetura de SGBDs com novas possibilidades • exemplo: otimizadores de consultas configuráveis – Exemplos: • POSTGRES [1986] • STARBURST 5/3/2006 (c) Dept. Informática - PUC-Rio 15 Década de 80 - Desenvolvimento • Final da Década: – Maturidade da tecnologia de SGBDs: • vários SGBD-Rs com desempenho aceitável – DB2, Ingres, Oracle, Sybase, Informix – padronização do SQL [1986, 1989] 5/3/2006 (c) Dept. Informática - PUC-Rio 16 Década de 90 - Maturidade • Início da Década: – Maturidade da tecnologia de SGBDs: • primeiros SGBD-OOs comerciais • SGDBs paralelos / dedutivos / ativos / tempo real / ... • avanços em padronização de interfaces e interoperabilidade 5/3/2006 (c) Dept. Informática - PUC-Rio 17 Década de 90 - Maturidade • Metade da Década: – novas classes de aplicações: • Data Mining • Bibliotecas Digitais • Vídeo-sob-demanda • Animação • Hipermídia e Multimídia em geral • GIS • Meteorologia • Física de Alta Energia (HEP) 5/3/2006 (c) Dept. Informática - PUC-Rio 18 Earth Observation System Data and Information System EDOS - EOS Data and Oper. System FOS - Flight Operations Segment s a t é l i t e s EDOS DAAC - Distributed Active Archive Center SCF - Scientific Computing Facility CSMS - Comm. and System Mng System DAAC FOS SCF o u t r o s CSMS EOS Network 5/3/2006 (c) Dept. Informática - PUC-Rio 19 Década de 90 - Maturidade • Final da Década: – WIIS - Web Information Integration System: • sistema para tratar dados oriundos de vários Web sites • WIIS devem lidar com: – um grande número de Web sites – maior autonomia dos componentes – dados semi-estruturados • Enfoque de Data Warehouse: – dados são extraídos das fontes e armazenados em uma warehouse • Enfoque de Multi-SGBD: – dados são mantidos nos Web sites – consultas são decompostas e enviadas aos vários Web sites 5/3/2006 (c) Dept. Informática - PUC-Rio 20 Década de 90 - Maturidade • Final da Década: – Jim Gray recebe o ACM Turing Award em 1998 5/3/2006 (c) Dept. Informática - PUC-Rio 21 Tópicos • De onde vieram? – Década de 60 - Primórdios – Década de 70 - Gênesis – Década de 80 - Desenvolvimento – Década de 90 - Maturidade • Onde estão? – O que aprendemos? – Onde estamos? • Para onde vão? – The 1998 Asilomar Report – The 2003 Lowell Report – Resumo 5/3/2006 (c) Dept. Informática - PUC-Rio 22 O quê aprendemos? • Otimização de Consultas – otimização de consultas declarativas (“select-from-where”) – variações, dependendo de… • modelo de dados • arquitetura • Processamento de Transações – processamento de transações ACID – variações, dependendo de… • necessidades das aplicações • arquitetura 5/3/2006 (c) Dept. Informática - PUC-Rio 23 Onde estamos? Market Share 2002 2003 Crescimento das vendas (2002-2003) IBM+Informix 35.7% 35.7% +4.9% Oracle 33.4% 32.6% +2,4% Microsoft 17.7% 18.7% +11.0% 2002 2003 Crescimento das vendas* (2002-2003) Linux 0.116B 0.299B +257.7% Unix 2.48B 2.34B -5.9% Windows 2.69B 2.79B +3.8% TOTAL 6.6B 6.93B +5.1% Fornecedor Sistema Operacional Vendas (*) Vendas de licenças novas 5/3/2006 (c) Dept. Informática - PUC-Rio 24 Onde estamos? • Dados sobre dados em 2002: – 5 milhões de terabytes, ou 5 exabytes, de informação nova – 92% da informação armazenada em meio digital – 0,4 milhões de terabytes enviados por e-mail [http://www.sims.berkeley.edu/research/projects/how-much-info-2003/] 5/3/2006 (c) Dept. Informática - PUC-Rio 25 Onde estamos? ©2005 Google - Pesquisando 8.058.044.651 páginas na Web 5/3/2006 (c) Dept. Informática - PUC-Rio 26 Onde estamos? Oracle compra a PeopleSoft por 7.7B USD (outubro de 2004) IBM compra a Informix por 1B USD (abril de 2001) 5/3/2006 (c) Dept. Informática - PUC-Rio 27 Onde estamos? Microsoft Announces 2006 Target Date for Broad Availability Of Windows "Longhorn" Client Operating System 5/3/2006 (c) Dept. Informática - PUC-Rio 28 Onde estamos? Vem aí o Estado policial-informático (Elio Gaspari – O Globo 17/04/05) • • LexisNexis e ChoicePoint (2001) – contas de 3 bilhões de cartões de crédito – 139 milhões de números de telefones – 200 milhões de pleitos de seguradoras – mais 100 milhões de fichas criminais ChoicePoint (2001) – nome e endereço dos eleitores mexicanos – passaportes dos cidadãos da Costa Rica – RG e telefone de todos os argentinos – registro civil de todos os colombianos 5/3/2006 (c) Dept. Informática - PUC-Rio 29 Onde estamos? • Trivialização do uso da tecnologia de BDs (!) • Proliferação de produtores e consumidores de dados (!!) • Aplicações armazenando da ordem de petabytes (!!!) 5/3/2006 (c) Dept. Informática - PUC-Rio 30 5/3/2006 (c) Dept. Informática - PUC-Rio 31 Tópicos • De onde vieram? – Década de 60 - Primórdios – Década de 70 - Gênesis – Década de 80 - Desenvolvimento – Década de 90 - Maturidade • Onde estão? – O que aprendemos? – Onde estamos? • Para onde vão? – The 1998 Asilomar Report – The 2003 Lowell Report – Resumo 5/3/2006 (c) Dept. Informática - PUC-Rio 32 The 1998 Asilomar Report - Research Agenda • SGBD “Plug and Play” – bancos de dados sem necessidade de administração – “descoberta automática de informação” baseada em metadados capturando a semântica dos dados – temas de pesquisa: • bancos de dados auto-configuráveis • bancos de dados ricos em metadados 5/3/2006 (c) Dept. Informática - PUC-Rio 33 The 1998 Asilomar Report - Research Agenda • Federações de bancos de dados em larga escala – a Web é um grande sistema federado • bilhões de clientes Web acessam milhões de bancos – temas de pesquisa: • otimizadores de consultas para federações com milhares de bancos • execução de consultas baseada em “acumulação de evidência” • integração assistida por ferramentas 5/3/2006 (c) Dept. Informática - PUC-Rio 34 The 1998 Asilomar Report - Research Agenda • Revisão da arquitetura tradicional de SGBDs – necessidade de operação contínua – necessidade de armazenar grandes volumes de dados • sensoriamento remoto, TV digital, … – tema de pesquisa: • revisão da maioria dos componentes de um SGBD 5/3/2006 (c) Dept. Informática - PUC-Rio 35 The 1998 Asilomar Report - Research Agenda • Integração de dados estruturados e semi-estruturados – XML = dados organizados hierarquicamente – tema de pesquisa: • unificação das tecnologias de banco de dados e da Web 5/3/2006 (c) Dept. Informática - PUC-Rio 36 The 2003 Lowell Report - Research Agenda Lowell Workshop = Asilomar Workshop revisited (same old people) 5/3/2006 (c) Dept. Informática - PUC-Rio 37 The 2003 Lowell Report - Research Agenda • Tópicos cobertos – Integration of Text, Data, Code and Streams – Information Fusion – Sensor Data and Sensor Networks – Multimedia Queries – Reasoning about Uncertain Data – Personalization – Data Mining – Self Adaptation – Privacy – Trustworthy Systems – New User Interfaces - Semantic Web? – One Hundred Year Storage – Query Optimization 5/3/2006 (c) Dept. Informática - PUC-Rio 38 The 2003 Lowell Report - Research Agenda • Integração de texto, dados, código e seqüências – novas classes de aplicações geram dados de vários tipos: • aplicações científicas ou de engenharia geram grande volume de dados exóticos – repensar SGBDs para tratar uniformemente dados exóticos • armazenamento e consulta a dados exóticos • pipelining de dados produzidos por processos de análise • integração de dados em um “grid” na Web 5/3/2006 (c) Dept. Informática - PUC-Rio 39 The 2003 Lowell Report - Research Agenda • Integração de texto, dados, código e seqüências – observações: • formatos de dados auto-descritivos (i.e., XML) podem ser úteis para transferência de dados, mas não para armazenamento • novas arquiteturas não devem ter compromissos com o passado, embora fornecedores devam manter a estratégia de desenvolver extensões incrementais de SQL e XML 5/3/2006 (c) Dept. Informática - PUC-Rio 40 The 2003 Lowell Report - Research Agenda • “Fusão de Informação” – a Web facilita o desenvolvimento de aplicações envolvendo várias empresas • empresas interessadas em interagir com fornecedores e clientes, trocando dados, para fornecer melhores produtos e serviços – repensar SGBDs para integrar milhões de fontes de informação em tempo real • a questão espinhosa de heterogeneidade semântica permanece… 5/3/2006 (c) Dept. Informática - PUC-Rio 41 The 2003 Lowell Report - Research Agenda • Redes de Sensores – redes de sensores possibilitam uma nova classe de aplicações de monitoramento que geram seqüências de dados – repensar SGBDs para tratar redes de sensores • processamento de consultas sobre seqüências de dados: – necessitam adaptação a perfis de geração de dados rapidamente mutáveis – plano de execução deve acompanhar modificações no perfil • gerência de redes de sensores requer formas mais sofisticadas de integração de dados 5/3/2006 (c) Dept. Informática - PUC-Rio 42 The 2003 Lowell Report - Research Agenda • Tratamento de incerteza – incerteza ou imprecisão nos dados ocorrem em medições científicas, posição de objetos móveis, … – repensar SGBDs para tratar incerteza ou imprecisão nos dados • “rastreabilidade” dos dados • processamento de consultas deve passar... – de um modelo determinístico, onde consultas possuem resultado exato – para um modelo estocástico, onde o processador de consultas acumula evidência para prover respostas cada vez mais precisas 5/3/2006 (c) Dept. Informática - PUC-Rio 43 The 2003 Lowell Report - Research Agenda • Personalização – resposta de consulta deve depender de perfil do usuário – repensar SGBDs para oferecer personalização baseada em modelos do usuário e em metadados • personalização e tratamento de incerteza requer verificar se o sistema está produzindo a resposta “correta” 5/3/2006 (c) Dept. Informática - PUC-Rio 44 The 2003 Lowell Report - Research Agenda • “Armazenamento secular” – informação arquivada pode desaparecer – repensar SGBDs para oferecer armazenamento perene dos dados • migrar conteúdo para novos formatos e manter hardware e software para processar os dados • gerenciar metadados junto com os documentos 5/3/2006 (c) Dept. Informática - PUC-Rio 45 Resumo • Modelos flexíveis de consultas – “suposição do mundo aberto” • resultados incompletos ou imprecisos – consultas a fontes autônomas “pelo melhor esforço” – rastreabilidade + explicação + personalização 5/3/2006 (c) Dept. Informática - PUC-Rio 46 Resumo • Modelos transacionais flexíveis – “non ACID transactions” • ações compensatórias / ações alternativas – transações sobre fontes autônomas “pelo melhor esforço” – rastreabilidade + explicação + personalização 5/3/2006 (c) Dept. Informática - PUC-Rio 47 Resumo • Projeto baseado em padrões e reuso de especificações – “padrões para tudo” – domínios, metadados, padrões estruturais – interoperabilidade deve se tornar um não-problema (ou continuará a ser um problema insolúvel) R ROO O O22 O O11 DB DB11 DB DB22 IIRR II11 5/3/2006 II22 (c) Dept. Informática - PUC-Rio 48 E o futuro ? 5/3/2006 (c) Dept. Informática - PUC-Rio 49 O futuro é previsível ? “Consider a future device for individual use, which is a sort of mechanized private file and library. It needs a name, and, to coin one at random, "memex" will do. A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory.” “... The process of tying two items together is the important thing. When the user is building a trail, he names it, inserts the name in his code book, and taps it out on his keyboard. ...” “Thereafter, at any time, when one of these items is in view, the other can be instantly recalled merely by tapping a button below the corresponding code space. Moreover, when numerous items have been thus joined together to form a trail, they can be reviewed in turn, rapidly or slowly, by deflecting a lever like that used for turning the pages of a book. ...” “Wholly new forms of encyclopedias will appear, ready made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified....” by Vannevar Bush The Atlantic Monthly; July, 1945; As We May Think; Volume 176, No. 1; pages 101-108. 5/3/2006 (c) Dept. Informática - PUC-Rio 50 O futuro é imprevisível ! 5/3/2006 (c) Dept. Informática - PUC-Rio 51 www.inf.puc-rio.br/~casanova/ 5/3/2006 (c) Dept. Informática - PUC-Rio 52