USO DE ONTOLOGIAS NA DEFINIÇÃO DE ESQUEMAS PARA BANCO DE DADOS SEMI-ESTRUTURADOS 1 M. B. PINTO2, D. B. SACCOL3 III Jornada de Iniciação Científica do CEULP RESUMO: Informações advindas da WEB (World Wide Web) não apresentam uma estrutura fixa para sua representação. Estes dados podem ser caracterizados como semi-estruturados. O armazenamento destes dados em um banco de dados convencional (relacional, orientado a objetos etc) é dificultado, uma vez que este último trabalha com a noção da definição de esquemas a priori. Neste sentido, o presente artigo fala do uso de ontologias para a representação de esquemas em bancos de dados semiestruturados. PALAVRAS CHAVE: XML, Ontologia, Banco de dados Semi-estruturados ÁRVORE DO CONHECIMENTO: Sistemas de Informação, Banco de dados, Ciências Exatas e da Terra. ABSTRACT: Information from Internet do not present a fixed structure in its representation. These data can be classified as semistructured data. The storage of these data in a convencional database (relational, object-oriented etc) is not easy, since the second one works on a priori schema definition. Thus, this paper presents ontologies for representing schemas in semistructured databases. KEYWORDS: XML, Ontology, Semistructured Databases INTRODUÇÃO: Sendo considerada o maior repositório de dados semi-estruturados, a internet vem preocupando inúmeros pesquisadores devido a sua forma de representar e principalmente armazenar esses dados. A linguagem XML apresenta-se como uma alternativa bastante satisfatória para representação destes dados e está se concretizando como um padrão mundial. Por outro lado as tradicionais técnicas para definição de esquemas para banco de dados não apresentam bons resultados quando o objetivo é armazenar dados semi-estruturados. Neste contexto, o objetivo desse trabalho é ressaltar a importância dos BDSE’s e a dificuldade de representar um esquema para esses bancos, utilizando-se de exemplo prático. MATERIAL E MÉTODOS: Primeiramente foram realizadas pesquisas na busca por referências bibliográficas que incluem teses de mestrado e doutorado, artigos científicos e livros. A escolha de um estudo de caso para o domínio do problema e a definição de uma DTD que represente o domínio citado foram realizados posteriormente. Em seguida, partiu-se para a escolha de uma ferramenta gráfica que representasse a ontologia descrita para o domínio do problema. A ferramenta escolhida foi a OntoEdit, sendo instalada em uma máquina do LabMídia. Por fim, foi representada uma ontologia para o domínio dos currículos que pode servir de auxílio para a definição de esquemas para banco de dados semi-estruturados. Os materiais utilizados para a realização desse trabalho foram: um microcomputador Pentium III, os aplicativos OntoEdit, XMLwriter 1.21, Adobe Acrobat Reader 5.0, Internet Explorer 6.0 e o Microsoft Word 2000. RESULTADOS E DISCUSSÃO: Uma ontologia para BDSEs (Banco de Dados Semi-Estruturados) deve funcionar basicamente como um interpretador total ou parcial do universo dos dados semiestruturados e não com a finalidade de definir uma estrutura para o Banco de Dados (Mello, 2000). Para (SILBERSCHATZ, 1999) um modelo de dados é “um conjunto de ferramentas conceituais usadas para a descrição de dados, relacionamentos entre dados, semântica de dados e regras de consistência”. Mas diferentemente dos bancos tradicionais, que possuem todas as ocorrências dos 1 Parte do projeto de Iniciação Científica do primeiro autor, programa PROICT/CEULP/ULBRA. 2 Aluno de Iniciação científica do PROICT no curso de Sistemas de Informação CEULP/ULBRA 3 Professor orientador no curso de Sistemas de Informação no CEULP/ULBRA. dados seguindo uma mesma estrutura, os BDSEs devem ser capazes de representar múltiplas ocorrências de dados com alto grau de heterogeneidade. Pode-se citar como um exemplo típico do caso citado acima o armazenamento dos currículos dos funcionários de uma determinada empresa. Utilizando um banco de dados tradicional para o armazenamento desses dados, obrigatoriamente todos os currículos devem seguir um mesmo padrão, de acordo com a estrutura definida no banco de dados. Como não existe um padrão oficial para a elaboração de um currículo, caberia a empresa oficializar um padrão interno e exigir aos seus funcionários a elaboração dos seus currículos de acordo com as normas estabelecidas. A solução citada acima não é a mais viável. Inúmeros campos ficariam nulos. É evidente que o curriculum vitae de um alto funcionário da empresa seja mais robusto e significativo do que um currículo de um office-boy que acaba de entrar na empresa. A utilização de um BDSE deve sanar essa deficiência encontrada nos tradicionais bancos de dados para o armazenamento de dados com alta heterogeneidade. Utilizando-se de uma DTD (Document Type Definition), por exemplo, é possível definir uma estrutura para documentos XML que suporte toda essa heterogeneidade, fornecendo regras e restrições para todos os documentos relacionados. A Figura 1 mostra um exemplo de uma DTD relacionada com o problema citado. Figura 1 - Exemplo de uma DTD para currículos. Observando a DTD apresentada acima, pode-se constatar um novo problema relacionado: não existe nenhuma garantia que todos os documentos XML sejam validados pela DTD. É possível que existam várias DTDs coma a mesma finalidade e atuação no domínio apresentado. Surge um novo obstáculo a ser superado. Como definir um esquema flexível para um BDSE que suporte toda essa heterogeneidade? Na literatura encontram-se algumas alternativas para a superação desses obstáculos. Duas dessas alternativas se mostraram bastante atraentes para o uso no domínio do problema. A primeira seria a integração semântica de esquemas XML que disponibilizaria um esquema de dados global representativo dos diversos esquemas das fontes de dados. O BDSE poderia se beneficiar dessa integração para o auxílio na gerência dos dados semi-estruturados. Maiores detalhes da integração de esquemas XML podem ser encontradas em (Mello 2002). A segunda alternativa, adotada neste trabalho, seria a utilização de ontologias com a função de validar uma série de esquemas XML. Recentemente o termo ontologia está sendo empregado em aplicações de banco de dados principalmente na integração de fontes de dados com alta heterogeneidade. A figura 2 ilustra uma ontologia para o domínio dos currículos. A ontologia descrita define os conceitos relacionados de uma forma hierárquica, a cardinalidade dos relacionamentos, as relações locais e globais, além de permitir a definição de instâncias e a utilização de herança. Figura 2 - Exemplo de uma ontologia para currículos. Neste sentido, este trabalho utiliza uma ontologia como forma de representação da estrutura de documentos sobre currículos. Assim, como resultado, o usuário formula uma única consulta baseado na ontologia, independente da estrutura individual de cada documento XML validado por esta ontologia. CONCLUSÕES: Estudos sobre a utilização de BDSEs e ontologias são bastante motivados pela popularidade da internet e pela pesquisa na área da web semântica (MELLO 2000). Os BDSEs poderão ser fundamentais para a concretização, implantação e sustentação da web semântica, pois possibilitará às ferramentas de busca um melhor controle gerencial sobre os dados da web, como páginas ou sites, permitindo a manipulação de dados semi-estruturados da mesma forma com que se manipulam dados em banco de dados tradicional. Neste sentido, este trabalho apresentou uma forma de representação de esquemas para BDSEs baseado em ontologias. Desta forma, uma única consulta formulada com base na ontologia pode ser submetida pelo usuário. A ontologia aparece como uma boa alternativa, uma vez que descreve o domínio do problema dos documentos armazenados, independente de suas representações individuais. REFERÊNCIAS BIBLIOGRÁFICAS MELLO, R. DOS SANTOS – Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML, tese de doutorado em Ciência da Computação, Universidade Federal do Rio Grande do Sul, 2002. MELLO, R. DOS SANTOS – Aplicação de Ontologias a Banco de Dados Semi-Etruturados , exame de qualificação, Universidade Federal do Rio Grande do Sul, 2000. MEERSMAN, ROBERT – Ontologies and Databases: More than a Fleeting Resemblance, Vrije Universiteit Brussel, SILBERSCHATZ, Abraham; KORTH, Henry F.; SUDARSHAN, S. Sistema de Banco de Dados. São Paulo: Makron Books, 1999.