uso de ontologias na definição de esquemas para banco de dados

Propaganda
USO DE ONTOLOGIAS NA DEFINIÇÃO DE ESQUEMAS PARA
BANCO DE DADOS SEMI-ESTRUTURADOS 1
M. B. PINTO2, D. B. SACCOL3
III Jornada de Iniciação Científica do CEULP
RESUMO: Informações advindas da WEB (World Wide Web) não apresentam uma estrutura fixa para
sua representação. Estes dados podem ser caracterizados como semi-estruturados. O armazenamento
destes dados em um banco de dados convencional (relacional, orientado a objetos etc) é dificultado,
uma vez que este último trabalha com a noção da definição de esquemas a priori. Neste sentido, o
presente artigo fala do uso de ontologias para a representação de esquemas em bancos de dados semiestruturados.
PALAVRAS CHAVE: XML, Ontologia, Banco de dados Semi-estruturados
ÁRVORE DO CONHECIMENTO: Sistemas de Informação, Banco de dados, Ciências Exatas e da
Terra.
ABSTRACT: Information from Internet do not present a fixed structure in its representation. These
data can be classified as semistructured data. The storage of these data in a convencional database
(relational, object-oriented etc) is not easy, since the second one works on a priori schema definition.
Thus, this paper presents ontologies for representing schemas in semistructured databases.
KEYWORDS: XML, Ontology, Semistructured Databases
INTRODUÇÃO: Sendo considerada o maior repositório de dados semi-estruturados, a internet vem
preocupando inúmeros pesquisadores devido a sua forma de representar e principalmente armazenar
esses dados. A linguagem XML apresenta-se como uma alternativa bastante satisfatória para
representação destes dados e está se concretizando como um padrão mundial. Por outro lado as
tradicionais técnicas para definição de esquemas para banco de dados não apresentam bons resultados
quando o objetivo é armazenar dados semi-estruturados. Neste contexto, o objetivo desse trabalho é
ressaltar a importância dos BDSE’s e a dificuldade de representar um esquema para esses bancos,
utilizando-se de exemplo prático.
MATERIAL E MÉTODOS: Primeiramente foram realizadas pesquisas na busca por referências
bibliográficas que incluem teses de mestrado e doutorado, artigos científicos e livros. A escolha de um
estudo de caso para o domínio do problema e a definição de uma DTD que represente o domínio
citado foram realizados posteriormente. Em seguida, partiu-se para a escolha de uma ferramenta
gráfica que representasse a ontologia descrita para o domínio do problema. A ferramenta escolhida foi
a OntoEdit, sendo instalada em uma máquina do LabMídia. Por fim, foi representada uma ontologia
para o domínio dos currículos que pode servir de auxílio para a definição de esquemas para banco de
dados semi-estruturados. Os materiais utilizados para a realização desse trabalho foram: um
microcomputador Pentium III, os aplicativos OntoEdit, XMLwriter 1.21, Adobe Acrobat Reader 5.0,
Internet Explorer 6.0 e o Microsoft Word 2000.
RESULTADOS E DISCUSSÃO: Uma ontologia para BDSEs (Banco de Dados Semi-Estruturados)
deve funcionar basicamente como um interpretador total ou parcial do universo dos dados semiestruturados e não com a finalidade de definir uma estrutura para o Banco de Dados (Mello, 2000).
Para (SILBERSCHATZ, 1999) um modelo de dados é “um conjunto de ferramentas conceituais
usadas para a descrição de dados, relacionamentos entre dados, semântica de dados e regras de
consistência”. Mas diferentemente dos bancos tradicionais, que possuem todas as ocorrências dos
1
Parte do projeto de Iniciação Científica do primeiro autor, programa PROICT/CEULP/ULBRA.
2
Aluno de Iniciação científica do PROICT no curso de Sistemas de Informação CEULP/ULBRA
3
Professor orientador no curso de Sistemas de Informação no CEULP/ULBRA.
dados seguindo uma mesma estrutura, os BDSEs devem ser capazes de representar múltiplas
ocorrências de dados com alto grau de heterogeneidade. Pode-se citar como um exemplo típico do
caso citado acima o armazenamento dos currículos dos funcionários de uma determinada empresa.
Utilizando um banco de dados tradicional para o armazenamento desses dados, obrigatoriamente todos
os currículos devem seguir um mesmo padrão, de acordo com a estrutura definida no banco de dados.
Como não existe um padrão oficial para a elaboração de um currículo, caberia a empresa oficializar
um padrão interno e exigir aos seus funcionários a elaboração dos seus currículos de acordo com as
normas estabelecidas. A solução citada acima não é a mais viável. Inúmeros campos ficariam nulos. É
evidente que o curriculum vitae de um alto funcionário da empresa seja mais robusto e significativo do
que um currículo de um office-boy que acaba de entrar na empresa. A utilização de um BDSE deve
sanar essa deficiência encontrada nos tradicionais bancos de dados para o armazenamento de dados
com alta heterogeneidade. Utilizando-se de uma DTD (Document Type Definition), por exemplo, é
possível definir uma estrutura para documentos XML que suporte toda essa heterogeneidade,
fornecendo regras e restrições para todos os documentos relacionados. A Figura 1 mostra um exemplo
de uma DTD relacionada com o problema citado.
Figura 1 - Exemplo de uma DTD para currículos.
Observando a DTD apresentada acima, pode-se constatar um novo problema relacionado: não existe
nenhuma garantia que todos os documentos XML sejam validados pela DTD. É possível que existam
várias DTDs coma a mesma finalidade e atuação no domínio apresentado. Surge um novo obstáculo a
ser superado. Como definir um esquema flexível para um BDSE que suporte toda essa
heterogeneidade? Na literatura encontram-se algumas alternativas para a superação desses obstáculos.
Duas dessas alternativas se mostraram bastante atraentes para o uso no domínio do problema. A
primeira seria a integração semântica de esquemas XML que disponibilizaria um esquema de dados
global representativo dos diversos esquemas das fontes de dados. O BDSE poderia se beneficiar dessa
integração para o auxílio na gerência dos dados semi-estruturados. Maiores detalhes da integração de
esquemas XML podem ser encontradas em (Mello 2002). A segunda alternativa, adotada neste
trabalho, seria a utilização de ontologias com a função de validar uma série de esquemas XML.
Recentemente o termo ontologia está sendo empregado em aplicações de banco de dados
principalmente na integração de fontes de dados com alta heterogeneidade. A figura 2 ilustra uma
ontologia para o domínio dos currículos. A ontologia descrita define os conceitos relacionados de uma
forma hierárquica, a cardinalidade dos relacionamentos, as relações locais e globais, além de permitir
a definição de instâncias e a utilização de herança.
Figura 2 - Exemplo de uma ontologia para currículos.
Neste sentido, este trabalho utiliza uma ontologia como forma de representação da estrutura de
documentos sobre currículos. Assim, como resultado, o usuário formula uma única consulta baseado
na ontologia, independente da estrutura individual de cada documento XML validado por esta
ontologia.
CONCLUSÕES: Estudos sobre a utilização de BDSEs e ontologias são bastante motivados pela
popularidade da internet e pela pesquisa na área da web semântica (MELLO 2000). Os BDSEs
poderão ser fundamentais para a concretização, implantação e sustentação da web semântica, pois
possibilitará às ferramentas de busca um melhor controle gerencial sobre os dados da web, como
páginas ou sites, permitindo a manipulação de dados semi-estruturados da mesma forma com que se
manipulam dados em banco de dados tradicional. Neste sentido, este trabalho apresentou uma forma
de representação de esquemas para BDSEs baseado em ontologias. Desta forma, uma única consulta
formulada com base na ontologia pode ser submetida pelo usuário. A ontologia aparece como uma boa
alternativa, uma vez que descreve o domínio do problema dos documentos armazenados, independente
de suas representações individuais.
REFERÊNCIAS BIBLIOGRÁFICAS
MELLO, R. DOS SANTOS – Uma Abordagem Bottom-Up para a Integração Semântica de
Esquemas XML, tese de doutorado em Ciência da Computação, Universidade Federal do Rio
Grande do Sul, 2002.
MELLO, R. DOS SANTOS – Aplicação de Ontologias a Banco de Dados Semi-Etruturados ,
exame de qualificação, Universidade Federal do Rio Grande do Sul, 2000.
MEERSMAN, ROBERT – Ontologies and Databases: More than a Fleeting Resemblance, Vrije
Universiteit Brussel,
SILBERSCHATZ, Abraham; KORTH, Henry F.; SUDARSHAN, S. Sistema de Banco de Dados.
São Paulo: Makron Books, 1999.
Download