artigo 20 - Repositório Kroton

Propaganda
SISTEMA DE BUSCA DE INFORMAÇÕES
BASEADO NOS CONCEITOS DA WEB SEMÂNTICA
ANUÁRIO DA PRODUÇÃO DE
INICIAÇÃO CIENTÍFICA DISCENTE
Vol. XII, Nº. 15, Ano 2009
Rafael Grobmam
RESUMO
Professor Orientador:
Ms. Thiago Salhab Alves
Curso:
Ciência da Computação
FACULDADE ANHANGUERA DE
SANTA BÁRBARA
Trabalho apresentado no 9º Congresso
Nacional de Iniciação Científica CONIC.
Trabalho apresentado no 4º Encontro
Interno de Iniciação Científica da
Faculdade Anhanguera de Santa
Bárbara.
A Internet é hoje a maior fonte de informação que existe,
contendo a mais vasta variedade de assuntos de conhecimento,
formas de mídias e fontes de origens no mundo, e é disponível e
usada por mais de um sexto da população mundial. Organizar e
recuperar com mais eficiência toda essa informação com
resultados mais coerente com os parâmetros da pesquisa é
necessária para o maior aproveitamento de seu potencial, o que é
indispensável para esse novo século que é da informação. A Web
Semântica é novo paradigma de organização da Internet que
promete resolver esse problema, fazendo do conteúdo da Rede,
não só compreendida por humanos, mas também pelos
computadores, com o uso de metadados combinados com
ontologias e tesauros de dados. A idéia deste projeto é o estudo
das novas tecnologias para a Internet no âmbito da Web
Semântica, discorrendo-se do que já foi desenvolvido e propondo
uma nova forma de estruturar a busca por informações, através
de um novo sistema de busca semântica.
Palavras-Chave: Web Semântica; internet; metadados; ontologias;
tesauros.
Anhanguera Educacional Ltda.
Correspondência/Contato
Alameda Maria Tereza, 2000
Valinhos, SP - CEP 13278-181
[email protected]
[email protected]
Coordenação
Instituto de Pesquisas Aplicadas e
Desenvolvimento Educacional - IPADE
Publicação: 3 de fevereiro de 2011
ANUIC_n15_miolo.pdf 311
Trabalho realizado com o incentivo e
fomento da Anhanguera Educacional
311
13/04/2011 09:15:01
312
Sistema de busca de informações baseado nos conceitos da Web Semântica
1.
INTRODUÇÃO
Desde que surgiu a World Wide Web (Rede de Alcance Mundial, também conhecida como
WWW ou simplesmente Web) no início da década de 90, a Internet ampliou-se
exponencialmente em termos de conteúdo de informação e em número de acessos
(SOUZA; ALVARENGA, 2007). Hoje possui cerca de 1 bilhão e meio de internautas (cerca
de um sexto da população mundial) (CHADE, 2008), e contém mais de 230 milhões de
sites (NETCRAFT, 2009). E é devido a facilidade de usar e a variedade de mídias
disponíveis, a Internet torna-se cada vez mais usada, o que implica em mais internautas e
mais sites.
Porém, toda essa informação contida na Rede não está de certa forma
padronizada ou organizada de acordo com gênero ou assunto, o que tornaria impossível
recuperar toda essa informação se não fossem as ferramentas de buscas. Sites como o
Yahoo!, o Google ou o Live Search realizam através de seu mecanismos de indexação,
busca e relevância, sites que contenham as palavras-chaves de uma pesquisa realizada por
um usuário.
Com isso, a tendência da Web é conter cada vez mais informação e cada vez mais
diversificada. E foi pensando nisso que Tim Berners-Lee, James Hendler e Ora Lassila,
criadores da World Wide Web, partindo do problema de que toda informação da Internet
deve estar organizada a fim de facilitar a busca, definiram em artigo na Revista Scientific
American em 2001, a Web Semântica como sendo uma extensão da Web atual (2.0), onde
haveria a integração das linguagens, tecnologias e padrões como XML, (eXtensible Markup
Language), RDF (Resource Description Framework) e ontologias. “Nela a informação é dada
com um significado bem definido, permitindo melhor interação entre computadores e
pessoas” (BERNERS-LEE; HENDLER; LASSILA, 2008).
A Web Semântica é a forma mais detalhada de se publicar uma página na
Internet, usando-se das ferramentas de metadados; adicionando informações que podem
ajudar a um computador dar relevância ou não a um conteúdo pesquisado.
Isso porque a Internet, desde seus primórdios como sendo apenas uma
ferramenta de comunicação entre campus de universidades, foi estruturada para ser lida e
compreendida por seres humanos. Um computador, como os servidores do site Google,
por exemplo, realizam pesquisas em um banco de informações pré-selecionadas, onde a
forma de selecionar essa lista de sites relevantes é através de comparação sintática, ou seja,
a busca trás as páginas que contenham as palavras da busca escritas exatamente como
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 312
13/04/2011 09:15:01
Rafael Grobmam
313
foram digitadas. Essas ferramentas não prevêem uma busca distinguindo ambiguidades,
por exemplo: Americana como cidade paulista, ou como natural dos EUA.
A idéia de criar uma Internet para ser compreendida por softwares, onde as metainformações contidas nas páginas ajudem na seleção e organização da informação, o que
facilitaria na relevância do conteúdo e trazendo resultados que de fato são de interesse na
pesquisa.
Neste projeto é discorrido sobre as tecnologias desenvolvidas nos âmbitos da
semântica na Web e propor uma nova forma de projetar essa nova Internet (a Web
Semântica, ou Web 3.0).
2.
OBJETIVO
O objetivo deste projeto é o estudo das tecnologias desenvolvidas para tornar possível a
Web Semântica e propor uma nova forma de desenvolver um sistema de busca baseado
nas técnicas de Web Semântica como ontologias e tesauros de dados.
Discutir sobre as tecnologias apresentadas para solucionar o problema da
recuperação da informação, apresentar possibilidades de desenvolvimentos com a nova
Internet, propondo soluções para usar ao máximo do potencial da Rede Mundial de
Computadores.
3.
METODOLOGIA
No início do projeto foi realizada uma pesquisa no contexto de Web Semântica,
ferramentas para metadados e organização de dados para interação de informação com
softwares.
O escopo da pesquisa é entender a forma com que se vem desenvolvimento a
Web Semântica, discuti-las e propor uma solução mais adequada e atual e de curto prazo.
Foram feitas análises e críticas nas propostas para a estruturação da Internet,
visando um sistema de busca que através de comparações com tesauros de dados e
ontologias, traga resultados mais precisos e coerentes de informação; um sistema que
possa extrair resultados mais próximo do contexto real da pesquisa usando a Web atual.
Partindo da possibilidade de desenvolver esse sistema, propõem-se ferramentas
possíveis que fariam da Internet ainda mais útil e exata.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 313
13/04/2011 09:15:01
314
Sistema de busca de informações baseado nos conceitos da Web Semântica
4.
DESENVOLVIMENTO
A Internet foi proposta em 1989 por Tim Berners-Lee, com a idéia de compartilhar
informações através de uma rede que poderia ter extensões ilimitadas (W3C, 2008).
Tim Berners-Lee fundou o Consórcio World Wide Web (W3C) em 1994, no MIT
(Laboratório de Ciência da Computação), cuja empresa tem filiais por todo o mundo e que
desenvolve soluções para a Internet e para colaborativamente desenvolver padrões
universais para a Web, desenvolvendo protocolos e diretrizes que garantam seu
crescimento de longo prazo. Desde sua fundação, o W3C publicou mais de 110 de
padrões, denominados Recomendações do W3C Web Standards (Padrões Web).
Em vinte anos de existência a Internet se popularizou muito e hoje é disponível
para todas as classes sociais e faixa etária. Tornou-se principal fonte de pesquisa e
informação, onde também o E-Commerce (Comercio Eletrônico) torna-se hoje grande fonte
de negócio no mundo inteiro. A Web deixou de ser apenas um repositório de
documentos, mas tornou-se fonte de relações interpessoais (como exemplo sites de
relacionamento), fontes de entretenimento, de facilidade em cadastros e principalmente
comunicação (E-Mail, VOIP).
De posse de tanta informação, a Web ganhou importância e potencial.
Importância, pois é fonte de informação global e de multi-assuntos, potencial, pois com
informação pode-se desenvolver aplicativos que podem usá-los de maneira inteligentes.
Porém, tamanha velocidade de evolução e de acesso livre e público trouxe o
problema da organização na Internet. Achar uma informação exata na Internet pode ser
fácil se você souber onde procurar, porém, imagine se não haja um site específico que fale
de certo assunto. A primeira reação é de pesquisar em um site de busca, como o Google,
por exemplo. Para esse caso teremos uma infinidade de sites relacionados (10 milhões de
site em 0,23 segundos, por exemplo). E mesmo com toda a tecnologia de busca e
ordenação de links do site, restará ao usuário, o garimpo por entre sites para achar a
informação que precisa.
É nesse contexto que entra a Web Semântica, como um novo padrão de Internet
atual para a automação da busca por informação.
A Web Semântica foi proposta por Tim Berners-Lee, James , Hendler e Ora
Lassila, em 1994, na primeira Conferência Internacional WWW, com a proposta de ter
uma Internet padronizada, de forma que toda informações fosse catalogada através de
metadados. Seria como uma nova versão para a Web 2.0, ou seja, Web 3.0, o que
conduziria a WWW a atingir todo seu potencial (W3C, 2008).
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 314
13/04/2011 09:15:01
Rafael Grobmam
315
4.1. Metadados como solução da Web Semântica
O conceito central da Web Semântica é a busca pela “Web de Dados”, ou seja, uma rede
que enxergue todos os dados disponíveis, independente de quais aplicações sejam
proprietárias destes dados (W3C, 2008).
Metadados são informações sobre dados que auxiliam no trabalho de busca de
um software com este propósito. São informações que dão significado a uma palavra
possível de ser compreendida por um computador (por exemplo, um texto que fala de
uma cidade, e carrega como informação deste texto uma tag (etiqueta), descrevendo que o
texto publicado nesta página fala da cidade citada).
Uma tag muito bem aplicada seria na palavra órgão, que definiria a palavra como
sendo substantiva de seção de uma organização, ou instrumento musical, ou ainda, parte
de um corpo de um ser vivo.
Este paradigma de organização busca consiste numa pesquisa que não envolve a
sintaxe da palavra em si, mas em seu significado dentro do contexto aplicado. Sua
estrutura permite relacionar as palavras chaves com sinônimos e adjetivos possíveis
(HERMAN, 2008; ROCHA, 2004).
A Web Semântica se fundamenta em RDF (Resource Definition Framework), XML
(eXtensible Markup Language) e ontologias (W3C, 2008).
4.2. XML – linguagem de marcação
A XML (eXtensible Markup Language) é uma sintaxe básica para estruturação de
documentos, de forma a rotular o conteúdo desses documentos, ajudando no identificação
de conteúdos por parte de softwares de busca.
A XML é recomendada pela W3C como sendo a linguagem de programação para
definição de páginas de Internet. Sua definição é semelhante a de uma etiqueta para
documentos, visível a softwares específicos.
Para Web Semântica, os códigos XML são úteis por descreverem com poucas
informações todo o conteúdo de um site ou um objeto na rede. Sua finalidade é atribuir
valores a objetos específicos, o que em um sistema complexo de Web Semântica daria
significado as palavras para aplicá-las no contexto de uma frase (informações de uma tag
diriam se MANGA significa fruta ou parte da camisa).
Um exemplo de tag em XML é como a descrita a seguir:
<CATALOG>
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 315
13/04/2011 09:15:01
316
Sistema de busca de informações baseado nos conceitos da Web Semântica
<BOOK>
<TITLE>Web Semântica</TITLE>
<SUBJECT>Informática, Internet</SUBJECT>
<AUTHOR>João Silva</AUTHOR>
<COUNTRY>BRASIL</COUNTRY>
<PUBLISHER>Editora A</PUBLISHER>
<PRICE>80,90</PRICE>
<YEAR>2008</YEAR>
<BUY>WWW.COMPRARLIVRO.COM</BUY>
</BOOK>
Cada uma das linhas iniciadas por uma característica entre <> e seu valor,
finalizando com o sinal </>, são atributos de um livro criado para exemplo. Com isso,
numa busca por um livro de assunto Internet, ou autor João Silva, essas informações
dariam maior relevância a esta página.
4.3. RDF – Resource Description Framework
A linguagem de representação de informação na Internet, o RDF (Resource Description
Framework), também recomendada pela W3C, possibilita relacionar objetos através de
sintaxe de programação.
Sua estrutura se divide em três componentes: recurso, propriedade e valor.
O recurso, ou sujeito, é qualquer objeto que possa ter sua URI (Uniform Resource
Identifier), de forma a ser identificado por ela. A URI caracteriza o objeto definindo seus
atributos e métodos.
A propriedade, ou predicado, são os atributos e aspectos do recurso do recurso. É
a definição o recurso quanto a quais características ele pode ter, quais funções ou ações ele
pode executar e como pode usado ou acessado.
O componente valor, ou objeto, é o que caracteriza o recurso como sendo único
ou próprio. Seria o mesmo que a propriedade define quais atributos e o valor quantifica
cada um deles.
Para um exemplo de código RDF, o trecho a seguir define João como tendo
relação CASADO_COM com Maria.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 316
13/04/2011 09:15:01
Rafael Grobmam
317
<RDF:DESCRIPTION ABOUT=http://www.pessoa.com/~joao>
<PESSOA>
<NOME>João</NOME>
<SOBRENOME>Silva</SOBRENOME>
<CASADO_COM>
<RDF:DESCRIPTION ABOUT=http://www.pessoa.com/~maria>
<NOME>Maria</NOME>
<SOBRENOME>Silva</SOBRENOME>
</RDF:DESCRIPTION>
</CASADO_COM>
</PESSOA>
</RDF:DESCRIPTION>
O RDF serve para organizar essa informação fora do conteúdo da página,
evitando que o fato de outro nome dentro do texto da biografia (a mãe da pessoa descrita,
por exemplo) aparecesse numa busca pelo simples fato da palavra estar lá.
Figura 1 – Grafo sobre o conceito de RDF descrevendo Eric Miller (MANOLA, 2008).
Essa estrutura tida pelo código RDF dentro de uma página, possibilitaria que
uma ferramenta de busca baseada nesse conceito pudesse encontrar facilmente e trazer ao
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 317
13/04/2011 09:15:01
318
Sistema de busca de informações baseado nos conceitos da Web Semântica
usuário um conteúdo mais detalhado. No grafo apresentado as palavras-chaves estão fora
do conteúdo da página (e-mail de contato, que a página se refere a uma pessoa etc.).
4.4. Ontologias e Tesauros
Ontologia é o termo designado ao estudo do sentido da existência de um ser. No
desenvolvimento da Web Semântica é usada como ferramenta que permite a instauração
de sentido, que combinada com os conceitos de tesauro de informação (ou banco lógico de
palavras), permitindo a compreensão das palavras dentro de uma frase, de acordo com
seus relacionamentos.
Tesauros são bibliotecas de dados que podem ser relacionados entre si. Um
banco de dados que contivesse um acervo de palavras possibilitaria que a pesquisa se
abrangesse por sinônimos relevantes.
A idéia de ontologias e tesauro dentro da Web Semântica é combinar os termos
de uma frase pesquisada a uma gama de palavras, que se relacionaram para fornecer um
significado a frase. Funciona como um dicionário de palavras, onde o significado de uma
se relaciona com outra palavra.
A combinação de sinônimos, verbos e adjetivos a uma mesma palavra pode
descrever o significado dela dentro da frase. Por exemplo, na frase “Qual a distância de
São Paulo à Americana”, atribuindo adjetivos ao sujeito ‘São Paulo’, teremos palavras
como sendo ‘Santo’, ‘Bendito’, ‘Homem’; porque a palavra São Paulo pode ser entendida
como Santo Católico. Porém, se esses atributos comparados com a palavra ‘distância’, o
termo Santo perderá força visto que é menos relevante comparar a distância de um santo
com qualquer outra coisa. A palavra ‘Americana’ ainda reforçará essa afirmação visto que
a frase é uma comparação, e os dois sujeitos visto como cidade pertencem ao mesmo
grupo (o contrário a comparação seria de um Santo com um nascituro do continente
América).
4.5. Web semântica atual
A Web Semântica vem sendo desenvolvida como novo paradigma de desenvolvimento
Web. As linguagens de representação de informação, como etiquetas, auxiliam na
definição da informação, e consequentemente, na recuperação da informação.
Uma ferramenta que já é capaz de realizar uma busca usando as definições de
informações e se aplica nos conceitos da busca semântica é o PowerSet, da Microsoft.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 318
13/04/2011 09:15:01
Rafael Grobmam
319
Na pesquisa realizada foi procurado por “what size of the moon?” (qual o tamanho
da lua). O site trouxe um resultado exato (37,930 bilhões de quilômetros quadrados),
dados de uma tag para a palavra lua, atributo dimensão (XML), para o tamanho da lua,
complementados por artigos do site Wikipédia que tenham a palavra moon (lua)
relacionada com a palavra size (tamanho).
Figura 2 – Imagem da página de pesquisa do site PowerSet, da Microsoft, para uma busca sobre o
tamanho da lua (POWERSET, 2009).
O sucesso da pesquisa é devido à grande quantidade de informação catalogada
no Wikipédia, mais de três milhões em inglês.
Um exemplo de tag para este artigo seria a o trecho em XML para o Artigo Lua
(no idioma inglês). As informações são catalogadas como sendo características do objeto
principal do artigo.
<ARTICLES>
<MOON>
<TITLE>Moon</TITLE>
<SUBJECT> natural satellite, celestial</SUBJECT>
<AUTHOR>Wikipédia</AUTHOR>
<DIMENSION>
<SQUARE KILOMETERS>37,930,000,000 </ SQUARE KILOMETERS>
</DIMENSION >
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 319
13/04/2011 09:15:02
320
Sistema de busca de informações baseado nos conceitos da Web Semântica
<YEAR>2008</YEAR>
<BUY>WWW.COMPRARLIVRO.COM</BUY>
</MOON>
A mesma busca poderia ser feita no site Google de Busca Web, porém, o resultado
não é tão exato, já que a pesquisa se baseia na comparação das palavras-chaves da
pesquisa (sintaticamente).
Figura 3 – Imagem da página de pesquisa do site Google, para uma busca sobre o tamanho da lua (GOOGLE,
2009).
Nessa forma de pesquisa, o usuário precisaria “garimpar” por entre os sites
relacionados para encontrar a informação que precisa. Porém, assim como no PowerSet, os
resultados não são exatos, pois vai depender da confiabilidade de fonte (no caso do
PowerSet, o Wikipédia que é redigido por anônimos voluntários).
4.6. Google Search
O Google Search é uma das mais populares ferramentas de buscas online que existem. Sua
tecnologia de busca é baseada no PageRank (ranque de páginas) (GOOGLE, 2009).
O PageRank faz uma avaliação objetiva da importância de páginas da web,
aplicando votos de acordo com a importância de suas referências e quantidade de sites
que apontam para esses sites, resolvendo uma equação de mais de 500 milhões de
variáveis e 2 bilhões de termos. A tecnologia do Google usa a inteligência coletiva da web
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 320
13/04/2011 09:15:02
Rafael Grobmam
321
para determinar a importância de uma página. Não há envolvimento humano ou
manipulação de resultados, dando confiabilidade ao site como fonte de informação
objetiva não corrompida por colocação paga.
O diagrama de pesquisa do Google Search mostra os caminhos que a informação
passa e é processada pelo serviço de busca.
Figura 4 – Diagrama de etapas de uma busca no Google Search.
Além disso, o Google busca o melhor resultado analisando a correspondência de
hipertexto, ou conteúdo da página, de forma a classificá-las de acordo com sua relevância
dentro do contexto pesquisado. Essa análise verifica a quantidade de vezes em que o
termo aparece na página, além de verificar se o mesmo faz parte de títulos ou resumos da
página.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 321
13/04/2011 09:15:02
322
Sistema de busca de informações baseado nos conceitos da Web Semântica
O site torna mais confiável a busca, analisando também páginas vizinhas, para
certificar-se da coerência de seus resultados, entretanto, todo esse processo é feito através
de comparações sintática, ou seja, na pesquisa de “Qual o tamanho da lua”, o Google trará
resultados de páginas que contenham as palavras “qual”, “tamanho”, “lua”, de forma que
se a ordem das palavras ou suas relações não fazem parte da equação para os resultados.
4.7. Desenvolvimento do sistema de busca semântica
Um grande problema da Web Semântica proposta até hoje, é que todo o conteúdo da
Rede já está publicado e fora do padrão.
A implantação de uma nova forma de catalogar a informação levanta problemas
como a veracidade da informação (os dados de uma etiqueta podem estar errados),
haverá preguiça na criação dos metadados, falta de conhecimento dos profissionais
causarão erros na definição das etiquetas e não haverá neutralidade na informação, já que
poderão colocar o registro que melhor lhe cabe, seja omitindo dados ou modificando
informações.
Todavia, a informação contida na Internet de maneira geral é pública e neutra.
Informações como opinião de determinado assunto ou informações de determinada
matéria podem ser consideradas confiáveis na medida em que são repetidas por
diferentes pessoas e regiões. É o caso do Twitter.
O Twitter é um site onde são postadas opiniões em texto curtos, feito por usuários
do sistema (BROOKS, 2009). Sua importância está em definir assuntos de forma
estatística, já que cada discussão pode chegar a milhares de postagens. O que pode tornar
tendenciosa uma pesquisa no Twitter é que o requisito básico é o acesso a Internet e o
cadastro no site.
Porém a grande massa de informação de opinião é feita de maneira informal,
como blogs e sites de relacionamento. Portanto, o desafio seria poder pesquisar “Coca-cola
é um bom refrigerante?” e obter resultados do tipo: sim para 62% das frases consultadas;
47% não, 1% não estabeleceu favoritismo.
Uma outra forma de pesquisa semântica seria poder pesquisar por “Quanto susta
uma Honda Fit 2010?” e obter um valor médio “$61,254.21” e ainda sites de onde comprar.
Uma possível implementação para aproveitar do conteúdo atual da Web, de
forma a realizar pesquisa com maior exatidão e possibilidade de aplicação em diversas
áreas do conhecimento, é o desenvolvimento de um sistema capaz de compreender o
conteúdo texto das páginas da Web.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 322
13/04/2011 09:15:02
Rafael Grobmam
323
Este desenvolvimento propõe a estruturação da gramática para uma forma
simples, mas que possibilite a definição e a conjunção das palavras como classes
específicas, possibilitando contextualização de palavras a significados.
O diagrama do algoritmo desenvolvido demonstra a separação da frase do
usuário em pontos chaves, que serão processados de acordo com o tipo de cada uma
delas.
Figura 5 – Composição de uma frase pelo software de busca semântica.
Como no diagrama, classificam-se as frases em quatro tipos: QUEM, QUANDO,
QUANTO e ONDE.
Para cada um desses tipos, haverá um tipo de resposta (um personagem, ou uma
data, ou um valor, ou um lugar, respectivamente).
O verbo deverá ser identificado por meio de tesauros que integre os tempos
verbais e a possíveis sujeitos.
O uso de ontologia para interligar palavras a sinônimos, antônimos, adjetivos e
tempos verbais, será de extrema importância, pois quanto mais rico for o banco de
informações, ou tesauros organizados categoricamente; melhor será a seleção e
interpretação das frases pesquisadas.
Os tesauros deverão ser desenvolvidos como tabelas categorizadas, onde cada
tipo de palavra (seguindo a gramática brasileira) será ligada às palavras que podem dar
sentido numa frase.
A busca semântica será uma poderosa ferramenta de informação, podendo ser
aplicada em ferramentas de pesquisa, de estatística, opinião pública e até demográfica.
Aproveitando ao máximo do que a Internet dispõe de informação. Uma pesquisa
utilizando a ferramenta de busca semântica proposta, classificaria uma frase pesquisada
como uma pergunta, que para este projeto está sendo prevista a busca pelas seguintes
categorias: QUEM, QUANDO, QUANTO e ONDE.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 323
13/04/2011 09:15:02
324
Sistema de busca de informações baseado nos conceitos da Web Semântica
Figura 6 – Diagrama de Atividades.
O conceito criado discorre a possibilidade de contextualizar a pesquisa de acordo
com os termos que de fato são os pesquisados. Para as categorias anteriormente
apresentadas seriam como resultados de uma busca bem sucedida o retorno de páginas
que contivessem os termos: um personagem, ou uma data, ou um valor numérico, ou uma
localidade, respectivamente, que por sua vez estivessem relacionadas com os termos que
compõe a pergunta.
O resultado esperado desta busca seriam resultados exatos, páginas que
contivessem os termos pesquisados no mesmo contexto pesquisado, descartando
ambiguidades. O que leva a projetar o ideal da pesquisa, que seria a resposta simplificada,
tida pela frequência com que os termos são repetidos por entre as páginas pesquisadas,
descartando até a necessidade de o usuário precisar abrir se que um link de uma página.
Um exemplo de uma pesquisa eficiente, utilizando esse sistema de busca, pode
ser tido pela frase: “um quilômetro tem quantos metros?”. O sistema de busca semântica
proposto classificaria esta pergunta como sendo do tipo QUANTO, o que torna a busca
por valores numéricos acompanhados das palavras “metros” e “quilômetros”, que por
sua vez entenderá “quilômetro” como sendo ‘algo’ que ‘tem’ ‘algo’, metros. Por tanto, a
busca irá restringir-se a valores numéricos que caracterizam a quantidade do segundo
termo (metros) para o primeiro termo (um quilômetro). Tido isso, esperasse como
resultado páginas que contenham “1 quilômetro tem 1000 metros”, ou “1000 metros
equivalem a 1 quilômetro”.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 324
13/04/2011 09:15:02
Rafael Grobmam
325
Utilizando o conceito de tesauros, será possível a combinação de inúmeras
possibilidades para a mesma pesquisa, por exemplo, a palavra “quilômetro” e a palavra
“metro” poderiam ser pesquisadas como km e m, respectivamente.
O processamento da busca resume em quatro etapas.
O estado inicial, a interface de pesquisa aguarda a interação do usuário para
iniciar a pesquisa, onde os parâmetros de buscas devem ser na forma de uma frase
interrogativa.
A estruturação da frase para um contexto simples e definido ao conjunto de
classe que compõe as palavras deverá ser feito pelo software de busca, fazendo uma préanálise do que será pesquisado. Essa estruturação utiliza do banco lógico como fonte de
dados para a contextualização das palavras empregadas na frase. Este algoritmo deve
classificar a frase quanto ao tipo (quem, quando, quanto, onde), características gramaticais
(tempo verbal, gênero, grau, adjetivos empregados etc.) e o resultado esperado com a
busca (personagem, período de tempo, valor quantitativo, localidade), conforme
diagrama:
Figura 7 – Diagrama de Sequência do algoritmo do programa de busca.
O banco de páginas da Internet , assim como usada no Google Search, possibilita a
indexação de conteúdo para o processamento e resultado.
Como o propósito de uma busca por uma interrogação, espera-se como resultado
uma afirmação.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 325
13/04/2011 09:15:02
326
Sistema de busca de informações baseado nos conceitos da Web Semântica
O uso de XML e RDF como definição de informação são bases para um banco
lógico, possibilitando a descrição por etiquetas descritivas. Dessa forma, cada palavra
catalogada pode ser vista como um objeto, contendo características que podem ser como
atributos, métodos ou relacionamentos com outros objetos.
5.
RESULTADOS
Com esta pesquisa foi possível compreender o funcionamento da Web Semântica atual, a
tecnologia desenvolvida e as possíveis aplicações para ferramentas semânticas, podendo
criticar as soluções criadas e estimar novos desenvolvimentos para a área.
O próximo passo como continuação deste trabalho é o desenvolvimento de um
protótipo de sistema de busca, capaz de usar conceitos descritos aqui como o de tesauros
e ontologias, para chegar a respostas mais exatas possíveis de acordo com o dicionário de
dados construído.
6.
CONSIDERAÇÕES FINAIS
A Web Semântica atual é a padronização da Internet com códigos de metadados. Com
essas ferramentas é possível a padronização do ciberespaço e, assim, a melhor utilização
das informações da Rede.
Entretanto, a Web não é um repositório de informação facilmente alterado. A
maior parte da informação contida na rede não possui padrões de codificação, e a
diversidade de sintaxe utilizada varia de programador a programador, de diversas
regiões e culturas. Com isso a Web Semântica fica como sendo uma evolução de longo
prazo, pois muda os paradigmas de programação atual.
A solução proposta neste trabalho visa a utilização da informação já contida na
Web, de forma a interpretar dados junto a dicionários de informações lógicos (tesauros).
A definição de semântica de uma frase pode ser entendida como a combinação
de palavras que podem ser relacionadas com a mesma. Uma frase como “qual o tamanho
da lua” pode ser relacionada com “o diâmetro da lua”, “a circunferência lunar”, “a
dimensão do satélite natural da Terra” etc.
As frases interrogativas podem ser classificadas de acordo com o tipo de resposta
que se espera como resultado, por exemplo, esperasse a medida de uma dimensão, ou
seja, metros quadrados, quilômetros quadrados. Um resultado do tipo numérico.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 326
13/04/2011 09:15:02
Rafael Grobmam
327
No projeto estimou-se as frases classificadas de acordo com a resposta que se
espera: QUEM, QUANDO, QUANTO, ONDE; onde se espera uma resposta com um
personagem (nome de pessoa), um período de tempo (uma data ou hora), um valor
numérico (metros quadrados) e uma localidade (um país), respectivamente.
Espera-se com isso poder realizar busca de informação exata, pois a resposta de
cada pesquisa pode ser o resultado com maior número de resultados.
A Internet tem potencial por conter imensa gama de informação de diversos
gêneros e regiões. Aproveitar essa informação é a forma de utilizar o conhecimento já
catalogado, aumentar a velocidade e coerência de pesquisa e obter resultados mais exatos
e verídicos.
Assim, a Web Semântica se faz necessária e importante para os desafios do novo
século que é considerado da informação, tendo grande perspectiva de evolução. A Web
Semântica está em desenvolvimento e aplicação e será o novo desafio aos profissionais da
tecnologia da informação.
REFERÊNCIAS
BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web. Scientific American, v.5,
n.284, maio 2001. Disponível em: <http://www.sciam.com/article.cfm?id=the-semantic-web/>.
Acesso em: 26 nov. 2008.
BROOKS, Havi; Tradução Claudia Belhassof. O que é o Twitter? 17 fev. 2009 Disponível em:
<http://www.twitterbrasil.org/2009/02/17/o-que-e-o-twitter/>. Acesso em: 30 set. 2009.
CHADE, J. Número de internautas no mundo chega à marca de 1,5 bilhão. O Estado de S. Paulo,
São Paulo, nov. 2008. Disponível em:
<http://www.estadao.com.br/economia/not_eco285239,0.htm>. Acesso em: 01 out. 2008.
GOOGLE. Visão geral da tecnologia. Disponível em: <http://www.google.com/corporate/tech.
html>. Acesso em: 30 set. 2009.
HERMAN, I. Introduction to the Semantic Web. In: 2ND EUROPEAN SEMANTIC
TECHNOLOGY CONFERENCE, 2008, Viena. Anéis Eletrônicos… Áustria, 2008. Tutorial.
Disponível em: <http:/www.w3.org/2008/Talks/0924-Vienna-IH>. Acesso em: 26 nov. 2008.
MANOLA, F. (Ed.). RDF Primer. Disponível em: <http://www.w3.org/TR/rdf-primer/>. Acesso
em: 26 nov. 2008.
NETCRAFT. October 2009 Web Server Survey, Disponível em: <http://news.netcraft.com/>.
Acesso em: 17 out. 2009.
PICKLER, M.E.V. Web Semântica: ontologias como ferramentas de representação de
conhecimento. Perspectivas em Ciência da Informação, Belo Horizonte, v. 12, n. 1, jan./abr. 2007.
POWERSET. Site da Microsoft. Disponível em: <http://www.powerset.com/>. Acesso em: 30 set.
2009.
ROCHA, R. Metadados, Web Semântica, Categorização Automática: combinando esforços
humanos e computacionais para a descoberta e uso dos recursos da Web. Em Questão, Porto
Alegre, v. 10, n. 1, jan./jun. 2004.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 327
13/04/2011 09:15:02
328
Sistema de busca de informações baseado nos conceitos da Web Semântica
SOUZA, Renato R.; ALVARENGA, Lídia. A Web Semântica e suas contribuições para a ciência da
informação. Ciência da Informação, Brasília, v. 33, n. 1, 2004. Disponível em:
<http://www.ibict.br/cionline>. Acesso em: 20 out 2008.
W3C Semantic Web Activity. Disponível em: <http://www.w3.org/2001/sw/>. Acesso em: 26
nov. 2008.
FONTES CONSULTADAS
DEITEL, H.M. Java: como programar / H.M Deitel; tradução Edson Furmankiewcz; revisão
técnica Fábio Luocchini. 6.ed. São Paulo: Editora Pearson Prentice Hall, 2005.
SOMMERVILLE, Ian. Engenharia de Software. 6.ed. São Paulo: Addison Wesley, 2003.
ZIVIANI, Nivio. Projeto de algoritmos: com Implementação em Pascal e C / Nivio Ziviani. 2.ed.
rev. e ampli. São Paulo: Pioneira Thomson Learning, 2005.
Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328
ANUIC_n15_miolo.pdf 328
13/04/2011 09:15:02
Download