SISTEMA DE BUSCA DE INFORMAÇÕES BASEADO NOS CONCEITOS DA WEB SEMÂNTICA ANUÁRIO DA PRODUÇÃO DE INICIAÇÃO CIENTÍFICA DISCENTE Vol. XII, Nº. 15, Ano 2009 Rafael Grobmam RESUMO Professor Orientador: Ms. Thiago Salhab Alves Curso: Ciência da Computação FACULDADE ANHANGUERA DE SANTA BÁRBARA Trabalho apresentado no 9º Congresso Nacional de Iniciação Científica CONIC. Trabalho apresentado no 4º Encontro Interno de Iniciação Científica da Faculdade Anhanguera de Santa Bárbara. A Internet é hoje a maior fonte de informação que existe, contendo a mais vasta variedade de assuntos de conhecimento, formas de mídias e fontes de origens no mundo, e é disponível e usada por mais de um sexto da população mundial. Organizar e recuperar com mais eficiência toda essa informação com resultados mais coerente com os parâmetros da pesquisa é necessária para o maior aproveitamento de seu potencial, o que é indispensável para esse novo século que é da informação. A Web Semântica é novo paradigma de organização da Internet que promete resolver esse problema, fazendo do conteúdo da Rede, não só compreendida por humanos, mas também pelos computadores, com o uso de metadados combinados com ontologias e tesauros de dados. A idéia deste projeto é o estudo das novas tecnologias para a Internet no âmbito da Web Semântica, discorrendo-se do que já foi desenvolvido e propondo uma nova forma de estruturar a busca por informações, através de um novo sistema de busca semântica. Palavras-Chave: Web Semântica; internet; metadados; ontologias; tesauros. Anhanguera Educacional Ltda. Correspondência/Contato Alameda Maria Tereza, 2000 Valinhos, SP - CEP 13278-181 [email protected] [email protected] Coordenação Instituto de Pesquisas Aplicadas e Desenvolvimento Educacional - IPADE Publicação: 3 de fevereiro de 2011 ANUIC_n15_miolo.pdf 311 Trabalho realizado com o incentivo e fomento da Anhanguera Educacional 311 13/04/2011 09:15:01 312 Sistema de busca de informações baseado nos conceitos da Web Semântica 1. INTRODUÇÃO Desde que surgiu a World Wide Web (Rede de Alcance Mundial, também conhecida como WWW ou simplesmente Web) no início da década de 90, a Internet ampliou-se exponencialmente em termos de conteúdo de informação e em número de acessos (SOUZA; ALVARENGA, 2007). Hoje possui cerca de 1 bilhão e meio de internautas (cerca de um sexto da população mundial) (CHADE, 2008), e contém mais de 230 milhões de sites (NETCRAFT, 2009). E é devido a facilidade de usar e a variedade de mídias disponíveis, a Internet torna-se cada vez mais usada, o que implica em mais internautas e mais sites. Porém, toda essa informação contida na Rede não está de certa forma padronizada ou organizada de acordo com gênero ou assunto, o que tornaria impossível recuperar toda essa informação se não fossem as ferramentas de buscas. Sites como o Yahoo!, o Google ou o Live Search realizam através de seu mecanismos de indexação, busca e relevância, sites que contenham as palavras-chaves de uma pesquisa realizada por um usuário. Com isso, a tendência da Web é conter cada vez mais informação e cada vez mais diversificada. E foi pensando nisso que Tim Berners-Lee, James Hendler e Ora Lassila, criadores da World Wide Web, partindo do problema de que toda informação da Internet deve estar organizada a fim de facilitar a busca, definiram em artigo na Revista Scientific American em 2001, a Web Semântica como sendo uma extensão da Web atual (2.0), onde haveria a integração das linguagens, tecnologias e padrões como XML, (eXtensible Markup Language), RDF (Resource Description Framework) e ontologias. “Nela a informação é dada com um significado bem definido, permitindo melhor interação entre computadores e pessoas” (BERNERS-LEE; HENDLER; LASSILA, 2008). A Web Semântica é a forma mais detalhada de se publicar uma página na Internet, usando-se das ferramentas de metadados; adicionando informações que podem ajudar a um computador dar relevância ou não a um conteúdo pesquisado. Isso porque a Internet, desde seus primórdios como sendo apenas uma ferramenta de comunicação entre campus de universidades, foi estruturada para ser lida e compreendida por seres humanos. Um computador, como os servidores do site Google, por exemplo, realizam pesquisas em um banco de informações pré-selecionadas, onde a forma de selecionar essa lista de sites relevantes é através de comparação sintática, ou seja, a busca trás as páginas que contenham as palavras da busca escritas exatamente como Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 312 13/04/2011 09:15:01 Rafael Grobmam 313 foram digitadas. Essas ferramentas não prevêem uma busca distinguindo ambiguidades, por exemplo: Americana como cidade paulista, ou como natural dos EUA. A idéia de criar uma Internet para ser compreendida por softwares, onde as metainformações contidas nas páginas ajudem na seleção e organização da informação, o que facilitaria na relevância do conteúdo e trazendo resultados que de fato são de interesse na pesquisa. Neste projeto é discorrido sobre as tecnologias desenvolvidas nos âmbitos da semântica na Web e propor uma nova forma de projetar essa nova Internet (a Web Semântica, ou Web 3.0). 2. OBJETIVO O objetivo deste projeto é o estudo das tecnologias desenvolvidas para tornar possível a Web Semântica e propor uma nova forma de desenvolver um sistema de busca baseado nas técnicas de Web Semântica como ontologias e tesauros de dados. Discutir sobre as tecnologias apresentadas para solucionar o problema da recuperação da informação, apresentar possibilidades de desenvolvimentos com a nova Internet, propondo soluções para usar ao máximo do potencial da Rede Mundial de Computadores. 3. METODOLOGIA No início do projeto foi realizada uma pesquisa no contexto de Web Semântica, ferramentas para metadados e organização de dados para interação de informação com softwares. O escopo da pesquisa é entender a forma com que se vem desenvolvimento a Web Semântica, discuti-las e propor uma solução mais adequada e atual e de curto prazo. Foram feitas análises e críticas nas propostas para a estruturação da Internet, visando um sistema de busca que através de comparações com tesauros de dados e ontologias, traga resultados mais precisos e coerentes de informação; um sistema que possa extrair resultados mais próximo do contexto real da pesquisa usando a Web atual. Partindo da possibilidade de desenvolver esse sistema, propõem-se ferramentas possíveis que fariam da Internet ainda mais útil e exata. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 313 13/04/2011 09:15:01 314 Sistema de busca de informações baseado nos conceitos da Web Semântica 4. DESENVOLVIMENTO A Internet foi proposta em 1989 por Tim Berners-Lee, com a idéia de compartilhar informações através de uma rede que poderia ter extensões ilimitadas (W3C, 2008). Tim Berners-Lee fundou o Consórcio World Wide Web (W3C) em 1994, no MIT (Laboratório de Ciência da Computação), cuja empresa tem filiais por todo o mundo e que desenvolve soluções para a Internet e para colaborativamente desenvolver padrões universais para a Web, desenvolvendo protocolos e diretrizes que garantam seu crescimento de longo prazo. Desde sua fundação, o W3C publicou mais de 110 de padrões, denominados Recomendações do W3C Web Standards (Padrões Web). Em vinte anos de existência a Internet se popularizou muito e hoje é disponível para todas as classes sociais e faixa etária. Tornou-se principal fonte de pesquisa e informação, onde também o E-Commerce (Comercio Eletrônico) torna-se hoje grande fonte de negócio no mundo inteiro. A Web deixou de ser apenas um repositório de documentos, mas tornou-se fonte de relações interpessoais (como exemplo sites de relacionamento), fontes de entretenimento, de facilidade em cadastros e principalmente comunicação (E-Mail, VOIP). De posse de tanta informação, a Web ganhou importância e potencial. Importância, pois é fonte de informação global e de multi-assuntos, potencial, pois com informação pode-se desenvolver aplicativos que podem usá-los de maneira inteligentes. Porém, tamanha velocidade de evolução e de acesso livre e público trouxe o problema da organização na Internet. Achar uma informação exata na Internet pode ser fácil se você souber onde procurar, porém, imagine se não haja um site específico que fale de certo assunto. A primeira reação é de pesquisar em um site de busca, como o Google, por exemplo. Para esse caso teremos uma infinidade de sites relacionados (10 milhões de site em 0,23 segundos, por exemplo). E mesmo com toda a tecnologia de busca e ordenação de links do site, restará ao usuário, o garimpo por entre sites para achar a informação que precisa. É nesse contexto que entra a Web Semântica, como um novo padrão de Internet atual para a automação da busca por informação. A Web Semântica foi proposta por Tim Berners-Lee, James , Hendler e Ora Lassila, em 1994, na primeira Conferência Internacional WWW, com a proposta de ter uma Internet padronizada, de forma que toda informações fosse catalogada através de metadados. Seria como uma nova versão para a Web 2.0, ou seja, Web 3.0, o que conduziria a WWW a atingir todo seu potencial (W3C, 2008). Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 314 13/04/2011 09:15:01 Rafael Grobmam 315 4.1. Metadados como solução da Web Semântica O conceito central da Web Semântica é a busca pela “Web de Dados”, ou seja, uma rede que enxergue todos os dados disponíveis, independente de quais aplicações sejam proprietárias destes dados (W3C, 2008). Metadados são informações sobre dados que auxiliam no trabalho de busca de um software com este propósito. São informações que dão significado a uma palavra possível de ser compreendida por um computador (por exemplo, um texto que fala de uma cidade, e carrega como informação deste texto uma tag (etiqueta), descrevendo que o texto publicado nesta página fala da cidade citada). Uma tag muito bem aplicada seria na palavra órgão, que definiria a palavra como sendo substantiva de seção de uma organização, ou instrumento musical, ou ainda, parte de um corpo de um ser vivo. Este paradigma de organização busca consiste numa pesquisa que não envolve a sintaxe da palavra em si, mas em seu significado dentro do contexto aplicado. Sua estrutura permite relacionar as palavras chaves com sinônimos e adjetivos possíveis (HERMAN, 2008; ROCHA, 2004). A Web Semântica se fundamenta em RDF (Resource Definition Framework), XML (eXtensible Markup Language) e ontologias (W3C, 2008). 4.2. XML – linguagem de marcação A XML (eXtensible Markup Language) é uma sintaxe básica para estruturação de documentos, de forma a rotular o conteúdo desses documentos, ajudando no identificação de conteúdos por parte de softwares de busca. A XML é recomendada pela W3C como sendo a linguagem de programação para definição de páginas de Internet. Sua definição é semelhante a de uma etiqueta para documentos, visível a softwares específicos. Para Web Semântica, os códigos XML são úteis por descreverem com poucas informações todo o conteúdo de um site ou um objeto na rede. Sua finalidade é atribuir valores a objetos específicos, o que em um sistema complexo de Web Semântica daria significado as palavras para aplicá-las no contexto de uma frase (informações de uma tag diriam se MANGA significa fruta ou parte da camisa). Um exemplo de tag em XML é como a descrita a seguir: <CATALOG> Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 315 13/04/2011 09:15:01 316 Sistema de busca de informações baseado nos conceitos da Web Semântica <BOOK> <TITLE>Web Semântica</TITLE> <SUBJECT>Informática, Internet</SUBJECT> <AUTHOR>João Silva</AUTHOR> <COUNTRY>BRASIL</COUNTRY> <PUBLISHER>Editora A</PUBLISHER> <PRICE>80,90</PRICE> <YEAR>2008</YEAR> <BUY>WWW.COMPRARLIVRO.COM</BUY> </BOOK> Cada uma das linhas iniciadas por uma característica entre <> e seu valor, finalizando com o sinal </>, são atributos de um livro criado para exemplo. Com isso, numa busca por um livro de assunto Internet, ou autor João Silva, essas informações dariam maior relevância a esta página. 4.3. RDF – Resource Description Framework A linguagem de representação de informação na Internet, o RDF (Resource Description Framework), também recomendada pela W3C, possibilita relacionar objetos através de sintaxe de programação. Sua estrutura se divide em três componentes: recurso, propriedade e valor. O recurso, ou sujeito, é qualquer objeto que possa ter sua URI (Uniform Resource Identifier), de forma a ser identificado por ela. A URI caracteriza o objeto definindo seus atributos e métodos. A propriedade, ou predicado, são os atributos e aspectos do recurso do recurso. É a definição o recurso quanto a quais características ele pode ter, quais funções ou ações ele pode executar e como pode usado ou acessado. O componente valor, ou objeto, é o que caracteriza o recurso como sendo único ou próprio. Seria o mesmo que a propriedade define quais atributos e o valor quantifica cada um deles. Para um exemplo de código RDF, o trecho a seguir define João como tendo relação CASADO_COM com Maria. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 316 13/04/2011 09:15:01 Rafael Grobmam 317 <RDF:DESCRIPTION ABOUT=http://www.pessoa.com/~joao> <PESSOA> <NOME>João</NOME> <SOBRENOME>Silva</SOBRENOME> <CASADO_COM> <RDF:DESCRIPTION ABOUT=http://www.pessoa.com/~maria> <NOME>Maria</NOME> <SOBRENOME>Silva</SOBRENOME> </RDF:DESCRIPTION> </CASADO_COM> </PESSOA> </RDF:DESCRIPTION> O RDF serve para organizar essa informação fora do conteúdo da página, evitando que o fato de outro nome dentro do texto da biografia (a mãe da pessoa descrita, por exemplo) aparecesse numa busca pelo simples fato da palavra estar lá. Figura 1 – Grafo sobre o conceito de RDF descrevendo Eric Miller (MANOLA, 2008). Essa estrutura tida pelo código RDF dentro de uma página, possibilitaria que uma ferramenta de busca baseada nesse conceito pudesse encontrar facilmente e trazer ao Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 317 13/04/2011 09:15:01 318 Sistema de busca de informações baseado nos conceitos da Web Semântica usuário um conteúdo mais detalhado. No grafo apresentado as palavras-chaves estão fora do conteúdo da página (e-mail de contato, que a página se refere a uma pessoa etc.). 4.4. Ontologias e Tesauros Ontologia é o termo designado ao estudo do sentido da existência de um ser. No desenvolvimento da Web Semântica é usada como ferramenta que permite a instauração de sentido, que combinada com os conceitos de tesauro de informação (ou banco lógico de palavras), permitindo a compreensão das palavras dentro de uma frase, de acordo com seus relacionamentos. Tesauros são bibliotecas de dados que podem ser relacionados entre si. Um banco de dados que contivesse um acervo de palavras possibilitaria que a pesquisa se abrangesse por sinônimos relevantes. A idéia de ontologias e tesauro dentro da Web Semântica é combinar os termos de uma frase pesquisada a uma gama de palavras, que se relacionaram para fornecer um significado a frase. Funciona como um dicionário de palavras, onde o significado de uma se relaciona com outra palavra. A combinação de sinônimos, verbos e adjetivos a uma mesma palavra pode descrever o significado dela dentro da frase. Por exemplo, na frase “Qual a distância de São Paulo à Americana”, atribuindo adjetivos ao sujeito ‘São Paulo’, teremos palavras como sendo ‘Santo’, ‘Bendito’, ‘Homem’; porque a palavra São Paulo pode ser entendida como Santo Católico. Porém, se esses atributos comparados com a palavra ‘distância’, o termo Santo perderá força visto que é menos relevante comparar a distância de um santo com qualquer outra coisa. A palavra ‘Americana’ ainda reforçará essa afirmação visto que a frase é uma comparação, e os dois sujeitos visto como cidade pertencem ao mesmo grupo (o contrário a comparação seria de um Santo com um nascituro do continente América). 4.5. Web semântica atual A Web Semântica vem sendo desenvolvida como novo paradigma de desenvolvimento Web. As linguagens de representação de informação, como etiquetas, auxiliam na definição da informação, e consequentemente, na recuperação da informação. Uma ferramenta que já é capaz de realizar uma busca usando as definições de informações e se aplica nos conceitos da busca semântica é o PowerSet, da Microsoft. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 318 13/04/2011 09:15:01 Rafael Grobmam 319 Na pesquisa realizada foi procurado por “what size of the moon?” (qual o tamanho da lua). O site trouxe um resultado exato (37,930 bilhões de quilômetros quadrados), dados de uma tag para a palavra lua, atributo dimensão (XML), para o tamanho da lua, complementados por artigos do site Wikipédia que tenham a palavra moon (lua) relacionada com a palavra size (tamanho). Figura 2 – Imagem da página de pesquisa do site PowerSet, da Microsoft, para uma busca sobre o tamanho da lua (POWERSET, 2009). O sucesso da pesquisa é devido à grande quantidade de informação catalogada no Wikipédia, mais de três milhões em inglês. Um exemplo de tag para este artigo seria a o trecho em XML para o Artigo Lua (no idioma inglês). As informações são catalogadas como sendo características do objeto principal do artigo. <ARTICLES> <MOON> <TITLE>Moon</TITLE> <SUBJECT> natural satellite, celestial</SUBJECT> <AUTHOR>Wikipédia</AUTHOR> <DIMENSION> <SQUARE KILOMETERS>37,930,000,000 </ SQUARE KILOMETERS> </DIMENSION > Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 319 13/04/2011 09:15:02 320 Sistema de busca de informações baseado nos conceitos da Web Semântica <YEAR>2008</YEAR> <BUY>WWW.COMPRARLIVRO.COM</BUY> </MOON> A mesma busca poderia ser feita no site Google de Busca Web, porém, o resultado não é tão exato, já que a pesquisa se baseia na comparação das palavras-chaves da pesquisa (sintaticamente). Figura 3 – Imagem da página de pesquisa do site Google, para uma busca sobre o tamanho da lua (GOOGLE, 2009). Nessa forma de pesquisa, o usuário precisaria “garimpar” por entre os sites relacionados para encontrar a informação que precisa. Porém, assim como no PowerSet, os resultados não são exatos, pois vai depender da confiabilidade de fonte (no caso do PowerSet, o Wikipédia que é redigido por anônimos voluntários). 4.6. Google Search O Google Search é uma das mais populares ferramentas de buscas online que existem. Sua tecnologia de busca é baseada no PageRank (ranque de páginas) (GOOGLE, 2009). O PageRank faz uma avaliação objetiva da importância de páginas da web, aplicando votos de acordo com a importância de suas referências e quantidade de sites que apontam para esses sites, resolvendo uma equação de mais de 500 milhões de variáveis e 2 bilhões de termos. A tecnologia do Google usa a inteligência coletiva da web Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 320 13/04/2011 09:15:02 Rafael Grobmam 321 para determinar a importância de uma página. Não há envolvimento humano ou manipulação de resultados, dando confiabilidade ao site como fonte de informação objetiva não corrompida por colocação paga. O diagrama de pesquisa do Google Search mostra os caminhos que a informação passa e é processada pelo serviço de busca. Figura 4 – Diagrama de etapas de uma busca no Google Search. Além disso, o Google busca o melhor resultado analisando a correspondência de hipertexto, ou conteúdo da página, de forma a classificá-las de acordo com sua relevância dentro do contexto pesquisado. Essa análise verifica a quantidade de vezes em que o termo aparece na página, além de verificar se o mesmo faz parte de títulos ou resumos da página. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 321 13/04/2011 09:15:02 322 Sistema de busca de informações baseado nos conceitos da Web Semântica O site torna mais confiável a busca, analisando também páginas vizinhas, para certificar-se da coerência de seus resultados, entretanto, todo esse processo é feito através de comparações sintática, ou seja, na pesquisa de “Qual o tamanho da lua”, o Google trará resultados de páginas que contenham as palavras “qual”, “tamanho”, “lua”, de forma que se a ordem das palavras ou suas relações não fazem parte da equação para os resultados. 4.7. Desenvolvimento do sistema de busca semântica Um grande problema da Web Semântica proposta até hoje, é que todo o conteúdo da Rede já está publicado e fora do padrão. A implantação de uma nova forma de catalogar a informação levanta problemas como a veracidade da informação (os dados de uma etiqueta podem estar errados), haverá preguiça na criação dos metadados, falta de conhecimento dos profissionais causarão erros na definição das etiquetas e não haverá neutralidade na informação, já que poderão colocar o registro que melhor lhe cabe, seja omitindo dados ou modificando informações. Todavia, a informação contida na Internet de maneira geral é pública e neutra. Informações como opinião de determinado assunto ou informações de determinada matéria podem ser consideradas confiáveis na medida em que são repetidas por diferentes pessoas e regiões. É o caso do Twitter. O Twitter é um site onde são postadas opiniões em texto curtos, feito por usuários do sistema (BROOKS, 2009). Sua importância está em definir assuntos de forma estatística, já que cada discussão pode chegar a milhares de postagens. O que pode tornar tendenciosa uma pesquisa no Twitter é que o requisito básico é o acesso a Internet e o cadastro no site. Porém a grande massa de informação de opinião é feita de maneira informal, como blogs e sites de relacionamento. Portanto, o desafio seria poder pesquisar “Coca-cola é um bom refrigerante?” e obter resultados do tipo: sim para 62% das frases consultadas; 47% não, 1% não estabeleceu favoritismo. Uma outra forma de pesquisa semântica seria poder pesquisar por “Quanto susta uma Honda Fit 2010?” e obter um valor médio “$61,254.21” e ainda sites de onde comprar. Uma possível implementação para aproveitar do conteúdo atual da Web, de forma a realizar pesquisa com maior exatidão e possibilidade de aplicação em diversas áreas do conhecimento, é o desenvolvimento de um sistema capaz de compreender o conteúdo texto das páginas da Web. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 322 13/04/2011 09:15:02 Rafael Grobmam 323 Este desenvolvimento propõe a estruturação da gramática para uma forma simples, mas que possibilite a definição e a conjunção das palavras como classes específicas, possibilitando contextualização de palavras a significados. O diagrama do algoritmo desenvolvido demonstra a separação da frase do usuário em pontos chaves, que serão processados de acordo com o tipo de cada uma delas. Figura 5 – Composição de uma frase pelo software de busca semântica. Como no diagrama, classificam-se as frases em quatro tipos: QUEM, QUANDO, QUANTO e ONDE. Para cada um desses tipos, haverá um tipo de resposta (um personagem, ou uma data, ou um valor, ou um lugar, respectivamente). O verbo deverá ser identificado por meio de tesauros que integre os tempos verbais e a possíveis sujeitos. O uso de ontologia para interligar palavras a sinônimos, antônimos, adjetivos e tempos verbais, será de extrema importância, pois quanto mais rico for o banco de informações, ou tesauros organizados categoricamente; melhor será a seleção e interpretação das frases pesquisadas. Os tesauros deverão ser desenvolvidos como tabelas categorizadas, onde cada tipo de palavra (seguindo a gramática brasileira) será ligada às palavras que podem dar sentido numa frase. A busca semântica será uma poderosa ferramenta de informação, podendo ser aplicada em ferramentas de pesquisa, de estatística, opinião pública e até demográfica. Aproveitando ao máximo do que a Internet dispõe de informação. Uma pesquisa utilizando a ferramenta de busca semântica proposta, classificaria uma frase pesquisada como uma pergunta, que para este projeto está sendo prevista a busca pelas seguintes categorias: QUEM, QUANDO, QUANTO e ONDE. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 323 13/04/2011 09:15:02 324 Sistema de busca de informações baseado nos conceitos da Web Semântica Figura 6 – Diagrama de Atividades. O conceito criado discorre a possibilidade de contextualizar a pesquisa de acordo com os termos que de fato são os pesquisados. Para as categorias anteriormente apresentadas seriam como resultados de uma busca bem sucedida o retorno de páginas que contivessem os termos: um personagem, ou uma data, ou um valor numérico, ou uma localidade, respectivamente, que por sua vez estivessem relacionadas com os termos que compõe a pergunta. O resultado esperado desta busca seriam resultados exatos, páginas que contivessem os termos pesquisados no mesmo contexto pesquisado, descartando ambiguidades. O que leva a projetar o ideal da pesquisa, que seria a resposta simplificada, tida pela frequência com que os termos são repetidos por entre as páginas pesquisadas, descartando até a necessidade de o usuário precisar abrir se que um link de uma página. Um exemplo de uma pesquisa eficiente, utilizando esse sistema de busca, pode ser tido pela frase: “um quilômetro tem quantos metros?”. O sistema de busca semântica proposto classificaria esta pergunta como sendo do tipo QUANTO, o que torna a busca por valores numéricos acompanhados das palavras “metros” e “quilômetros”, que por sua vez entenderá “quilômetro” como sendo ‘algo’ que ‘tem’ ‘algo’, metros. Por tanto, a busca irá restringir-se a valores numéricos que caracterizam a quantidade do segundo termo (metros) para o primeiro termo (um quilômetro). Tido isso, esperasse como resultado páginas que contenham “1 quilômetro tem 1000 metros”, ou “1000 metros equivalem a 1 quilômetro”. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 324 13/04/2011 09:15:02 Rafael Grobmam 325 Utilizando o conceito de tesauros, será possível a combinação de inúmeras possibilidades para a mesma pesquisa, por exemplo, a palavra “quilômetro” e a palavra “metro” poderiam ser pesquisadas como km e m, respectivamente. O processamento da busca resume em quatro etapas. O estado inicial, a interface de pesquisa aguarda a interação do usuário para iniciar a pesquisa, onde os parâmetros de buscas devem ser na forma de uma frase interrogativa. A estruturação da frase para um contexto simples e definido ao conjunto de classe que compõe as palavras deverá ser feito pelo software de busca, fazendo uma préanálise do que será pesquisado. Essa estruturação utiliza do banco lógico como fonte de dados para a contextualização das palavras empregadas na frase. Este algoritmo deve classificar a frase quanto ao tipo (quem, quando, quanto, onde), características gramaticais (tempo verbal, gênero, grau, adjetivos empregados etc.) e o resultado esperado com a busca (personagem, período de tempo, valor quantitativo, localidade), conforme diagrama: Figura 7 – Diagrama de Sequência do algoritmo do programa de busca. O banco de páginas da Internet , assim como usada no Google Search, possibilita a indexação de conteúdo para o processamento e resultado. Como o propósito de uma busca por uma interrogação, espera-se como resultado uma afirmação. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 325 13/04/2011 09:15:02 326 Sistema de busca de informações baseado nos conceitos da Web Semântica O uso de XML e RDF como definição de informação são bases para um banco lógico, possibilitando a descrição por etiquetas descritivas. Dessa forma, cada palavra catalogada pode ser vista como um objeto, contendo características que podem ser como atributos, métodos ou relacionamentos com outros objetos. 5. RESULTADOS Com esta pesquisa foi possível compreender o funcionamento da Web Semântica atual, a tecnologia desenvolvida e as possíveis aplicações para ferramentas semânticas, podendo criticar as soluções criadas e estimar novos desenvolvimentos para a área. O próximo passo como continuação deste trabalho é o desenvolvimento de um protótipo de sistema de busca, capaz de usar conceitos descritos aqui como o de tesauros e ontologias, para chegar a respostas mais exatas possíveis de acordo com o dicionário de dados construído. 6. CONSIDERAÇÕES FINAIS A Web Semântica atual é a padronização da Internet com códigos de metadados. Com essas ferramentas é possível a padronização do ciberespaço e, assim, a melhor utilização das informações da Rede. Entretanto, a Web não é um repositório de informação facilmente alterado. A maior parte da informação contida na rede não possui padrões de codificação, e a diversidade de sintaxe utilizada varia de programador a programador, de diversas regiões e culturas. Com isso a Web Semântica fica como sendo uma evolução de longo prazo, pois muda os paradigmas de programação atual. A solução proposta neste trabalho visa a utilização da informação já contida na Web, de forma a interpretar dados junto a dicionários de informações lógicos (tesauros). A definição de semântica de uma frase pode ser entendida como a combinação de palavras que podem ser relacionadas com a mesma. Uma frase como “qual o tamanho da lua” pode ser relacionada com “o diâmetro da lua”, “a circunferência lunar”, “a dimensão do satélite natural da Terra” etc. As frases interrogativas podem ser classificadas de acordo com o tipo de resposta que se espera como resultado, por exemplo, esperasse a medida de uma dimensão, ou seja, metros quadrados, quilômetros quadrados. Um resultado do tipo numérico. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 326 13/04/2011 09:15:02 Rafael Grobmam 327 No projeto estimou-se as frases classificadas de acordo com a resposta que se espera: QUEM, QUANDO, QUANTO, ONDE; onde se espera uma resposta com um personagem (nome de pessoa), um período de tempo (uma data ou hora), um valor numérico (metros quadrados) e uma localidade (um país), respectivamente. Espera-se com isso poder realizar busca de informação exata, pois a resposta de cada pesquisa pode ser o resultado com maior número de resultados. A Internet tem potencial por conter imensa gama de informação de diversos gêneros e regiões. Aproveitar essa informação é a forma de utilizar o conhecimento já catalogado, aumentar a velocidade e coerência de pesquisa e obter resultados mais exatos e verídicos. Assim, a Web Semântica se faz necessária e importante para os desafios do novo século que é considerado da informação, tendo grande perspectiva de evolução. A Web Semântica está em desenvolvimento e aplicação e será o novo desafio aos profissionais da tecnologia da informação. REFERÊNCIAS BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web. Scientific American, v.5, n.284, maio 2001. Disponível em: <http://www.sciam.com/article.cfm?id=the-semantic-web/>. Acesso em: 26 nov. 2008. BROOKS, Havi; Tradução Claudia Belhassof. O que é o Twitter? 17 fev. 2009 Disponível em: <http://www.twitterbrasil.org/2009/02/17/o-que-e-o-twitter/>. Acesso em: 30 set. 2009. CHADE, J. Número de internautas no mundo chega à marca de 1,5 bilhão. O Estado de S. Paulo, São Paulo, nov. 2008. Disponível em: <http://www.estadao.com.br/economia/not_eco285239,0.htm>. Acesso em: 01 out. 2008. GOOGLE. Visão geral da tecnologia. Disponível em: <http://www.google.com/corporate/tech. html>. Acesso em: 30 set. 2009. HERMAN, I. Introduction to the Semantic Web. In: 2ND EUROPEAN SEMANTIC TECHNOLOGY CONFERENCE, 2008, Viena. Anéis Eletrônicos… Áustria, 2008. Tutorial. Disponível em: <http:/www.w3.org/2008/Talks/0924-Vienna-IH>. Acesso em: 26 nov. 2008. MANOLA, F. (Ed.). RDF Primer. Disponível em: <http://www.w3.org/TR/rdf-primer/>. Acesso em: 26 nov. 2008. NETCRAFT. October 2009 Web Server Survey, Disponível em: <http://news.netcraft.com/>. Acesso em: 17 out. 2009. PICKLER, M.E.V. Web Semântica: ontologias como ferramentas de representação de conhecimento. Perspectivas em Ciência da Informação, Belo Horizonte, v. 12, n. 1, jan./abr. 2007. POWERSET. Site da Microsoft. Disponível em: <http://www.powerset.com/>. Acesso em: 30 set. 2009. ROCHA, R. Metadados, Web Semântica, Categorização Automática: combinando esforços humanos e computacionais para a descoberta e uso dos recursos da Web. Em Questão, Porto Alegre, v. 10, n. 1, jan./jun. 2004. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 327 13/04/2011 09:15:02 328 Sistema de busca de informações baseado nos conceitos da Web Semântica SOUZA, Renato R.; ALVARENGA, Lídia. A Web Semântica e suas contribuições para a ciência da informação. Ciência da Informação, Brasília, v. 33, n. 1, 2004. Disponível em: <http://www.ibict.br/cionline>. Acesso em: 20 out 2008. W3C Semantic Web Activity. Disponível em: <http://www.w3.org/2001/sw/>. Acesso em: 26 nov. 2008. FONTES CONSULTADAS DEITEL, H.M. Java: como programar / H.M Deitel; tradução Edson Furmankiewcz; revisão técnica Fábio Luocchini. 6.ed. São Paulo: Editora Pearson Prentice Hall, 2005. SOMMERVILLE, Ian. Engenharia de Software. 6.ed. São Paulo: Addison Wesley, 2003. ZIVIANI, Nivio. Projeto de algoritmos: com Implementação em Pascal e C / Nivio Ziviani. 2.ed. rev. e ampli. São Paulo: Pioneira Thomson Learning, 2005. Anuário da Produção de Iniciação Científica Discente • Vol. XII, Nº. 15, Ano 2009 • p. 311-328 ANUIC_n15_miolo.pdf 328 13/04/2011 09:15:02