Um estudo comparativo dos sistemas de busca na web Janice Inês Deters1, Silsomar Flôres Adaime2 1 Laboratório de Sistemas de Conhecimento - Universidade Federal de Santa Catarina (UFSC) Caixa Postal 476 – 88040-900 – Florianópolis – SC – Brazil [email protected], [email protected] Resumo. O crescimento do volume e da diversidade de informações na Internet originou a necessidade do uso de sistemas de recuperação de informação na web. Atualmente encontramos na web uma quantidade expressiva de sistemas de busca, cada um com suas peculiaridades e características. Este artigo, oferece uma visão geral dos sitemas de busca descrevendo suas caraterísticas, analisando e comparando as vantagens e desvantagens de uso dos diferentes sistemas, a fim de proporcionar ao usuário subsídios para aumentar a qualidade na recuperação de informação na web. Palavras-chave: Recuperação de Informação, Mecanismos de busca, Sistemas de Busca, Diretórios, Metabuscadores, Sistemas Híbridos. 1 Introdução Na atualidade, a Internet é uma das principais fontes de informação para muitos usuários. Os tipos de informação e serviços disponibilizados vão transformando a Web cada vez mais em um serviço de informação de cobertura universal. Verifica-se também um verdadeiro “frenesi” por parte do setor público, privado e também pelas pessoas individualmente, para disponibilizar informações e serviços através da Web, pois diariamente são inseridas milhares de novas páginas (Macedo, 2001). Dado o grande volume de informações existentes na Web, os sistemas de busca são os métodos mais utilizados para a recuperação de informação. Sem a utilização de um sistema de busca, é praticamente impossível encontrar a informação necessária. Com isso, as pesquisas realizadas na área de Recuperação de Informação (RI) procuram melhorar e aperfeiçoar os mecanismos existentes. Em decorrência do crescimento exponencial da Web, à sua diversidade de informações e à sua estruturação “caótica”, encontrar informações relevantes é freqüentemente uma tarefa demorada, difícil e para muitos usuários uma atividade frustrante. Conforme Cornella (1998) um dos principais motivos das consultas frustradas na web é que a maioria dos usuários que utilizam Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 os mecanismos de busca são inexperientes e leigos, não sabem formular uma consulta de forma adequada e desconhecem o funcionamento dos sistemas de busca. Um estudo apresentado por Ivonen (1995) demonstra que aqueles que conhecem o funcionamento interno de um mecanismo de busca e possuem experiências com a linguagem de consulta tem mais probabilidade de encontrar a informação desejada. Logo, ter conhecimento do funcionamento de um sistema de busca é de fundamental importância para que o usuário obtenha informações relevantes nas suas consultas. O objetivo deste artigo é fornecer subsídios aos usuários de sistemas de busca para que estes obtenham mais eficiência na recuperação de informação na web. Este documento está estruturado da seguinte forma, na seção 2 são apresentados as terminologias e os conceitos básicos relacionados à recuperação de informação, que são utilizados no transcorrer deste documento. A seção 3 explicita as peculiaridades dos mecanismos de busca, enfatizando as suas características, diferenças e semelhanças, a fim de proporcionar aos usuários informações para aumentar sua eficiência na busca por informações na web. Na seção 4 é apresentado um estudo comparativo apontando as vantagens e as desvantagens dos sistemas busca. Já na seção 5 são apresentadas as conclusões. A seção 6 contém as referências bibliográficas utilizadas. 2 Recuperação de Informação A Recuperação de Informação (RI) trata da representação, armazenamento, organização e do acesso aos itens de informação (Baeza-Yates; Ribeiro Neto, 1999). Um item de informação é geralmente constituído de texto como documentos, páginas Web, livros, etc, podendo conter outros tipos de dados, como fotografias, gráficos e figuras. Segundo Macedo (2001), o principal objetivo de um sistema de RI, é a seleção, num universo de documentos disponíveis, do conjunto de documentos relevantes para uma necessidade de informação do usuário. Caracterizar a necessidade de informação de um usuário, não é considerado uma tarefa fácil. Para exemplificar esta dificuldade considere a seguinte necessidade de informação hipotética de um usuário no contexto da Web apresentada por Baeza-Yates e Ribeiro-Neto (1999): “Find all the pages (documents) containing information on college tennis teams which: (1) are maintained by an university in the USA and (2) participate in the NCAA tennis tournament. To be relevant, the page must include information on the national ranking of the team in the last three years and the email or phone number of the team coach. P.1” Os autores mencionam que a descrição completa citada acima não pode ser usada diretamente para solicitar uma informação usando as interfaces dos sistemas de busca atuais na Web. Para tanto, o usuário deverá traduzir a sua necessidade de informação em uma consulta que possa ser processada por um sistema de busca. A consulta deverá ser formulada através de uma palavrachave ou um conjunto de palavras-chaves que traduzem a necessidade de informação do usuário. O tipo de formalização exigida para a consulta, depende também do tipo de sistema de recuperação de informação que estiver sendo utilizado pelo usuário. Segundo Wives (2002), as Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 interfaces homem-máquinas existentes atualmente, não permitem que um sistema de recuperação de informação obtenha as informações diretamente da mente do usuário, portanto, o usuário precisa traduzir a sua necessidade de informação utilizando uma linguagem formal específica de um sistema de RI, o que representa uma das grandes dificuldades para o usuário. A dificuldade na formulação da necessidade de informação pelo usuário, ocorre também em grande parte por se tratar de uma “necessidade visceral” (Macedo, 2001) ou seja, o usuário está consciente que precisa da informação, mas não consegue nem sequer a sua definição em linguagem natural. Portanto, transpô-la, para a linguagem suportada pelo sistema automático de RI é muito mais difícil, consequentemente o usuário pode vir a formular uma consulta inadequada e a probabilidade do sistema retornar documentos não relevantes para a necessidade do usuário aumenta. Através da consulta formulada pelo usuário, o sistema de recuperação de informação é capaz de selecionar as informações (documentos) relevantes para a necessidade do usuário. A forma utilizada pelo sistema de RI para selecionar a informação relevante é identificar a similaridade entre as informações armazenadas (índice) no sistema com a necessidade de informação descrita na expressão da consulta. Conforme Wives (2002) esta comparação pode ser problemática, porque um documento pode ser relevante à consulta do usuário mas não ser relevante para o usuário (que pode ter formulado incorretamente a sua necessidade de informação). Após determinar quais os documentos de uma coleção são relevantes à consulta do usuário, os sistemas de RI retornam o resultado da consulta em uma lista também conhecido como ranking, onde os documentos estão ordenados de acordo com um grau de relevância. Para ordenar os documentos, os sistemas de RI pontuam os documentos (aplicar um peso), onde os mais pontuados são considerados os mais importantes para a consulta do usuário, portanto ocuparão as primeiras posições do ranking. 3 Sistemas de Busca Segundo Altigran (1994) os sistemas de busca têm por objetivo encontrar informação do interesse do usuário na World Wide Web. Portanto, elas coletam continuamente os dados disponíveis na Web e montam uma base de dados que é processada para aumentar a rapidez na recuperação de informação. Sem os sistemas de busca seria praticamente impossível encontrar informações na Web, isso devido à sua dimens atual. A popularização e o acesso ao “grande público” dos sistemas de recuperação de informação ocorreram através do desenvolvimento da Web. Atualmente existe uma diversidade de sistemas de busca e são os métodos mais utilizados na recuperação de informação na WWW. Vale ressaltar, que os sistemas de busca não pesquisam a informação diretamente na Internet e sim na sua base de dados. Silveira (2001) apresenta algumas estatísticas sobre o uso de sistemas de busca na recuperação de informação na Web. Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 As ferramentas de busca são os meios mais usados pelos consumidores para encontrar novos Web sites on-line, usadas por 73,4% daqueles entrevistados – Forrester Research, março, 2001. Do total, 84,8% das pessoas usam ferramentas de busca para encontrar novos web sites – GVU’s 10 WWW User Survey out-dez. 1998. APUD (SILVEIRA, 2002, p.22). Na literatura existe uma variação de nomes para denominar os sistemas de recuperação de informação na web, que são conhecidos como “ferramentas de busca”, “mecanismos de busca”, “motores de busca” ou “sistemas de busca”. Muitas vezes estes termos são usados de maneira confusa ou como sinônimos (Mauro, 2000). Neste artigo, adotamos o termo “sistemas de busca” como um termo genérico que contempla tanto os “diretórios”, como os “mecanismos de busca” quanto os “metabuscadores” e os “sistemas híbridos”. Estes sistemas, embora tenham modos de funcionamento diferentes, tratam do mesmo problema, que é a recuperação, em um universo de documentos, do conjunto de documentos relevantes para uma necessidade da informação do usuário (Macedo, 2001). A seguir será feita uma descrição sucinta de cada um deles. 3.1 Diretórios Os diretórios foram os primeiros sistemas propostos para organizar e localizar as informações na Web, vindo a preceder os sistemas de busca por palavras-chave (Céndon, 2001). As informações indexadas na base de dados estão organizadas em uma estrutura hierárquica, de acordo com um esquema de classificação em categorias. A classificação é uma técnica utilizada para construir os diretórios. Existem diretórios que utilizam esquemas de classificação universal como o Dewey Decimal Classification (DDC), o Universal Decimal Classification (UDC) e o Library of Congress Classification (LCC) e outros diretórios possuem esquemas próprios de classificação, como exemplo podemos citar o Yahoo1. Os esquemas de classificação universal citados anteriormente são de conhecimento dos documentalistas e dos usuários assíduos de biblioteca, pois, são os mesmos esquemas utilizados para classificar as referências nas bibliotecas (Domingez, 2001). O descobrimento e a seleção das informações é realizada em sua maioria por profissionais especializados, os editores (geralmente documentalistas, bibliotecários) que aplicam critérios de qualidade para avaliar se um site pode ser indexado ou não no diretório. Os editores descobrem novos sites a partir de sugestões do usuário (cadastro do site pelo usuário), através de pesquisas na Internet como listas de anúncios de novas páginas, ou ainda, pelo uso de robôs que coletam novas URLs na web (Céndon, 2001). Quanto aos critérios de qualidade utilizados para incluir um site em um diretório destacam-se os aspectos de legibilidade; a identificação (se existe correio eletrônico, se o nome do autor aparece na página dentre outros), a estruturação e a riqueza em multimídia (Aguilho, s/d.). 1 Disponível em:http://www.yahoo.com e em português http://www.yahoo.com.br Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 Os diretórios possuem uma interface mais adequada à navegação comparada aos mecanismos de busca, sendo que os documentos estão agrupados em categorias ou hierarquias de categorias. Na maioria dos diretórios o usuário não precisa traduzir a sua consulta em uma palavra-chave, basta selecionar os temas que lhe interessam e navegar através da estrutura hierárquica até chegar a informação desejada (página). Em alguns diretórios o usuário pode formular a sua consulta através de uma palavra-chave (Dziekaniak, 2001). Os diretórios mais comuns são aqueles que oferecem uma navegação por temas, como por exemplo, o Yahoo!. Existem também diretórios que permitem uma navegação geográfica, como o Achei2, onde o usuário pode escolher em quais paises o sistema deverá efetuar a consulta. Existe ainda a consulta cronológica, onde o usuário estabelece o período em que as informações devem estar diponíveis (Dominguez, 2001). 3.2 Mecanismos de Busca Os mecanismos de busca utilizam-se de um robot, que percorrem a Web a fim de encontrar as páginas (descobrimento das informações), uma base de dados onde armazenam uma referência da informação indexada e uma interface que permite ao usuário efetuar sua consulta e apresentar os resultados obtidos. Alguns dos mecanismos de busca existentes são: Altavista3, Excite4, Google5. 3.2.1 Robôs Os robôs também conhecidos como spiders (aranhas) ou Web crawlers (rastejadores), são programas que percorem a estrutura da Web, recolhendo informações por eles consideradas relevante sobre as páginas que encontram. Essas informações são indexadas em uma base de dados que será explorada posteriormente utilizando o mecanismo de busca. Cada robô tem a sua estratégia para decidir o que visitar e a forma de locomoção. Comumente, iniciam a busca através de uma lista determinada de documentos (designados de endereços sementes) e a partir desta, executam um rastreio recursivo dos documentos através das referências (links) embutidos nos documentos. Utilizam o protocolo HTTP para recuperar documentos dos servidores. As listas iniciais podem ser obtidas de ‘whats new’, ou de listas de sites mais conhecidos da Web especialmente aquelas que possuem vários links, recuperam a sua home page, e seguem os links encontrados na página inicial As listas de URL das páginas cadastradas pelo usuário no mecanismo de busca, também são utilizadas para alguns robôs para efetuarem a varredura (Koster, 1997). Os robôs ao visitarem uma página, primeiramente verificam se a mesma já foi visitada anteriormente ou se é uma página nova para ele. Caso, a página tenha sido recolhida (indexada), o 2 Disponível em: http://www.achei.com.br 3 Disponível em: http://www.altavista.com 4 Disponível em: http://www.excite.com 5 Disponível em: http://www.google.com e no Brasil http://www.google.com.br Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 robô verifica se ocorreu alguma modificação desde a ultima visita, e se ocorreu, atualiza a informação armazenada sobre a página na base de dados. A maioria dos robôs possui um período de tempo predeterminado para revisitar os sites por eles indexados visando detectar as mudanças ocorridas naqueles sites. Alguns documentos da Web não são explorados, porque muitos robôs não estão capacitados para tratar com certas estruturas em HTML. Uma destas estruturas são os frames; as páginas que contém image-maps e também as páginas dinâmicas. Desta forma, uma parte da Web sempre fica de fora, não é indexada. Conforme Macedo (2001) os robôs estão bastante mal documentados na literatura principalmente pelo fator comercial, onde os mecanismos tendam esconder a forma de trabalho do robô. 3.2.2 Base de Dados Os itens coletados pelos robôs durante o processo de rastreamento são encaminhados aos indexadores que extraem a informação das páginas e as armazenam na base de dados, às vezes também denominada índice ou catálogo (Céndon, 2001). O tamanho da base de dados varia de mecanismo para mecanismo e na maioria das vezes, o conteúdo das bases de dados diferem em detrimento da estratégias de indexação de cada mecanismo. Na base de dados podem ser encontrados endereços das páginas, títulos, cabeçalhos, resumos, tamanho, e as palavras contidas nos documentos. O tamanho da base de dados é responsável pela amplitude da pesquisa, quanto mais documentos ou páginas estiverem armazenadas na base de dados do sistema, mais itens o sistema recuperará. Consequentemente, os mecanismos de busca com a maior base de dados tendem a ser os mais populares. 3.2.3 Software de Interface O software de interface faz a interação do usuário com o mecanismo de busca. É através dele que o usuário fornece sua(s) necessidades de informação para ser(em) pesquisada(s) na base de dados pelo software de busca ou sistema de busca. Nos mecanismos de busca existem duas formas de busca, a busca simples e a busca avançada conforme Dominguez (2001, p.5). ...”una simples caja donde teclear las palavras chave (búsqueda simple) hasta um formulario com multitud de opciones para expressar com un mayor detalle aquello que se desea buscar (búsqueda avanzada). Las búsquedas avanzadas suelen oferecer la possibilidad de utilizar operadores booleanos (booleanos de adyacencia, de existencia, de exactitud) y a veces también se puede delimitar la búsqueda (por fechas, por ciertas etiquetas HTML, por tipo de fuente, por área geográfica o domínio, por idioma, etc.). Algunos buscadore, como por ejemplo Altavista, incluyen la possibilidad de realizar una búsqueda expressada en lenguaje natural. Ello permite al usuario utilizar un lenguaje Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 no estruturado para describir qué está buscando, siendo el motor de búsqueda le respomsable de traducir esa búsqueda a un formato estructurado. Sea cual sea a forma de expressar la pergunta por parte del usuario, está será analizada por el buscador y se traducirá a una representación interna que permita compararla com los términos recogidos en el fichero inverso y selecionor así las URL, que sean más relevantes..” Os resultados da pesquisa são devolvidos ao usuário numa página de resultados criada em tempo real. Os itens são ordenados por um algoritmo de ordenação que tenta determinar a ordem de relevância dos documentos. A forma de apresentação dos resultados pelos mecanismos de busca varia. Em muitos deles existe a possibilidade do usuário selecionar o formato de apresentação. O formato de apresentação poderá ser na forma detalhada ou resumida. No primeiro, é mostrado o título da página, o percentual de relevância, a URL, o idioma, o tamanho do documento em bytes, data e um resumo. Já na opção resumida somente é exibida a URL da página. Outra opção, passível de escolha pelo usuário é o número de resultados exibidos na página de resultados, geralmente os documentos são exibidos de dez (10) em dez (10). A forma de apresentação da página pelo mecanismo Altavista consiste em exibir o título da página (o título mostrado é aquele que é encontrado na tag TITILE), o resumo que é a descrição que consta na tag META descripton, e caso ela estiver vazia, são colocadas como resumo às 25 primeiras palavras encontradas no primeiro parágrafo e a URL (Varela e Basto, 2000). 3.3 Sistemas de Metabusca Os sistemas de metabusca também chamados de multibuscadores, são sistemas que localizam a informação em outros sistemas de busca (mecanismos e diretórios) simultaneamente e combinam os resultados encontrados em uma só lista de resultados (Blattman, 2000). Estes sistemas não utilizam robôs para encontrar as páginas na Web e também nem o usuário necessita cadastrar o seu site, pois, os sistemas de metabusca não possuem uma base de dados, próprio, uma vez que, utilizam os dados de outros sistemas de busca. Existem variações entre os sistemas de metabusca, em relação à interface de busca, nos sistemas utilizados na pesquisa, o modo de processamento das consultas, e na forma de compilação e apresentação dos resultados. Em relação à apresentação dos resultados, em alguns sistemas de metabusca existentes os resultados obtidos através dos sistemas pesquisados são agrupados e trazidos simultaneamente. Em outros, as respostas de cada sistema pesquisado são, integradas ordenadas por relevância (mostrando quais sistemas retornaram resultados) e os resultados duplicados (um mesmo documento pode aparecer em vários sistemas de busca) são eliminados (Céndon, 20001). Alguns dos metabuscadores existentes são: MetaLocate (além de portal, o Locate.com também oferece este metabuscador) e o MetaMiner. O Metaminer foi desenvolvido no Brasil. Ele teve sua origem em um projeto de mestrado e foi adquirido pela UOL. O MetaMiner busca Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 simultaneamente em dois sistemas de busca brasileiro (Achei e Radar Uol) e em dois sistemas de busca internacional (Looksmart e AOL Busca). Para que um site possa compor a sua lista de resultados é necessário que ele esteja indexado em um dos quatro sistemas apresentados, onde o MetaMiner faz a sua busca. Além do MetaMiner e Locate na Web encontra-se vários outros sistemas de meta-busca como: MetaCrawler (http://www.metacrawler.com) e WEBCrawer (http://www.webcrawler.com). O MetaCrawler foi desenvolvido em 1994 pela University of Washington, ele efetua busca das informação no Alta Vista, Excite, Infoseek, Lycos, Webcrawler e Yahoo. Existem alguns, como Copernic (http://www.copernic.com), que podem ser instalados, facilitanto a construção local de estratégias de busca. Alguns exemplos destas são o freeware Web Ferret (http://www.ferretsoft.com/netferret/), Mata Hari (http://www.thewebtools.com/) (Wives, 2002). 3.4 Sistemas Híbridos Atualmente a distinção entre mecanismos de busca e diretórios não é tão nítida, a maioria destes sistemas pode ser considerado como sistema híbridos. Pelo fato que, os resultados apresentados são originados tanto por diretórios como por mecanismos de busca. Por exemplo, o Yahoo apresenta em primeiro os resultados por ele indexado. Caso, uma consulta não encontre resultados em seu diretório, então serão mostrados os resultado desta obtidos no mecanismos de busca Google. Da mesma forma, se o Google não encontrar resultados em sua base de dados, ele apresenta os resultados obtidos através de um diretório que é o Open Directory (Silveira, 2001) Os sistemas híbridos são a grande tendência dos sistemas de busca. Acredita-se que num futuro próximo não haverá sistemas somente com uma modalidade de busca. 4 Comparativo Esta seção apresenta uma análise comparativa realizada a partir da contribuição dos autores Céndon (2001), Dominguez (2001), Stanley (1998). As principais características dos sistemas de busca descrita nas seções anteriores são apresentados na Tabela 1. Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 Sistemas Descobrimento das páginas Diretórios Realizada manualmente (por pessoas) Mecanismos Principalmente de forma de Busca automática mediante robots Metabusca Sistemas Híbridos Representação do conteúdo do documento Classificação manual Representação da consulta Implícita – mediante navegação pelas categorias. Indexação automática Explícita – mediante palavra-clave. Não possuem mecanismos Usam a base de dados de de descobrimento próprio. outros sistemas de busca, não indexam o conteúdo. De acordo com o sistema o Conforme o sistema a descobrimento da indexação pode ser informação pode ser manual automática ou manaul, ou automática. trabalham em parceria com outro sistema. Explícita – mediante palavra-clave. Ela pode ser implícita como explícita. Apresentação dos resultados Página de resultados previamente construída. Os resultados são mostrados de forma bastante precisa. Página criada de forma dinâmica para cada consulta. Pouca precisão Páginas criadas de forma dinâmica apresentam uma maior cobertura, mas os resultados são pouco precisos. Página criadas de forma dinâmica. Tabela 1 - Principais características dos sistemas de busca (Adaptado a partir de Dominguez, 2001) No meio da diversidade de opções de sistemas de busca a serem adotados pelos usuário fica a dúvida: “qual sistema utilizar?”. Para responder a esta pergunta será feita uma sistematização das vantagens e desvantagens de uso dos diferentes sistemas de busca, tendo como referência o estudo dos seguintes autores Céndon (2001), Dominguez (2001), Stanley (1998) pesquisadores da área de RI. Algumas das vantagens em utilizar os diretórios comparados aos demais sistemas de busca são: a) São mais fáceis de serem utilizados, principalmente para usuários leigos. Para efetuar a consulta, o usuário escolhe a categoria principal que se adequou à sua necessidade de informação e navega pelas subcategorias, até chegar à informação requerida. b) Permitem ter uma visão geral do volume e conteúdo do índice, muitos diretórios indicam em cada um dos seus nodos quantas referências e subcategorias há nela. c) As informações disponíveis passaram por um processo de seleção de qualidade e com isso os resultados de uma pesquisa são mais precisos. Como desvantagens em utilizar um diretório temos: a) Possuem uma pequena cobertura da Web, ou seja, poucas páginas indexadas na sua base de dados, a única exceção é o Yahoo; b) A seleção, a classificação e a descrição dos recursos na maioria dos casos são feitos por várias pessoas, o que conduz consequentemente a uma falta de critérios homogêneos. Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 c) Muitas informações indexadas nos Diretórios estão tornando-se rapidamente desatualizados, pois, não há nenhum mecanismo automático que faça as suas atualizações. Atualizar manualmente as informações indexadas, torna-se uma tarefa impossível. d) Demora na indexação de um novo documento; Já os mecanismos de busca apresentam as seguintes vantagens comparados com os demais: a) Permitem pesquisas amplas. b) Possuem informações atualizadas. c) Existem mecanismos especializados praticamente para todas as áreas de conhecimento Como desvantagem temos: a) Cada mecanismo tem a sua própria sintaxe para “expressar” a consulta, o que representa uma das grandes dificuldades para o usuário. b) Retornam resultados pouco precisos, sendo que, as informações indexadas não passaram por um processo de qualidade. As vantagens dos metabuscadores são: a) Realizam buscas em vários sistemas ao mesmo e acabam tendo uma cobertura bem maior da Web (nem todos os sistemas têm as mesmas páginas indexadas); b) Possibilitam ao usuário escolher em quais sistemas de busca o sistema deverá efetuar a consulta; c) Existe a necessidade de aprender a usar uma única interface para realizar a consulta; A desvantagem dos metabuscadores sobre os demais é a sua limitação em relação à interface que não permite utilizar os recursos específicos de cada sistemas de busca, ou seja, o usuário não pode refinar a consulta. Outra desvantagem encontrada é relativa aos resultados obtidos, obtém-se uma maior cobertura sem um aumento de qualidade. De todos os sistemas de busca os sistemas híbridos além de serem a tendência são os mais indicados, pois, possuem as facilidade de efetuar a consulta dos diretórios e a amplitude de resposta dos mecanismos de busca. 1 Conclusões O presente documento é produto de um estudo sobre funcionamento dos mecanismos de busca existentes. Saber como os sistemas de busca funcionam além de auxiliar na recuperação informações relevantes é conhecimento necessário também quando se projeta um site para que este fique visível aos sistemas de busca. Ao término deste estudo conclui-se que os sistemas de busca existentes na web, tem muito a evoluir para poder acompanhar a explosão de informação disponibilizada diariamente na rede. Além disso, os sistemas de recuperação de informação tem um grande desafio a vencer, que Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 consiste em prover um acesso eficiciente à informação. Prover acesso eficiente à informação é considerado um problema complexo e que não possui uma solução fácil. De outro lado, os usuários de ferramentas de recuperação na Web precisam acostumar-se a estudar as funcionalidades destas ferramentas, recorrendo a documentação que pode estar na forma de uma ajuda na própria ferramenta. Conhecimentos estes, que o auxiliarão na formulação da consulta de forma adequada e também na escolha do sistema adequado. 2 Referências AGUILLO, I. F. Documentación del curso Tratamiento documental de la World Wide Web: técnicas de indización y clasificación de recursos en Internet. Disponível em: cederul.unizar.es/noticias/sicoderxiii/po06.htm - 50k ALENCAR, M. S. Mecanismos de busca na Web: uma análise da metodologia de estudos comparados. Rio de Janeiro, 2001. Dissertação (Mestrado em Ciência da Informação) UFRJ/ECO-MCT/IBICT, Rio de Janeiro. BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval. ACM Press, Addison Wesley, 1999. BLATTMAN, U. et al. Recuperar a Informação Eletrônica pela Internet. 2000. Disponível em: http://www.ced.ufsc.br/~ursula/papaers/buscanet.html CENDÓN, B. V. Ferramentas de Busca na Web. Brasília, v. 30, n.1, p. 39 – 49, jan./abr. 20001. Disponível em: http://www.robotstxt.org/wc/threat-or-treat.html. CORNELLA, A. La Importancia De La "Relevancia" En Informacion. 1998. Disponível em: http://intranet.logiconline.org.ve/Techinfo/relevancia.html. DOMINGUEZ, Adelaida Delgado. Herramientas de búsqueda para la WWW. CIVE2001 Congresso Internacional Virtual de Educação. Abril, 2001. DZIEKANIAK. G. V. Análise dos Sistemas de Busca na Web. PPGEP/UFSM, Santa Maria: 2001. Disponível em: http://www.arquivologia.ufsm.br/daniel/artigos/artigos.html IIVONEN, M. Searches and Searches: differences Between the Most and Least Consistent Searches. SIGIR FORUM 95. P. 149-157. 1995. KOSTER, M. Robots in the Web: threat or treat? ConneXions, Volume 9, No. 4, April 1997. MACEDO, J. Recuperação de Informação Textual Distribuída por Fontes Autônomas com Sobreposição. Portugal, Julho 2001. (Tese de Doutorado) Universidade do Ninho. MOURA, G. Sistemas de busca na web: diretórios e mecanismos de busca. 2000. Disponível em: http://www.quatrocantos.com/tec_web/sist_busca/sb_sum.htm. SILVEIRA, M. Web Marketing: usando ferramentas de fusca. São Paulo: Novatec, 2002 STANLEY, Tracey. Meta-Searching on the web. 1998. Disponível em: http://www.ariadne.ac.uk/issue14/search-engines/ Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200 SULIVAN, D. Yahoo Renews With Google, Changes Results. Disponível em: http://www.searchenginewatch.com/searchday/02/sd1104-pptest.html VARELA, A. e BASTO, V. Information Retrieval Techniques - SEARCH ENGINES: AltaVista, Excite and Google. Disponível em: http://www.fe.up.pt/~mgi00001/ARI.htm WIVES, L. k. Tecnologia de Descobertas de Conhecimentos em Textos Aplicadas à Inteligência Competitiva. Porto Alegre, 2002. (Exame de Qualificação), Universidade Federal do Rio Grande do Sul. Anais do V Encontro de Estudantes de Informática do Tocantins. Palmas, TO. outubro, 2003. pp. 189-200