Programa de Mestrado Profissional em Gestão da Informação Web Search Comunicação, Gestão e Organização do Conhecimento no Ciberespaço Profa. Dra. Silvana Drumond Monteiro Discentes: Sergio Hiroshi Manabe e Zuleika Rodrigues Ramos Frari Web Search Desde os primórdios da Internet, houve a preocupação de se criarem ferramentas para localização de seus recursos informacionais Existem dois tipos básicos de ferramentas de busca na Web: Diretórios Web search ou motores de busca Diretórios por assunto Precederam aos programas de busca e foram criados quando ainda era possível coletar as informações manualmente As informações eram acrescentadas aos bancos de dados com breve descrição. Diretórios por assunto Inclusão se dava por solicitação do autor interessado em ter seu site divulgado, que poderia ou não ser aceita a sua inclusão O método utilizado era de pesquisa por editores que selecionavam as informações de interesse As informações são organizadas hierarquicamente em categoria temática e sub-categorias. Os mais populares diretórios são o Yahoo, Lycos, Cade?, Achei. Exemplo do Yahoo: Ciência » Animais, insetos e bichos de estimação » Vida aquática » Peixes » Espécies » Tubarões Web Search Não organizam hierarquicamente as páginas que colecionam. Não se preocupam com a seletividade, mas com a abrangência de suas bases de dados, procurando colecionar o maior número possível de recursos através do uso de softwares chamados robôs começaram a surgir quando o número de recursos na Web adquiriu proporções tais que impediam a sua coleta por meios manuais e a busca apenas através da navegação Os programas de busca são mais abrangentes que os catálogos uma vez que os robôs registram toda a informação encontrada. Fornecem, portanto, uma visão mais ampla do conteúdo disponível na Internet sobre um assunto Web Search Todos os motores atuais utilizam o método de robôs sendo formados por quatro componentes: 1. um robô, que localiza e busca documentos na Web 2. um indexador, que extrai a informação dos documentos e constrói a base de dados 3. o motor de busca propriamente dito 4. a interface, que é utilizada pelos usuários 1. Robôs são programas que o computador hospedeiro da ferramenta de busca lança regularmente na Internet, na tentativa de obter dados sobre o maior número possível de documentos para integrá-los, posteriormente, à sua base de dados. para se locomoverem de um documento a outro se utilizam dos links existentes nas páginas da Web. Iniciam a busca em sites conhecidos, recuperam a sua home page e, sistematicamente, seguem os links encontrados nesta página inicial. 1. Robôs Usam algoritmos próprios para determinar que links devem seguir: Abordagem breadth-first: recuperam os documentos da hierarquia superior de um grande número de servidores Abordagem depth-first: capturam todos os documentos em links de um mesmo servidor 2. Indexadores Os documentos encontrados pelos robôs são encaminhados aos indexadores que extraem a informação das páginas HTML e as armazenam em uma base de dados Esta base de dados do motor de busca consiste de informações julgadas importantes como os URLs ou endereços das páginas HTML, títulos, resumos, tamanho e as palavras contidas nos documentos 3. Motores de busca Os motores de busca podem usar vários robôs que trabalham em paralelo para construir sua base de dados Na coleta de páginas para suas bases de dados, a maioria dos motores de busca permite também que os usuários sugiram URLs, em vez de esperar que os documentos sejam encontrados através da varredura realizada regularmente pelos robôs. 4. Interface A interface, normalmente uma página Web, é utilizada pelos usuários para efetuar a pesquisa na base de dados Fornece meios para o usuário formular a sua consulta, que é recebida e transmitida para o software de busca ou motor de busca propriamente dito O programa localiza, entre os milhões de itens na base de dados, aqueles que devem constituir a resposta. Também ordena os resultados, apresentando descrições de sites e seus links Refinamentos Os programas de busca são mais abrangentes que os catálogos uma vez que os robôs registram toda a informação encontrada. Assim, por terem bancos de dados com milhões de páginas, a busca pode ser mais imprecisa, retornando um grande número de respostas insatisfatórias. Refinamentos são comandos que permitem limitar e controlar a ação das ferramentas de busca. Estratégias de busca Estratégias de busca Refinamentos (*) URL: cada página de um site tem um endereço único denominado Uniform Resource Locator (URL) que possibilita sua localização por computadores no mundo todo. Por exemplo, a URL http://www.uel.br identifica a página inicial do site da UEL Estratégias de busca Estratégias não recomendadas: Exploração de catálogos. Recuperar documentos tentando combinar o assunto pesquisado com a categoria mais geral de uma hierarquia de assuntos. A partir daí, o usuário escolhe subcategorias que possam levá-lo ao objetivo pretendido. A principal dificuldade consiste em determinar sob qual categoria o assunto está classificado Palavras-chave simples nos programas de busca: Pesquisar com palavras-chave simples é buscar uma ou mais palavras, separadas por espaços, nas ferramentas de busca. Tal procedimento gera excesso de documentos sendo que, grande parte deles não têm são relevantes Estratégias de busca Estratégias não recomendadas: Exploração de catálogos. Recuperar documentos tentando combinar o assunto pesquisado com a categoria mais geral de uma hierarquia de assuntos. A partir daí, o usuário escolhe subcategorias que possam levá-lo ao objetivo pretendido. A principal dificuldade consiste em determinar sob qual categoria o assunto está classificado Palavras-chave simples nos programas de busca: Pesquisar com palavras-chave simples é buscar uma ou mais palavras, separadas por espaços, nas ferramentas de busca. Tal procedimento gera excesso de documentos sendo que, grande parte deles não têm são relevantes O mundo é plano - Friedman Força n.9 In-Formação Google, Yahoo!, MSN Web Search São considerados uma força niveladora devido à ideia de que todo o conhecimento do mundo está ao alcance de todos a qualquer momento em qualquer lugar. O autor chama de IN-FORMAÇAO, porque o usuário tem a possibilidade de construir e estruturar sua cadeia de conhecimento pessoal, informação e entretenimento. Bibliografia FRIEDMAN, Thomas L. O mundo é plano: uma breve história do século XXI. Rio de Janeiro, Ed. Objetiva, 2005. 471p. BRANSKI, Regina M. Recuperação de informações na Web. Perspectivas em Ciência da Informação. Belo Horizonte – MG, v. 9, n. 1, jan./jun. 2004 CENDÓN, Beatriz Valadares. Ferramenta de busca na Web. Ciência da Informação. Brasília - DF, v. 30, n. 1, p. 39-49, jan./abr. 2001.