Programa de Mestrado Profissional em Gestão da Informação

Propaganda
Programa de Mestrado Profissional
em Gestão da Informação
Web Search
Comunicação, Gestão e Organização do Conhecimento no
Ciberespaço
Profa. Dra. Silvana Drumond Monteiro
Discentes: Sergio Hiroshi Manabe e Zuleika Rodrigues Ramos
Frari
Web Search
 Desde os primórdios da Internet, houve a preocupação
de se criarem ferramentas para localização de seus
recursos informacionais
 Existem dois tipos básicos de ferramentas de busca na
Web:
 Diretórios
 Web search ou motores de busca
Diretórios por assunto
 Precederam aos programas de busca e foram criados
quando ainda era possível coletar as informações
manualmente
 As informações eram acrescentadas aos bancos de
dados com breve descrição.
Diretórios por assunto
 Inclusão se dava por solicitação do autor interessado
em ter seu site divulgado, que poderia ou não ser
aceita a sua inclusão
 O método utilizado era de pesquisa por editores que
selecionavam as informações de interesse
 As informações são organizadas hierarquicamente em
categoria temática e sub-categorias. Os mais populares
diretórios são o Yahoo, Lycos, Cade?, Achei.
 Exemplo do Yahoo: Ciência » Animais, insetos e bichos de
estimação » Vida aquática » Peixes » Espécies » Tubarões
Web Search
 Não organizam hierarquicamente as páginas que colecionam. Não
se preocupam com a seletividade, mas com a abrangência de suas
bases de dados, procurando colecionar o maior número possível de
recursos através do uso de softwares chamados robôs
 começaram a surgir quando o número de recursos na Web adquiriu
proporções tais que impediam a sua coleta por meios manuais e a
busca apenas através da navegação
 Os programas de busca são mais abrangentes que os catálogos uma
vez que os robôs registram toda a informação encontrada.
Fornecem, portanto, uma visão mais ampla do conteúdo disponível
na Internet sobre um assunto
Web Search
 Todos os motores atuais utilizam o método de robôs
sendo formados por quatro componentes:
 1. um robô, que localiza e busca documentos
na Web
 2. um indexador, que extrai a informação dos
documentos e constrói a base de dados
 3. o motor de busca propriamente dito
 4. a interface, que é utilizada pelos usuários
1. Robôs
 são programas que o computador hospedeiro da
ferramenta de busca lança regularmente na Internet,
na tentativa de obter dados sobre o maior número
possível de documentos para integrá-los,
posteriormente, à sua base de dados.
 para se locomoverem de um documento a outro se
utilizam dos links existentes nas páginas da Web.
Iniciam a busca em sites conhecidos, recuperam a sua
home page e, sistematicamente, seguem os links
encontrados nesta página inicial.
1. Robôs
 Usam algoritmos próprios para determinar que links
devem seguir:
 Abordagem breadth-first: recuperam os
documentos da hierarquia superior de um
grande número de servidores
 Abordagem depth-first: capturam todos os
documentos em links de um mesmo servidor
2. Indexadores
 Os documentos encontrados pelos robôs são
encaminhados aos indexadores que extraem a
informação das páginas HTML e as armazenam em uma
base de dados
 Esta base de dados do motor de busca consiste de
informações julgadas importantes como os URLs ou
endereços das páginas HTML, títulos, resumos,
tamanho e as palavras contidas nos documentos
3. Motores de busca
 Os motores de busca podem usar vários robôs que trabalham
em paralelo para construir sua base de dados
 Na coleta de páginas para suas bases de dados, a maioria dos
motores de busca permite também que os usuários sugiram
URLs, em vez de esperar que os documentos sejam
encontrados através da varredura realizada regularmente pelos
robôs.
4. Interface
 A interface, normalmente uma página Web, é utilizada pelos
usuários para efetuar a pesquisa na base de dados
 Fornece meios para o usuário formular a sua consulta, que é
recebida e transmitida para o software de busca ou motor de
busca propriamente dito
 O programa localiza, entre os milhões de itens na base de
dados, aqueles que devem constituir a resposta. Também
ordena os resultados, apresentando descrições de sites e seus
links
Refinamentos
 Os programas de busca são mais abrangentes que os catálogos
uma vez que os robôs registram toda a informação encontrada.
Assim, por terem bancos de dados com milhões de páginas, a
busca pode ser mais imprecisa, retornando um grande número
de respostas insatisfatórias.
 Refinamentos são comandos que permitem limitar e controlar
a ação das ferramentas de busca.
Estratégias de busca
Estratégias de busca
Refinamentos
(*) URL: cada página de um site tem um endereço único denominado Uniform Resource Locator (URL)
que possibilita sua localização por computadores no mundo todo. Por exemplo, a URL
http://www.uel.br identifica a página inicial do site da UEL
Estratégias de busca
 Estratégias não recomendadas:
 Exploração de catálogos. Recuperar documentos tentando combinar
o assunto pesquisado com a categoria mais geral de uma hierarquia
de assuntos. A partir daí, o usuário escolhe subcategorias que
possam levá-lo ao objetivo pretendido. A principal dificuldade
consiste em determinar sob qual categoria o assunto está
classificado
 Palavras-chave simples nos programas de busca: Pesquisar com
palavras-chave simples é buscar uma ou mais palavras, separadas
por espaços, nas ferramentas de busca. Tal procedimento gera
excesso de documentos sendo que, grande parte deles não têm são
relevantes
Estratégias de busca
 Estratégias não recomendadas:
 Exploração de catálogos. Recuperar documentos tentando combinar
o assunto pesquisado com a categoria mais geral de uma hierarquia
de assuntos. A partir daí, o usuário escolhe subcategorias que
possam levá-lo ao objetivo pretendido. A principal dificuldade
consiste em determinar sob qual categoria o assunto está
classificado
 Palavras-chave simples nos programas de busca: Pesquisar com
palavras-chave simples é buscar uma ou mais palavras, separadas
por espaços, nas ferramentas de busca. Tal procedimento gera
excesso de documentos sendo que, grande parte deles não têm são
relevantes
O mundo é plano - Friedman
 Força n.9 In-Formação
 Google, Yahoo!, MSN Web Search
 São considerados uma força niveladora devido à ideia
de que todo o conhecimento do mundo está ao alcance
de todos a qualquer momento em qualquer lugar.
 O autor chama de IN-FORMAÇAO, porque o usuário tem
a possibilidade de construir e estruturar sua cadeia de
conhecimento pessoal, informação e entretenimento.
Bibliografia
FRIEDMAN, Thomas L. O mundo é plano: uma breve
história do século XXI. Rio de Janeiro, Ed. Objetiva, 2005.
471p.
BRANSKI, Regina M. Recuperação de informações na Web.
Perspectivas em Ciência da Informação. Belo Horizonte –
MG, v. 9, n. 1, jan./jun. 2004
CENDÓN, Beatriz Valadares. Ferramenta de busca na
Web. Ciência da Informação. Brasília - DF, v. 30, n. 1, p.
39-49, jan./abr. 2001.
Download