Busca de informação na Internet 18 de novembro de 2008 1 Internet ▪ Internet ▪ A Internet é considerada uma grande rede, ligando milhões de computadores de médio e grande porte (hosts) além de microcomputadores, através de linhas telefônicas comuns, linhas de comunicação privadas, cabos de fibra ótica, cabos submarinos, satélites e outros meios de comunicação. ▪ Os computadores que compõem a Internet podem estar localizados, por exemplo, em universidades, empresas, cooperativas, prefeituras, e nas próprias residências. ▪ Para o usuário, corresponde a um grupo de serviços disponíveis para troca de informações (Correio eletrônico, Ftp, Telnet, Chat, NewsGroup, WWW, Gopher, etc). 2 WWW e HTTP ▪ WWW (World Wide Web): é um dos serviços da Internet que corresponde a parte multimídia da mesma e que possibilita a exibição de páginas de hipertexto (documentos com textos, imagens, som, vídeo, programas, etc). É formada por milhões de páginas ou “locais” chamados sites. ▪ Http: é o protocolo que determina como acontece a comunicação no ambiente www, entre o computador que executa o navegador e o servidor que guarda a página. 3 Website ▪ Website ▪ Conjunto de páginas (webpages) agrupadas por um mesmo assunto, propósito ou objetivo, podendo ser de uma empresa ou indivíduo. ▪ Formado por páginas dinâmicas e/ou estáticas que podem ou não estar localizadas dentro de um mesmo servidor. ▪ Possue uma URL que possibilita sua localização. http://www.mct.gov.br = 200.130.9.36 1. HyperText Transfer Protocol: protocolo para transferência de páginas. 2. Indica que é uma página Web (visualizar imagens, textos, ouvir sons, etc). 3. Identificação da organização ou empresa. 4. Tipo de organização (.com - organização comercial, .edu - organização educacional, .org - organização sem fins-lucrativos, .gov - governo). 5. Identificação do país (.br, .fr, .us, etc). 4 Ferramentas de busca na Web ▪ Ferramentas de busca (search engines) ▪ Existem desde os primórdios da Internet e sua crição foi motivada pela necessidade de localização dos seus recursos informacionais. ▪ Archie – busca arquivos em repositórios de ftp (muito antiga). Veronica e Jughead – busca conteúdo nos Gophers. ▪ Ferramentas de busca na Web ▪ São Websites especializados em buscar e listar páginas da Internet a partir de informações (palavra-chave ou assunto) fornecidas pelo utilizador. ▪ Surgimento motivado pelo aparecimento da WWW. 5 Ferramentas de busca na Web ▪ São centenas de ferramentas e mais de 1 bilhão de páginas Html. ▪ Tipos ▪ Diretórios (catálogos por assunto) ▪ Motores de busca (índices) ▪ Metamotores (multibuscadores) ▪ A principal diferença é a forma como seus bancos de dados são compilados. ▪ Possuem características específicas que determinam o tipo, número e qualidade dos recursos recuperados, que podem variar enormemente. ▪ O entendimento das características de cada ferramenta aumenta a eficiência na procura dos recursos informacionais. 6 Ferramentas de busca na Web ▪ Diretórios ▪ Primeira solução para organizar e localizar os recursos da Web. ▪ Criado quando o conteúdo da Web era pequeno e permitia que fosse coletado de forma não automática. ▪ Os sites são organizados e classificados com a ajuda de editores em categorias e subcategorias (base de dados). ▪ Árvores hierárquicas de assunto com tópicos de interesse amplo (educação, esporte, entretenimento, viagens, compras, etc) para atender um público variado. 7 Ferramentas de busca na Web ▪ Diretórios ▪ Localização da informação: navegação nas categorias através do mouse e/ou busca via formulário e palavras-chave. ▪ Editores tomam conhecimento de novos sites através de sugestões de usuários, pesquisas na Internet (listas de anúncios de novas páginas) ou robôs. ▪ Sites coletados passam pela seleção de editores, o que pode indicar qualidade dos dados. ▪ Apenas os melhores recursos informacionais são escolhidos para inclusão. ▪ Necessidade de um grande número de editores (15.000 no caso do Open Directory da Netscape). 8 Ferramentas de busca na Web ▪ Diretórios ▪ Grandes diretórios podem conter dezenas de milhares de categorias e subcategorias. ▪ Alguns exemplos: ▪ 1º diretório da Web (nov. 1992): The World Wide Web Virtual Library (http://www.vlib.org) ▪ Open Directory (http://dmoz.org) ▪ Aonde? (http://www.aonde.com) ▪ Achei (http://www.achei.com.br) 9 Ferramentas de busca na Web ▪ Principais diferenças entre os diretórios ▪ Referentes aos princípios de organização: ▪ A maioria usa listas hierárquicas de assunto, mas alguns usam esquemas tradicionais de classificação como a classificação Dewey (BUBL Link - http://bubl.ac.uk/link). ▪ Estes geralmente são mantidos por profissionais da informação ou bibliotecários, visando otimizar o acesso aos recursos da Web. 10 Ferramentas de busca na Web ▪ Principais diferenças entre os diretórios ▪ Referentes à descrição dos sites: ▪ Empresas comerciais incluem títulos e resumos de até 30 caracteres. ▪ Alguns se diferenciam por fornecer descrições criteriosas e detalhadas dos sites, podendo até incluir críticas e avaliações (diretórios avaliativos ou acadêmicos). ▪ Diretórios avaliativos ou acadêmicos: - Utilizam estudantes de mestrado em biblioteconomia ou ciência da informação e especialistas em assuntos específicos. - Associados a bibliotecas ou instituições de ensino. - Seleção mais rigorosa de sites e não inclui propaganda. Ex: Infomine (http://infomine.ucr.edu) 11 Ferramentas de busca na Web ▪ Principais diferenças entre os diretórios ▪ Referentes aos assuntos cobertos: ▪ Alguns diretórios são genéricos e cobrem todos os assuntos, mas outros cobrem áreas específicas (diretórios temáticos ou especializados). ▪ Diretórios temáticos: 1) Imagens, jornais, software, listas de discussão, etc. 2) Assuntos específicos como saúde, ciências, legislação, informática (Criarweb - http://www.criarweb.com/diretorio), etc. 3) Ferramentas de busca: Finderseeker (www.finderseeker.com). 12 Ferramentas de busca na Web ▪ Atividade: navegar nos websites abaixo ▪ Diretórios que utilizam listas hierárquicas de assunto: ▪ The World Wide Web Virtual Library (http://www.vlib.org) ▪ Open Directory (http://dmoz.org) ▪ Aonde? (http://www.aonde.com) ▪ Achei (http://www.achei.com.br) ▪ Diretórios que utilizam a classificação Dewey: ▪ BUBL Link (http://bubl.ac.uk/link) ▪ Diretórios avaliativos ou acadêmicos: ▪ Infomine (http://infomine.ucr.edu) ▪ Diretórios temáticos: ▪ Informática - Criarweb (http://www.criarweb.com/diretorio) ▪ Ferramentas de busca - Finderseeker (http://www.finderseeker.com) 13 Ferramentas de busca na Web ▪ Motores de busca ▪ Surgiram quando o número de recursos na Web adquiriu proporções que impediam a sua coleta manual e também a busca através de navegação. ▪ São formados por 4 componentes: um robô, que localiza e busca documentos na Web; um indexador, que extrai a informação dos documentos e constrói a base; o motor de busca propriamente dito; a interface, que é utilizada pelos usuários. ▪ Os robôs (spiders ou aranhas) vasculham a Internet em intervalos regulares (1 ou 2 meses) visitando sites, lendo seu conteúdo e seguindo seus links para outras páginas. ▪ Os documentos encontrados pelos robôs são encaminhados aos indexadores, que extraem a informação das páginas html e as armazenam em uma base de dados. 14 Ferramentas de busca na Web ▪ Motores de busca ▪ Localização da informação: ▪ Uma página Web é usada para efetuar a pesquisa na base de dados. ▪ O usuário formula a consulta através de combinações de palavraschave, que é transmitida ao motor de busca propriamente dito. ▪ O programa (mb) localiza na base de dados os itens que devem constituir a resposta. ▪ O programa (mb) ordena os resultados colocando os mais relevantes em primeiro lugar na lista de resultados (descrição dos sites e links). ▪ Foco na abrangência das bases de dados, que podem alcançar centenas de milhões de ítens, e não na seletividade. ▪ O usuário pode sugerir sua URL ao invéz de esperar que o site seja encontrado pela varredura do robô (ou robôs trabalhando em paralelo). 15 MB Motor de busca genérico 16 Ferramentas de busca na Web ▪ Motores de busca ▪ Motores de busca especializados em: Linguagem natural (AnswerBus - http://www.answerbus.com) Assunto / temáticos (Medical WorldSearch - http://www.mwsearch.com) ▪ Alguns exemplos: ▪ ▪ ▪ ▪ Google (http://www.google.com.br) Hotbot (http://www.hotbot.com) Altavista (http://br.altavista.com) Ig (http://busca.igbusca.com.br/app) 17 Ferramentas de busca na Web ▪ Principais diferenças entre os motores de busca ▪ Referentes ao tamanho da base de dados: ▪ É medido em número de páginas da Web e importante para que a ferramenta seja considerada boa. As melhores contém 60% da Web. Fonte: Sullivan, Danny. Search Engine Size Wars V Erupts. [online] Disponível na Internet via www. URL: http://blog.searchenginewatch.com/blog/041111-084221. Arquivo capturado em 29 outubro 2007. ▪ As bases de dados de cada motor não são iguais e para a mesma busca, cada ferramenta trará bons resultados que outras não acharam. Logo, para uma busca completa, há a necessidade de se usar mais de uma ferramenta. 18 Ferramentas de busca na Web ▪ Principais diferenças entre os motores de busca ▪ Referentes aos critérios de indexação (inclusão da palavra no índice): ▪ O índice contém todos os termos que podem ser usados na busca de informações e a URL das páginas que os contém, dados sobre a posição das palavras na página e tags HTML. ▪ Existem vários critérios de indexação: - Inclusão de cada palavra do texto visível das páginas; - Inclusão das palavras que ocorrem com freqüência; - Inclusão de palavras e frases importantes contidas no título ou nos cabeçalhos e nas primeiras linhas; - Inclusão de termos que não fazem parte do texto visível: metatags de classificação, de descrição, de palavras-chave e texto ALT do tag Image. ▪ Um termo só será encontrado se estiver contido no índice. Logo, os critérios usados para encontrar os sites e indexá-los influenciam o resultado das buscas. 19 Ferramentas de busca na Web ▪ Principais diferenças entre os motores de busca ▪ Referentes aos critérios para inclusão de páginas: ▪ Determinam o número de itens nas bases de dados dos motores. ▪ Principais critérios: - Inclusão na base de todas ou a maioria das páginas de cada site; - Inclusão apenas da home page e algumas páginas principais; - Inclusão de mensagens de grupos de discussão, sites de ftp, gophers ▪ Páginas que NÃO são incluídas nos motores de busca: - Sites que requerem senha de entrada; - Páginas atrás de um Firewall; - Páginas com o Metatag Meta Robot “noindex”; - Páginas isoladas (não referenciadas por outras páginas); ▪ Web invisível (páginas com frames, com image-maps e dinâmicas). Ferramenta: Direct Search (http://www.freepint.com/gary/direct.htm) 20 Ferramentas de busca na Web ▪ Principais diferenças entre os motores de busca ▪ Referentes à freqüência de atualização da base de dados: ▪ As bases de dados precisam ser atualizadas periodicamente para adicionar novas páginas, deletá-las ou incluir modificações das existentes. ▪ Cada motor tem sua própria estratégia e tecnologia. ▪ Principais estratégias: - Atualização completa da base pelo menos uma vez por mês; - Atualização semanal para páginas mais populares entre usuários e que mudam com freqüência; - Atualização diária de novas URLs e links mortos; ▪ Cada motor leva um tempo para adicionar na base uma página nova coletada pelo robô ou submetida pelo usuário. (meses) (pago 48h) 21 Ferramentas de busca na Web ▪ Principais diferenças entre os motores de busca ▪ Referentes as interfaces e recursos de busca: ▪ Dois modos de busca: - Simples (leigos - auxiliada por janelas e com conectivos booleanos inseridos automaticamente entre os termos); - Avançada (experientes - expressões booleanas complexas); ▪ Atenção: espaço será AND (Google e Yahoo) – cuidado com OR ! ▪ Outros recursos oferecidos: busca por frase, proximidade de palavras, sensibilidade à caixa de caracteres, domínio, tipo de arquivos, idioma. ▪ Como não existe padronização, recomenda-se: - Leitura das páginas de ajuda da ferramenta; - Consulta de tabelas comparativas em revistas especializadas ou na Internet. Site da biblioteca da University of California Berkeley 22 Ferramentas de busca na Web ▪ Principais diferenças entre os motores de busca ▪ Referentes aos critérios de ordenação dos resultados: ▪ Tem a finalidade de permitir que os melhores sites (mais relevantes) apareçam em primeiro lugar nos resultados mostrados. ▪ Para um mesmo número de resultados, a melhor ferramenta é aquela que traz itens mais relevantes entre os primeiros resultados. ▪ Os motores utilizam algorimos de ordenação de resultados com critérios tais como: - A localização e freqüência de ocorrência das palavras na página; - Freqüência de ocorrência das palavras e a proximidade delas; - Densidade com que um termo é usado em cada documento; - Páginas muito referenciadas em outros sites ou sites importantes; - Motores híbridos atribuem maior relevância aos sites de seu diretório ▪ Os algoritmos de ordenação por relevância são um dos maiores fatores diferenciais de competição entre os motores e não são revelados. 23 Ferramentas de busca na Web ▪ Atividade: navegar nos websites abaixo ▪ Motores de busca genéricos: ▪ Google (http://www.google.com.br) ▪ Yahoo (http://www.yahoo.com.br) ▪ Hotbot (http://www.hotbot.com) ▪ Altavista (http://br.altavista.com) ▪ Ig (http://busca.igbusca.com.br/app) ▪ Motores de busca especializados em: ▪ Linguagem natural - AnswerBus (http://www.answerbus.com) ▪ Assunto / temáticos - Medical WorldSearch (http://www.mwsearch.com) ▪ Catálogo de páginas da Web invisível: ▪ Direct Search (http://www.freepint.com/gary/direct.htm) 24 Ferramentas de busca na Web ▪ Diretórios ou motores de busca ? ▪ Existem diferenças importantes entre diretórios e motores de busca, o que gera vantagens e desvantagens associadas ao uso de cada um deles. ▪ Os diretórios tem bases de dados menores, mas com informação mais relevante. Exemplo: ▪ A procura por “search engines” no diretório do Yahoo, navegando por categoria, só encontra sites relevantes: dir.yahoo.com / Computers and Internet / Internet / World Wide Web / Searching the Web / Search Engines and Directories. ▪ O mesmo não acontece se procurarmos no motor de busca, que irá retornar milhões de resultados (muitos não relevantes). 25 Ferramentas de busca na Web ▪ Diretórios ou motores de busca ? ▪ Diretórios são mais apropriados para buscas por tópicos que sejam de interesse para um grande número de pessoas, pois provavelmente fazem parte da árvore hierárquica. ▪ Ou para tópicos muito amplos que retornariam um número elevado de respostas em um motor de busca. ▪ Motores de busca permitem a localização de qualquer tipo de informação, mesmo que específica, desde que exista na Internet e esteja indexada. ▪ Motores possuem bases de dados muito grandes (bilhões de páginas) e, por isso, pode-se recuperar muitos resultados não relacionados com os tópicos pesquisados (menor precisão). 26 Ferramentas de busca na Web ▪ Diretórios ou motores de busca ? ▪ Apesar dos motores possuírem grandes bases de dados, seus robôs podem não indexar alguns tipos de páginas que poderiam ser incluídas nos diretórios (Web invisível). ▪ As descrições dos sites obtidas nos diretórios é de melhor qualidade, já que são feitas manualmente. ▪ As descrições dos motores podem não conter informações adequadas, já que são elaboradas automaticamente pelos robôs. Robôs não conseguem identificar o tema central de um documento, detectar elementos importantes como gráficos ou imagens, extrair dados como autor, afiliação institucional ou data de publicação. 27 Ferramentas de busca na Web ▪ Diretórios ou motores de busca ? ▪ A pesquisa feita pelo diretório irá consultar apenas título, categoria e uma breve descriçao. A maioria dos motores proporciona pesquisa no texto integral dos documentos. Lembrar do page depth ▪ Atualmente a distinção entre diretórios e motores de busca não é tão nítida e a marioria das ferramentas pode ser considerada híbrida. ▪ Diretórios permitem buscas por palavras-chave em suas categorias, devido a dificuldade de navegação (grande número de sites); ▪ Motores tem incluído diretórios em suas páginas (Google e Yahoo). ▪ Diretórios tem feito parcerias com motores para “redirecionar” para eles, de forma automática e transparente, a pesquisa que não encontrou resultado. 28 Ferramentas de busca na Web ▪ Metamotores (multibuscadores) ▪ Seu surgimento foi motivado pelo fato de que melhores resultados em uma pesquisa são obtidos com o uso de várias ferramentas diferentes. ▪ Permitem a execução da busca em mais de uma ferramenta (diretórios ou motores) e exibem os resultados encontrados em uma só lista. ▪ Não possuem bases de dados e fornecem um “snapshot” dos resultados mais relevantes de várias ferramentas. ▪ Fazem um pré-processamento da consulta do usuário para prepará-la para submissão a cada ferramenta. 29 Metamotor genérico Ferramentas de busca na Web Motor de busca Convencional Metamotor 30 Ferramentas de busca na Web ▪ Metamotores (multibuscadores) ▪ Alguns exemplos: Mamma (http://www.mamma.com) Dogpile (http://www.dogpile.com) ▪ Existe também o software instalado no micro, que facilita a construção da estratégia de busca e contém ferramantas de apoio (eliminação de links duplicados, armazenamento da busca, etc). Ex: Copernic (http://www.copernic.com). ▪ Existem também os pseudometamotores, que são interfaces para varias ferramentas, mas sem um mecanismo de busca integrada. As buscas são submetidas separadamente para cada ferramenta. 31 Ferramentas de busca na Web ▪ Metamotores (multibuscadores) ▪ Algumas desvantagens: ▪ Os recursos de busca específicos de cada motor, usados para obter maior refinamento nas pesquisas, tornam-se inacessíveis. ▪ As buscas levam mais tempo porque é necessário processamento adicional para compilar os resultados obtidos e também porque o tempo de resposta final será o da ferramenta mais lenta. ▪ Quando usar: ▪ Quando não encontrar muitos resultados pesquisando em um só motor. ▪ Para determinar qual ferramenta traz as melhores respostas para uma determinada consulta. ▪ Em buscas simples. 32 Ferramentas de busca na Web ▪ 750 milhões de pessoas com mais de 15 anos fizeram cerca de 61 bilhões de buscas na Internet em agosto de 2007. ▪ Cada pessoa, em média, realizou 80,9 buscas no mês. ▪ A taxa mais alta ocorreu na América Latina - 95,7 buscas. Fonte: Burns, Enid. Worldwide Internet: Now Serving 61 Billion Searches per Month. [online] Disponível na Internet via www. URL: http://searchenginewatch.com/showPage.html?page=3627304. Arquivo capturado em 29 outubro 2007. 33 Ferramentas de busca na Web ▪ 61 bilhões de buscas foram feitas na Internet em agosto de 2007. Fonte: Burns, Enid. Worldwide Internet: Now Serving 61 Billion Searches per Month. [online] Disponível na Internet via www. URL: http://searchenginewatch.com/showPage.html?page=3627304. Arquivo capturado em 29 outubro 2007. 34 Ferramentas de busca na Web ▪ Mais informações ▪ Ler a documentação da ferramenta que está disponível no próprio site e se manter atualizado, já que ela está em constante evolução. ▪ Obter informações também em sites que publicam artigos sobre as ferramentas e tabelas comparativas de características, como os abaixo: - Search Engine Watch (www.searchenginewatch.com). - Search Engine Showdown (www.searchengineshowdown.com). - About.com Web Search Guide (Websearch.about.com). - Alguns artigos da revista Online (www.onlineinc.com). - Site da Biblioteca da University of California Berkeley (http://www.lib.berkeley.edu). - Ferramentas de busca da Internet (www.eb.ufmg.br/cendon/links/ motores.htm). 35 Dicas sobre o Google ▪ Mecanismo de pesquisa personalizado Google ▪ Permite que você crie um mecanismo de busca para seu Website, Blog ou uma coleção de Websites. ▪ Alguns recursos interessantes: ▪ É possível pesquisar apenas o conteúdo de um Website ou um determinado tema (assunto). ▪ Podemos personalizar o box de pesquisa e a página de resultados, ajustar o ranking e convidar amigos para participar da construção do mecanismo. ▪ Pesquisa contextualizada - um ciclista pesquisando por “roda” em um mecanismo personalizado obterá somente resultados relevantes. 36 37 38 39 40 41 www.ensp.fiocruz.br/portal-ensp 42 www.ensp.fiocruz.br/portal-ensp 43 44 45 46 47 Referências ▪ REED, David. A Balanced Introduction to Computer Science. New Jersey: Prentice Hall, 2005. ▪ CENDON, Beatriz Valadares. Ferramentas de busca na Web. Ci. Inf. , Brasília, v. 30, n. 1, 2001 . Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019652001000100006&lng=pt&nrm=iso>. Acesso em: 01 Nov 2007. 48