Busca de informação na Internet - Biblioteca Virtual em Saúde

Propaganda
Busca de informação
na Internet
18 de novembro de 2008
1
Internet
▪ Internet
▪ A Internet é considerada uma grande rede, ligando milhões de
computadores de médio e grande porte (hosts) além de
microcomputadores, através de linhas telefônicas comuns, linhas
de comunicação privadas, cabos de fibra ótica, cabos submarinos,
satélites e outros meios de comunicação.
▪ Os computadores que compõem a Internet podem estar localizados,
por exemplo, em universidades, empresas, cooperativas, prefeituras,
e nas próprias residências.
▪ Para o usuário, corresponde a um grupo de serviços disponíveis para
troca de informações (Correio eletrônico, Ftp, Telnet, Chat, NewsGroup,
WWW, Gopher, etc).
2
WWW e HTTP
▪ WWW (World Wide Web): é um dos serviços da Internet que corresponde
a parte multimídia da mesma e que possibilita a exibição de páginas de
hipertexto (documentos com textos, imagens, som, vídeo, programas, etc).
É formada por milhões de páginas ou “locais” chamados sites.
▪ Http: é o protocolo que determina como acontece a comunicação no
ambiente www, entre o computador que executa o navegador e o
servidor que guarda a página.
3
Website
▪ Website
▪ Conjunto de páginas (webpages) agrupadas por um mesmo assunto,
propósito ou objetivo, podendo ser de uma empresa ou indivíduo.
▪ Formado por páginas dinâmicas e/ou estáticas que podem ou não
estar localizadas dentro de um mesmo servidor.
▪ Possue uma URL que possibilita sua localização.
http://www.mct.gov.br = 200.130.9.36
1. HyperText Transfer Protocol: protocolo para transferência de páginas.
2. Indica que é uma página Web (visualizar imagens, textos, ouvir sons, etc).
3. Identificação da organização ou empresa.
4. Tipo de organização (.com - organização comercial, .edu - organização
educacional, .org - organização sem fins-lucrativos, .gov - governo).
5. Identificação do país (.br, .fr, .us, etc).
4
Ferramentas de busca na Web
▪ Ferramentas de busca (search engines)
▪ Existem desde os primórdios da Internet e sua crição foi motivada
pela necessidade de localização dos seus recursos informacionais.
▪ Archie – busca arquivos em repositórios de ftp (muito antiga).
Veronica e Jughead – busca conteúdo nos Gophers.
▪ Ferramentas de busca na Web
▪ São Websites especializados em buscar e listar páginas da Internet a
partir de informações (palavra-chave ou assunto) fornecidas pelo
utilizador.
▪ Surgimento motivado pelo aparecimento da WWW.
5
Ferramentas de busca na Web
▪ São centenas de ferramentas e mais de 1 bilhão de páginas Html.
▪ Tipos
▪ Diretórios (catálogos por assunto)
▪ Motores de busca (índices)
▪ Metamotores (multibuscadores)
▪ A principal diferença é a forma como seus bancos de dados são
compilados.
▪ Possuem características específicas que determinam o tipo,
número e qualidade dos recursos recuperados, que podem variar
enormemente.
▪ O entendimento das características de cada ferramenta aumenta
a eficiência na procura dos recursos informacionais.
6
Ferramentas de busca na Web
▪ Diretórios
▪ Primeira solução para organizar e localizar os recursos da Web.
▪ Criado quando o conteúdo da Web era pequeno e permitia que fosse
coletado de forma não automática.
▪ Os sites são organizados e classificados com a ajuda de editores em
categorias e subcategorias (base de dados).
▪ Árvores hierárquicas de assunto com tópicos de interesse amplo
(educação, esporte, entretenimento, viagens, compras, etc) para
atender um público variado.
7
Ferramentas de busca na Web
▪ Diretórios
▪ Localização da informação: navegação nas categorias através do mouse
e/ou busca via formulário e palavras-chave.
▪ Editores tomam conhecimento de novos sites através de sugestões de
usuários, pesquisas na Internet (listas de anúncios de novas páginas) ou
robôs.
▪ Sites coletados passam pela seleção de editores, o que pode indicar
qualidade dos dados.
▪ Apenas os melhores recursos informacionais são escolhidos para
inclusão.
▪ Necessidade de um grande número de editores (15.000 no caso do Open
Directory da Netscape).
8
Ferramentas de busca na Web
▪ Diretórios
▪ Grandes diretórios podem conter dezenas de milhares de
categorias e subcategorias.
▪ Alguns exemplos:
▪ 1º diretório da Web (nov. 1992):
The World Wide Web Virtual Library (http://www.vlib.org)
▪ Open Directory (http://dmoz.org)
▪ Aonde? (http://www.aonde.com)
▪ Achei (http://www.achei.com.br)
9
Ferramentas de busca na Web
▪ Principais diferenças entre os diretórios
▪ Referentes aos princípios de organização:
▪ A maioria usa listas hierárquicas de assunto, mas alguns usam
esquemas tradicionais de classificação como a classificação
Dewey (BUBL Link - http://bubl.ac.uk/link).
▪ Estes geralmente são mantidos por profissionais da informação
ou bibliotecários, visando otimizar o acesso aos recursos da
Web.
10
Ferramentas de busca na Web
▪ Principais diferenças entre os diretórios
▪ Referentes à descrição dos sites:
▪ Empresas comerciais incluem títulos e resumos de até 30 caracteres.
▪ Alguns se diferenciam por fornecer descrições criteriosas e detalhadas
dos sites, podendo até incluir críticas e avaliações (diretórios avaliativos
ou acadêmicos).
▪ Diretórios avaliativos ou acadêmicos:
- Utilizam estudantes de mestrado em biblioteconomia ou ciência da
informação e especialistas em assuntos específicos.
- Associados a bibliotecas ou instituições de ensino.
- Seleção mais rigorosa de sites e não inclui propaganda.
Ex: Infomine (http://infomine.ucr.edu)
11
Ferramentas de busca na Web
▪ Principais diferenças entre os diretórios
▪ Referentes aos assuntos cobertos:
▪ Alguns diretórios são genéricos e cobrem todos os assuntos,
mas outros cobrem áreas específicas (diretórios temáticos ou
especializados).
▪ Diretórios temáticos:
1) Imagens, jornais, software, listas de discussão, etc.
2) Assuntos específicos como saúde, ciências, legislação,
informática (Criarweb - http://www.criarweb.com/diretorio), etc.
3) Ferramentas de busca: Finderseeker (www.finderseeker.com).
12
Ferramentas de busca na Web
▪ Atividade: navegar nos websites abaixo
▪ Diretórios que utilizam listas hierárquicas de assunto:
▪ The World Wide Web Virtual Library (http://www.vlib.org)
▪ Open Directory (http://dmoz.org)
▪ Aonde? (http://www.aonde.com)
▪ Achei (http://www.achei.com.br)
▪ Diretórios que utilizam a classificação Dewey:
▪ BUBL Link (http://bubl.ac.uk/link)
▪ Diretórios avaliativos ou acadêmicos:
▪ Infomine (http://infomine.ucr.edu)
▪ Diretórios temáticos:
▪ Informática - Criarweb (http://www.criarweb.com/diretorio)
▪ Ferramentas de busca - Finderseeker (http://www.finderseeker.com)
13
Ferramentas de busca na Web
▪ Motores de busca
▪ Surgiram quando o número de recursos na Web adquiriu proporções que
impediam a sua coleta manual e também a busca através de navegação.
▪ São formados por 4 componentes: um robô, que localiza e busca
documentos na Web; um indexador, que extrai a informação dos
documentos e constrói a base; o motor de busca propriamente dito;
a interface, que é utilizada pelos usuários.
▪ Os robôs (spiders ou aranhas) vasculham a Internet em intervalos
regulares (1 ou 2 meses) visitando sites, lendo seu conteúdo e seguindo
seus links para outras páginas.
▪ Os documentos encontrados pelos robôs são encaminhados aos
indexadores, que extraem a informação das páginas html e as
armazenam em uma base de dados.
14
Ferramentas de busca na Web
▪ Motores de busca
▪ Localização da informação:
▪ Uma página Web é usada para efetuar a pesquisa na base de dados.
▪ O usuário formula a consulta através de combinações de palavraschave, que é transmitida ao motor de busca propriamente dito.
▪ O programa (mb) localiza na base de dados os itens que devem
constituir a resposta.
▪ O programa (mb) ordena os resultados colocando os mais relevantes
em primeiro lugar na lista de resultados (descrição dos sites e links).
▪ Foco na abrangência das bases de dados, que podem alcançar centenas
de milhões de ítens, e não na seletividade.
▪ O usuário pode sugerir sua URL ao invéz de esperar que o site seja
encontrado pela varredura do robô (ou robôs trabalhando em paralelo).
15
MB
Motor de busca genérico
16
Ferramentas de busca na Web
▪ Motores de busca
▪ Motores de busca especializados em:
Linguagem natural (AnswerBus - http://www.answerbus.com)
Assunto / temáticos (Medical WorldSearch - http://www.mwsearch.com)
▪ Alguns exemplos:
▪
▪
▪
▪
Google (http://www.google.com.br)
Hotbot (http://www.hotbot.com)
Altavista (http://br.altavista.com)
Ig (http://busca.igbusca.com.br/app)
17
Ferramentas de busca na Web
▪ Principais diferenças entre os motores de busca
▪ Referentes ao tamanho da base de dados:
▪ É medido em número de páginas da Web e importante para que a
ferramenta seja considerada boa. As melhores contém 60% da Web.
Fonte: Sullivan, Danny. Search Engine Size Wars V Erupts. [online] Disponível na Internet via www. URL:
http://blog.searchenginewatch.com/blog/041111-084221. Arquivo capturado em 29 outubro 2007.
▪ As bases de dados de cada motor não são iguais e para a mesma
busca, cada ferramenta trará bons resultados que outras não acharam.
Logo, para uma busca completa, há a necessidade de se usar mais de
uma ferramenta.
18
Ferramentas de busca na Web
▪ Principais diferenças entre os motores de busca
▪ Referentes aos critérios de indexação (inclusão da palavra no índice):
▪ O índice contém todos os termos que podem ser usados na busca de
informações e a URL das páginas que os contém, dados sobre a
posição das palavras na página e tags HTML.
▪ Existem vários critérios de indexação:
- Inclusão de cada palavra do texto visível das páginas;
- Inclusão das palavras que ocorrem com freqüência;
- Inclusão de palavras e frases importantes contidas no título ou nos
cabeçalhos e nas primeiras linhas;
- Inclusão de termos que não fazem parte do texto visível:
metatags de classificação, de descrição, de palavras-chave e
texto ALT do tag Image.
▪ Um termo só será encontrado se estiver contido no índice. Logo,
os critérios usados para encontrar os sites e indexá-los influenciam o
resultado das buscas.
19
Ferramentas de busca na Web
▪ Principais diferenças entre os motores de busca
▪ Referentes aos critérios para inclusão de páginas:
▪ Determinam o número de itens nas bases de dados dos motores.
▪ Principais critérios:
- Inclusão na base de todas ou a maioria das páginas de cada site;
- Inclusão apenas da home page e algumas páginas principais;
- Inclusão de mensagens de grupos de discussão, sites de ftp, gophers
▪ Páginas que NÃO são incluídas nos motores de busca:
- Sites que requerem senha de entrada;
- Páginas atrás de um Firewall;
- Páginas com o Metatag Meta Robot “noindex”;
- Páginas isoladas (não referenciadas por outras páginas);
▪ Web invisível (páginas com frames, com image-maps e dinâmicas).
Ferramenta: Direct Search (http://www.freepint.com/gary/direct.htm)
20
Ferramentas de busca na Web
▪ Principais diferenças entre os motores de busca
▪ Referentes à freqüência de atualização da base de dados:
▪ As bases de dados precisam ser atualizadas periodicamente para
adicionar novas páginas, deletá-las ou incluir modificações das
existentes.
▪ Cada motor tem sua própria estratégia e tecnologia.
▪ Principais estratégias:
- Atualização completa da base pelo menos uma vez por mês;
- Atualização semanal para páginas mais populares entre usuários e
que mudam com freqüência;
- Atualização diária de novas URLs e links mortos;
▪ Cada motor leva um tempo para adicionar na base uma página nova
coletada pelo robô ou submetida pelo usuário. (meses) (pago 48h)
21
Ferramentas de busca na Web
▪ Principais diferenças entre os motores de busca
▪ Referentes as interfaces e recursos de busca:
▪ Dois modos de busca:
- Simples (leigos - auxiliada por janelas e com conectivos booleanos
inseridos automaticamente entre os termos);
- Avançada (experientes - expressões booleanas complexas);
▪ Atenção: espaço será AND (Google e Yahoo) – cuidado com OR !
▪ Outros recursos oferecidos: busca por frase, proximidade de palavras,
sensibilidade à caixa de caracteres, domínio, tipo de arquivos, idioma.
▪ Como não existe padronização, recomenda-se:
- Leitura das páginas de ajuda da ferramenta;
- Consulta de tabelas comparativas em revistas especializadas ou na
Internet. Site da biblioteca da University of California Berkeley
22
Ferramentas de busca na Web
▪ Principais diferenças entre os motores de busca
▪ Referentes aos critérios de ordenação dos resultados:
▪ Tem a finalidade de permitir que os melhores sites (mais relevantes)
apareçam em primeiro lugar nos resultados mostrados.
▪ Para um mesmo número de resultados, a melhor ferramenta é aquela
que traz itens mais relevantes entre os primeiros resultados.
▪ Os motores utilizam algorimos de ordenação de resultados com critérios
tais como:
- A localização e freqüência de ocorrência das palavras na página;
- Freqüência de ocorrência das palavras e a proximidade delas;
- Densidade com que um termo é usado em cada documento;
- Páginas muito referenciadas em outros sites ou sites importantes;
- Motores híbridos atribuem maior relevância aos sites de seu diretório
▪ Os algoritmos de ordenação por relevância são um dos maiores fatores
diferenciais de competição entre os motores e não são revelados.
23
Ferramentas de busca na Web
▪ Atividade: navegar nos websites abaixo
▪ Motores de busca genéricos:
▪ Google (http://www.google.com.br)
▪ Yahoo (http://www.yahoo.com.br)
▪ Hotbot (http://www.hotbot.com)
▪ Altavista (http://br.altavista.com)
▪ Ig (http://busca.igbusca.com.br/app)
▪ Motores de busca especializados em:
▪ Linguagem natural - AnswerBus (http://www.answerbus.com)
▪ Assunto / temáticos - Medical WorldSearch (http://www.mwsearch.com)
▪ Catálogo de páginas da Web invisível:
▪ Direct Search (http://www.freepint.com/gary/direct.htm)
24
Ferramentas de busca na Web
▪ Diretórios ou motores de busca ?
▪ Existem diferenças importantes entre diretórios e motores de busca, o que
gera vantagens e desvantagens associadas ao uso de cada um deles.
▪ Os diretórios tem bases de dados menores, mas com informação mais
relevante. Exemplo:
▪ A procura por “search engines” no diretório do Yahoo, navegando por
categoria, só encontra sites relevantes:
dir.yahoo.com / Computers and Internet / Internet / World Wide
Web / Searching the Web / Search Engines and Directories.
▪ O mesmo não acontece se procurarmos no motor de busca, que irá
retornar milhões de resultados (muitos não relevantes).
25
Ferramentas de busca na Web
▪ Diretórios ou motores de busca ?
▪ Diretórios são mais apropriados para buscas por tópicos que sejam de
interesse para um grande número de pessoas, pois provavelmente fazem
parte da árvore hierárquica.
▪ Ou para tópicos muito amplos que retornariam um número elevado de
respostas em um motor de busca.
▪ Motores de busca permitem a localização de qualquer tipo de informação,
mesmo que específica, desde que exista na Internet e esteja indexada.
▪ Motores possuem bases de dados muito grandes (bilhões de páginas) e,
por isso, pode-se recuperar muitos resultados não relacionados com os
tópicos pesquisados (menor precisão).
26
Ferramentas de busca na Web
▪ Diretórios ou motores de busca ?
▪ Apesar dos motores possuírem grandes bases de dados, seus robôs
podem não indexar alguns tipos de páginas que poderiam ser incluídas
nos diretórios (Web invisível).
▪ As descrições dos sites obtidas nos diretórios é de melhor qualidade, já
que são feitas manualmente.
▪ As descrições dos motores podem não conter informações adequadas, já
que são elaboradas automaticamente pelos robôs. Robôs não conseguem
identificar o tema central de um documento, detectar elementos
importantes como gráficos ou imagens, extrair dados como autor, afiliação
institucional ou data de publicação.
27
Ferramentas de busca na Web
▪ Diretórios ou motores de busca ?
▪ A pesquisa feita pelo diretório irá consultar apenas título, categoria e uma
breve descriçao. A maioria dos motores proporciona pesquisa no texto
integral dos documentos.
Lembrar do page depth
▪ Atualmente a distinção entre diretórios e motores de busca não é tão
nítida e a marioria das ferramentas pode ser considerada híbrida.
▪ Diretórios permitem buscas por palavras-chave em suas categorias,
devido a dificuldade de navegação (grande número de sites);
▪ Motores tem incluído diretórios em suas páginas (Google e Yahoo).
▪ Diretórios tem feito parcerias com motores para “redirecionar” para
eles, de forma automática e transparente, a pesquisa que não
encontrou resultado.
28
Ferramentas de busca na Web
▪ Metamotores (multibuscadores)
▪ Seu surgimento foi motivado pelo fato de que melhores resultados em
uma pesquisa são obtidos com o uso de várias ferramentas diferentes.
▪ Permitem a execução da busca em mais de uma ferramenta (diretórios
ou motores) e exibem os resultados encontrados em uma só lista.
▪ Não possuem bases de dados e fornecem um “snapshot” dos resultados
mais relevantes de várias ferramentas.
▪ Fazem um pré-processamento da consulta do usuário para prepará-la
para submissão a cada ferramenta.
29
Metamotor genérico
Ferramentas de busca na Web
Motor de busca
Convencional
Metamotor
30
Ferramentas de busca na Web
▪ Metamotores (multibuscadores)
▪ Alguns exemplos:
Mamma (http://www.mamma.com)
Dogpile (http://www.dogpile.com)
▪ Existe também o software instalado no micro, que facilita a
construção da estratégia de busca e contém ferramantas de
apoio (eliminação de links duplicados, armazenamento da busca,
etc). Ex: Copernic (http://www.copernic.com).
▪ Existem também os pseudometamotores, que são interfaces para
varias ferramentas, mas sem um mecanismo de busca integrada.
As buscas são submetidas separadamente para cada ferramenta.
31
Ferramentas de busca na Web
▪ Metamotores (multibuscadores)
▪ Algumas desvantagens:
▪ Os recursos de busca específicos de cada motor, usados para obter
maior refinamento nas pesquisas, tornam-se inacessíveis.
▪ As buscas levam mais tempo porque é necessário processamento
adicional para compilar os resultados obtidos e também porque o tempo
de resposta final será o da ferramenta mais lenta.
▪ Quando usar:
▪ Quando não encontrar muitos resultados pesquisando em um só motor.
▪ Para determinar qual ferramenta traz as melhores respostas para uma
determinada consulta.
▪ Em buscas simples.
32
Ferramentas de busca na Web
▪ 750 milhões de pessoas com mais de 15 anos fizeram cerca de 61 bilhões
de buscas na Internet em agosto de 2007.
▪ Cada pessoa, em média, realizou 80,9 buscas no mês.
▪ A taxa mais alta ocorreu na América Latina - 95,7 buscas.
Fonte: Burns, Enid. Worldwide Internet: Now Serving 61 Billion Searches per Month. [online] Disponível na
Internet via www. URL: http://searchenginewatch.com/showPage.html?page=3627304. Arquivo capturado em
29 outubro 2007.
33
Ferramentas de busca na Web
▪ 61 bilhões de buscas foram feitas na Internet em agosto de 2007.
Fonte: Burns, Enid. Worldwide Internet: Now Serving 61 Billion Searches per Month. [online] Disponível na
Internet via www. URL: http://searchenginewatch.com/showPage.html?page=3627304. Arquivo capturado em
29 outubro 2007.
34
Ferramentas de busca na Web
▪ Mais informações
▪ Ler a documentação da ferramenta que está disponível no próprio site e
se manter atualizado, já que ela está em constante evolução.
▪ Obter informações também em sites que publicam artigos sobre as
ferramentas e tabelas comparativas de características, como os abaixo:
- Search Engine Watch (www.searchenginewatch.com).
- Search Engine Showdown (www.searchengineshowdown.com).
- About.com Web Search Guide (Websearch.about.com).
- Alguns artigos da revista Online (www.onlineinc.com).
- Site da Biblioteca da University of California Berkeley
(http://www.lib.berkeley.edu).
- Ferramentas de busca da Internet (www.eb.ufmg.br/cendon/links/
motores.htm).
35
Dicas sobre o Google
▪ Mecanismo de pesquisa personalizado Google
▪ Permite que você crie um mecanismo de busca para seu Website,
Blog ou uma coleção de Websites.
▪ Alguns recursos interessantes:
▪ É possível pesquisar apenas o conteúdo de um Website ou um
determinado tema (assunto).
▪ Podemos personalizar o box de pesquisa e a página de
resultados, ajustar o ranking e convidar amigos para participar
da construção do mecanismo.
▪ Pesquisa contextualizada - um ciclista pesquisando por “roda”
em um mecanismo personalizado obterá somente resultados
relevantes.
36
37
38
39
40
41
www.ensp.fiocruz.br/portal-ensp
42
www.ensp.fiocruz.br/portal-ensp
43
44
45
46
47
Referências
▪ REED, David. A Balanced Introduction to Computer Science.
New Jersey: Prentice Hall, 2005.
▪ CENDON, Beatriz Valadares. Ferramentas de busca na Web. Ci. Inf.
, Brasília, v. 30, n. 1, 2001 . Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019652001000100006&lng=pt&nrm=iso>. Acesso em: 01 Nov 2007.
48
Download