Ferramentas de busca na web

Propaganda
Busca e Diretórios na
Web
O Estado da Arte
Alunos:
D’Angela de Souza
Ricardo Soares Bôaventura
Professor: Dr. Ilmério Reis da Silva
Sumário (i)

Introdução sobre a Web
 Desafios da Web
 Características da Web





Crescimento Exponencial da Web
Número de web sites
Crescimento da internet no Brasil
Linguagem da Web
Máquinas de Buscas






Arquitetura Central
Arquitetura Distribuida
Interfaces
Linguagem de Consultas
Ranking
Indices
Sumário (ii)

Web Diretórios



Tipos de Web diretórios
Tamanho do Web diretórios
Interfaces
• Organização
• Descrição
• Assunto



Diferença entre as Máquinas de Busca e Web Diretórios
Helpful Tools
Metabuscadores
• Diferenças entre Metabuscadores
• Interfaces


Conclusão
Referencias Bibliográficas
Introdução





Grande uso da web;
Crescimento Exponencial;
Quantidade de dados disponíveis é estimada na
ordem de Terabytes; (Fonte: BAEZA-YATES, RIBEIRO-NETO, 1999)
Busca por imagens, audio, video, textos;
Buscas na Web:
• Máquina de busca
• Web Diretórios
• Hyperlinks

Desafios na Web:
Desafios da Web
 Problemas
•
•
•
•
•
•
com os dados:
Dados Distribuídos;
Porcentagem elevada de dados temporários;
Grande volume;
Dados redundantes e não estruturados;
Dados de qualidade;
Dados Heterogênios;
 Problemas
com os usuários:
• Como especificar uma consulta;
• Como ao interpretar a resposta fornecida pelo
sistema;
Características da Web
 Medir
a web é uma tarefa difícil;
 Usuário de Internet em torno de 500
milhões (Fonte: IDC 2003);
 Formato das web pages são HTML,
ASP, PHP, entre outros;
 Rompe as barreiras geográficas de
espaço e tempo;
 Permite
o compartilhamento de
informações em tempo real;
Crescimento Exponencial no
mundo
Fonte: www.searchorses.org (abril - 2001)
Número de Web Sites
Fonte: www.netcraft.co.uk/survey/ (setembro - 2002)
Crescimento do Numero de Hosts
Fonte: www.isc.org (jan - 2004)
Linguagem da Web
Fonte: http://wcp.oclc.org/ (2003)
Máquinas de Busca

São programas computacionais desenvolvidos
com o objetivo de indexar informações das
páginas e/ou sites da Internet em bases de
dados, com a finalidade de possibilitar a
recuperação de documentos solicitados pelos
usuários, segundo as estratégias de busca e
os critérios adotados.

Exemplos:

Google, Alta Vista, WebCrawler, HotBot, TodoBR;
Máquinas de Busca
Billions Of Textual Documents Indexed
As of Sept 2, 2003 KEY: GG=Google, ATW=AllTheWeb,
INK=Inktomi, TMA=Teoma, AV=AltaVista.
Fonte: http://searchenginewatch.com/reports/article.php/2156481
Máquina de Busca - Arquitetura
Central

Processos coletores (spiders, crawlers, robôs)
percorrem a Web acessando páginas;
 O conteúdo da página é processado para criar o
índice;
 Máquinas de Busca define regras para percorrer
os índices e organizar os resultados segundo
critérios de relevância;
 Problemas:


Recolhimento dos dados;
Volume de dados;
Máquina de Busca - Arquitetura
Central
Query Engine
User
Index
Interface
Indexer
Crawler
Web
Máquina de Busca - Arquitetura
Distribuída - Harvest

Mais eficiente que a arquitetura crawler;
 Desvantagem: requer a coordenação de vários
servidores Web;
 Para resolver os problemas dos crawlers é
inserido dois novos elementos: gatherers e
brokers;


Gatherers: coleta e extrai dados indexando informação de
um ou mais servidores Web;
Brokers recuperam informação de um ou mais gatherers
ou brokers, atualizando cada vez mais seus índices;
Máquina de Busca - Arquitetura
Distribuída - Harvest
Replicator
User
Broker
Object Cache
Broker
Gatherer
Web site
Interface
A
finalidade das interfaces é tornar o
processo de busca para os usuários mais
agradável e descomplicada a interação
com o sistema;
A
interface de consulta e a interface de
resposta;
 Amigável;
 Fácil
de usar e aprender;
Interface - HotBot
Interface - HotBot
Interface - Altavista
Interface - Altavista
Interface - Google
Interface - Google
Interface - Resultado da Busca
Textual no Google
Interface - Resultado da Busca
de Imagens no Google
Linguagem de Consulta (i)
 Altavista





www.altavista.com
Size: 1,689 milhões de web pages;
Booleano: simples oferece como busca
avançada ( E, OU, E NÃO);
Truncamento: *;
Atributos especiais: opção de tradução com
software de SYSTRAN;
http://nnlm.gov/psr/lat/v9n1/websearch.html
Linguagem de Consulta (ii)
 Excite





www.excite.com
Size: 71,195,996 Web pages;
Booleano: disponível booleano simples (+,-),
use “” para procurar por frase;
Truncamento: nenhum;
Atributos especiais: índice customizado;
http://nnlm.gov/psr/lat/v9n1/websearch.html
Linguagem de Consulta (iii)
 HotBot




www.hotbot.com
Size: 1,147 milhões de Web pages;
Booleano: E, OU, NÃO, (), “” para as frases,
opcao avançada permite a língua, data,
domínio;
Truncamento: *;
http://nnlm.gov/psr/lat/v9n1/websearch.html
Linguagem de Consulta (iv)
 Lycos




www.lycos.com
Size: 55,462,074 Web pages;
Booleano: simples (+,-), na busca avançada
permite usar os operadores de proximidade:
ADJ, NEAR, FAR, BEFORE
Truncamento: nenhum;
http://nnlm.gov/psr/lat/v9n1/websearch.html
Linguagem de Consulta (v)
 Google





www.google.com
Size: 4 bilhões Web pages;
Não usa stemming
Booleano automático E, “” para frases para
eliminar uma palavras use “-” emediatamente
antes.
Truncamento: nenhum;
http://nnlm.gov/psr/lat/v9n1/websearch.html
Ranking
 Usam
variações do Modelo Booleano ou
Vetorial;
 Ranking é feito sem acesso ao texto
somente somente ao índice;
 Algoritmos de ranking: booleano e vetorial
estendido e most-cited;
Índices
 Usam
o arquivo invertido;
Web Diretórios

São compilados por pessoas que checam cada web site
antes de incluí-lo na lista dos diretórios;

Tem a mesma finalidade dos mecanismos de busca: a
indexação e a recuperação de páginas da web;
Um diretório tem dois componentes principais:





Uma base de dados, também chamada de índice ou catálogo e
Um programa de computador que faz a pesquisa na base de
dados.
Mantêm em suas bases de dados apenas um resumo do
contéudo dos sites por ele catalogados;
Possui uma taxonomia hierárquica que classifica o
conhecimento humano;
Tipos de Web diretórios

Diferenciam quanto:

Aos princípios de organização:
• Esquemas tradicionais de classificação;
• Classficação Dewey;
• (são criados e mantidos por profissionais da informação ou
bibliotecários);
• www.signpost.org/signpost e www.bubl.ac.uk/link

Descrição dos sites:
• Títulos e breves resumos;
• Descrições criteriosas e detalhadas dos recursos
;
• (mantidos por estudantes de mestrado ou mestre em
biblioteconomia e ciência da informação);
• Argus (www.clearinghouse.net );

Assuntos:
• Genéricos (Yahoo!) e áreas específicas ou temáticos
(Tematicos, Beaucoup);
Tamanho dos Web diretórios
Last updated Oct. 30, 2003. by Greg R. Notess.
4.000.000
3.500.000
3.000.000
2.500.000
2.000.000
1.500.000
1.000.000
500.000
0
Open
Directory
Yahoo
LookSamrt
Britanica
• Altavista e Exite: see LookSmart
•HotBot, Lycos e Netscape: Open Dyrectory
http://www.searchenginewatch.com/reports/article.php/2156411
Interfaces – Quanto a Organização
Interfaces – Quanto a Organização
Interfaces – Quanto a Descrição
Interfaces – Quanto a Descrição
Interfaces – Quanto a Assunto
Interfaces – Quanto a Assunto
Diferenças entre Máquinas de
Busca e Diretórios
A
existência dos robôs nas máquinas de
busca e nos diretórios, não existe;
 A exigência de apresentação de um site
ao diretório;
 O número de sites catalogados;
 Atualidade dos mecanismos de busca;
Metabuscadores




Permite a execução de uma mesma busca em mais de
uma ferramenta (máquinas de busca ou diretórios);
Não possuem nenhuma base de dados, utilizando
exclusivamente dados de outras ferramentas;
Fazem um pré-processamentoda consulta do usuário
para prepará-la para submissão a cada ferramenta e a
maioria oferece processamento pós-busca para compilar
os resultados;
Alguns funcionam através de um software instalado
diretamente no microcomputador (www.ferretsoft.com,
www.copernic.com);
Diferença entre os metabuscadores
 Diferenciam


em relação:
Interface de busca;
Motores utilizados na pesquisa;
• Fazem a busca entre 6 a 10 motores selecionados
entre os maiores, outros lista os motores para o
usuário escolher para realizar a sua busca;
• Podem efetuar busca em outras partes da internet
como os aruivos de grupos de discussão da
Usenet ou em newswires;
Diferença entre os metabuscadores

Modo de processamento das consultas;
• Muitos permitem a formulação de uma expressão de busca
em uma sintaxe igual à usada pela maioria dos motores,
alem ou uso de lógica booleano e linguagem natura;
• Outros traduzem as consultas para a linguagem utilizadas
em cada motor de busca

Forma de compilação e apresentação dos resultados;
• Seqüencial ou simultânea;
• É comum a interface permitir a escolha do tempo limite da
espera pelo usuário e o número de resultados a serem
apresentados para cada motor pesquisado;
• Os resultados são integrados, ordenados por relevância e
fornecidos para o usuário;
Interface dos metabuscadores
Interface dos metabuscadores
Conclusão

A área de tratamento de recuperação de
informações na Web continua evoluindo muito
rapidamente;

Os mecanismos e diretórios vão evoluindo e
alternando-se na preferência dos usuários e não
cessam de adotar novos algoritmos;
Referências









CENDON B. V.; Ferramentas de busca na web, janeiro de 2001;
BAEZA-YATES, R. RIBEIRO-NETO, B. Modern Information Retrieval. New York:
Addison Wesley, 1999;
GARCIA T. F; Proposta de uma máquina de busca eficiente para documentos na
web
;www.comp.ufla.br/curso/ano2002/
Proposta_de_uma_maquina_de_busca
_deficirente_para_documentos_na_WEB.html;
http://searchenginewatch.com/reports/article.php/2156411;
http://www.persocom.com.br/brasilia/engines.htm;
http://www.persocom.com.br/brasilia/engines.htm;
http://www.virtual.epm.br/aulas/aulaead/busca.htm;
http://www.quatrocantos.com/tec_web/sist_busca/sb_sum.htm;
http://www.dcc.pucmg.br/computacao/disciplinas/atp2/semestre1_2001/paginas/2079
72/a207972-12.html;

http://nnlm.gov/psr/lat/v9n1/websearch.html;

http://wcp.oclc.org;

www.ic.org;

www.netcraft.ac.uk;
Dúvidas
Download