Busca e Diretórios na Web O Estado da Arte Alunos: D’Angela de Souza Ricardo Soares Bôaventura Professor: Dr. Ilmério Reis da Silva Sumário (i) Introdução sobre a Web Desafios da Web Características da Web Crescimento Exponencial da Web Número de web sites Crescimento da internet no Brasil Linguagem da Web Máquinas de Buscas Arquitetura Central Arquitetura Distribuida Interfaces Linguagem de Consultas Ranking Indices Sumário (ii) Web Diretórios Tipos de Web diretórios Tamanho do Web diretórios Interfaces • Organização • Descrição • Assunto Diferença entre as Máquinas de Busca e Web Diretórios Helpful Tools Metabuscadores • Diferenças entre Metabuscadores • Interfaces Conclusão Referencias Bibliográficas Introdução Grande uso da web; Crescimento Exponencial; Quantidade de dados disponíveis é estimada na ordem de Terabytes; (Fonte: BAEZA-YATES, RIBEIRO-NETO, 1999) Busca por imagens, audio, video, textos; Buscas na Web: • Máquina de busca • Web Diretórios • Hyperlinks Desafios na Web: Desafios da Web Problemas • • • • • • com os dados: Dados Distribuídos; Porcentagem elevada de dados temporários; Grande volume; Dados redundantes e não estruturados; Dados de qualidade; Dados Heterogênios; Problemas com os usuários: • Como especificar uma consulta; • Como ao interpretar a resposta fornecida pelo sistema; Características da Web Medir a web é uma tarefa difícil; Usuário de Internet em torno de 500 milhões (Fonte: IDC 2003); Formato das web pages são HTML, ASP, PHP, entre outros; Rompe as barreiras geográficas de espaço e tempo; Permite o compartilhamento de informações em tempo real; Crescimento Exponencial no mundo Fonte: www.searchorses.org (abril - 2001) Número de Web Sites Fonte: www.netcraft.co.uk/survey/ (setembro - 2002) Crescimento do Numero de Hosts Fonte: www.isc.org (jan - 2004) Linguagem da Web Fonte: http://wcp.oclc.org/ (2003) Máquinas de Busca São programas computacionais desenvolvidos com o objetivo de indexar informações das páginas e/ou sites da Internet em bases de dados, com a finalidade de possibilitar a recuperação de documentos solicitados pelos usuários, segundo as estratégias de busca e os critérios adotados. Exemplos: Google, Alta Vista, WebCrawler, HotBot, TodoBR; Máquinas de Busca Billions Of Textual Documents Indexed As of Sept 2, 2003 KEY: GG=Google, ATW=AllTheWeb, INK=Inktomi, TMA=Teoma, AV=AltaVista. Fonte: http://searchenginewatch.com/reports/article.php/2156481 Máquina de Busca - Arquitetura Central Processos coletores (spiders, crawlers, robôs) percorrem a Web acessando páginas; O conteúdo da página é processado para criar o índice; Máquinas de Busca define regras para percorrer os índices e organizar os resultados segundo critérios de relevância; Problemas: Recolhimento dos dados; Volume de dados; Máquina de Busca - Arquitetura Central Query Engine User Index Interface Indexer Crawler Web Máquina de Busca - Arquitetura Distribuída - Harvest Mais eficiente que a arquitetura crawler; Desvantagem: requer a coordenação de vários servidores Web; Para resolver os problemas dos crawlers é inserido dois novos elementos: gatherers e brokers; Gatherers: coleta e extrai dados indexando informação de um ou mais servidores Web; Brokers recuperam informação de um ou mais gatherers ou brokers, atualizando cada vez mais seus índices; Máquina de Busca - Arquitetura Distribuída - Harvest Replicator User Broker Object Cache Broker Gatherer Web site Interface A finalidade das interfaces é tornar o processo de busca para os usuários mais agradável e descomplicada a interação com o sistema; A interface de consulta e a interface de resposta; Amigável; Fácil de usar e aprender; Interface - HotBot Interface - HotBot Interface - Altavista Interface - Altavista Interface - Google Interface - Google Interface - Resultado da Busca Textual no Google Interface - Resultado da Busca de Imagens no Google Linguagem de Consulta (i) Altavista www.altavista.com Size: 1,689 milhões de web pages; Booleano: simples oferece como busca avançada ( E, OU, E NÃO); Truncamento: *; Atributos especiais: opção de tradução com software de SYSTRAN; http://nnlm.gov/psr/lat/v9n1/websearch.html Linguagem de Consulta (ii) Excite www.excite.com Size: 71,195,996 Web pages; Booleano: disponível booleano simples (+,-), use “” para procurar por frase; Truncamento: nenhum; Atributos especiais: índice customizado; http://nnlm.gov/psr/lat/v9n1/websearch.html Linguagem de Consulta (iii) HotBot www.hotbot.com Size: 1,147 milhões de Web pages; Booleano: E, OU, NÃO, (), “” para as frases, opcao avançada permite a língua, data, domínio; Truncamento: *; http://nnlm.gov/psr/lat/v9n1/websearch.html Linguagem de Consulta (iv) Lycos www.lycos.com Size: 55,462,074 Web pages; Booleano: simples (+,-), na busca avançada permite usar os operadores de proximidade: ADJ, NEAR, FAR, BEFORE Truncamento: nenhum; http://nnlm.gov/psr/lat/v9n1/websearch.html Linguagem de Consulta (v) Google www.google.com Size: 4 bilhões Web pages; Não usa stemming Booleano automático E, “” para frases para eliminar uma palavras use “-” emediatamente antes. Truncamento: nenhum; http://nnlm.gov/psr/lat/v9n1/websearch.html Ranking Usam variações do Modelo Booleano ou Vetorial; Ranking é feito sem acesso ao texto somente somente ao índice; Algoritmos de ranking: booleano e vetorial estendido e most-cited; Índices Usam o arquivo invertido; Web Diretórios São compilados por pessoas que checam cada web site antes de incluí-lo na lista dos diretórios; Tem a mesma finalidade dos mecanismos de busca: a indexação e a recuperação de páginas da web; Um diretório tem dois componentes principais: Uma base de dados, também chamada de índice ou catálogo e Um programa de computador que faz a pesquisa na base de dados. Mantêm em suas bases de dados apenas um resumo do contéudo dos sites por ele catalogados; Possui uma taxonomia hierárquica que classifica o conhecimento humano; Tipos de Web diretórios Diferenciam quanto: Aos princípios de organização: • Esquemas tradicionais de classificação; • Classficação Dewey; • (são criados e mantidos por profissionais da informação ou bibliotecários); • www.signpost.org/signpost e www.bubl.ac.uk/link Descrição dos sites: • Títulos e breves resumos; • Descrições criteriosas e detalhadas dos recursos ; • (mantidos por estudantes de mestrado ou mestre em biblioteconomia e ciência da informação); • Argus (www.clearinghouse.net ); Assuntos: • Genéricos (Yahoo!) e áreas específicas ou temáticos (Tematicos, Beaucoup); Tamanho dos Web diretórios Last updated Oct. 30, 2003. by Greg R. Notess. 4.000.000 3.500.000 3.000.000 2.500.000 2.000.000 1.500.000 1.000.000 500.000 0 Open Directory Yahoo LookSamrt Britanica • Altavista e Exite: see LookSmart •HotBot, Lycos e Netscape: Open Dyrectory http://www.searchenginewatch.com/reports/article.php/2156411 Interfaces – Quanto a Organização Interfaces – Quanto a Organização Interfaces – Quanto a Descrição Interfaces – Quanto a Descrição Interfaces – Quanto a Assunto Interfaces – Quanto a Assunto Diferenças entre Máquinas de Busca e Diretórios A existência dos robôs nas máquinas de busca e nos diretórios, não existe; A exigência de apresentação de um site ao diretório; O número de sites catalogados; Atualidade dos mecanismos de busca; Metabuscadores Permite a execução de uma mesma busca em mais de uma ferramenta (máquinas de busca ou diretórios); Não possuem nenhuma base de dados, utilizando exclusivamente dados de outras ferramentas; Fazem um pré-processamentoda consulta do usuário para prepará-la para submissão a cada ferramenta e a maioria oferece processamento pós-busca para compilar os resultados; Alguns funcionam através de um software instalado diretamente no microcomputador (www.ferretsoft.com, www.copernic.com); Diferença entre os metabuscadores Diferenciam em relação: Interface de busca; Motores utilizados na pesquisa; • Fazem a busca entre 6 a 10 motores selecionados entre os maiores, outros lista os motores para o usuário escolher para realizar a sua busca; • Podem efetuar busca em outras partes da internet como os aruivos de grupos de discussão da Usenet ou em newswires; Diferença entre os metabuscadores Modo de processamento das consultas; • Muitos permitem a formulação de uma expressão de busca em uma sintaxe igual à usada pela maioria dos motores, alem ou uso de lógica booleano e linguagem natura; • Outros traduzem as consultas para a linguagem utilizadas em cada motor de busca Forma de compilação e apresentação dos resultados; • Seqüencial ou simultânea; • É comum a interface permitir a escolha do tempo limite da espera pelo usuário e o número de resultados a serem apresentados para cada motor pesquisado; • Os resultados são integrados, ordenados por relevância e fornecidos para o usuário; Interface dos metabuscadores Interface dos metabuscadores Conclusão A área de tratamento de recuperação de informações na Web continua evoluindo muito rapidamente; Os mecanismos e diretórios vão evoluindo e alternando-se na preferência dos usuários e não cessam de adotar novos algoritmos; Referências CENDON B. V.; Ferramentas de busca na web, janeiro de 2001; BAEZA-YATES, R. RIBEIRO-NETO, B. Modern Information Retrieval. New York: Addison Wesley, 1999; GARCIA T. F; Proposta de uma máquina de busca eficiente para documentos na web ;www.comp.ufla.br/curso/ano2002/ Proposta_de_uma_maquina_de_busca _deficirente_para_documentos_na_WEB.html; http://searchenginewatch.com/reports/article.php/2156411; http://www.persocom.com.br/brasilia/engines.htm; http://www.persocom.com.br/brasilia/engines.htm; http://www.virtual.epm.br/aulas/aulaead/busca.htm; http://www.quatrocantos.com/tec_web/sist_busca/sb_sum.htm; http://www.dcc.pucmg.br/computacao/disciplinas/atp2/semestre1_2001/paginas/2079 72/a207972-12.html; http://nnlm.gov/psr/lat/v9n1/websearch.html; http://wcp.oclc.org; www.ic.org; www.netcraft.ac.uk; Dúvidas