Sistemas de Recuperação de Informação Fundamentos em Máquinas de Busca Wladmir Cardoso Brandão www.wladmirbrandao.com Departamento de Ciência da Computação (DCC) Instituto de Ciências Exatas e Informática (ICEI) Pontifícia Universidade Católica de Minas Gerais (PUC Minas) Programa de Graduação em Ciência da Computação Março, 2017 Máquinas de Busca Internet World Wide Web Arquitetura e Componentes Marcos no surgimento da Internet I I I I 1960’s → Surge a ARPANET, uma rede militar de troca de pacotes 1982 → Surge o TCP/IP, o protocolo padrão para comunicação na ARPANET 1989 → A ARPANET é liberada para uso comercial 1991 → Surgimento da World Wide Web ARPANET (1969) ARPANET (1970) ARPANET (1977) World Wide Web I I I Problema → Compartilhamento de documentos científicos Motivação → Pesquisadores tinha que reformatar seus documentos para torná-los compatíveis com o sistema de compartilhamento vigente Solução → Rede hipertextual descentralizada Tim Berners-Lee: O criador da Web I I I I Escreveu o protocolo HTTP Definiu a linguagem HTML Escreveu o primeiro navegador, denominado World Wide Web Escreveu o primeiro servidor de documentos hipertextuais World Wide Web “The World Wide Web is the universe of global network-accessible information through which people could communicate with each other and with machines.” Berners-Lee, 1996 World Wide Web I I I Descentralizada Não existe um órgão controlador central Livre Qualquer pessoa pode publicar conteúdo Universal Acessível a todo mundo Qual o tamanho da Web? Fonte: WorldWideWebSize.com Qual o tamanho da Web? I I Google, 2008 → 1T de URLs únicas Google Inside Search, 2013 I 130T de páginas (estimativa) I 30T de URLs únicas identificadas I 100PB de índice I 100G de buscas por mês I 200 evidências para ranking I 40K a 60K notificações de SPAM por mês Máquina de Busca “Search engines are information retrieval systems that model the Web as a data repository, where all query processing must be done without accessing the source of the documents.” Baeza-Yates and Ribeiro-Neto, 2011 Máquina de Busca: Arquitetura Máquina de Busca: Coletor Máquina de Busca: Indexador Máquina de Busca: Processador de Consulta Referências Bibliográficas Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier Modern Information Retrieval: The Concepts and Technology Behind Search Pearson Education, 913 p., 2011 Witten, Ian H.; Moffat, Alistair; Bell, Timothy C Managing Gigabytes: Compressing and Indexing Documents and Images Kaufmann Publishers, 2. ed., 1999 Zobel, Justin; Moffat, Alistair Inverted files for text search engines ACM Computing Surveys, 38(2), 2006 Obrigado! Perguntas? Wladmir Cardoso Brandão www.wladmirbrandao.com “Science is a way of thinking... much more than it is a body of knowledge.” Carl Sagan