SLD - Wladmir Cardoso Brandão

Propaganda
Sistemas de Recuperação de Informação
Fundamentos em Máquinas de Busca
Wladmir Cardoso Brandão
www.wladmirbrandao.com
Departamento de Ciência da Computação (DCC)
Instituto de Ciências Exatas e Informática (ICEI)
Pontifícia Universidade Católica de Minas Gerais (PUC Minas)
Programa de Graduação em Ciência da Computação
Março, 2017
Máquinas de Busca
Internet
World Wide Web
Arquitetura e Componentes
Marcos no surgimento da Internet
I
I
I
I
1960’s → Surge a ARPANET, uma rede
militar de troca de pacotes
1982 → Surge o TCP/IP, o protocolo padrão
para comunicação na ARPANET
1989 → A ARPANET é liberada para uso
comercial
1991 → Surgimento da World Wide Web
ARPANET (1969)
ARPANET (1970)
ARPANET (1977)
World Wide Web
I
I
I
Problema → Compartilhamento de
documentos científicos
Motivação → Pesquisadores tinha que
reformatar seus documentos para torná-los
compatíveis com o sistema de
compartilhamento vigente
Solução → Rede hipertextual
descentralizada
Tim Berners-Lee: O criador da Web
I
I
I
I
Escreveu o protocolo HTTP
Definiu a linguagem HTML
Escreveu o primeiro navegador, denominado
World Wide Web
Escreveu o primeiro servidor de documentos
hipertextuais
World Wide Web
“The World Wide Web is the universe of
global network-accessible information
through which people could communicate
with each other and with machines.”
Berners-Lee, 1996
World Wide Web
I
I
I
Descentralizada
Não existe um órgão controlador central
Livre
Qualquer pessoa pode publicar conteúdo
Universal
Acessível a todo mundo
Qual o tamanho da Web?
Fonte: WorldWideWebSize.com
Qual o tamanho da Web?
I
I
Google, 2008 → 1T de URLs únicas
Google Inside Search, 2013
I 130T de páginas (estimativa)
I 30T de URLs únicas identificadas
I 100PB de índice
I 100G de buscas por mês
I 200 evidências para ranking
I 40K a 60K notificações de SPAM por mês
Máquina de Busca
“Search engines are information retrieval
systems that model the Web as a data
repository, where all query processing
must be done without accessing
the source of the documents.”
Baeza-Yates and Ribeiro-Neto, 2011
Máquina de Busca: Arquitetura
Máquina de Busca: Coletor
Máquina de Busca: Indexador
Máquina de Busca: Processador de Consulta
Referências Bibliográficas
Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier
Modern Information Retrieval: The Concepts and
Technology Behind Search
Pearson Education, 913 p., 2011
Witten, Ian H.; Moffat, Alistair; Bell, Timothy C
Managing Gigabytes: Compressing and Indexing
Documents and Images
Kaufmann Publishers, 2. ed., 1999
Zobel, Justin; Moffat, Alistair
Inverted files for text search engines
ACM Computing Surveys, 38(2), 2006
Obrigado!
Perguntas?
Wladmir Cardoso Brandão
www.wladmirbrandao.com
“Science is a way of thinking...
much more than it is a body of knowledge.”
Carl Sagan
Download