busca de informação na web

Prof. Edberto Ferneda
INFORMÁTICA
INSTRUMENTAL
Informática Instrumental
BUSCA DE
INFORMAÇÃO NA WEB
Interfaces da Escrita

Livro
◦ Numeração de páginas;
◦ Subdivisão em partes (capítulos);
◦ Sumários e índices;
◦
◦
◦
◦
Exame rápido do conteúdo;
Acesso não linear e seletivo ao texto;
Segmentação do saber em módulos;
Conexões a outros livros (bibliografia)
Interfaces da Escrita

Livro
Interfaces da Escrita

Jornais
◦ Adaptados a uma atitude de “atenção
flutuante”;
◦ No território quadriculado do livro
precisamos de índices, sumários, etc. O leitor
do jornal realiza diretamente uma navegação a
olho nu;
◦ As manchetes chamam a atenção, dando uma
primeira idéia, pinçam-se aqui e ali algumas
frases, uma foto e, de repente, encontramos
algo que nos atrai.
Interfaces da Escrita

Jornais
Interfaces da Escrita

Revistas
Interfaces da Escrita

Computador
◦ “pacote terrivelmente redobrado, com pouquíssima
superfície que seja diretamente acessível em um
mesmo instante. A manipulação deve então substituir
o sobrevôo”.
◦ Tela gráfica de alta resolução;
◦ Representação icônica (figurada) das estruturas de
informação e dos comandos;
◦ Uso do mouse, permitindo agir sobre o que ocorre
na tela;
◦ Menus que mostram as operações que se pode
realizar;
Interfaces da Escrita

Computador
Interfaces da Escrita

Computador
Interfaces da Escrita

Computador
Interfaces da Escrita

Computador
Interfaces da Escrita

Computador
WebBrain
BUSCANDO
INFORMAÇÕES NA
WEB
Buscando informações na Web

Sites/mecanismos de busca
◦ permitem ao usuário submeter sua expressão de
busca e recuperar uma lista (geralmente ordenada) de
endereços de páginas (URLs) que presumivelmente
são relevantes para a sua necessidade de informação
◦ Maioria de uso geral
◦ Em um acervo extremamente grande como é a Web
é essencial uma indexação antecipada de seus
documentos (páginas). A maioria dos mecanismos de
busca da Web gera índices. Pelo caráter dinâmico da
Web esses índices devem permanecer em constante
processo de atualização
Buscando Informações na Web

Sites/mecanismos de busca
◦ Índexação
 Não Automáticos
 O autor fornece dados sobre sua página e associa a ela uma
ou mais categorias que descrevem o assunto tratado na
página
 Automáticos
 Spiders (robôs, crawlers ou worms)
 Partindo de uma lista inicial de URLs, rastreiam a
estrutura hipertextual da WEB, colhendo informações
sobre as páginas que encontram;
 Indexam cada página utilizando métodos de indexação
automática
Buscando Informações na Web

Indexação não-automática (manual)
◦ Indexadores profissionais especificam uma hierarquia de assuntos
e indexam as páginas Web utilizando tais categorias.
◦ Uma URL submetida pode ser associada a uma categoria de
qualquer nível. Por exemplo, ela pode ser ligada a uma categoria
principal, “Ciência”, ou à subcategoria, “Ciências Humanas”, ou à
sub-subcategoria, “Biblioteconomia e Ciência da Informação”.
◦ A URL cadastrada é avaliada por profissionais, que podendo
alterar os dados fornecidos pelo usuário.
◦ Caso um usuário não consiga encontrar uma categoria
apropriada para descrever sua página, ele pode sugerir uma nova
categoria.
Buscando Informações na Web
Buscando Informações na Web

Indexação automática
◦ A indexação automática é realizada através de duas etapas:
 Seleção de endereços (URLs) de páginas;
 Indexação das páginas, gerando para cada uma um conjunto de
termos de indexação.
◦ Existem programas que “viajam” através da Web a fim de
selecionar URLs de páginas de potencial interesse para
que sejam indexadas. Utilizando a metáfora da Web, esses
programas são chamados de spiders (aranhas) ou ainda
robôs, crawlers ou worms.
◦ Partindo de uma lista inicial de URLs, esses robôs
rastreiam a estrutura hipertextual da Web colhendo
informação sobre as páginas que encontram.
Buscando Informações na Web
Buscador
(yahoo, google, etc)
Banco de dados de URLs
Buscando Informações na Web
Buscador
(yahoo, google, etc)
URLs
(links)
Banco de dados de URLs
Buscando Informações na Web
Buscador
(yahoo, google, etc)
Banco de dados de URLs
URLs
(links)
Buscando Informações na Web

Indexação automática
◦ Duas estratégias podem ser adotadas pelos robôs para rastrear as
páginas da Web
 breadth-first
 visa maximizar a amplitude da pesquisa descendo apenas poucos níveis de cada site
 deep-first
 visa maximizar a profundidade buscando um maior detalhamento do assunto tratado
pelo site.
◦ Quando uma nova página é recuperada, o robô extrai todas os links
(URLs) dessa página e os adiciona na sua base de dados.
◦ Para aumentar a velocidade de cobertura da Web podem ser usados
vários robôs trabalhando em paralelo, cada um cobrindo uma região ou
um domínio diferente da Web e enviando suas URLs para a base de
dados.
Buscando Informações na Web

Indexação automática
◦ Depois de formado o banco de dados de
URLs o robô poderá acessar cada página e
indexa-la usando métodos de indexação
automática.
Buscando Informações na Web

Buscas
◦ Geralmente dois níveis de busca: básico e
avançado
◦ Básico:
 Buscas booleanas utilizando os operadores AND,
OR, NOT
◦ Avançado:
 Buscas por proximidade: NEAR, ADJ
 Buscas por tipo de mídia ou tipo de arquivo: “.JPG”,
“.MPEG”, “.GIF”, etc.
Buscando Informações na Web
www.google.com.br
Buscando Informações na Web
História da Internet
Buscando Informações na Web

Meta-buscadores
◦ Realizam buscas utilizando diversos
mecanismos de busca;
 A expressão de busca é traduzida e enviada para
cada um dos mecanismos que o meta-buscador
utiliza.
 Cada buscador retornará uma lista de URLs
 O meta-buscador agrega as listas em uma única
lista, eliminando possíveis duplicações.
Buscando Informações na Web
Buscando Informações na Web
http:///www.metacrawler.com