Aula 01out2007 - WordPress.com

Universidade Federal de Pernambuco
Centro de Artes e Comunicação
Departamento de Ciência da Informação
Tópicos Especiais em TI 2
Fábio Mascarenhas e Silva
[email protected]
27setembro2007
http://toti2.wordpress.com
Aula 01out2007
Assuntos de hoje
Internet: algumas considerações
Aula 01out2007
Internet
“DEEP WEB” X “SURFACE WEB”
(BERGMAN)
A SURFACE WEB é estimada (2001) em
2,5 bilhões de páginas, a DEEP WEB,
estima-se 500 vezes maior.
Aula 01out2007
FOLHA de SP (31/08/2005)
O Yahoo!anunciou que seu buscador é capaz de pesquisar em cerca
de 19,2 bilhões de páginas, O índice é maior que o dos concorrentes
MSN (search.msn.com.br), com 5 bilhões de páginas, e Google, com
cerca de 8 bilhões de sites.
Pesquisadores da Universidade de Illinois e do NCSA, nos EUA, fizeram
buscas com 10 mil termos aleatórios e concluíram que o serviço do
Yahoo! apresentou apenas 37% dos resultados que o Google mostrou
nas mesmas condições. Segundo o estudo
(vburton.ncsa.uiuc.edu/indexsize.html), o Google retornou, em média,
202 resultados para cada termo pesquisado, enquanto o Yahoo!
retornou apenas 132.
Aula 01out2007
FOLHA de SP (31/08/2005)
“Especialistas afirmam que a área de pesquisas do Google é
restrita a aproximadamente 1% do total de arquivos da rede.
No total, de acordo com números da empresa Connotate
Tecnologies (www.connotate.com), existem cerca de 600
bilhões de arquivos na rede, mas o Google acessa apenas cerca
de 8 bilhões."
Aula 01out2007
COMO BUSCAR
INFORMAÇÕES NA
WEB??
Aula 01out2007
TIPOS DE MECANISMOS
•Diretório
•Metasearch
•Índice
Aula 01out2007
DIRETÓRIO
• Organizados hierarquicamente.
• A busca e organização das informações era feita
comumente por seres humanos e somente a home page
de um site é indexada.
• A informação é dividida em categorias.
Ex: encontramos UFPE em
Educação > Universidade e Ensino Superior > Brasil >
Pernambuco
• Vantagem : probabilidade reduzida dos resultados
estarem fora do contexto.
Aula 01out2007
DIRETÓRIOS
• Google
http://www.google.com.br/dirhp?hl=pt-BR
•
ODIR http://www.odir.com.br/
Aula 01out2007
METASEARCH
• Não possuem índices próprios
• Submetem as perguntas formuladas a
vários indexadores da Web, coletam os
resultados obtidos, fazem uma formatação,
eliminando resultados duplicados e geram
uma listagem final.
• Adotam um mínimo denominador comum
na forma como as pesquisas são
submetidas.
Aula 01out2007
METASEARCH
Dogpile (http://www.dogpile.com)
Metacrawler (http://www.metacrawler.com)
Buscapé (http://www.buscape.com.br)
Aula 01out2007
ÍNDICE
Spiders / Robôs varrem a internet buscando páginas,
indexando-as e criando seu próprio banco de dados.
Algoritmos de busca que acham e trazem
documentos relevantes para a pesquisa do usuário
Aula 01out2007
ÍNDICE
Quando fazemos a pesquisa através de um
mecanismo de busca NÃO o fazemos "ao vivo" e sim
recuperamos as informações gravadas nos banco de
dados.
Ex: cache do Google
Normalmente cobrem todo tipo de assunto possível,
não fazem distinção entre os sites que indexam, desta
forma os resultados são descontextualizados.
Aula 01out2007
ÍNDICE
Principais diferenças entre eles:
•
•
•
•
•
•
Capacidade de armazenagem no banco de dados;
Freqüência de atualização;
Capacidade de busca (amplitude);
Velocidade de recuperação de resultados;
Interface (design) na mostra dos resultados;
Recursos avançados (tradução, linguagem natural,
operadores booleanos).
Aula 01out2007
ÍNDICE
Exemplos
AltaVista (http://www.altavista.com)
Excite (http://www.excite.com)
Alltheweb (http://www.alltheweb.com)
Google (http://www.google.com.br)
HotBot (http://www.hotbot.com)
Aula 01out2007
COMO OS MECANISMOS DE BUSCA CONSEGUEM
ENCONTRAR AS INFORMAÇÕES NA INTERNET??
Aula 01out2007
Ocorrência do(s) termo(s) pesquisado(s) em
posições estratégicas na página.
Baseando-se no número de ocorrências do(s) termo(s) e na sua
localização, determina-se o grau de relevância da página para
este(s) termo(s). Ao se construir um documento HTML, deve-se
procurar posicionar as palavras-chave estratégicas nestas posições
cruciais, para possibilitar que os mecanismos possam “entender” o
significado da página. Quais seriam essas posições cruciais???
Aula 01out2007
O que é HTML?
• Estudos sobre SGML (Standard Generalized Markup Language) remontam
aos trabalhos de Charles Goldfarb, Edward Mosher e Raymond Lorie em
1970, mas foi somente em 1986 que o SGML se constituiu como um padrão
internacional (ISO 8879) para a descrição das linguagens de marcação e para
a análise formal de documentos.
• HyperText Markup Language (HTML) é um padrão para a criação de
páginas da World Wide Web. É um formato não-proprietário baseado no
SGML e pode ser criado e processado por uma grande variedade de
Ferramentas. Ele utiliza marcadores especiais, denominados marcas, como
<h1> e </h1>, para estruturar o texto em cabeçalhos, parágrafos, listas, links
de hipertextos. Desta forma indicam como os navegadores da Web devem
exibir os itens da página, como texto e elementos gráficos.
Aula 01out2007
Título
• Considera-se o título da página (texto entre os tags
<title>...</title>) como um dos pontos mais importantes para a
determinação do assunto do documento.
• Algumas páginas de ótimo conteúdo sobre um determinado
assunto podem obter classificações ruins principalmente por
falharem neste ponto.
• O título deve conter as palavras-chave estratégicas da página.
• É recomendável usar nas primeiras posições do título palavraschave estratégicas.
Aula 01out2007
Topo da página
- Os mecanismos de busca consideram o cabeçalho da
página (textos entre os tags <h1>..</h1>, <h2>..</h2>) e
as primeiras linhas de texto, uma região importante para a
indexação.
- Uma página relevante para um determinado assunto
conterá palavras relacionadas com este assunto desde o seu
começo.
Título
Aula 01out2007
TABELA
A utilização de tabelas para construir uma página pode “empurrar” o texto inicial
para posições mais baixas da página, tornando as palavras-chave de seu
conteúdo menos relevantes.
Por exemplo, vamos supor uma página de duas colunas típica, onde a primeira coluna
possui os links de navegação e a segunda possui o texto contendo as palavras-chave:
Autor
Título
Editora
Data
Pessoa, Fernando
Poemas de Álvaro de Campos
Nova Fronteira
1999
Esta estrutura não ajudará na indexação desta página numa busca por “Álvaro
de Campos”, pois os mecanismos de busca considerarão inicialmente o que
estiver a esquerda.
Aula 01out2007
FREQÜÊNCIA
• A freqüência de ocorrência de um termo em uma página é outro fator
importante na determinação de relevância de uma página para este termo.
• As palavras-chave estratégicas devem estar presentes no conteúdo da
página. Isto significa é necessário haver um texto escrito numa página.
• Páginas constituídas somente por figuras não são entendidas pelos
mecanismos de busca, porque eles não as interpretam. Alguns indexam textos
contidos no tag <ALT> e em comentários, no entanto, para se ter segurança é
melhor utilizar diretamente o texto HTML sempre que possível.
Aula 01out2007
PAGE RANK
•É seguindo o mesmo princípio da análise de citações que
alguns mecanismos “rankeiam” os resultados da busca.
•O algoritmo mede a importância do site a partir de quem está
apontando-o (quantitativamente e qualitativamente).
•Não ter ninguém citando sua página dificulta um bom
posicionamento, pois a quantidade de links para você é,
sobretudo, o seu índice de importância.
Aula 01out2007
Algumas pessoas tentam enganar os mecanismos repetindo várias vezes as
palavras-chave na página e formatando-as com um tamanho de fonte muito
pequeno ou com uma cor idêntica à cor do fundo, tornando estas palavras
invisíveis em um navegador.
Outra prática é a repetição indiscriminada de palavras-chave no texto. Mas
os mecanismos são capazes de ler uma frase e identificar se esta representa
uma frase válida ou se é apenas um conjunto desconexo de palavras.
EXEMPLO
Porém os mecanismos são capazes de identificar esta prática e, além de não
indexar este tipo de texto, penalizam a página com pontos negativos no
momento do cálculo da relevância.
Aula 01out2007
Alternativas visando melhorar resultados
META TAGS
O HTML permite que sejam especificados metadados em um documento, ou
seja, informações sobre o documento através do tag <META>.
Estes tags podem ser utilizados para incluir pares nome/valor que descrevem
propriedades do documento, como por exemplo o autor, palavras-chave, resumo,
etc. Estas informações são invisíveis para o visitante da página.
Alguns exemplos: DESCRIPTION, KEYWORDS
Aula 01out2007
Como funciona a inserção de uma tese eletrônica no banco de teses da UFPE
Tese
Documento
eletrônico
Representação
descritiva/temática da tese
Participação humana no
processo
Busca pela
informação através
da interface
disponível no site
Aula 01out2007
A Base de dados fica disponível na Internet
Servidor
UFPE
conhecido também como server, é o
computador, que como o próprio nome diz,
responsável por disponibilizar algum
serviço de rede para outros computadores,
como por exemplo aplicativos de correio
eletrônico,páginas Web, repositório de
banco de dados.
Aula 01out2007
Numa busca feita no google pela tese
de Aíla Karla Mota Santana não se
encontra por encontra o arquivo PDF
que contém a tese integral.
Porém, indo ao Biblioteca Digital de
Teses e Dissertações da UFPE é possível
encontrar o material.
Aula 01out2007
Também é possível encontrar o material
na Biblioteca Digital de Teses e
Dissertação do IBICT. O que diferencia
recuperar a informação usando o Google
da busca usando o BDTD?
Num sistema previamente elaborado
para recuperação os dados são
alimentados com a finalidade de serem
recuperados segundo alguns
parâmetros estabelecidos pelos
usuários.
Aula 01out2007
Aula 01out2007
O que vem depois...
OUTUBRO
04
Bases de dados
08
Práticas (lab.)
11
Bibliotecas Digitais
15
Protocolos
18
Práticas (lab.)
22
Arquivos Abertos
25
WEB 2, Blogs
29
Práticas (lab)