CÍNTHIA MARIA SILVA DE HOLANDA INDEXAÇÃO AUTOMÁTICA

Propaganda
UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE ARTES E COMUNICAÇÃO
DEPARTAMENTO DE CIÊNCIA DA INFORMAÇÃO
CURSO DE BIBLIOTECONOMIA
CÍNTHIA MARIA SILVA DE HOLANDA
INDEXAÇÃO AUTOMÁTICA DE CONTEÚDOS NA WEB:
análise de sites relacionados à Biblioteconomia
RECIFE
2010
CÍNTHIA MARIA SILVA DE HOLANDA
INDEXAÇÃO AUTOMÁTICA DE CONTEÚDOS NA WEB:
análise de sites relacionados à Biblioteconomia
Trabalho de Conclusão de Curso
apresentado ao Departamento de
Ciência da Informação da Universidade
Federal
de
Pernambuco,
como
requisito para obtenção do título de
Bacharel em Biblioteconomia.
Orientador:
Profº.
Mascarenhas e Silva
RECIFE
2010
Drº.
Fábio
H722i
Holanda, Cínthia Maria Silva de.
Indexação automática de conteúdos na Web:
análise de sites relacionados à Biblioteconomia /
Cínthia Maria Silva de Holanda. – Recife: O autor,
2010.
97 folhas.
Trabalho de Conclusão de Curso - TCC –
Universidade Federal de Pernambuco. CAC. Ciência da
Informação, 2010.
Inclui Bibliografia.
1. Recuperação da informação. 2. Indexação
automática. 3. Mecanismos de busca. 4. Google. I.
Título.
UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE ARTES E COMUNICAÇÃO
DEPARTAMENTO DE CIÊNCIA DA INFORMAÇÃO
CURSO DE GRADUAÇÃO EM BIBLIOTECONOMIA
CÍNTHIA MARIA SILVA DE HOLANDA
INDEXAÇÃO AUTOMÁTICA DE CONTEÚDOS NA WEB:
análise de sites relacionados à Biblioteconomia
Este Trabalho de Conclusão de Curso foi aprovado pela banca examinadora do
curso de Graduação em Biblioteconomia constituída pelos seguintes professores:
Profº Fábio Mascarenhas e Silva
Orientador
Profº. Murilo Artur Araújo da Silveira
Profº. Luciane Paula Vital
Aprovado em: Recife, 13 de dezembro de 2010.
Aos meus pais (Adilma e Genival),
minhas irmãs (Gabrielle e Glauce) e
minha
tia
(Gilvani
Holanda
-
memoriam), dedico este trabalho.
in
AGRADECIMENTOS
Aos meus pais, Adilma Holanda e Genival Holanda por me proporcionarem a
oportunidade de estudar e obter a minha formação, obrigada pela dedicação como
genitores. Em especial a minha mãe por ter ficado ao meu lado em todos os
momentos, por rezar por mim todos os dias, por ter me entendido em várias
ocasiões, por ter me protegido e por todo o amor que me ofereceu desde a minha
gestão.
As minhas irmãs Gabrielle Holanda (Gaby) e Glauce Holanda (Gal), por saber que
mesmo com os atropelos, ficaremos unidas para defender a nossa família.
A Amanda Gânimo (D. Cantora), uma pessoa mais que especial, por todos esses
anos de amizade, apoio, felicidades, tristezas, sorrisos, viagens e etc., por todos os
cuidados dedicados a mim, por ser essa pessoa que aponta os meus defeitos e que
sabe dizer quando estou errada, enfim, por fazer parte da minha vida e por me
deixar fazer parte da sua.
A Michele Sant’ana (Boyzinha), muito mais que amiga, uma irmã, uma das poucas
pessoas que sabe realmente quem sou, por todas as conversas, brigas, risadas,
choros, festas, “danones”, etc., etc. Nem lembro mais o tempo que nos
conhecemos, parece que você sempre esteve por perto...
A minha tia Gilvani Holanda (in memoriam), por ter me apoiado e confiado em
mim, pelos conselhos, puxões de orelha e ensinamentos desde criança até meu
ingresso na Universidade. Sempre me lembrarei das nossas conversas...
Ao professor Murilo Silveira, muito mais que um professor, por ter me
proporcionado oportunidades e por toda ajuda ao longo da graduação. Sou sua fã!
Ao professor Fábio Mascarenhas, meu orientador, por todos os conselhos,
observações, contribuições e correções minuciosas para que este trabalho ficasse
pronto e por ser fã de rock and roll.
A Sirleida Mendes, pela ajuda oferecida antes mesmo do ingresso à universidade e
pelo incentivo para que eu cursasse biblioteconomia.
A Equipe Ação Mariana Bandeira (Mari), Kleiton Predo e Janypaula Melo (Janypaul
rs), por ser uma tradição desde 2007.1, por todos os quatro anos de trabalhos,
seminários, apresentações, estudos, etc. Agradeço pela amizade e espero que
perdure após a graduação.
A todos que fazem parte do grupo Ócio Digital Amanda (Baby), Amélia (Mamis),
Ana Cecília (Donana), Charlene (Xaxá), Ênio (Duh), Jonatan (Jon), Marcelo (Meu
bom), Pietro, Rafael (Rafinha rs), Silla, Thiago (Coração) e Túlio (Tutu), por
proporcionarem tarde de risos, brigas, alegrias e por fazerem parte dessa história.
Aos meus amigos de infância, adolescência, baladas, universidade e afins: Bruno
Amorim (Nuno), Wladson Vasconcelos (Wlad), Dayane Rijo (Day), Wagner
Beethoven, Edilane Maria (Edy), Suênnia Brito (Suh), Renata Melo (Iata), Ada
Melo, Amanda Deodato, Juliete Calazans, Darcy Gomes (Paixão), Silvia de Paula
(Silvinha) e Tâmara Cristina.
E a todos que participaram, direta ou indiretamente, da minha formação
acadêmica e pessoal.
“...que seja doce”
Caio Fernando Abreu
RESUMO
Na atualidade várias ferramentas foram criadas para a recuperação da informação
no ambiente Web, bem como para a disponibilização de conteúdos. As
características destas ferramentas influenciam no modelo de indexação utilizado e
na forma que os assuntos serão recuperados. Dessa forma, este trabalho identifica
algumas estratégias e procedimentos que os usuários podem adotar ao
disponibilizar conteúdos no ambiente Web para posterior recuperação no motor
Google. A partir de um levantamento teórico, este estudo explana conceitos da
indexação manual, chegando à abordagem da indexação automática, apresentando
caráter exploratório, cujo delineamento é definido com base em assuntos
relacionados a fontes de informações na Internet, diretórios e motores de buscas.
Os resultados podem possibilitar a remodelagem das home pages, de modo a
melhorar a recuperação, promovendo o desenvolvimento dos métodos que o Google
considera relevante no momento da indexação das páginas, bem como proporcionar
estudos futuros baseados nas ferramentas de recuperação na Web.
Palavras-chave: Recuperação da informação. Indexação automática. Mecanismos
de busca. Google.
ABSTRACT
Currently several tools have been created for information retrieval in the Web
environment as well as to the availability of content. The characteristics of these
tools influence the indexing model used and the way the issues will be
recovered. Thus, this work identifies some strategies and procedures that users can
adopt to make content available in the Web environment for later retrieval engine
Google.From a theoretical approach, this study explains the concepts of manual
indexing, reaching approach to automatic indexing, with exploratory, whose design
is defined based on subjects related to information sources on the Internet,
directories and search engines.The results help to remodel the home pages in order
to improve recovery, promoting the development of methods that Google considers
when indexing relevant pages as well as providing future studies based on the
recovery tools on the Web.
Keywords: Information retrieval. Automatic indexing. Search engines. Google.
LISTA DE ILUSTRAÇÕES
FIGURA 1
SISTEMA DE COMUNICAÇÃO NÃO-HIERÁRQUICA
p. 22
FIGURA 2
COMPONENTES DE UM SISTEMA DE RECUPERAÇÃO DA p. 32
INFORMAÇÃO
FIGURA 3
PESQUISA DO TERMO “SEDE” NO GOOGLE
p. 43
FIGURA 4
PESQUISA SOBRE CULINÁRIA CHINESA
p. 47
FIGURA 5
PESQUISA SOBRE CULINÁRIA ITALIANA
p. 47
FIGURA 6
TAG TITLE
p. 49
FIGURA 7
TOPO DA PÁGINA
p. 50
FIGURA 8
SITE DO BOL
p. 52
FIGURA 9
HTML DO SITE DO BOL - META KEYWORDS
p. 53
FIGURA 10
CÁLCULO DO PAGERANK
p. 57
FIGURA 11
BUSCA EXATA REALIZADA NO GOOGLE
p. 59
FIGURA 12
IMAGEM EXTRAÍDA DA HOME PAGE DO EXTRALIBRIS p. 65
CONCURSOS
FIGURA 13
CÓDIGO FONTE - EXTRALIBRIS CONCURSOS
p. 66
FIGURA 14
IMAGEM EXTRAÍDA DA HOME PAGE DO CFB
p. 67
FIGURA 15
IMAGEM EXTRAÍDA DA HOME PAGE DO BSF
p. 69
FIGURA 16
META TAG DESCRIPTION - BSF
p. 69
FIGURA 17
IMAGEM EXTRAÍDA DA HOME PAGE DO BITI
p. 71
FIGURA 18
META TAGS DESCRIPTION - BITI
p. 71
FIGURA 19
IMAGEM EXTRAÍDA DA HOME PAGE DA FEBAB
p. 74
FIGURA 20
IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA DIGITAL DE p. 75
BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
FIGURA 21
TAG TITLE REVISTA DIGITAL DE BIBLIOTECONOMIA E p. 76
CIÊNCIA DA INFORMAÇÃO
FIGURA 22
META TAG DESCRIPTION - REVISTA DIGITAL
BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
FIGURA 23
DESCRIÇÃO DA REVISTA DIGITAL DE BIBLIOTECONOMIA E p. 76
CIÊNCIA DA INFORMAÇÃO
DE p. 76
FIGURA 24
IMAGEM EXTRAÍDA DA HOME PAGE DOS PERIÓDICOS UFSC
p. 78
FIGURA 25
META TAGS DESCRIPTION E KEYWORDS - PERIÓDICOS UFSC
p. 79
FIGURA 26
META TAG DESCRIPTION - WEB LIBRARIAN
p. 79
FIGURA 27
IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA CIÊNCIA DA p. 81
INFORMAÇÃO
FIGURA 28
IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA ABC
p. 83
LISTA DE GRÁFICOS
GRÁFICO 1
PERCENTUAL - TAG TITLE
p. 87
GRÁFICO 2
PERCENTAGEM META TAG DESCRIPTION
p. 88
GRÁFICO 3
PERCENTAGEM META TAG KEYWORDS
p. 88
LISTA DE QUADROS
QUADRO 1
EVOLUÇÃO DA INTERNET E WEB
p. 25
QUADRO 2
QUADRO COMPARATIVO DA EVOLUÇÃO DA INTERNET
p. 26
QUADRO 3
EVOLUÇÃO DA WEB
p. 28
QUADRO 4
DIFERENÇAS ENTRE DIRETÓRIOS E MOTORES DE BUSCA
p. 44
QUADRO 5
MÉTODOS DE REFINAMENTO DA PESQUISA NO MOTOR p. 60
GOOGLE
QUADRO 6
PALAVRAS-CHAVE
CONCURSOS
QUADRO 7
PALAVRAS-CHAVE RELACIONADAS AO CONSELHO FEDERAL p. 68
DE BIBLIOTECONOMIA
QUADRO 8
POSIÇÃO DOS RESULTADOS - BSF
p. 70
QUADRO 9
POSIÇÃO DOS RESULTADOS - BITI
p. 73
QUADRO 10
PALAVRAS-CHAVE RELACIONADAS AO BITI
p. 73
QUADRO 11
PALAVRAS-CHAVE RELACIONADAS A FEBAB
p. 75
QUADRO 12
POSIÇÃO DOS RESULTADOS - REVISTA DIGITAL
BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
QUADRO 13
PALAVRAS-CHAVE RELACIONADAS A REVISTA DIGITAL DE p. 78
BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
QUADRO 14
PALAVRAS-CHAVE RELACIONADAS AOS PERIÓDICOS UFSC
p. 79
QUADRO 15
POSIÇÃO DOS RESULTADOS – WEB LIBRARIAN
p. 81
QUADRO 16
PALAVRAS-CHAVE RELACIONADAS À WEB LIBRARIAN
p. 81
QUADRO 17
POSIÇÃO DOS
INFORMAÇÃO
QUADRO 18
PALAVRAS-CHAVE RELACIONADAS À REVISTA CIÊNCIA DA p. 83
INFORMAÇÃO
QUADRO 19
POSIÇÃO DOS RESULTADOS – REVISTA ABC
p. 85
QUADRO 20
PALAVRAS-CHAVE RELACIONADAS À REVISTA ABC
p. 85
QUADRO 21
QUADRO EXPLICATIVO – ANÁLISE DOS SITES
p. 86
QUADRO 22
QUADRO PERCENTUAL DA RELEVÂNCIA OU NÃO RELEVÂNCIA p. 86
DOS CRITÉRIOS
RELACIONADAS
RESULTADOS
–
AO
REVISTA
EXTRALIBRIS p. 67
CIÊNCIA
DE p. 77
DA p. 83
LISTA DE SIGLAS
AI
Arquitetura da Informação
ALIWEB
Archie-Like Indexing on the Web
ARPA
Advanced Research Projects Angency
BBN
Bolt, Beranek e Newman
BITI
Biblioteconomia, Informação & Tecnologia da Informação
BSF
Bibliotecários sem fronteiras
CERN
Conseil Europene pour la Recherche Nucleare
CFB
Conselho Federal de Biblioteconomia
EUA
Estados Unidos da América
FEBAB
Federação Brasileira de Associações de Bibliotecários, Cientistas da
Informação e Instituições
HTTP
Protocolo de Transferência de Hipertexto
IBICT
Instituto Brasileiro de Informação em Ciência e Tecnologia
IP
Internet Protocol
KWIC
Key word in context
NASA
National Aeronautics and Space Administration
NLS
OnLine System
NSF
National Science Foundation
RI
Recuperação da Informação
TCP
Transmission Control Protocol
W3C
World Wide Web Consortium
WWW
World Wide Web
SUMÁRIO
1
INTRODUÇÃO
2
UM BREVE HISTÓRICO DA EVOLUÇÃO E DO SURGIMENTO DA p. 20
INTERNET E DA WEB
2.1
A Web como fonte de informação
p. 28
3
COMO OS MECANISMOS DE BUSCA INDEXAM A WEB?
p. 31
3.1
Recuperação da Informação
p. 31
3.1.1
Recuperação da Informação na Internet
p. 33
3.2
Indexação: conceitos
p. 35
3.3
Diretórios de Busca e Motores de Busca
p. 38
3.4
Métodos de indexação na Web dos mecanismos de busca
p. 44
4
O GOOGLE
p. 54
4.1
Como o Google indexa?
p. 55
4.2
Métodos de recuperação no Google
p. 58
5
ANÁLISE DOS SITES
p. 61
5.1
Procedimentos metodológicos
p. 61
5.2
Análise dos dados
p. 85
6
CONSIDERAÇÕES FINAIS
p. 89
REFERÊNCIAS
p. 17
p. 91
17
1 INTRODUÇÃO
Não se pode negar a influência considerável da tecnologia nos processos de
indexação, armazenamento e recuperação da informação. Por volta do século XX,
depois da segunda grande Guerra Mundial, um fenômeno ficou conhecido como
“explosão documental”, em razão da produção em massa de todo tipo de registro
informacional (BIBLIOTECA, 2007). As tecnologias de informação surgiram, então,
nesse processo, como tentativa de organizar documentos contidos em sistemas
analógicos. Visto que, por meio dela os usuários teriam a capacidade de encontrar,
identificar, selecionar e obter a informação desejada, elaborando meios que
permitissem o acesso, “principalmente em uma sociedade onde a explosão
documental atingiu seu ápice e os usuários sozinhos não conseguem obter as
informações desejadas” (MAIMONE; SILVEIRA, 2007, p. 55).
A Internet (rede mundial de computadores), hoje mundialmente conhecida,
nasceu durante a guerra fria como arma estratégica e com finalidades militares,
sendo uma forma de comunicação entre as forças armadas norte-americanas. Em
1957 a antiga União Soviética lançou o primeiro satélite, o Sputnik, e como reação
ao avanço da tecnologia russa, os EUA (Estados Unidos), em outubro do mesmo ano,
divulgam a criação da Advanced Research Projects Angency (ARPA), que tinha como
objetivo central a pesquisa e o desenvolvimento de tecnologia para aplicações
militares. Posteriormente a ARPA se une a universidades, institutos de pesquisa e à
empresa Bolt, Beranek e Newman (BBN), passando a ser chamada, a partir dia 1ª
de dezembro de 1969, de ARPANET. A ARPANET era uma estrutura de comunicação
que utilizava a rede telefônica normal para conectar a rede de computadores.
Durante o período compreendido entre as décadas de 1970 e 1980, a Internet ganha
mais uma característica além da militar, passando a ser um importante meio de
comunicação acadêmica, oferecendo a troca de estudos entre os pesquisadores em
formato de arquivos pré-estabelecidos, mas essa comunicação se limitava às
Universidades e pessoas que dominassem o sistema da rede.
Com desenvolvimento da Internet, foi exigido um ambiente que tornasse a
“navegação” mais interativa, interligando conhecimentos de forma mais fácil à
compreensão, ou seja, depois da criação e uso contínuo da Internet sentiu-se
18
necessidade
da
existência
de
um
sistema
que
tornasse
mais
fácil
o
compartilhamento de documentos. Com isso, no ano de 1991, Tim Berners-Lee
apresenta ao mundo resultados de estudos iniciados no ano de 1989, a Web. A ideia
tornou a Internet mais dinâmica, transformando-a em uma ferramenta popular
considerada uma fonte valorosa de informação, disponibilizando textos, imagens,
sons, fotos, vídeos, músicas, animação, multimídia, etc.
Com a revolução provocada pela Internet e, consequentemente, o
surgimento da Web, a troca de informações tomou diretrizes que não foram
traçadas por outro meio de comunicação, pois se tornou um dos principais
mecanismos de disseminação da informação. Desse modo, cotidianamente o
número de páginas disponíveis aumenta, chegando a estimativa do surgimento de
320 milhões de endereços por semana, mas somente 20% desse conteúdo estará
online dentro do prazo de um ano, o que demonstra a dinâmica existente em
termos de crescimento e de mudanças na Web (BRAND; FARIA, 2006), refletindo
consideravelmente nas formas de se buscar a informação no ambiente virtual.
Diante desse emaranhado de dados e informações, muitos indivíduos
passaram a considerar a Web como sendo a extensão da biblioteca, favorecido pela
facilidade de acesso e pelo tempo real que a informação pode ser disponibilizada.
Toda essa disponibilização exige uma lógica organizacional, onde as informações
possam ser recuperadas de modo a responder as necessidades exigidas. Essa
infinidade de dados e informações ocasiona extremas dificuldades no julgamento
da credibilidade da informação recuperada, visto que a Internet muitas vezes
oferece fontes não confiáveis, necessitando da aplicação ou estabelecimentos de
filtros de qualidades.
Atualmente, há motores de busca que estão sendo desenvolvidos com o
propósito de auxiliar a recuperação da informação na Web e as características
destas ferramentas, influenciam diretamente no resultado final da pesquisa. Nesse
contexto, a empresa Google é fundada, tendo como objetivo principal dos seus
fundadores, Larry Page e Sergey Brin, organizar as informações do mundo todo e
torná-las acessíveis e úteis em caráter universal. Desde então, a empresa vem
estudando e fornecendo abordagens para a recuperação mais precisa da
informação, sendo o principal mecanismo de pesquisa no ambiente Web nos dias
atuais.
19
Mesmo usando técnicas sofisticadas para indexar conteúdos e recuperando
páginas que sejam tanto importantes como relevantes à busca, é possível usar
alguns artifícios para facilitar a recuperação de conteúdos através das buscas
realizadas no Google. Mas será que as informações disponibilizadas pelos usuários
são facilmente recuperadas pelo sistema Google? Existem formas para que uma
página seja recuperada com mais facilidade assim que solicitada a pesquisa? Desse
modo, o objetivo deste trabalho é identificar algumas estratégias e procedimentos
que os usuários podem adotar ao disponibilizar conteúdos no ambiente Web para
que sejam, posteriormente, recuperados de forma mais precisa quando buscados
através do motor Google. Para que fosse colhida uma amostra significativa e não
aleatória, foram analisados sites relacionados a assuntos de Biblioteconomia.
A partir dessas considerações, este trabalho se justifica na medida em que
proporcionará reflexões ao modelo de indexação utilizado pelo Google, o que pode
contribuir ou despertar interesse sobre o assunto, visto que, na Internet há
variadas formas de acesso e disponibilização de documentos e, através deste
estudo, será possível reconhecer as potencialidades de recuperação dos sites
quando buscados pelo Google. Dessa forma, os usuários, possivelmente, ao
submeterem conteúdos, utilizarão métodos que o Google considera relevante no
momento da indexação das páginas.
Propõe-se, ainda, significativa relevância no campo da recuperação da
informação, uma vez que representa a possibilidade de contribuição teórica ao
trabalho realizado na Internet, baseado nas ferramentas de recuperação da
informação no ambiente Web, o que possibilitará pesquisas posteriores na área.
Com base nesse raciocínio, este estudo se explica, ainda, como um esforço
preliminar para obtenção de conhecimento da necessidade de se conhecer melhor
as variáveis que a profissão de bibliotecário pode apresentar, ou seja, pesquisas
ligadas a tecnologias e não só vinculadas à estrutura física da unidade de
informação.
20
2 UM BREVE HISTÓRICO DA EVOLUÇÃO E DO SURGIMENTO DA INTERNET E DA
WEB
O surgimento da Internet e da Web (World Wide Web ou WWW) alavancou
novos conceitos na organização, disponibilização e recuperação da informação. Se
antes os indivíduos transmitiam dados através de carta, telefone, televisão, rádio e
outros meios de comunicação, hoje, além dos meios antigos, a sociedade utiliza
novos elementos, que além de serem mais rápidos, também oferecem recursos
mais interativos. Segundo Balan (2006, p. 3), a Web e a Internet se tornaram para a
vida moderna “tão essencial quanto a energia elétrica, telefone, geladeira, fogão e
outras tecnologias a serviço do homem”.
As chamadas “tecnologias da informação” surgiram devido ao fenômeno da
explosão informacional verificado a partir do início da segunda metade do século
XX, servindo de suporte para a criação da rede mundial de computadores. A
interface gráfica da Internet, a World Wide Web, surge em 1991, mas desde então
vem se desenvolvendo com rapidez, visto que tenta abranger todos os serviços
atualmente demandados (VIANA, 1996). A Web atual comporta e oferece suporte
ao uso de correio eletrônico, comunicação instantânea, compartilhamento de
arquivos e etc., devido a estrutura amigável e de fácil compreensão apresentada.
Em outras palavras, a WWW visa ofertar formas gráficas à Internet, ou seja, a
Internet seria uma forma estrutural que proporciona apoio ao ambiente Web,
permitindo o acesso a informações e a transferência de dados.
[...] talvez essa configuração e essa dinâmica sejam responsáveis
pela grande aceitação [...] alcançada nos nossos dias, se prestando
a tornar o ambiente computacional mais amigável e interativo. A
Internet [...] começou realmente a se popularizar depois que a
WWW (World Wide Web) foi desenvolvida. A rede das redes (a
Internet) utiliza uma linguagem de rede (hipertexto), onde suas
potencialidades têm melhores condições de ser exploradas. As
informações são recuperadas, não através de um processo
hierárquico linear, fechado, mas por associação. Podemos dizer
que o sucesso dessa linguagem se deva justamente ao fato de
tentar reproduzir o modo pelo qual a mente humana funciona.
(REZENDE, 2000, p. 15).
Apesar de serem usadas como sinônimos há um conceito próprio para a
21
Internet e Web, como também existe uma história para cada uma.
Na realidade, a WWW ou World Wide Web (que quer dizer algo
como “teia de alcance mundial”, em inglês) é um espaço que
permite a troca de informações multimídia (texto, som, gráficos e
vídeo) através da estrutura da internet. É uma das formas de
utilização da Rede, assim como o e-mail (correio eletrônico), o FTP
(File Transfer Protocol) ou outros menos conhecidos atualmente.
(MONTEIRO, 2001, p. 29).
A Internet surgiu em meados dos anos 60 nos Estados Unidos. O termo foi
cunhado com base na expressão inglesa “INTERaction or INTERconnection between
computer NETworks” (PINHO, 2003, p.41), que seria algo como: “Interação ou
interconexão entre redes de computadores”. Mas a sua criação teve como
finalidade o desenvolvimento de mais uma arma de comunicação militar e se deve
exatamente à
[...] reação do governo norte-americano ao Projeto Sputnik da
antiga União das Repúblicas Socialistas Soviéticas (URSS),
capitaniadas pela Rússia, durante a guerra fria, em 1957. O
nascimento da Internet está diretamente relacionado ao trabalho de
peritos militares norte-americanos que desenvolveram a ARPANET,
rede da Agência de Investigação de Projetos Avançados dos Estados
Unidos, durante a disputa do poder mundial com a URSS [...]
Iniciada com objetivos militares, propondo uma sobrevivência aos
elementos partícipes por não estarem conectados de modo
hierárquico, característica marcante daquele setor, a disposição em
rede permitia a não ameaça ao cabeça do programa, caso fosse
atacada. Era crucial que a arquitetura do sistema fosse diferente
daquela apresentada pela rede de telefonia norte-americana.
(ABREU, 2009).
Com esse pensamento, o Departamento de Defesa, composto por um grupo
de
programadores
e
engenheiros
eletrônicos
contratados,
idealizaram
e
desenvolveram um novo conceito de comunicação, onde uma rede transmitiria as
mensagens. Através dessa rede, as mensagens passariam divididas em pequenos
fragmentos, que posteriormente foram chamados de “pacotes”. Dessa forma, as
informações seriam transportadas com agilidade, flexibilidade e com tolerância a
erros, “em uma rede onde cada computador seria apenas um ponto (ou “nó”) que,
se impossibilitado de operar, não interromperia o fluxo das informações”
(MONTEIRO, 2001, p. 27). Em outras palavras, “o sistema seria composto de
interconexões com todos os pontos e dos pontos entre si. É como uma esfera, na
22
qual cada nódulo está conectado com todos os outros e ainda com o central por
múltiplos links” (PINHO, 2003, p. 22). Como demonstra a Figura 1:
FIGURA 1 - SISTEMA DE COMUNICAÇÃO NÃO-HIERÁRQUICA
Fonte: PINHO, JB. (2003, p. 24)
A Internet passou, então, a existir por haver uma necessidade de
compartilhar e receber Informações, ou seja, nasceu do interesse antigo de um
sistema que oferecesse a transferências de mensagens, independentemente da
distância entre o remetente e o destinatário, que apresentasse respostas
momentâneas e seguras. Diante disso, mais tarde, quando a Internet já era usada
com finalidades também acadêmicas, foi percebida a dificuldade de comunicação
proporcionada, pois além dos problemas de gerenciamento, a Internet não oferecia
uma interface gráfica amigável, o que dificultava a sua utilização plena, por tais
razões surgiu a Web.
Tim Berners-Lee, um físico, foi o idealizador da Web que se conhece hoje,
embora a Internet tenha surgido no ano de 1969, a história da Web só começou a
ser realmente traçada no princípio da década de 90, com exatidão no ano de 1991.
Juntamente com o Laboratory for Particle Physics, também conhecido como
Conseil Europene pour la Recherche Nucleare (CERN), Tim Berners-Lee criou um
protocolo com base em hipertexto, Protocolo de Transferência de Hipertexto
(HTTP), ou seja, ele inventou um protocolo que comportasse a publicação de
documentos em formato não linear, permitindo que o leitor avançasse
instantaneamente de um documento eletrônico para outro, o que torna possível a
conexão dos conteúdos (FREOA, 2005). Segundo Pinho (2003), a Web provavelmente
é a parte mais importante da Internet, pois é, fundamentalmente, um modo de
23
organização da informação e dos artigos que estão em rede.
Berners-Lee não foi o criador do hipertexto, ele apenas moldou concepções
anteriores, estabelecidas por outros estudiosos, para desenvolver a WWW. A ideia
central do funcionamento do hipertexto, onde há “associação, ligação, vínculo
entre pensamentos, conceitos, textos, compartilhados a partir de um mesmo
contexto físico-temporal” (REZENDE, 2000, p. 2), se moldou no ano de 1945 por
Vannevar Bush, um matemático e físico renomado, mas o termo “hipertexto” só
passou a ser usado no princípio da década de 1960, quando foi denominado por Ted
Nelson, um filósofo e sociólogo.
Os pensamentos estabelecidos por Bush não podiam ser colocados em
prática, uma vez que a época não fornecia um aparato tecnológico às projeções
sonhadas, fazendo com que se tornassem meras utopias. Bush acreditava no
desenvolvimento informacional e previa que no futuro seria exigida uma forma de
interligar conhecimentos, com esse pensamento, entendia que a época não era
condizente com o que planejava e afirmava que “o somatório das experiências
humanas tem se expandido numa proporção incrível, mas os meios que usamos para
nos movimentar através do labirinto formado pelos itens mais importantes, são os
mesmos utilizados no tempo das caravelas” (BUSH, 1945 apud REZENDE, 2000, p.
6).
Embora Bush seja denominado como o idealizador do Hipertexto, Silva
(2003) explica que alguns estudiosos já haviam concebido a proposta central de
assimilação rápida e fácil de conteúdos e que os conceitos apresentados por Bush
não eram inéditos. Para fazer tais afirmações, Silva (2003) toma como base,
estudos anteriores aos realizados por Bush, tais estudos estariam integrados a
associação de conteúdos, recuperação de dados em microfichas e cooptação de
conhecimentos, dos cientistas H. G. Wells, Emanuel Goldberg e Paul Otlet
respectivamente. Mas vale ressaltar que “Bush faz parte da construção da história
do hipertexto, da Internet e da própria Ciência da informação, mas, pelos registros
obtidos, não há subsídios que o qualifiquem como um marco isolado” (SILVA, 2003,
p. 47).
Segundo Balan (2006, p. 3), Berners-Lee é considerado o “pai” da Web, pois
além de criar e desenvolver o projeto, defendeu o conceito de que a Web seria
capaz de tecer “uma rede extensa de conhecimento humano, podendo ainda, por
24
meio do processamento via máquina, inferir novos conhecimentos”. Até a criação
da Web, a Internet só conectava os principais computadores, formando uma rede
que permitia a comunicação entre si e limitada a usos não comerciais, pois o
patrocínio e o sustento do projeto eram provenientes do governo dos Estados
Unidos, fornecido por três grandes agências governamentais: o National Science
Foundation (NSF), o National Aeronautics and Space Administration (NASA) e o U.
S. Department of Energy (FREOA, 2005).
Apesar de facilitar as operações estabelecidas na Internet, a Web elaborada
por Berners-Lee não se parecia nada com a que se tem hoje, não era possível o uso
do mouse e o sistema também não trabalhava com imagens, apenas texto.
Até o desenvolvimento de programas navegadores, ou browsers,
para as plataformas Windows e Macintosh, o acesso à Internet
através da interface Web era restrito apenas a supercomputadores.
A chegada da Web aos computadores pessoais (PCs) só ocorreu com
o lançamento da versão do navegador Mosaic do NCSA (National
Center for Supercomputing Applications) em 1993. Desde então,
uma multidão de outras empresas, notadamente a Netscape com o
seu Netscape Navigator e, com algum tempo de atraso, a Microsoft
com o Internet Explorer, desenvolveram também programas de
navegação similares. (BAX, 1998, p. 7).
A partir do livro “Weaving the Web: the original design and ultimate destiny
of the World Wide Web", de Tim Berners-Lee, Bastos (2006) elaborou uma síntese
chamada “Breve história da World Wide Web” e com base nesse texto, foi possível
organizar o Quadro 1 que tenta resumir um pouco a evolução da tecnologia de
comunicação digital. Através desse quadro, será possível compendiar um pouco os
acontecimentos ocorridos, passando pelo protótipo do sistema Memex (aparelho
leitor de microfilmes e que incorpora mídias de áudio e imagem) até o ano de
1994, quando é criado o primeiro site que apresentava como base o procedimento
desenvolvido no sistema WWW.
25
ANO
1945
1960
1960
1969
1971
1974
1978
1980
1989
09/1990
10/1990
11/1990
11/1990
03/1991
02/1992
1992
1992
03/1993
04/1993
1994
1994
10/1994
ACONTECIMENTO
Vannevar Bush descreve um sistema chamado “Memex” que permite fazer
e seguir links entre documentos armazenados em microfilme
Doug Engelbart produz um sistema chamado “oNLine System” (NLS) que
permite fazer e seguir links em documentos de texto. Para tornar o sistema
mais prático inventa o mouse
Ted Nelson fala pela primeira vez no termo “hypertext”
É criada a ARPAnet. Primeiros computadores ligados entre si
Ray Tomlinson inventa o e-mail para trocar mensagens através da rede
Vint Cerf e Bob Kahn publicam “A Protocol for Packet Network
Interconnection”, o qual especifica o “Transmission Control Protocol (TCP)
TCP é dividido em TCP (Transmission Control Protocol) e IP (Internet
Protocol)
Tim Berners-Lee (a trabalhar no CERN) escreve um programa chamado
“Enquire-Within-Upon-Everything”, que permite estabelecer links entre
diversos nós. Cada nó tem um título
Tim Berners-Lee escreve “Information Management: A Proposal”. O
documento é posto a circular pelo CERN
Mike Sendall (o chefe de Tim Berners-Lee) dá luz verde para o projeto da
Web avançar.
Tim Berners-Lee começa a trabalhar na implementação de um “browser +
editor” usando o ambiente NeXTStep. Chama o programa de
“WorldWideWeb”
Primeiro servidor web: nxoc01.cern.ch (mais tarde fica: info.cern.ch);
Primeira
página
web:
http://nxoc01.cern.ch/hypertext/WWW/TheProject.html
Nicola Pellow (uma estudante) ajuda Tim Berners-Lee e começa a trabalhar
numa implementação de um browser que corre sob a linha de comandos
Browser em linha de comando é posto no ar para computadores vax,
rs6000, e sun4
Browser em linha de comando é anunciado em vários newsgroups e mailing
lists
Alguns estudantes na universidade de Helsinkia escrevem um browser
chamado
“Erwise” com interface gráfica e correndo sobre X-Windows
Pei Wei (estudante em UC Berkeley) escreve browser “ViolaWWW” para
UNIX
(este browser já permitia applets)
Marc Andreesen e Eric Bina (estudantes na Universidade de Illinois)
escrevem o browser “Mosaic”, que corre em diversas plataformas (UNIX,
MAC, Windows).
A grande vantagem do Mosaic foi a sua fácil instalação. Permitiu também a
inclusão de imagens sem ser numa janela separada
CERN permite que qualquer pessoa possa utilizar o código e o protocolo da
Web (HTTP) de graça.
Marc Andreesen deixa o NCSA em Illinois e juntamente com Jim Clark
(fundador da Silicon Graphics) criam a Netscape Corporations
Começam a aparecer os primeiros ISPs
Criado o World Wide Web Consortium (W3C)
QUADRO 1 - EVOLUÇÃO DA INTERNET E WEB
FONTE: ADAPTADO DE BASTOS (2006)
26
Desde então o ambiente Web passou por diversas transformações para se
tornar cada vez mais interativo, o que fez, em 1995, devido ao grande número de
usuários, que a Internet passasse a ser administrada por instituições nãogovernamentais (MONTEIRO, 2001). Essa fácil aceitação se deve a capacidade
associativa estabelecida, visto que a Web apresenta habilidades de integrar um
determinado elemento (palavra, frase, imagem e etc.) de um documento a outro
localizado no mesmo sistema ou afastado por milhares de quilômetros (BAX, 1998).
O usuário, antes só receptor e disponibilizador de documentos pré-estabelecidos,
passou a interagir com as informações contidas nesses documentos e a compartilhar
cada vez mais dados. Segundo Breve (2002), a Web
foi inicialmente concebida com o intuito de compartilhar
informações científicas entre alguns poucos cientistas. O conteúdo
era estático e apenas textual, não havia imagens, sons, animações
ou conteúdo gerado dinamicamente para cada usuário, a interação
era limitada, a navegabilidade era fácil, alto desempenho era
desejável, mas não essencial, os sites eram desenvolvidos por
apenas uma pessoa ou um pequeno grupo. (BREVE, 2002, p. 4).
Hoje os usuários vem utilizando uma Internet mais amigável, diferente da
que foi ofertada em 1969, dessa maneira, depois de alguns entendimentos sobre a
história da Internet e Web, foi possível organizar o Quadro 2, que torna possível
visualizar, sucintamente, as principais características apresentadas pela Internet
em sua criação e nos dias atuais.
Internet sem a Web (Criação)
Sem uso do mouse
Não existiam domínios
Navegação através da digitação de
códigos criptografados
Somente textos
Utilizada apenas pelas universidades e
organismos oficiais, ou seja, acesso
apenas a redes restritas
Acesso somente de pessoas que
conheciam os códigos
Internet com a Web (Dias atuais)
Aceita uso do mouse
Uso de domínios (.com, .net, .org,
.info, .biz, e etc.)
Navegação através de mouse sobre
hipertexto
Textos, imagens, gráficos, animações e
sons
Utilizado por qualquer pessoa que tenha
acesso à rede
Não necessita que as pessoas conheçam
os códigos
QUADRO 2 - QUADRO COMPARATIVO DA EVOLUÇÃO DA INTERNET
Nos atuais dias, novos termos vem surgindo para designar a evolução da
Web, como a Web 2.0, por exemplo. A Web 2.0 seria a segunda geração, onde as
27
formas de publicação, compartilhamento e organização vem se desenvolvendo de
forma a ser cada vez mais interativa e cooperativa. Curty (2008, p. 55), explica que
a Web 2.0 é
[...] uma web mais social, pois envolve mais pessoas; mais
colaborativa, porque todos são partícipes potenciais e tem condição
de se envolver mais densamente; mais apreensível, pois desmistifica
que conhecimentos técnicos sejam necessários para a interação;
uma Web que se importa menos com a tecnologia de informação e
mais com pessoas, conteúdo e acesso.
Na Web 2.0 são os usuários quem controlam seus dados, não dependendo de
softwares, mas sim de conexão com a rede. Aquino (2007, p. 6) diz que os novos
formatos que a Web 2.0 permitem
[...] a visualização dos ideais de Bush e Ted Nelson, ou seja, o
hipertexto é a forma utilizada para a representação, organização e
recuperação das informações e é construído de forma coletiva, já
que os usuários possuem a liberdade de interferir no conteúdo
informacional.
Já existe uma evolução para a Web 2.0, a Web 3.0 ou Web Semântica, que
seria, segundo Curty (2008, p. 75), a extensão da internet atual “em que se busca
atribuir à informação significado definido de forma a integrar computadores e
pessoas”. A Web 3.0 seria a tentativa de organização das informações armazenadas
no ambiente Web, independentemente da forma que apresente (texto, som,
imagem, gráficos, etc.). Essas denominações “2.0” ou “3.0” são apenas
qualificações atribuídas às evoluções dos programas de computadores, mas vem
sendo usadas para designar as novas faces da Web.
Para Curty (2008) a evolução da Web até a versão 3.0 seria descrita
conforme o Quadro 3:
28
Evolução
Web 1.0
Período
1990-2000
Web 2.0
2000-2010
Web 3.0
2005-2020
Serviços/Recursos
Portais,
mecanismos
de
busca
websites,
bases de dados
Características
Publicação
na
Web
controlada por poucos,
complicada
e
tecnologias de alto
custo
Blogs, wikis, RSS, Publicação
na
Web
conexões
via disponível para muitos,
celular,
redes maior
amplitude
e
sociais,
acesso à conexão
bookmarks,
mensagens
instantâneas
Mash ups, busca Integração
uniforme,
semântica Second projeção por persona;
Life e avatares, onipresença/ubiqüidade
tesauros
e virtual
taxonomia
QUADRO 3 - EVOLUÇÃO DA WEB
FONTE: CURTY, R. G. (2008. p. 53-78)
A evolução contínua da Web, segundo Berners-Lee (1999 apud SÁ;
BERTOCCHI, 2006, p. 34), não se trata de uma nova fase, apenas uma atualização
dos conceitos, reaplicações e princípios estabelecidos na criação. A evolução
realmente se deve ao espaço interativo que a Web se tornou, a colaboração entre
as pessoas e a tecnologia disponível. Se na criação Tim Berners-Lee tivesse
disponível o aparato tecnológico atual, a Web teria traçado outros rumos, pois a
Internet de hoje é demonstrada pelo planejamento apresentado no final da década
de 80.
2.1 A Web como fonte de informação
As fontes de informações compreendem diversas formas e variados tipos de
materiais, por isso Cunha (2001) alega que o conceito principal de “fonte de
informação” é muito extenso,
[...] pois pode abranger desde ao contato pessoal, as publicações
impressas até as bases ou bancos de dados online. Observa-se nas
situações de busca e recuperação de informação que algumas fontes
tem predominância sobre outras, segundo o comportamento e a
competência informacional do seu público usuário. (FUJINO;
JACOMINI, 2007, p. 80).
29
Esses materiais abrangem os manuscritos e publicações impressas, além de
objetos, como amostras minerais, obras de arte ou peças museológicas. Cunha
(2001) afirma que as fontes de informação podem ser divididas em três categorias,
são elas: fontes primárias, fontes secundárias e fontes terciárias. Bueno (2009,
p. 71), através de análises conceituais de Campello (1993), Campos (1993), Souza
(1997) e Cunha (2001), conceitua as categorias proposta por Cunha (2001) da
seguinte forma:
As fontes primárias são os documentos que geram análises para
posterior criação de informações e servem para aprofundar o
conhecimento de um tema. São aquelas que contêm informações
originais. As fontes secundárias são as obras nas quais as
informações já foram elaboradas, ou seja, representam a
informação processada e organizada. São os documentos
estruturados segundo padrões rigorosos. As fontes terciárias tem a
mesma função de guiar o usuário para as fontes primária e
secundárias. São os documentos que exercem a função indicativa,
auxiliando o pesquisador a encontrar um dado.
Com os avanços tecnológicos, as formas de acesso às informações mudaram
consideravelmente, se antes os indivíduos procuravam as bibliotecas e os centros
educacionais, com objetivo de realizar uma pesquisa, na atualidade a Internet é
usada como primeira fonte de busca a informação, visto que proporciona acesso
imediato aos interesses dos usuários sobre um determinado assunto. Isso se deve a
procura por respostas mais instantâneas e a forma mais fácil de se obter
informação no ambiente Web.
A Internet, como foi dito anteriormente, surgiu com fins militares, servindo,
posteriormente, a propósitos científicos e acadêmicos, e agora vem se
popularizando e revolucionando o acesso à informação. Teixeira e Schiel (1997)
afirmam que a Internet alcançou esse patamar das fontes de informações, por
colocar a informação ao alcance de todos, a qualquer pessoa, tornando-se uma
biblioteca “cibernética universal”. Entende-se que as ferramentas disponibilizadas
na Web são, sem sombra de dúvidas, uma das melhores formas de se obter
informação, por ser um ambiente colaborativo e de fácil acesso. Segundo Tomaél,
Alcará e Silva (2008, p. 3), a Internet vem sendo
considerada uma fonte valorosa de informação que subsidia – com
seus recursos – desde pesquisas de alta tecnologia até estudantes do
30
ensino fundamental. Os recursos possibilitam a interação com
diversas formas de produção, sejam elas constituídas por textos,
imagens, sons, fotos, vídeos, músicas, animação, multimídia, etc.,
que alcançam o usuário e o envolvem num espaço informacional
com fins múltiplos: trabalhar, estudar, pesquisar, divertir-se, etc.
A Web, como fonte de informação, se tornou um artifício indispensável no
cotidiano. Através das ferramentas disponíveis, há a possibilidade de se chegar à
informação com facilidade e agilidade. Garcia (1997 apud BLATTMANN; FACHIN;
RADOS, 1999, p. 10) diz que essa facilidade e rapidez no acesso à informação,
estimula os usuários a terem uma visão de outras realidades culturais, bem como
aumentar a comunicação interpessoal, interação e integração com outros alunos e
professores, enriquecendo os conhecimentos de forma individual e entre grupos.
Para Noguti (2000, p. 31) “a informação é transmitida através das fontes,
partindo sempre de uma pessoa ou um grupo de pessoas”. Percebe-se, nesse
sentido, que a informação pode ser transmitida de várias formas (som, escrita,
imagem, pintura, fotografias, gráficos, etc.), sendo iniciada a transmissão em um
ponto e chegando a outro. Segundo Fujino e Jacomini (2007, p. 73), quando uma
transmissão acontece, tomando como exemplo a forma escrita, o “outro meio
também passa a compartilhar este poder de ser uma fonte de informação. Assim,
essas fontes se sobrepõem, pois a mesma informação tem a característica de poder
ser transmitida de uma fonte à outra”. Dessa forma, a Web pode ser considerada
como uma fonte de informação, pois oferece as características fundamentais de
transmissão e acesso.
31
3 COMO OS MECANISMOS DE BUSCA INDEXAM A WEB?
A Web se tornou um ambiente democrático e uma ferramenta popular de
simples acesso à informação, onde qualquer indivíduo, com ingresso a rede, pode
buscar ou disponibilizar o conteúdo desejado. Dados comprovam que 88% dos
usuários utilizam os mecanismos de busca para soluções em variadas áreas
(NIELSEN; LORANGER, 2007). Isso se deve ao aumento considerável do número de
páginas online, ficando praticamente impossível o conhecimento de todos os sites
existentes. Os mecanismos de buscas surgiram, então, nesse contexto, como
intermédio entre usuários e estoques de informação.
A Recuperação da Informação (RI) pode ser minimamente conceituada como
a realização da organização e armazenamento da informação para torná-la
acessível. A Indexação seria a inclusão de documentos em um determinado
sistema, identificando-os através da determinação do assunto (descritores) para a
representação posterior. Partindo dessas ideias, nesta seção explicar-se-á como os
mecanismos de busca indexam as páginas disponíveis na Web, mas antes será feita
uma revisão de literatura que abarcará conceitos de Recuperação da Informação e
de Indexação (enfatizando a Indexação Automática e do entendimento dos
Diretórios de Busca e Motores de Busca), para posteriormente analisar as
estratégias recomendadas para que a página seja melhor indexada pelos
mecanismos de busca.
3.1 Recuperação da Informação
Segundo Saracevic (1996), a expressão “recuperação da informação” foi
definida por Calvin Mooers como sendo o englobamento dos aspectos intelectuais
da descrição de informações e suas especificidades para a busca, além de
quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da
operação. Neste contexto, são estudadas técnicas de digitalização de objetos
originados de fontes heterogêneas, técnicas de armazenamento, processos de
busca, recuperação e apresentação de forma amigável das informações, sendo a
32
indexação, ainda, a principal ferramenta para recuperação (CARDOSO, 2000).
O sistema de recuperação da informação deve responder às demandas dos
usuários com tempo de respostas aceitáveis, mas para que isso aconteça, é preciso
que os documentos sejam submetidos a um tratamento prévio que permita “a
extração dos descritores e sua estruturação com vistas a um acesso rápido às
informações” (MAIA; SOUZA, 2010, p. 156). Segundo Teixeira e Schiel (1997) a
recuperação da informação compreende basicamente três etapas: indexar,
armazenar e recuperar. A Figura 2, elaborada por Borsato et al (2006), tenta
exemplificar o real processo de RI, onde a recuperação de informação é
apresentada por meio da compreensão de processos e da produção de artefatos,
que realizam tarefas, tais como: a indexação, a recuperação, a interface entre um
usuário e um sistema de busca.
FIGURA 2 - COMPONENTES DE UM SISTEMA DE RECUPERAÇÃO DA INFORMAÇÃO
FONTE: BORSATO EL AL (2006, p. 33)
Na recuperação da informação o principal desafio é tentar entender a
necessidade de informação do usuário e posteriormente atender, de forma precisa
e rápida, o que foi solicitado. Na RI a unidade básica de acesso à informação é a
palavra (conhecida também como palavra-chave ou termo), pois a partir desta
unidade diversos modelos podem ser desenvolvidos “com o intuito de facilitar o
33
acesso à informação e melhorar a precisão do resultado de uma consulta ou busca”
(BORSATO et al, 2006, p. 1). Segundo Barreto (1996), as medidas que são
tradicionalmente aceitas na avaliação do rendimento operacional dos estoques
informacionais são a Revocação e a Precisão. A Revocação seria a habilidade do
estoque de informação em proporcionar itens relevantes para o receptor e a
Precisão seria a capacidade do estoque de informação em reter itens de
informação não relevantes para o receptor, em outras palavras, a Revocação mede
a proporção de documentos relevantes recuperados e a Precisão mede quantos
documentos relevantes foram recuperados
3.1.1 Recuperação da Informação na Internet
Segundo Lancaster (2004), a recuperação da informação na Internet tem
recursos informacionais diferentes dos utilizados para os registros bibliográficos.
Entretanto, há também algumas semelhanças. A rede mundial de computadores
utiliza: URL, nome do site, quaisquer metadados incluídos nos sites, páginas de
conteúdo (onde os termos que ali ocorrem podem ser considerados um tanto
análogos aos termos de indexação de registros bibliográficos convencionais) e todo
o texto encontrado no site, e os registros bibliográficos utilizam: título, número de
classificação (às vezes), termos de indexação, texto de resumo (embora a
quantidade de texto no site possa ser consideravelmente maior). A diferença entre
a recuperação na Internet e a realizada na maioria dos registros bibliográficos,
seria a existência de apontadores (hipertextos) para outros sites, nos quais os
termos dos vínculos são também pesquisáveis. Neste sentindo, um site não é uma
unidade independente (como um registro bibliográfico comum), mas um nó de uma
rede.
De acordo com Mercado (2002), a Internet faz parte da globalização e é um
meio de comunicação fácil, barata e difundida, sendo uma ferramenta poderosa
que reúne amplo número de informações que não fazem parte de livros. É o que
permite acesso remoto às bases de dados e informações que seriam difíceis de
encontrar. Mercado (2002, p. 193) atribui alguns problemas com a recuperação da
informação na Internet:
34
a) Confusão entre informação e conhecimento – temos muitos dados, muitas
informações disponíveis. Conhecer é integrar a informação no nosso referencial, no
nosso paradigma, apropriando-a, tornando-a significativa para nós. O conhecimento
não se passa, o conhecimento se cria, se constrói;
b) Facilidade de dispersão - muitos usuários se perdem no emaranhado de
possibilidades de navegação. Não procuram o que está combinado deixando-se
arrastar para áreas de interesse pessoal. É fácil perder tempo com informações
pouco significativas, ficando na periferia dos assuntos, sem aprofundá-los, sem
integrá-los num paradigma consistente. Conhecer se dá ao filtrar, selecionar,
comparar, avaliar, sintetizar, contextualizar o que é mais relevante, significativo;
c) Perde-se muito tempo na rede – onde mais se percebe é ao observar a
variedade de listas de discussão sobre qualquer tipo de assunto banal. Dificuldade
de se achar respostas corretas e confiáveis em pouco tempo, sem precisar passar
horas abrindo todos os sites oferecidos pelo serviço de busca;
d) Impaciência – de muitos usuários por mudar de um endereço a outro. Essa
impaciência os leva a aprofundar pouco as possibilidades que há em casa página
encontrada. É difícil avaliar rapidamente o valor de cada página, porque há muita
semelhança estética na sua apresentação: copiam-se os mesmo sites, os mesmos
gráficos, animações, links;
e) Conciliar os diferentes tempos dos usuários – uns respondem imediatamente.
Outros demoram mais, são mais lentos. A lentidão pode permitir um maior
aprofundamento. Na pesquisa individual esses ritmos diferentes podem ser
respeitados. Nos projetos de grupo, isso depende muito do coordenador e do
respeito entre seus membros.
Nesse sentido, Lancaster (2004, p. 341), visando as dificuldades de
recuperação da informação no ambiente Web, tenta relacionar algumas opções
para “refinar” a busca através do emprego de:
35
1. Lógica booleana, inclusive recursos de encaixamento (uso de símbolos para
refinamento da busca, exemplos: and, and not, or);
2. Truncamento (omissão de uma parte essencial do texto. O truncamento não é
automático; ou seja, para obter plurais ou outras variações no termo, deve-se
incluir no término das palavras o caractere asterisco (*) ― após uma raiz de pelo
menos três letras);
3. Busca por expressões (busca feita pela frase apresentada. Destina-se a
informação relacionada a um conceito dado, por exemplo, numa busca sobre
“transporte público” será recuperado informações sobre ônibus e metrô);
4. Proximidade de palavras (a distância máxima entre os dois termos da busca, os
termos serão recuperados imediatamente juntos, um ao outro);
5. Buscas por campos (isto é, poder limitar a busca a um campo especificado no
registro, como título ou URL);
6. Vínculos de hipertexto (isto é, buscar páginas vinculadas a determinado URL);
7. Busca por imagens (capacidade de procurar apenas páginas que contenham
imagens);
8. Consulta por exemplo (capacidade de encontrar registros semelhantes a um
registro já conhecido como interessante).
3.2 Indexação: conceitos fundamentais
O objetivo principal da indexação é assegurar a recuperação de qualquer
documento ou informação no momento em que houver solicitação em um sistema
de informações. Para Cintra (1983), a indexação é definida como a tradução de um
documento em termos documentários, isto é, em descritores, cabeçalhos de
assunto, termos-chave, que têm por função expressar o conteúdo do documento. A
indexação assim é definida como uma “tradução lexical” das unidades lexicais da
língua em que está escrito o documento, para unidades lexicais de uma linguagem
documentária. Ou seja,
a indexação é a operação que consiste em descrever e caracterizar
um documento com o auxilio de representações dos conceitos
36
contidos nesses documentos, isto é, em transcrever para linguagem
documental os conceitos depois de terem sido extraídos dos
documentos por meio de uma análise dos mesmos. A indexação
permite uma pesquisa eficaz das informações contidas no acervo
documental. (RIBEIRO, 2006, p. 1).
A indexação conduz ao registro dos conceitos contidos num documento de
uma forma organizada e facilmente acessível, mediante a constituição de
instrumentos de pesquisa documental, como índices e catálogos alfabéticos. A
informação de um documento é representada, então, por um conjunto de conceitos
ou combinações de conceitos e, a linguagem de indexação seria a transformação
dos conceitos selecionados em termos ou símbolos para a representação da
informação em um determinado sistema. Para Lancaster (2004), a indexação seria
um processo subjetivo em vez de objetivo, onde duas ou mais pessoas
possivelmente divergirão sobre o conteúdo informacional do documento a ser
indexado, havendo prováveis decisões contrárias à indexação em momentos
diferentes. Ainda de acordo com Lancaster (2004), a indexação pode se referir a
coerência, coerência interindexadores e coerência intra-indexar.
A coerência na indexação refere-se à extensão com que existe
concordância quanto aos termos a serem usados para indexar um
documento. A coerência interindexadores refere-se à concordância
entre indexadores, enquanto a coerência intra-indexador refere-se
à extensão com que um indexador é coerente consigo mesmo.
(LANCASTER, 2004, p. 60).
Conforme Lima (2003), a indexação é o procedimento intelectual que
envolve atividades cognitivas a compreensão e a composição da representação da
informação, ou seja, a indexação necessita da utilização de uma estrutura de
linguagem própria para definir a formação de categorias. O processo de indexação
pode ser dividido em três etapas:
análise do documento e estabelecimento do seu assunto: onde se
observa explicitamente a base cognitiva; identificação dos
principais conceitos do documento: onde são utilizados o
intelecto do indexador e o seu conhecimento prévio armazenado na
memória, que é comprometido pelas suas representações
possuidoras de forte carga emotiva, influenciando as suas decisões,
uma vez que percepção, emoção, atitudes, linguagem e
desenvolvimento mental são considerados no estudo da formação
de conceitos; tradução destes conceitos em termos de uma
linguagem de indexação: que envolve a interpretação do conteúdo
37
do texto. (LIMA, 2003, p. 80).
Segundo Lancaster (2004), há dimensões da indexação: a Exaustividade, a
Seletiva e a Especificidade. A exaustividade é quando se atribui mais termo a
indexação, a seletiva é quando menos termos são incluídos e a especificidade se
refere ao conceito da segunda dimensão da indexação – quando um documento
precisa ser indexado com o termo mais específico que o compreenda
integralmente.
A indexação exaustiva implica o emprego de termos em número
suficiente para abranger o conteúdo temático do documento de
modo bastante completo. A indexação seletiva, por outro lado,
implica o emprego de uma qualidade muito menor de termos, a fim
de abranger somente o conteúdo temático principal do documento.
Quanto mais termos forem utilizados para indexar um documento
mais acessível ele se tornará e, provavelmente, mais será
recuperado. (LANCASTER, 2004, p. 23).
Através da indexação é possível se obter um aproveitamento muito melhor
no processo de busca e Recuperação da Informação, uma vez que, o elemento
principal/fundamental
estabelecido
é
a
representação
do
conteúdo
dos
documentos (ARAÚJO JÚNIOR, 2007). Em síntese, indexar seria a substituição do
texto de um documento por uma descrição do conteúdo tratado, com o objetivo de
expor do que se trata. Segundo Bruzinga, Maculan e Lima (2007), existem pelo
menos duas formas para se fazer a análise do conteúdo semântico de um
documento: indexação manual e indexação automática.
A indexação manual ou controlada seria a seleção cuidadosa da terminologia
empregada, realizada por um indexador que escolhe um conjunto de termos para
representar o conteúdo de um documento. Na segunda forma de indexação, a
chamada automática, cada palavra presente no texto tem a capacidade de
estabelecer uma entrada no índice, sendo desempenhada por um sistema
computacional. Castro (2001) afirma que vários estudiosos são defensores da
indexação automática e que criticam consideravelmente a indexação manual. O
autor coloca, ainda, que esse tipo de indexação é subjetiva, lenta, custosa e,
geralmente, inconstante e de custo alto.
O princípio da indexação automática remonta aos últimos anos da
38
década de 50, quando Luhn apresentou o índice KWIC (key word in
context), no qual as palavras do título que servem de entradas no
índice são identificadas automaticamente a partir da eliminação das
palavras não significativas, por comparação com uma lista de
palavras vazias de significado, estabelecida previamente. A idéia de
condensar um texto até reduzi-lo unicamente aos termos realmente
significativos é, por outro lado, muito mais antiga, e todos nós a
temos aplicado quando redigimos o texto de um telegrama ou de um
telex. (ROBREDO, 1991, p. 130).
A indexação automática pode ser dividida em indexação por extração
automática e indexação por atribuição automática. A indexação automática por
extração é aquela que, por métodos estatísticos, pode extrair palavras com certo
grau de ocorrência em um documento. Este processo pode consistir em grande
subsídio para um indexador identificar possíveis descritores no texto avaliado
(indexação semi-automática), ou anunciar um termo a ser modificado para virar um
descritor. A indexação automática por atribuição é a que mais se aproxima ao
processo de indexação humana, pois são atribuídos outros conceitos aos termos
escolhidos, na maioria das vezes, vinculados a um vocabulário controlado, o que
oferece a termos repetidos detectados por um sistema, novos termos relacionados
e paralelos, acrescentando novos valores à indexação automática realizada no
primeiro momento (LANCASTER, 2004).
3.3 Diretórios de busca e motores de busca da Web
Os diretórios e motores de busca são sistemas desenvolvidos para facilitar a
busca e, posteriormente, a recuperação das informações disponibilizadas no
ambiente Web. Segundo Yamaoka (2003), os diretórios surgiram logo após a criação
da WWW, tendo como objetivo fundamental melhorar a localização das
informações, mas devido ao crescimento e a dificuldade de manter atualizadas as
listas de endereços das páginas da Web, percebeu-se a necessidade de desenvolverse métodos automáticos, surgindo então os motores de busca que localizam as
páginas através da indexação não humana. Desta forma, a diferença básica entre os
diretórios e os motores de busca é que os diretórios são compilados por pessoas,
enquanto os mecanismos de busca são automatizados.
A seguir serão explicados, de que forma pormenorizada, as características
39
dos diretórios e motores de busca.
a) Diretórios de Busca
Os diretórios de busca são listas de assuntos organizadas em categorias,
geralmente com uma estrutura hierárquica (árvore), formados por extensos bancos
de sites que arranjam as informações por assunto, o que permite a busca em
categorias e subcategorias.
Ao utilizar diretórios de assuntos, observa-se que existem 2 tipos
básicos: acadêmicos e comerciais, onde os interesses podem variar
deste o uso intensificado, monitorado, selecionado, etc.
Geralmente os diretórios acadêmicos preocupam-se em selecionar
links pela qualidade do site. Portanto, o diretório de assuntos é um
serviço que oferece uma coleção de links dos recursos Internet
submetidos pelo site, criadores ou avaliadores e organizados em
categorias de assuntos (áreas específicas). Os diretórios utilizam
critérios de seleção para os links a serem incluídos. Cabe mencionar
que nenhum diretório de busca tem categorizada todas as
informações existentes na Web e, gradativamente surgem novas
iniciativas compilando informações em áreas especializadas do
conhecimento e direcionados a determinado público-alvo (crianças,
pesquisadores,
organizações
não-governamentais,
etc.).
(BLATTMANN; FACHIN; RADOS, 1999, p. 19).
Nos diretórios os usuários optam por um tópico e passam a percorrer a
síntese de classificação, clicando com o mouse nas diferentes divisões e
subdivisões, adentrando em um grau cada vez mais particular até atingir à
categoria almejada. Os catálogos são recomendados para pesquisas de assuntos
amplos, uma vez que seu raio de compreensão é menor e, desta maneira,
possibilita uma filtragem mais eficaz no resultado da busca (BARROS, 2002). Por
demandarem um processo manual de indexação, os diretórios compreendem um
universo mais restrito da Web, quando confrontados com os motores de busca
fundamentados em palavras.
b) Motores de Busca
Os motores de busca são, na atualidade, os artifícios mais usados para se
recuperar informação na Internet, dada a diversidade apresentada de conteúdos e,
consequentemente, o grande volume de páginas disponíveis. Graças as formas que
40
os motores de busca utilizam para indexar páginas da Web, é possível a realização
da pesquisa e, posteriormente, o acesso a informação de forma mais hábil.
A indexação automática de páginas da Web é fundamental para recuperação
de informações, pois através dela é possível estabelecer critérios para redução da
quantidade dos resultados da pesquisa, tornando os itens recuperados mais
relevantes. A indexação automática feita pelos mecanismos de busca é objeto de
estudo de várias áreas, mas vale ressaltar que se trata de um assunto diretamente
ligado aos profissionais da computação. Entretanto na atualidade vem se exigindo o
estabelecimento de uma ponte entre a Ciência da Informação e Ciência da
Computação, para que esses profissionais possam organizar dados e informações de
forma a otimizar os resultados da recuperação (ROBREDO, 2005).
Segundo Robredo (2005), os motores de busca surgiram na década de 1970 e
desde a sua criação, vem tendo como objetivo a busca de conteúdos que
satisfaçam a critérios específicos. O ALIWEB (Archie-Like Indexing on the Web) e o
Harvest1 são exemplos das primeiras tentativas para criar motores de busca
baseados em palavras-chave, mas o primeiro dos motores baseados em robôs2 foi o
WebCrawler, lançado em abril de 1994 (CENDÓN, 2001). Todos os motores atuais
utilizam o método de robôs, composto por quatro componentes: “um robô, que
localiza e busca documentos na Web; um indexador, que extrai a informação dos
documentos e constrói a base de dados; o motor de busca propriamente dito; a
interface, que é utilizada pelos usuários” (CENDÓN, 2001, p. 41).
A expressão “motor de busca” refere-se geralmente ao aplicativo capaz de
buscar informações na Web, observando-se que existem outros tipos de motores
que pesquisam via Internet (ou Intranet) em bancos de dados corporativos ou
privados que possuem seus próprios motores de busca. Esses seriam “os grandes
bancos de dados, altamente especializados, que somente podem ser acessados
1
O ALIWEB e o Harvest utilizavam tecnologias diferentes das atuais.
Os robôs, também chamados de aranhas (spiders), agentes, viajantes (wanderers), rastejadores
(crawlers) ou vermes (worms), são programas que o computador hospedeiro da ferramenta de busca
lança regularmente na Internet, na tentativa de obter dados sobre o maior número possível de
documentos para integrá-los, posteriormente, à sua base de dados. Existem várias estratégias que
os robôs podem utilizar para se locomoverem de um documento a outro, utilizando-se
dos links existentes nas páginas da Web. Geralmente, eles iniciam a busca a partir
de sites conhecidos, especialmente daqueles que possuem muitos links, recuperam a sua home
page e, sistematicamente, seguem os linksencontrados nesta página inicial. Usam algoritmos
próprios para determinar que linksdevem seguir. Por exemplo, alguns recuperam os documentos da
hierarquia superior de um grande número de servidores (abordagem breadth-first), enquanto outros
capturam todos os documentos em links de um mesmo servidor (abordagem depth-first) (CENDÓN,
2001, p. 41).
2
41
mediante assinatura” (ROBREDO, 2005, p. 333)3.
O Motor de busca é uma espécie de catálogo mágico. Mas diferente
dos livros de referências comuns, nos quais está acessível a
informação que alguém organizou e registrou, o catálogo do motor
de busca está em branco, como um livro vazio. Ao se realizar uma
consulta, a lista de ocorrência de assunto é criada em poucos
segundos por meio do trabalho de um conjunto de softwares de
computador conhecidos como spiders (aranhas), que vasculham toda
a Web em busca das ocorrências de um determinado assunto em
uma página. Ao encontrar uma página com muitos links, os spiders
embrenha-se por eles, conseguindo, inclusive, vasculhar os
diretórios internos – desde que eles sejam públicos, ou seja, tenham
permissão de leitura para usuários – dos sites nos quais estão
trabalhando. Motores de busca muito refinados são capazes de saber
exatamente que atualizações houve em um site usando esse método
de scanner. (CARMONA, 2006, p. 9).
Ao contrário dos diretórios, os motores não organizam hierarquicamente as
páginas dos sites; os diretórios se preocupam menos com a seletividade que com a
abrangência de suas bases de dados, procurando reunir o maior número admissível
de recursos através do uso de softwares (robôs). Como suas bases de dados são
extremamente amplas, tendo a capacidade de organizar centenas de milhões de
itens, os motores de busca permitem que os usuários localizem os itens desejados
mediante buscas por palavras-chave, ou, às vezes, em linguagem natural (CENDÓN,
2001). Os robôs modernizam um índice cotidianamente, sendo determinado como
arquivo invertido. Esse arquivo invertido é constituído por três conjuntos:
[...] o conjunto das palavras indexadas, o conjunto dos endereços
das páginas visitadas pelo robô e um conjunto composto por
relacionamentos binários entre uma palavra do conjunto de palavras
e um endereço do conjunto de endereços, em que cada
relacionamento indica que a página do referido endereço contém a
referida palavra. (ROCHA, 2004, p. 110).
Neste conjunto, os motores de busca trabalham com algoritmos para indexar
as informações que podem ser recuperadas através do ambiente Web. Esses
algoritmos fazem com que as páginas, consideradas mais relevantes, estejam no
início da lista do resultado da busca, de forma que determinem a relevância.
Segundo Costa e Silva (2001, p. 2), é traçado um ranking de recuperação da
informação que envolve três tipos de algoritmos: conteúdo, estrutura de links e
3
Neste estudo só será analisado o motor de busca Google.
42
interação.
Conteúdo: analisam toda a informação que se pode extrair do
próprio documento, como por exemplo, títulos e texto. Procura-se
em geral a conjugação entre os termos das pesquisas e os termos
dos conteúdos; estrutura de links: analisam a interligação entre as
diversas páginas na WWW, que pode ser vista como um grafo, sendo
as páginas os nós e os links as suas arestas. Esta estrutura pode
servir para inferir estimativas da importância relativa das páginas;
interação: analisam a informação obtida a partir do registro das
interações dos utilizadores com o motor de busca.
Robredo (2005) afirma que o alicerce do funcionamento dos motores de
busca, tem como base alguns ou vários princípios, que apresentam características
especificas, tais como:
Armazenam informações sobre grandes quantidades de páginas Web
recuperadas na rede, cujo conteúdo é analisado e as páginas
indexadas pelo título, cabeçalhos e metadados, e os dados sobre as
páginas armazenados em bases de dados indexadas (arquivos
invertidos, por exemplo), para utilização em pesquisas posteriores;
As palavras-chave utilizadas pelo usuários em suas perguntas são
comparadas com as entradas das bases de dados indexadas, para
seleciona as páginas pertinentes; ordenam as páginas recuperadas
segundo critérios de maior ou menos relevância que variam,
naturalmente, de um motor e busca a outro. Um critério pode ser a
coincidência das páginas encontradas em pesquisas recentes como
resposta a perguntas com palavras-chave-semelhantes. (ROBREDO,
2005, p. 334).
A Internet tem sido de grande valia na busca por informações, mas a
recuperação de conteúdos através dos motores de busca, embora haja evolução
contínua da tecnologia, ainda apresenta resultados não tão satisfatórios,
principalmente se a consulta for muito complexa. Nos sistemas genéricos, como os
buscadores comuns na Internet, não são raras as respostas sem relevância ao
interesse real do usuário, pois não consideram o contexto específico (AMORIM;
CHERIAF, 2007).
Apesar da incontestável utilidade dos buscadores online, as páginas “boas” e
as páginas “ruins” se misturam e apresentam resultados dúbios. A grande
problemática seria que os usuários normalmente só consideram a(s) primeira(s)
páginas(s) como relevante(s) não aprofundando ou refinando a pesquisa (ROBREDO,
2005). Loh, Wives e Frainer (1997) corroboram com a ideia de Robredo (2005),
43
considerando, ainda, os usuários inexperientes ou leigos, tanto no assunto que
procuram quanto na utilização da ferramenta em si, ou seja, alguns usuários, pelo
não conhecimento das ferramentas de refinamento, fazem pesquisas que podem
retornar muitos documentos sem ter a certeza de que a informação desejada se
encontra em algum deles, em outras palavras, nos motores de busca, por exemplo,
a palavra “sede” pode ser tanto a vontade de beber (1), como o local onde
funciona uma organização (2), conforme a Figura 3.
1
2
FIGURA 3 – PESQUISA DO TERMO “SEDE” NO GOOGLE
Alguns motores também não permitem a busca através de propriedades
atribuídas ao documento (ROCHA, 2004). Isto acontece porque a técnica de
indexação é baseada, geralmente, na presença de termos nos documentos. Assim,
podem ser retornados documentos que contêm as palavras fornecidas, mas que se
referem a outro contexto, devido à possibilidade das palavras terem vários
significados diferentes, ou outros documentos relevantes para o assunto escolhido
poderão deixar de ser recuperados justamente porque não possuem os termos
fornecidos no momento da busca. O Quadro 4 aponta algumas das diferenças
apresentadas entre os diretórios e motores de busca.
44
Diretório de busca
Contém apontadores para sites.
Organizado por categorias, temáticas
hierárquicas
Procuram apenas entre as descrições
dos sites
Permite encontrar rapidamente listas
de links sobre um determinado tema
Atualização manual
Atualização demorada. Ao longo do
tempo algumas páginas referenciadas
desaparecem, apresentando resposta
de links inválidos
Motor de busca
Recolhe automaticamente páginas da
Web e constrói um índice de assuntos
Localiza qualquer tipo de informação,
não contextualizado por categorias
Pesquisa realizada em todo conteúdo
das páginas
Inicia a recolha de informações
partindo das listas de links dos
diretórios
Atualização automática
Atualização rápida. Elimina URLs
inválidos.
QUADRO 4 – DIFERENÇAS ENTRE DIRETÓRIOS E MOTORES DE BUSCA
3.4 Os métodos de indexação na Web pelos mecanismos de busca
A Arquitetura da Informação (AI) é conceituada como a técnica de projetar e
edificar ambientes “virtuais”. É um campo que abrange a verificação, o
diagnóstico, a concepção e a implementação de sites. Esta definição, ainda no
contexto da Web, compreende a organização, a navegação, a representação e a
estrutura de busca. O objetivo da AI é fazer com que os usuários localizem e
gerenciem a informação de forma eficaz, ou seja,
é a arte e ciência de estruturar o conhecimento (tecnicamente,
dados) e definir as interações com os usuários [...] tem como
freqüência seu foco voltado para a usabilidade dos sites. Assim,
quando se fala de arquitetura da informação em ambientes Web
cabe distinguir dois focos de atenção: um a estruturação dos
documentos a serem publicados na Internet e de seu conteúdo ,
com vista à exploração de suas informações de um ponto de vista
temático, e o outro a facilidade de uso e eficiência na satisfação
das necessidades exigências do usuário, ou seja, a usabilidade do
site.”(ROBREDO, 2005, p. 316).
A AI seria um dos modos para que os mecanismos de busca tratem
determinadas páginas relevantes, ou seja, quando um site é colocado na Internet,
é preciso estabelecer algumas formas para que ele seja tratado com importância
pelos motores de busca e, posteriormente, indexado.
45
Um motor de busca é uma aplicação informática que encontra
informações contidas nos sites. Todos desempenham três funções
chave: procurar informações por palavras; constituir um índice e
indexá-las ao local onde foram encontradas; permitir ao cibernauta
conjugar várias palavras que estejam nesse índice, de forma a criar
novas combinações. Para além de procurarem nos cabeçalhos, URL,
nos títulos e nos textos, utilizam os metadados dos sites para
„perceberem‟ se essas páginas interessam ou não para a busca que
está a ser efetuada. Os metadados (meta tags) são etiquetas de
informação que um dono de site define como sendo um resumo do
seu site e que estabelece como é que este deve ser indexado.
(TAVARES et al, 2009, p. 890).
Segundo Tavares et al (2009, p. 891), os motores de busca são compostos por
cinco componentes principais: o crawler, o repositório, o indexador, o ordenador e
o apresentador:
O crawler – descobre e recolhe automaticamente conteúdos da Web,
seguindo links4 contidos nas páginas.
O repositório – armazena as páginas recolhidas de modo a que possam ser
indexados e mostradas em cache5.
O indexador – extrai as palavras dos conteúdos Web e cria um índice
invertido6.
O ordenador – ordena as páginas que contenham os termos pesquisados por
um utilizador de modo a que as mais relevantes sejam apresentadas nos
primeiros lugares.
O apresentador – gerencia a interface de utilização do motor de busca.
Estabelece os termos pesquisados pelos utilizadores. Apresenta os resultados
4
apontador, ligação de hipertexto, referência. É uma palavra, um texto, uma expressão ou uma
imagem que permite acesso imediato à outra parte de um conteúdo ou a outro site.
5
cópia arquivada. Funcionalidade de um motor de busca que permite ao utilizador visualizar uma
página mesmo que esta já não esteja disponível no seu site de origem.
6
Índice invertido - Armazena uma lista de ocorrência de cada critério atômico de busca,
tipicamente em forma de uma tabela hash ou de uma árvore binária.
46
da pesquisa na forma de links para as páginas.
Os buscadores não podem vasculhar toda a Internet sempre que um usuário
realizar uma pesquisa, e desse modo, são criados bancos de dados para cada termo
disponibilizado, recuperando as páginas que estão associadas as palavras utilizadas
na busca. Periodicamente esses bancos de dados são renovados, eliminando os sites
inválidos e atualizando as mudanças realizadas.
Conforme dito anteriormente, o ambiente Web vem dispondo de um largo
número de páginas disponíveis e do recebimento contínuo de informações, o que
acarreta problemas na recuperação de informações, que Ribeiro e Vidotto (2009)
chamam de “acúmulo informacional”. Esse acúmulo gera caos na recuperação das
informações, uma vez que não dispõem de uma forma estruturada e selecionada na
hora do planejamento e da criação do site.
Com grandes volumes de dados, a aplicação na arquitetura das
bases de algum tipo de „clusterização7‟ dos critérios de busca pode
render bons resultados no que diz respeito à velocidade de
resposta. Qualquer que seja o modelo de arquitetura dos dados nas
bases e o sistema de gerenciamento, [...] sempre será necessário
para obter resultados satisfatórios na pesquisa, que os termos (ou
linguagens) utilizados na formulação das perguntas sejam coerentes
com os utilizados para representar o conteúdo e definir os pontos
de acesso aos registros da base. Daí a necessidade de utilizar algum
tipo de normatização dos processos de indexação e de formulação
das perguntas. (ROBREDO, 2005, p. 310).
Robredo (2005) indaga sobre a indexação na Web e averigua que existem
variadas formas de interpretação, ou até mesmo, aplicação, afirmando, ainda, que
esse tipo de indexação levará a um entendimento diferenciado dos “processos de
catalogação, classificação e indexação, com seus aspectos sintáticos, semânticos e
taxonômicos” (ROBREDO, 2005, p. 314). Um ponto principal que pode ser
apresentado é o fato que os mecanismos de busca não indexarem os sites em si,
mas sim os conteúdos das páginas que os compõem. Isso significa que uma página
de um determinado site pode estar entre os primeiros resultados de uma busca,
7
“clusterização é a classificação não-supervisionada de dados, formando agrupamentos ou clusters.
Ela representa uma das principais etapas de processos de análise de dados, denominada análise de
clusters. A análise de clusters envolve, portanto, a organização de um conjunto de padrões
(usualmente representados na forma de vetores de atributos ou pontos em um espaço
multidimensional – espaço de atributos) em clusters, de acordo com alguma medida de
similaridade”. (MOSCATO; ZUBEN, 2002).
47
como pode estar entre os últimos em outra consulta. Pode-se exemplificar essa
afirmação através de uma busca simples no Google sobre “culinária chinesa” e
“culinária italiana”, tendo como referência o site “Muito Mais Receitas8”. Ao se
buscar por “culinária chinesa” o site aparece em segundo lugar, já ao se pesquisar
por “culinária italiana” o site aparece em sétimo lugar (Figura 4 e Figura 5). Dessa
maneira, a otimização9 dos sites deve ser realizada por cada página, muito
embora, o conjunto de todas elas também tem alta relevância (FELIPINI, 2010, p.
9).
FIGURA 4 – PESQUISA SOBRE CULINÁRIA CHINESA
FIGURA 5 - PESQUISA SOBRE CULINÁRIA ITALIANA
8
www.muitomaisreceitas.com.br.
Otimização é o uso de técnicas para que um site apareça no topo do ranking dos resultados de
pesquisas.
9
48
Campos e Bax (2000) apresentam os principais fatores analisados pelos
mecanismos de busca no momento da indexação de uma página e que devem,
portanto, ser considerados no momento de se disponibilizar conteúdos na Web.
Segundo os autores, o documento deve estar estruturado através das palavraschave, das meta tags
10
e de conhecimentos de HTML11. A utilização do HTML faz
com que os motores de busca entendam melhor as páginas dos sites, sendo capazes
de indexar o conteúdo de forma mais eficaz. Os outros tipos de linguagem de
programação, tais como Java script, Flash e arquivos de imagens, não são
identificadas no momento da busca, por isso o HTML é mais indicado na
constituição de um site, mas isso não exclui a possibilidade de utilização dos outros
tipos de linguagens, basta que haja a combinação, tendo como base a estrutura
HTML.
O grande problema dos mecanismos de busca com as outras linguagens de
programação é que eles não conseguem lidar com os erros de programação, não
alcançando entendimento com códigos que contenham falhas. Em outras palavras,
uma página que não estiver estruturada com uma configuração precisa, será
ignorada pelos motores de busca. Campos e Bax (2000) ressaltam ainda que os
processos de indexação aplicados a páginas da Web, dependem do preparo prévio
dos conteúdos a serem indexados e que essa tarefa deve ser realizada por
especialistas.
De acordo com Felipini (2010), ao se disponibilizar um conteúdo na Web é de
fundamental importância saber quais palavras utilizar e em qual local do site essas
palavras estarão localizadas:
Nome do site (nome do domínio): A escolha do nome influencia na
colocação que o site ficará. Por exemplo: Se o nome do site for “Livros”, o
endereço “www.livros.com.br” terá mais chance de ser recuperado em
relação ao endereço “www.seboonline.com.br”. Isso se deve ao fato dos
10
São linhas de código HTML, ou "etiquetas", que, entre outras coisas, descrevem o conteúdo de um site para os
mecanismos de busca. É nelas que se é inserido as palavras-chaves.
11
Html (HyperText Markup Language) – é uma linguagem de marcação utilizada para produzir páginas na
Web, para serem interpretados por navegadores. É o código usado para transformar qualquer documento comum
em documento accessível e disponibilizável à rede mundial de computadores e navegável por meio das
ferramentas de busca de conteúdos na Internet.
49
buscadores darem preferência à existência da palavra-chave no endereço da
página.
Título do site: O título da página é o destaque dado ao conteúdo que está
sendo disponibilizado. Segundo Campos e Bax (2000), os mecanismos de
busca consideram o título o local mais importante para determinar o assunto
tratado. A lógica seria a seguinte: “se a palavra-chave está presente no
título é porque o conteúdo da página está relacionado com a busca que está
sendo efetuada e, portanto, a página é relevante” (FELLIPINI, 2010, p. 22).
O título do site aparece da seguinte maneira no código HTML: <title>Nome
do site</title>. A Figura 6 exemplifica o título apresentado tanto na home
page do site como no código HTML da tag title.
FIGURA 6 - TAG TITLE
Topo da página: Os mecanismos de busca observam, também, se as
palavras-chave estão localizadas no início da página, ou seja, cabeçalhos
e/ou primeiros parágrafos. Os buscadores são programados para tentar
chegar perto dos interesses dos usuários, desse modo, “consideram que uma
página
relevante
para
um
determinado
assunto
conterá
palavras
relacionadas com este assunto desde o seu começo” (CAMPOS; BAX, 2000),
Figura 7.
50
FIGURA 7 – TOPO DA PÁGINA
Frequência: Ao se pesquisar na Internet, tendo como ferramenta um motor
de busca, os termos digitados serão considerados como palavras-chave. Essas
palavras-chave obedecem a uma frequência que determinada ranking dos
resultados, ou seja, entre uma página que tenha a palavra-chave pesquisada
repetida por dez vezes e outra consta o termo repetido quinze vezes, a
última possivelmente será recuperada com mais facilidade.
 Meta Tags
Os meta tags12 são parâmetros que descrevem uma página para que os
buscadores a recuperem.
Meta Tags são comandos implementados no código das páginas web
para passar instruções aos sites de busca. É possível dizer aos robôs
quais páginas devem ou não ser indexadas, qual a descrição da
página a ser exibida na tela de resultados ou simplesmente informar
qual a pessoa responsável pelo desenvolvimento da página. Na
verdade, é possível criar qualquer tipo de meta tag a caráter de
documentação, que simplesmente serão ignorados pelos robôs. Os
meta tags ficam “escondidos” de nossos olhos quando visualizamos
as páginas em nossos browsers. O jeito mais fácil de visualizá-los é
exibindo o código fonte13 da página. No Internet Explorer, basta
12
Alguns motores atribuem maior relevância às páginas que contêm os termos de busca nos meta
tags de descrição ou nos meta tags de palavra-chave. Este método pressupõe que os autores
utilizarão criteriosamente estes tags, o que pode não ocorrer. Alguns autores podem utilizar
estes meta tags para chamar atenção sobre suas páginas, utilizando termos que não correspondem
ao seu conteúdo (CENDÓN, 2001, p. 45).
13
Código Fonte é o conjugado de palavras ou símbolos armazenados de forma coordenada,
contendo códigos em linguagem de programação, para serem compilados ou interpretados por um
51
clicar com o botão direito em alguma área livre da página e
escolher a opção “View Source” ou “exibir Fonte”. (TEIXEIRA, 2010,
grifo da autora).
Muitos mecanismos de busca consideram as informações contidas nos meta
tags tanto no momento que indexam uma determinada página, quanto quando
calculam a relevância para efeito de classificação. O HTML admite que sejam
especificados metadados em um conteúdo, ou seja, informações a respeito de um
documento além do seu conteúdo, por meio do tag <META>. Esta tag tem a
capacidade de ser empregada para adicionar pares nome/valor que descrevem
características do documento, como por exemplo, o autor, uma lista de palavraschave, etc. Estas informações são invisíveis em um browser e, consequentemente
ao visitante da página. De acordo com Campos e Bax (2000), os principais meta
tags são description e keywords, que serão explicados a seguir.
O Meta Description (descrição do conteúdo)
O meta tag description é usado para adicionar uma descrição do conteúdo da
página dentro do HTML. Esta descrição é utilizada pelos mecanismos de busca que
suportam meta tags no momento em que eles apresentam a página como fruto de
uma pesquisa. Caso a página não tenha o meta tag description, os mecanismos
empregam as primeiras linhas de documento como uma descrição da página.
Isto pode ser um problema para páginas que não possuem nenhum
texto, como as constituídas somente por figuras ou as que possuem
somente a definição de um frameset. Estas páginas não terão
descrição quando aparecerem em algum resultado de pesquisa.
Páginas que possuem os problemas referentes ao uso de tabelas ou
JavaScript descritos anteriormente terão uma descrição confusa,
constituída por estes textos que aparecem no topo da página.
(CAMPOS; BAX, 2000).
Exemplo:
O site “Bol14” contém a seguinte descrição no código fonte:
computador e se tornar passível de execução.
14
www.bol.com.br
52
<meta name="Description" content="O BOL (Brasil Online) é um serviço de e-mail
grátis pioneiro no país. O portal traz ainda bate-papo (chat), notícias e fotos em
tempo real e plataformas interativas." />
E o seguinte resultado, buscando pelo site Bol através do buscador Google:
FIGURA 8 – SITE DO BOL
Pode-se perceber que a descrição apresentada é a mesma, o que comprova
que os buscadores utilizam as informações contidas nos meta tags.
O Meta Keywords (palavras-chave)
O meta keywords é utilizado para apontar as palavras-chave associadas à
página. Essas palavras são separadas por vírgulas.
O meta keywords deve ser explorado para incluir todas as palavraschave que tenham alguma relação com a página, mesmo as que não
aparecem no seu corpo. O meta pode ser utilizado para incluir
sinônimos de palavras chave, plurais irregulares (por exemplo,
“person” e “people”), palavras chave menos importantes,
combinações de palavras para formar frases, etc. (CAMPOS; BAX,
2000).
Exemplo: Meta Keywords apresentados pelo site Bol:
53
FIGURA 9 - HTML DO SITE DO BOL - META KEYWORDS
54
4 O GOOGLE
A empresa Google emprega como missão básica a seguinte frase: “organizar
as informações do mundo todo e torná-las acessíveis e úteis em caráter universal”
(GOOGLE Informações corporativas, 2010); e é isso que a organização vem fazendo
desde a sua criação, passando por sistemas básicos até os mais complexos para
melhor atender a necessidade informacional dos usuários.
Larry Page e Sergey Brin são os fundadores do Google e estudiosos do ramo
da tecnologia da recuperação da informação, que desenvolveram um novo conceito
quando o assunto é pesquisa na Web. Através de um pequeno programa, elaborado
quando ainda eram estudantes de doutorado em Ciência da Computação, os dois
aprimoraram conhecimentos e mais tarde construíram o maior mecanismo de busca
utilizado no mundo.
Em 1995, Larry Page e Sergey Brin, se conhecem na Universidade de Stanford
e em 1996 já tinham desenvolvido o “BackRub”, um sistema de busca que só
funcionava nos servidores da universidade. Com o passar dos meses, Page e Brin
decidem que o “BackRub” precisa de um novo nome, depois de algumas discussões
e baseados no termo "Googol" (termo matemático para o número representado pelo
numeral 1 seguido de 100 zero) eles decidem usar a nome “Google”. O uso do
termo reflete a missão estabelecida pela corporação de organizar uma quantidade
aparentemente infinita de informações na Web (GOOGLE Informações corporativas,
2010).
O Google foi fundado no ano de 1998, com exatidão no dia 4 de setembro de
1998. No início era uma ferramenta usada apenas por empresas privadas e era um
serviço pago, mas em 19 de agosto de 2004, a ferramenta Google deixa de ser um
sistema particular, passando a ser um sistema totalmente livre a acessos. Com isso,
Brin e Page lucraram algo em torno de US$ 10 bilhões por cada ação no ano de
2005. A lógica central dessa transição foi os estímulos externos de outras empresas
à implantação de propagandas na Web. Se antes um empresário investia milhões de
dólares em propagandas televisivas e impressas, passaram a entender que era mais
lógico direcionar aos indivíduos os seus produtos “no momento em que eles mais
precisam: ao buscar informações” (VISE; MALSEED, 2007, p. 12).
55
Segundo Sá e Bertocchi (2006), o Google destacou-se no ano de 2006, quando
teve a oportunidade de consagrar a predominância de acessos a motores de busca
na WWW. Essa popularidade é causada pela oferta de serviços oferecidos pelo
Google, dentre os quais se destacam o Gmail, o Google Docs, o Google News, o
Google Earth, o Google Prints, o Google Vídeos (incluindo a aquisição do YouTube),
entre outros.
Conforme dito anteriormente, o Google passou a ser gratuito e o lucro da
empresa passou a girar em torno das propagandas realizadas quando haviam
respostas às informações solicitadas. Segundo os proprietários a corporação em si
não tem como foco a geração excessiva de dinheiro, o que os fundadores querem
mesmo é pensar primeiramente em maneiras de resolver problemas, “somente
depois, se possível, eles se preocupam em transformá-los em dinheiro” (VISE;
MALSEED, 2007, p. 14).
Uma curiosa característica do empreendimento Google são as oportunidades
oferecidas aos funcionários. Os empregados podem usar 20% do tempo diário de
trabalho para trabalharem em projetos particulares, não necessitando prestar
contas das atividades desenvolvidas. Um exemplo que pode ser citado é do Orkut,
uma rede de relacionamentos criada por um dos engenheiros do Google no seu
tempo vago. Tudo porque o engenheiro Orkut Buyukkokten, que tinha problemas de
relacionamentos na Universidade de Stanford, achava que a forma mais fácil de ser
fazer amigos é por meio de amigos de amigos (BARBOSA, 2009).
4.1 Como o Google indexa?
O Google é um índice composto por dados extraídos da Web, que está
continuamente sendo atualizado. Essas atualizações são feitas através do
“Googlebot”, um rastreio algorítmico: “os programas de computador determinam
quais os Web sites que devem ser rastreados, com que frequência e quantas
páginas de cada Web site devem ser analisados” (GOOGLE, 2010).
Googlebot é o robô de rastreamento da Web do Google (também
chamado de "indexador"). O rastreamento é o processo pelo qual o
Googlebot descobre páginas novas e atualizadas para serem
incluídas no índice do Google. É usado um grande conjunto de
56
computadores para buscar (ou "rastrear") bilhões de páginas na web.
O Googlebot usa um processo de algoritmos: programas de
computador que determinam quais sites devem ser rastreados, com
que frequência e quantas páginas devem ser buscadas em cada site.
O processo de rastreamento do Googlebot começa com uma lista de
URLs de páginas web, gerada a partir de processos anteriores de
rastreamento e aumentada com dados dos Sitemaps15 fornecidos por
webmasters. Conforme o Googlebot visita cada um desses sites, ele
detecta os links (SRC e HREF) de cada página e os inclui na sua lista
de páginas a serem rastreadas. Novos sites, alterações em sites
existentes e links inativos serão detectados e usados para atualizar
o índice do Google. (GOOGLE central do webmaster, 2010).
Após o rastreio, o Googlebot processa todas as páginas e as reúne em um
gigantesco índice, organizado pelas palavras encontradas com as suas respectivas
localizações. Além disso, as informações que compõem o conteúdo são processadas
e incluídas nos principais atributos e tags de conteúdo, como tags Title e atributos
ALT16. O Googlebot, apesar da eficiência no rastreio e processamento dos
conteúdos inclusos nas páginas, não pode processar todos os tipos de conteúdos,
como por exemplo, as páginas que contém arquivos de mídias elaboradas ou
páginas dinâmicas.
O grande negócio do Google é um mecanismo chamado de PageRank. O
PageRank é uma fórmula matemática desenvolvida na Universidade de Stanford,
nos Estados Unidos, que rastreia os sites em busca dos link gerados.
Baseados nas análises de citações, os então acadêmicos Larry Page
e Sergey Brin começaram a observar os resultados de pesquisa na
Web e perceberam que os links apontavam para Webpages para
frente, mas não registravam as conexões para trás. Ademais,
pensaram que, além de conseguir um gráfico das conexões,
poderiam também levantar a importância de quem se conectava a
quem, pelo „impacto‟ das citações, pela autoridade ou pelo eixo.
Assim foi criado o PageRank, um algoritmo que conta, tanto o
número de conexões em determinado site quanto o número de
conexões em cada um dos sites interligados, da seguinte maneira:
15
Os Sitemaps são uma forma de informar ao Google sobre páginas de um site que, de alguma
forma, talvez não possa ser encontrado. Resumidamente, um Sitemap de XML (geralmente chamado
de Sitemap, com S maiúsculo) é uma lista das páginas de um site. Criar e enviar um Sitemap ajuda a
garantir que o Google tenha conhecimento de todas as páginas de um site, incluindo URLs que não
seriam habitualmente encontrados por meio do processo normal de rastreamento do Google.
(GOOGLE central do webmaster, 2010).
16
O atributo alt é definido, para um conjunto de tags, como algo que tem a finalidade de permitir
ao autor da página fornecer um texto equivalente para o objeto incluso, como por exemplo, a
descrição de uma imagem.
57
autoridade: muitas outras páginas apontam para ela, isto é, ela é
muito citada; eixo: ela aponta para muitas outras, ou seja, ela cita
muitas páginas. (MONTEIRO, 2008, p. 113).
O funcionamento ocorre da seguinte forma: o usuário realiza uma pesquisa
na página principal do Google e as máquinas fazem uma busca no índice das
páginas que correspondem e retornam os resultados que “parecem” ser os mais
relevantes. Essa relevância é julgada por mais de duzentos fatores, mas é o
PageRank que ministra toda a protuberância dos resultados. Em palavras mais
simples, para cada link gerado de uma página em outro site é adicionado um
PageRank ao site “linkado”, mas nem todos os links são iguais, o sistema identifica
spams e outras ameaças ao resultado da pesquisa. (GOOGLE Central do Webmaster,
2010).
O PageRank seria o modo que o Google utiliza para ordenar a importância
que cada página tem na Internet. Em outra palavras, seria a contagem de votos
para cada espaço gerado no banco de páginas do PageRank, conforme a Figura 10.
FIGURA 10 – CÁLCULO DO PAGERANK
FONTE: BORSATO ET AL(2006, p. 33)
O Google utiliza também os denominados spiders ou crawlers, que indexam a
informação coletada nos servidores centrais localizados no Googlepex em Mountain
View, Califórnia.
O princípio de ordenação das páginas parte da premissa de que as
boas páginas tem mais links externos que apontam para elas do que
as menos „autorizadas‟. Isto permite ao Google ordenar os
resultados de acordo com o número de sites com links apontando
para as páginas encontradas. Trata-se de um princípio semelhante
58
ao utilizado na análise de co-citações, bem conhecido em
bibliotemetria e informetria. (ROBREDO, 2005, p. 334).
Os métodos utilizados pelo Google giram em torno da identificação exata de
textos para encontrar páginas que sejam tanto importantes como relevantes para a
busca, recuperando apenas as páginas que incluam todos os termos utilizados na
busca. Por exemplo, quando o Google analisa uma página, ele verifica o que as
outras páginas que estão vinculadas à mesma tem a dizer sobre ela, preferindo as
páginas nas quais os termos de busca estejam próximos entre si. O Google também
ignora palavras e caracteres comuns, conhecidos como palavras descartáveis,
descartando automaticamente termos como "http" e ".com", assim como dígitos
ou letras isoladas, pois raramente ajudam na busca e podem torná-la
consideravelmente mais lenta. Segundo a empresa, refinar ou estreitar a pesquisa
consiste no simples fato de se adicionar ou não palavras aos termos que já foram
incorporados a busca. “Ao adicionar mais palavras, seus resultados conterão um
subconjunto específico das páginas retornadas pela sua consulta original” (GOOGLE
Central de Ajuda do Google, 2010). Tudo isso melhora o resultado da pesquisa que
em média, dependendo dos fatores de conexão, dura algo em torno de 5 segundos
(MONTEIRO, 2008, p. 119).
4.2 Métodos de recuperação no Google
O Google é um dos sites de busca mais utilizados em toda Internet. A
apresentação do Google chama a atenção por sua simplicidade e por dispor de
várias ferramentas para que haja uma resposta mais clara da pesquisa solicitada.
Alguns pontos devem ser esclarecidos com relação à busca que o Google realiza:
O Google pesquisa apenas páginas que correspondem exatamente ao texto
escrito, desconsiderando acentos gráficos;
O Google não diferencia as letras maiúsculas e minúsculas, a pesquisa é feita
independente da forma que está escrita, ou seja, o Google considera todas as
letras em minúsculo. Pode-se citar como exemplo a expressão “Competência
Informacional”, ser for escrita “COMPETÊNCIA INFORMACIONAL”, “cOMPETÊNCIA
iNFORMACIONAL” ou “CoMpEtÊnCiA InFoRmAcIoNaL” o Google vai considerar
59
como “competencia informacional”.
O Google dispõe de vários recursos para que haja um refinamento na
recuperação da informação, entre eles a busca pela frase exata, onde os termos
são colocados entre aspas ou ligados por hífens entre as palavras. Por exemplo, ao
se buscar a frase de uma música, se pode obter o link de acesso a música
completa, conforme a Figura 11.
FIGURA 11 – BUSCA EXATA REALIZADA NO GOOGLE
Com o buscador Google também é possível expandir uma pesquisa, incluindo
ou retirando termos da recuperação. O Google ignora as stop words17 que são
palavras comuns, preposições, artigos, advérbios (ex: onde, o(s), a(s), como) e
outros dígitos e letras que diminuem a velocidade da pesquisa. Se uma palavra
comum for essencial para obter os resultados que se deseja, será possível incluí-la
inserindo um sinal de "+" antes do termo escolhido. O Google pesquisa cada termo
separadamente (se não estiver entre aspas) e ao se colocar o sinal de “+” na frente
de uma palavra, o Google fará a pesquisa da forma que a palavra está escrita sem
variações.
Na pesquisa no Google, também é possível a busca de um ou outro termo; a
exclusão de uma palavra; a busca por domínio e no título da página; a pesquisa por
sinônimos ou palavras similares, por tipos específicos de arquivos e em um site
característico, além de operações matemáticas. O Quadro 5 aponta todas essas
17
Stop words (ou palavras de parada) são palavras que podem ser consideradas irrelevantes para o conjunto de
resultados a ser exibido em uma busca realizada em um motor de busca.
60
funções, tendo como exemplo os termos “Ciência da Informação”.
Pesquisa
Exata
Filtrar
Resultado
Busca
Alternativa
Procurar
num Site
Buscar por
tipo
de
arquivo
Combinar
Informações
Buscando
pelo URL
Buscando
pelo Texto
Buscando
Conceitos
Palavras
Chaves
Cache
Titulo
EXEMPLO
“Ciência da
Informação”
Ciência -Informação
Ciência OR Informação
Informação
site:www.ufpe.br/dci
Informação
filetype:PDF
DESCRIÇÃO
Procura pela ocorrência EXATA (com as
palavras agrupadas) de “Ciência da
Informação”
Filtra o resultado removendo todos os que
possuem Informação como resultado.
Localiza sites que possuam “Ciência” ou
“Informação”
Procura por “Informação” no site
www.ufpe.br/dci
Procura a palavra Informação em arquivos
com extensão PDF
filetype:PDF
site:www.ufpe.br/dci
inurl:ciência
Procura por arquivos de extensão PDF no
site da www.ufpe.br/dci
Procura por “ciência” no URL de um site
específico
intext:ciência
Procura pelo texto “ciência” no conteúdo
do site
define:Ciência da
Buscará sites que definem “Ciência da
Informação
Informação”
keyword:ciência
Procura na META TAG do site por “ciência”
isto algumas vezes podem ser mais
funcional.
Cache:www.ufpe.br/dci Vê a página “www.ufpe.br/dci” em cache.
intitle: Ciência
Procura páginas que tenham “ciência”
Informação
e/ou “informação” no título da página.
QUADRO 5 – MÉTODOS DE REFINAMENTO DA PESQUISA NO MOTOR GOOGLE
61
5 ANÁLISE DOS SITES
Após apresentar e discutir questões teóricas, tais como: o surgimento da
Web e da Internet, a utilização da Web como fonte de informação, como os
mecanismos de busca indexam, assim como, a história e construção da empresa
Google. Apresentar-se-á a análise realizada no buscador Google, onde foram
avaliados sites, buscando analisar se os mesmos adotaram estratégias que
proporcionaram melhor recuperação por buscadores na Web.
5.1 Procedimentos metodológicos
Serão tomadas como fundamento as indagações levantadas ao longo da
discussão teórica deste trabalho, com ênfase na seção 3 deste trabalho. A análise
dos sites objetivou identificar as melhores estratégias para se disponibilizar
conteúdos, considerando que possam ser melhor indexados e consequentemente
melhor recuperados pelos motores de busca, sobretudo pelo o Google. Sabe-se que
os buscadores indexam isoladamente cada página que constitui os sites, contudo as
home pages18 de cada site foram analisadas como um todo.
Esta pesquisa é de caráter exploratório, uma vez que “as pesquisas
exploratórias tem como principal finalidade desenvolver, esclarecer e modificar
conceitos e ideias, tendo em vista a formulação de problemas mais precisos ou
hipóteses pesquisáveis para estudos posteriores” (GIL, 2009, p. 27),
Muitas vezes as pesquisas exploratórias constituem a primeira
etapa de uma investigação mais ampla. Quando o tema escolhido é
bastante genérico, tornam-se necessários seu esclarecimento e
delimitação, o que exige revisão de literatura, discussão com
especialistas e outros procedimentos. O produto final deste
processo passa a ser um problema mais esclarecido, passível de
investigação mediante procedimentos mais sistematizados. (GIL,
2009, p. 27).
Concordando com Gil (2009), a priori, neste trabalho, realizou-se um
18
Página de entrada ou página principal de um site. É nesta página que estão os links para as
demais páginas do site.
62
levantamento teórico, com base em assuntos relacionados a fontes de informações
na Internet, diretórios e motores de buscas, indexação, indexação no ambiente
Web, com a finalidade de se fazer uma análise sobre o tema em questão. Ainda de
acordo com Gil (2009), o delineamento aplicado neste trabalho é do tipo
Levantamento, uma vez em que não foram analisados todos os sites recuperados
pelo Google e, sim os dez primeiros resultados, ou seja, foi selecionada uma
amostra como objeto de investigação.
Gil (2009, p. 90), define Universo ou População, na pesquisa social, como
sendo
“um
conjunto
definido
de
elementos
que
possuem
determinadas
características” e Amostra como sendo “um subconjunto do universo ou da
população, por meio do qual se estabelecem ou se estimam as características desse
universo ou população” (GIL, 2009, p. 92). Dessa forma, o tipo de amostra utilizada
neste trabalho é a por conglomerados, pois “é a mais indicada em situações em que
é bastante difícil a identificação de seus elementos” (GIL, 2009, p. 93), em outras
palavras, esse tipo de amostra foi o mais indicado para este trabalho, pelo fato do
grande número de sites (apesar do grande número, não é infinito) que compõem a
Internet e por isso só será utilizada uma pequena parte desse universo.
A amostra foi designada da seguinte forma: buscou-se no Google o termo
“biblioteconomia” e foram encontrados aproximadamente 1.690.000 páginas19.
Para limitar a amostra, foram considerados os dez primeiros resultados,
eliminando-se as páginas que tratavam de definições da palavra, como por
exemplo, páginas do Wikipédia20, páginas de blogs (com domínios do tipo
blogspot), páginas de faculdades e universidades, páginas do twitter21, páginas de
oportunidades de emprego, páginas dos conselhos regionais de biblioteconomia (o
conselho federal será considerado) e páginas de guias de estudantes prévestibulandos. Feito isso, os sites foram classificados de A a J, de acordo com a
sequência do resultado, chegando-se a seguinte ordem:
19
Busca realizada no dia 26 de outubro de 2010, às 11h43min.
A Wikipédia é uma enciclopédia multilíngue online livre colaborativa, ou seja, escrita
internacionalmente por várias pessoas comuns de diversas regiões do mundo, todas elas voluntárias.
21
Twitter é uma rede social e servidor para microblogging que permite aos usuários enviar e
receber atualizações pessoais de outros contatos (em textos de até 140 caracteres, conhecidos
como "tweets"), por meio do website do serviço, por SMS e por softwares específicos de
gerenciamento.
20
63
Site A
- Extralibris Concursos: notícias e análises de concursos públicos na
área de biblioteconomia22;
Site B
- Conselho Federal de Biblioteconomia23;
Site C
- Bibliotecários Sem Fronteiras: Biblioteconomia Pop24;
Site D
- BITI - Biblioteconomia, Informação & Tecnologia da Informação25;
Site E
- FEBAB - Federação Brasileira de Associações de Bibliotecários,
Cientistas da Informação e Instituições26
Site F
- Revista Digital de Biblioteconomia e Ciência da Informação27;
Site G
- Periódicos UFSC28;
Site H
- Web Librarian: redes sociais arquitetura da informação, internet
móvel, biblioteconomia e ciência da informação29;
Site I
- Revista Ciência da Informação30;
Site J
- Revista ACB31.
Os sites foram analisados a partir dos campos da tag title e das Meta Tags
Description e Keywords, visíveis apenas no “Código Fonte” de cada página. Para
exibição do Código fonte32, foi necessário seguir os seguintes passos: um clique com
o botão direito do mouse na área da página (que não contenha links, imagens,
gráficos e etc.) e escolher o subitem “Código fonte”; ou através da barra de
navegação na opção “Exibir” no subitem “Código fonte”; ou através das teclas de
atalho “Ctrl+U”. O código fonte será exibido no programa “bloco de notas33”.
Ao se identificar a tag title e as meta tags description e keywords foi feito
um diagnóstico do conteúdo de cada uma, em relação às técnicas de otimização de
busca que foram observadas no capítulo 3 deste mesmo trabalho, de modo que:
22
http://extralibris.org/concursos/
http://www.cfb.org.br/
24
http://bsf.org.br/
25
http://www.conexaorio.com/biti/
26
http://www.febab.org.br/
27
http://www.sbu.unicamp.br/seer
28
http://www.periodicos.ufsc.br
29
http://wl.blog.br/
30
http://www.ibict.br/cienciadainformacao
31
http://revista.acbsc.org.br
32
Apresenta as informações da página na codificação de HTML
33
O Bloco de notas é um editor de textos básico que pode ser utilizado para criar documentos
simples. O uso mais comum do Bloco de notas é exibir ou editar arquivos de texto (.txt), mas muitos
usuários o consideram uma ferramenta simples para criar páginas da Web.
23
64
O conteúdo da tag title foi comparado com o título apresentado na home
page do site;
Na meta tag description buscou-se perceber se o site está sendo descrito
através de um breve resumo do seu conteúdo com clareza;
As palavras-chave encontradas na meta tag keywords foram testadas no
Google, de forma, a saber, em qual posição o site apareceu com a utilização
de cada termo.
Nas home pages que não possuíam palavras-chave na meta tag keyword,
foram selecionadas alguns possíveis termos que poderiam ser usados na
recuperação.
Os critérios usados para a escolha dos termos sugeridos foram básicos,
utilizando-se de siglas, termos contidos no título da página, possíveis expressões do
conteúdo e etc. Cada palavra-chave estava associada com o teor das páginas, de
forma que cada home page fosse identificada claramente com o termo buscado.
Tanto as palavras contidas na meta tag keywords quanto às sugestões, foram
colocadas numa tabela com a sua respectiva colocação na recuperação no Google,
considerando até os 50 primeiros resultados.
Por fim, foram relatadas as observações feitas de cada site através de um
quadro comparativo, onde todos os critérios foram julgados de acordo com três
classificações: Consta de forma adequada, Consta de forma inadequada e Não
consta
Site A - EXTRALIBRIS CONCURSOS
De acordo com o site, o Extralibris Concursos nasceu em agosto de 2006,
tendo como principal objetivo promover a aprendizagem colaborativa em
biblioteconomia, tendo como base os concursos realizados na área.
65
FIGURA 12 – IMAGEM EXTRAÍDA DA HOME PAGE DO EXTRALIBRIS CONCURSOS
 Tag title
O blog utiliza o seguinte texto no título assim que a página é carregada:
“Extralibris Concursos: notícias e análises de concursos públicos na área de
biblioteconomia” e o seguinte na tag title: “Biblioteconomia para Concursos”.
Como foi dito anteriormente, Segundo Campos e Bax (2000), os mecanismos de
busca consideram o título o local mais importante para determinar o assunto
tratado, logo, o título considerado será o que estiver no código fonte.
 Meta tag description e keywords
A meta tag description não foi preenchida, ou seja, não foi utilizada a
funcionalidade da meta tag (como pode ser observado na Figura 13). Essa meta tag
é avaliada como importante, uma vez que, é usada pela maioria dos motores de
busca para oferecer um pequeno conteúdo sobre a página.
66
FIGURA 13 - CÓDIGO FONTE - EXTRALIBRIS CONCURSOS
 Meta tag keyword
As palavras-chaves utilizadas na meta keywords do Extralibris Concursos
foram: concursos e trt21 (Figura 13). Os termos “concursos” e “trt21” foram
pesquisados no Google para saber em qual posição o site do Extralibris Concursos é
recuperado, o resultado da busca mostrou que a home page aparece nas posições
55ª e 141ª respectivamente, mostrando que os termos atribuídos na constituição da
página não ajudam na recuperação, interferindo diretamente na indexação feita
pelo Google34.
Isso pode ser explicado pelo fato da maioria dos motores de busca
considerarem com mais relevância os sites que possuem mais de 4 palavras-chave.
O Quadro 6 apresenta palavras-chaves que Fo ram
testadas
no
Google
e
que
contribuirão para a recuperação da mesma. Esses termos seriam sugestões para
melhor representar a página no Código Fonte, e consequentemente, para os
motores de busca.
34
Busca realizada no dia 27 de outubro de 2010, às 16h28min.
67
PALAVRAS-CHAVE
extralibris
extralibris concursos
concurso biblioteconomia
bibliotecário concurso
comentários prova
biblioteconomia
gustavo henn blog
blog concurso bibliotecário
POSIÇÃO DOS TERMOS TESTADOS COMO
PALAVRAS-CHAVES SUGERIDAS
2º lugar
1º lugar
1º lugar
1º lugar
1º lugar
1º lugar
1º lugar
QUADRO 6 - PALAVRAS-CHAVE RELACIONADAS AO EXTRALIBRIS CONCURSOS
Site B - CONSELHO FEDERAL DE BIBLIOTECONOMIA
O Site do Conselho Federal de Biblioteconomia tem como função
disponibilizar o acesso aos órgãos regulamentadores e de fiscalização da profissão
de Bibliotecário, bem como os demais órgãos representativos da Biblioteconomia
no Brasil e no exterior. Dessa maneira o portal permite o acesso aos sites de
interesse do profissional da informação.
 Tag title
Na home page do CFB o título é o mesmo utilizado na tag title, conforme a
Figura 14:
FIGURA 14 – IMAGEM EXTRAÍDA DA HOME PAGE DO CFB
68
 Meta tags description e keywords
O CFB não utiliza as meta tags description e keywords, o que não é
recomendável, pois como foi dito anteriormente, os motores de busca consideram
as duas meta tags para indexar conteúdos de uma página. Segundo Engelmann
(2006, p. 71), a prática da não utilização das meta tags, por intencionalidade ou
descuido,
deve influenciar de forma negativa a otimização dos resultados de
busca, por dois motivos. Primeiro porque os spiders não terão essas
meta tags como referência para fazer suas buscas e, segundo,
porque a equipe que atualiza o site não tem referência dos termos
que precisam receber ênfase na construção de textos, títulos e
outras etapas já citadas, as quais são relevantes para otimização.
Foram feitos alguns testes no buscador Google, com palavras que poderiam
ser consideradas “chave” para o site do Conselho Federal de Biblioteconomia,
(Quadro 7):
PALAVRAS-CHAVE
conselho federal de
biblioteconomia
cfb
bibliotecário conselho
sistema cfb
biblioteconomia conselho
legislação biblioteconomia
POSIÇÃO DOS TERMOS TESTADOS COMO
PALAVRAS-CHAVES SUGERIDAS
1º lugar
1º lugar
1º lugar
1º lugar
1º lugar
17º lugar
QUADRO 7 - PALAVRAS-CHAVE RELACIONADAS AO CONSELHO FEDERAL DE BIBLIOTECONOMIA
Site C - BIBLIOTECÁRIOS SEM FRONTEIRAS
O Bibliotecários sem fronteiras é um blog criado para compartilhamento de
assuntos diretamente ligados a biblioteconomia, instituído no ano de 2002.
69
FIGURA 15 – IMAGEM EXTRAÍDA DA HOME PAGE DO BSF
 Tag title
Na
tag
title
o
blog
utilizou
“Bibliotecários
Sem
Fronteiras
-
Biblioteconomia Pop”, o que pode ser considerado como favorável pelos motores
de busca, pelo fato de conter duas palavras-chave que fazem parte da meta tag
keywords são elas:
“bibliotecários” e
“biblioteconomia”. Como já
dito
anteriormente, os mecanismos de busca consideram o título o local mais
importante de se determinar o assunto tratado na página.
 Meta tag description
A meta tag descrição é composta da seguinte frase: “Olá! Tiago, Moreno,
Diego e Vivi são bibliotecários. Aqui eles falam e mostram tudo sobre
biblioteconomia, bibliotecas e afins" (Figura 16).
FIGURA 16 - META TAG DESCRIPTION - BSF
70
A descrição não está de acordo, pois deveriam conter informações relevantes
sobre o conteúdo da página, ao invés disso, é formada pela primeira frase da home
page, como pode ser observado no topo da Figura 15.
 Meta tag keyword
A meta tag keyword dos BSF é composta de quatro palavras-chave, o
bastante para que a página seja considerada pelos motores de busca. O importante
não é a quantidade de palavras-chaves e sim a qualidade que cada uma exerce na
hora busca no Google. Partindo deste pressuposto, cada palavra foi testada no
Google, para saber em qual colocação a página apareceria nos resultados (Quadro
8).
PALAVRAS-CHAVE
biblioteconomia
bibliotecários
bibliotecária
biblioteca
POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO
GOOGLE
7º lugar
1º lugar
1º lugar
Não apareceu nos 50 primeiros resultados
QUADRO 8 - POSIÇÃO DOS RESULTADOS - BSF
A relevância das palavras-chave utilizada pelo BSF é positiva, dos quatro
temos utilizados, três constam entre os dez primeiros resultados. Dessa forma, não
serão feitas sugestões de termos para serem atribuídos como palavras-chave.
Site D - BITI - BIBLIOTECONOMIA, INFORMAÇÃO & TECNOLOGIA DA
INFORMAÇÃO
O site do BITI não apresenta uma descrição clara da sua proposta, e
aparentemente se propõe a ser um espaço que disponibiliza artigos, manuais, livros
online, teses e dissertações na área de Biblioteconomia e Ciência da Informação.
71
FIGURA 17 – IMAGEM EXTRAÍDA DA HOME PAGE DO BITI
 Tag title
A tag title apresenta o mesmo título exposto na home page do site BITI
(Figura 17): “BITI - Biblioteconomia, Informação & Tecnologia da Informação”.
Sendo assim, percebe-se que o título apresenta relevância ao conteúdo da página.
 Meta tag description
A meta tag description apresenta a seguinte descrição: “BITI – Estudos de
informação, documentação e informação, biblioteconomia e tecnologia da
informação. Por Hagar Espanha Gomes”, Figura 18.
FIGURA 18 - META TAGS DESCRIPTION - BITI
Vale ressaltar que três palavras-chave, que são recuperadas dentre os 10
primeiros resultados, estão contidas na meta tag description, são elas:
72
“documentação”, “biblioteconomia” e “Hagar Espanha Gomes”, sendo a 1ª, a 9ª e
a 1ª respectivamente.
 Meta tag keyword
Segundo Pinho (2003, p. 104), a meta tag de palavras-chave pede “o
desenvolvimento de termos que melhor reflitam o conteúdo, sendo evitados os que
sejam muito comuns, pois nos resultados de uma busca elas vão fazer o site figurar
junto com centenas de outros endereços”. Partindo deste pressuposto, constatouse que a meta keywords contém muitas palavras-chaves e caracteres. Dessa forma,
a página não se torna de fácil recuperação; a home page do BITI apresenta ao todo
47 palavras-chaves e na identificação da posição de todos os termos, foi constatado
que entre as 47 palavras, 10 assumiram posições antes dos 50 primeiros resultados
e que em meio a esses 10 termos, apenas 5 ficaram dentre as 10 primeiras
posições, conforme o Quadro 9.
PALAVRAS-CHAVE
indexacao
documentacao
ciencia da informacao
classificacao
terminologia
biblioteconomia
catalogacao
tesauro
bibliografia
referencia bibliografica
forma
referencia
citacao
Hagar Espanha Gomes
Conexao Rio
estudo
informacao
universidade
faculdade
tecnologia da
informacao
HTML
publicacao cientifica
POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO
GOOGLE
6º lugar
1º lugar
Não apareceu nos 50 primeiros resultados
37º lugar
Não apareceu nos 50 primeiros resultados
9º lugar
26º lugar
47º lugar
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
18º lugar
1º lugar
2º lugar
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
27º lugar
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
73
periodico eletronico
eletronico
jornal
revista
artigo
mensagem
convencao
tipografia
contribuicao
quadro de aviso
lista de discussao
documento
independente
indice
catalogo
norma
dicionario
ensaio
frase
expressao
glossario
atlas
manual
vade-mecum
resenha
resumo
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
QUADRO 9 - POSIÇÃO DOS RESULTADOS - BITI
Por não ter apresentado palavras-chaves com resultados positivos, alguns
termos foram testados como sugestão para compor o Código Fonte da página. Os
critérios utilizados para a escolha desses termos levam em consideração os assuntos
tratados na página, título da página, siglas, primeiros parágrafos e etc (Quadro 10).
PALAVRAS-CHAVE
biti
Biblioteconomia, Informação e
Tecnologia da Informação
estudos
de
Informação,
documentação biblioteconomia
Biblioteconomia e o Exercício
Profissional
QUADRO 10 - PALAVRAS-CHAVE RELACIONADAS AO BITI
POSIÇÃO DOS TERMOS TESTADOS COMO
PALAVRAS-CHAVES SUGERIDAS
1º lugar
1º lugar
1º lugar
2º lugar
74
Site
E
-
FEBAB
-
FEDERAÇÃO
BRASILEIRA
DE
ASSOCIAÇÕES
DE
BIBLIOTECÁRIOS, CIENTISTAS DA INFORMAÇÃO E INSTITUIÇÕES
De acordo com informações contidas no site, o espaço tem como função
promover as bibliotecas e os profissionais de biblioteconomia, oferecendo
informações sobre o conselho federal e os conselhos regionais, cadastro de
bibliotecas, promoção de eventos e etc.
FIGURA 19 - IMAGEM EXTRAÍDA DA HOME PAGE DA FEBAB
 Tag title
A tag title está composta de forma negativa, segundo os aspectos de
recuperação, sendo formada apenas pela sigla do site “FEBAB”, seria mais
interessante se a sigla fosse completada pela frase que completa seu sentido, ou
seja: “FEBAB - Federação Brasileira de Associações de Bibliotecários, Cientistas da
Informação e Instituições”.
75
 Meta tags description e keywords
As meta tags description e keywords não estão fazendo parte do código
fonte da página; sugere-se o uso das duas meta tags, uma vez que ambas são
consideradas pelos motores de busca na hora da indexação. O Quadro 11 apresenta
sugestões de termos que poderiam ser usados na composição da página e suas
respectivas posições no buscador Google.
PALAVRAS-CHAVE
FEBAB
federação brasileira
bibliotecário
federação biblioteconomia
associações bibliotecários
POSIÇÃO DOS TERMOS TESTADOS COMO
PALAVRAS-CHAVES SUGERIDAS
1º lugar
1º lugar
1º lugar
1º lugar
QUADRO 11 - PALAVRAS-CHAVE RELACIONADAS A FEBAB
Site F - REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
Segundo o site, a Revista Digital de Biblioteconomia e Ciência da Informação
(RDBCI) é uma publicação oficial do Sistema de Bibliotecas da UNICAMP (SBU). Foi
lançada no dia 13 de setembro de 2003. O Periódico Científico publica artigos
inéditos, relatos de experiência, pesquisas em andamento e resenhas. Compreende
as áreas da Biblioteconomia, Ciência da Informação e áreas afins e é editado por
bibliotecários do Sistema de Bibliotecas da Universidade Estadual de Campinas
(SBU).
FIGURA 20 - IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
76
 Tag title
O título apresentadona tag title e na home page são iguais, favorecendo a
recuperação e gerando relevância ao conteúdo à home page (Figura 19 e Figura 20,
respectivamente).
FIGURA 21 - TAG TITLE REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
 Meta tag description
A meta tag description apresenta um descrição extensa, com exatamente
518 caracteres (Figura 21). Segundo Pinho (2003, p. 104) “a descrição do site pode
conter algumas palavras-chave, mas deve ser redigida com até 160 caracteres, o
máximo que a maioria dos mecanismos de busca vão exibir”, nesse contexto, a
descrição apresentada na home page da Revista Digital de Biblioteconomia e
Ciência da Informação, não será exibida por completa, ou seja, quando o usuário
fizer a pesquisa no Google, boa parte na descrição não será visualizada abaixo do
link do site (Figura 22).
FIGURA 22 - META TAG DESCRIPTION - REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
77
FIGURA 23 - DESCRIÇÃO DA REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
 Meta tag keyword
As palavras-chave devem ser relacionadas ao conteúdo da página, no
entanto, a home page da Revista Digital de Biblioteconomia e Ciência da
Informação, apresenta palavras-chave de pouca relevância ao site. Isso foi
comprovado através da busca de cada termo no Google, Quadro 12.
PALAVRAS-CHAVE
Biblioteconomia
Ciência da Informação
Gestão da Informação
Administração da
Informação
Arquivologia
Revista Digital
Periódico Eletrônico
POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO
GOOGLE
15º lugar
6º lugar
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
9º lugar
Não apareceu nos 50 primeiros resultados
QUADRO 12 - POSIÇÃO DOS RESULTADOS - REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
Por não apresentar palavras-chaves que estejam de acordo com a página,
elaborou-se o Quadro 13, onde foram relacionados alguns termos sugeridos para
melhor descrever a página no Código Fonte.
78
PALAVRAS-CHAVE
rdbci
revista digital de
biblioteconomia e ciência da
informação
revista biblioteconomia
ciência da informação revista
POSIÇÃO DOS TERMOS TESTADOS COMO
PALAVRAS-CHAVES SUGERIDAS
2º lugar
1º lugar
4º lugar
7º lugar
QUADRO 13 - PALAVRAS-CHAVE RELACIONADAS A REVISTA DIGITAL DE BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
Site G - PERIÓDICOS UFSC
A missão do site dos periódicos UFSC é promover o acesso, visibilidade e
pesquisa das publicações científicas periódicas vinculadas aos programas de pósgraduação,
graduação,
núcleos
de
pesquisas
e
laboratórios
reconhecidos
oficialmente pela Universidade Federal de Santa Catarina
FIGURA 24 - IMAGEM EXTRAÍDA DA HOME PAGE DOS PERIÓDICOS UFSC
 Tag title
Consta no Código Fonte da home page, na tag title: “<title>Sobre o
Portal</title>”. O que não proporciona valor semântico ao site diante dos
79
motores de busca. Fica evidente no desenvolvimento da página que o título não foi
colocado no código fonte.
 Meta tags description e keywords
As meta tags description e keywords não estão adicionadas (Figura 24).
Sabe-se que essas meta tags são de fundamental importância para que os motores
de busca indexem a página.
FIGURA 25 - META TAGS DESCRIPTION E KEYWORDS - PERIÓDICOS UFSC
Como a home page não possui palavras-chave, foram testados alguns termos
para saber a relevância que teria para o Google, Quadro 14.
PALAVRAS-CHAVE
periódicos ufsc
revista ufsc
portal ufsc
editoração ufsc
POSIÇÃO DOS TERMOS TESTADOS COMO
PALAVRAS-CHAVES SUGERIDAS
1º lugar
1º lugar
2º lugar
2º lugar
QUADRO 14 - PALAVRAS-CHAVE RELACIONADAS AOS PERIÓDICOS UFSC
Site H - WEB LIBRARIAN: REDES SOCIAIS ARQUITETURA DA INFORMAÇÃO,
INTERNET MÓVEL, BIBLIOTECONOMIA E CIÊNCIA DA INFORMAÇÃO
O Web Librarian é um blog que está relacionado à biblioteconomia, tendo
como principais estudos as redes sociais, arquitetura de informação e internet
móvel.
 Tag title
A home page utiliza o título “Web Librarian: redes sociais, arquitetura de
80
informação, internet móvel, biblioteconomia e ciência da informação”. A
utilização é considerada apropriada por representar a ideia do que trata o site,
proporcionando boa proeminência nos motores de busca.
 Meta tag description
A meta tag description aparentemente não contém erros. Percebe-se que na
construção da página, houve a preocupação de descrever, de forma mais clara, o
conteúdo (Figura 24).
FIGURA 26 - META TAG DESCRIPTION - WEB LIBRARIAN
 Meta tag keyword
A meta tag keywords contém muitas palavras-chave, 29 no total,
desfavorecendo o processo de recuperação. Foi constatado que entre as 29
palavras, apenas 3 constavam entre os 50 primeiros resultados no Google e entre
estes 3 termos, nenhum constou entre os 10 primeiros resultados, demonstrando
que não há necessidade de adotar-se várias palavras-chaves, ou seja, deve-se
privilegiar os termos que melhor representem o conteúdo do site, Quadro 15.
PALAVRAS-CHAVE
Biblioteconomia
librarianship
arquitetura de informacao
information architecture
IA
usabilidade
usability
UX
internet
mobilidade
mobility
Internet móvel
POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO
GOOGLE
27º lugar
Não apareceu nos 50 primeiros resultados
30º lugar
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
81
Comunicacao
ciencia da informação
information science
Gestão do conhecimento
knowledge management
KM
web
redes sociais
social media
Twitter
Facebook
YouTube
bibliotecas digitais
digital libraries
libraries
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
Não apareceu
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
41º lugar
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
nos 50 primeiros resultados
QUADRO 15 - POSIÇÃO DOS RESULTADOS – WEB LIBRARIAN
Mesmo estando com a meta tag keywords composta, os termos relacionados
não apresentaram resultados satisfatórios na busca realizada no Google. Dessa
forma, alguns termos foram testados para melhor representar a home page (Quadro
16).
PALAVRAS-CHAVE
web librarian
redes sociais arquitetura da
informação
blog biblioteconomia
internet móvel
biblioteconomia
POSIÇÃO DOS TERMOS TESTADOS COMO
PALAVRAS-CHAVES SUGERIDAS
1º lugar
3º lugar
4º lugar
1º lugar
QUADRO 16 - PALAVRAS-CHAVE RELACIONADAS À WEB LIBRARIAN
Site I - REVISTA CIÊNCIA DA INFORMAÇÃO
Segundo o site, a revista Ciência da Informação é uma publicação
quadrimestral de trabalhos inéditos relacionados com a ciência da informação ou
que apresentem resultados de estudos e pesquisas sobre as atividades do setor de
informação em ciência e tecnologia.
82
FIGURA 27 - IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA CIÊNCIA DA INFORMAÇÃO
 Tag title
A tag title é composta apenas por “Ciência da Informação”. Sugere-se que
seja usado “Revista Ciência da Informação” ou “Periódico Ciência da Informação”.
 Meta tag description
“Revista Ciência da Informação, do Instituto Brasileiro de Informação em
Ciência e Tecnologia - IBICT" é o que está contido na meta tag descrição. Percebese que a descrição explica o conteúdo da página, mas outras informações poderiam
se acrescentadas, tais como: a temática da revista, a periodicidade e o tempo de
existência.
 Meta tag keywords
A home page escolheu as seguintes palavras-chave para compor a meta tag
keywords: “ciência da informação; tecnologia; ibict; periódico ténico-científico”.
Os termos não apresentam-se relevantes, uma vez que a página adotou 4 termos,
desses apenas um constou entre os 50 primeiros resultados (Quadro 17).
83
PALAVRAS-CHAVE
ciência da Informação
tecnologia
ibict
periódico ténico-científico
POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO
GOOGLE
1º lugar
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
Não apareceu nos 50 primeiros resultados
QUADRO 17 - POSIÇÃO DOS RESULTADOS – REVISTA CIÊNCIA DA INFORMAÇÃO
Da mesma forma que algumas páginas analisadas anteriormente, a página da
Revista Ciência da Informação também usou de forma negativa a meta tag de
palavras-chaves, atribuindo termos que não geram protuberância a página. Dessa
forma foram feitos alguns testes com palavras consideradas fundamentas na
descrição do site (Quadro 18).
PALAVRAS-CHAVE
revista ciência da informação
sistema eletrônico ciência da
informação
revista eletrônica ciência da
informação
biblioteconomia revista
POSIÇÃO DOS TERMOS TESTADOS COMO
PALAVRAS-CHAVES SUGERIDAS
1º lugar
3º lugar
4º lugar
4º lugar
QUADRO 18 - PALAVRAS-CHAVE RELACIONADAS À REVISTA CIÊNCIA DA INFORMAÇÃO
Site J – REVISTA ACB
A Revista ACB: Biblioteconomia em Santa Catarina é uma publicação
semestral de trabalhos inéditos relacionados na área da biblioteconomia e ciência
da informação, abrangendo especificamente a biblioteconomia, ciência da
informação, arquivística e documentação, ou textos que apresentem resultados de
estudos e pesquisas sobre atividades relacionadas ao movimento associativo.
84
FIGURA 28 - IMAGEM EXTRAÍDA DA HOME PAGE DA REVISTA ABC
 Tag title
A home page tem o título “Revista ACB” tanto no layout da página como no
código fonte. A recuperação do título tem um alto índice de relevância para os
motores de busca, uma vez que explica o conteúdo do site.
 Meta tag description
A descrição apresentada no código fonte é “Revista ACB: Biblioteconomia em
Santa Catarina”. A descrição parece ser uma extensão do título e não resume com
clareza o conteúdo da página.
 Meta tag keyword
A
meta
tag
keywords
apresenta
4
palavras-chave:
“Revista
ACB;
Biblioteconomia; Ciência da Informação; Bibliotecas; Bibliotecas Escolares”. Todos
os termos foram testados na busca do Google e os resultados apresentados não
foram satisfatórios, pois apenas com 1 deles o site apareceu entre os 10 primeiros
resultados na busca feito no Google (Quadro 19).
85
PALAVRAS-CHAVE
Revista ACB
Ciência da Informação
Biblioteconomia
Bibliotecas Escolares
POSIÇÃO DO RESULTADO NA BUSCA REALIZADA NO
GOOGLE
1º lugar
Não apareceu nos 50 primeiros resultados
40º lugar
Não apareceu nos 50 primeiros resultados
QUADRO 19 - POSIÇÃO DOS RESULTADOS – REVISTA ABC
Por ter apresentado apenas uma das palavras-chave entre os 10 primeiros
resultados, foram testados termos associados à página e que apresentavam relação
com o conteúdo (Quadro 20).
PALAVRAS-CHAVE
movimento associativo de
bibliotecários
edições de biblioteconomia
revista biblioteconomia
periódico ciência da
informação
POSIÇÃO DOS TERMOS TESTADOS COMO
PALAVRAS-CHAVES SUGERIDAS
4º lugar
3º lugar
5º lugar
2º lugar
TABELA 20 - PALAVRAS-CHAVE RELACIONADAS À REVISTA ABC
5.2 Análise dos dados
Após a análise das dez home pages foi possível elaborar um quadro
explicativo para apresentar, em síntese, os critérios utilizados pelo motor de busca
Google considerados no momento da indexação. Percebeu-se que a tag title e as
meta tags description e keywords constam (de forma adequada ou inadequada) ou
não na constituição das home pages (Quadro 21).
86
Critérios
Tag title
Site
A
B
C
D
E
F
G
H
I
J
Meta tags
Description
Keywords
Não consta
Consta de forma
inadequada
Não consta
Não consta
Consta de forma
inadequada
Consta de forma
adequada
Consta de forma
adequada
Consta de forma
adequada
Consta de forma
inadequada
Consta de forma
adequada
Não consta
Consta de forma
inadequada
Consta de forma
adequada
Não consta
Consta de forma
adequada
Consta de forma
inadequada
Não consta
Consta de forma
inadequada
Não consta
Consta de forma
inadequada
Não consta
Consta de forma
adequada
Consta de forma
inadequada
Consta de forma
adequada
Consta de forma
adequada
Consta de forma
adequada
Consta de forma
inadequada
Consta de forma
inadequada
Consta de forma
inadequada
Consta de forma
inadequada
QUADRO 21 – QUADRO EXPLICATIVO – ANÁLISE DOS SITES
O Quadro 21 serviu como base para a elaboração do Quadro 22, onde estão
representadas as incidências dos itens analisados. Em seguida serão apresentados
gráficos
com
a
finalidade
de
demonstrar
graficamente
as
porcentagens
encontradas.
Critérios
Relevância
Consta de forma
adequada
Consta
de
forma
inadequada
Não consta
Tag title
Meta tags
Description
Keywords
60%
30%
10%
30%
10%
30%
40%
60%
30%
QUADRO 22 – QUADRO PERCENTUAL DA RELEVÂNCIA OU NÃO RELEVÂNCIA DOS CRITÉRIOS
O Gráfico 1 mostra que a tag title, em 30% dos sites analisados, consta de
forma inadequada, em 10% não consta e em 60% está composta de forma
adequada. O alto índice de composição da tag title, possivelmente, se deve ao falo
da relevância que a tag proporciona no momento da indexação feita pelo Google.
87
Segundo Costa (2007) a tag title é de extrema importância para os motores de
busca e que deve ser, preferencialmente, constituída de forma mais elucidativa
possível.
GRÁFICO 1 - PERCENTUAL - TAG TITLE
A meta tag description não constou em 40% dos sites. Em apenas 30% das
páginas a meta tag foi inserida sem restrições (Gráfico 2). Não se entende essa
percentagem, uma vez que, como diz Miygusku (2007), a meta tag descrição é a
mais externa, o que delimita a definição do conteúdo da página. Uma das razões
para o uso negativo pode ser explicado pelo desconhecimento da funcionalidade
existente das meta tags.
88
GRÁFICO 2 - PERCENTAGEM META TAG DESCRIPTION
As palavras-chave também não foram usadas corretamente. Segundo o
Gráfico 3, 60% das páginas analisadas adotaram a meta tag de palavras-chaves de
forma inadequada e 30% não adotaram, totalizando 90%. Tal situação gera
irrelevância para os motores de busca, no caso deste trabalho, para o motor de
busca Google.
GRÁFICO 3 - PERCENTAGEM META TAG KEYWORDS
89
6 CONSIDERAÇÕES FINAIS
A Biblioteconomia estuda várias formas de disponibilizar informações aos
usuários, o que faz pensar que os profissionais da área vão sempre procurar
estruturar conteúdos de forma mais facilitada à recuperação. Os bibliotecários
exercem para muitos indivíduos apenas o papel de mero arrumador de livros e
estão extremamente ligados a esse modo tradicional estabelecido como definição
da profissão. Atualmente esses profissionais vem redesenhando vários conceitos
estabelecidos com relação ao ofício, flexibilizando o ingresso em vários ramos e
estabelecendo respeito entre as outras profissões.
A informação como objeto de trabalho dos bibliotecários tem a sua natureza
maleável, o que permite que outros produtos sejam criados ou extraídos, como por
exemplo, espaços na Web ou livros digitais. Essa flexibilidade e o poder que a
informação apresenta, produz/exige uma série de mudanças para que chegue ao
usuário de forma mais simples possível.
A Internet e a Web estão no cotidiano das formas de acesso e/ou divulgação
da informação. Com isso vários profissionais tem buscado um uso cada vez mais
intenso das tecnologias disponíveis. Ao considerar a implantação das novas
tecnologias e entender que são poderosas ferramentas de divulgação da
informação, o bibliotecário, de certa forma, apresenta as novas vertentes que a
profissão pode adotar.
Nesse ambiente, o objetivo deste trabalho foi realizar um estudo sobre as
estratégias que os usuários podem utilizar ao disponibilizar conteúdos no ambiente
Web para que sejam indexados pelo Google e, posteriormente, recuperados de
forma mais precisa quando buscados. Os sites analisados foram escolhidos
conforme condições explicadas anteriormente, focando em espaços relacionados a
assuntos de Biblioteconomia.
Após a revisão teórica foi possível identificar que ainda que fossem páginas
relacionadas aos profissionais da informação, não houve a devida preocupação em
estruturar os conteúdos seguindo os critérios estabelecidos por mecanismos de
busca como o Google usa para indexar páginas. Para se chegar a essa conclusão,
analisou-se três itens fundamentais na constituição de uma página na Web: a tag
90
title e as meta tags description e keywords. A tag title apresentou um índice de
60% de uma relevância na categoria “Consta de forma adequada”. Possivelmente o
indicador se deve ao fato de que no momento da criação da página os usuários
geralmente atribuem um título ao conteúdo disponibilizado.
Desse modo, após a análise das páginas percebe-se que apesar de todas as
home pages estarem ligadas a assuntos de biblioteconomia, bem como os seus
respectivos responsáveis serem profissionais da informação, que nenhuma delas
teve os três critérios estudados classificados como “Consta de forma adequada”.
Não se entende os principais problemas de otimização encontrados nos sites, uma
vez que são a composição do código fonte da página e que são visíveis pelos spiders
dos motores de busca. Apesar de o bibliotecário estar vinculado a uma imagem
antiquada, as mudanças econômicas, políticas e sociais conseqüências da
globalização,
influenciaram
e
vem
influenciando
no
comportamento
dos
profissionais, o que exige mudanças de paradigmas em suas habilidades. O fato de
algumas páginas da Web estarem arranjadas de forma ambígua, isto pode ser
explicado de diversas maneiras, como: a formação profissional (o estudo de
práticas antigas, sem abordar conceitos atuais), o manuseio de ferramentas
computacionais por pessoas que não tenham conhecimento e a falta de atualização
profissional, etc.
Sugere-se, então, que os sites analisados refaçam as configurações
estabelecidas com a finalidade de serem considerados pelo Google quando o
conteúdo da página for cabível a pesquisa realizada. Para que essa situação mude é
preciso um reforço maior no que diz respeito à constituição do código HTML da
página, de forma que seja favorável a recuperação.
Ao concluir este trabalho, fica claro que o campo de estudo da indexação
feita pelos motores de busca para posterior recuperação é embrionário e induz a
novos estudos. Partindo dessa premissa, as reflexões aqui desempenhadas tem
como finalidade ampliar a discussão sobre a necessidade de se haver preocupação
com a forma que as informações estão sendo disponibilizadas no ambiente Web e
de agir como instrumento capaz de sugerir estudos futuros na área que permitam
um enfoque mais extenso da natureza da indexação automática. Propiciando,
ainda, uma concepção mais aprofundada dos métodos/compreensões, oriundas da
Ciência da Computação, que a Ciência da Informação deve agregar.
91
REFERÊNCIAS
ABREU, K. C. K. História e usos da Internet. Biblioteca on-line de Ciência da
Comunicação, 2009. Disponível em: <http://www.bocc.uff.br/pag/abreu-karenhistoria-e-usos-da-internet.pdf>. Acesso em: 03 set. 2010.
AMORIM, S. R. L.; CHERIAF, M. Sistema de indexação e recuperação de informação
em construção baseado em ontologia. In: Encontro de Tecnologia de Informação e
Comunicação na Construção Civil, 3., 2007, Porto Alegre. Anais eletrônicos...
Porto
Alegre:
ISAEC,
2007.
Disponível
em:
<http://www6.ufrgs.br/norie/tic2007/artigos/A1115.pdf>. Acesso em: 13 jun.
2010.
AQUINI, M. C. Hipertexto 2.0, folksonomia e memória coletiva: um estudo das tags
na
organização
da
Web.
E-Compós,
ago.
2007.
Disponível
em:
<http://www.compos.org.br/seer/index.php/e-compos/article/view/165/166>.
Acesso em: 10 set. 2010.
ARAÚJO JÚNIOR, R. H. Precisão no processo de busca e recuperação da
informação. Brasília: Thesaurus, 2007. 175 p.
BALAN, W. C. Tim Berners-Lee: o pai da Internet. 2006. Trabalho apresentado
como requisito parcial para aprovação na Disciplina Cibercomunicação I,
Comunicação Social, Universidade Metodista de São Paulo, São Paulo, 2006.
Disponível
em:
<http://www.willians.pro.br/textos_publicados/tim_berners_lee_o_pai_da_interne
t.doc>. Acesso em: 31 ago. 2010.
BARBOSA, A. S. N. Orkut: o espaço que possibilita a Visibilidade e a Imortalidade.
In: CONGRESSO BRASILEIRO DE CIÊNCIAS DA COMUNICAÇÃO, 32., 2009, Curitiba.
Anais
eletrônicos...
Curitiba:
Intercom,
2009.
Disponível
em:
<http://www.intercom.org.br/
premios/2009/AlineBarbosa.pdf>. Acesso em: 13 maio 2010.
BARROS, P. P. Possibilidades educativas da Internet. 2002. 70 f. Trabalho de
Conclusão de Curso (Especialização) – Faculdade de Educação – FACED,
Universidade
Federal
do
Ceará,
Fortaleza,
2002.
Disponível
em:
<https://www.multimeios.ufc.br/arquivos/pc/monografias/Monografia_Priscila.pdf
>. Acesso em: 14 set. 2010.
BARRETO, A. A. A eficiência técnica e econômica e a viabilidade de produtos e
92
serviços de informação. Ciência da Informação, v. 25, n. 3, 1996. Disponível em:
<http://revista.ibict.br/index.php/ciinf/article/download/466/425>. Acesso em:
05 out. 2010.
BASTOS, J. Breve história da World Wide Web. Gambelas, PT: DEEI, 2006. 8 p.
Disponível em: <http://intranet.deei.fct.ualg.pt/ADI/web-history.pdf?q=ADI/webhistory.pdf>. Acesso em: 02 set. 2010.
BAX, M. P. As bibliotecas na Web e vice-versa. Perspectivas em Ciência da
Informação, Belo Horizonte, v. 3, n. 1, p. 5-20, jan./jun. 1998. Disponível em: <
http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/view/14/375>.
Acesso em: 02 set. 2010.
BIBLIOTECA Virtual do Governo do Estado de São Paulo. História da biblioteca e do
bibliotecário no mundo e no Brasil. São Paulo: Biblioteca Virtual de São Paulo,
2007.
Disponível
em:
<http://www.bibliotecavirtual.sp.gov/br/especial/docs/200703hIstoriadabiblio
teca.pdf>. Acessado em: 30 abr. 2010.
BLATTMANN, U.; FACHIN, G. R. B.; RADOS, G. J. V. Recuperação da informação
eletrônica pela Internet. Revista ABC, v. 4, n. 4, p. 9-27, 1999. Disponível em:
<http://revista.acbsc.org.br/index.php/racb/article/view/376/454>. Acesso em:
12 set. 2010.
BORSATO, G. G. et al. Recuperação de informação em situações de urgênciaemergência no atendimento pré-hospitalar. Revista Eletrônica de Sistemas de
Informação,
v.
5,
n.
3,
2006.
Disponível
em:
<http://revistas.facecla.com.br/index.php/reinfo/article/view/549/434>. Acesso
em: 13 jun. 2010.
BRAND, G. B; FARIA, T. G. GOGETIT: Um método de indexação Web baseado em
redes peer-to-peer. In: WORKSHOP DE REDES PEER-TO-PEER, 2., 2006, Curitiba.
Anais
eletrônicos…
Curitiba:
BDBComp,
2006.
Disponível
em:
<
http://www.lbd.dcc.ufmg.br:8080/colecoes/wp2p/2006/st1_2.pdf>. Acesso em:
13 de maio 2010.
BREVE, F. A. Engenharia para a Web. São Paulo: UFSCar, 2002. 25 p. Disponível
em: <http://fabricio.skooterweb.com/trabalhos/engenharia_web.pdf>. Acesso em:
30 ago. 2010.
BRUZINGA, G. S.; MACULA, B. C. M. S.; LIMA, G. A. B. O. Indexação automática e
semântica: estudo da análise do conteúdo de teses e dissertações. In: ENCONTRO
93
NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO - ENANCIB, 8., 2007, Salvador.
Anais
eletrônicos...
Salvador:
ENANCIB,
2007.
Disponível
em:
<http://www.enancib.ppgci.ufba.br/artigos/GT2--117.pdf>. Acesso em: 14 set.
2010.
BUENO, S. B. Utilização de recursos informacionais na educação. Perspectivas em
Ciência da Informação, v.14, n. 1, p. 66-76, jan./abr. 2009. Disponível em:
<http://www.scielo.br/pdf/pci/v14n1/v14n1a06.pdf>. Acesso em: 14 set. 2010.
CAMPOS, F; BAX, M. P. Como os mecanismos de busca da web indexam páginas
HTML. In: CONGRESSO BRASILEIRO DE BIBLIOTECONOMIA E DOCUMENTAÇÃO, 2000,
Rio Grande do Sul. Anais eletrônicos... Rio Grande do Sul: FEBAB, 2000. Disponível
em:
<http://www.bax.com.br/research/publications/ComoMaquinasBuscaIndexamPagin
asWeb.pdf>. Acesso em: 17 set. 2010.
CARMONA, T. Segredos do Google. São Paulo: Direrati Books, 2006. 128 p.
CARSODO, O. N. P. Recuperação de informação. Inforcomp, v. 2, n. 1, p. 33-38,
2000. Disponível em: <http://www.dcc.ufla.br/infocomp/artigos/v2.1/art07.pdf>.
Acesso em: 13 jun. 2010.
CASTRO,
A.
indexação
manual
versus
indexação
automática:
estudo comparativo preliminar da eficiência de recuperação da informação na
internet.
Usina
de
Letras,
2001.
Disponível
em:
<http://www.usinadeletras.com.br/exibelotexto.php?cod=172&cat=Teses_Monolog
os&vinda=S>. Acesso em: 14 set. 2010.
CENDÓN, B. V. Ferramentas de busca na Web. Ciência da Informação, Brasília, v.
30,
n.
1,
p.
39-49,
2001.
Disponível
em:
<http://www.scielo.br/pdf/ci/v30n1/a06v30n1.pdf>. Acesso em: 20 out. 2010.
CINTRA, A. M. M. Elementos de lingüística para estudos de indexação. Ciência da
Informação, Brasília, v. 12, n. 1, p. 5-22, 1983. Disponível em:
<http://revista.ibict.br/index.php/ciinf/article/view/1526/1144>. Acesso em: 13
jun. 2010.
COSTA, C. J. Desenvolvimento para web. Lisboa, PT: Lusocredito, 2007. 660 p.
COSTA, M.; SILVA, M. J. Ranking do motor de busca tumba. In: CONFERÊNCIA DE
REDES DE COMPUTADORES, 4., 2001, Covilhão, PT. Anais eletrônicos... Covilhão,
PT:
CRC,
2001.
Disponível
em:
94
<http://www.fccn.pt/crc2001/pdf/artigos/crc2001_211_a25vf.pdf>. Acesso em: 09
set. 2010.
CUNHA, M. B. Para saber mais: fontes de informação em ciência e tecnologia.
Brasília: Briquet de Lemos, 2001.
CURTY, R. G. Web 2.0: plataforma para o conhecimento coletivo. In: TOMAÉL, M. I.
(Org.). Fontes de Informação na Internet. Londrina: EDUEL, 2008. p. 53-78.
ENGELMANN, F. Web marketing no webdesign: a influência do marketing de
otimização de busca (mob) na comunicação digital. 96 f. Trabalho de Conclusão de
Curso (Curso de Comunicação Social – Habilitação Publicidade e Propaganda)–
Instituto de Ciências Sociais Aplicadas, Centro Universitário Feevale, Novo
Hamburgo,
2006.
Disponível
em:
<http://ged.feevale.br/bibvirtual/Monografia/MonografiaFelipeEngelmann.pdf>.
Acesso em: 29 out. 2010.
FELIPINI, D. Sites de busca: como trazer milhares de visitantes para sua loja
virtual.
São
Paulo:
ABCcommerce,
2010.
54
p.
Disponível
em:
<http://pareaki.com/E-Commerce/abc-busca/abc-busca.pdf>. Acesso em: 11 out.
2010.
FREOA, W. A mensagem publicitária na Internet: a imagem refletida da
gratificação. In: CONGRESSO BRASILEIRO DE CIÊNCIAS DA COMUNICAÇÃO, 28., 2005,
Rio de Janeiro. Anais eletrônicos... Rio de Janeiro: Intercom, 2005. Disponível
em: <http://galaxy.intercom.org.br:8180/dspace/bitstream/1904/17461/1/R10491.pdf>. Acesso em: 30 ago. 2010.
FUJINO, A.; JACOMINI, D. D. Produtos e serviços de informação na sociedade do
conhecimento: da identificação ao uso. In: GIANNASI-KAIMEN, M. J.; CARELLI, A. E.
(Orgs.). Recursos informacionais para compartilhamento da informação:
redesenhando acesso, disponibilidade e uso. Rio de Janeiro: E-papers, 2007. p. 7397.
GIL, A. C. Métodos e técnicas de pesquisa social. São Paulo: Atlas, 2009.
GOOGLE Central do Webmaster. Ajuda das Ferramentas do Google para
Webmasters.
Disponível
em:
<http://www.google.com/support/Webmasters/bin/anSwer.py?answer=70897
&hl=pt-BR#2>. Acesso em: 13 maio 2010.
95
GOOGLE Informações corporativas. Visão geral da empresa. Disponível em:
<http://www.google.com.br/corporate/>. Acesso em: Acesso em: 13 maio 2010.
GOOGLE. Tire o máximo partido do seu conteúdo: um manual para editores da
web. 24 p.
LANCASTER, F. W. Indexação e resumos: teoria e prática. 2. ed. Brasília: Briquet
de Lemos, 2004. 452 p.
LIMA, G. A. B. Interfaces entre ciência da informação e ciência cognitiva. Ciência
da Informação, Brasília, v. 32, n. 1, p. 77-87, 2003.
LOH, S.; WIVES, L. K.; FRAINER, A. S. Uma abordagem para busca contextual de
documentos na internet. Revista de Informática Teórica e Aplicada – RITA, Porto
Alegre,
v.
4,
1997.
Disponível
em:
<http://www.leandro.wives.nom.br/ptbr/publicacoes/RITA.pdf>. Acesso em: 13
jun. 2010.
MAIA, L. C.; SOUZA, R. R. Uso de sintagmas nominais na classificação automática
de documentos eletrônicos. Perspectivas em Ciência da Informação, v. 15, n. 1,
p.
154-172,
jan./abr.
2010.
Disponível
em:
<http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/viewFile/875/717>.
Acesso em: 10 set. 2010.
MAIMONE, G. D.; SILVEIRA, N. C. Cognição humana e os Paradigmas da Ciência da
Informação. Revista Eletrônica Informação e Cognição, v. 6, n. 1, p. 55-67, 2007.
Disponível
em:
<http://74.125.155.132/scholar?q=cache:wbSAYzFzQ4J:scholar.google.com/
+explos%C3%A3o+documental&hl=pt-BR&as_sdt=2000>.Acesso em: 16 jun. 2010.
MARCONDES, C. H.; SAYAO, L. F. Documentos digitais e novas formas de
cooperação entre sistemas de informação em C&T. Ciência da Informação,
Brasília,
v.
31,
n.
3, 2002.
Disponível
em:
<http://www.scielo.br/Scielo.php?script=sci_arttext&pid=S010019652002000
300005&lng=en&nrm=iso>. Acesso em: 30 abr. 2010.
MERCADO, L. P. L. A Internet como ambiente de pesquisa na escola. In: MERCADO,
L. P. L. (Org.). Novas tecnologias na educação: reflexões sobre a prática. Maceió:
EDUFAL, 2002. p. 191-204.
MIYAGUSKU, R. Crie sites arrasadores. São Paulo: Digerati Books, 2007. 128 p.
96
MORAES, R. A.; DIAS, A. C.; FIORENTI, L. M. R. A As tecnologias da informação e
comunicação na educação: perspectivas de Freire e Bakhtin. UNIrevista, São
Leopoldo,
v.
1,
n.
3,
2006.
Disponível
em:
<http://www.alaic.net/ponencias/UNIrev_Moraes_e_outros.pdf>. Acesso em: 07
set. 2010.
MONTEIRO, L. A Internet como meio de comunicação: possibilidades e limitações.
In: CONGRESSO BRASILEIRO DA COMUNICAÇÃO, 24., 2001, Campo Grande. Anais
eletrônicos...
Campo
Grande:
Intercom,
2001.
Disponível
em;
<http://www.jack.eti.br/www/arquivos/documentos/trabalhos/fae/Trabalho_Red
es_Adinarte_26032008.pdf>. Acesso em: 29 ago. 2010.
MONTEIRO, S. D. Os mecanismo de busca: a guisa de uma tipologia das múltiplas
sintaxes. In: TOMAÉL, M. I. (Org.). Fontes de informação na Internet. Londrina:
EDUEL, 2008. p. 97-122.
MOSCATO, M.; ZUBEN, V. Uma visão geral de clusterização de dados. São Paulo:
DCA/FEEC/Unicamp,
2000.
Disponível
em:
<ftp://ftp.dca.fee.unicamp.br/pub/docs/vonzuben/ia368_02/topico5_02.pdf>.
Acesso: 09 out. 2010.
NIELSEN. J; LORANGER, H. Usabilidade na Web: projetando Websites com
qualidade. Rio de Janeiro: Elsevier, 2007. 406 p.
NOGUTI, V. Fontes de informação e sua utilização em processos decisórios não
estruturados. 2000. 174 f. Dissertação (Mestrado em Administração)- Faculdade de
Economia, Administração e Contabilidade. Universidade de São Paulo, São Paulo,
2000. Disponível em: < http://worldcat.org/oclc/55920028>. Acesso em: 05 out.
2010.
PINHO, J. B. Jornalismo na Internet: planejamento e produção da informação online. 3. ed. São Paulo: Summus, 2003. 282 p. (Coleção Novas Buscas em
Comunicação, 71).
REZENDE, A. M. G. Hipertexto: tramas e trilhas de um conceito contemporâneo.
Informação & Sociedade: estudos, João Pessoa, v. 10, n. 1, p. 13-33, 2000.
Disponível em: <http://dci2.ccsa.ufpb.br:8080/jspui/handle/123456789/574>.
Acesso em: 30 ago. 2010.
RIBEIRO, J. Classificação/indexação. Sistemas de informação: arquivos. 2006.
Disponível
em:
97
<http://joaquim_ribeiro.web.simplesnet.pt/Arquivo/pdf/class_index_pdf.pdf>.
Acesso em: 13 jun. 2010.
RIBEIRO, O. B.; VIDOTTI, S. A. B. G. Otimização do acesso à informação científica:
discussão sobre a aplicação de elementos da arquitetura da informação em
repositórios digitais. Biblios, Rio Grande, v. 23, n. 2, p. 105-116, 2009. Disponível
em:
<http://www.seer.furg.br/ojs/index.php/biblos/article/view/1309/593>.
Acesso em: 11 out. 2010.
ROBREDO, J. Documentação de hoje e de amanhã: uma abordagem revisitada e
contemporânea da Ciência da Informação e de suas aplicações biblioteconômicas,
documentárias, arquivísticas e museológicas. 4. ed. Brasília: Edição do autor, 2005.
409 p.
ROBREDO, J. Indexação automática de textos: uma abordagem otimizada e simples.
Ciência da Informação, Brasília, v. 20, n. 2, p. 130-136, jul./dez. 1991. Disponível
em: <http://revista.ibict.br/index.php/ciinf/article/view/1349/976>. Acesso em:
10 set. 2010.
ROCHA, R. P. Metadados, Web semântica, categorização automática: combinando
esforços humanos e computacionais para a descoberta e uso dos recursos da Web.
Em Questão, Porto Alegre, v. 10, n. 1, p. 109-121, jan./jun. 2004. Disponível em:
<http://seer.ufrgs.br/index.php/EmQuestao/article/view/86/1127>. Acesso em:
14 set. 2010.
SÁ, A.; BERTOCCHI, D. A Web 2.0 no ano de 2006. In: PINTO, M; FIDALGO, J.
(Coord.). Anuário 2006: a comunicação e os medias em análise. Minho, PT:
Projecto Mediasticópio: Centro de Estudos de comunicação
e
Sociedade:
Instituto de Ciências Sociais: Universidade do Minho, 2006. p. 33-43. Disponível em:
<http://www.lasics.uminho.pt/ojs/index.php/anu
ario2006/article/view/380/356>. Acesso em: 02 set. 2010.
SARACEVIC, T. Ciência da informação: origem, evolução e relações. Perspectiva
em Ciências da Informação, Belo Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996.
Disponível
em:
<http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/viewFile/235/22>.
Acesso em: 13 jun. 2010.
SILVA, F. M. Um estudo das contribuições do hipertexto para o fluxo da
informação em meio eletrônico. 2003. 105 f. Dissertação (Mestrado em Ciência da
Informação)- Pontifícia Universidade Católica de Campinas, Campinas, 2000.
Disponível
em:
<http://www.bibliotecadigital.puccampinas.edu.br/tde_busca/arquivo.php?codArquivo=6>. Acesso em: 03 out. 2010
98
TAVARES, T. et al. Os Motores de busca numa perspectiva cognitiva. In:
CONFERÊNCIA INTERNACIONAL DE TIC NA EDUCAÇÃO, 6., 2009, Braga. Anais
eletrônicos... Braga: Universidade do Ninho, 2009. Disponível em:
<http://repositorium.sdum.uminho.pt/bitstream/1822/9856/1/challenges_09_mot
ores.pdf>. Acesso em: 11 out. 2010.
TEIXEIRA, C. M. S; SCHIEL, U. A Internet e seu impacto nos processos de
recuperação da informação. Ciência da Informação, Brasília, v. 26, n. 1, jan/abr.
1997.
Disponível
em:
<http://www.scielo.br/scielo.php?pid=S010019651997000100009&script=sci_arttex
t&tlng=en<. Acesso em: 06 set. 2010.
TEIXEIRA, R. S. O uso ilícito dos Meta-Tags e a lesão ao Direito da Concorrência: a
normatização cível dos instrumentos utilizados pelos motores de busca no meio
virtual. Âmbito Jurídico, n. 73, 2010. Disponível em: <http://www.ambitojuridico.com.br/pdfsGerados/artigos/7198.pdf>. Acesso em: 11 out. 2010.
TOMAÉL, M. I.; ALCARÁ, A. R.; SILVA, T. E. Fontes de informação na internet:
critérios de qualidade. In: TOMAÉL, M. I. (Org.). Fontes de informação na
Internet. Londrina: EDUEL, 2008. p. 3-30.
VIANA, M. M. M. A Internet e o bibliotecário: a adaptação de habilidades
profissionais frente aos novos serviços. Porto Alegre: UFRGS, 1996. 11 p. Disponível
em: <http://www8.fgv.br/bibliodata/geral/docs/060704.pdf>. Acesso em: 30 ago.
2010.
VISE, D. A.; MALSEED, M. Google: a história de negócio de mídia e tecnologia de
maior sucesso dos nossos tempos. Rio de Janeiro: Rocco, 2007. 349 p.
Download