ANÁLISE DOS SISTEMAS DE BUSCA NA WEB

Propaganda
ANÁLISE DOS SISTEMAS DE BUSCA NA WEB
GISELE VASCONCELOS DZIEKANIAK*
RESUMO
O estudo aborda o cenano informacional no qual a sociedade da
informação está inserida, buscando exaltar a importância na classificação
e recuperação da informação na Internet. Analisa as diferenças, bem
como os pontos positivos e negativos das classes de sistemas de busca
mais utilizados e conhecidos atualmente - motores de busca, diretórios e
rnetaferramentas - e comenta brevemente as ferramentas híbridas, que
mesclam características dos motores de busca e dos diretórios. Estas
classificações baseiam-se na técnica de análise documental dos helps e
revisão bibliográfica. Aponta os principais critérios de relevância utilizados
por estes sistemas na indexação dos documentos para a inserção dos
mesmos em suas bases de dados, evitando a recuperação do lixo
informacional pelo usuário, no momento da consulta. Aborda a questão da
multidisciplinaridade entre profissionais da informação envolvidos no
processo de criação e avaliação dos sistemas de busca, a fim de que
estes profissionais entrem em consenso acerca da criação e utilização
destas novas tecnologias.
Internet; sistemas de busca; motores de busca; diretórios;
metaferramentas; web; ferramentas híbridas.
PALAVRAS-CHAVE:
1 - INTRODUÇÃO
Mais de 500 bilhões de páginas! Essa é a gama de documentos
que compunha a Internet no final do ano 2000. Porém, um número
exorbitante de informação já estava armazenado na rede em 1992,
época em que surgiu o primeiro sistema de busca, com o objetivo de
btimizar o processo de localização e recuperação dessa informação.
Os primeiros sistemas surgiram na tentativa de pôr ordem ao
caos instaurado anteriormente com a explosão documental, e um pouco
mais tarde, com a Internet, servindo de repositório para o boom
informacional devido à disseminação da informação através do suporte
* Bacharel em Biblioteconomia pela FURG; Bibliotecária da UNIFRA; Mestranda em
Engenharia de Produção, linha de pesquisa em Tecnologia da Informação, pela UFSM,
Santa Maria, RS.
Biblos. Rio Grande, 14: 171-184,2002.
171
que se assemelhava aos OPACs 1 utilizados atualmente pelas bibliotecas.
Há quase dez anos, a web já sofria do mal da desordem
informacional e da dificuldade do pesquisador/estudante/leitor
e dos
profissionais
envolvidos
no processo
de preparação,
indexação,
armazenamento e recuperação da informação, em gerenciar a informação.
O novo milênio iniciou-se com propostas de novos sistemas de
busca, como a disseminação
das metaferramentas
(que serão
apresentadas mais adiante no item 2.3 e com a constatação de que
ainda não se resolveu a problemática da busca e acesso à informação
no ciberespaço, e de fatores como a dificuldade para manter atualizados
seus catálogos (a Internet é muito dinâmica, sites e links novos estão
sendo inseridos constantemente na rede), prejudicando a qualidade na
disseminação da informação.
Este trabalho busca analisar quais políticas de organização e
principalmente
de indexação
de documentos/páginas
devem ser
tomadas, e o que já está sendo realizado para enfrentar tais dificuldades
até mesmo em relação ao armazenamento dos documentos na "Digital
order"de Levy (1995).
Com base no conhecimento
tácito, através de testes com
consultas a sistemas de busca como o Cadê? e o Google, sabe-se que
os sistemas existentes
atualmente
não satisfazem
as principais
necessidades dos seus usuários.
Isto pode ocorrer por vários motivos: quer devido às falhas
provenientes
dos programas que ainda não utilizam a inteligência
artificial a seu favor ou falhas na criação de algoritmos mais eficientes,
quer porque os próprios sistemas de busca trouxeram consigo a
problemática do congestionamento no tráfego de dados.
Nos itens a seguir, serão abordados tipos de sistemas de busca
existentes atualmente no universo virtual, bem como serão discutidas
diferenças entre estes sistemas, suas especificidades e peculiaridades,
critérios de relevância adotados para a formação/indexação
de suas
bases de dados, além de abordar a atual problemática enfrentada pelo
profissional da informação envolvido no processo de gerenciamento da
informação.
2 - SISTEMAS DE BUSCA
Devido à grande quantidade
de informações
na Internet e
dificuldades em acessá-Ias, houve a necessidade do desenvolvimento
de sistemas que, além de armazená-Ias, fornecessem também o seu
acesso através de buscas, como foi mencionado anteriormente. A estes
sistemas dá-se o nome de sistemas de busca, ou mecanismos de
busca, ou Buscadores, ou search engines, entre outras nomenclaturas.
Porém, neste trabalho far-se-á referência a eles como sistemas de
busca, por uma questão de padronização do termo, como também por
ser uma das denominações mais utilizadas na literatura brasileira.
Um sistema de busca, segundo Moura (2001), é um conjunto
organizado constituído de computadores,
índices, bases de dados e
algo ritmos com o objetivo de analisar e indexar páginas da rede e
armazená-Ias em uma base de dados. O usuário faz uma Consulta e o
sistema de busca pesquisa em sua base de dados, retornando ao
usuário, através da interface web, os resultados recuperados
na
pesquisa.
É interessante esclarecer que, ao realizar uma pesquisa, o
usuário não está pesquisando dados diretamente na web, e sim em uma
base de dados que armazena as cópias dos sites por ela indexados.
Existem oficialmente três classes de sistemas de busca. São
elas: motores de busca, diretórios e metaferramentas.
Há uma quarta
divisão, não tão consistente
como as anteriormente
citadas - as
ferramentas híbridas - mas que não são consideradas como sistema
de busca devido ao fato de serem uma mescla da utilização de
diretórios e de motores de busca. Porém, como poderá ser visto no
item 2.4, as ferramentas híbridas estão se revelando como a melhor
forma de busca, uma vez que permitem ao usuário customizar e
ajustar a sensibilidade e a qualidade da busca, dependendo da sintaxe
adotada e da profundidade objetivada nos resultados de uma pesquisa
via rede.
2.1 - Motores de busca
Um motor de busca é um tipo específico de sistema de busca,
assim como diretórios e metaferramentas.
Surgiu após o sistema de
busca por diretório,
porém trouxe algumas vantagens,
como a
velocidade no rastreamento de novos sites a serem indexados em sua
base de dados e a presença de programas criados para efetuar e
otimizar estas inserções, os chamados robôs.
Segundo a enciclopédia digital Webopedia (2000), motores de
busca são
Programas
que pesquisam
em documentos
por palavras-chave
especificadas e recuperam uma lista de documentos onde as palavraschave foram encontradas.
OPAC: Online Public Access Cataloging, ou seja, Catálogo Online de Acesso Público.
São os catálogos de bibliotecas disponíveis em rede, para consulta às suas bases de
dados bibliográficos.
1
172
Biblos,
Rio Grande,
14: 171-184,
2002.
Biblos,
Rio Grande,
14:171-184,
2002.
173
[Este] (...) trabalha enviando um robô (spider') para buscar o maior
volume de documentos possível. Outro programa, chamado indexador, lê
esses documentos e cria um índice baseado nas palavras contidas em
cada documento. Cada mecanismo de busca" usa um algoritmo próprio
para criar seu índice de tal modo que, em condições ideais, só resultados
significativos sejam recuperados para cada busca.
Os motores de busca possuem três componentes
principais.
São
eles:
a) um programa de computador
denominado
robot, spider
(aranha), crawler (rastejadores),
wanderers (viajantes), knowbot,
worm (verme), web-bot ou simplesmente robô, que percorre os sites
ou páginas armazenadas na web e, ao chegar em cada site, cria uma
cópia ou réplica do texto contida na página visitada e guarda essa cópia
para si. Essa cópia ou réplica vai compor a sua base de dados.
b) uma base de dados, constituída das cópias efetuadas pelo
robô. Essa base de dados, às vezes também denominada índice ou
catálogo, fica armazenada
no computador,
chamado servidor do
mecanismo de busca.
c) um programa de busca propriamente dito. Esse programa de
busca é acionado cada vez que alguém realiza uma pesquisa. Nesse
instante, o programa sai percorrendo a base de dados do motor de
busca dos endereços - os URL3 - das páginas que contêm as palavras,
expressões
ou frases informadas
na consulta.
Em seguida, os
endereços encontrados são apresentados ao usuário.
Há bibliografias que abordam um quarto componente, que seria a
interface. Preferiu-se neste trabalho não entrar no mérito da interface,
uma vez entendido que todo sistema de busca trabalha via browser, e
através da Internet, o que a priori identifica o cenário no qual os
sistemas de busca estão inseridos.
A outra maneira de o motor de busca encontrar os sites na web é
o autor do site informar a este motor de busca qual o endereço, o URL,
deste site. Todos os motores têm um quadro reservado para o
cadastramento,
submissão ou inscrição de novas páginas. É um
hiperlink, que recebe diversas denominações conforme o sistema de
busca.
Buscou-se em Cendón (2001, p. 41) esclarecimento
sobre as
estratégias para inserção de documentos da web:
Lê-se motor de busca ao invés de mecanismos de busca, pois trata-se de sistemas que
utilizam robôs.
3 URL: Uniform Resource
Locetot: é um endereço único na Internet, composto pelo nome
do arquivo, diretório, nome do servidor e o método como ele será requisitado.
2
[...]Existem várias estratégias que os robôs podem utilizar para se
locomoverem
de um documento
a outro, utilizando-se
dos links
existentes nas páginas da Web. Geralmente, eles iniciam a busca a partir
de sites conhecidos, especialmente daqueles que possuem muitos links,
recuperam a sua home page e, sistematicamente,
seguem os links
encontrados
nesta página inicial. Usam algoritmos
próprios
para
determinar que links devem seguir. Por exemplo, alguns recuperam os
documentos da hierarquia superior de um grande número de servidores
(abordagem breadth-first) [busca em largura], enquanto outros capturam
todos os documentos em links de um mesmo servidor (abordagem depthfirst) [busca em profundidade].
2.2 - Diretórios
Para conceituar diretórios, não basta dizer que vêm a ser um tipo
de sistema de busca no qual a indexação das páginas da web é
realizada por pessoas, como informam muitos trabalhos presentes na
literatura.
Um diretório também precisa ser questionado quanto às suas
metodologias de trabalho na recuperação, armazenagem e organização
da informação. O mesmo apresenta dois componentes principais:
a) uma base de dados, também chamada de índice ou catálogo;
b) um programa de computador que faz a pesquisa na base de
dados.
A montagem ou criação da base de dados de um diretório é
realizada por pessoas, que fazem a análise e a indexação dos sites da
web. Nos diretórios, não existem robôs para a catalogação
e a
indexação dos documentos.
Enquanto os motores de busca copiam todo o conteúdo das
páginas que encontram pela frente e mantêm tudo isso em suas bases,
os diretórios mantêm em suas bases de dados apenas um resumo do
conteúdo dos sites por eles catalogados.
Muitas vezes esse resumo, que fica na base de dados do
diretório, contém apenas o título do site e mais duas ou três frases sobre
o assunto nele contido. Esse resumo tanto pode ser elaborado pelo
autor da página ou por quem a submete, como por um indexador,
dependendo do diretório.
O diretório tem a mesma finalidade dos motores de busca, ou
seja, a indexação e a recuperação de páginas da web. Eles têm a
mesma finalidade, porém existem duas diferenças fundamentais entre
os diretórios e os mecanismos de busca.
Umas das diferenças é no modo como o diretório encontra na
web os sites a serem por ele indexados. Enquanto o programa robô do
motor de busca toma, ou pode tomar, a iniciativa de sair "visitando" os
Biblos, Rio Grande, 14: 171-184,2002.
174
Biblos, Rio Grande, 14: 171-184, 2002.
175
sítes e suas páginas pela web, o diretório espera que o autor do síte e
das páginas apresente-os a ele (demais diferenças serão abordadas no
item 3).
A seguir, tem-se o quadro explicativo
do diretório
demonstrando como é feito o cadastramento de um site.
QUADRO 1 - Modo de cadastramento
Cadê?
de sites no Diretório Cadê.
1. Como é feito o cadastro dos sites pelo Cadê?
O processo de construção do catálogo exige um grande esforço
de qualidade e atenção, garantindo um serviço de qualidade aos
usuários.
A partir da solicitação de inclusão de um site por seu responsável,
a nossa equipe editorial verifica:
a. se o site realmente existe no endereço fornecido;
b. se a descrição está de acordo com o conteúdo do site;
c. se a descrição sugerida está coerente, objetiva e clara para os
usuários e;
d. a inclusão do site na categoria mais adequada do catálogo.
Após estes 4 passos terem sido seguidos criteriosamente,
o
endereço é catalogado. São em média 5000 solicitações de
inclusão por semana.
O prazo para colocar seu site no ar é de aproximadamente
10
dias úteis, mas hoje, com investimentos feitos na nossa equipe
editorial, esse prazo tem sido menor
2. Pedi a inclusão do meu site há bastante tempo, mas até
agora, nada. O que houve?
Os cadastros são revisados um a um por nossa equipe editorial
para assegurar a qualidade do catálogo e com isso um site pode
levar até 10 dias úteis para ser cadastrado. Caso esse prazo
tenha expirado e seu site ainda não esteja cadastrado, mande um
e-mail com as informações de sua inclusão. Verificaremos o que
aconteceu e lhe daremos.
FONTE: Site Cadê? URL: www.cadê.com.br
2.3 - Metaferramentas
As metaferramentas são sistemas de busca que utilizam as bases
de dados tanto dos motores de busca quanto dos diretórios para realizar
uma pesquisa na web.
As metaferramentas
(também denominadas
metamotores
e
multibuscadores)
não possuem base de dados própria. Devido a isto,
Biblos,
176
Rio Grande,
14: 171·184,
2002.
procuram em vários sistemas de busca ao mesmo tempo, sendo esta
sua principal vantagem em relação aos motores de busca e aos
diretórios.
Este tipo de ferramenta é indicado quando não se encontram
muitos resultados ao pesquisar em um só sistema. Pode também ser
utilizado para verificar quais sistemas individuais trazem as melhores
respostas e fornecer uma visão geral do que cada ferramenta contém
sobre um tópico com fins de seleção de um sistema específico para uma
busca mais expandida.
Devido a esta peculiaridade,
as metaferramentas
são os
sistemas, segundo predições de especialistas no assunto, que mais
crescerão
no cíberespaço,
uma vez que poupam o tempo do
pesquisador na busca pela informação e compilam resultados.
É preciso não confundir uma metaferramenta
com alguns
sistemas existentes no ambiente web que perguntam ao usuário, no
momento da consulta, em qual buscador ele deseja efetuar sua
pesquisa.
Estas são na verdade pseudometaferramentas,
pois apenas
disponibilizam uma interface onde vários sistemas são listados sem que
exista um mecanismo de busca integrado. Sendo assim, há uma caixa
para cada sistema, e as consultas são requisitadas e submetidas de
forma separada umas das outras; uma vez escolhido um sistema para
busca, esta opção exclui a busca nos demais sistemas.
Este tipo de procedimento
difere da forma com que uma
metaferramenta trabalha, porque esta não efetua a busca em um só
buscado r, e sim em vários buscadores simultaneamente,
poupando
dessa forma o tempo do seu usuário.
2.4 - Ferramentas híbridas
Como o próprio nome diz, ferramentas
híbridas são aqueles
sistemas de busca que se utilizam tanto de motores de busca (robô)
quanto de diretórios (pessoas) para inserir um sUe em sua base de
dados. Basicamente trabalham com o robô no momento da busca pelo
novo site a ser inserido na sua base de dados e utilizam a mão-de-obra
humana no momento da indexação destes novos sites.
O Google é um representante destes sistemas, assim como o
Lycos, o Yahoo e outros. Essa iniciativa otimizou o processo de busca
na rede, uma vez que o usuário pode adaptar a ferramenta certa para o
tipo de busca desejada. Alguns autores arriscam-se em fazer previsões
de que em um futuro próximo não haverá sistemas somente com uma
modalidade de busca. A tendência será os sistemas híbridos.
Biblos,
Rio Grande,
14: 171·184,2002.
177
3 - CARACTERíSTICAS
E DIFERENÇAS
Os motores
de busca diferem
dos diretórios
por vanas
peculiaridades,
entre as quais destacamos as mais representativas
como a representação hierárquica, que vem a ser a forma como as
organizações das páginas são pefetuadas, ou seja, os motores de
busca "preocupam-se menos com a seletividade que com a abrangência
de suas bases de dados" Cendón (2000, p. 41), procurando anexar em
sua base o maior número possível de páginas sem atentar para a
qualidade e relevância do documento.
Outra diferença merecedora de destaque, já citada anteriormente
no momento da definição de cada tipo de sistema de busca, é a forma
de busca utilizada por estes sistemas: os motores de busca utilizam
robôs para efetuar a constante busca por novos sites a serem
catalogados
em suas
bases,
enquanto
os diretórios
utilizam
profissionais da informação (bibliotecários, ontologistas, indexadores)
para selecionar os novos sites, inferindo se estes possuem a qualidade
exigida (que está diretamente relacionada com as políticas de inserção
de cada diretório) para compor sua base de dados.
O diretório dispõe de uma equipe de editores (bibliotecários) que
visita o site e faz uma revisão do conteúdo. Uma vez aprovada a
inclusão, o site é inserido no índice do mesmo. Mas também existem os
diretórios sem editores, os quais aceitam as informações da maneira
que o autor submeteu e as arquivam no respectivo índice. Quando o
diretório adota o procedimento de apenas fazer a inclusão de um site
após a conferência dos indexadores, três situações podem acontecer:
a) talvez o site demore bastante tempo para aparecer na base de
dados. Depende da metodologia de cada diretório: alguns prometem
fazer a inclusão de um site no prazo de duas semanas, outros
estabelecem um prazo de até seis semanas;
b) talvez a página jamais seja indexada (pois seu conteúdo pode
não corresponder às expectativas do indexador);
c) talvez o site seja logo indexado e fique disponível para futuras
consultas.
As pessoas, ao contrário
dos programas
de computador,
possuem o que se chama critério de relevância. É segundo os critérios
de relevância que os editores vão avaliar se a página merece ou não
freqüentar os índices. Embora esses critérios não sejam divulgados,
apenas os melhores recursos são selecionados para a inclusão, que
deverá ser classificada em categorias e subcategorias. Quando a URL
do site for informada para que o diretório faça a indexação, também
deve informar a qual dessas categorias a página pertence.
Os motores de busca e os diretórios também diferem em outros
aspectos: tamanho, modo de cadastramento
e de atualização. Os
diretórios geralmente têm uma base de dados de menor tamanho que
os motores de busca, o que não significa que eles produzam resultados
inferiores, ao contrário. Devido ao modo de criação de sua base de
dados, geralmente eles têm um índice de relevância bem maior.
Outro aspecto a considerar é que enquanto um motor de busca
cadastra todas as páginas de um site uma a uma, um diretório cadastra
todo um site, evitando encontrar, nos resultados de uma pesquisa,
várias vezes a ocorrência do mesmo site.
As bases de dados dos motores de busca são, de uma maneira
geral, mais atualizadas do que as bases de dados dos diretórios. A
razão dessa maior atualidade é facilmente percebida. Os robôs não
dependem das pessoas para a atividade de indexação da web. Já os
diretórios dependem totalmente das pessoas para essa catalogação, o
que torna o trabalho mais moroso.
O tempo de espera, desde a apresentação de um site (ou URL) a
um motor de busca, até que ele venha a surgir nas pesquisas, pode ser
de um dia a três semanas. Nos diretórios, esse tempo de espera
geralmente é bem maior.
4 - CRITÉRIOS DE RELEVÂNCIA
Toma-se por critérios de relevância todo recurso utilizado pelos
sistemas de busca no momento da busca, indexação, recuperação e
forma de apresentação dos resultados (ordenação). São eles: tamanho
da base dados, indexação de documentos, inclusão de sites, ordenação
dos resultados, freqüência na atualização dos dados, cobertura.
Torna-se
difícil a identificação
dos critérios
de relevância
utilizados pelos sistemas de busca nos resultados das consultas.
Segundo
pesquisas
recentes,
pode-se destacar como uma das
principais dificuldades, a ação constante de alguns sites que trabalham
ativamente para impedir que os programas dos sistemas de busca
consigam acessar suas páginas, buscando proteger, desta forma, seus
direitos autorais.
A crescente quantidade
de conteúdos e documentos
novos
também é um dos fatores determinantes
da dificuldade que estes
sistemas têm em oferecer
bons resultados
para seus usuários
(relevância) .
Os critérios nos diretórios não são divulgados. Porém, crê-se que,
por serem indexados por bibliotecários e profissionais da informação,
utilizam o construto da área, ou seja, vocabulário controlado por tesauro,
Biblos, Rio Grande, 14: 171-184,2002.
178
Biblos, Rio Grande, 14: 171·184,2002.
179
além de utilizarem a linguagem de seus usuários (palavras mais usadas
nas buscas) para definir os termos destes tesauros.
4.1 - Critérios de indexação
Se um termo não estiver incluído no índice de um sistema de
busca, ele não será encontrado, portanto os critérios utilizados para
indexação influenciam os resultados das buscas.
A maioria dos motores indexa cada palavra do texto visível das
páginas, mas alguns extraem, em vez do texto completo, apenas a URL,
as palavras que ocorrem com freqüência ou as palavras e frases mais
importantes contidas no título ou nos cabeçalhos e nas primeiras linhas.
Também são indexados termos que não fazem parte do texto
visível, mas que contêm informações importantes e úteis, que são as
metatags para classificação, descrição e palavras-chave e texto AL T do
tag Image, ou seja, texto associado com imagens.
Alguns motores não incluem no seu índice algumas palavras do
texto, chamadas stop words (palavras proibidas), tais como preposições
e artigos, porque, além de serem irrelevantes em uma busca, ocupam
muito espaço de armazenamento,
por aparecerem com freqüência,
tornando a busca mais lenta.
4.2 - Critérios para inclusão
Alguns sistemas incluem todas ou a maioria das páginas
visitadas. Outros indexam os sites superficialmente,
ou seja, incluem
apenas a home page e algumas páginas principais.
Há páginas que não estão presentes em nenhum motor de busca.
São aquelas páginas que requerem senhas para acesso (o robô não
tem acesso a elas), bem como páginas em HTML que contenham o
metatag Meta Robot "noindex". O metatag Robot «META
name=
"robots" contente "noindex"» pode ser acrescentado aos marcadores de
cabeçalho pelo criador da página para indicar aos robôs que eles não
devem capturá-Ia.
Existe dentro da Internet uma parte denominada web invisível, por
incluir páginas não indexadas pela maioria dos motores de busca. São
as páginas que contêm tremes', image-maps e as páginas dinâmicas.
No caso de páginas que contêm trames, é comum ver-se sites com mais
de 100 páginas que somente têm indexada a sua homepage. O Google
e o Altavista são alguns dos poucos motores que indexam trames. Mas
Frame: Vem a ser, de acordo com CRUMLlSH (1997, p. 97) uma "moldura. Um bloco de
dados que, para ser transmitido por uma rede, foi emoldurado com um cabeçalho (header)
4
e um bloco de finalização
180
não trazem o contexto em que elas estão inseridas.
Páginas dinâmicas também são difíceis para os robôs, pois são
montadas no momento da formulação da busca, no momento em que o
usuário clica em um link. Caracterizam-se por conter quase sempre um
ponto de interrogação como parte da sua URL.
4.3 - Critérios para atualização
Devido à grande quantidade informacional presente na web, os
dados precisam ser atualizados. Os motores de busca comprometem-se
em atualizar suas bases de dados uma vez por mês. Porém, páginas
mais visitadas e que mudam com maior freqüência são atualizadas em
intervalos mais curtos. Novos URLs e links inativos descobertos pelos
robôs são atualizados diariamente.
Cada motor tem sua própria estratégia para manter-se atualizado.
Alguns passam cerca meses sem cadastrar novos sites em função
apenas das atualizações.
Há empresas,
como a Inktomi, que
disponibilizam programas que cobram uma taxa para inserir um site num
prazo de 48 horas.
4.4 - Critérios de ordenação
São os critérios considerados mais importantes numa busca. Com
a finalidade de permitir que os melhores sites sejam apresentados nas
primeiras posições, a maioria dos motores de busca utiliza algoritmos de
ordenação de resultados. Esses algoritmos utilizam critérios como:
- Localização e treqüência de ocorrência das palavras em uma
página, ou seja, se os termos de busca aparecem no título, nos
cabeçalhos de destaque ou nos primeiros parágrafos de uma página. Se
uma palavra aparece mais freqüentemente
em uma página que em
outra, a primeira seria mais relevante.
- Número de termos da consulta que estão presentes na página e
a proximidade em que os termos se encontram.
- Densidade
(tamanho
do documento):
quanto
menor
o
documento, mais denso. Ou seja, se dois documentos possuem o
mesmo número de repetições para uma palavra, o menor deles será
considerado mais relevante.
- Metatags de palavras-chave
e descrição: representação
do
conteúdo da página. Essas informações estão acessíveis nos metatags
de descrição ou de palavras-chave.
- Popularidade
dos links: refere-se ao número de links que
apontam para uma página. Quanto mais links indicando uma página,
maior relevância ela possui. Assim como, se os sites importantes
(trailer).
Biblos,
Rio Grande,
14: 171·184,2002.
Biblos,
Rio Grande,
14: 171-184,
2002.
181
referenciam uma página, ela também é considerada importante.
- Direct Hit: é um serviço na web que monitora quais os links que
milhares de usuários selecionam entre os resultados apresentados para
uma busca e quanto tempo permanecem nos sites selecionados. São
exemplos de motores que usam este serviço: HotBot, Lycos e
Metabusca.
- Conceitos (Análise Documental):
essa análise é realizada
através do uso de índices gerados por profissionais da informação. Os
resultados são organizados em pastas que representam conceitos ou
assuntos, tipos de sites ou idiomas. Os resultados de cada pasta são
ordenados por relevância.
- Spam: é um conjunto de métodos pouco ético para a promoção
de páginas através da repetição das palavras irrelevantes, porém muito
procuradas, para que as páginas sejam localizadas facilmente. Como
técnica usual de spam se têm os textos invisíveis (escritos da mesma
cor do fundo da página) que também são capturadas pelos robôs.
- Pagamento: técnica discutível que apresenta nas primeiras
posições dos resultados de buscas, os sites cujos autores pagaram para
estar entre eles.
5 - PROBLEMÁTICA
DOS SISTEMAS
DE BUSCA
Um dos maiores equívocos que se pode apontar na indexação de
documentos na web está atrelado ao pouco entrosamento entre os
profissionais da informação.
De um lado tem-se o profissional da informática, dividido entre
várias correntes de pesquisa sobre indexação na web dentro da ciência
da computação. Alguns grupos buscam melhorias através de linguagens
ontológicas, ou seja, linguagens utilizadas pela ciência da computação e
que têm sua origem na semântica (área da Lingüística), na utilização da
lógica de predicados (área abstrata que trabalha com a indexação
eletrônica não somente de termos mas também de códigos de
programação, e pode fazer uso de raciocínios mais simples, como a
lógica de Boole, tão conhecida da Biblioteconomia).
Outros grupôs
buscam a contribuição da Ciência da Computação para a busca na
Internet através da utilização de fórmulas estatísticas para mensurar os
termos mais utilizados dentro de um conjunto de documentos sobre o
mesmo assunto. Outros, ainda, seguem correntes que estudam o uso
da inteligência artificial para manipulação de termos indexáveis.
Por outro lado, temos os bibliotecários
que trabalham
em
diretórios que continuam a repetir a velha fórmula de indexação para
182
Biblos, Rio Grande, 14: 17", 84, 2002.
organizar uma base de dados com mais de 10.000 inserções diárias, da
mesma forma como catalogavam e indexavam livros em uma biblioteca.
Enfim, um profissional desconsidera a importância e existência do
outro. O informata desconsidera todo o construto da Biblioteconomia, ou
seja, os séculos de desenvolvimento de técnicas para o tratamento da
informação, no momento em que se envolve com a indexação como se
tivesse sido inventada por eles. E o bibliotecário, por sua vez, não
admite que o profissional da informática detém os meios tecnológicos e
lógicos para facilitar o seu trabalho.
6 - CONSIDERAÇÕES
FINAIS
O presente trabalho buscou fazer referências aos diferentes tipos
de sistemas de busca, diferenciando-os
através de metodologias de
trabalho e peculiaridades
no armazenamento,
indexação, inserção,
ordenação e recuperação da informação na Internet.
Apesar da evolução que houve, partindo dos diretórios - o
primeiro sistema de busca - seguidos dos motores de busca, até chegar
nas metaferramentas,
ainda não existe a qualidade almejada pelos
usuários.
Os sistemas de busca atuais não conseguem abranger nem 60%
do conteúdo total da web, o que demonstra falhas no seu propósito.
Predições são feitas por especialistas, no sentido de que as
metaferramentas
serão o futuro da Internet, uma vez que fazem uma
busca em vários sistemas concomitantemente,
assim poupando, o
tempo do usuário e expandindo a margem de acerto (relevância) de
uma consulta.
Algumas tentativas no ramo da Inteligência Artificial (IA) estão
sendo pesquisadas a fim de otimizarem o processo de organização e
buscas, como técnicas heurísticas e sistemas inteligentes, baseadas em
ontologias (lógica semântica) e/ou tesauros mais consistentes.
Os profissionais envolvidos precisam aliar seus conhecimentos, a
fim de estimular a disseminação da informação de qualidade. Enquanto
houver desconsideração da biblioteconomia para com a tecnologia da
informação
e vice-e-versa,
os resultados serão sempre inferiores
àqueles que poderiam ser obtidos se o trabalho para organizar a
informação na web fosse multidisciplinar, envolvendo todas as ciências
da informação:
biblioteconomia,
arquivística/documentação
e a
tecnologia da informação.
Os sistemas de busca na web têm muito a desenvolver, a fim de
acompanhar a acelerada produção intelectual, principalmente no que
tange à velocidade de recuperação da informação e à relevância da
Biblos, Rio Grande, 14: 171-184, 2002.
183
informação nos resultados encontrados nas pesquisas, enfim, todas as
categorias de otimização da disseminação da informação no espaço
virtual.
.
Isso
porque
principalmente
a
informação
publicada
e
disponibilizada na rede, na maioria das vezes, não está acessível em
nenhum outro suporte informacional além do digital e o seu acesso
envolve (ou deveria envolver) o crescimento cultural da sociedade do
conhecimento, sociedade da informação, ou seja qual for o nome que se
quiser dar ao período cultural que se está vivendo.
BIBLIOGRAFIA
1. ALENCAR, Maria Simone de M. Mecanismos de busca na web: uma análise da
metodologia de estudos comparados. 2000. 95f. Dissertação (Mestrado em Ciência da
Informação) - Escola de Comunicação, Universidade Federal do Rio de Janeiro, Rio de
Janeiro.
2. ALMEIDA, Rubens Queiroz de. Vortais. Revista de Informação e Tecnologia: Universo
Internet.
Campinas:
Unicamp.
Disponível
em:
<http://www.revista.unicamp.br/infotec/internetlinternet161.htm>.Acessoem:25abr.de
2001.
3. CENDÓN, Beatriz Valadares. Ferramentas de busca na Web. Ciência da Informação,
Brasília, v. 30, n. 1, p. 39-49, janJabr. 2001.
4. CORNELLA, P. Avanços das ferramentas de busca. Infonomia. Disponível em:
<www.intexnet.com.br/polors/revistalinfonomia/20.htm>Acessoem:300ut.de
2001.
5. CRUMLlSH, Christian. O dicionário da internet um guia indispensável para os
internautas. Rio de Janeiro: Campus, 1997. 297p.
6.
LEVY,
David
M.
Cataloging
in
the digital
order. Disponível
em:
<http://csdl.tamu.edu/DL95/papers/lew/lew.html> Acesso em: 25 out. 2000.
7. MARTIN, Philippe; EKLUND, Peter W. Knowledge retrieval and the World Wide Web.
IEEE Intel/igent Systems. 2000 Disponível em: <http://www.ieeeinteligentsystems.com.br>
Acesso em: 2 novo2001.
8. MOURA, Gevilacio Aguiar Coêlho de. Sistemas de busca da web: diretórios e
mecanismos de busca. Disponível em: <www.guatrocantos.com.br>. Acesso em: 20 out.
de 2001.
9. SERACEVIC, Tekfo. Relevance: a review of and a framework for the thinking on the
notion in Information Science. Journal of the American Society for Information Science. V.
26, n.6,p. 321-343, 1975.
10. WEBOPEDIA . Disponível em: <www.webopedia.edu.br>. Acesso em: 20 out. 2001.
184
Biblos, Rio Grande, 14: 171-184,2002.
Download