Information Retrieval on the Web

Information Retrieval on the Web
Neste artigo os autores procuram detalhar o estado corrente da recuperação de informação na
Web. É também neste artigo descrita sumariamente a situação actual da Internet e são
fornecidos recursos para obter mais informação sobre os vários assuntos tratados.
No que diz respeito à utilização de motores de pesquisa, é referido o crescimento da utilização
destes e de outras ferramentas de pesquisa na Web. São também referidas as características
que tornam um motor de pesquisa competitivo e os defeitos mais apontados pelos utilizadores.
Para além destes defeitos, é interessante salientar o desnivelamento do tráfico na Web referido
(50% do tráfico na Web dirige-se para os 900 sites mais populares). É também mencionado
que provavelmente não serão encontrados métodos de gestão eficientes para este problema
no futuro próximo. São também nesta secção referidos sites que avaliam motores de pesquisa.
Segundo os autores, as classificações variam bastante dependendo das fontes, sendo portanto
importante consultar várias.
Em seguida, o artigo fornece estatísticas relativas ao crescimento da Internet. É de salientar
que a maior parte das projecções referidas apontam para um crescimento exponencial tanto do
número de utilizadores da Internet como do número de páginas Web e hosts existentes,
embora os valores específicos variem entre as várias estimativas. Segundo uma destas
estimativas, o volume de dados existente duplica de oito em meses e , em Agosto de 1998,
representava 3 milhões de megabytes. A crescente quantidade de dados indica uma
necessidade cada vez maior de utilizar ferramentas de pesquisa para encontrar a informação
desejada na Web.
São depois descritos os vários factores utilizados na avaliação de motores de pesquisa.
Embora seja referido que os utilizadores da Web têm em grande conta factores de
performance, como o tempo de resposta do motor de pesquisa em causa, são também
referidos factores de avaliação da recuperação de informação clássica, como a precisão e o
recall. É de salientar que a precisão para os resultados que aparecem na primeira página é,
para os utilizadores, um factor mais importante que a precisão total. Por outro lado, o recall
dificilmente poderá ser medido, já que na Internet é praticamente impossível determinar o
número total de documentos relevantes, sendo este valor necessário para determinar o recall.
Nesta secção do artigo são introduzidas as noções de páginas Authority (páginas que contém
uma grande quantidade de informação relevante), e páginas Hub (páginas que têm
hiperligações para páginas Authority). É também referido que os factores qualitativos, e não os
qualitativos, devem ser tomados em conta quando a avaliar um motor de pesquisa.
Relativamente à classificação e recuperação de documentos na Web, é salientado no artigo
que os algoritmos clássicos não se aplicam necessariamente à realização destas operações na
Web. Este facto deve-se, principalmente, ao número de utilizadores em simultâneo de um dado
motor de pesquisa (que não pode ser previsto) e à quantidade de documentos a processar
(que não é comparável à quantidade existente nas bases de dados normais). Outro problema é
a grande diversidade na estrutura dos documentos existentes na Web, que torna difícil um
tratamento uniforme da informação neles contida.
O artigo em causa examina algoritmos para a indexação, agrupamento e classificação de
documentos na Web. Relativamente à indexação, são apresentadas várias definições, e quatro
métodos de indexação: humana ou manual, automática, inteligente ou baseada em agentes e
indexação baseada em metadata, RDF, ou anotações. É interessante verificar, como é referido
no artigo, que a intersecção dos documentos indexados pelos principais motores de pesquisa
representa um conjunto pequeno de documentos, e que nenhum motor de pesquisa cobre mais
de 16% da Web. Relativamente à indexação humana, embora seja hoje em dia utilizada por
alguns motores de pesquisa, os autores preveêm que a crescente quantidade de informação
na Web torne-os obsoletos. A indexação humana é no entanto considerada mais precisa que a
indexação automática. A indexação baseada em agentes é cada vez mais utilizada,
apresentando no entanto algumas desvantagens: os agentes podem sobrecarregar os
servidores das páginas que pesquisam e algumas páginas são actualizadas várias vezes ao
dia, podendo os agentes obter informação desactualizada. Por outro lado, alguns websites
mantêm deliberadamente. A indexação baseada em metadata tem encontrado problemas no
que diz respeito à obtenção de um standard utilizado por todos os produtores de informação
para a Web. Estima-se que as metatags são utilizadas em apenas 34% dos websites na
Internet, enquanto que os outros standards de metadata têm percentagens de utilização
insignificantes.
A operação de agrupamento diz respeito à realização de testes para verificar as semelhanças
entre um documento e a interrogação do utilizador e as semelhanças entre documentos
processados. São também descritas no artigo as duas principais categorias de agrupamento,
hierárquico e não hierárquico, e os métodos existentes de agrupamento: por intersecção de
palavras, por intersecção de frases e agrupamento suffix tree.
Em relação a interfaces, são referidos os meta-searchers, motores de pesquisa que permitem a
pesquisa simultânea noutros motores de pesquisa, interfaces visuais, em que a informação é
modelada de forma a ser transmitida não apenas textualmente, e acústicos, em que a
informação é transmitida e recebida por meios sonoros.
Relativamente a algoritmos de classificação de documentos, o artigo refere brevemente alguns
algoritmos vectoriais, descrevendo algumas noções básicas destes. São também mencionados
os algoritmos estatísticos e a utilização das estruturas de hiperligações para determinação da
qualidade de uma página Web.
Por fim, o artigo em causa aborda direcções futuras para a recuperação de informação na
Web. São referidos neste espaço novas utilizações de agentes inteligentes, a possível
importância futura da recuperação de informação para o comércio electrónico e os possíveis
desenvolvimentos na recuperação de informação multimédia.
Como comentário final, é um artigo que abrange uma grande quantidade de assuntos relativos
à recuperação de informação na Web e fornece uma grande quantidade de apontadores para
informação adicional sobre cada assunto. É de salientar, no entanto, que muitos dos websites
referidos já não se encontram on-line (o que era esperado pelos próprios autores).