Information Retrieval on the Web Neste artigo os autores procuram detalhar o estado corrente da recuperação de informação na Web. É também neste artigo descrita sumariamente a situação actual da Internet e são fornecidos recursos para obter mais informação sobre os vários assuntos tratados. No que diz respeito à utilização de motores de pesquisa, é referido o crescimento da utilização destes e de outras ferramentas de pesquisa na Web. São também referidas as características que tornam um motor de pesquisa competitivo e os defeitos mais apontados pelos utilizadores. Para além destes defeitos, é interessante salientar o desnivelamento do tráfico na Web referido (50% do tráfico na Web dirige-se para os 900 sites mais populares). É também mencionado que provavelmente não serão encontrados métodos de gestão eficientes para este problema no futuro próximo. São também nesta secção referidos sites que avaliam motores de pesquisa. Segundo os autores, as classificações variam bastante dependendo das fontes, sendo portanto importante consultar várias. Em seguida, o artigo fornece estatísticas relativas ao crescimento da Internet. É de salientar que a maior parte das projecções referidas apontam para um crescimento exponencial tanto do número de utilizadores da Internet como do número de páginas Web e hosts existentes, embora os valores específicos variem entre as várias estimativas. Segundo uma destas estimativas, o volume de dados existente duplica de oito em meses e , em Agosto de 1998, representava 3 milhões de megabytes. A crescente quantidade de dados indica uma necessidade cada vez maior de utilizar ferramentas de pesquisa para encontrar a informação desejada na Web. São depois descritos os vários factores utilizados na avaliação de motores de pesquisa. Embora seja referido que os utilizadores da Web têm em grande conta factores de performance, como o tempo de resposta do motor de pesquisa em causa, são também referidos factores de avaliação da recuperação de informação clássica, como a precisão e o recall. É de salientar que a precisão para os resultados que aparecem na primeira página é, para os utilizadores, um factor mais importante que a precisão total. Por outro lado, o recall dificilmente poderá ser medido, já que na Internet é praticamente impossível determinar o número total de documentos relevantes, sendo este valor necessário para determinar o recall. Nesta secção do artigo são introduzidas as noções de páginas Authority (páginas que contém uma grande quantidade de informação relevante), e páginas Hub (páginas que têm hiperligações para páginas Authority). É também referido que os factores qualitativos, e não os qualitativos, devem ser tomados em conta quando a avaliar um motor de pesquisa. Relativamente à classificação e recuperação de documentos na Web, é salientado no artigo que os algoritmos clássicos não se aplicam necessariamente à realização destas operações na Web. Este facto deve-se, principalmente, ao número de utilizadores em simultâneo de um dado motor de pesquisa (que não pode ser previsto) e à quantidade de documentos a processar (que não é comparável à quantidade existente nas bases de dados normais). Outro problema é a grande diversidade na estrutura dos documentos existentes na Web, que torna difícil um tratamento uniforme da informação neles contida. O artigo em causa examina algoritmos para a indexação, agrupamento e classificação de documentos na Web. Relativamente à indexação, são apresentadas várias definições, e quatro métodos de indexação: humana ou manual, automática, inteligente ou baseada em agentes e indexação baseada em metadata, RDF, ou anotações. É interessante verificar, como é referido no artigo, que a intersecção dos documentos indexados pelos principais motores de pesquisa representa um conjunto pequeno de documentos, e que nenhum motor de pesquisa cobre mais de 16% da Web. Relativamente à indexação humana, embora seja hoje em dia utilizada por alguns motores de pesquisa, os autores preveêm que a crescente quantidade de informação na Web torne-os obsoletos. A indexação humana é no entanto considerada mais precisa que a indexação automática. A indexação baseada em agentes é cada vez mais utilizada, apresentando no entanto algumas desvantagens: os agentes podem sobrecarregar os servidores das páginas que pesquisam e algumas páginas são actualizadas várias vezes ao dia, podendo os agentes obter informação desactualizada. Por outro lado, alguns websites mantêm deliberadamente. A indexação baseada em metadata tem encontrado problemas no que diz respeito à obtenção de um standard utilizado por todos os produtores de informação para a Web. Estima-se que as metatags são utilizadas em apenas 34% dos websites na Internet, enquanto que os outros standards de metadata têm percentagens de utilização insignificantes. A operação de agrupamento diz respeito à realização de testes para verificar as semelhanças entre um documento e a interrogação do utilizador e as semelhanças entre documentos processados. São também descritas no artigo as duas principais categorias de agrupamento, hierárquico e não hierárquico, e os métodos existentes de agrupamento: por intersecção de palavras, por intersecção de frases e agrupamento suffix tree. Em relação a interfaces, são referidos os meta-searchers, motores de pesquisa que permitem a pesquisa simultânea noutros motores de pesquisa, interfaces visuais, em que a informação é modelada de forma a ser transmitida não apenas textualmente, e acústicos, em que a informação é transmitida e recebida por meios sonoros. Relativamente a algoritmos de classificação de documentos, o artigo refere brevemente alguns algoritmos vectoriais, descrevendo algumas noções básicas destes. São também mencionados os algoritmos estatísticos e a utilização das estruturas de hiperligações para determinação da qualidade de uma página Web. Por fim, o artigo em causa aborda direcções futuras para a recuperação de informação na Web. São referidos neste espaço novas utilizações de agentes inteligentes, a possível importância futura da recuperação de informação para o comércio electrónico e os possíveis desenvolvimentos na recuperação de informação multimédia. Como comentário final, é um artigo que abrange uma grande quantidade de assuntos relativos à recuperação de informação na Web e fornece uma grande quantidade de apontadores para informação adicional sobre cada assunto. É de salientar, no entanto, que muitos dos websites referidos já não se encontram on-line (o que era esperado pelos próprios autores).