UNIVERSIDADE DO PORTO FACULDADE DE ENGENHARIA -Mestrado em Gestão de Informação- Onde se fazem comentários anunciados como o sendo ao texto “The Seven Ages of Information Retrieval” e se vem a verificar falhar-se redondamente nesse propósito. Francisco Barbedo Trabalho para a disciplina de “Armazenamento e Recuperação da Informação” da Professora Cristina Ribeiro PORTO Junho 2001 O texto escolhido para ser comentado foi o “seven ages of information retrieval”. Tal como o original, este mini-ensaio procura seguir uma estrutura dividida por vários assuntos e focados em diagonal ao longo do texto citado, procurando manter, senão coerência estrutural e semântica (seria pedir demais!), pelo menos alguma robustez sintáctica. Não deverá portanto haver razão para espanto se a meio da leitura do mesmo se achar que nada tem a ver com o que era suposto e anunciado ter! I Devo dizer que considero a recuperação de informação um tema árido! A informação - seja lá o que isso for- existe -seja lá onde- e para servir propósitos - sejam eles quais forem-, tem de localizada e recolhida, seja lá como. A recuperação de informação vem portanto nos últimos degraus de uma longa e laboriosa cadeia de processos e práticas que lhe dão razão de existir. II A tendência referida no texto para os processos de recuperação de informação passarem a existir num ambiente digital não é exclusiva. Ao contrário esta possibilidade acompanha a crescente produção electrónica de objectos informativos sejam eles quais forem. A produção electrónica de informação potencia claramente a possibilidade de aplicação de técnicas baseadas na informática para a sua recuperação. Note-se no entanto que a recuperação de informação está ainda muito dependente de trabalho manual de indexação e análise de informação. Paradoxalmente enquanto a automatização e robotização surge em outras áreas técnicas, científicas e industriais neste campo o discernimento humano sobrepõe-se ao seu homólogo electrónico. A inteligência artificial está longe de ter atingido a sua maturidade ou sequer a compreensão do limiar das suas reais possibilidades. Por outro lado coloca-se-nos a dúvida de até que ponto a recuperação de informação terá intermediários humanos –para além da interpretação da 2 mesma-, ie, indivíduos em princípio especializados capazes de proporcionar linhas condutoras, facultar pistas e “reinterpretar informação” de acordo com as necessidades expressas daqueles que a procuram. Os arquivistas e bibliotecários (antes os primeiros que os segundos!) sempre foram os guias ou guardiães da informação; e mesmo para além do sentido anedótico eventualmente associado à profissão, emerge e consolida-se a noção de facilitadores ou intermediários inevitáveis entre informação e utilizadores. Em suma actores essenciais na recuperação de informação. O problema é se a qualidade de informação recuperada se manterá idêntica independentemente de existir actores vocacionados para orientar os “infoseekers” ou se estes forem deixados por sua própria conta e risco independentemente da sofisticação e eficiência de motores de pesquisa postos à sua disposição! Curiosamente, ou se calhar não tanto como isso, a tendência tem-se alterado na medida em que cada vez mais é desejada acção humana no processo de recuperação de informação. Na realidade isto acompanha e o que se constata, p.e, no desenvolvimento de projectos de software. O modelo em cascata, de uma forma geral impermeável à participação de elementos que não os especialistas puros e duros levava ao incremento de custos e de complexidade ou mesmo ineficiência das soluções construídas! A prototipagem, o desenvolvimento cuidadoso de requisitos funcionais detalhados e de uma forma geral a aproximação de utilizadores de base, mas muito mais conhecedores do que há uma década atrás, da equipa de projecto dão sem dúvida resultados mais rentáveis e vantajosos. III Quanto ao processo de evolução da RI, mencionado no texto como tortuoso diria que nenhum processo evolutivo é linear, isto é, desenvolve-se de forma ainda não totalmente clarificada mas caracterizada por avanços e retrocessos por vezes incompreensíveis. Não sabemos no entanto se o que chamamos retrocessos o são na realidade, ou se trata de descrito em sentido metafórico, “recuar para saltar mais longe” . Há um processo curioso subjacente a toda a evolução considerada numa perspectiva de longo termo. 3 Como exemplo paradigmático aponto a evolução das espécies ou o processo de hominização e dentro deste, p.e. , o homo neandartalensis, considerado como fisiologicamente retrógado comparativamente a antepassados seus mas no entanto tecnologicamente avançado. Ganhos e perdas; avanços e recuos...pelo menos aparentes. Numa perspectiva de investigação operacional seria legítimo considerarmos a evolução como uma série de “tradeoffs” sucessivos. O facto de em alguns aspectos a tecnologia e a ciência não terem progredido tanto quanto o potencialmente esperado (se calhar almejado?) e noutros ter avançado para além de expectativas antecipadas pode ser considerado como uma demonstração da complexidade probabilística da evolução científica. A teoria sociológica da ciência materializa duas aproximações curiosas em que se podem enquadrar o desenvolvimento científico : A aproximação tradicional de formulação de hipóteses, teste das mesmas e conclusões daí extraídas que levarão à formulação de novas hipóteses estendidas ao longo de um processo iterativo e contínuo. Ou por outro lado –e refiro a teoria de Kuhn- o conhecimento científico evolui através de cortes epistemológicos necessariamente abruptos. Tome-se, p.e., o desenvolvimento da RI ter ser precursor de por um lado o desenvolvimento de indústria de computadores e a Internet, trazendo como reverso da medalha a diminuição de qualidade da informação devido ao brutal aumento de produção e a acessibilização da mesma. IV Os parâmetros de precisão e revocação reportando-se respectivamente a fracção de documentos recuperados que são relevantes e de documentos relevantes recuperados, atenta para a importância de desenvolver parâmetros de avaliação de desempenho que permitam aferir do funcionamento de qualquer sistema e se necessário introduzir correcções a desvios e disfunções eventualmente detectadas. Curioso é o facto de na área de recuperação de informação apenas serem considerados como suficientes dois, pelo menos dois grande e tradicionais critérios dos quais eventualmente outros são construídos. Mais curioso ainda será o facto de aparentemente bastarem para aferir com eficácia do 4 comportamento de sistemas de recuperação de informação, pese embora a avaliação da qualidade seja tida como um problema delicado no âmbito da área. Um aspecto curioso relativamente à terminologia normalmente utilizada na área diz respeito à tricotomia dados, informação e documentos. Esta aparente disparidade no entanto é totalmente assumida como idiossincrática por vários autores (RIJSBERGEN, 2000). No entanto não posso deixar de observar que destes três termos aparentemente “informação” estará a mais! V A internet e a abundância tipológica de formatos de documentos aí colocados levantou problemas inusitados no que toca a RI. A multimédia por ser particularmente complexa exige processos heurísticos na sua abordagem. A superabundância de documentos e unidades informativas, dispersas e anarquicamente ligadas leva à impossibilidade de localizar informação num universo por natureza desregulado e sem possibilidades ou desejo de ordenação. A necessidade de mecanismos disciplinadores ou pelo menos normativamente solucionadores deste problema tornou-se incontornável. Neste área o problema do copyright é exemplo paradigmático dos esforços disciplinadores nesta área. E no fim o que temos? Segundo o texto analisado duas possibilidades cumulativas: O que pode correr mal e o que pode correr bem. Sendo que a conjunção poderia ser substituída por uma afirmação conclusiva: Algo vai correr mal e algo vai bem ... se calhar ao mesmo tempo... Mas de novo estamos perante evolução o que não é de todo o tema deste ensaio ou de qualquer área desta disciplina! 5