Esta tendência não é exclusiva de pesquisas e recuperação de

Propaganda
UNIVERSIDADE DO PORTO
FACULDADE DE ENGENHARIA
-Mestrado em Gestão de Informação-
Onde se fazem comentários anunciados como o sendo ao texto “The
Seven Ages of Information Retrieval” e se vem a verificar falhar-se
redondamente nesse propósito.
Francisco Barbedo
Trabalho para a disciplina de
“Armazenamento e Recuperação
da
Informação”
da
Professora
Cristina Ribeiro
PORTO
Junho 2001
O texto escolhido para ser comentado foi o “seven ages of information
retrieval”. Tal como o original, este mini-ensaio procura seguir uma
estrutura dividida por vários assuntos e focados em diagonal ao longo do
texto citado, procurando manter, senão coerência estrutural e semântica
(seria pedir demais!), pelo menos alguma robustez sintáctica. Não deverá
portanto haver razão para espanto se a meio da leitura do mesmo se achar
que nada tem a ver com o que era suposto e anunciado ter!
I
Devo dizer que considero a recuperação de informação um tema árido! A
informação - seja lá o que isso for- existe -seja lá onde- e para servir
propósitos - sejam eles quais forem-, tem de localizada e recolhida, seja lá
como.
A recuperação de informação vem portanto nos últimos degraus de uma
longa e laboriosa cadeia de processos e práticas que lhe dão razão de
existir.
II
A tendência referida no texto para os processos de recuperação de
informação passarem a existir num ambiente digital não é exclusiva. Ao
contrário esta possibilidade acompanha a crescente produção electrónica de
objectos informativos sejam eles quais forem. A produção electrónica de
informação potencia claramente a possibilidade de aplicação de técnicas
baseadas na informática para a sua recuperação. Note-se no entanto que a
recuperação de informação está ainda muito dependente de trabalho
manual de indexação e análise de informação. Paradoxalmente enquanto a
automatização e robotização surge em outras áreas técnicas, científicas e
industriais neste campo o discernimento humano sobrepõe-se ao seu
homólogo electrónico. A inteligência artificial está longe de ter atingido a
sua maturidade ou sequer a compreensão do limiar das suas reais
possibilidades.
Por outro lado coloca-se-nos a dúvida de até que ponto a recuperação de
informação terá intermediários humanos –para além da interpretação da
2
mesma-, ie, indivíduos em princípio especializados capazes de proporcionar
linhas condutoras, facultar pistas e “reinterpretar informação” de acordo
com as necessidades expressas daqueles que a procuram. Os arquivistas e
bibliotecários (antes os primeiros que os segundos!) sempre foram os guias
ou guardiães da informação; e mesmo para além do sentido anedótico
eventualmente associado à profissão, emerge e consolida-se a noção de
facilitadores ou intermediários inevitáveis entre informação e utilizadores.
Em suma actores essenciais na recuperação de informação. O problema é
se a qualidade de informação recuperada se manterá idêntica
independentemente de existir actores vocacionados para orientar os
“infoseekers” ou se estes forem deixados por sua própria conta e risco
independentemente da sofisticação e eficiência de motores de pesquisa
postos à sua disposição!
Curiosamente, ou se calhar não tanto como isso, a tendência tem-se
alterado na medida em que cada vez mais é desejada acção humana no
processo de recuperação de informação. Na realidade isto acompanha e o
que se constata, p.e, no desenvolvimento de projectos de software. O
modelo em cascata, de uma forma geral impermeável à participação de
elementos que não os especialistas puros e duros levava ao incremento de
custos e de complexidade ou mesmo ineficiência das soluções construídas!
A prototipagem, o desenvolvimento cuidadoso de requisitos funcionais
detalhados e de uma forma geral a aproximação de utilizadores de base,
mas muito mais conhecedores do que há uma década atrás, da equipa de
projecto dão sem dúvida resultados mais rentáveis e vantajosos.
III
Quanto ao processo de evolução da RI, mencionado no texto como tortuoso
diria que nenhum processo evolutivo é linear, isto é, desenvolve-se de
forma ainda não totalmente clarificada mas caracterizada por avanços e
retrocessos por vezes incompreensíveis. Não sabemos no entanto se o que
chamamos retrocessos o são na realidade, ou se trata de descrito em
sentido metafórico, “recuar para saltar mais longe” . Há um processo
curioso subjacente a toda a evolução considerada numa perspectiva de
longo termo.
3
Como exemplo paradigmático aponto a evolução das espécies ou o processo
de hominização e dentro deste, p.e. , o homo neandartalensis, considerado
como fisiologicamente retrógado comparativamente a antepassados seus
mas no entanto tecnologicamente avançado. Ganhos e perdas; avanços e
recuos...pelo menos aparentes. Numa perspectiva de investigação
operacional seria legítimo considerarmos a evolução como uma série de
“tradeoffs” sucessivos.
O facto de em alguns aspectos a tecnologia e a ciência não terem
progredido tanto quanto o potencialmente esperado (se calhar almejado?) e
noutros ter avançado para além de expectativas antecipadas pode ser
considerado como uma demonstração da complexidade probabilística da
evolução científica.
A teoria sociológica da ciência materializa duas aproximações curiosas em
que se podem enquadrar o desenvolvimento científico : A aproximação
tradicional de formulação de hipóteses, teste das mesmas e conclusões daí
extraídas que levarão à formulação de novas hipóteses estendidas ao longo
de um processo iterativo e contínuo. Ou por outro lado –e refiro a teoria de
Kuhn- o conhecimento científico evolui através de cortes epistemológicos
necessariamente abruptos. Tome-se, p.e., o desenvolvimento da RI ter ser
precursor de por um lado o desenvolvimento de indústria de computadores
e a Internet, trazendo como reverso da medalha a diminuição de qualidade
da informação devido ao brutal aumento de produção e a acessibilização da
mesma.
IV
Os parâmetros de precisão e revocação reportando-se respectivamente a
fracção de documentos recuperados que são relevantes e de documentos
relevantes recuperados, atenta para a importância de desenvolver
parâmetros de avaliação de desempenho que permitam aferir do
funcionamento de qualquer sistema e se necessário introduzir correcções a
desvios e disfunções eventualmente detectadas.
Curioso é o facto de na área de recuperação de informação apenas serem
considerados como suficientes dois, pelo menos dois grande e tradicionais
critérios dos quais eventualmente outros são construídos. Mais curioso
ainda será o facto de aparentemente bastarem para aferir com eficácia do
4
comportamento de sistemas de recuperação de informação, pese embora a
avaliação da qualidade seja tida como um problema delicado no âmbito da
área.
Um aspecto curioso relativamente à terminologia normalmente utilizada na
área diz respeito à tricotomia dados, informação e documentos. Esta
aparente disparidade no entanto é totalmente assumida como
idiossincrática por vários autores (RIJSBERGEN, 2000). No entanto não
posso deixar de observar que destes três termos aparentemente
“informação” estará a mais!
V
A internet e a abundância tipológica de formatos de documentos aí
colocados levantou problemas inusitados no que toca a RI. A multimédia
por ser particularmente complexa exige processos heurísticos na sua
abordagem. A superabundância de documentos e unidades informativas,
dispersas e anarquicamente ligadas leva à impossibilidade de localizar
informação num universo por natureza desregulado e sem possibilidades
ou desejo de ordenação. A necessidade de mecanismos disciplinadores ou
pelo menos normativamente solucionadores deste problema tornou-se
incontornável.
Neste área o problema do copyright é exemplo paradigmático dos esforços
disciplinadores nesta área.
E no fim o que temos? Segundo o texto analisado duas possibilidades
cumulativas: O que pode correr mal e o que pode correr bem. Sendo que a
conjunção poderia ser substituída por uma afirmação conclusiva: Algo vai
correr mal e algo vai bem ... se calhar ao mesmo tempo...
Mas de novo estamos perante evolução o que não é de todo o tema deste
ensaio ou de qualquer área desta disciplina!
5
Download