UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA BIBLIOTECA DIGITAL PARA DOCUMENTOS HISTÓRICOS. ESTUDO DE CASO: MEMÓRIAS DO GOLPE – O BRASIL DE 64 A 85. TRABALHO DE GRADUAÇÃO Aluno: Marcos Cardoso Junior ([email protected]) Orientadora: Flávia de Almeida Barros ([email protected]) Co-orientador: Marcos Galindo Lima (galindo@ ufpe.br) Recife, Março de 2005 Resumo O fosso que separa as fontes históricas e os pesquisadores é enorme. Nos dias de hoje, muitas vezes para um historiador ter acesso a um arquivo histórico, ele precisa deslocar-se até a instituição detentora de acervos, ultrapassando, inclusive, barreiras continentais. Desta forma, é de imensa necessidade a criação de uma nova ponte entre o universo tecnológico e o universo documental. Analisando a carência de sistemas com esse escopo, temos por objetivo principal criar uma biblioteca digital para a recuperação de informações históricas, seja ela de qualquer assunto ou de qualquer mídia, como texto, imagem, áudio e vídeo. Para o acesso a esses dados, foi criado um módulo para retornar ao usuário as pesquisas mais relevantes a sua consulta. Além disso, pretende-se implementar técnicas para alcançar o maior número de usuários possíveis acessando as informações contidas em nosso repositório. Com isso, faz-se necessário o uso de padrões de interoperabilidade que visam facilitar a disseminação eficiente de conteúdo. Assim, utilizamos a iniciativa do Open Archives, aliado ao conjunto de metadados Dublin Core no formato XML/RDF. O sistema ainda conta com um módulo administrativo, para a gerencia dos dados contidos no banco e um módulo para a visualização dos documentos históricos multimídia. Este módulo contém diversas funcionalidades para a melhor interação usuário-documento. O estudo de caso que iremos atacar é um projeto criado a partir da proposta do presente trabalho e que está sendo abrigado pelo laboratório Liber, UFPE. O projeto, denominado de Memórias do Golpe: o Brasil de 64 a 85, reúne documentos históricos dessa época, como entrevistas de militantes feitas pelo jornalista Samarone Lima e fatos históricos relevantes. Além disso, conseguimos acesso aos prontuários do DOPS de Pernambuco. Com isso o projeto será o primeiro no Brasil que disponibilizará esses documentos que estão gerando inúmeras discussões de publicação ou não na mídia nacional. A motivação principal do presente trabalho é a certeza que o mesmo é apenas o primeiro passo para um projeto de proporções bem maiores. E é também com o pensamento na pesquisa histórica, de qualquer tempo ou local, que propomos nosso trabalho. i Agradecimentos Ao Sport Club do Recife. ii Sumário 1. INTRODUÇÃO ............................................................................................... 5 2. CONTEXTO ................................................................................................... 8 2.1. Bibliotecas Digitais ........................................................................................................................... 8 2.1.1. Bibliotecas Digitais para Documentos Históricos ................................................................... 10 2.2. Recuperação da Informação .......................................................................................................... 10 2.3. Disponibilização do acervo ............................................................................................................ 11 2.3.1. Padrões de Metadados ............................................................................................................. 11 2.3.2. Open Archives Iniciative........................................................................................................... 11 2.4. 3. Considerações Finais ...................................................................................................................... 12 METODOLOGIA DE DESENVOLVIMENTO ............................................... 13 3.1. Projetos antecessores ...................................................................................................................... 13 3.1.1. Pergunte a Pereira da Costa ...................................................................................................... 13 3.1.2. Ultramar .................................................................................................................................... 13 3.2. Requisitos do Sistema ..................................................................................................................... 14 3.3. Base de Dados ................................................................................................................................. 14 4. APRESENTAÇÃO DOS RESULTADOS ..................................................... 15 4.1. O Sistema ......................................................................................................................................... 15 4.1.1. Funcionalidades ........................................................................................................................ 15 4.1.2. Arquitetura ................................................................................................................................ 15 4.2. A busca pelos documentos ............................................................................................................. 15 4.2.1. Aquisição da base ..................................................................................................................... 16 4.2.2. Etapas de preparação do documento ......................................................................................... 16 4.2.3. Processo de Recuperação de Documentos ................................................................................ 16 iii 4.2.4. 4.3. Testes e Resultados ................................................................................................................... 16 A disponibilização e acesso aos Documentos ................................................................................ 16 4.3.1. Open Archives Iniciative .......................................................................................................... 16 4.3.2. Padrão de Dados Dublin Core .................................................................................................. 16 4.4. 5. O Sistema Administrativo .............................................................................................................. 16 ESTUDO DE CASO: MEMÓRIAS DO GOLPE – O BRASIL DE 64 A 85 ... 17 5.1. Introdução ....................................................................................................................................... 17 5.2. Motivação ........................................................................................................................................ 17 5.3. O Projeto ......................................................................................................................................... 17 6. CONCLUSÕES E TRABALHOS FUTUROS ............................................... 18 7. BIBLIOGRAFIA ........................................................................................... 20 iv 1. Introdução De acordo com a Digital Library Federation (DLF)1, bibliotecas digitais são organizações que fornecem recursos para selecionar, estruturar, oferecer acesso intelectual, distribuir, preservar a integridade e garantir a permanência das coleções digitais, de tal forma que elas estejam disponíveis para uma ou várias comunidades. A maioria das bibliotecas digitais disponíveis, contudo, apresentam dificuldades quanto ao acesso das informações nelas contidas. Ora a pesquisa dar-se de forma complexa (com vários campos para o usuário preencher), ora os resultados obtidos não são relevantes. Alguma delas podem inclusive retornar documentos que interessem ao pesquisador, mas disponibilizam apenas a referência ao mesmo, sendo esse resultado da pesquisa muitas vezes inútil e a ida a uma biblioteca tradicional indispensável. Tratando-se de documentos históricos, a preocupação é ainda maior. Visitando algumas instituições que possuem acervos históricos, como a Gilberto Freyre2 e a Fundação Joaquim Nabuco3, percebe-se que muitos historiadores gostariam de ter acesso aos documentos sem precisar deslocar-se à instituição detentora do material. Não é raro, inclusive, pesquisadores de outros países visitarem essas instituições para pesquisar sobre algum assunto histórico específico. Bibliotecas digitais para documentos históricos disponíveis são poucas. Os problemas enfrentados pelas bibliotecas digitais para esse tema específico são os mesmos enfrentados pelas citadas acima. Espera-se, entretanto, que esses acervos documentais estejam disponíveis para o acesso de todos, eliminando o problema de ter que deslocar-se até a instituição detentora do material. Nas bibliotecas digitais pesquisadas, dificilmente isso ocorre. Para a visualização do documento, verificou-se que é necessário um módulo robusto e eficiente, pois os poucos sistemas que disponibilizam o documento, são lentos e de difícil acesso, com a necessidade de instalação de alguns plugins. O ideal também seríamos ter uma biblioteca digital não só de acervos com imagens ou texto, mas um acervo multimídia. Assim, o usuário poderia visualizar arquivos históricos do tipo texto, imagem, áudio ou vídeo. Além do mais quando se trata de acervos históricos, algumas vezes o documento é de difícil leitura, por motivos como o estado de conservação do material, a qualidade da digitalização realizada no documento original ou quando o documento é manuscrito. Assim sendo, seria de fundamental importância que juntamente com esse módulo, o usuário tenha condições de realizar transformações no documento para propiciar uma 5 melhor visualização do mesmo, com dois detalhes imprescindíveis: a usabilidade do módulo deve ser bastante satisfatória e o sistema não pode ficar carregado. Com o avanço das técnicas de Recuperação de Informação, pode-se gerar bibliotecas digitais que possuam poderosos sistemas de busca. As pesquisas efetuadas pelos usuários devem ser simples, os resultados os mais relevantes possíveis e com um tempo de resposta aceitável. Para atender todos esses requisitos, esse módulo do sistema deve atrair uma atenção especial para o desenvolvedor, com pesquisas na área e tomada de decisão da melhor técnica para o escopo de dados específico. Além do mais, quando falamos em bibliotecas digitais, devemos sempre pensar na disseminação eficiente do conteúdo. E isso não se dá apenas com o usuário tendo acesso a uma pesquisa. É preciso que o sistema possua recursos para disponibilizar tais informações para outros projetos e instituições, de modo a ampliar o acesso aos repositórios como um meio de aumentar a disponibilização, independentes do tipo de conteúdo oferecido. Para isso, verificou-se que a utilização da iniciativa Open Archives (OAI) é de fundamental importância. No contexto da OAI, a disponibilização das informação é dada através de Metadados. Trata-se de informação estruturada sobre recursos (digitais e não-digitais). Os metadados podem ser utilizados para viabilizar uma ampla série de operações nesses recursos. A biblioteca digital deve trazer em formato XML as principais informações do repositório, tornando-se um provedor de dados. Com a publicação de fundos arquivísticos em meio digital, não só teremos uma disponibilização em larga escala — o que proporcionará a qualquer pessoa ligada à Internet o acesso ao conteúdo documental —, mas sua virtual preservação. Para exemplificar o que será utilizado para construir a biblioteca digital para documentos históricos, decidimos atacar um assunto do interesse da maioria da população brasileira: a época da ditadura militar. Nossa intenção não é julgar ou condenar, e sim mostrar alguns fatos que marcaram a época para que usuários possam pesquisar sobre a época, facilitando a produção de novos trabalhos sobre temáticas humanas e sociais tão variadas quanto importantes. Este trabalho consiste em apresentar uma biblioteca digital para documentos históricos, com diversas técnicas, descrevendo detalhadamente cada uma delas. O restante deste documento está organizado em algumas seções. 6 Na seção 2 será apresentado o contexto em que o presente trabalho está inserido. Serão definidos alguns conceitos sobre bibliotecas digitais, detalhando alguns casos disponíveis na Internet. Serão também apresentados algumas técnicas de recuperação de informação, dentre as quais algumas serão usadas no sistema. Outro tópico abordado será como dar-se a disponibilização de acervos, relatando sobre alguns metadados e alguns padrões, como o Dublin Core e MARC21, além de descrever a iniciativa Open Archives. Na seção 3 será detalhada a metodologia de desenvolvimento do sistema. Serão relatados projetos que foram criados no laboratório Liber, da Universidade Federal de Pernambuco, que foram experimentos para a criação do presente trabalho. Ainda nessa seção serão definidos os requisitos do sistema e também de sua base de dados. A seção 4 traz a apresentação dos resultados. O que foi decidido para o sistema, suas funcionalidades e a arquitetura. Apresenta detalhadamente como foi implementada a busca pelos documentos, apresentando seus testes e resultados. Também informa como deu-se a disponibilização da documentação histórica, utilizando o Open Archives e o Padrão de Dados Dublin Core. Por fim, apresenta detalhes do sistema administrativo para alimentar e gerenciar as informações contidas no nosso repositório. A seção 5 mostra o estudo de caso do trabalho em questão, que foi o projeto Memórias do Golpe – O Brasil de 64 a 85. Nele é relatado como foi a decisão de escolher esse projeto como estudo de caso, quais documentos foram recolhidos e mostrando algumas imagens do sistema. A seção 6 trará conclusões e trabalhos futuros acerca do trabalho realizado. 7 2. Contexto O presente trabalho tem por objetivo apresentar uma biblioteca digital para documentos históricos. Pesquisas foram feitas juntos a instituições, como a Gilberto Freyre, e o sistema foi modelado para abrigar qualquer acervo histórico. O sistema ainda pode abrigar documentos formatos de qualquer mídia, como texto, áudio, vídeo ou imagem. A solução aqui proposta faz uso de técnicas de recuperação de informação textual para que os documentos retornados por um engenho de busca sejam relevantes ao que o usuário pesquisou. Além disso, também utiliza um sistema para a correta disseminação da informação, seguindo o contexto do Open Archives Iniciative (OAI). O propósito desta seção é apresentar alguns conceitos sobre bibliotecas digitais, listando algumas de escopo geral e outras específicas para documentos históricos. Apresentando seus problemas e possíveis soluções. Sendo a recuperação da informação uma área essencial ao presente trabalho, apresentamos algumas técnicas para o mesmo, suas vantagens e desvantagens. Ainda nessa seção apresentaremos com pode dar-se a disponibilização dos acervos, com uso de metadados e explicando o que se trata a inciativa Open Archives. Por fim, faremos algumas considerações finais do que foi tratado nessa seção, mostrando as melhores soluções para o escopo do projeto. 2.1. Bibliotecas Digitais Como o próprio nome já diz, biblioteca digital pode ser descrita como uma biblioteca sem um ambiente físico e com informação não mais atrelada ao suporte de papel impresso. Mas podemos encontrar na literatura muitos conceitos para o termo. “Bibliotecas digitais são organizações que fornecem recursos para selecionar, estruturar, oferecer acesso intelectual, distribuir, preservar a integridade e garantir a permanência das coleções digitais, de tal forma que elas estejam disponíveis para uma ou várias comunidades.” (Digital Library Federation). “Uma biblioteca que mantêm toda, ou uma parte substancial de sua coleção numa forma processável pelo computador como uma alternativa, suplemento ou complemento à forma impressa tradicional e material em 8 microfilme, que, atualmente, domina os acervos bibliográficos.” (W. Saffady, 1995) “Uma coleção organizada de dados multimídia com métodos de gerenciamento da informação, que representa os dados como informação útil e conhecimento para o povo numa variedade de contextos sociais e organizacionais.” (S. M. Griffin, NSF) “Coleção organizada de dados multimídia em rede.” (J. Mosata, Indiana Univ.). Documentos que fazem parte de uma Biblioteca Digital podem ser produzidos originalmente em formatos digitais - imagens, arquivos texto produzidos através de editores – ou podem ser cópias digitalizadas de documentos originais. Podemos encontrar na Internet diversas bibliotecas digitais, algumas com alguns problemas críticos, como a falta de um sistema de buscas. Figura 1: Uma biblioteca digital sobre com textos de escritores brasileiros. Ótima idéia, mas com ausência de um sistema de busca. 9 Alguns projetos até possuem um sistema de buscas de suas informações, mas o mesmo é complexo para um usuário comum. Figura 2: Pesquisa com operadores booleanos explícitos. Um usuário comum terá dificuldades para realizar uma busca correta nessa biblioteca CITAR DE BD COM RESULTADOS RUINS. 2.1.1. Bibliotecas Digitais para Documentos Históricos Exemplos com imagens. Falar da carência no mercado. 2.2. Recuperação da Informação Recuperação de informação é a representação, armazenamento, organização e acesso aos dados contidos em uma base dados. A representação e organização dos dados devem prover fácil acesso ao usuário às informações que o mesma interessa. A simples recuperação de dados, inserido dentro do contexto de recuperação de informação, consiste em determinar que documentos de uma coleção contém as palavras-chave da consulta de um usuário. Freqüentemente, isto não satisfaz ao usuário, não retornando a informação realmente necessária. De fato, o usuário de um sistema de recuperação de 10 informação possui resultados mais relevantes sobre um dado assunto do que a recuperação de dados que satisfaz uma consulta. Então, técnicas robustas são necessárias para que o usuário possa ter acesso aos dados de forma mais relevante possível. Basicamente, um sistema de recuperação de informação pode ser representado por um corpus de documentos (os itens de dados) e uma consulta do usuário (representado por palavras-chave). Daí o sistema encontra um conjunto ordenado de documentos que são relevantes para a consulta. CORPUS DE DOCUMENTO SISTEMA DE RI BUSCA DO USUÁRIO DOCUMENTOS ORDENADOS Figura 5: Tarefa simplificada de um RI Um sistema de Recuperação de Informação possui basicamente cinco etapas principais 2.3. Disponibilização do acervo 2.3.1. Padrões de Metadados Falar o que eh metadados e citar Marc 21 e Dublin Core 2.3.2. Open Archives Iniciative Falar do OAI. 11 2.4. Considerações Finais O propósito desta seção foi apresentar detidamente o problema que será tratado (que é um problema de interface com o usuário). Foram detalhadas diferentes técnicas de apresentação de resultados de busca em sistemas de recuperação de informação, as vantagens e desvantagens de tais técnicas foram analisadas e foram apresentados sistemas que se utilizam dessas técnicas para melhorar a qualidade do acesso à informação. A técnica de apresentação de resultados que será adotada no presente trabalho consiste em agrupar dinamicamente os documentos retornados por uma busca (os resultados da busca) em categorias não previamente definidas e criar, para cada grupo, uma descrição textual que pode ser usada por uma pessoa para identificar o conteúdo do grupo. Por isso, no item Error! Reference source not found. foram apresentadas algumas formas de separar documentos em categorias e foi dada uma justificativa pela escolha da técnica de clustering (item Error! Reference source not found.) em detrimento às demais. Na seção que se segue serão apresentadas soluções, ou seja, técnicas e algoritmos para realizar a tarefa de categorizar os documentos retornados. 12 3. Metodologia de Desenvolvimento O propósito desta seção é apresentar em detalhes o que é clustering, além de explicar algumas técnicas e algoritmos. Para isso, o conteúdo desta seção não vai instanciar clustering para o domínio deste trabalho (dos documentos textuais). Ao invés disso, trataremos sempre de dados genéricos, comumente chamados de padrões. (observe, entretanto que técnicas de clustering podem ser aplicadas a padrões de quaisquer tipos. Em [21], por exemplo, usou-se clustering sobre uma biblioteca digital de vídeos.) 3.1. Projetos antecessores Clustering é organização de uma coleção de padrões (geralmente representados como um vetor de medidas ou um ponto no espaço multidimensional) em grupos (clusters) baseada em similaridade. Intuitivamente, padrões de um mesmo cluster são 3.1.1. Pergunte a Pereira da Costa Geralmente, os passos envolvidos no processo são: Representação dos padrões (opcionalmente incluindo extração e/ou seleção de características); Definição de uma medida de similaridade apropriada para o domínio; Clustering propriamente dito; Abstração dos dados (se necessária); Acesso ao resultado (se necessário) 3.1.2. Ultramar Representação dos padrões (opcionalmente incluindo extração e/ou seleção de características); Definição de uma medida de similaridade apropriada para o domínio; Clustering propriamente dito; Abstração dos dados (se necessária); Acesso ao resultado (se necessário) 13 A Error! Reference source not found. mostra uma seqüência típica dos três primeiros passos (incluindo um modo de fornecer feedback quando o resultado do processo 3.2. Requisitos do Sistema 3.3. Os seguintes termos e notação serão usados no restante desta seção e nas seções subseqüentes: Base de Dados Não há fórmulas teóricas que indiquem quais são os padrões e características apropriados para uma dada situação. Entretanto, uma observação criteriosa das características e transformações disponíveis pode resultar numa melhora significativa do resultado do clustering. A Error! Reference source not found. ilustra esse fato. Os pontos nesse espaço de características bi-dimensional estão dispostos num cluster curvilinear com distância à origem aproximadamente constante. Se os padrões forem representados através de Coordenadas Cartesianas, vários algoritmos de clustering iriam fragmentar o cluster em dois ou mais clusters, já que ele não é compacto. Para realizar clustering num conjunto de documentos de texto, dependendo da necessidade do algoritmo, os documentos serão representados pelos seus centróides e a medida para comparar dois ocumentos será a do Cosseno. 14 4. Apresentação dos Resultados 4.1. O Sistema Como já foi dito anteriormente, o ActiveSearch é um sistema que sugere documentos colhidos na Web semelhantes ao que o usuário está visualizando ou editando no momento. Os resultados são apresentados ao usuário através da interface gráfica do sistema na forma de uma listagem, semelhantemente ao que ocorre num engenho de busca. A diferença é que o ActiveSearch é capaz de reordenar essa lista, mostrando primeiro os documentos que tendem a ser mais relevantes para o usuário, de forma que o acesso à informação desejada seja simplificado. 4.1.1. Funcionalidades O ActiveSearch apresenta uma arquitetura modular, possibilitando extensibilidade e reuso de código (observe a Error! Reference source not found.. Os números de 1 a 9 indicam a seqüência dos passos realizados). Ela consiste de quatro módulos principais: Interface Gráfica, Pré-processador de Documentos, Módulo de Meta-busca e Pós-Processador da Resposta, que serão brevemente explicados adiante. 4.1.2. Arquitetura O sistema tem como funcionalidade principal a sugestão de documentos parecidos com o que o usuário está editando ou visualizando. Para isso, o esforço necessário do usuário é mínimo (ele precisa apenas clicar no botão apropriado). O ActiveSearch, depois de ativado, dá início ao processo de busca (ilustrado na Error! Reference source not found. através da seqüência de números de 1 a 9). 4.2. A busca pelos documentos Detalhar como foi feito.. eh bom olhar o relatorio final de RI. Flavia Mandou 15 4.2.1. Aquisição da base O sistema tem como funcionalidade principal a 4.2.2. Etapas de preparação do documento O sistema tem como funcionalidade principal a 4.2.3. Processo de Recuperação de Documentos O sistema tem como funcionalidade principal a 4.2.4. Testes e Resultados O sistema tem como funcionalidade principal a 4.3. A disponibilização e acesso aos Documentos asdkalksd 4.3.1. Open Archives Iniciative 4.3.2. Padrão de Dados Dublin Core 4.4. O Sistema Administrativo asdkalksd 16 5. Estudo de Caso: Memórias do Golpe – O Brasil de 64 a 85 A disponibilidade na literatura de uma gama tão vasta de algoritmos de clustering pode, a principio, causar confusão na escolha de um algoritmo adequado para o problema em mãos. Neste trabalho, serão implementados alguns algoritmos tradicionais desempenho será explicado em mais detalhes. 5.1. Introdução Observe que esse algoritmo faz n comparações em cada uma das n - k iterações (onde n é o número de documentos do conjunto que será “clusterizado” e k << n é o número de clusters desejados). Para agilizar a execução, foi implementada a seguinte otimização: ao invés de se calcular a similaridade entre cada um dos clusters com os outros em cada iteração, uma matriz de similaridade é computada no início do algoritmo. Sempre que é executada uma operação de união entre dois clusters essa matriz é atualizada para refletir a nova situação. 5.2. Motivação asdkalksd etapas. 5.3. O Projeto asdkalksd 17 6. Conclusões e Trabalhos Futuros Neste trabalho, examinou-se um problema intrínseco aos sistemas de Recuperação de Informação (RI) modernos: o acesso às informações coletadas. Foram apresentadas diversas técnicas para visualização de resultados em sistemas de RI que têm como objetivo principal facilitar a tarefa do usuário identificar os dados que lhe são interessantes. No entanto, o enfoque deste trabalho não é estudar aprofundadamente métodos de visualização de resultados. O seu objetivo principal é estudar uma forma de apresentação dos resultados baseada em clustering, isto é, agrupamento dos dados que foram recuperados pelo sistema, com o intuito de prover ao usuário um modo fácil e rápido de identificar quais grupos dentre os que foram formados possuem documentos que atendem a sua necessidade de informação. Para que fosse possível a implementação de técnicas que realizam a tarefa de agrupar documentos, foi realizado um estudo na área de clustering, a partir do qual foram desenvolvidos algoritmos capazes de derivar grupos dinamicamente a partir de um conjunto de documentos de entrada. Os algoritmos implementados foram avaliados contra um corpus construído e tiveram seu desempenho computado. O algoritmo genético, que segue uma área de pesquisa bastante interessante, demonstrou um desempenho satisfatório, sem, no entanto, apresentar vantagens óbvias em relação ao uso de uma técnica convencional. Assim, pode-se dizer que, embora os algoritmos genéticos sejam uma abordagem interessante e inovadora para a criação de grupos de documentos textuais a partir de um conjunto de documentos de entrada, seu uso pode ser contestado, na medida em que os resultados produzidos são levemente inferiores àqueles apresentados por técnicas mais convencionais. O PNNA foi o algoritmo que apresentou o pior desempenho. Verificou-se que, na maioria das vezes, a partição gerada possuía um cluster com muitos documentos enquanto os demais ficavam com poucos. Dessa forma, o algoritmo não conseguiu realizar aquilo a que este trabalho se propõe, ou seja, separar os documentos em grupos de forma que seja fácil para o usuário identificar qual grupo lhe interessa e, então, examinar o conteúdo desse grupo. Se houver um grupo com quase todos os documentos, o trabalho que o usuário terá em identificar quais documentos são relevantes será praticamente o mesmo que ele teria em identificar os documentos 18 relevantes do conjunto de documentos inicial. Testes realizados, no entanto, demonstraram que o PNNA pode ser utilizado com relativa eficiência quando o conjunto de documentos a ser clusterizado possui classes bem definidas. Os melhores desempenhos foram alcançados pelos algoritmos DCA e RDCA, que conseguiram, na maioria das vezes, separar os documentos relevantes dos irrelevantes. Como trabalhos futuros pode-se citar: (1) estudo e implementação de outros algoritmos tradicionais de clustering (por exemplo, alguns algoritmos hierárquicos); (2) estudo mais aprofundado sobre abordagens evolucionários para clustering, com objetivo de aperfeiçoar o algoritmo genético implementado ou implementar outros algoritmos do gênero; (3) realizar testes de forma que se possa medir a coerência dos clusters formados (ou seja, se realmente os documentos dentro dos clusters são interrelacionados); (4) realizar testes numa base maior de forma que se possam obter dados mais precisos acerca do desempenho dos algoritmos. 19 7. Bibliografia [1] Flávia A. Barros, Juliano C.B. Rabelo, Eduardo F.A. Silva, Frederico B. Fernandes, Gustavo E. Paula. ActiveSearch: a System for Locating Similar Documents in Digital Repositories. In Proceedings of the International Conference on Artificial Intelligence (IC-AI'2001 ). Vol. 3, pp 1259-1264. Las Vegas, Nevada, USA. June/2001. [2] Juliano C. B. Rabelo, Eduardo F. A. Silva, Frederico B. Fernandes, Sílvio R. L. Meira , Flávia A. Barros. ActiveSearch: an Agent for Suggesting Similar Documents Based on Users Preferences. In Proceedings of IEEE Transactions on Systems, Man and Cybernetics (IEEE NLPKE’2001). Tucson, Arizona, USA. Out/2001 [3] Eduardo F.A. Silva, Frederico B. Fernandes, Juliano C.B. Rabelo, Flavia A. Barros. ActiveSearch: Um Agente Pró-Ativo para Recuperação de Documentos Similares em Repositórios Digitais. In Encontro Nacional de Inteligência Artificial (ENIA'2001). 6p. In CD- [4] Rom. Fortaleza, CE, Brasil. Jul/2001. Marti A. Hearst, Jan O. Pedersen. Reexamining the Cluster Hypothesis: Scatter/Gather on Retrieval Results. In Proceedings of the 19th Annual International ACM SIGIR Conference, Zurich, Jun/1996. [5] Douglass R. Cutting, David R. Karger, Jan O. Pedersen, John W. Tukey. Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections. In Proceedings of the15th Annual International ACM SIGIR Conference. Denmark, Jun/92 [6] Oren Zamir, Oren Etzioni. Web Document Clustering: a Feasibility Demonstration. In Proceedings of the 21th Annual International ACM SIGIR Conference, Melbourne, Australia, [7] 1998. A. K. Jain, M. N. Murty, P. J. Flynn. Data Clustering: A Review. In ACM Computing Surveys, [8] Vol. 31, No. 3, Set/1999. R. Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley. 1999. [9] Marti A. Hearst. TileBars: Visualization of Term Distribution Information in Full Text Information Access. In Proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems, pgs. 59-66, Denver, CO, mai/1995. [10] [11] Anselm Spoerri. InfoCrystal: A Visual Tool for Information Retrieval & Management. In Proceedings of Information Knowledge and Management ’93, pgs. 11-20, Washington, DC, nov/1993. Thomas K. Landauer, Dennis E. Egan, Joel R. Remde, Michael Lesk, Carol C. Lochbaum, Daniel Ketchum. Enhancing the Usability of Text through Computer Delivery and Formative Evaluation: the SuperBook Project. In C. McKnight, A. Dillon, and J. Richardson, editors, Hypertext: A Psychological Perspective, pgs. 71-136. Ellis Horwood, 1993. [12] Wanda Pratt. Dynamic Organization of Search Results Using the UMLS. In American Medical Informatics Association Fall Symposium, Nashville, TN, USA, out/1997. [13] E. A. Fox, G. Marchionini. Toward a Worldwide Digital Library. Communications of the ACM, 41(4):29-32, abr/1998. 20 [14] Oren Zamir, Oren Etzioni. Grouper: A Dynamic Clustering Interface to Web Search Results. Acessível via web: http://www.cs.washington.edu/research/projects/WebWare1/www/metacrawler/ (visitado em 24/01/2002) [15] Marti A. Hearst. Improving full-text precision using simple query constraints. In Proceedings of the 5th Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, 1996. [16] Mariana L. Neves. PubsFinder – um Agente Inteligente para Busca e Classificação de Páginas de Publicações. Dissertação de Mestrado (CIn-UFPE). Recife, PE, Fev/2001. [17] R. Beale, T. Jackson. Neural Computing: An Introduction. Institute of Physics Publishing. 1994. [18] W. O. Bussab, E.S. Miazaki, D. F. Andrade. Introdução à Análise de Agrupamentos. 9° [19] Simpósio Nacional de Probabilidade e Estatística. São Paulo, Jul/1990. R. H. G. Jongman, C. J. F. Ter Braak, O. F. R. Van Tongeren. Data Analysis in Community and [20] Landscape Ecology. Cambridge University Press, Cambridge, 1995. G. Jones, A. M. Robertson, C. Santimetvirul, P. Willett. Non-Hierarchic Document Clustering Using a Genetic Algorithm. Disponível na Web no endereço http://informationr.net/ir/11/paper1.html (acessado em 20/03/2002) [21] C.R. Palmer, J. Pesenti, R.E Valdes-Perez, M.G. Christel, A.G. Hauptmann, D. g, H.D. Wactlar. Demonstration of Hierarchical Document Clustering of Digital Library Retrieval Results. Informedia Project. Carnegie Mellon University, Pittsburgh [22] [23] Lei Zhu, Aidong Zhang, Aibing Rao and Rohini Srihari. Keyblock: An Approach for ContentBased Image Retrieval. In Proceedings of ACM Multimedia 2000, pages 157-166, Los Angeles, California, USA, Oct 30 - Nov 3 2000. Hongyan Jing. Sentence Simplification in Automatic Text Summarization. In Proceedings of the 6th Applied Natural Language Processing Conference (ANLP'00). mai/2000. Seattle, [24] Washington. R. C. Dubes. How Many Clusters Are Best? — an Experiment. Pattern Recogn. 20,6, pgs. 645– 663. nov/1987. 21