1. Introdução

Propaganda
UNIVERSIDADE FEDERAL DE PERNAMBUCO
CENTRO DE INFORMÁTICA
BIBLIOTECA DIGITAL PARA DOCUMENTOS
HISTÓRICOS. ESTUDO DE CASO: MEMÓRIAS
DO GOLPE – O BRASIL DE 64 A 85.
TRABALHO DE GRADUAÇÃO
Aluno:
Marcos Cardoso Junior ([email protected])
Orientadora:
Flávia de Almeida Barros ([email protected])
Co-orientador: Marcos Galindo Lima (galindo@ ufpe.br)
Recife, Março de 2005
Resumo
O fosso que separa as fontes históricas e os pesquisadores é enorme. Nos dias de
hoje, muitas vezes para um historiador ter acesso a um arquivo histórico, ele precisa
deslocar-se até a instituição detentora de acervos, ultrapassando, inclusive, barreiras
continentais. Desta forma, é de imensa necessidade a criação de uma nova ponte entre o
universo tecnológico e o universo documental.
Analisando a carência de sistemas com esse escopo, temos por objetivo principal
criar uma biblioteca digital para a recuperação de informações históricas, seja ela de
qualquer assunto ou de qualquer mídia, como texto, imagem, áudio e vídeo. Para o
acesso a esses dados, foi criado um módulo para retornar ao usuário as pesquisas mais
relevantes a sua consulta.
Além disso, pretende-se implementar técnicas para alcançar o maior número de
usuários possíveis acessando as informações contidas em nosso repositório. Com isso,
faz-se necessário o uso de padrões de interoperabilidade que visam facilitar a
disseminação eficiente de conteúdo. Assim, utilizamos a iniciativa do Open Archives,
aliado ao conjunto de metadados Dublin Core no formato XML/RDF.
O sistema ainda conta com um módulo administrativo, para a gerencia dos dados
contidos no banco e um módulo para a visualização dos documentos históricos
multimídia. Este módulo contém diversas funcionalidades para a melhor interação
usuário-documento.
O estudo de caso que iremos atacar é um projeto criado a partir da proposta do
presente trabalho e que está sendo abrigado pelo laboratório Liber, UFPE. O projeto,
denominado de Memórias do Golpe: o Brasil de 64 a 85, reúne documentos históricos
dessa época, como entrevistas de militantes feitas pelo jornalista Samarone Lima e fatos
históricos relevantes. Além disso, conseguimos acesso aos prontuários do DOPS de
Pernambuco. Com isso o projeto será o primeiro no Brasil que disponibilizará esses
documentos que estão gerando inúmeras discussões de publicação ou não na mídia
nacional.
A motivação principal do presente trabalho é a certeza que o mesmo é apenas o
primeiro passo para um projeto de proporções bem maiores. E é também com o
pensamento na pesquisa histórica, de qualquer tempo ou local, que propomos nosso
trabalho.
i
Agradecimentos
Ao Sport Club do Recife.
ii
Sumário
1.
INTRODUÇÃO ............................................................................................... 5
2.
CONTEXTO ................................................................................................... 8
2.1.
Bibliotecas Digitais ........................................................................................................................... 8
2.1.1.
Bibliotecas Digitais para Documentos Históricos ................................................................... 10
2.2.
Recuperação da Informação .......................................................................................................... 10
2.3.
Disponibilização do acervo ............................................................................................................ 11
2.3.1.
Padrões de Metadados ............................................................................................................. 11
2.3.2.
Open Archives Iniciative........................................................................................................... 11
2.4.
3.
Considerações Finais ...................................................................................................................... 12
METODOLOGIA DE DESENVOLVIMENTO ............................................... 13
3.1.
Projetos antecessores ...................................................................................................................... 13
3.1.1.
Pergunte a Pereira da Costa ...................................................................................................... 13
3.1.2.
Ultramar .................................................................................................................................... 13
3.2.
Requisitos do Sistema ..................................................................................................................... 14
3.3.
Base de Dados ................................................................................................................................. 14
4.
APRESENTAÇÃO DOS RESULTADOS ..................................................... 15
4.1.
O Sistema ......................................................................................................................................... 15
4.1.1.
Funcionalidades ........................................................................................................................ 15
4.1.2.
Arquitetura ................................................................................................................................ 15
4.2.
A busca pelos documentos ............................................................................................................. 15
4.2.1.
Aquisição da base ..................................................................................................................... 16
4.2.2.
Etapas de preparação do documento ......................................................................................... 16
4.2.3.
Processo de Recuperação de Documentos ................................................................................ 16
iii
4.2.4.
4.3.
Testes e Resultados ................................................................................................................... 16
A disponibilização e acesso aos Documentos ................................................................................ 16
4.3.1.
Open Archives Iniciative .......................................................................................................... 16
4.3.2.
Padrão de Dados Dublin Core .................................................................................................. 16
4.4.
5.
O Sistema Administrativo .............................................................................................................. 16
ESTUDO DE CASO: MEMÓRIAS DO GOLPE – O BRASIL DE 64 A 85 ... 17
5.1.
Introdução ....................................................................................................................................... 17
5.2.
Motivação ........................................................................................................................................ 17
5.3.
O Projeto ......................................................................................................................................... 17
6.
CONCLUSÕES E TRABALHOS FUTUROS ............................................... 18
7.
BIBLIOGRAFIA ........................................................................................... 20
iv
1. Introdução
De acordo com a Digital Library Federation (DLF)1, bibliotecas digitais são
organizações que fornecem recursos para selecionar, estruturar, oferecer acesso
intelectual, distribuir, preservar a integridade e garantir a permanência das coleções
digitais, de tal forma que elas estejam disponíveis para uma ou várias comunidades. A
maioria das bibliotecas digitais disponíveis, contudo, apresentam dificuldades quanto ao
acesso das informações nelas contidas. Ora a pesquisa dar-se de forma complexa (com
vários campos para o usuário preencher), ora os resultados obtidos não são relevantes.
Alguma delas podem inclusive retornar documentos que interessem ao pesquisador,
mas disponibilizam apenas a referência ao mesmo, sendo esse resultado da pesquisa
muitas vezes inútil e a ida a uma biblioteca tradicional indispensável.
Tratando-se de documentos históricos, a preocupação é ainda maior. Visitando
algumas instituições que possuem acervos históricos, como a Gilberto Freyre2 e a
Fundação Joaquim Nabuco3, percebe-se que muitos historiadores gostariam de ter
acesso aos documentos sem precisar deslocar-se à instituição detentora do material. Não
é raro, inclusive, pesquisadores de outros países visitarem essas instituições para
pesquisar sobre algum assunto histórico específico. Bibliotecas digitais para
documentos históricos disponíveis são poucas. Os problemas enfrentados pelas
bibliotecas digitais para esse tema específico são os mesmos enfrentados pelas citadas
acima. Espera-se, entretanto, que esses acervos documentais estejam disponíveis para o
acesso de todos, eliminando o problema de ter que deslocar-se até a instituição
detentora do material. Nas bibliotecas digitais pesquisadas, dificilmente isso ocorre.
Para a visualização do documento, verificou-se que é necessário um módulo
robusto e eficiente, pois os poucos sistemas que disponibilizam o documento, são lentos
e de difícil acesso, com a necessidade de instalação de alguns plugins. O ideal também
seríamos ter uma biblioteca digital não só de acervos com imagens ou texto, mas um
acervo multimídia. Assim, o usuário poderia visualizar arquivos históricos do tipo texto,
imagem, áudio ou vídeo.
Além do mais quando se trata de acervos históricos, algumas vezes o documento é
de difícil leitura, por motivos como o estado de conservação do material, a qualidade da
digitalização realizada no documento original ou quando o documento é manuscrito.
Assim sendo, seria de fundamental importância que juntamente com esse módulo, o
usuário tenha condições de realizar transformações no documento para propiciar uma
5
melhor visualização do mesmo, com dois detalhes imprescindíveis: a usabilidade do
módulo deve ser bastante satisfatória e o sistema não pode ficar carregado.
Com o avanço das técnicas de Recuperação de Informação, pode-se gerar
bibliotecas digitais que possuam poderosos sistemas de busca. As pesquisas efetuadas
pelos usuários devem ser simples, os resultados os mais relevantes possíveis e com um
tempo de resposta aceitável. Para atender todos esses requisitos, esse módulo do sistema
deve atrair uma atenção especial para o desenvolvedor, com pesquisas na área e tomada
de decisão da melhor técnica para o escopo de dados específico.
Além do mais, quando falamos em bibliotecas digitais, devemos sempre pensar na
disseminação eficiente do conteúdo. E isso não se dá apenas com o usuário tendo
acesso a uma pesquisa. É preciso que o sistema possua recursos para disponibilizar tais
informações para outros projetos e instituições, de modo a ampliar o acesso aos
repositórios como um meio de aumentar a disponibilização, independentes do tipo de
conteúdo oferecido. Para isso, verificou-se que a utilização da iniciativa Open Archives
(OAI) é de fundamental importância.
No contexto da OAI, a disponibilização das informação é dada através de
Metadados. Trata-se de informação estruturada sobre recursos (digitais e não-digitais).
Os metadados podem ser utilizados para viabilizar uma ampla série de operações nesses
recursos. A biblioteca digital deve trazer em formato XML as principais informações do
repositório, tornando-se um provedor de dados.
Com a publicação de fundos arquivísticos em meio digital, não só teremos uma
disponibilização em larga escala — o que proporcionará a qualquer pessoa ligada à
Internet o acesso ao conteúdo documental —, mas sua virtual preservação.
Para exemplificar o que será utilizado para construir a biblioteca digital para
documentos históricos, decidimos atacar um assunto do interesse da maioria da
população brasileira: a época da ditadura militar. Nossa intenção não é julgar ou
condenar, e sim mostrar alguns fatos que marcaram a época para que usuários possam
pesquisar sobre a época, facilitando a produção de novos trabalhos sobre temáticas
humanas e sociais tão variadas quanto importantes.
Este trabalho consiste em apresentar uma biblioteca digital para documentos
históricos, com diversas técnicas, descrevendo detalhadamente cada uma delas. O
restante deste documento está organizado em algumas seções.
6
Na seção 2 será apresentado o contexto em que o presente trabalho está inserido.
Serão definidos alguns conceitos sobre bibliotecas digitais, detalhando alguns casos
disponíveis na Internet. Serão também apresentados algumas técnicas de recuperação de
informação, dentre as quais algumas serão usadas no sistema. Outro tópico abordado
será como dar-se a disponibilização de acervos, relatando sobre alguns metadados e
alguns padrões, como o Dublin Core e MARC21, além de descrever a iniciativa Open
Archives.
Na seção 3 será detalhada a metodologia de desenvolvimento do sistema. Serão
relatados projetos que foram criados no laboratório Liber, da Universidade Federal de
Pernambuco, que foram experimentos para a criação do presente trabalho. Ainda nessa
seção serão definidos os requisitos do sistema e também de sua base de dados.
A seção 4 traz a apresentação dos resultados. O que foi decidido para o sistema,
suas funcionalidades e a arquitetura. Apresenta detalhadamente como foi implementada
a busca pelos documentos, apresentando seus testes e resultados. Também informa
como deu-se a disponibilização da documentação histórica, utilizando o Open Archives
e o Padrão de Dados Dublin Core. Por fim, apresenta detalhes do sistema administrativo
para alimentar e gerenciar as informações contidas no nosso repositório.
A seção 5 mostra o estudo de caso do trabalho em questão, que foi o projeto
Memórias do Golpe – O Brasil de 64 a 85. Nele é relatado como foi a decisão de
escolher esse projeto como estudo de caso, quais documentos foram recolhidos e
mostrando algumas imagens do sistema.
A seção 6 trará conclusões e trabalhos futuros acerca do trabalho realizado.
7
2. Contexto
O presente trabalho tem por objetivo apresentar uma biblioteca digital para
documentos históricos. Pesquisas foram feitas juntos a instituições, como a Gilberto
Freyre, e o sistema foi modelado para abrigar qualquer acervo histórico. O sistema
ainda pode abrigar documentos formatos de qualquer mídia, como texto, áudio, vídeo
ou imagem.
A solução aqui proposta faz uso de técnicas de recuperação de informação textual
para que os documentos retornados por um engenho de busca sejam relevantes ao que o
usuário pesquisou. Além disso, também utiliza um sistema para a correta disseminação
da informação, seguindo o contexto do Open Archives Iniciative (OAI).
O propósito desta seção é apresentar alguns conceitos sobre bibliotecas digitais,
listando algumas de escopo geral e outras específicas para documentos históricos.
Apresentando seus problemas e possíveis soluções. Sendo a recuperação da informação
uma área essencial ao presente trabalho, apresentamos algumas técnicas para o mesmo,
suas vantagens e desvantagens. Ainda nessa seção apresentaremos com pode dar-se a
disponibilização dos acervos, com uso de metadados e explicando o que se trata a
inciativa Open Archives. Por fim, faremos algumas considerações finais do que foi
tratado nessa seção, mostrando as melhores soluções para o escopo do projeto.
2.1.
Bibliotecas Digitais
Como o próprio nome já diz, biblioteca digital pode ser descrita como
uma biblioteca sem um ambiente físico e com informação não mais atrelada
ao suporte de papel impresso.
Mas podemos encontrar na literatura muitos conceitos para o termo.
“Bibliotecas digitais são organizações que fornecem recursos para
selecionar, estruturar, oferecer acesso intelectual, distribuir, preservar a
integridade e garantir a permanência das coleções digitais, de tal forma que
elas estejam disponíveis para uma ou várias comunidades.” (Digital Library
Federation).
“Uma biblioteca que mantêm toda, ou uma parte substancial de sua
coleção numa forma processável pelo computador como uma alternativa,
suplemento ou complemento à forma impressa tradicional e material em
8
microfilme, que, atualmente, domina os acervos bibliográficos.” (W.
Saffady, 1995)
“Uma coleção organizada de dados multimídia com métodos de
gerenciamento da informação, que representa os dados como informação útil
e conhecimento para o povo numa variedade de contextos sociais e
organizacionais.” (S. M. Griffin, NSF)
“Coleção organizada de dados multimídia em rede.” (J. Mosata,
Indiana Univ.).
Documentos que fazem parte de uma Biblioteca Digital podem ser
produzidos originalmente em formatos digitais - imagens, arquivos texto
produzidos através de editores – ou podem ser cópias digitalizadas de
documentos originais.
Podemos encontrar na Internet diversas bibliotecas digitais, algumas
com alguns problemas críticos, como a falta de um sistema de buscas.
Figura 1: Uma biblioteca digital sobre com textos de escritores brasileiros. Ótima idéia, mas com
ausência de um sistema de busca.
9
Alguns projetos até possuem um sistema de buscas de suas
informações, mas o mesmo é complexo para um usuário comum.
Figura 2: Pesquisa com operadores booleanos explícitos. Um usuário comum terá dificuldades para
realizar uma busca correta nessa biblioteca
CITAR DE BD COM RESULTADOS RUINS.
2.1.1. Bibliotecas Digitais para Documentos Históricos
Exemplos com imagens. Falar da carência no mercado.
2.2.
Recuperação da Informação
Recuperação de informação é a representação, armazenamento,
organização e acesso aos dados contidos em uma base dados. A
representação e organização dos dados devem prover fácil acesso ao usuário
às informações que o mesma interessa.
A simples recuperação de dados, inserido dentro do contexto de
recuperação de informação, consiste em determinar que documentos de uma
coleção contém as palavras-chave da consulta de um usuário.
Freqüentemente, isto não satisfaz ao usuário, não retornando a informação
realmente necessária. De fato, o usuário de um sistema de recuperação de
10
informação possui resultados mais relevantes sobre um dado assunto do que
a recuperação de dados que satisfaz uma consulta.
Então, técnicas robustas são necessárias para que o usuário possa ter
acesso aos dados de forma mais relevante possível.
Basicamente, um sistema de recuperação de informação pode ser
representado por um corpus de documentos (os itens de dados) e uma
consulta do usuário (representado por palavras-chave). Daí o sistema
encontra um conjunto ordenado de documentos que são relevantes para a
consulta.
CORPUS DE
DOCUMENTO
SISTEMA
DE RI
BUSCA DO USUÁRIO
DOCUMENTOS
ORDENADOS
Figura 5: Tarefa simplificada de um RI
Um sistema de Recuperação de Informação possui basicamente cinco
etapas principais
2.3.
Disponibilização do acervo
2.3.1. Padrões de Metadados
Falar o que eh metadados e citar Marc 21 e Dublin Core
2.3.2. Open Archives Iniciative
Falar do OAI.
11
2.4.
Considerações Finais
O propósito desta seção foi apresentar detidamente o problema que
será tratado (que é um problema de interface com o usuário). Foram
detalhadas diferentes técnicas de apresentação de resultados de busca em
sistemas de recuperação de informação, as vantagens e desvantagens de tais
técnicas foram analisadas e foram apresentados sistemas que se utilizam
dessas técnicas para melhorar a qualidade do acesso à informação.
A técnica de apresentação de resultados que será adotada no presente
trabalho consiste em agrupar dinamicamente os documentos retornados por
uma busca (os resultados da busca) em categorias não previamente definidas
e criar, para cada grupo, uma descrição textual que pode ser usada por uma
pessoa para identificar o conteúdo do grupo. Por isso, no item Error!
Reference source not found. foram apresentadas algumas formas de
separar documentos em categorias e foi dada uma justificativa pela escolha
da técnica de clustering (item Error! Reference source not found.) em
detrimento às demais. Na seção que se segue serão apresentadas soluções,
ou seja, técnicas e algoritmos para realizar a tarefa de categorizar os
documentos retornados.
12
3. Metodologia de Desenvolvimento
O propósito desta seção é apresentar em detalhes o que é clustering, além de
explicar algumas técnicas e algoritmos. Para isso, o conteúdo desta seção não vai
instanciar clustering para o domínio deste trabalho (dos documentos textuais). Ao invés
disso, trataremos sempre de dados genéricos, comumente chamados de padrões.
(observe, entretanto que técnicas de clustering podem ser aplicadas a padrões de
quaisquer tipos. Em [21], por exemplo, usou-se clustering sobre uma biblioteca digital
de vídeos.)
3.1.
Projetos antecessores
Clustering é organização de uma coleção de padrões (geralmente representados
como um vetor de medidas ou um ponto no espaço multidimensional) em grupos
(clusters) baseada em similaridade. Intuitivamente, padrões de um mesmo cluster são
3.1.1. Pergunte a Pereira da Costa
Geralmente, os passos envolvidos no processo são:

Representação dos padrões (opcionalmente incluindo extração e/ou
seleção de características);

Definição de uma medida de similaridade apropriada para o domínio;

Clustering propriamente dito;

Abstração dos dados (se necessária);

Acesso ao resultado (se necessário)
3.1.2. Ultramar

Representação dos padrões (opcionalmente incluindo extração e/ou
seleção de características);

Definição de uma medida de similaridade apropriada para o domínio;

Clustering propriamente dito;

Abstração dos dados (se necessária);

Acesso ao resultado (se necessário)
13
A Error! Reference source not found. mostra uma seqüência típica dos três
primeiros passos (incluindo um modo de fornecer feedback quando o resultado do
processo
3.2.
Requisitos do Sistema

3.3.
Os seguintes termos e notação serão usados no restante desta seção e
nas seções subseqüentes:
Base de Dados
Não há fórmulas teóricas que indiquem quais são os padrões e
características apropriados para uma dada situação. Entretanto, uma
observação criteriosa das características e transformações disponíveis pode
resultar numa melhora significativa do resultado do clustering. A Error!
Reference source not found. ilustra esse fato. Os pontos nesse espaço de
características bi-dimensional estão dispostos num cluster curvilinear com
distância à origem aproximadamente constante. Se os padrões forem
representados através de Coordenadas Cartesianas, vários algoritmos de
clustering iriam fragmentar o cluster em dois ou mais clusters, já que ele
não é compacto.
Para realizar clustering num conjunto de documentos de texto,
dependendo da necessidade do algoritmo, os documentos serão
representados pelos seus centróides e a medida para comparar dois
ocumentos será a do Cosseno.
14
4. Apresentação dos Resultados
4.1.
O Sistema
Como já foi dito anteriormente, o ActiveSearch é um sistema que
sugere documentos colhidos na Web semelhantes ao que o usuário está
visualizando ou editando no momento. Os resultados são apresentados ao
usuário através da interface gráfica do sistema na forma de uma listagem,
semelhantemente ao que ocorre num engenho de busca. A diferença é que o
ActiveSearch é capaz de reordenar essa lista, mostrando primeiro os
documentos que tendem a ser mais relevantes para o usuário, de forma que o
acesso à informação desejada seja simplificado.
4.1.1. Funcionalidades
O ActiveSearch apresenta uma arquitetura modular, possibilitando
extensibilidade e reuso de código (observe a Error! Reference source not
found.. Os números de 1 a 9 indicam a seqüência dos passos realizados). Ela
consiste de quatro módulos principais: Interface Gráfica, Pré-processador de
Documentos, Módulo de Meta-busca e Pós-Processador da Resposta, que
serão brevemente explicados adiante.
4.1.2. Arquitetura
O sistema tem como funcionalidade principal a sugestão de
documentos parecidos com o que o usuário está editando ou visualizando.
Para isso, o esforço necessário do usuário é mínimo (ele precisa apenas
clicar no botão apropriado). O ActiveSearch, depois de ativado, dá início ao
processo de busca (ilustrado na Error! Reference source not found.
através da seqüência de números de 1 a 9).
4.2.
A busca pelos documentos
Detalhar como foi feito.. eh bom olhar o relatorio final de RI. Flavia
Mandou
15
4.2.1. Aquisição da base
O sistema tem como funcionalidade principal a
4.2.2. Etapas de preparação do documento
O sistema tem como funcionalidade principal a
4.2.3. Processo de Recuperação de Documentos
O sistema tem como funcionalidade principal a
4.2.4. Testes e Resultados
O sistema tem como funcionalidade principal a
4.3.
A disponibilização e acesso aos Documentos
asdkalksd
4.3.1. Open Archives Iniciative
4.3.2. Padrão de Dados Dublin Core
4.4.
O Sistema Administrativo
asdkalksd
16
5. Estudo de Caso: Memórias do Golpe – O Brasil de 64 a
85
A disponibilidade na literatura de uma gama tão vasta de algoritmos de clustering
pode, a principio, causar confusão na escolha de um algoritmo adequado para o
problema em mãos. Neste trabalho, serão implementados alguns algoritmos tradicionais
desempenho será explicado em mais detalhes.
5.1.
Introdução
Observe que esse algoritmo faz n comparações em cada uma das n - k
iterações (onde n é o número de documentos do conjunto que será
“clusterizado” e k << n é o número de clusters desejados). Para agilizar a
execução, foi implementada a seguinte otimização: ao invés de se calcular a
similaridade entre cada um dos clusters com os outros em cada iteração,
uma matriz de similaridade é computada no início do algoritmo. Sempre que
é executada uma operação de união entre dois clusters essa matriz é
atualizada para refletir a nova situação.
5.2.
Motivação
asdkalksd
etapas.
5.3.
O Projeto
asdkalksd
17
6. Conclusões e Trabalhos Futuros
Neste trabalho, examinou-se um problema intrínseco aos sistemas de Recuperação
de Informação (RI) modernos: o acesso às informações coletadas. Foram apresentadas
diversas técnicas para visualização de resultados em sistemas de RI que têm como
objetivo principal facilitar a tarefa do usuário identificar os dados que lhe são
interessantes.
No entanto, o enfoque deste trabalho não é estudar aprofundadamente métodos de
visualização de resultados. O seu objetivo principal é estudar uma forma de
apresentação dos resultados baseada em clustering, isto é, agrupamento dos dados que
foram recuperados pelo sistema, com o intuito de prover ao usuário um modo fácil e
rápido de identificar quais grupos dentre os que foram formados possuem documentos
que atendem a sua necessidade de informação.
Para que fosse possível a implementação de técnicas que realizam a tarefa de
agrupar documentos, foi realizado um estudo na área de clustering, a partir do qual
foram desenvolvidos algoritmos capazes de derivar grupos dinamicamente a partir de
um conjunto de documentos de entrada. Os algoritmos implementados foram avaliados
contra um corpus construído e tiveram seu desempenho computado.
O algoritmo genético, que segue uma área de pesquisa bastante interessante,
demonstrou um desempenho satisfatório, sem, no entanto, apresentar vantagens óbvias
em relação ao uso de uma técnica convencional. Assim, pode-se dizer que, embora os
algoritmos genéticos sejam uma abordagem interessante e inovadora para a criação de
grupos de documentos textuais a partir de um conjunto de documentos de entrada, seu
uso pode ser contestado, na medida em que os resultados produzidos são levemente
inferiores àqueles apresentados por técnicas mais convencionais.
O PNNA foi o algoritmo que apresentou o pior desempenho. Verificou-se que, na
maioria das vezes, a partição gerada possuía um cluster com muitos documentos
enquanto os demais ficavam com poucos. Dessa forma, o algoritmo não conseguiu
realizar aquilo a que este trabalho se propõe, ou seja, separar os documentos em grupos
de forma que seja fácil para o usuário identificar qual grupo lhe interessa e, então,
examinar o conteúdo desse grupo. Se houver um grupo com quase todos os
documentos, o trabalho que o usuário terá em identificar quais documentos são
relevantes será praticamente o mesmo que ele teria em identificar os documentos
18
relevantes do conjunto de documentos inicial. Testes realizados, no entanto,
demonstraram que o PNNA pode ser utilizado com relativa eficiência quando o
conjunto de documentos a ser clusterizado possui classes bem definidas.
Os melhores desempenhos foram alcançados pelos algoritmos DCA e RDCA, que
conseguiram, na maioria das vezes, separar os documentos relevantes dos irrelevantes.
Como trabalhos futuros pode-se citar: (1) estudo e implementação de outros
algoritmos tradicionais de clustering (por exemplo, alguns algoritmos hierárquicos); (2)
estudo mais aprofundado sobre abordagens evolucionários para clustering, com
objetivo de aperfeiçoar o algoritmo genético implementado ou implementar outros
algoritmos do gênero; (3) realizar testes de forma que se possa medir a coerência dos
clusters formados (ou seja, se realmente os documentos dentro dos clusters são interrelacionados); (4) realizar testes numa base maior de forma que se possam obter dados
mais precisos acerca do desempenho dos algoritmos.
19
7. Bibliografia
[1]
Flávia A. Barros, Juliano C.B. Rabelo, Eduardo F.A. Silva, Frederico B. Fernandes, Gustavo E.
Paula. ActiveSearch: a System for Locating Similar Documents in Digital Repositories. In
Proceedings of the International Conference on Artificial Intelligence (IC-AI'2001 ). Vol. 3, pp
1259-1264. Las Vegas, Nevada, USA. June/2001.
[2]
Juliano C. B. Rabelo, Eduardo F. A. Silva, Frederico B. Fernandes, Sílvio R. L. Meira , Flávia
A. Barros. ActiveSearch: an Agent for Suggesting Similar Documents Based on Users
Preferences. In Proceedings of IEEE Transactions on Systems, Man and Cybernetics (IEEE
NLPKE’2001). Tucson, Arizona, USA. Out/2001
[3]
Eduardo F.A. Silva, Frederico B. Fernandes, Juliano C.B. Rabelo, Flavia A. Barros.
ActiveSearch: Um Agente Pró-Ativo para Recuperação de Documentos Similares em
Repositórios Digitais. In Encontro Nacional de Inteligência Artificial (ENIA'2001). 6p. In CD-
[4]
Rom. Fortaleza, CE, Brasil. Jul/2001.
Marti A. Hearst, Jan O. Pedersen. Reexamining the Cluster Hypothesis: Scatter/Gather on
Retrieval Results. In Proceedings of the 19th Annual International ACM SIGIR Conference,
Zurich, Jun/1996.
[5]
Douglass R. Cutting, David R. Karger, Jan O. Pedersen, John W. Tukey. Scatter/Gather: A
Cluster-based Approach to Browsing Large Document Collections. In Proceedings of the15th
Annual International ACM SIGIR Conference. Denmark, Jun/92
[6]
Oren Zamir, Oren Etzioni. Web Document Clustering: a Feasibility Demonstration. In
Proceedings of the 21th Annual International ACM SIGIR Conference, Melbourne, Australia,
[7]
1998.
A. K. Jain, M. N. Murty, P. J. Flynn. Data Clustering: A Review. In ACM Computing Surveys,
[8]
Vol. 31, No. 3, Set/1999.
R. Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley. 1999.
[9]
Marti A. Hearst. TileBars: Visualization of Term Distribution Information in Full Text
Information Access. In Proceedings of the ACM SIGCHI Conference on Human Factors in
Computing Systems, pgs. 59-66, Denver, CO, mai/1995.
[10]
[11]
Anselm Spoerri. InfoCrystal: A Visual Tool for Information Retrieval & Management. In
Proceedings of Information Knowledge and Management ’93, pgs. 11-20, Washington, DC,
nov/1993.
Thomas K. Landauer, Dennis E. Egan, Joel R. Remde, Michael Lesk, Carol C. Lochbaum,
Daniel Ketchum. Enhancing the Usability of Text through Computer Delivery and Formative
Evaluation: the SuperBook Project. In C. McKnight, A. Dillon, and J. Richardson, editors,
Hypertext: A Psychological Perspective, pgs. 71-136. Ellis Horwood, 1993.
[12]
Wanda Pratt. Dynamic Organization of Search Results Using the UMLS. In American Medical
Informatics Association Fall Symposium, Nashville, TN, USA, out/1997.
[13]
E. A. Fox, G. Marchionini. Toward a Worldwide Digital Library. Communications of the ACM,
41(4):29-32, abr/1998.
20
[14]
Oren Zamir, Oren Etzioni. Grouper: A Dynamic Clustering Interface to Web Search Results.
Acessível via web:
http://www.cs.washington.edu/research/projects/WebWare1/www/metacrawler/ (visitado em
24/01/2002)
[15]
Marti A. Hearst. Improving full-text precision using simple query constraints. In Proceedings of
the 5th Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV,
1996.
[16]
Mariana L. Neves. PubsFinder – um Agente Inteligente para Busca e Classificação de Páginas
de Publicações. Dissertação de Mestrado (CIn-UFPE). Recife, PE, Fev/2001.
[17]
R. Beale, T. Jackson. Neural Computing: An Introduction. Institute of Physics Publishing.
1994.
[18]
W. O. Bussab, E.S. Miazaki, D. F. Andrade. Introdução à Análise de Agrupamentos. 9°
[19]
Simpósio Nacional de Probabilidade e Estatística. São Paulo, Jul/1990.
R. H. G. Jongman, C. J. F. Ter Braak, O. F. R. Van Tongeren. Data Analysis in Community and
[20]
Landscape Ecology. Cambridge University Press, Cambridge, 1995.
G. Jones, A. M. Robertson, C. Santimetvirul, P. Willett. Non-Hierarchic Document Clustering
Using a Genetic Algorithm. Disponível na Web no endereço http://informationr.net/ir/11/paper1.html (acessado em 20/03/2002)
[21]
C.R. Palmer, J. Pesenti, R.E Valdes-Perez, M.G. Christel, A.G. Hauptmann, D. g, H.D.
Wactlar. Demonstration of Hierarchical Document Clustering of Digital Library Retrieval
Results. Informedia Project. Carnegie Mellon University, Pittsburgh
[22]
[23]
Lei Zhu, Aidong Zhang, Aibing Rao and Rohini Srihari. Keyblock: An Approach for ContentBased Image Retrieval. In Proceedings of ACM Multimedia 2000, pages 157-166, Los Angeles,
California, USA, Oct 30 - Nov 3 2000.
Hongyan Jing. Sentence Simplification in Automatic Text Summarization. In Proceedings of
the 6th Applied Natural Language Processing Conference (ANLP'00). mai/2000. Seattle,
[24]
Washington.
R. C. Dubes. How Many Clusters Are Best? — an Experiment. Pattern Recogn. 20,6, pgs. 645–
663. nov/1987.
21
Download