Aperfeiçoamento do Mapeador de Teses e Dissertações da UFPE

Propaganda
Aperfeiçoamento do Mapeador de Teses e Dissertações da
UFPE
Ubiracy dos Santos R. Junior, Teresa B. Ludermir e Renato F. Correa
Universidade Federal de Pernambuco
{usrj, tbl}@cin.ufpe.br, [email protected]
Resumo. O Mapeador de Teses e Dissertações da UFPE
(MTD-UFPE) é um sistema que objetiva a recuperação de
informações na Biblioteca Digital de Teses e Dissertações da
UFPE através de uma interface de navegação e pesquisa
utilizando mapa de documentos. Um mapa de documentos é
construído com o uso de mapas auto-organizáveis (SOM).
SOM é um tipo de rede neural que usa a técnica de
aprendizado competitivo e tem grande potencial no
agrupamento de documentos de textos similares. No sistema
MTD-UFPE, o treinamento do mapa de documentos era
realizado externamente, passando arquivos que representam
os vetores documentos para scripts do MATLAB, tornando-se
uma atividade custosa. Assim, este trabalho tem o objetivo de
incorporar ao sistema MTD-UFPE um processo automático
de treinamento do mapa de documentos e também
implementar um método de marcação no mapa que identifique
as regiões que contém os documentos resultantes das
pesquisas. Visando esta automação no processo de
treinamento integrou-se ao MTD-UFPE a ferramenta de
código livre, Java SOMToolbox que permite o treinamento e
visualização de mapas auto-organizáveis.
1. Introdução
A Universidade Federal de Pernambuco dispõe de
uma Biblioteca Digital de Teses e Dissertações (BDTDUFPE) que compreende na íntegra as dissertações e
teses elaboradas dentro dos programas de pósgraduação da UFPE. Para a recuperação de informação
nesses documentos foi desenvolvida uma ferramenta
chamada de Mapeador de Teses e Dissertações da
UFPE (MTD-UFPE) [1], resultado de projeto de
pesquisa do Departamento de Ciência da Informação da
UFPE. Esta ferramenta possibilita ao usuário
acessibilidade à produção científica e tecnológica da
UFPE na forma de teses e dissertações e contribui para
a transferência de conhecimentos entre a universidade e
a sociedade.
O MTD-UFPE consiste de uma interface de
navegação e pesquisa sobre mapas de documentos. Os
mapas de documentos são redes neurais do tipo mapa
auto-organizável treinadas com vetores documentos. Os
mapas de documentos são capazes de realizar uma
organização automática dos documentos em conjuntos,
evidenciando o relacionamento de similaridade entre os
conteúdos desses documentos, e as relações de
proximidade entre os conjuntos de documentos de
forma visual.
A geração dos mapas ocorre através de uma operação
manual passando os arquivos que representam os
documentos para treinamento da rede via scripts na
ferramenta MATLAB, se tornando uma atividade
custosa, pois o MTD-UFPE não incorpora uma
implementação para a realização desse treinamento. O
MTD-UFPE necessita que o processo de treinamento
com a base de teses e dissertações da UFPE seja
automático à medida que novas teses e dissertações são
incorporadas ao sistema. Assim foi proposto a
integração com a ferramenta Java SOMToolbox. A
recuperação de informação pelo MTD-UFPE pode ser
realizada utilizando a busca por palavras-chaves, onde o
sistema retorna uma lista de teses e dissertações
dispostas em uma tabela por ordem de relevância. A
navegação poderia ser facilitada caso existisse um
recurso que exibisse em destaque os nodos do mapa de
documentos contendo documentos que casem com a
consulta realizada pelo usuário.
O objetivo geral deste trabalho é incorporar no
sistema MTD-UFPE o processo automático de
treinamento da rede neural com os vetores documentos
representativos das teses e dissertações para a
construção do mapa de documentos. O treinamento será
desempenhado através de uma funcionalidade integrada
ao Java SOMToolbox. Visa-se também avaliar a
qualidade do mapa de documentos e implementar na
interface do mapa de documentos a marcação dos nodos
de acordo com a lista de resultados decorrente da
consulta realizada pelo usuário.
2. Java SOMToolbox
O Java SOMToolbox1 é uma ferramenta de código
livre desenvolvida pelo Instituto de Tecnologia de
Software e Sistemas Interativos da Universidade de
Vienna, que permite o treinamento de mapas autoorganizáveis, a geração de visualizações e a obtenção de
medidas de qualidade sobre os mapas treinados,
resultando numa poderosa ferramenta de mineração de
dados.
Para se iniciar o treinamento é necessário informar
alguns parâmetros, tais como: dimensões do mapa,
modelo de treinamento, quantidade de ciclos ou de
iterações, raio inicial do neurônio vencedor, taxa de
aprendizagem inicial, e apresentar o arquivo
inpuctVectorFile(.vec) que contém os vetores de dados
a serem utilizados no treinamento do mapa autoorganizável.
Os arquivos gerados após o treinamento são:
- unitDescriptionFile(.unit): Tem a relação dos padrões
de entrada mapeados em cada nodo do mapa;
- weightVectorFile(.wgt): Guarda os valores dos pesos
dos nodos do mapa;
1
http://www.ifs.tuwien.ac.at/dm/somtoolbox/
- dataWinnerMappingFile(.dwm): Fornece informações
das unidades vencedoras para todos os vetores de
entrada;
3. Trabalhos Relacionados
A seguir são apresentados alguns trabalhos presentes
na literatura que tratam de sistemas de organização
automática de documentos utilizando redes neurais
SOM. Os trabalhos estão dispostos em ordem
cronológica à medida que as pesquisas na área foram
avançando.
Os primeiros trabalhos se preocuparam em mostrar a
viabilidade do uso de SOM para organização de coleção
de documentos. Foram utilizadas coleções que
continham algumas centenas de documentos e para o
agrupamento dos documentos foram definidos mapas
bidimensionais com centenas de neurônios. Os
documentos eram representados por vetores binários em
que cada elemento do vetor indicava a existência ou não
de uma palavra nos documentos, e para treinamento da
rede foi utilizado o algoritmo padrão para rede SOM
com uso da distância euclidiana. Lin [2] foi o precursor
desta primeira fase, mas quem teve maior produtividade
nas publicações foi Merkl [3].
Com a evolução das pesquisas, buscou-se
desenvolver sistemas de organização automática de
documentos com o uso de SOM que produzissem
interfaces intuitivas e sistemas escaláveis para os mapas
de documentos. Começaram a se utilizar outras formas
para criar os mapas de documentos como produto
interno de vetores unitários ao invés de distância
euclidiana e os documentos passaram a ser
representados por vetores com valores reais em que
cada valor corresponde à frequência da palavra no
documento. Foram realizadas otimizações do algoritmo
de treinamento da rede SOM, e também as pesquisas
passaram a trabalhar com o conceito de hierarquia de
mapas SOM para organização de coleções de
documentos [4]. Os principais projetos desta fase foram
desenvolvidos entre 1996 e 2000, foram eles: Arizona
Digital Library [5], WEBSOM [6] SOMLib [7] e CDS
Astronomy bibliographical Map [ 8].
Entre 2001 e 2005, as linhas de pesquisas focaram na
construção de sistemas de organização automática de
documentos utilizando abordagens híbridas e variantes
de SOM. O sistema LiGHtSOM [9] possibilitou a
redução da dimensionalidade e volume de uma coleção
e o desenvolvimento de um sistema híbrido para
arquivamento de documentos. Rauber [10] especificou
uma associação hierárquica de mapas, chamada de
GHSOM (do inglês growing hierarchical SOM), em
que para a construção dos mapas utiliza-se uma variante
da rede SOM que mantém uma regularidade na grade
dos neurônios durante o crescimento incremental dos
mapas. Esse modelo aplica uma estrutura hierárquica
sobre várias camadas, em que cada um dessas camadas
consiste de um número livre de redes SOM. A camada
inicial é composta por apenas uma rede SOM. Para cada
unidade, presente na camada inicial, pode ser criada
uma sub-rede no próximo nível hierárquico.
Foi proposta a geração automática de um mapa de
conhecimento hierárquico chamado NewsMap, com
base em notícias chinesas online, particularmente
notícias de finanças e saúde [11]. O NewsMap emprega
uma interface combinada de uma lista hierárquica
alfabética 1D e um mapa auto-organizável 2D em visor
de ilhas. A rede SOM foi utilizada para classificar todos
os termos de indexação e colocar as categorias mais
abrangentes em um nível superior e colocar as
subcategorias sob uma categoria mais abrangente. A
pesquisa concluiu que a rede SOM foi capaz de rotular
os agrupamentos criados e de fornecer uma visualização
dos agrupamentos em duas dimensões. O mapa 2D foi
visualizado através de oceanos e ilhas, onde cada
categoria aparece como uma ilha no oceano, camadas
de verde indicam o número de profundidade dos níveis
de subcategorias e o tamanho de uma ilha dá uma
estimativa do número de artigos de notícias contidos na
categoria.
A partir de 2006 ocorre a comparação das linhas de
pesquisas com o objetivo de se obter sistemas que
gerem mapas de documentos de boa qualidade mas com
um baixo custo computacional. Os trabalhos [12] [13]
propõem a representação do conteúdo dos diferentes
documentos, codificando o conteúdo e estruturando-os
em níveis como documentos, páginas, parágrafos e
sentenças.
Meireles [14] utilizou rede SOM para categorizar
documentos automaticamente por meio da análise das
referências bibliográficas neles citadas. As relações
entre os textos foram definidas pela presença de
referências bibliográficas comuns e respectivos anos de
publicação.
Em [15] foi descrita uma implementação de
abordagem de classificação híbrida que permite uma
melhor precisão na classificação através da utilização de
dois algoritmos, o algoritmo de classificação naïves
Bayes [16] que é usado para vetorizar o documento
usando uma distribuição de probabilidades e o
algoritmo de agrupamento SOM que é usado como
classificador não supervisionado multidimensional para
os dados vetorizados anteriormente. O conjunto de
dados selecionado utilizou quatro categorias de veículos
com baixo grau de similaridade: aviões, carros, barcos e
trens. Cada categoria tem um conjunto de palavraschaves únicas. Quando um novo documento está para
ser identificado e categorizado, o classificador naïves
Bayes é executado e produz um endereço com a
distribuição de probabilidade do documento a ser
relacionado às categorias pré-definidas. O endereço
gerado alimenta a interface SOM do programa que é
executado para encontrar o neurônio vencedor que é o
neurônio mais correspondente ao documento de entrada
descrito.
No trabalho [17], foi proposta uma representação de
documentos estruturada em árvore em conjunto com
uma rede neural híbrida para organizar os documentos
em uma árvore de dados hierárquica. Na abordagem
proposta, um documento é particionado em páginas e as
páginas são particionadas em parágrafos formando uma
árvore hierárquica. Para tratar os dados em estrutura de
árvore foi empregado um modelo estendido do
MLSOM [18] chamado de multi-layer hybrid network
(MLHN). Uma MLHN é construída transformando uma
MLSOM em um modelo supervisionado onde se inclui
a rede MLP como camada superior. A arquitetura do
MLHN consiste em três camadas: duas camadas SOM e
uma camada MLP. As duas camadas SOM ajudam a
comprimir o espaço de características da árvore de
documentos em um vetor de tamanho fixo, facilitando o
trabalho para a MLP. Neste trabalho foram utilizados
apenas conteúdos textuais de documentos 'html', pois
em documentos 'html' os parágrafos são facilmente
identificados através das tags html.
4. Sistema MTD-UFPE
Esta seção apresenta o Mapeador de Teses e
Dissertações da UFPE (MTD-UFPE), abordando suas
fases de construção e o seu funcionamento na
recuperação de informação na Biblioteca Digital de
Teses e Dissertações (BDTD-UFPE).
4.1. Biblioteca Digital de Teses e Dissertações
(BDTD)
A Biblioteca Digital de Teses e Dissertações (BDTD)
é um projeto coordenado pelo Instituto Brasileiro de
Informação em Ciência e Tecnologia (IBICT) com
apoio do Finep, CNPq, MEC e de três universidades
que participam do grupo de trabalho e do plano-piloto
(USP, PUC-Rio e UFSC) [19]. O projeto da BDTD visa
a integração dos sistemas de informação de teses e
dissertações existentes nas instituições de ensino e
pesquisa brasileiras, e o incentivo do registro e a
publicação de teses e dissertações em meio eletrônico.
pelo IBICT (Instituto Brasileiro de Informação em
Ciência e Tecnologia).
As respostas do protocolo OAI-PMH são
disponibilizadas no padrão XML, precisando de um
parser XML para obter os metadados das teses e
dissertações.
B. Preparação dos Documentos / Indexação
A fase de preparação de documentos consiste em
realizar operações do tipo: análise léxica, que tem a
função de eliminar pontuações e dígitos; eliminação de
stopwords; e stemming, que reduz as palavras ao
radical.
Como o resultado da etapa de aquisição são
documentos em XML, é preciso realizar uma tradução
do XML para objetos na linguagem Java, para isso foi
utilizada a biblioteca Java JColtrane4, que faz a extração
dos dados XML. Após realizar esse tratamento dos
documentos, os dados são passados para o Lucene5
desempenhar a fase de indexação. O processo de
indexação consiste na obtenção de termos que melhor
representam o conteúdo de cada um dos documentos da
coleção [4] e a posterior criação do índice. Os campos
utilizados para a indexação dos metadados de cada
documento foram: título, resumo, palavras-chave
(assunto), nome do programa, grande área do programa,
autor, e contribuidor com atribuição de orientador.
C. Representação dos Documentos
O Mapeador de Teses e Dissertações da UFPE
(MTD-UFPE) tem por objetivo recuperar informações
constantes na Biblioteca Digital de Teses e Dissertações
da UFPE (BDTD-UFPE). O sistema MTD-UFPE
realiza uma organização automática de documentos
texto em uma estrutura de mapas de documentos, onde é
possível identificar grupos e relações entre tais grupos
baseadas no conceito de similaridade de conteúdo dos
documentos. A seguir são descritas as tarefas realizadas
pelo MTD-UFPE para a organização das teses e
dissertações.
A representação dos documentos é feita em vetores
para servirem de entrada para o treinamento da rede
SOM [20]. O resultado do treinamento é o mapa de
documentos. Através da Lucene e já com o índice
gerado, são criados três arquivos de texto para
representar a matriz esparsa de documentos por
palavras, são eles: docTable – arquivo que identifica o
documento possuindo as colunas id do documento na
BDTD, assunto na tabela CNPQ, programa de pósgraduação e a grande área do programa; wordTable –
arquivo que representa as palavras com os atributos id e
palavra; e wordDocTable – arquivo que faz a relação
entre documento, palavra e sua frequência, usando os
atributos idPalavra, idDocumento e frequência.
A. Aquisição de Documentos
D. Construção do Mapa e da Interface
Este processo de aquisição de documentos ocorre
através do protocolo OAI-PMH2 utilizando o padrão de
metadados MTD-BR do IBICT na sua segunda versão
através da URL do módulo OAI Explorer do sistema
TEDE-IBICT da BDTD-UFPE. O TEDE3 (Sistema
Eletrônico de Teses e Dissertações) é um sistema de
informação que armazena, indexa, divulga e fornece o
acesso livre ao texto integral de teses e dissertações
defendidas em âmbito institucional, sendo desenvolvido
Para construção do mapa de documentos, uma rede
do tipo auto-organizável será treinada com os vetores
representativos das teses e dissertações. O mapa se
constitui dos vetores modelos de cada nodo que
representam o conteúdo de documentos. Através dos
valores atribuídos às palavras nos vetores modelos é
possível determinar as principais palavras que melhor
expliquem o assunto abordado por cada grupo de
documentos. O mapa de documentos é organizado em
uma estrutura bidimensional de semelhanças entre
grupos e tópicos.
4.2. MTD-UFPE
2
http://www.openarchives.org/pmh/
http://www.ibict.br/pesquisa-desenvolvimentotecnologico-e-inovacao/sistema-eletronico-de-teses-edissertacoes(tede)
3
4
5
http://jcoltrane.sourceforge.net/
http://lucene.apache.org/
O MTD-UFPE é um sistema web implementado na
linguagem Java6 utilizando para a interface as
tecnologias Java Server Pages (JSP) e Java Server Faces
(JSF)7. HTML, Javascript e CSS foram utilizados para
deixar a interface mais intuitiva para os usuários. O
mapa de documentos é visualizado através de uma
tabela de 12 linhas por 10 colunas, onde cada célula
representa um nodo com suas três palavras mais
relevantes.
Para melhor exibição do mapa de documentos, os
nodos foram divididos em três áreas e coloridos de
acordo com a grande área do CNPq que representam. A
cor vermelha foi usada para as áreas de Ciências
Biológicas e da Saúde (CBS), a cor azul para as áreas de
Tecnologia, Ciências Exatas e da Natureza (TCEN) e a
cor verde para as áreas de Ciências Humanas, Letras e
Artes (CHLA). O Site MTD-UFPE 8 possibilita que
sejam realizadas consultas sobre os documentos da
BDTD-UFPE a partir de consultas por palavras chaves e
através da navegação sobre o mapa de documentos.
5. Resultados no Aperfeiçoamento do MTD-UFPE
Esta seção apresenta os procedimentos necessários
para a realização do treinamento da rede SOM, uma
análise sobre o mapa de documentos gerado pelo Java
SOMToolbox, a funcionalidade desenvolvida para
treinamento do mapa e o recurso de marcação de nodos
como melhoria na usabilidade da interface de
navegação [21].
5.1. Automação do Treinamento do Mapa
Primeiramente os documentos foram representados
em vetores de termos de indexação, sendo necessário
criar o dicionário de características que se refere ao
conjunto de palavras com maior relevância na coleção
de documentos a partir do índice do Lucene. Para
representação dos documentos foram utilizadas as
palavras com mais de 5 ocorrências e menos que 3000
ocorrências em um conjunto de 5420 documentos.
Utilizou-se o limite de 3000 ocorrências para se obter
um mapa com uma maior variedade de palavras para
identificar os nodos, porque de outra forma os nodos do
mapa seriam identificados pelas palavras de maiores
ocorrências, dificultando a análise do mapa em relação
aos documentos mapeados.
O conjunto inicial de documentos engloba 5420
documentos, sendo representados por 53996 palavras.
Após a seleção das palavras, o conjunto final de
palavras resultou em 11392, sendo exibidas em 4781
documentos. Em seguida, os dados passaram por uma
etapa de normalização em vetores unitários visando
colocar todos os valores das características em uma
mesma escala. Os valores dos termos ficaram num
intervalo entre 0 e 1.
Para realização do treinamento foi utilizada a
ferramenta Java SOMToolbox já incorporada ao MTD6
http://www.java.com/pt_BR/
http://www.oracle.com/technetwork/java/javaee/jav
aserverfaces-139869.html
8
www.liber.ufpe.br/MTDWeb/‎
UFPE. A inicialização da matriz de pesos sinápticos
utilizou valores aleatórios entre 0 e 1. A seguir, seguem
os valores dos parâmetros do treinamento:
 Dimensões do mapa: 12 x 10, resultando num total
de 120 neurônios. Essa dimensão foi utilizada por
ter produzido mapas adequados ao tamanho da
janela do navegador;
 Algoritmo de treinamento: Iterativo sequencial em
que os parâmetros são ajustados a cada apresentação
de um parâmetro à rede;
 Unidades de entrada: 4781, que corresponde ao
número de documentos na BDTD-UFPE;
 Topologia: Planar;
 Formato da grade: Retangular;
 Função de vizinhança: Gaussiana;
 Taxa de aprendizagem inicial: 0,7, valor padrão
utilizado pela ferramenta;
 Número de ciclos: 30, equivalente a 143430
iterações; Raio inicial: 6, sendo metade da maior
dimensão do mapa.
O treinamento do mapa utilizando os 30 ciclos
(143430 iterações) para um conjunto de 4781
documentos foi executado em um tempo de
aproximadamente
15
minutos,
um
tempo
consideravelmente curto.
A Figura 1 representa a sequência realizada para
obter as visualizações do mapa através do SOMViewer,
ferramenta de visualização do Java SOMToolbox. A
partir da base de dados representada pelos arquivos
docTable.txt, wordTable.txt e worDoctTable.txt, foi
realizado um pré-processamento para obter o arquivo de
entrada para o Java SOMToolbox denominado de input
Vector File. Após o treinamento, os arquivos unit
description file e weight vectors file, são utilizados
como entrada para o SOMViewer juntamente com o
arquivo class information file (.cls) que contém os
rótulos para classificação dos documentos podendo
assim obter os vários tipos de visualizações para o
mapa.
Figura 1: Processo para obter as visualizações.
5.2. Visualização do Mapa Treinado
O mapa obtido foi segmentado pelas cores que
representam as grandes áreas dos documentos. A Figura
2 mostra o mapa obtido pelo SOMViewer9 do Java
SOMToolbox, sendo uma representação semelhante a
do mapa visualizado na interface do MTD-UFPE. Em
alguns nodos do mapa são mostradas regiões amarelas
7
9
http://www.ifs.tuwien.ac.at/dm/somtoolbox/somVie
wer.html
que representam os documentos da base de dados que
não tinham grande área associada.
Figura 2: Mapa por grandes áreas.
Esta visualização ajuda a descobrir a distribuição das
categorias e a disposição destas categorias no mapa.
Pode-se constatar que os documentos estão agrupados
especificamente em três categorias identificadas por três
cores diferentes. São apresentadas três regiões
representando os agrupamentos dos documentos por
categorias, onde na parte superior destacada pela cor
verde se concentram quase totalmente os documentos
relacionados à área de Ciências Humanas, Letras e
Artes (CHLA), a região inferior à esquerda destacada na
cor azul concentra a maior parte dos documentos da
área de Tecnologia, Ciências Exatas e da Natureza
(TCEN) e a região inferior à direita marcada pela cor
vermelha define um agrupamento que prevalece os
documentos da área de Ciências Biológicas e da Saúde
(CBS).
5.3. Análise dos mapas novo e antigo
Para avaliação da qualidade do mapa gerado após o
treinamento utilizou-se as métricas: Erro Médio de
Quantização (Mean Quantization Error - MQE), Erro
Topográfico (Topographic Error – TE) e Acurácia.
O Erro Médio de Quantização representa a média das
distâncias entre cada vetor de dados de entrada e o
correspondente vetor de pesos do neurônico vencedor
(BMU). A equação 1 descreve o cálculo do erro médio
de quantização:
𝑴𝑸𝑬 =
𝟏
𝑵
𝑵
𝒏=𝟏
𝒎𝒄 − 𝒗𝒏
(1)
Cada vetor de dados é representado por 𝒗𝒏 e o
correspondente vetor de pesos do BMU é representado
por 𝒎𝒄 .
O Erro Topográfico considera a proximidade do
mapa de protótipos com relação ao vetor de entrada
através da relação percentual entre o neurônio vencedor
(BMU) e o neurônio vizinho (BMU2), ou seja, para
cada vetor documento calcula-se o primeiro BMU e o
segundo BMU. Esse erro é dado pela equação 2:
𝑻𝑬 =
𝟏
𝑵
𝑵
𝒏=𝟏 𝒖
𝒗𝒏
(2)
Onde N é o número total de vetores de características
e 𝒖 𝒗𝒏 é igual a 1, se o primeiro BMU não for
adjacente ao segundo BMU e 0 se são vizinhos. A
Acurácia avalia o percentual de vetores documentos que
foram mapeados corretamente em nodos cuja categoria
majoritária é a mesma categoria do documento. Os
valores das métricas para o mapa novo treinado no Java
SOMToolbox foram: Erro Médio de Quantização com
valor de 0.00744; Erro Topográfico com valor de
0.35055; e Acurácia a qual apresentou o valor 0.96.
Em relação à acurácia, o mapa novo e o mapa antigo
ficaram bem semelhantes, com um valor aproximado de
0.96. Mas o melhor mapa obtido foi o mapa antigo
produzido pelo MATLAB porque foi mais fácil
determinar o raio final da vizinhança possibilitando
obter um menor erro topográfico, sendo 0.01 para o
mapa antigo e 0.35 para o novo mapa. Obteve-se um
alto valor para o erro topográfico porque cada nodo se
especializou em seus próprios vetores documentos
devido ao treinamento ser realizado com valores para o
raio final de vizinhança ficando abaixo de 1, criando
uma distância entre cada um dos nodos e seus vizinhos.
Outro fator que contribuiu para o erro topográfico maior
foi o uso da vizinhança retangular ao invés da
vizinhança hexagonal utilizada no mapa antigo. Não foi
realizada nenhuma comparação em relação ao erro de
quantização porque não foi adquirido este erro para o
mapa gerado pelo MATLAB.
Constatou-se também que o mapa gerado com o Java
SOMToolbox conseguiu se equiparar ao antigo mapa
em relação à quantidade de nodos associados às áreas
CHLA, TCEN e CBS. No mapa antigo, os 120 nodos
ficaram assim distribuídos: 54 para a área CHLA, 40
para a área TCEN, 25 para a área CBS e apenas 1 nodo
não teve documentos mapeados. Para o novo mapa, a
distribuição dos nodos ficou em 55, 34 e 31 para as
áreas CHLA, TCEN e CBS respectivamente.
O mapa produzido também destacou a formação de 3
agrupamentos bem definidos referentes às 3 áreas dos
documentos, onde a região representada pela área
CHLA ocupou 45,83% do mapa, a região representada
pela área TCEN ficou com 28,33% do mapa e a região
demarcada com os nodos referentes a área CBS ocupou
25,83%. No mapa produzido pelas rotinas do
MATLAB, 45,38% dos nodos do mapa ficaram
marcados pela cor da área CHLA, 33,6% dos nodos do
mapa corresponderam à área TCEN e 21% dos nodos se
relacionaram à área CBS.
Os mapas de documentos antigo e novo são
mostrados nas Figuras 3 e 4 para efeito de comparação
visual, onde no mapa antigo foi construído com a
dimensão de 12 linhas x 10 colunas, com as três regiões
limítrofes mas dispostas em setores diferentes em
relação ao mapa novo. O novo mapa apresenta 12 linhas
x 10 colunas e exibe a maior área representada pela cor
verde no lado superior do mapa. Em ambos os mapas,
os nodos são rotulados com as 3 palavras com maior
peso no vetor modelo de cada nodo, obtidas após o
mapeamento dos documentos. Apenas o mapa gerado
pelo MATLAB apresenta um nodo sem documentos
mapeados na região de fronteira entre os nodos das três
áreas.
Figura 5: Mapa com nodos destacados.
5.5. Interface para Treinamento do Mapa
Figura 3: Mapa Antigo (MATLAB).
É possível realizar o treinamento do mapa, utilizando
a tela de treinamento conforme Figura 6. Essa tela foi
construída tanto para realizar o treinamento como o
retreinamento. Ao selecionar a opção “retreinar” o
sistema utilizará como pesos iniciais os pesos gerados
no final do treinamento anterior.
Após realizar o treinamento, será gerado
automaticamente o novo mapa para ser visualizado na
página inicial do MTD-UFPE. Os treinamentos podem
ser executados levando-se em conta o aumento acima de
um limiar do valor do erro médio de quantização, o qual
tem seu último valor mostrado na tela.
Figura 6: Tela para treinamento.
Figura 4: Mapa Novo (Java SOMToolbox).
5.4. Interface de Pesquisa e Navegação
A interface visual sofreu as modificações propostas
nesse trabalho para possibilitar uma navegação mais
precisa sobre os documentos. A pesquisa por palavraschaves, que antes exibia apenas o mapa de documentos,
agora apresenta destacados os nodos que contém os
documentos retornados na pesquisa realizada.
Executando a pesquisa por palavras-chaves, o sistema
retornará uma lista com os documentos que contém as
palavras-chaves e o mapa destaca na cor amarela os
respectivos nodos desses documentos, sendo mais
rápido para o usuário saber se vários nodos do mapa de
diferentes áreas contêm documentos com assuntos interrelacionados. A Figura 5 mostra o mapa com os nodos
destacados em amarelo para uma pesquisa feita
utilizando a palavra-chave “suape”.
6. Conclusão
Este trabalho apresentou melhorias ao Mapeador de
Teses e Dissertações da UFPE (MTD-UFPE), o qual é
um Sistema de Recuperação de Informação baseado em
mapa de documentos.
Foi incorporada ao MTD-UFPE a ferramenta Java
SOMToolbox, utilizada na construção de mapas autoorganizáveis, permitindo a formação dos grupos de
teses e dissertações de acordo com as similaridades dos
documentos.
A integração do Java SOMToolbox ao MTD-UFPE
veio facilitar a realização do treinamento do mapa de
documentos levando em conta a adição de novos
documentos à Biblioteca Digital de Teses e
Dissertações da UFPE.
O Mapa Auto-Organizável possibilita uma interface
intuitiva aos usuários para a recuperação de informação.
A marcação dos nodos na interface de navegação sobre
o mapa de documentos, de acordo com a busca, auxilia
o usuário na identificação de documentos relevantes,
pois são destacados os nodos onde estão localizados os
documentos que casam com a busca, permitindo que o
usuário navegue pelos nodos correspondentes mais
rapidamente e encontre os documentos que deseja.
Dentre as perspectivas futuras está a possibilidade de
utilizar métodos de agrupamento com superposição
(overlapping clustering) como OSOM [22], que se
propõe a resolver problemas com sobreposição e
coerência das classes. Outra linha de trabalho futuro é a
utilização de outras formas de representação do
conteúdo dos documentos, como por exemplo, o uso de
sintagmas nominais como características ao invés das
palavras isoladas.
Agradecimentos
Os autores agradecem o fomento da Fundação de
Amparo à Ciência e Tecnologia do Estado de
Pernambuco (FACEPE) ao projeto “Mapeador
Temático de Teses e Dissertações”, bem como à
Universidade Federal de Pernambuco (UFPE) pelo
fomento na realização do mestrado profissionalizante no
Programa de Pós-Graduação em Ciência da
Computação da UFPE.
Referências
[1] Correa, R. F., Pinheiro, B. F. Self-organizing maps applied to
information retrieval of dissertations and theses from BDTD-UFPE.
In: 2010 Brazilian Symposium on Neural Networks (SBRN 2010),
2010, pp. 31-36.
[2] Lin, X., Soergel, D., Marchionini, G. A self-organizing semantic
map for information retrieval. Proceedings of the Fourteenth Annual
International ACM/SIGIR Conference on Research and Development
in Information Retrieval, 1991, pp. 262-269.
[3] Merkl, D. “Content-based software classification by
selforganization,” Proceedings of the IEEE International
Conference on Neural Networks (ICNN'95), 1995, pp. 1086-1091.
[4] Corrêa, R. F. Sistemas Baseados em Mapas Auto-organizáveis
para Organização Automática de Documentos Texto. Tese de
Doutorado. Centro de Informática da UFPE, Recife, 2008.
[5] Roussinov, D., Chen, H., A Scalable Selforganizing Map
Algorithm for Textual Classification: A Neural Network Approach to
Thesaurus Generation. Communication and Cognition in Artificial
Intelligence Journal (CC-AI), v. 15, n. 1-2, 1998, pp. 81-111.
[6] Kohonen, T., Kaski, S., Lagus, K., Salojärvi, J., Honkela, J.,
Paatero, V., Saarela, A. Self Organization of a Massive Document
Collection. IEEE Transaction on Neural Networks, v. 11, n. 3, May
2000, pp. 574-585.
[7] Rauber, A. and Merkl, D. “SOMLib: A digital library system
based on neural networks,” Proceedings of fouth ACM International
Conference on Digital Libraries, 1999, pp.240-241.
[8] Lesteven, S., Poinçot, P., Murtagh, F. Visual Exploration of
Astronomical Documents. Astronomical Data Analysis Software and
Systems X, ASP Conference Proceedings Series, v. 238, 2001, pp. 7881.
[9] Azcarraga, A. & Yap, T. SOM-Based Methodology for Building
Large Text Archives. In Proceedings of DASFAA01, 2001, pp. 66-73.
[10] Rauber, A., Merkl, D. & Dittenbach, M. The growing
hierarchical self-organizing map: exploratory analysis of highdimensional data. IEEE Transactions on Neural Networks, v.13, 2002,
pp. 1331-1341.
[11] Ong T., Chen H., Sung W., Zhu B., Newsmap: a knowledge map
for online news, Decision Support Systems, v.39 n.4, p.583-597, June
2005.
[12] Pullwitt, D. “Integrating contextual information to enhance
SOM-based text document clustering,” Neural Networks, 2002, pp.
1099-1106.
[13] Chow, T. W. and M. K. Rahman, M. K. “Multilayer SOM with
treestructured data for efficient document retrieval and plagiarism
detection,” IEEE Transaction on Neural Networks, 2009, pp. 13851402.
[14] Meireles, M. R. G. Categorização de Documentos a Partir de
Suas Citações: Um Método Baseado em Redes Neurais Artificiais.
Tese de Doutorado, Escola de Ciência da Informação da UFMG, Belo
Horizonte, 2012.
[15] Isa D., Kallimani V. P., Lee L. H., Using the self organizing map
for clustering of text documents, Expert Systems with Applications:
An International Journal, v.36 n.5, p.9584-9591, July, 2009.
[16] McCallum A. and Nigam K., "A comparison of event models for
naive bayes text classification," Journal of Machine Learning
Research, vol. 3, pp. 1265-1287, 2003.
[17] Rahman M. K. M. , Chow T. W. S., Content-based hierarchical
document organization using multi-layer hybrid network and treestructured features, Expert Systems with Applications: An
International Journal, v.37 n.4, p.2874-2881, April, 2010.
[18] Rahman M. K. M., Yang W. P., Chow T. W. S., Wu S., A
flexible multi-layer self-organizing map for generic processing of
tree-structured data, Pattern Recognition, v.40 n.5, p.1406-1424, May,
2007.
[19] IBICT. BDTD - Biblioteca Digital Brasileira de Teses e
Dissertações. Disponível em: <http:// http://bdtd.ibict.br/ >. Acesso
em: 05 nov. 2013.
[20] Haykin, S. Redes Neurais: princípios e prática. 2a edição. São
Paulo: Bookman, 2000.
[21] Rego Junior, U. S., Aperfeiçoamento do Mapeador de Teses e
Dissertações da UFPE. Dissertação de Mestrado, Centro de
Informática da UFPE, Recife, 2013.
[22] Cleuziou, G. Osom: A method for building overlapping
topological maps, Pattern Recognition Letters, vol. 34, no. 3, pp. 239–
246, 2013.
Download