Aperfeiçoamento do Mapeador de Teses e Dissertações da UFPE Ubiracy dos Santos R. Junior, Teresa B. Ludermir e Renato F. Correa Universidade Federal de Pernambuco {usrj, tbl}@cin.ufpe.br, [email protected] Resumo. O Mapeador de Teses e Dissertações da UFPE (MTD-UFPE) é um sistema que objetiva a recuperação de informações na Biblioteca Digital de Teses e Dissertações da UFPE através de uma interface de navegação e pesquisa utilizando mapa de documentos. Um mapa de documentos é construído com o uso de mapas auto-organizáveis (SOM). SOM é um tipo de rede neural que usa a técnica de aprendizado competitivo e tem grande potencial no agrupamento de documentos de textos similares. No sistema MTD-UFPE, o treinamento do mapa de documentos era realizado externamente, passando arquivos que representam os vetores documentos para scripts do MATLAB, tornando-se uma atividade custosa. Assim, este trabalho tem o objetivo de incorporar ao sistema MTD-UFPE um processo automático de treinamento do mapa de documentos e também implementar um método de marcação no mapa que identifique as regiões que contém os documentos resultantes das pesquisas. Visando esta automação no processo de treinamento integrou-se ao MTD-UFPE a ferramenta de código livre, Java SOMToolbox que permite o treinamento e visualização de mapas auto-organizáveis. 1. Introdução A Universidade Federal de Pernambuco dispõe de uma Biblioteca Digital de Teses e Dissertações (BDTDUFPE) que compreende na íntegra as dissertações e teses elaboradas dentro dos programas de pósgraduação da UFPE. Para a recuperação de informação nesses documentos foi desenvolvida uma ferramenta chamada de Mapeador de Teses e Dissertações da UFPE (MTD-UFPE) [1], resultado de projeto de pesquisa do Departamento de Ciência da Informação da UFPE. Esta ferramenta possibilita ao usuário acessibilidade à produção científica e tecnológica da UFPE na forma de teses e dissertações e contribui para a transferência de conhecimentos entre a universidade e a sociedade. O MTD-UFPE consiste de uma interface de navegação e pesquisa sobre mapas de documentos. Os mapas de documentos são redes neurais do tipo mapa auto-organizável treinadas com vetores documentos. Os mapas de documentos são capazes de realizar uma organização automática dos documentos em conjuntos, evidenciando o relacionamento de similaridade entre os conteúdos desses documentos, e as relações de proximidade entre os conjuntos de documentos de forma visual. A geração dos mapas ocorre através de uma operação manual passando os arquivos que representam os documentos para treinamento da rede via scripts na ferramenta MATLAB, se tornando uma atividade custosa, pois o MTD-UFPE não incorpora uma implementação para a realização desse treinamento. O MTD-UFPE necessita que o processo de treinamento com a base de teses e dissertações da UFPE seja automático à medida que novas teses e dissertações são incorporadas ao sistema. Assim foi proposto a integração com a ferramenta Java SOMToolbox. A recuperação de informação pelo MTD-UFPE pode ser realizada utilizando a busca por palavras-chaves, onde o sistema retorna uma lista de teses e dissertações dispostas em uma tabela por ordem de relevância. A navegação poderia ser facilitada caso existisse um recurso que exibisse em destaque os nodos do mapa de documentos contendo documentos que casem com a consulta realizada pelo usuário. O objetivo geral deste trabalho é incorporar no sistema MTD-UFPE o processo automático de treinamento da rede neural com os vetores documentos representativos das teses e dissertações para a construção do mapa de documentos. O treinamento será desempenhado através de uma funcionalidade integrada ao Java SOMToolbox. Visa-se também avaliar a qualidade do mapa de documentos e implementar na interface do mapa de documentos a marcação dos nodos de acordo com a lista de resultados decorrente da consulta realizada pelo usuário. 2. Java SOMToolbox O Java SOMToolbox1 é uma ferramenta de código livre desenvolvida pelo Instituto de Tecnologia de Software e Sistemas Interativos da Universidade de Vienna, que permite o treinamento de mapas autoorganizáveis, a geração de visualizações e a obtenção de medidas de qualidade sobre os mapas treinados, resultando numa poderosa ferramenta de mineração de dados. Para se iniciar o treinamento é necessário informar alguns parâmetros, tais como: dimensões do mapa, modelo de treinamento, quantidade de ciclos ou de iterações, raio inicial do neurônio vencedor, taxa de aprendizagem inicial, e apresentar o arquivo inpuctVectorFile(.vec) que contém os vetores de dados a serem utilizados no treinamento do mapa autoorganizável. Os arquivos gerados após o treinamento são: - unitDescriptionFile(.unit): Tem a relação dos padrões de entrada mapeados em cada nodo do mapa; - weightVectorFile(.wgt): Guarda os valores dos pesos dos nodos do mapa; 1 http://www.ifs.tuwien.ac.at/dm/somtoolbox/ - dataWinnerMappingFile(.dwm): Fornece informações das unidades vencedoras para todos os vetores de entrada; 3. Trabalhos Relacionados A seguir são apresentados alguns trabalhos presentes na literatura que tratam de sistemas de organização automática de documentos utilizando redes neurais SOM. Os trabalhos estão dispostos em ordem cronológica à medida que as pesquisas na área foram avançando. Os primeiros trabalhos se preocuparam em mostrar a viabilidade do uso de SOM para organização de coleção de documentos. Foram utilizadas coleções que continham algumas centenas de documentos e para o agrupamento dos documentos foram definidos mapas bidimensionais com centenas de neurônios. Os documentos eram representados por vetores binários em que cada elemento do vetor indicava a existência ou não de uma palavra nos documentos, e para treinamento da rede foi utilizado o algoritmo padrão para rede SOM com uso da distância euclidiana. Lin [2] foi o precursor desta primeira fase, mas quem teve maior produtividade nas publicações foi Merkl [3]. Com a evolução das pesquisas, buscou-se desenvolver sistemas de organização automática de documentos com o uso de SOM que produzissem interfaces intuitivas e sistemas escaláveis para os mapas de documentos. Começaram a se utilizar outras formas para criar os mapas de documentos como produto interno de vetores unitários ao invés de distância euclidiana e os documentos passaram a ser representados por vetores com valores reais em que cada valor corresponde à frequência da palavra no documento. Foram realizadas otimizações do algoritmo de treinamento da rede SOM, e também as pesquisas passaram a trabalhar com o conceito de hierarquia de mapas SOM para organização de coleções de documentos [4]. Os principais projetos desta fase foram desenvolvidos entre 1996 e 2000, foram eles: Arizona Digital Library [5], WEBSOM [6] SOMLib [7] e CDS Astronomy bibliographical Map [ 8]. Entre 2001 e 2005, as linhas de pesquisas focaram na construção de sistemas de organização automática de documentos utilizando abordagens híbridas e variantes de SOM. O sistema LiGHtSOM [9] possibilitou a redução da dimensionalidade e volume de uma coleção e o desenvolvimento de um sistema híbrido para arquivamento de documentos. Rauber [10] especificou uma associação hierárquica de mapas, chamada de GHSOM (do inglês growing hierarchical SOM), em que para a construção dos mapas utiliza-se uma variante da rede SOM que mantém uma regularidade na grade dos neurônios durante o crescimento incremental dos mapas. Esse modelo aplica uma estrutura hierárquica sobre várias camadas, em que cada um dessas camadas consiste de um número livre de redes SOM. A camada inicial é composta por apenas uma rede SOM. Para cada unidade, presente na camada inicial, pode ser criada uma sub-rede no próximo nível hierárquico. Foi proposta a geração automática de um mapa de conhecimento hierárquico chamado NewsMap, com base em notícias chinesas online, particularmente notícias de finanças e saúde [11]. O NewsMap emprega uma interface combinada de uma lista hierárquica alfabética 1D e um mapa auto-organizável 2D em visor de ilhas. A rede SOM foi utilizada para classificar todos os termos de indexação e colocar as categorias mais abrangentes em um nível superior e colocar as subcategorias sob uma categoria mais abrangente. A pesquisa concluiu que a rede SOM foi capaz de rotular os agrupamentos criados e de fornecer uma visualização dos agrupamentos em duas dimensões. O mapa 2D foi visualizado através de oceanos e ilhas, onde cada categoria aparece como uma ilha no oceano, camadas de verde indicam o número de profundidade dos níveis de subcategorias e o tamanho de uma ilha dá uma estimativa do número de artigos de notícias contidos na categoria. A partir de 2006 ocorre a comparação das linhas de pesquisas com o objetivo de se obter sistemas que gerem mapas de documentos de boa qualidade mas com um baixo custo computacional. Os trabalhos [12] [13] propõem a representação do conteúdo dos diferentes documentos, codificando o conteúdo e estruturando-os em níveis como documentos, páginas, parágrafos e sentenças. Meireles [14] utilizou rede SOM para categorizar documentos automaticamente por meio da análise das referências bibliográficas neles citadas. As relações entre os textos foram definidas pela presença de referências bibliográficas comuns e respectivos anos de publicação. Em [15] foi descrita uma implementação de abordagem de classificação híbrida que permite uma melhor precisão na classificação através da utilização de dois algoritmos, o algoritmo de classificação naïves Bayes [16] que é usado para vetorizar o documento usando uma distribuição de probabilidades e o algoritmo de agrupamento SOM que é usado como classificador não supervisionado multidimensional para os dados vetorizados anteriormente. O conjunto de dados selecionado utilizou quatro categorias de veículos com baixo grau de similaridade: aviões, carros, barcos e trens. Cada categoria tem um conjunto de palavraschaves únicas. Quando um novo documento está para ser identificado e categorizado, o classificador naïves Bayes é executado e produz um endereço com a distribuição de probabilidade do documento a ser relacionado às categorias pré-definidas. O endereço gerado alimenta a interface SOM do programa que é executado para encontrar o neurônio vencedor que é o neurônio mais correspondente ao documento de entrada descrito. No trabalho [17], foi proposta uma representação de documentos estruturada em árvore em conjunto com uma rede neural híbrida para organizar os documentos em uma árvore de dados hierárquica. Na abordagem proposta, um documento é particionado em páginas e as páginas são particionadas em parágrafos formando uma árvore hierárquica. Para tratar os dados em estrutura de árvore foi empregado um modelo estendido do MLSOM [18] chamado de multi-layer hybrid network (MLHN). Uma MLHN é construída transformando uma MLSOM em um modelo supervisionado onde se inclui a rede MLP como camada superior. A arquitetura do MLHN consiste em três camadas: duas camadas SOM e uma camada MLP. As duas camadas SOM ajudam a comprimir o espaço de características da árvore de documentos em um vetor de tamanho fixo, facilitando o trabalho para a MLP. Neste trabalho foram utilizados apenas conteúdos textuais de documentos 'html', pois em documentos 'html' os parágrafos são facilmente identificados através das tags html. 4. Sistema MTD-UFPE Esta seção apresenta o Mapeador de Teses e Dissertações da UFPE (MTD-UFPE), abordando suas fases de construção e o seu funcionamento na recuperação de informação na Biblioteca Digital de Teses e Dissertações (BDTD-UFPE). 4.1. Biblioteca Digital de Teses e Dissertações (BDTD) A Biblioteca Digital de Teses e Dissertações (BDTD) é um projeto coordenado pelo Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) com apoio do Finep, CNPq, MEC e de três universidades que participam do grupo de trabalho e do plano-piloto (USP, PUC-Rio e UFSC) [19]. O projeto da BDTD visa a integração dos sistemas de informação de teses e dissertações existentes nas instituições de ensino e pesquisa brasileiras, e o incentivo do registro e a publicação de teses e dissertações em meio eletrônico. pelo IBICT (Instituto Brasileiro de Informação em Ciência e Tecnologia). As respostas do protocolo OAI-PMH são disponibilizadas no padrão XML, precisando de um parser XML para obter os metadados das teses e dissertações. B. Preparação dos Documentos / Indexação A fase de preparação de documentos consiste em realizar operações do tipo: análise léxica, que tem a função de eliminar pontuações e dígitos; eliminação de stopwords; e stemming, que reduz as palavras ao radical. Como o resultado da etapa de aquisição são documentos em XML, é preciso realizar uma tradução do XML para objetos na linguagem Java, para isso foi utilizada a biblioteca Java JColtrane4, que faz a extração dos dados XML. Após realizar esse tratamento dos documentos, os dados são passados para o Lucene5 desempenhar a fase de indexação. O processo de indexação consiste na obtenção de termos que melhor representam o conteúdo de cada um dos documentos da coleção [4] e a posterior criação do índice. Os campos utilizados para a indexação dos metadados de cada documento foram: título, resumo, palavras-chave (assunto), nome do programa, grande área do programa, autor, e contribuidor com atribuição de orientador. C. Representação dos Documentos O Mapeador de Teses e Dissertações da UFPE (MTD-UFPE) tem por objetivo recuperar informações constantes na Biblioteca Digital de Teses e Dissertações da UFPE (BDTD-UFPE). O sistema MTD-UFPE realiza uma organização automática de documentos texto em uma estrutura de mapas de documentos, onde é possível identificar grupos e relações entre tais grupos baseadas no conceito de similaridade de conteúdo dos documentos. A seguir são descritas as tarefas realizadas pelo MTD-UFPE para a organização das teses e dissertações. A representação dos documentos é feita em vetores para servirem de entrada para o treinamento da rede SOM [20]. O resultado do treinamento é o mapa de documentos. Através da Lucene e já com o índice gerado, são criados três arquivos de texto para representar a matriz esparsa de documentos por palavras, são eles: docTable – arquivo que identifica o documento possuindo as colunas id do documento na BDTD, assunto na tabela CNPQ, programa de pósgraduação e a grande área do programa; wordTable – arquivo que representa as palavras com os atributos id e palavra; e wordDocTable – arquivo que faz a relação entre documento, palavra e sua frequência, usando os atributos idPalavra, idDocumento e frequência. A. Aquisição de Documentos D. Construção do Mapa e da Interface Este processo de aquisição de documentos ocorre através do protocolo OAI-PMH2 utilizando o padrão de metadados MTD-BR do IBICT na sua segunda versão através da URL do módulo OAI Explorer do sistema TEDE-IBICT da BDTD-UFPE. O TEDE3 (Sistema Eletrônico de Teses e Dissertações) é um sistema de informação que armazena, indexa, divulga e fornece o acesso livre ao texto integral de teses e dissertações defendidas em âmbito institucional, sendo desenvolvido Para construção do mapa de documentos, uma rede do tipo auto-organizável será treinada com os vetores representativos das teses e dissertações. O mapa se constitui dos vetores modelos de cada nodo que representam o conteúdo de documentos. Através dos valores atribuídos às palavras nos vetores modelos é possível determinar as principais palavras que melhor expliquem o assunto abordado por cada grupo de documentos. O mapa de documentos é organizado em uma estrutura bidimensional de semelhanças entre grupos e tópicos. 4.2. MTD-UFPE 2 http://www.openarchives.org/pmh/ http://www.ibict.br/pesquisa-desenvolvimentotecnologico-e-inovacao/sistema-eletronico-de-teses-edissertacoes(tede) 3 4 5 http://jcoltrane.sourceforge.net/ http://lucene.apache.org/ O MTD-UFPE é um sistema web implementado na linguagem Java6 utilizando para a interface as tecnologias Java Server Pages (JSP) e Java Server Faces (JSF)7. HTML, Javascript e CSS foram utilizados para deixar a interface mais intuitiva para os usuários. O mapa de documentos é visualizado através de uma tabela de 12 linhas por 10 colunas, onde cada célula representa um nodo com suas três palavras mais relevantes. Para melhor exibição do mapa de documentos, os nodos foram divididos em três áreas e coloridos de acordo com a grande área do CNPq que representam. A cor vermelha foi usada para as áreas de Ciências Biológicas e da Saúde (CBS), a cor azul para as áreas de Tecnologia, Ciências Exatas e da Natureza (TCEN) e a cor verde para as áreas de Ciências Humanas, Letras e Artes (CHLA). O Site MTD-UFPE 8 possibilita que sejam realizadas consultas sobre os documentos da BDTD-UFPE a partir de consultas por palavras chaves e através da navegação sobre o mapa de documentos. 5. Resultados no Aperfeiçoamento do MTD-UFPE Esta seção apresenta os procedimentos necessários para a realização do treinamento da rede SOM, uma análise sobre o mapa de documentos gerado pelo Java SOMToolbox, a funcionalidade desenvolvida para treinamento do mapa e o recurso de marcação de nodos como melhoria na usabilidade da interface de navegação [21]. 5.1. Automação do Treinamento do Mapa Primeiramente os documentos foram representados em vetores de termos de indexação, sendo necessário criar o dicionário de características que se refere ao conjunto de palavras com maior relevância na coleção de documentos a partir do índice do Lucene. Para representação dos documentos foram utilizadas as palavras com mais de 5 ocorrências e menos que 3000 ocorrências em um conjunto de 5420 documentos. Utilizou-se o limite de 3000 ocorrências para se obter um mapa com uma maior variedade de palavras para identificar os nodos, porque de outra forma os nodos do mapa seriam identificados pelas palavras de maiores ocorrências, dificultando a análise do mapa em relação aos documentos mapeados. O conjunto inicial de documentos engloba 5420 documentos, sendo representados por 53996 palavras. Após a seleção das palavras, o conjunto final de palavras resultou em 11392, sendo exibidas em 4781 documentos. Em seguida, os dados passaram por uma etapa de normalização em vetores unitários visando colocar todos os valores das características em uma mesma escala. Os valores dos termos ficaram num intervalo entre 0 e 1. Para realização do treinamento foi utilizada a ferramenta Java SOMToolbox já incorporada ao MTD6 http://www.java.com/pt_BR/ http://www.oracle.com/technetwork/java/javaee/jav aserverfaces-139869.html 8 www.liber.ufpe.br/MTDWeb/ UFPE. A inicialização da matriz de pesos sinápticos utilizou valores aleatórios entre 0 e 1. A seguir, seguem os valores dos parâmetros do treinamento: Dimensões do mapa: 12 x 10, resultando num total de 120 neurônios. Essa dimensão foi utilizada por ter produzido mapas adequados ao tamanho da janela do navegador; Algoritmo de treinamento: Iterativo sequencial em que os parâmetros são ajustados a cada apresentação de um parâmetro à rede; Unidades de entrada: 4781, que corresponde ao número de documentos na BDTD-UFPE; Topologia: Planar; Formato da grade: Retangular; Função de vizinhança: Gaussiana; Taxa de aprendizagem inicial: 0,7, valor padrão utilizado pela ferramenta; Número de ciclos: 30, equivalente a 143430 iterações; Raio inicial: 6, sendo metade da maior dimensão do mapa. O treinamento do mapa utilizando os 30 ciclos (143430 iterações) para um conjunto de 4781 documentos foi executado em um tempo de aproximadamente 15 minutos, um tempo consideravelmente curto. A Figura 1 representa a sequência realizada para obter as visualizações do mapa através do SOMViewer, ferramenta de visualização do Java SOMToolbox. A partir da base de dados representada pelos arquivos docTable.txt, wordTable.txt e worDoctTable.txt, foi realizado um pré-processamento para obter o arquivo de entrada para o Java SOMToolbox denominado de input Vector File. Após o treinamento, os arquivos unit description file e weight vectors file, são utilizados como entrada para o SOMViewer juntamente com o arquivo class information file (.cls) que contém os rótulos para classificação dos documentos podendo assim obter os vários tipos de visualizações para o mapa. Figura 1: Processo para obter as visualizações. 5.2. Visualização do Mapa Treinado O mapa obtido foi segmentado pelas cores que representam as grandes áreas dos documentos. A Figura 2 mostra o mapa obtido pelo SOMViewer9 do Java SOMToolbox, sendo uma representação semelhante a do mapa visualizado na interface do MTD-UFPE. Em alguns nodos do mapa são mostradas regiões amarelas 7 9 http://www.ifs.tuwien.ac.at/dm/somtoolbox/somVie wer.html que representam os documentos da base de dados que não tinham grande área associada. Figura 2: Mapa por grandes áreas. Esta visualização ajuda a descobrir a distribuição das categorias e a disposição destas categorias no mapa. Pode-se constatar que os documentos estão agrupados especificamente em três categorias identificadas por três cores diferentes. São apresentadas três regiões representando os agrupamentos dos documentos por categorias, onde na parte superior destacada pela cor verde se concentram quase totalmente os documentos relacionados à área de Ciências Humanas, Letras e Artes (CHLA), a região inferior à esquerda destacada na cor azul concentra a maior parte dos documentos da área de Tecnologia, Ciências Exatas e da Natureza (TCEN) e a região inferior à direita marcada pela cor vermelha define um agrupamento que prevalece os documentos da área de Ciências Biológicas e da Saúde (CBS). 5.3. Análise dos mapas novo e antigo Para avaliação da qualidade do mapa gerado após o treinamento utilizou-se as métricas: Erro Médio de Quantização (Mean Quantization Error - MQE), Erro Topográfico (Topographic Error – TE) e Acurácia. O Erro Médio de Quantização representa a média das distâncias entre cada vetor de dados de entrada e o correspondente vetor de pesos do neurônico vencedor (BMU). A equação 1 descreve o cálculo do erro médio de quantização: 𝑴𝑸𝑬 = 𝟏 𝑵 𝑵 𝒏=𝟏 𝒎𝒄 − 𝒗𝒏 (1) Cada vetor de dados é representado por 𝒗𝒏 e o correspondente vetor de pesos do BMU é representado por 𝒎𝒄 . O Erro Topográfico considera a proximidade do mapa de protótipos com relação ao vetor de entrada através da relação percentual entre o neurônio vencedor (BMU) e o neurônio vizinho (BMU2), ou seja, para cada vetor documento calcula-se o primeiro BMU e o segundo BMU. Esse erro é dado pela equação 2: 𝑻𝑬 = 𝟏 𝑵 𝑵 𝒏=𝟏 𝒖 𝒗𝒏 (2) Onde N é o número total de vetores de características e 𝒖 𝒗𝒏 é igual a 1, se o primeiro BMU não for adjacente ao segundo BMU e 0 se são vizinhos. A Acurácia avalia o percentual de vetores documentos que foram mapeados corretamente em nodos cuja categoria majoritária é a mesma categoria do documento. Os valores das métricas para o mapa novo treinado no Java SOMToolbox foram: Erro Médio de Quantização com valor de 0.00744; Erro Topográfico com valor de 0.35055; e Acurácia a qual apresentou o valor 0.96. Em relação à acurácia, o mapa novo e o mapa antigo ficaram bem semelhantes, com um valor aproximado de 0.96. Mas o melhor mapa obtido foi o mapa antigo produzido pelo MATLAB porque foi mais fácil determinar o raio final da vizinhança possibilitando obter um menor erro topográfico, sendo 0.01 para o mapa antigo e 0.35 para o novo mapa. Obteve-se um alto valor para o erro topográfico porque cada nodo se especializou em seus próprios vetores documentos devido ao treinamento ser realizado com valores para o raio final de vizinhança ficando abaixo de 1, criando uma distância entre cada um dos nodos e seus vizinhos. Outro fator que contribuiu para o erro topográfico maior foi o uso da vizinhança retangular ao invés da vizinhança hexagonal utilizada no mapa antigo. Não foi realizada nenhuma comparação em relação ao erro de quantização porque não foi adquirido este erro para o mapa gerado pelo MATLAB. Constatou-se também que o mapa gerado com o Java SOMToolbox conseguiu se equiparar ao antigo mapa em relação à quantidade de nodos associados às áreas CHLA, TCEN e CBS. No mapa antigo, os 120 nodos ficaram assim distribuídos: 54 para a área CHLA, 40 para a área TCEN, 25 para a área CBS e apenas 1 nodo não teve documentos mapeados. Para o novo mapa, a distribuição dos nodos ficou em 55, 34 e 31 para as áreas CHLA, TCEN e CBS respectivamente. O mapa produzido também destacou a formação de 3 agrupamentos bem definidos referentes às 3 áreas dos documentos, onde a região representada pela área CHLA ocupou 45,83% do mapa, a região representada pela área TCEN ficou com 28,33% do mapa e a região demarcada com os nodos referentes a área CBS ocupou 25,83%. No mapa produzido pelas rotinas do MATLAB, 45,38% dos nodos do mapa ficaram marcados pela cor da área CHLA, 33,6% dos nodos do mapa corresponderam à área TCEN e 21% dos nodos se relacionaram à área CBS. Os mapas de documentos antigo e novo são mostrados nas Figuras 3 e 4 para efeito de comparação visual, onde no mapa antigo foi construído com a dimensão de 12 linhas x 10 colunas, com as três regiões limítrofes mas dispostas em setores diferentes em relação ao mapa novo. O novo mapa apresenta 12 linhas x 10 colunas e exibe a maior área representada pela cor verde no lado superior do mapa. Em ambos os mapas, os nodos são rotulados com as 3 palavras com maior peso no vetor modelo de cada nodo, obtidas após o mapeamento dos documentos. Apenas o mapa gerado pelo MATLAB apresenta um nodo sem documentos mapeados na região de fronteira entre os nodos das três áreas. Figura 5: Mapa com nodos destacados. 5.5. Interface para Treinamento do Mapa Figura 3: Mapa Antigo (MATLAB). É possível realizar o treinamento do mapa, utilizando a tela de treinamento conforme Figura 6. Essa tela foi construída tanto para realizar o treinamento como o retreinamento. Ao selecionar a opção “retreinar” o sistema utilizará como pesos iniciais os pesos gerados no final do treinamento anterior. Após realizar o treinamento, será gerado automaticamente o novo mapa para ser visualizado na página inicial do MTD-UFPE. Os treinamentos podem ser executados levando-se em conta o aumento acima de um limiar do valor do erro médio de quantização, o qual tem seu último valor mostrado na tela. Figura 6: Tela para treinamento. Figura 4: Mapa Novo (Java SOMToolbox). 5.4. Interface de Pesquisa e Navegação A interface visual sofreu as modificações propostas nesse trabalho para possibilitar uma navegação mais precisa sobre os documentos. A pesquisa por palavraschaves, que antes exibia apenas o mapa de documentos, agora apresenta destacados os nodos que contém os documentos retornados na pesquisa realizada. Executando a pesquisa por palavras-chaves, o sistema retornará uma lista com os documentos que contém as palavras-chaves e o mapa destaca na cor amarela os respectivos nodos desses documentos, sendo mais rápido para o usuário saber se vários nodos do mapa de diferentes áreas contêm documentos com assuntos interrelacionados. A Figura 5 mostra o mapa com os nodos destacados em amarelo para uma pesquisa feita utilizando a palavra-chave “suape”. 6. Conclusão Este trabalho apresentou melhorias ao Mapeador de Teses e Dissertações da UFPE (MTD-UFPE), o qual é um Sistema de Recuperação de Informação baseado em mapa de documentos. Foi incorporada ao MTD-UFPE a ferramenta Java SOMToolbox, utilizada na construção de mapas autoorganizáveis, permitindo a formação dos grupos de teses e dissertações de acordo com as similaridades dos documentos. A integração do Java SOMToolbox ao MTD-UFPE veio facilitar a realização do treinamento do mapa de documentos levando em conta a adição de novos documentos à Biblioteca Digital de Teses e Dissertações da UFPE. O Mapa Auto-Organizável possibilita uma interface intuitiva aos usuários para a recuperação de informação. A marcação dos nodos na interface de navegação sobre o mapa de documentos, de acordo com a busca, auxilia o usuário na identificação de documentos relevantes, pois são destacados os nodos onde estão localizados os documentos que casam com a busca, permitindo que o usuário navegue pelos nodos correspondentes mais rapidamente e encontre os documentos que deseja. Dentre as perspectivas futuras está a possibilidade de utilizar métodos de agrupamento com superposição (overlapping clustering) como OSOM [22], que se propõe a resolver problemas com sobreposição e coerência das classes. Outra linha de trabalho futuro é a utilização de outras formas de representação do conteúdo dos documentos, como por exemplo, o uso de sintagmas nominais como características ao invés das palavras isoladas. Agradecimentos Os autores agradecem o fomento da Fundação de Amparo à Ciência e Tecnologia do Estado de Pernambuco (FACEPE) ao projeto “Mapeador Temático de Teses e Dissertações”, bem como à Universidade Federal de Pernambuco (UFPE) pelo fomento na realização do mestrado profissionalizante no Programa de Pós-Graduação em Ciência da Computação da UFPE. Referências [1] Correa, R. F., Pinheiro, B. F. Self-organizing maps applied to information retrieval of dissertations and theses from BDTD-UFPE. In: 2010 Brazilian Symposium on Neural Networks (SBRN 2010), 2010, pp. 31-36. [2] Lin, X., Soergel, D., Marchionini, G. A self-organizing semantic map for information retrieval. Proceedings of the Fourteenth Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval, 1991, pp. 262-269. [3] Merkl, D. “Content-based software classification by selforganization,” Proceedings of the IEEE International Conference on Neural Networks (ICNN'95), 1995, pp. 1086-1091. [4] Corrêa, R. F. Sistemas Baseados em Mapas Auto-organizáveis para Organização Automática de Documentos Texto. Tese de Doutorado. Centro de Informática da UFPE, Recife, 2008. [5] Roussinov, D., Chen, H., A Scalable Selforganizing Map Algorithm for Textual Classification: A Neural Network Approach to Thesaurus Generation. Communication and Cognition in Artificial Intelligence Journal (CC-AI), v. 15, n. 1-2, 1998, pp. 81-111. [6] Kohonen, T., Kaski, S., Lagus, K., Salojärvi, J., Honkela, J., Paatero, V., Saarela, A. Self Organization of a Massive Document Collection. IEEE Transaction on Neural Networks, v. 11, n. 3, May 2000, pp. 574-585. [7] Rauber, A. and Merkl, D. “SOMLib: A digital library system based on neural networks,” Proceedings of fouth ACM International Conference on Digital Libraries, 1999, pp.240-241. [8] Lesteven, S., Poinçot, P., Murtagh, F. Visual Exploration of Astronomical Documents. Astronomical Data Analysis Software and Systems X, ASP Conference Proceedings Series, v. 238, 2001, pp. 7881. [9] Azcarraga, A. & Yap, T. SOM-Based Methodology for Building Large Text Archives. In Proceedings of DASFAA01, 2001, pp. 66-73. [10] Rauber, A., Merkl, D. & Dittenbach, M. The growing hierarchical self-organizing map: exploratory analysis of highdimensional data. IEEE Transactions on Neural Networks, v.13, 2002, pp. 1331-1341. [11] Ong T., Chen H., Sung W., Zhu B., Newsmap: a knowledge map for online news, Decision Support Systems, v.39 n.4, p.583-597, June 2005. [12] Pullwitt, D. “Integrating contextual information to enhance SOM-based text document clustering,” Neural Networks, 2002, pp. 1099-1106. [13] Chow, T. W. and M. K. Rahman, M. K. “Multilayer SOM with treestructured data for efficient document retrieval and plagiarism detection,” IEEE Transaction on Neural Networks, 2009, pp. 13851402. [14] Meireles, M. R. G. Categorização de Documentos a Partir de Suas Citações: Um Método Baseado em Redes Neurais Artificiais. Tese de Doutorado, Escola de Ciência da Informação da UFMG, Belo Horizonte, 2012. [15] Isa D., Kallimani V. P., Lee L. H., Using the self organizing map for clustering of text documents, Expert Systems with Applications: An International Journal, v.36 n.5, p.9584-9591, July, 2009. [16] McCallum A. and Nigam K., "A comparison of event models for naive bayes text classification," Journal of Machine Learning Research, vol. 3, pp. 1265-1287, 2003. [17] Rahman M. K. M. , Chow T. W. S., Content-based hierarchical document organization using multi-layer hybrid network and treestructured features, Expert Systems with Applications: An International Journal, v.37 n.4, p.2874-2881, April, 2010. [18] Rahman M. K. M., Yang W. P., Chow T. W. S., Wu S., A flexible multi-layer self-organizing map for generic processing of tree-structured data, Pattern Recognition, v.40 n.5, p.1406-1424, May, 2007. [19] IBICT. BDTD - Biblioteca Digital Brasileira de Teses e Dissertações. Disponível em: <http:// http://bdtd.ibict.br/ >. Acesso em: 05 nov. 2013. [20] Haykin, S. Redes Neurais: princípios e prática. 2a edição. São Paulo: Bookman, 2000. [21] Rego Junior, U. S., Aperfeiçoamento do Mapeador de Teses e Dissertações da UFPE. Dissertação de Mestrado, Centro de Informática da UFPE, Recife, 2013. [22] Cleuziou, G. Osom: A method for building overlapping topological maps, Pattern Recognition Letters, vol. 34, no. 3, pp. 239– 246, 2013.