Anais do Conic-Semesp. Volume 1, 2013 - Faculdade Anhanguera de Campinas - Unidade 3. ISSN 2357-8904 TÍTULO: DATA MINING COMO FERRAMENTA PARA A RECUPERAÇÃO DA INFORMAÇÃO EM REPOSITÓRIOS DIGITAIS CATEGORIA: EM ANDAMENTO ÁREA: ENGENHARIAS E TECNOLOGIAS SUBÁREA: COMPUTAÇÃO E INFORMÁTICA INSTITUIÇÃO: CENTRO UNIVERSITÁRIO EURÍPEDES DE MARÍLIA AUTOR(ES): LETICIA TONON ORIENTADOR(ES): ELVIS FUSCO 1. RESUMO Atualmente há um grande volume de dados armazenados nas bases informacionais dos repositórios digitais e o problema em encontrar informação útil em sistemas de recuperação da informação se intensificou, fazendo com que fossem exigidos processos de recuperação cada vez mais sofisticados. O presente estudo tem como objetivo utilizar-se de técnicas de mineração de dados para aprimorar a recuperação da informação em repositórios digitais. 2. INTRODUÇÃO Com o uso intenso de meios computacionais para criação de produções científicas e documentos de uso geral, muita informação tem sido gerada, mas grande parte deixa de ser disseminada para aquelas pessoas e instituições as quais ela interessa. Tais informações necessitam ser armazenadas para que não sejam perdidas no tempo, para que possam ser acessadas pelos interessados e para que sejam preservadas a fim de se permitir o reuso dos documentos criados pelas instituições. (LEWIS; YATES, 2008). Desta maneira, faz-se necessário o uso de sistemas capazes de suprir estas necessidades, e para tais necessidades são apresentados os repositórios digitais, sistemas capazes de armazenar, gerir, disseminar e preservar as produções de uma instituição qualquer. 3. OBJETIVOS O objetivo geral desta pesquisa é estender o processo de Recuperação da Informação em Ambientes Informacionais Digitais de Repositórios Institucionais por meio de técnicas de Data Mining visando ampliar a relevância e a eficácia dos resultados de busca da informação. Além disso, a pesquisa tem como objetivos específicos: (i) Apresentar técnicas de Mineração de Dados que possam ser usados como ferramenta em Sistema de Recuperação da Informação de Repositórios Digitais; (ii) Elaborar um padrão de metadados que sirva de base para o Data Mart e o processo de Recuperação da Informação utilizando técnicas de Mineração de Dados; (iii) Desenvolver um Data Mart que dê suporte à aplicação das técnicas de Mineração de Dados do Repositório Digital; (iv) Criar um protótipo que implemente uma camada de Recuperação da Informação utilizando técnicas de Mineração de Dados em Repositórios Digitais que utilizam o DPACE como ferramenta. 4. METODOLOGIA O projeto foi dividido nas seguintes fases: (i) Levantamento de fontes bibliográficas para a definição do embasamento teórico. (ii) Pesquisa de trabalhos correlatos sobre Recuperação da Informação, Mineração de Dados e Repositórios Digitais. (iii) Estudo das técnicas de Mineração de Dados e sua aplicação no conceito de Recuperação da Informação. (iv) Modelagem das representações das informações do domínio de Repositórios Digitais utilizando o DPACE. (v) Projeto e implementação do Data Mart com os metadados gerados pelo processo de representação da informação. (vi) Implementar uma camada de Recuperação da Informação utilizando técnicas de Mineração de Dados em Repositórios Digitais que utilizam o DPACE como ferramenta. 5. DESENVOLVIMENTO Até o momento foi realizado o levantamento de fontes bibliográficas e pesquisa de trabalhos correlatos, assim como um estudo sobre as técnicas de mineração de dados que possibilitou verificar a existência de diversas tarefas de Data Mining onde para cada uma delas há técnicas especificas a serem utilizadas. Para a realização do DM no projeto será utilizada a ferramenta Weka API, bastante utilizada para fins acadêmicos e escolhida pois seus algoritmos podem ser aplicados diretamente da ferramenta ou usados por programas Java. 6. RESULTADOS PRELIMINARES Com o embasamento teórico foi possível verificar que os conceitos de mineração de dados podem ser utilizados no processo de recuperação da informação nos repositórios digitais, conforme proposta apresentada na figura 1: Figura 1: Arquitetura Proposta da Recuperação da Informação 7. FONTES CONSULTADAS ARANHA, Francisco. Análise de Redes em Procedimentos de Cooperação Indireta: Utilização no Sistema de Recomendações da Biblioteca Karl A. Boedecker. São Paulo: EAESP/FGV/NPP, 2000. BARTON, M. R. Creating an institutional repository: LEADIRS workbook. CambridgeMIT Institute, 2005. Disponível em: <www.ugr.es/~afporcel/construccion.pdf>. Acesso em junho de 2013. DINIZ, Carlos Alberto R., NETO, Francisco Louzada. Data Mining: uma introdução. São Paulo: Associação Brasileira de Estatística, 2000. 123p. FRAKES, W. B. & Baeza-Yates, R. Information Retrieval Data Structures & Algorithms, Prentice Hall, 1992. JESUS, Alberto Pereira de. Data Mining aplicado á identificação do perfil dos usuários de uma biblioteca para a personalização de sistemas Web de recuperação e disseminação de informações. Florianópolis, 2004. LEWIS, S.; YATES, C. The DSpace Course - Introduction to Dspace. CADAIR, 2008. Disponível em: <http://cadair.aber.ac.uk/dspace/handle/2160/617>. Acesso em junho de 2013. Louzada-Neto, F. e Diniz, C.A.R. (2002). Técnicas Estatística em Data Mining. UAP, Lima, Peru. 102p. LYNCH, C. A. Institutional repositories: essential infrastructure for scholarship in the digital age. Association of Research Libraries, n. 226, 2003. Disponível em: <www.arl.org/bm~doc/br226ir.pdf>. Acesso em junho de 2013. ROMANI, Lucas Salviano. Análise e Implantação de Repositório Digital utilizando Software Livre DSpace. 2009. 98f. Trabalho de Conclusão de Curso de Bacharelado em Ciência da Computação. Centro Universitário Eurípides de Marília, Fundação de Ensino Eurípides Soares da Rocha, Marília, 2009.