Implementation of the Asymmetric InfoSimba Similarity Measure in the WEKA Proposta de Projeto Orientador: Sebastião Pais Departamento de Informática @ UBI 2016/2017 1 Weka O Weka1 é uma conjunto de algoritmos que trabalham segundo a filosofia de aprendizagem automática, os quais operam para solucionar problemas de mineração de dados. Podemos utilizar esses algoritmos diretamente em um conjunto de dados ou podemos chamá-los dentro do nosso código Java (Hall et al. (2009)). O Weka possui ferramentas para pré-processamento, classificação, regressão e agrupamento. A biblioteca possui código aberto amparada pela GNU General Public License. A biblioteca foi escrita primeiramente em C, e a primeira versão apresentava a interface e a implementação dos arquivos ARFF. Esta versão foi disponibilizada em 1994, mas somente em 1996 uma versão pública foi disponibilizada, a versão 2.1. Em 1997 iniciou-se a migração para o Java da biblioteca e em 1999 ela foi totalmente codificada em Java (Hall et al. (2009)). 2 Objetivos Assim, esta proposta assenta numa investigação, conceptualização e respetivo desenvolvimento experimental para implementação da medida Asymmetric InfoSimba Similarity (AIS) (Pais (2013)) na ferramenta Weka. A conceptualização e desenvolvimento desta implementação visa adicionar ao Weka um pacote de medida de associação assimétricas (Tan et al. (2004); Pecina et Schlesinger (2006)) associadas ao InfoSimba para uso em problemas de Processamento da Linguagem Natural. 3 Tarefas a Realizar 1. Investigação Preliminar e Especificação de Requisitos Iniciais – Contextualização da problemática apresentada nesta proposta de projeto – Investigação Preliminar sobre todo o funcionamento do Weka e respetivas dependências 1 http://www.cs.waikato.ac.nz/ml/weka/ 2 Orientador: Sebastião Pais 2. 3. 4. 5. 4 – Investigação Preliminar sobre as diversas medidas de similaridade que serão usadas neste projeto Investigação, Conceptualização e Desenvolvimento Experimental da implementação da medida AIS Investigação, Conceptualização e Desenvolvimento Experimental de um pacote que implemente a medida AIS, para integração no Weka Integração, Testes e Avaliação Escrita do Relatório Requisitos Académicos – Bons conhecimento de Java – Interesse pela área cientifica de Processamento da Linguagem Natural – Interesse pela implementação de sistemas inteligentes com recurso a Inteligência Artificial 5 Resultados Esperados – Prova de Conceito • Testes, Avaliação Final, Desenvolvimento Experimental e Estudo Piloto – Relatório de Projeto 6 Contactos Sebastião Pais ([email protected]) - Gabinete 4.1 UBI, Departamento de Informática Rua Marquês d’Ávila e Bolama 6201-001 Covilhã Bibliography Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P. et Witten, I. H. (2009). The weka data mining software: An update. SIGKDD Explor. Newsl., 11(1):10–18. Pais, S. (2013). Asymmetric Distributional Similarity Measures to Recognize Textual Entailment by Generality. Theses, Ecole Nationale Supérieure des Mines de Paris. Pecina, P. et Schlesinger, P. (2006). Combining association measures for collocation extraction. In Proceedings of the COLING/ACL on Main Conference Poster Sessions, COLING-ACL ’06, pages 651–658, Stroudsburg, PA, USA. Association for Computational Linguistics. Tan, P.-N., Kumar, V. et Srivastava, J. (2004). Selecting the right objective measure for association analysis. Inf. Syst., 29(4):293–313.