SP4 - Departamento de Informática

Propaganda
Implementation of the Asymmetric InfoSimba
Similarity Measure in the WEKA
Proposta de Projeto
Orientador: Sebastião Pais
Departamento de Informática @ UBI
2016/2017
1
Weka
O Weka1 é uma conjunto de algoritmos que trabalham segundo a filosofia de
aprendizagem automática, os quais operam para solucionar problemas de mineração de dados. Podemos utilizar esses algoritmos diretamente em um conjunto de
dados ou podemos chamá-los dentro do nosso código Java (Hall et al. (2009)).
O Weka possui ferramentas para pré-processamento, classificação, regressão e
agrupamento. A biblioteca possui código aberto amparada pela GNU General
Public License.
A biblioteca foi escrita primeiramente em C, e a primeira versão apresentava a
interface e a implementação dos arquivos ARFF. Esta versão foi disponibilizada
em 1994, mas somente em 1996 uma versão pública foi disponibilizada, a versão
2.1. Em 1997 iniciou-se a migração para o Java da biblioteca e em 1999 ela foi
totalmente codificada em Java (Hall et al. (2009)).
2
Objetivos
Assim, esta proposta assenta numa investigação, conceptualização e respetivo
desenvolvimento experimental para implementação da medida Asymmetric InfoSimba Similarity (AIS) (Pais (2013)) na ferramenta Weka. A conceptualização e desenvolvimento desta implementação visa adicionar ao Weka um pacote
de medida de associação assimétricas (Tan et al. (2004); Pecina et Schlesinger
(2006)) associadas ao InfoSimba para uso em problemas de Processamento da
Linguagem Natural.
3
Tarefas a Realizar
1. Investigação Preliminar e Especificação de Requisitos Iniciais
– Contextualização da problemática apresentada nesta proposta de projeto
– Investigação Preliminar sobre todo o funcionamento do Weka e respetivas
dependências
1
http://www.cs.waikato.ac.nz/ml/weka/
2
Orientador: Sebastião Pais
2.
3.
4.
5.
4
– Investigação Preliminar sobre as diversas medidas de similaridade que
serão usadas neste projeto
Investigação, Conceptualização e Desenvolvimento Experimental da implementação da medida AIS
Investigação, Conceptualização e Desenvolvimento Experimental de um pacote que implemente a medida AIS, para integração no Weka
Integração, Testes e Avaliação
Escrita do Relatório
Requisitos Académicos
– Bons conhecimento de Java
– Interesse pela área cientifica de Processamento da Linguagem Natural
– Interesse pela implementação de sistemas inteligentes com recurso a Inteligência Artificial
5
Resultados Esperados
– Prova de Conceito
• Testes, Avaliação Final, Desenvolvimento Experimental e Estudo Piloto
– Relatório de Projeto
6
Contactos
Sebastião Pais ([email protected]) - Gabinete 4.1
UBI, Departamento de Informática
Rua Marquês d’Ávila e Bolama
6201-001 Covilhã
Bibliography
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P. et Witten, I. H. (2009). The weka data mining software: An update. SIGKDD
Explor. Newsl., 11(1):10–18.
Pais, S. (2013). Asymmetric Distributional Similarity Measures to Recognize
Textual Entailment by Generality. Theses, Ecole Nationale Supérieure des
Mines de Paris.
Pecina, P. et Schlesinger, P. (2006). Combining association measures for collocation extraction. In Proceedings of the COLING/ACL on Main Conference
Poster Sessions, COLING-ACL ’06, pages 651–658, Stroudsburg, PA, USA.
Association for Computational Linguistics.
Tan, P.-N., Kumar, V. et Srivastava, J. (2004). Selecting the right objective
measure for association analysis. Inf. Syst., 29(4):293–313.
Download