Avaliação de Classificadores para Reconhecimento Automático de Insetos Gustavo E. A. P. A. Batista, Pedro R. P. Garcia, Vinícius M. A. de Souza Instituto de Ciências Matemáticas e de Computação (ICMC) [email protected], [email protected] Objetivos Avaliar o método de busca local de parâmetros para classificadores em uma base de dados que consiste de atributos extraídos de sinais gerados pela batida de asa de diversas espécies de insetos. Comparar o desempenho obtido com o método exaustivo e o aleatório. Métodos/Procedimentos Inicialmente fois escolhido um conjunto de algoritmos de classificação que representassem os paradigmas mais comuns de aprendizado de máquina. A base de dados em estudo foi classificada utilizando todos esses algoritmos, seus parâmetros foram variados manualmente para verificar sua influência na taxa de acerto. Definidos os algoritmos e quais de seus parâmetros devem ser variados, é possível gerar um conjunto com as combinações de todos os valores possíveis de um parâmetro, chamado de espaço paramétrico. Foram realizadas três buscas dentro desse espaço paramétrico. A busca exaustiva, que classifica com todo o conjunto, a busca aleatória, que escolhe um número de valores aleatórios dentro desse conjunto e a busca local, que classifica com um valor aleatório e altera esse valor para a direção com mais possibilidade de melhora no resultado. O desempenho da busca local foi avaliado de acordo com sua comparação com os outros dois métodos. A busca local precisa ter seus resultados próximos da exaustiva, pois a ultima sempre encontra o parâmetro ótimo. A busca aleatória é o algoritmo mais simples, portanto se o resultado da busca local não for superior a ela, sempre é melhor utilizar o método aleatório. Resultados Os experimentos realizados tiveram resultados diferentes para cada algoritmo de classificação utilizado. Métodos com parâmetros simples, como o “kVizinhos Mais Próximos” e “Floresta Aleatória” tiveram resultados consistentemente melhores do que a busca aleatória. Métodos baseados em máquinas de vetores de suporte foram melhores do que a busca aleatória, porém demoraram para convergir até o ótimo. Os parâmetros encontrados para o método do Modelo de Misturas Gaussianas obtiveram taxas de acerto inferiores aos encontrados pela busca aleatória. Os dois primeiros classificadores possuem em seu espaços paramétricos apenas um ponto de máximo local, enquanto o ultimo classificador possui vários máximos locais, o que confunde o algoritmo de busca. Conclusões A busca local é um método válido quando se tem dados bem comportados e um algoritmo de classificação bem conhecido, porém ela não pode ser aplicada de maneira genérica como a busca exaustiva por conta da inconsistência de seus resultados para vários algoritmos. Em trabalhos futuros a busca local será avaliada com outras bases de dados com distribuições diferentes. Referências Bibliográficas [1] Batista, G. E. A. P. A., Keogh, E. J., MafraNeto, A., and Rowton, E. (2011). Sensors and software to allow computational entomology, an emerging application of data mining. In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 761–764. [2] Silva, D. F., Batista, G. E., Keogh, E., and Mafra-Neto, A. (2011). Resultados preliminares na classificação de insetos utilizando sensores ópticos. In Proceedings of the XXXI Congress of the Brazilian Computer Society, pages 749–760.