Avaliação de Classificadores para Reconhecimento Automático de

Propaganda
Avaliação de Classificadores para Reconhecimento Automático de
Insetos
Gustavo E. A. P. A. Batista, Pedro R. P. Garcia, Vinícius M. A. de Souza
Instituto de Ciências Matemáticas e de Computação (ICMC)
[email protected], [email protected]
Objetivos
Avaliar o método de busca local de parâmetros
para classificadores em uma base de dados que
consiste de atributos extraídos de sinais
gerados pela batida de asa de diversas
espécies de insetos. Comparar o desempenho
obtido com o método exaustivo e o aleatório.
Métodos/Procedimentos
Inicialmente fois escolhido um conjunto de
algoritmos de classificação que representassem
os paradigmas mais comuns de aprendizado de
máquina. A base de dados em estudo foi
classificada utilizando todos esses algoritmos,
seus parâmetros foram variados manualmente
para verificar sua influência na taxa de acerto.
Definidos os algoritmos e quais de seus
parâmetros devem ser variados, é possível
gerar um conjunto com as combinações de
todos os valores possíveis de um parâmetro,
chamado de espaço paramétrico.
Foram realizadas três buscas dentro desse
espaço paramétrico. A busca exaustiva, que
classifica com todo o conjunto, a busca
aleatória, que escolhe um número de valores
aleatórios dentro desse conjunto e a busca
local, que classifica com um valor aleatório e
altera esse valor para a direção com mais
possibilidade de melhora no resultado.
O desempenho da busca local foi avaliado de
acordo com sua comparação com os outros
dois métodos. A busca local precisa ter seus
resultados próximos da exaustiva, pois a ultima
sempre encontra o parâmetro ótimo. A busca
aleatória é o algoritmo mais simples, portanto se
o resultado da busca local não for superior a
ela, sempre é melhor utilizar o método aleatório.
Resultados
Os experimentos realizados tiveram resultados
diferentes para cada algoritmo de classificação
utilizado.
Métodos com parâmetros simples, como o “kVizinhos Mais Próximos” e “Floresta Aleatória”
tiveram resultados consistentemente melhores
do que a busca aleatória.
Métodos baseados em máquinas de vetores de
suporte foram melhores do que a busca
aleatória, porém demoraram para convergir até
o ótimo.
Os parâmetros encontrados para o método do
Modelo de Misturas Gaussianas obtiveram
taxas de acerto inferiores aos encontrados pela
busca aleatória.
Os dois primeiros classificadores possuem em
seu espaços paramétricos apenas um ponto de
máximo local, enquanto o ultimo classificador
possui vários máximos locais, o que confunde o
algoritmo de busca.
Conclusões
A busca local é um método válido quando se
tem dados bem comportados e um algoritmo de
classificação bem conhecido, porém ela não
pode ser aplicada de maneira genérica como a
busca exaustiva por conta da inconsistência de
seus resultados para vários algoritmos.
Em trabalhos futuros a busca local será
avaliada com outras bases de dados com
distribuições diferentes.
Referências Bibliográficas
[1] Batista, G. E. A. P. A., Keogh, E. J., MafraNeto, A., and Rowton, E. (2011). Sensors and
software to allow computational entomology, an
emerging application of data mining. In
Proceedings of the 17th ACM SIGKDD
International
Conference
on
Knowledge
Discovery and Data Mining, pages 761–764.
[2] Silva, D. F., Batista, G. E., Keogh, E., and
Mafra-Neto, A. (2011). Resultados preliminares
na classificação de insetos utilizando sensores
ópticos. In Proceedings of the XXXI Congress of
the Brazilian Computer Society, pages 749–760.
Download