DESENVOLVIMENTO E APLICAÇÃO DO ALGORITMO K-MEANS EM BASES DE DADOS Acadêmico: Luiz Gustavo Pozzo Orientadora: Profª Helyane B. Borges UTFPR – Ponta Grossa Agenda Introdução Mineração de Dados Agrupamento de dados Algoritmo k-means Desenvolvimento do Algoritmo Experimentos Resultados Conclusão Introdução Mineração de Dados Tarefa de Agrupamento de Dados Algoritmo k-means Mineração de Dados Descoberta de conhecimento em Bases de Dados Agrupamento de dados Aprendizagem de máquina Algoritmos de agrupamento de dados Ex: algoritmo k-means Mineração de Dados Bases de Dados Atributos a1 a2 Exemplo 1 Exemplo 2 Exemplo 3 Exemplo i Exemplo m aN-1aN Algoritmo k-means Exemplo 1 Algoritmo k-means Definir a quantidade de grupos = k Centróide K =7 Algoritmo k-means Iteração Calcular a distância entre os pontos Média de cada grupo K =7 Algoritmo k-means (cont.) Esse processo é repetido até que não hajam mais alterações significativas. Desenvolvimento do Algoritmo Desenvolvimento do algoritmo - Linguagem C k-means Normalização dos dados Algoritmo k-means Medidas de Similaridade Euclidiana Manhattan Média Aritmética Harmônica Geométrica Quadrática Experimentos Base de dados Iris (SCUSE e REUTEMANN, 2009) 150 exemplos (3 grupos com 50 exemplos) 4 atributos + 1 atributo classe Comparação com Weka Resultados K=5 Medidas Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 Iterações Euclidiana/Aritmética 1 26 13 38 62 4 Euclidiana/Geométrica 1 26 22 39 61 4 Euclidiana/Harmônica 19 31 28 36 36 7 Euclidiana/Quadrática 1 24 25 38 62 6 Manhattan/Aritmética 24 27 23 33 43 8 Manhattan/Geométrica 23 27 23 34 43 8 Manhattan/Harmônica 29 31 19 34 37 7 Manhattan/Quadrática 26 26 24 29 45 8 Resultados (cont.) K=7 Medidas Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 Grupo 6 Grupo 7 Iterações Euclidiana/Aritmética 1 26 23 24 36 12 28 6 Euclidiana/Geométrica 1 27 22 24 39 12 25 7 Euclidiana/Harmônica 28 31 19 21 23 11 17 8 Euclidiana/Quadrática 1 26 23 24 36 12 28 8 Manhattan/Aritmética 12 27 23 21 26 12 29 6 Manhattan/Geométrica 7 27 23 23 34 12 24 7 Manhattan/Harmônica 26 31 19 16 17 22 19 8 Manhattan/Quadrática 23 26 24 21 19 12 25 10 Resultados (cont.) Base com conhecimento a priori = taxa de acerto Medida de Distância Média Acerto Geral (%) Iterações Euclidiana Aritmética 88,7% 12 Euclidiana Geométrica 90,7% 9 Euclidiana Quadrática 89,3% 9 Euclidiana Harmônica 68,7% 7 Manhattan Aritmética 88,7% 13 Manhattan Geométrica 88,0% 10 Manhattan Quadrática 88,7% 10 Manhattan Harmônica 66,0% 4 Conclusão Mineração de Dados é uma técnica em que se busca conhecimento em bases de dados Tarefa de agrupamento Algoritmo k-means 2 medidas de distância 4 médias Medida de distância euclidiana foi a que apresentou melhores resultados. Trabalhos Futuros: Aplicar medidas de validação de agrupamento Experimentos em outras bases de dados Referências Borges, H. B. Redução de Dimensionalidade em Bases de Dados de Expressão Gênica. Dissertação (Mestrado em Informática Aplicada). 123f. 2006. PPGIA - Pontifícia Universidade Católica do Paraná – PUCPR. FAYYAD, USAMA M. et al. KDD for science data analysis: issues and examples. Second International Conference on Knowledge Discovery and Data Mining, 1996 Portland, Oregon, Ago.1996, AAAI Press. GOLDSHIMIDT, R.; PASSOS. E. Data Mining. Rio de Janeiro: Elsevier, 2005 - 4° Reimpressão. MITCHELL, T. Machine Learning. New York, USA: McGraw-Hill, 1997. SCUSE, D E REUTEMANN, P. Weka Experimenter Tutorial for Version 3.4, Feb. 16, 2006. Disponível em: http://www.cs.waikato.ac.nz/ml/weka/ Acessado em: 20/08/2009. SUNAGA, D.Y. Aplicação de Técnicas de Validação Estatística e Biológica em Agrupamento de Dados de Expressão Gênica. Dissertação de Mestrado, PPGIa PUCPR, 249pp, 2006. WITTEN I. H.; IAN H.; FRANK, E. Data Mining: Practical machine learning tools and techniques, 2nd Edition, 2005, Morgan Kaufmann, San Francisco. Agradecimentos COINF: laboratórios de informática DEPOG Atualmente o projeto está sendo financiado pela FUNTEF Obrigado pela Atenção!