DESENVOLVIMENTO E APLICAÇÃO DO ALGORITMO K

Propaganda
DESENVOLVIMENTO E
APLICAÇÃO DO ALGORITMO
K-MEANS EM BASES DE
DADOS
Acadêmico: Luiz Gustavo Pozzo
Orientadora: Profª Helyane B. Borges
UTFPR – Ponta Grossa
Agenda


Introdução
Mineração de Dados






Agrupamento de dados
Algoritmo k-means
Desenvolvimento do Algoritmo
Experimentos
Resultados
Conclusão
Introdução



Mineração de Dados
Tarefa de Agrupamento de Dados
Algoritmo k-means
Mineração de Dados



Descoberta de conhecimento em Bases
de Dados
Agrupamento de dados
Aprendizagem de máquina


Algoritmos de agrupamento de dados
Ex: algoritmo k-means
Mineração de Dados

Bases de Dados
Atributos
a1 a2
Exemplo 1
Exemplo 2
Exemplo 3
Exemplo i
Exemplo m
aN-1aN
Algoritmo k-means
Exemplo 1
Algoritmo k-means

Definir a quantidade de grupos = k
Centróide
K =7
Algoritmo k-means

Iteração


Calcular a distância entre os pontos
Média de cada grupo
K =7
Algoritmo k-means (cont.)

Esse processo é repetido até que não
hajam mais alterações significativas.
Desenvolvimento do Algoritmo

Desenvolvimento do algoritmo - Linguagem C



k-means
Normalização dos dados
Algoritmo k-means

Medidas de Similaridade



Euclidiana
Manhattan
Média




Aritmética
Harmônica
Geométrica
Quadrática
Experimentos

Base de dados Iris (SCUSE e REUTEMANN, 2009)



150 exemplos (3 grupos com 50 exemplos)
4 atributos + 1 atributo classe
Comparação com Weka
Resultados

K=5
Medidas
Grupo 1
Grupo 2
Grupo 3
Grupo 4
Grupo 5
Iterações
Euclidiana/Aritmética
1
26
13
38
62
4
Euclidiana/Geométrica
1
26
22
39
61
4
Euclidiana/Harmônica
19
31
28
36
36
7
Euclidiana/Quadrática
1
24
25
38
62
6
Manhattan/Aritmética
24
27
23
33
43
8
Manhattan/Geométrica
23
27
23
34
43
8
Manhattan/Harmônica
29
31
19
34
37
7
Manhattan/Quadrática
26
26
24
29
45
8
Resultados (cont.)

K=7
Medidas
Grupo 1
Grupo 2
Grupo 3
Grupo 4
Grupo 5
Grupo 6
Grupo 7
Iterações
Euclidiana/Aritmética
1
26
23
24
36
12
28
6
Euclidiana/Geométrica
1
27
22
24
39
12
25
7
Euclidiana/Harmônica
28
31
19
21
23
11
17
8
Euclidiana/Quadrática
1
26
23
24
36
12
28
8
Manhattan/Aritmética
12
27
23
21
26
12
29
6
Manhattan/Geométrica
7
27
23
23
34
12
24
7
Manhattan/Harmônica
26
31
19
16
17
22
19
8
Manhattan/Quadrática
23
26
24
21
19
12
25
10
Resultados (cont.)

Base com conhecimento a priori = taxa de
acerto
Medida de Distância
Média
Acerto Geral (%)
Iterações
Euclidiana
Aritmética
88,7%
12
Euclidiana
Geométrica
90,7%
9
Euclidiana
Quadrática
89,3%
9
Euclidiana
Harmônica
68,7%
7
Manhattan
Aritmética
88,7%
13
Manhattan
Geométrica
88,0%
10
Manhattan
Quadrática
88,7%
10
Manhattan
Harmônica
66,0%
4
Conclusão



Mineração de Dados é uma técnica em que se
busca conhecimento em bases de dados
Tarefa de agrupamento
Algoritmo k-means




2 medidas de distância
4 médias
Medida de distância euclidiana foi a que
apresentou melhores resultados.
Trabalhos Futuros:


Aplicar medidas de validação de agrupamento
Experimentos em outras bases de dados
Referências







Borges, H. B. Redução de Dimensionalidade em Bases de Dados de
Expressão Gênica. Dissertação (Mestrado em Informática Aplicada). 123f.
2006. PPGIA - Pontifícia Universidade Católica do Paraná – PUCPR.
FAYYAD, USAMA M. et al. KDD for science data analysis: issues and
examples. Second International Conference on Knowledge Discovery and
Data Mining, 1996 Portland, Oregon, Ago.1996, AAAI Press.
GOLDSHIMIDT, R.; PASSOS. E. Data Mining. Rio de Janeiro: Elsevier,
2005 - 4° Reimpressão.
MITCHELL, T. Machine Learning. New York, USA: McGraw-Hill, 1997.
SCUSE, D E REUTEMANN, P. Weka Experimenter Tutorial for Version 3.4,
Feb. 16, 2006. Disponível em: http://www.cs.waikato.ac.nz/ml/weka/ Acessado em: 20/08/2009.
SUNAGA, D.Y. Aplicação de Técnicas de Validação Estatística e
Biológica em Agrupamento de Dados de Expressão Gênica.
Dissertação de Mestrado, PPGIa PUCPR, 249pp, 2006.
WITTEN I. H.; IAN H.; FRANK, E. Data Mining: Practical machine
learning tools and techniques, 2nd Edition, 2005, Morgan Kaufmann, San
Francisco.
Agradecimentos


COINF: laboratórios de informática
DEPOG
Atualmente o projeto está sendo
financiado pela FUNTEF
Obrigado pela Atenção!
Download