Inteligência Artificial

Propaganda
APLICAÇÃO DO ALGORITMO
K-MEANS EM BASES DE DADOS DE
MICROARRANJOS
Acadêmico:
Lucas Dähne de Oliveira
Orientadora:
Profª MSc. Helyane B. Borges
Agenda







Introdução
Processo de Descoberta do Conhecimento KDD
Técnica de Microarranjo
Algoritmo k-means
Experimentos
Resultados
Conclusão
Introdução

Processo de descoberta de conhecimento em base
de dados - KDD.

Bases de dados de Expressão Gênica obtidas pela
técnica de microarranjo.

Tarefa de Agrupamento.

Algoritmo k-means.
KDD
Agrupamento
Tarefa de Agrupamento

Reunião de registros de uma base de dados
que possuam similaridades.

O conceito de similaridade está normalmente
associado à distância entre os objetos.
Técnica de Microarranjo



Análise da expressão dos genes.
Representados no formato de uma matriz.
Característica: Possui muitos atributos e
poucas amostras.
Base de Dados
colunas / genes
Linhas
Registros ou
amostras
atributo
Experimentos

Estudo:



Técnica de microarranjo
Agrupamento
Algoritmo de agrupamento



k-means
Execução
Análise dos resultados
Experimentos - Algoritmo k-means
Experimentos – Base de Dados

DLBCLTumor (SHIPP et al., 2000)
–
–
–
Formada por 2 tipos de Linfoma: o Linfoma
Difuso de Grandes Células B (LDGCB) e Linfoma
Folicular (LF)
7129 atributos
77 registros
Resultados

K = 3 (3 grupos)
Medidas
Grupo 1
Grupo 2
Grupo 3
Iterações
Euclidiana/Aritmética
42
31
4
7
Euclidiana/Geométrica
40
30
7
4
Euclidiana/Harmônica
59
17
1
3
Euclidiana/Quadrática
42
31
4
4
Manhattan/Aritmética
9
56
12
10
Manhattan/Geométrica
31
39
7
4
Manhattan/Harmônica
61
15
1
6
Manhattan/Quadrática
6
70
1
5
Resultados

K = 5 (5 grupos)
Medidas
Grupo 1
Grupo 2
Grupo 3
Grupo 4
Grupo 5
Iterações
Euclidiana/Aritmética
33
30
4
9
1
5
Euclidiana/Geométrica
24
19
4
26
4
21
Euclidiana/Harmônica
28
1
1
42
5
20
Euclidiana/Quadrática
26
36
4
7
4
4
Manhattan/Aritmética
13
35
18
7
4
12
Manhattan/Geométrica
21
40
4
8
4
7
Manhattan/Harmônica
25
36
3
9
4
6
Manhattan/Quadrática
7
48
18
3
1
11
Resultados


OBS: Base de dados tem conhecimento a
priori
Taxa de Acerto
Medida de Distância
Média
Acerto Geral (%)
Iterações
Euclidiana
Aritmética
69,6%
4
Euclidiana
Geométrica
65,1%
7
Euclidiana
Quadrática
54,1%
4
Euclidiana
Harmônica
58,5%
6
Manhattan
Aritmética
67,1%
3
Manhattan
Geométrica
31,6%
7
Manhattan
Quadrática
55,2%
9
Manhattan
Harmônica
61,9%
5
Conclusão




Importância da mineração de dados.
Tarefa de agrupamento
Aplicação do algoritmo k-means.
– Distância Euclidiana
– Distância Manhattan.
Experimentos com novas bases de dados
Referências







Borges, H. B. Redução de Dimensionalidade em Bases de Dados de
Expressão Gênica. Dissertação (Mestrado em Informática Aplicada). 123f.
2006. PPGIA - Pontifícia Universidade Católica do Paraná – PUCPR.
FAYYAD, USAMA M. et al. KDD for science data analysis: issues and
examples. Second International Conference on Knowledge Discovery and
Data Mining, 1996 Portland, Oregon, Ago.1996, AAAI Press.
GOLDSHIMIDT, R.; PASSOS. E. Data Mining. Rio de Janeiro: Elsevier, 2005 4° Reimpressão.
MITCHELL, T. Machine Learning. New York, USA: McGraw-Hill, 1997.
SHIPP et al. Diffuse large B-cell lymphoma outcome prediction by gene
expression profiling and supervised machine learning. Nature Medicine, v. 8,
n. 1, p. 68-74, Jan 2002.
SUNAGA, D.Y. Aplicação de Técnicas de Validação Estatística e Biológica
em Agrupamento de Dados de Expressão Gênica. Dissertação de
Mestrado, PPGIa PUCPR, 249pp, 2006.
WITTEN I. H.; IAN H.; FRANK, E. Data Mining: Practical machine learning
tools and techniques, 2nd Edition, 2005, Morgan Kaufmann, San Francisco.
Agradecimentos



FUNTEF Campus Ponta Grossa: pelo apoio
financeiro
COINF: laboratórios de informática
DEPOG
Atualmente o projeto está sendo
financiado pela FUNTEF
Download