APLICAÇÃO DO ALGORITMO K-MEANS EM BASES DE DADOS DE MICROARRANJOS Acadêmico: Lucas Dähne de Oliveira Orientadora: Profª MSc. Helyane B. Borges Agenda Introdução Processo de Descoberta do Conhecimento KDD Técnica de Microarranjo Algoritmo k-means Experimentos Resultados Conclusão Introdução Processo de descoberta de conhecimento em base de dados - KDD. Bases de dados de Expressão Gênica obtidas pela técnica de microarranjo. Tarefa de Agrupamento. Algoritmo k-means. KDD Agrupamento Tarefa de Agrupamento Reunião de registros de uma base de dados que possuam similaridades. O conceito de similaridade está normalmente associado à distância entre os objetos. Técnica de Microarranjo Análise da expressão dos genes. Representados no formato de uma matriz. Característica: Possui muitos atributos e poucas amostras. Base de Dados colunas / genes Linhas Registros ou amostras atributo Experimentos Estudo: Técnica de microarranjo Agrupamento Algoritmo de agrupamento k-means Execução Análise dos resultados Experimentos - Algoritmo k-means Experimentos – Base de Dados DLBCLTumor (SHIPP et al., 2000) – – – Formada por 2 tipos de Linfoma: o Linfoma Difuso de Grandes Células B (LDGCB) e Linfoma Folicular (LF) 7129 atributos 77 registros Resultados K = 3 (3 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Iterações Euclidiana/Aritmética 42 31 4 7 Euclidiana/Geométrica 40 30 7 4 Euclidiana/Harmônica 59 17 1 3 Euclidiana/Quadrática 42 31 4 4 Manhattan/Aritmética 9 56 12 10 Manhattan/Geométrica 31 39 7 4 Manhattan/Harmônica 61 15 1 6 Manhattan/Quadrática 6 70 1 5 Resultados K = 5 (5 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 Iterações Euclidiana/Aritmética 33 30 4 9 1 5 Euclidiana/Geométrica 24 19 4 26 4 21 Euclidiana/Harmônica 28 1 1 42 5 20 Euclidiana/Quadrática 26 36 4 7 4 4 Manhattan/Aritmética 13 35 18 7 4 12 Manhattan/Geométrica 21 40 4 8 4 7 Manhattan/Harmônica 25 36 3 9 4 6 Manhattan/Quadrática 7 48 18 3 1 11 Resultados OBS: Base de dados tem conhecimento a priori Taxa de Acerto Medida de Distância Média Acerto Geral (%) Iterações Euclidiana Aritmética 69,6% 4 Euclidiana Geométrica 65,1% 7 Euclidiana Quadrática 54,1% 4 Euclidiana Harmônica 58,5% 6 Manhattan Aritmética 67,1% 3 Manhattan Geométrica 31,6% 7 Manhattan Quadrática 55,2% 9 Manhattan Harmônica 61,9% 5 Conclusão Importância da mineração de dados. Tarefa de agrupamento Aplicação do algoritmo k-means. – Distância Euclidiana – Distância Manhattan. Experimentos com novas bases de dados Referências Borges, H. B. Redução de Dimensionalidade em Bases de Dados de Expressão Gênica. Dissertação (Mestrado em Informática Aplicada). 123f. 2006. PPGIA - Pontifícia Universidade Católica do Paraná – PUCPR. FAYYAD, USAMA M. et al. KDD for science data analysis: issues and examples. Second International Conference on Knowledge Discovery and Data Mining, 1996 Portland, Oregon, Ago.1996, AAAI Press. GOLDSHIMIDT, R.; PASSOS. E. Data Mining. Rio de Janeiro: Elsevier, 2005 4° Reimpressão. MITCHELL, T. Machine Learning. New York, USA: McGraw-Hill, 1997. SHIPP et al. Diffuse large B-cell lymphoma outcome prediction by gene expression profiling and supervised machine learning. Nature Medicine, v. 8, n. 1, p. 68-74, Jan 2002. SUNAGA, D.Y. Aplicação de Técnicas de Validação Estatística e Biológica em Agrupamento de Dados de Expressão Gênica. Dissertação de Mestrado, PPGIa PUCPR, 249pp, 2006. WITTEN I. H.; IAN H.; FRANK, E. Data Mining: Practical machine learning tools and techniques, 2nd Edition, 2005, Morgan Kaufmann, San Francisco. Agradecimentos FUNTEF Campus Ponta Grossa: pelo apoio financeiro COINF: laboratórios de informática DEPOG Atualmente o projeto está sendo financiado pela FUNTEF