TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Metodologias de Data Mining Roteiro CRISP-DM SEMMA Palpanas et al Domain Driven Data Mining (D3M) Conclusão Introdução No final da década de 90, a principal preocupação das empresas de mineração de dados estava na definição de processos / metodologias que pudessem orientar o desenvolvimento de aplicações de DM. As metodologias CRISP-DM e SEMMA são as mais populares, embora não tenham sido desenvolvidas pela comunidade cientifica. CRISP-DM Em 1996 um consórcio de empresas fornecedoras e consumidores potenciais de Data Mining criou uma metodologia não proprietária, chamada CRISP-DM (Cross-Industry Standard Process for Data Mining). A metodologia é composta por seis fases interdependentes. CRISP-DM CRISP-DM 1-Entendimento do negócio: a compreensão do negócio procura identificar os objetivos e as necessidades na perspectiva de negócio, e converter este conhecimento em uma tarefa de Data Mining. Na determinação dos objetivos do negócio, o primeiro passo é identificar as necessidades do cliente. Durante o entendimento do negócio, o analista de mineração de dados deverá identificar fatores importantes que poderão influenciar os resultados. CRISP-DM 2-Entendimento dos dados: compreende a identificação da informação que pode ser relevante para o estudo e uma primeira familiarização com o seu conteúdo, descrição, qualidade e utilidade. O entendimento dos dados tem como tarefa adquirir a informação com a qual se irá trabalhar, listando as suas fontes, o procedimento de leitura e os problemas preliminares detectados. A descrição dos dados descreve a forma como foram adquiridos, listando o seu formato, volume, significado e toda a informação relevante. CRISP-DM 3-Preparação dos dados: consiste em um conjunto de atividades destinadas a obter os dados finais, a partir do qual será criado e validado o modelo. A seleção dos dados e a escolha dos atributos são partes desta fase. Outra fase é a integração que representa a junção de dados provenientes de várias tabelas, para criar uma visão única, onde está toda a informação necessária para a análise. CRISP-DM 4-Modelagem: são selecionadas e aplicadas as técnicas de Data Mining mais apropriadas dependendo dos objetivos levantados no entendimento do negócio. A criação do modelo representa a fase central do projeto de KDD, onde uma técnica de modelagem é aplicada sobre o conjunto de dados. CRISP-DM 5-Avaliação de desempenho: consiste na avaliação do modelo, revendo os passos seguidos anteriormente e verificando se os objetivos de negócio foram alcançados. CRISP-DM 6-Distribuição dos resultados: é um conjunto de ações para utilizar os resultados do projeto dentro da organização. A distribuição dos resultados pode ser a produção de um relatório final até a instalação de um software com os resultados do projeto. Dependendo do estudo e dos dados, poderá ser necessária uma atualização periódica dos modelos. SEMMA A SEMMA significa Sample, Explore, Modify, Model, Assess, e se refere ao processo de realização de um projeto de DM. O Instituto SAS considera um ciclo com cinco etapas para o processo: SEMMA SEMMA Sample - esta etapa consiste na amostragem dos dados, extraindo uma parte de um grande conjunto de dados grande o suficiente para conter a informação significativa, ainda pequeno o suficiente para manipular rapidamente; SEMMA Explore - este estágio consiste na exploração dos dados através de pesquisa de tendências e anomalias não previstas, a fim de ganhar a compreensão e idéias; SEMMA Modify - esta etapa consiste na modificação dos dados através da criação, seleção e transformação das variáveis para focar o processo de seleção do modelo; SEMMA Model - Esta etapa consiste na modelagem do dados por permitir que o software procura automaticamente por uma combinação de dados de forma confiável que prevê um resultado desejado SEMMA Assess - esta etapa consiste em avaliar os dados, avaliando a utilidade e confiabilidade dos resultados do processo de DM. CRISP-DM vs SEMMA No estudo de Azevedo, A. And Santos, M. F. (2008) é demonstrado que essas duas metodologias de mineração são implementações do processo de KDD descrito por Fayyad et al, 1996, conforme pode ser visto na tabela de resumo. CRISP-DM vs SEMMA Novas Metodologias Tendência de envolvimento do conhecimento do domínio para apresentação dos resultados. • • Palpanas et al. Domain Driven Data Mining (D3M) Palpanas et al. Palpanas et al. - Enriquecimento do dados O objetivo desta etapa é correlacionar os padrões minerados com outras informações relevantes de outras partes do sistema. Para atingir este objetivo, dados originais de outras partes do negócio são integrados aos resultados obtidos na fase de mineração de dados. Domain Driven Data Mining (D3M) Conclusão Atividade Fayyad CRISP-DM SEMA Palpanas D3M Transformação de variáveis M M M M M Construção de variáveis M M M M M Documentação sobre as variáveis Identificação das variáveis aposteriori Homologação da visão completa N M M N N N N N N N N N N N N Utilização de conhecimento do domínio Na fase de transformação de variáveis Utilização de conhecimento do domínio - Na fase de avaliação de desempenho N N N N M N N N M M N – Não Aborda; M – Menciona; A – Aborda; PA – Parcialmente Aborda