INTELIGÊNCIA COMPUTACIONAL Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Metodologias de Mineração de Dados Roteiro • • • • CRISP-DM SEMMA Palpanas et al Domain Driven Data Mining (D3M) Introdução No final da década de 90, a principal preocupação das empresas de mineração de dados estava na definição de processos / metodologias que pudessem orientar o desenvolvimento de aplicações de DM. As metodologias CRISP-DM e SEMMA são as mais populares, embora não tenham sido desenvolvidas pela comunidade cientifica. CRISP-DM Em 1996 um consórcio de empresas fornecedoras e consumidores potenciais de Data Mining criou uma metodologia não proprietária, chamada CRISP-DM (Cross-Industry Standard Process for Data Mining). A metodologia é composta por seis fases interdependentes. CRISP-DM CRISP-DM 1-Entendimento do negócio: a compreensão do negócio procura identificar os objetivos e as necessidades na perspectiva de negócio, e converter este conhecimento em uma tarefa de Data Mining. Na determinação dos objetivos do negócio, o primeiro passo é identificar as necessidades do cliente. Durante o entendimento do negócio, o analista de mineração de dados deverá identificar fatores importantes que poderão influenciar os resultados. CRISP-DM 2-Entendimento dos dados: compreende a identificação da informação que pode ser relevante para o estudo e uma primeira familiarização com o seu conteúdo, descrição, qualidade e utilidade. O entendimento dos dados tem como tarefa adquirir a informação com a qual se irá trabalhar, listando as suas fontes, o procedimento de leitura e os problemas preliminares detectados. A descrição dos dados descreve a forma como foram adquiridos, listando o seu formato, volume, significado e toda a informação relevante. CRISP-DM 3-Preparação dos dados: consiste em um conjunto de atividades destinadas a obter os dados finais, a partir do qual será criado e validado o modelo. A seleção dos dados e a escolha dos atributos são partes desta fase. Outra fase é a integração que representa a junção de dados provenientes de várias tabelas, para criar uma visão única, onde está toda a informação necessária para a análise. CRISP-DM 4-Modelagem: são selecionadas e aplicadas as técnicas de Data Mining mais apropriadas dependendo dos objetivos levantados no entendimento do negócio. A criação do modelo representa a fase central do projeto de KDD, onde uma técnica de modelagem é aplicada sobre o conjunto de dados. CRISP-DM 5-Avaliação de desempenho: consiste na avaliação do modelo, revendo os passos seguidos anteriormente e verificando se os objetivos de negócio foram alcançados. CRISP-DM 6-Distribuição dos resultados: é um conjunto de ações para utilizar os resultados do projeto dentro da organização. A distribuição dos resultados pode ser a produção de um relatório final até a instalação de um software com os resultados do projeto. Dependendo do estudo e dos dados, poderá ser necessária uma atualização periódica dos modelos. SEMMA A SEMMA significa Sample, Explore, Modify, Model, Assess, e se refere ao processo de realização de um projeto de DM. O Instituto SAS considera um ciclo com cinco etapas para o processo: SEMMA SEMMA Sample - esta etapa consiste na amostragem dos dados, extraindo uma parte de um grande conjunto de dados grande o suficiente para conter a informação significativa, ainda pequeno o suficiente para manipular rapidamente; SEMMA Explore - este estágio consiste na exploração dos dados através de pesquisa de tendências e anomalias não previstas, a fim de ganhar a compreensão e idéias; SEMMA Modify - esta etapa consiste na modificação dos dados através da criação, seleção e transformação das variáveis para focar o processo de seleção do modelo; SEMMA Model - Esta etapa consiste na modelagem dos dados por permitir que o software procura automaticamente por uma combinação de dados de forma confiável que prevê um resultado desejado SEMMA Assess - esta etapa consiste em avaliar os dados, avaliando a utilidade e confiabilidade dos resultados do processo de DM. CRISP-DM vs SEMMA No estudo de Azevedo, A. And Santos, M. F. (2008) é demonstrado que essas duas metodologias de mineração são implementações do processo de KDD descrito por Fayyad et al, 1996, conforme pode ser visto na tabela de resumo. CRISP-DM vs SEMMA Novas Metodologias Tendência de envolvimento do conhecimento do domínio para apresentação dos resultados. • • Palpanas et al. Domain Driven Data Mining (D3M)