Metodologia D3M para Transformar Variáveis e Incorporar

Propaganda
INTELIGÊNCIA COMPUTACIONAL
Engenharia de Computação
Professor: Rosalvo Ferreira de Oliveira Neto
Metodologias
de
Mineração de Dados
Roteiro
•
•
•
•
CRISP-DM
SEMMA
Palpanas et al
Domain Driven Data Mining (D3M)
Introdução
No final da década de 90, a principal preocupação das
empresas de mineração de dados estava na
definição de processos / metodologias que
pudessem orientar o desenvolvimento de
aplicações de DM. As metodologias CRISP-DM e
SEMMA são as mais populares, embora não
tenham sido desenvolvidas pela comunidade
cientifica.
CRISP-DM
Em 1996 um consórcio de empresas fornecedoras e
consumidores potenciais de Data Mining criou
uma metodologia não proprietária, chamada
CRISP-DM (Cross-Industry Standard Process for
Data Mining). A metodologia é composta por seis
fases interdependentes.
CRISP-DM
CRISP-DM
1-Entendimento do negócio: a compreensão do
negócio procura identificar os objetivos e as
necessidades na perspectiva de negócio, e
converter este conhecimento em uma tarefa de
Data Mining. Na determinação dos objetivos do
negócio, o primeiro passo é identificar as
necessidades do cliente. Durante o entendimento
do negócio, o analista de mineração de dados
deverá identificar fatores importantes que poderão
influenciar os resultados.
CRISP-DM
2-Entendimento dos dados: compreende a
identificação da informação que pode ser
relevante para o estudo e uma primeira
familiarização com o seu conteúdo, descrição,
qualidade e utilidade. O entendimento dos dados
tem como tarefa adquirir a informação com a qual
se irá trabalhar, listando as suas fontes, o
procedimento de leitura e os problemas
preliminares detectados. A descrição dos dados
descreve a forma como foram adquiridos, listando
o seu formato, volume, significado e toda a
informação relevante.
CRISP-DM
3-Preparação dos dados: consiste em um conjunto
de atividades destinadas a obter os dados
finais, a partir do qual será criado e validado o
modelo. A seleção dos dados e a escolha dos
atributos são partes desta fase. Outra fase é a
integração que representa a junção de dados
provenientes de várias tabelas, para criar uma
visão única, onde está toda a informação
necessária para a análise.
CRISP-DM
4-Modelagem: são selecionadas e aplicadas as
técnicas de Data Mining mais apropriadas
dependendo dos objetivos levantados no
entendimento do negócio. A criação do modelo
representa a fase central do projeto de KDD,
onde uma técnica de modelagem é aplicada
sobre o conjunto de dados.
CRISP-DM
5-Avaliação de desempenho: consiste na avaliação
do modelo, revendo os passos seguidos
anteriormente e verificando se os objetivos de
negócio foram alcançados.
CRISP-DM
6-Distribuição dos resultados: é um conjunto de
ações para utilizar os resultados do projeto
dentro da organização. A distribuição dos
resultados pode ser a produção de um relatório
final até a instalação de um software com os
resultados do projeto. Dependendo do estudo
e dos dados, poderá ser necessária uma
atualização periódica dos modelos.
SEMMA
A SEMMA significa Sample, Explore, Modify,
Model, Assess, e se refere ao processo de
realização de um projeto de DM. O Instituto
SAS considera um ciclo com cinco etapas para o
processo:
SEMMA
SEMMA
Sample - esta etapa consiste na amostragem dos
dados, extraindo uma parte de um grande
conjunto de dados grande o suficiente para
conter a informação significativa, ainda
pequeno o suficiente para manipular
rapidamente;
SEMMA
Explore - este estágio consiste na exploração dos
dados através de pesquisa de tendências e
anomalias não previstas, a fim de ganhar a
compreensão e idéias;
SEMMA
Modify - esta etapa consiste na modificação dos
dados através da criação, seleção e
transformação das variáveis para focar o
processo de seleção do modelo;
SEMMA
Model - Esta etapa consiste na modelagem dos
dados por permitir que o software procura
automaticamente por uma combinação de
dados de forma confiável que prevê um
resultado desejado
SEMMA
Assess - esta etapa consiste em avaliar os dados,
avaliando a utilidade e confiabilidade dos
resultados do processo de DM.
CRISP-DM vs SEMMA
No estudo de Azevedo, A. And Santos, M. F. (2008)
é demonstrado que essas duas metodologias
de mineração são implementações do processo
de KDD descrito por Fayyad et al, 1996,
conforme pode ser visto na tabela de resumo.
CRISP-DM vs SEMMA
Novas Metodologias
Tendência de envolvimento do conhecimento do
domínio para apresentação dos resultados.
•
•
Palpanas et al.
Domain Driven Data Mining (D3M)
Download