Aula - Univasf

Propaganda
TÓPICOS AVANÇADOS EM
ENGENHARIA DE SOFTWARE
Engenharia de Computação
Professor: Rosalvo Ferreira de Oliveira Neto
Metodologias de Data Mining
Roteiro





CRISP-DM
SEMMA
Palpanas et al
Domain Driven Data Mining (D3M)
Conclusão
Introdução
No final da década de 90, a principal preocupação das
empresas de mineração de dados estava na
definição de processos / metodologias que
pudessem orientar o desenvolvimento de
aplicações de DM. As metodologias CRISP-DM e
SEMMA são as mais populares, embora não
tenham sido desenvolvidas pela comunidade
cientifica.
CRISP-DM
Em 1996 um consórcio de empresas fornecedoras e
consumidores potenciais de Data Mining criou
uma metodologia não proprietária, chamada
CRISP-DM (Cross-Industry Standard Process for
Data Mining). A metodologia é composta por seis
fases interdependentes.
CRISP-DM
CRISP-DM
1-Entendimento do negócio: a compreensão do
negócio procura identificar os objetivos e as
necessidades na perspectiva de negócio, e
converter este conhecimento em uma tarefa de
Data Mining. Na determinação dos objetivos do
negócio, o primeiro passo é identificar as
necessidades do cliente. Durante o entendimento
do negócio, o analista de mineração de dados
deverá identificar fatores importantes que poderão
influenciar os resultados.
CRISP-DM
2-Entendimento dos dados: compreende a
identificação da informação que pode ser
relevante para o estudo e uma primeira
familiarização com o seu conteúdo, descrição,
qualidade e utilidade. O entendimento dos dados
tem como tarefa adquirir a informação com a qual
se irá trabalhar, listando as suas fontes, o
procedimento de leitura e os problemas
preliminares detectados. A descrição dos dados
descreve a forma como foram adquiridos, listando
o seu formato, volume, significado e toda a
informação relevante.
CRISP-DM
3-Preparação dos dados: consiste em um conjunto
de atividades destinadas a obter os dados
finais, a partir do qual será criado e validado o
modelo. A seleção dos dados e a escolha dos
atributos são partes desta fase. Outra fase é a
integração que representa a junção de dados
provenientes de várias tabelas, para criar uma
visão única, onde está toda a informação
necessária para a análise.
CRISP-DM
4-Modelagem: são selecionadas e aplicadas as
técnicas de Data Mining mais apropriadas
dependendo dos objetivos levantados no
entendimento do negócio. A criação do modelo
representa a fase central do projeto de KDD,
onde uma técnica de modelagem é aplicada
sobre o conjunto de dados.
CRISP-DM
5-Avaliação de desempenho: consiste na avaliação
do modelo, revendo os passos seguidos
anteriormente e verificando se os objetivos de
negócio foram alcançados.
CRISP-DM
6-Distribuição dos resultados: é um conjunto de
ações para utilizar os resultados do projeto
dentro da organização. A distribuição dos
resultados pode ser a produção de um relatório
final até a instalação de um software com os
resultados do projeto. Dependendo do estudo
e dos dados, poderá ser necessária uma
atualização periódica dos modelos.
SEMMA
A SEMMA significa Sample, Explore, Modify,
Model, Assess, e se refere ao processo de
realização de um projeto de DM. O Instituto
SAS considera um ciclo com cinco etapas para o
processo:
SEMMA
SEMMA
Sample - esta etapa consiste na amostragem dos
dados, extraindo uma parte de um grande
conjunto de dados grande o suficiente para
conter a informação significativa, ainda
pequeno o suficiente para manipular
rapidamente;
SEMMA
Explore - este estágio consiste na exploração dos
dados através de pesquisa de tendências e
anomalias não previstas, a fim de ganhar a
compreensão e idéias;
SEMMA
Modify - esta etapa consiste na modificação dos
dados através da criação, seleção e
transformação das variáveis para focar o
processo de seleção do modelo;
SEMMA
Model - Esta etapa consiste na modelagem do
dados por permitir que o software procura
automaticamente por uma combinação de
dados de forma confiável que prevê um
resultado desejado
SEMMA
Assess - esta etapa consiste em avaliar os dados,
avaliando a utilidade e confiabilidade dos
resultados do processo de DM.
CRISP-DM vs SEMMA
No estudo de Azevedo, A. And Santos, M. F. (2008)
é demonstrado que essas duas metodologias
de mineração são implementações do processo
de KDD descrito por Fayyad et al, 1996,
conforme pode ser visto na tabela de resumo.
CRISP-DM vs SEMMA
Novas Metodologias
Tendência de envolvimento do conhecimento do
domínio para apresentação dos resultados.
•
•
Palpanas et al.
Domain Driven Data Mining (D3M)
Palpanas et al.
Palpanas et al. - Enriquecimento do dados
O objetivo desta etapa é correlacionar os padrões
minerados com outras informações relevantes de
outras partes do sistema. Para atingir este
objetivo, dados originais de outras partes do
negócio são integrados aos resultados obtidos na
fase de mineração de dados.
Domain Driven Data Mining (D3M)
Conclusão
Atividade
Fayyad
CRISP-DM
SEMA
Palpanas
D3M
Transformação de variáveis
M
M
M
M
M
Construção de variáveis
M
M
M
M
M
Documentação
sobre
as
variáveis
Identificação
das
variáveis
aposteriori
Homologação da visão completa
N
M
M
N
N
N
N
N
N
N
N
N
N
N
N
Utilização de conhecimento do
domínio Na fase de
transformação de variáveis
Utilização de conhecimento do
domínio - Na fase de avaliação
de desempenho
N
N
N
N
M
N
N
N
M
M
N – Não Aborda; M – Menciona; A – Aborda; PA – Parcialmente Aborda
Download