Data Mining - udesc

Propaganda
Universidade do Estado de Santa Catarina–UDESC
Centro de Ciências Tecnológicas – CCT
Engenharia de Produção e Sistemas
Gestão da Tecnologia e da Inovação (GTI)
DATA MINING
Profº Adalberto J. Tavares Vieira
DATA MINING
Mineração de dados ou Data Mining é o
processo de varrer grandes bases de dados
a procura de padrões como regras de
associação, sequências temporais, para
classificação de ítens ou agrupamento
(clustering). Esse é um tópico recente em
Ciência da computação mas utiliza várias
técnicas da Estatística, Recuperação de
informação,
Inteligência
artificial
e
reconhecimento de padrões.
DATA MINING
Mineração de dados é uma etapa de
um processo conhecido como extração
de conhecimento em bases de dados
ou Knowledge-Discovery in Databases
(KDD).
São exemplos de técnicas de
mineração de dados: regras de
associação,
clustering,
algoritmo
genético, árvores de decisão e outras.
DATA MINING
• OBJETIVOS:
- Identificar como a tecnologia de Data
Mining pode vir ajudar a obter informações
preciosas e relevantes de grandes bases de
dados;
- Inserir os principais conceitos para melhorar
a tomada de decisões nas empresas com
base em seus acervos de dados;
DATA MINING
Apresentar
os
conceitos,
técnicas,
ferramentas e aplicações de Data Mining;
- Mostrar como utilizar a tecnologia de Data
Mining no contexto de Business Intelligence
(BI);
- Capacitar os participantes para atuarem de
forma ativa em um projeto de Data Mining;
;
DATA MINING
- Apresentar exemplos de aplicações
de Data Mining para Market Basket
Analysis, Segmentação de Mercado,
Modelagem de Churn/Attrition, Credit
Scoring, Detecção de Fraude.
DATA MINING
PRINCIPAIS PASSOS DO PROCESSO:
1. Definição do Problema.
2. Identificar e obter os dados.
‫ ٭‬Análise de potenciais variáveis explicativas e
canalização de dados.
DATA MINING
3. Validar, explorar e limpar os dados.
‫ ٭‬Por melhores que “pareçam” os dados, os erros
estão sempre garantidos !
4. Transpor os dados para o nível de análise
pretendido.
‫ ٭‬A maior parte dos algoritmos de Data Mining tem
uma “visão” simplista dos dados: tabela onde cada
linha é um exemplo e cada coluna é atributo.
DATA MINING
5. Analisar a necessidade de incluir variáveis
derivadas.
6. Preparar o conjunto de dados.
7. Dividir os dados em conjunto de treino, validação e
teste.
8. Escolher o algoritmo de modelação.
DATA MINING
9. 9. Treinar o modelo usando o conjunto de treino.
◦ Validar o modelo usando o de validação.
◦ Acertar parâmetros e escolher melhor
modelo.
4. 10.Testar o modelo usando o conjunto de
5.
teste.
6. 11. Analisar os resultados.
Download