Introdução à Mineração de Dados (MT-803) - Imecc

Propaganda
Agenda
Apresentação dos Alunos + Docente
Introdução à
Mineração de Dados
(MT-803)
Formaç
Formação + Situaç
Situação Atual
Expectativas
Apresentação da Disciplina
Critérios de Avaliação
Programa
Dicas sobre revisão de artigos
Stanley Robson de Medeiros Oliveira
Professor Colaborador
Breve Introdução à Mineração de Dados
IMECC – 1o. Semestre de 2012
MT-803: Introdução à Mineração de Dados – Aula 1
Informações Gerais
Metodologia
Professor Responsável: Laecio Barros.
Aulas teóricas expositivas.
Professor Credenciado: Stanley Robson de
Medeiros Oliveira.
Discussões em sala de aula.
Atividades em sala de aula.
Carga Horária Semestral: 60 horas
Aulas práticas em laboratório.
Número de Créditos: 12
MT-803: Introdução à Mineração de Dados – Aula 1
2
Apresentação de estudos de caso.
3
MT-803: Introdução à Mineração de Dados – Aula 1
4
Sobre o professor
Critérios de Avaliação
Formação
Frequência: Indispensável.
Graduação – Ciência da Computação (UFCG – 1990).
Horário das aulas: Sextas das 17:00 às 20:00h.
Mestrado – Ciência da Computação (UFCG – 1996).
Exercícios (15%):
Doutorado – Mineração de Dados (Universidade de
Alberta, Canadá – 2004).
Revisões de artigos – pelo menos 2 artigos p/ aluno.
Listas de Exercícios (individual).
Atuação Profissional
Tarefa especial (15%).
Desenvolvedor (Embrapa).
Analista de Sistemas (Embrapa).
Avaliação:
Pesquisador (Embrapa).
Prova em Sala de Aula (40%).
Docência (ITI/EEP, IPEP, IBTA, Unicamp/Feagri).
MT-803: Introdução à Mineração de Dados – Aula 1
Trabalho de Conclusão (45%).
5
MT-803: Introdução à Mineração de Dados – Aula 1
Planejamento das Aulas
Planejamento das Aulas ...
Aula 1 – 09/03/2012
Aula 2
6
Aspectos relevantes na fase de preparação de dados.
Informações gerais sobre o curso:
Fatores críticos de sucesso para mineração de dados.
Ementa, metodologia, avaliação dos alunos.
Caracterização e representação de dados.
Dicas sobre como revisar e apresentar artigos
científicos.
Problemas relacionados à qualidade dos dados:
Valores faltantes, ruídos e redundância.
Exercício: Definição de um artigo para revisão.
Integração de dados de múltiplas fontes.
Transformação (normalização) de dados.
Abordagens para redução de dados:
Breve revisão sobre tarefas de mineração de
dados.
Agregação, amostragem, sintetização de dados.
MT-803: Introdução à Mineração de Dados – Aula 1
7
MT-803: Introdução à Mineração de Dados – Aula 1
8
Planejamento das Aulas ...
Planejamento das Aulas ...
Aula 3
Aula 4
Redução de Dimensionalidade:
Aula Prática – Laboratório – WEKA
Aspectos relevantes.
Projeção Aleatória, PCA, outros métodos.
Aula em laboratório cobrindo os tópicos sobre
preparação de dados já apresentados.
Métodos para Seleção de Atributos:
Força Bruta (Brute-Force);
Métodos Embedded;
Métodos Warppers;
Método baseado no teste do Qui-quadrado;
Método baseado na correlação de atributos (CFS).
Estudo de caso – comparação dos métodos acima.
MT-803: Introdução à Mineração de Dados – Aula 1
9
MT-803: Introdução à Mineração de Dados – Aula 1
Planejamento das Aulas ...
Planejamento das Aulas ...
Aula 5
Aula 6
Clusterização ou Agrupamentos de Dados:
Geração de Regras de Associação:
Conceitos básicos
Geração de regras de associação
O Algoritmo Apriori.
Efeitos da distribuição do suporte nos datasets.
Conceitos e aplicações
Tipos de dados em clusterização
Medidas de similaridade
Análise da qualidade de clusters gerados
Métodos de Clusterização:
particionamento
Métodos hierárquicos
Métodos baseados em densidade
Problemas na seleção de regras.
Medidas de interesse.
Exercício em aula.
MT-803: Introdução à Mineração de Dados – Aula 1
10
Outros métodos.
11
MT-803: Introdução à Mineração de Dados – Aula 1
12
Planejamento das Aulas ...
Planejamento das Aulas ...
Aula 7
Aula 8
Introdução à Aprendizagem de Máquina
Aula Prática – Laboratório – WEKA
O processo de classificação de dados.
Aula em laboratório cobrindo os tópicos sobre
regras de associação e clusterização.
Principais métodos de classificação.
Árvores de decisão.
Entropia e ganho de informação.
Principais algoritmos existentes (ID3, C4.5, CART).
Escolha do atributo “split”.
Mecanismos de poda .
MT-803: Introdução à Mineração de Dados – Aula 1
13
MT-803: Introdução à Mineração de Dados – Aula 1
Planejamento das Aulas ...
Planejamento das Aulas ...
Aula 9
Aula 10
Introdução à Aprendizagem de Máquina (continua)
O Algoritmo K-NN (vizinho mais próximo)
14
Aula Prática – Laboratório – WEKA
Aula em laboratório cobrindo os tópicos sobre:
O algoritmo Naïve Bayes.
Árvores de decisão,
Introdução às redes neurais artificiais.
RNA,
Classificador SVM (Support Vector Machine).
SVM,
Naïve Bayes,
K-NN.
MT-803: Introdução à Mineração de Dados – Aula 1
15
MT-803: Introdução à Mineração de Dados – Aula 1
16
Planejamento das Aulas ...
Planejamento das Aulas ...
Aula 11
Aula 12
Aprendizado com classes desbalanceadas:
Aula Prática – Laboratório – WEKA
O algoritmo k-vizinhos mais próximos;
Aula em laboratório cobrindo os tópicos sobre
aprendizado com classes desbalanceadas.
Principais métodos;
Precisão, taxa de erro e classes desbalanceadas;
Como descartar ou duplicar exemplos;
Tratamento para classes desbalanceadas.
MT-803: Introdução à Mineração de Dados – Aula 1
17
MT-803: Introdução à Mineração de Dados – Aula 1
Planejamento das Aulas ...
Planejamento das Aulas ...
Aula 13
Aula 14
Prova em sala de aula
Apresentação oral dos trabalhos finais;
Assunto: todo o conteúdo sobre preparação de
dados apresentado.
Entrega de relatórios com resultados (artigo).
18
Aula 15
A prova é Individual e SEM Consulta.
Apresentação oral dos trabalhos finais;
Não é permitido o empréstimo de qualquer
material.
Entrega de relatórios com resultados (artigo).
Usar caneta azul ou preta.
MT-803: Introdução à Mineração de Dados – Aula 1
19
MT-803: Introdução à Mineração de Dados – Aula 1
20
Disponibilização do Material Didático
Bibliografia
FAYYAD, U., HAUSSLER, D. & STOLORZ, P., Mining Scientific Data,
Communications of the ACM, Nov. 1996, Vol. 39, No. 11, 1996, Pages 51-57.
HAN, J. & KAMBER, M. Data Mining: Concepts and Techniques, 2nd edition,
Morgan Kaufmann, 2006.
HAND, D. J.; MANNILA, H. & SMYTH, P. Principles of Data Mining, The MIT Press,
2001.
LIU, H.; MOTODA, H. Computational Methods of Feature Selection,
Chapman & Hall/CRC, 2008. 419p.
MARDIA, K.V.; KENT, J.T. & BIBBY, J.M. Multivariate Analysis, Academic Press,
1979.
PIATETSKI-SHAPIRO, G. & FRAWLEY, W.J., Knowledge Discovery in Databases.
AAAI Press, Menlo Park, California, 1991.
PYLE, D., Data Preparation for Data Mining, Morgan Kaufmann, 1999.
REZENDE, S. O., Sistemas Inteligentes, Manole, 2003.
TAN, Pang-Ning; STEINBACH, Michael; KUMAR, Vipin. Introduction to Data
Mining. Addison Wesley, 2006. 769p.
http://www.teleduc.imecc.unicamp.br/~teleduc
WITTEN, I.H. & FRANK, E., Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations, Morgan Kaufmann, 2011.
MT-803: Introdução à Mineração de Dados – Aula 1
21
MT-803: Introdução à Mineração de Dados – Aula 1
22
Critérios para avaliar uma revisão
Dicas sobre
Revisão de Artigos
Entendimento:
Compreensão sobre o problema de pesquisa e sua
solução;
Identificação dos pontos fracos e fortes do artigo;
Apresentação de críticas pessoais sobre os pontos
analisados.
Relevância:
Tente identificar algum relacionamento entre o artigo
revisado com outros artigos relacionados (citados ou
não no artigo revisado).
MT-803: Introdução à Mineração de Dados – Aula 1
24
Critérios para avaliar uma revisão
Respostas:
Detalhes importantes
Comece lendo o resumo; depois vá para as
conclusões.
Procure mencionar o problema e sua solução
com as suas próprias palavras.
Em seguida, leia a introdução e demais seções.
Descreva os principais pontos do artigo sem
detalhes desnecessários.
A introdução deveria conter:
Suas respostas devem ser claras e precisas.
O problema de pesquisa e sua solução;
As principais contribuições do artigo;
Um mapa (roteiro) das seções do artigo.
MT-803: Introdução à Mineração de Dados – Aula 1
25
MT-803: Introdução à Mineração de Dados – Aula 1
Detalhes importantes
Questões a serem respondidas
Em geral, as conclusões ressaltam:
1. Qual é o problema que está sendo abordado?
A solução do problema de pesquisa (de
forma sucinta);
26
2. Como os autores solucionaram o problema?
3. Quais são as diferenças entre o artigo que está
sendo revisado com os trabalhos relacionados?
As contribuições do artigo;
4. Quais são as principais contribuições do artigo?
Os principais resultados alcançados;
5. Quais são os pontos fracos e fortes do artigo?
Trabalhos futuros.
6. Como os autores poderiam melhorar o conteúdo e
a apresentação do artigo?
7. Qual seria o público alvo para o artigo revisado?
MT-803: Introdução à Mineração de Dados – Aula 1
27
MT-803: Introdução à Mineração de Dados – Aula 1
28
Próximos Passos
Introdução à Mineração
de dados
Revisar o artigo abaixo:
Gustavo E. A. P. A. Batista; Ronaldo C. Prati; Maria
Carolina Monard. A Study of the Behavior of Several
Methods for Balancing Machine Learning Training
Data. SIGKDD Explorations, 6(1):20-29, 2004.
Importante:
Entregar a revisão até a próxima aula;
Será dado um “feedback” a todos os alunos;
Conhecimento
Essa revisão não terá nota. Servirá como exercício.
MT-803: Introdução à Mineração de Dados – Aula 1
29
O Problema da Explosão de Dados
O Problema da Explosão de Dados
Ponto de Vista Comercial
Informatização generalizada
Quantidades gigantescas de dados
são coletados e armazenados em
empresas, corporações, etc:
negócios, governos, pesquisas
Armazenamento
Dados de comércio eletrônico;
Dados de navegação na internet;
Dados de compras de clientes em
grandes lojas de departamentos,
supermercados;
Dados de transações bancárias, ou de
cartão de crédito.
maior capacidade, menor custo
Evolução da coleta de dados
Leitores de código de barras, Sensores, ...
MT-803: Introdução à Mineração de Dados – Aula 1
31
MT-803: Introdução à Mineração de Dados – Aula 1
32
O Problema da Explosão de Dados
Efeitos da Explosão de Dados
Ponto de Vista Científico: Medicina, Biologia, Engenharia
Dados coletados e armazenados
a velocidades enormes (GB/hora)
Sensores remotos em satélites;
A quantidade de informação é duplicada a cada
dois anos.
Muitas empresas usam apenas 7% dos dados
coletados.
Telescópios;
Somos ricos em dados e pobres em
informação e conhecimento.
Microarrays gerando dados de
expressões de genes;
Simulações científicas gerando terabytes
de dados.
Necessidade: técnicas para explorar grande
volume de dados e transformar esses dados em
conhecimento.
Técnicas tradicionais não apropriadas
para analisar tais dados:
ruídos e grande dimensionalidade.
MT-803: Introdução à Mineração de Dados – Aula 1
33
MT-803: Introdução à Mineração de Dados – Aula 1
34
Dado, Informação e Conhecimento
Efeitos da Explosão de Dados ...
Existem informações escondidas nos dados que não são
evidentes – muitos conjuntos de dados nunca são analisados.
operações lógicas
interpretações
Analistas levariam semanas para analisar parte desses dados.
Dados
4,000,000
Informação
Conhecimento
3,500,000
Dado é algo bruto; é a matéria-prima da qual podemos
extrair informação.
The Data Gap
3,000,000
2,500,000
2,000,000
1,500,000
Informação é o dado processado, com significado e
contexto bem definido.
Total new disk (TB) since 1995
1,000,000
Number of
analysts
500,000
Conhecimento é o uso inteligente da informação; é a
informação contextualizada e utilizada na prática.
0
1995
1996
1997
1998
1999
Fonte: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
MT-803: Introdução à Mineração de Dados – Aula 1
35
MT-803: Introdução à Mineração de Dados – Aula 1
36
O que é mineração de dados?
Diferentes pontos de vista
O processo da descoberta de novas
informações a partir de grandes massas de
dados.
Databases: Concentra-se em conjuntos de
dados gigantes (non-main-memory).
Descoberta de padrões não triviais, implícitos
e desconhecidos) em grandes bases de dados.
Processo de extração de modelos úteis de um
conjunto de dados.
MT-803: Introdução à Mineração de Dados – Aula 1
37
AI (machine-learning): concentra-se em
modelos complexos, mesmo que os conjuntos
de dados sejam pequenos.
Statistics: concentra-se em modelos.
MT-803: Introdução à Mineração de Dados – Aula 1
Modelos x Processamento Analítico
Mineração de Dados: Por que ?
Para um especialista em Banco de Dados,
data mining é uma forma de processamento
analítico – consultas que examinam grandes
quantidades de dados.
Técnicas de Mineração podem ajudar analistas:
O resultado é um conjunto de respostas (padrões,
sequências, regras, agrupamento de objetos, etc).
38
Entender e prever as necessidades de clientes;
Descobrir fraudes;
Descobrir perfis de comportamento de clientes.
Técnicas de Mineração podem ajudar cientistas:
Classificar e segmentar dados;
Para um estatístico, data mining é um
processo de inferência de modelos.
Formular hipóteses.
O resultado é uma lista de parâmetros do
modelo.
MT-803: Introdução à Mineração de Dados – Aula 1
39
MT-803: Introdução à Mineração de Dados – Aula 1
40
Consulta versus Mineração
Consulta e Resultado
O que é Mineração de Dados?
Cliente
Produto
Classe
Social
SELECT Clientes.Prod
FROM Clientes
WHERE Clientes. Faixa = ‘A’
Tempo
1
Vinho
A
T1
2
Açúcar
B
T2
1
Queijo
A
T1
3
Pão
C
T3
3
Leite
C
T3
1
Vinho
A
T4
1
Queijo
A
T4
4
Leite
C
T5
RESPOSTA: Vinho, Queijo
Que produtos são comprados por clientes Classe A ?
MT-803: Introdução à Mineração de Dados – Aula 1
41
Consulta versus Mineração
Cliente
Produto
Classe
Social
MT-803: Introdução à Mineração de Dados – Aula 1
42
Resultado da Mineração
Tempo
1
Vinho
A
T1
2
Açúcar
B
T2
1
Queijo
A
T1
3
Pão
C
T3
3
Leite
C
T3
1
Vinho
A
T4
1
Queijo
A
T4
4
Leite
C
T5
PADRÕES:
Classe A -> vinho, queijo
Classe C -> pão, leite
…
Existe ligação entre a classe social e produtos
comprados numa mesma transação ?
MT-803: Introdução à Mineração de Dados – Aula 1
43
MT-803: Introdução à Mineração de Dados – Aula 1
44
Mineração de Dados: O que é ?
Exemplos
Qual o perfil do cliente que consome mais ?
Sim
Não
1. Fazer uma
consulta no
Google sobre
“Data Mining ”.
1. Agrupar documentos
similares retornados pelo
Google de acordo com
seu contexto.
2. Procurar um
nome numa lista
telefônica.
2. Descobrir se certos
nomes aparecem com
mais frequência em
determinadas regiões da
cidade (periferia, centro,
bairros abastados,…)
3. Fazer uma
consulta SQL a
um banco de
dados.
MT-803: Introdução à Mineração de Dados – Aula 1
45
Mineração: Área Multidiciplinar
Que produtos são comprados conjuntamente ? E
em sequência ?
Meu site web tem uma boa estrutura ?
Como as chuvas, variação de temperatura,
aplicação de pesticidas afetam as colheitas ?
Existe uma relação entre o aquecimento global e a
frequência e intensidade das perturbações no
ecossistema tais como secas, furacões,
enchentes?
MT-803: Introdução à Mineração de Dados – Aula 1
46
Influência das Disciplinas
Aprendizado de Máquina (Inteligência Artificial)
Banco de
Dados
Estatística
Algoritmos de aprendizado indutivo
Estatística
Inteligência
Artificial
Mineração
de Dados
Visualização
Métodos de análise de dados
Seleção e amostragem de dados
Técnicas de avaliação do conhecimento
Banco de Dados
Otimização
Data Warehousing
Estruturas de dados e mecanismos de busca
Outras
Disciplinas
Visualização
Técnicas que estimulam a percepção e a inteligência
MT-803: Introdução à Mineração de Dados – Aula 1
47
MT-803: Introdução à Mineração de Dados – Aula 1
48
A descoberta do conhecimento
Pré-processamento: em muitos
casos pode consumir 60% ou
mais do tempo no processo
de descoberta de conhecimento
Estatística versus Mineração
Avaliação de Padrões
Mineração
Padrões
Especialista
Estatística
Mineração de Dados
Número de pontos a ser
analisado é pequeno
Número de pontos a ser
analisado é muito grande
É baseada em hipótese
(rejeita ou aceita)
É uma atividade
exploratória
Uma amostra dos dados é
suficiente
Quanto maior a quantidade
de dados, melhor.
Conhecimento
Seleção e
Transformação
Dados-Alvo
Limpeza e
Integração
Dados Integrados
Dados
MT-803: Introdução à Mineração de Dados – Aula 1
49
Principais Tarefas de Mineração
MT-803: Introdução à Mineração de Dados – Aula 1
50
Principais Tarefas de Mineração
Analista
MINERAÇÃO
DE DADOS
PREDIÇÃO
DESCRIÇÃO
Tarefas de Mineração de Dados
• Associação
Dados
Conhecimento
CLASSIFICAÇÃO
• Classificação
REGRESSÃO
ASSOCIAÇÃO
AGRUPAMENTO
• Clusterização (agrupamento)
MT-803: Introdução à Mineração de Dados – Aula 1
51
MT-803: Introdução à Mineração de Dados – Aula 1
52
Tarefas de Mineração de Dados
Tarefas de Mineração
Tarefas Preditivas
Tarefa
padrão.
Predizer o valor de um determinado atributo
baseado nos valores de outros atributos:
Classificação – Predição.
Regras de Associação;
Tarefas Descritivas
Análise de Sequências;
Derivar « padrões » : correlações, tendências,
anomalias, agrupamentos dentro de uma grande
massa de dados:
Regras de Associação – Padrões Sequenciais
– Agrupamentos – Anomalias.
MT-803: Introdução à Mineração de Dados – Aula 1
ato de descobrir um certo tipo de
Classificação;
Agrupamento;
Outliers, etc.
53
Tarefas versus Técnicas
MT-803: Introdução à Mineração de Dados – Aula 1
54
Classificação de Dados
A TAREFA consiste no ato de descobrir um certo
tipo de padrão, ou seja, que tipo de regularidades
temos interesse em encontrar.
É uma tarefa preditiva: define o valor de uma variável
desconhecida a partir de variáveis conhecidas.
Exemplo: um gasto exagerado de um cliente de cartão de
crédito, fora dos padrões usuais de seus gastos.
Passo 1: encontrar um modelo para o atributo alvo
como uma função dos valores dos outros atributos.
A TÉCNICA consiste na especificação de métodos
que garantam a descoberta de padrões que nos
interessam.
Passo 2: registros não conhecidos devem ser
associados à classe com a maior precisão possível.
Principais técnicas utilizadas:
Estatísticas, técnicas de aprendizado de máquina e técnicas
baseadas em crescimento-poda-validação.
MT-803: Introdução à Mineração de Dados – Aula 1
55
MT-803: Introdução à Mineração de Dados – Aula 1
56
Exemplo de árvore de decisão
O que é classificação? ...
Tid
Atrib1
Atrib2
Atrib3
1
Yes
Large
125K
No
2
No
Medium
100K
No
3
No
Small
70K
No
4
Yes
Medium
120K
No
algoritmo
Class
5
No
Large
95K
Yes
6
No
Medium
60K
No
7
Yes
Large
220K
No
8
No
Small
85K
Yes
9
No
Medium
75K
No
10
No
Small
90K
Yes
usado
Indução
Criação
do Modelo
10
Modelo
Conjunto de treinamento
Tid
Attrib1
11
No
Attrib2
Small
Attrib3
Aplicação
do Modelo
Class
55K
?
12
Yes
Medium
80K
?
13
Yes
Large
110K
?
14
No
Small
95K
?
15
No
Large
67K
?
Dedução
Tid Retorno Estado
Civil
Renda
Anual
Mentiu
1
Sim
Solteiro
125K
Nao
2
Nao
Casado
100K
Nao
3
Nao
Solteiro
70K
Nao
Sim
4
Sim
Casado
120K
Nao
NAO
5
Nao
Divorciado
95K
Sim
6
Nao
Casado
60K
Nao
7
Sim
Divorciado
220K
Nao
8
Nao
Solteiro
85K
Sim
9
Nao
Casado
75K
Nao
10
Nao
Solteiro
90K
Sim
Particionamento de Atributos
Retorno
Nao
EstCivil
Casado
Solteiro, Divorciado
Renda
< 80K
NAO
Conjunto de treinamento
NAO
> 80K
Sim
Modelo: árvore de decisão
10
Conjunto de Teste
MT-803: Introdução à Mineração de Dados – Aula 1
57
Aplicando o conjunto de teste ao
modelo
Retorno Estado
Civil
Nao
Retorno
Sim
Casado
Conjunto de teste
Renda
Anual Mentiu
80K
Retorno Estado
Civil
?
Nao
Retorno
10
Nao
NAO
Sim
Casado
Renda
< 80K
NAO
Renda
MT-803: Introdução à Mineração de Dados – Aula 1
< 80K
Pode haver mais de uma árvore para o
mesmo conjunto de dados!
59
?
EstCivil
NAO
Sim
80K
10
Casado
Solteiro, Divorciado
> 80K
Casado
Renda
Anual Mentiu
Nao
NAO
EstCivil
Solteiro, Divorciado
58
Aplicando o conjunto de teste ao
modelo
Conjunto de teste
Início na raiz da árvore
MT-803: Introdução à Mineração de Dados – Aula 1
NAO
NAO
> 80K
SIM
MT-803: Introdução à Mineração de Dados – Aula 1
60
Aplicando o conjunto de teste ao
modelo
Aplicando o conjunto de teste ao
modelo
Conjunto de teste
Retorno Estado
Civil
Nao
Retorno
80K
Retorno Estado
Civil
?
Nao
Retorno
10
Sim
Nao
NA
EstCivil
Yes
Casado
Renda
Renda
< 80K
61
Aplicando o conjunto de teste ao
modelo
Nao
Sim
Casado
Conjunto de teste
80K
?
Nao
Retorno
Sim
NAO
MT-803: Introdução à Mineração de Dados – Aula 1
Renda
< 80K
NAO
63
?
EstCivil
NAO
SIM
80K
10
Casado
Solteiro, Divorciado
> 80K
Casado
Renda
Anual Mentiu
Nao
NAO
Casado
Solteiro, Divorciado
62
Retorno Estado
Civil
EstCivil
< 80K
MT-803: Introdução à Mineração de Dados – Aula 1
10
Renda
YES
Renda
Anual Mentiu
Nao
NAO
NAO
Aplicando o conjunto de teste ao
modelo
Conjunto de teste
Retorno Estado
Civil
Retorno
Casado
> 80K
NAO
MT-803: Introdução à Mineração de Dados – Aula 1
?
EstCivil
NAO
SIM
NAO
80K
10
Solteiro, Divorciado
> 80K
Casado
Renda
Anual Mentiu
Nao
NAO
Solteiro, Divorciado
< 80K
Casado
Conjunto de teste
Renda
Anual Mentiu
Associa “Nao” para o
atributo Mentiu
NAO
> 80K
SIM
MT-803: Introdução à Mineração de Dados – Aula 1
64
Exemplo de Classificação
Classificação: Aplicações
DADOS
Avaliação de concessão de créditos;
Detecção de fraudes;
Diagnósticos médicos;
Sistema de alerta de geada;
Previsão de mortalidade de frangos;
Agrupamento de família de proteínas;
etc.
MT-803: Introdução à Mineração de Dados – Aula 1
Registros de venda de automóveis das
concessionárias de uma determinada marca.
CONHECIMENTO DESCOBERTO
SE (tipo = pick–up) E (sexo = M) E (idade < 28)
ENTÃO (acessórios = completo) (85%)
DECISÃO
Lançar novo modelo de pick-up com jogo completo
de acessórios e cores atrativas a jovens do sexo
masculino.
65
A descoberta do conhecimento ...
MT-803: Introdução à Mineração de Dados – Aula 1
66
Perguntas sobre Classificação
1. Considerando que o conjunto de teste é
formado, em geral, por 33% das amostras no
banco de dados, o que aconteceria se esse
conjunto fosse reduzido para 5%?
Característica de padrões interessantes:
Novos: os padrões descobertos devem possuir
um certo grau de novidade.
2. Qual é a grande vantagem da árvore de
decisão em relação às outras abordagens
(Redes Neurais, Naïve Bayes, etc)?
Úteis: os padrões descobertos devem ter
potencial de conduzir a ações com utilidade.
Compreensíveis: padrões compreensíveis pelos
humanos é um objetivo (simplicidade).
Padrões interessantes representam CONHECIMENTO
MT-803: Introdução à Mineração de Dados – Aula 1
67
MT-803: Introdução à Mineração de Dados – Aula 1
68
Regras de Associação
Associação: Aplicações
Estuda o relacionamento entre itens de dados
que ocorrem com uma certa freqüência.
Associação de produtos em um processo de
compra.
É uma tarefa descritiva: identifica padrões em
dados históricos.
Elaboração de catálogos de produtos.
Layout de prateleiras (produtos relacionados
tendem a ser colocados perto nas prateleiras);
Análise de seqüências de DNA;
Análise de Web log (click stream), etc.
MT-803: Introdução à Mineração de Dados – Aula 1
69
MT-803: Introdução à Mineração de Dados – Aula 1
Exemplo de Associação
Exercícios sobre Associação
Considere um cadastro de 500.000 clientes de uma
loja de roupas.
Através do uso de mineração foi descoberto:
Como essa descoberta seria útil para essa loja?
Uma campanha de marketing poderia ser direcionada para
esses clientes objetivando o aumento de consumo de
produtos infantis.
Importante: inicialmente não foi elaborada uma
consulta para identificar clientes com esses perfis.
MT-803: Introdução à Mineração de Dados – Aula 1
71
Considere o conjunto de transações, abaixo, para uma
locadora de filmes:
TID
T1
T2
T3
T4
T5
7% dos clientes são casados;
Esses clientes estão na faixa etária de 31 a 40 anos; e
Possuem pelo menos 2 filhos.
1.
2.
70
Lista de Filmes
A, B, C, D, F, H, I, J, R
A, C, D, P, Q
C, P, Q
B, C, H, I, J
A, D, R, J
Existem padrões de consumo? Quais?
Com base em um padrão de consumo, dê um exemplo
de uma recomendação, isto é, uma oferta que a
locadora poderia sugerir para os seus clientes.
MT-803: Introdução à Mineração de Dados – Aula 1
72
Clusterização ou Agrupamento
Clusterização: Aplicações
Marketing: Segmentação de mercado;
É também considerada uma tarefa descritiva.
Clusterização
Medicina: Agrupamento de pacientes com
sintomas semelhantes;
Agrupamento de conjuntos de dados em clusters.
Bioinformática: Agrupamento de famílias de
proteínas.
Cluster: uma coleção de objetos
Similares aos objetos do mesmo cluster.
Seguro: Identifica grupos de clientes que fazem
comunicação de sinistro com alta freqüência.
Dissimilares aos objetos de outros clusters.
Clusterização é uma classificação não
supervisionada - sem classes predefinidas.
MT-803: Introdução à Mineração de Dados – Aula 1
Web: Agrupamento de documentos.
73
MT-803: Introdução à Mineração de Dados – Aula 1
74
Principais softwares para Mineração
Exercícios sobre Clusterização
1. Como um analista de dados poderia
transformar um problema de séries
temporais curtas em um problema de
clusterização?
2. Por que clusterização é considerada uma
tarefa não-supervisionada?
MT-803: Introdução à Mineração de Dados – Aula 1
75
MT-803: Introdução à Mineração de Dados – Aula 1
76
Exercícios
Exercícios ...
3.
1.
Qual é a diferença básica entre classificação e
clusterização?
2.
Complete a tabela a seguir:
Aplicação
Considere o conjunto de dados abaixo sobre eficiência de canade-açúcar em São Paulo (em 2002). Dê exemplo de um tipo de
informação e de conhecimento que pode ser extraído desses
dados.
Tarefa de Mineração
Detecção de fraudes
Segmentação de mercado
Análise de sequências de DNA
Segmentar clientes em um banco
Layout de prateleiras
Diagnósticos médicos
Perfil de compra de clientes
Avaliação de riscos de empréstimos
MT-803: Introdução à Mineração de Dados – Aula 1
77
MT-803: Introdução à Mineração de Dados – Aula 1
78
Download