Slides - Sandra de Amo

Propaganda
Mineração de Dados
Profa. Sandra de Amo
Pós-Graduação em Ciência da Computação
Faculdade de Computação
Universidade Federal de Uberlândia
Contexto e Motivação
 Mineração de dados: Por que ? O que é ?
 O processo de descoberta de
conhecimento
 Tarefas de mineração: preditivas,
descritivas
31/05/2017
Mestrado em Ciencia da Computacao 2008
2
Mineração de Dados: Por que ?
Ponto de Vista Comercial
 Quantidades gigantescas de dados são
coletados e armazenados em
empresas, corporações, etc
 Dados de comércio eletrônico,
 Dados de navegação na internet
 Dados de compras de clientes em grandes
lojas de departamentos, supermercados,
 Dados de transações bancárias, ou de
cartão de crédito
 Computadores mais baratos e mais
potentes
 Pressão da Competição
31/05/2017
Mestrado em Ciencia da Computacao 2008
3
Mineração de Dados: Por que ?
Ponto de Vista Cientifico : Medicina, Biologia, Engenharia
 Dados coletados e armazenados
a velocidades enormes (GB/hora)
 Sensores remotos em satélites
 Telescópios
 Microarrays gerando dados de
expressões de genes
 Simulações científicas gerando terabytes
de dados.
 Técnicas tradicionais não
apropriadas para analisar tais dados:
 ruídos e grande dimensionalidade
31/05/2017
Mestrado em Ciencia da Computacao 2008
4
Mineração de Dados - Por que ?
 Frequentemente existe informação “escondida” nos
dados que não é evidente de ser encontrada
utilizando linguagens de consultas tradicionais.
 Analistas humanos podem levar semanas para
correlacionar e descobrir alguma informação útil
dentro de uma grande massa de dados.
 Boa parte dos dados nunca é analisado: “cemitério”
de dados.
31/05/2017
Mestrado em Ciencia da Computacao 2008
5
Mineração de Dados: Por que ?
 Técnicas de Mineração podem ajudar analistas:
 Entender e prever as necessidades dos clientes
 Descobrir fraudes
 Descobrir perfis de comportamento de clientes
 Técnicas de Mineração podem ajudar cientistas:
 Classificar e segmentar dados
 Formular hipóteses
31/05/2017
Mestrado em Ciencia da Computacao 2008
6
Mineração de Dados: O que é ?
 Não
 Sim
1. Fazer uma
1. Agrupar documentos
consulta no
similares retornados pelo
Google sobre
Google
de
acordo
com
“Data Mining ”
seu contexto.
2. Procurar um
nome numa lista2. Descobrir se certos
telefônica
nomes aparecem com
3. Fazer uma
consulta SQL a
um banco de
dados.
31/05/2017
mais frequência em
determinadas regiões da
cidade (periferia, centro,
bairros abastados,…)
Mestrado em Ciencia da Computacao 2008
7
Exemplos
 Qual o perfil do cliente que consome mais ?
 Que produtos são comprados conjuntamente ?
E em sequência ?
 Meu site web tem uma boa estrutura ?
 Como as chuvas, variação de temperatura,
aplicação de pesticidas afetam as colheitas ?
 Existe uma relação entre o aquecimento global
e a frequência e intensidade das perturbações
no ecossistema tais como secas, furacões,
enchentes ?
31/05/2017
Mestrado em Ciencia da Computacao 2008
8
Etapas do Processo de KDD
Limpeza dos Dados
Integração dos Dados
Seleção
Transformação
Mineração
Avaliação ou Pós-Processamento
Visualização dos Resultados
31/05/2017
Mestrado em Ciencia da Computacao 2008
9
Análise do
Mineração: Etapa central
Resultado
do processo de
Descoberta de
Conhecimento
Mineração
Dados Relevantes
Data Warehouse
Seleção
Limpeza
Integração dos Dados
31/05/2017
Banco de
Dados
Mestrado em Ciencia da Computacao 2008
10
Tarefas de Mineração
Tarefa
ato de descobrir um certo tipo de
padrão
Regras de Associação
Análise de Sequências
Classificação
Agrupamento
Outliers
31/05/2017
Mestrado em Ciencia da Computacao 2008
11
Tarefas de Mineração de Dados
 Tarefas Preditivas
 predizer o valor de um determinado atributo
baseado nos valores de outros atributos
Classificação – Predição
 Tarefas Descritivas
 Derivar « padrões » : correlações,
tendências, anomalias, agrupamentos dentro
de uma grande massa de dados.
Regras de Associação – Padrões
Sequenciais – Agrupamentos - Anomalias
31/05/2017
Mestrado em Ciencia da Computacao 2008
12
Técnicas de Mineração
 Técnicas Estatísticas
 Técnicas de Inteligência Artificial
 Técnicas de Gerenciamento Eficiente de
Grandes Volumes de Dados
O que é Mineração ?
Mineração de Dados
Descoberta de Conhecimento (KDD)
KDD = Knowledge Discovery in Databases
31/05/2017
Mestrado em Ciencia da Computacao 2008
14
Sistemas de Mineração
Intelligent Miner (IBM)
DBMiner
Enterprise Miner
Clementine
MineSet
Genamics Expressions
31/05/2017
Mestrado em Ciencia da Computacao 2008
15
Tópicos Atuais
Mineração de Preferências
Sistemas de Recomendação
Consulta
 Quais os pacotes
turísticos de menos de
15 dias que você pode
me propor em 2011 ?
Resposta
Minhas Preferências ...
 Prefiro estadias mais curtas (menos de duas
semanas) do que estadias longas (de duas
semanas ou mais).
 Prefiro viajar durante as férias de verão.
 Para estadias curtas prefiro aquelas nas grandes
cidades, pois gosto de ir a museus, bons restaurantes e
shows.
 Para minhas viagens durante as férias de verão, prefiro
viajar para a praia, caso eu viaje com a família. Caso
eu viajo sozinho, je prefiro ir para uma cidade histórica.
Problemas a resolver
1. Como modelar as preferências do
usuário ? Usar regras ? Usar
scores ?
2. Como obter as preferências do usuário ?
3. Como utilizar as
preferências do usuário
para “personalizar”
as respostas ?
4. Como utilizar as
preferências do usuário
para “recomendar” produtos
(filmes, livros, notícias, pacotes
turísticos,...) aos usuários ?
1) Como modelizar preferências
Conjunto de regras
Regras
SE a viagem é durante minhas férias de verão e eu vou viajar
com minha família ENTÃO eu prefiro ir para uma praia do que
para uma cidade histórica.
SE a viagem é durante minhas férias de verão e eu vou viajar
sozinho ENTÃO eu prefiro ir para uma cidade histórica do
que para uma praia.
2) Como obter as preferências do
usuário ?
 Perguntar ao usuário ?
 Mostrar algumas respostas e pedir um
feedback do usuário se gostou ou não ?
 Utilizar métodos automáticos ?
Mineração de Preferências
3) Como colher as amostras de
preferências do usuário
 Sistema de Amostragem de NOTAS
(scores)
 Sistema de Amostragem de Pares
 Sistema de Amostragem de Listas
31/05/2017
Mestrado em Ciencia da Computacao 2008
22
Exemplo
Internet Movie Database
Dados Coletados
Pequena amostragem de filmes classificados por
um usuário
ID
Genero
Diretor
Ano
Ator
Nota
1
comedy
Woody Allen
80
Charlotte Rampling
8
2
comedy
Woody Allen
80
Mia Farrow
7
3
romance
Joel Coen
80
Charlote Rampling
7
4
drama
Woody Allen
70
Charlote Rampling
5
5
comedy
Woody Allen
80
Mia Farrow
3
6
romance
Joel Coen
70
Charlote Rampling
6
7
comedy
Woody Allen
80
Mia Farrow
3
ID
Genero
Directo
Ano
Ator
Nota
1
comedy
Woody Allen
80
Charlotte Rampling
7
2
comedy
Woody Allen
80
Mia Farrow
6
3
romance
Joel Coen
80
Charlote Rampling
?
4
drama
Woody Allen
70
Charlote Rampling
4
5
comedy
Woody Allen
80
Mia Farrow
?
6
romance
Joel Coen
70
Charlote Rampling
5
7
comedy
Woody Allen
80
Mia Farrow
3
Comparando dois filmes pela nota dada ...
I
Genre
Director
ANO
Actor
ID
Genre
Director'
ANO
Actor
Pref
1
comedy
W Allen
80
C.Rampling
2
comedy
W. Allen
80
Mia Farrow
1
1
comedy
W.Allen
80
C.Rampling
4
drama
W.Allen
70
C.Rampling
1
1
comedy
W. Allen
80
C.Rampling
6
romanc
Joel Coen
70
C.Rampling
1
1
comedy
W.Allen
80
C.Rampling
7
comedy
W.Allen
80
Mia Farrow
1
2
comedy
W.Allen
80
Mia Farrow
4
drama
W.Allen
70
C.Rampling
1
2
comedy
W.Allen
80
Mia Farrow
6
romanc
Joel Coen
70
C.Rampling
1
2
comedy
W. Allen
80
Mia Farrow
7
comedy
W. Allen
80
Mia Farrow
1
4
drama
W.Allen
70
C. Rampling
6
romanc
Joel Coen
70
C.Rampling
0
4
drama
W.Allen
70
C.Rampling
7
comedy
W.Allen
80
Mia Farrow
1
6
romanc
J.Coen
70
C.Rampling
7
comedy
W.Allen
80
Mia Farrow
1
I
GEN
Diretor
ANO
1
come
d
y
Woody
Allen
80
1
come
d
y
Woody
Allen
80
2
come
d
y
Woody
Allen
80
2
come
d
y
Woody
Allen
80
4
dram
a
Woody
Allen
70
4
dram
a
Woody
Allen
6
roma
n
c
e
6
roma
n
c
e
Ator
ID'
GE'
Diretor'
ANO
Charlotte
Rampling
3
romance
Joel Coen
80
Charlotte
Rampling
5
comedy
Woody
Allen
80
Mia Farrow
3
romance
Joel Coen
80
Mia Farrow
5
comedy
Woody
Allen
80
Charlote
Rampling
3
romance
Joel Coen
80
70
Charlote
Rampling
5
comedy
Woody
Allen
80
Joel Coen
70
Charlote
Rampling
3
romance
Joel Coen
80
Joel Coen
70
Charlote
Rampling
5
comedy
Woody
Allen
80
Ator'
Pref
D
Charlote
Ramplin
g
Mia Farrow
Charlote
Ramplin
g
Mia Farrow
Charlote
Ramplin
g
Mia Farrow
Charlote
Ramplin
g
Mia Farrow
?
?
?
?
?
?
?
?
Temas de Pesquisa
 Como “descobrir” as preferências de um usuário
a partir de uma amostra de preferências
capturada na internet ?
 Como “descobrir” as preferências comuns a um
perfil de usuários ?
 Como utilizar este conhecimento para
recomendar produtos para um novo usuário ?
Mineração de Preferências
Pesquisa desenvolvidas no Grupo
 CprefMiner (tese de Mestrado)
 Otimização de Cprefminer (tese de Mestrado)
 Uso de Cprefminer no desenvolvimento de um
Sistema de recomendação (tese de Mestrado)
 FPSMining e IncFPSMining: Mineração de
Preferências em Data streams (tese de
Mestrado).
 ProfMiner (em colaboração com pesquisadores
da Université de Tours (França)
Pesquisa em Desenvolvimento
 Sistemas de Recomendação Sociais Dinâmicos
(Tese de Doutorado)
 Sistema de Recomendação para Imagens (tese
de Mestrado)
Tarefas
 Livro Introduction to Data Mining
 Capitulo 2: Data
 Capitulo 3: Exploring Data
 Entrega de Exercicios no dia 14 de Abril
 Exercicios 16, 17, 19 e 20, Capitulo 2
 Exercicios 5, 16 e 17, Capitulo 3.
Download