PCC142 / BCC444 - Mineração de Dados Luiz - DECOM-UFOP

Propaganda
Roteiro
PCC142 / BCC444 - Mineração de Dados
Introdução
Luiz Henrique de Campos Merschmann
Departamento de Computação
Tarefas e Técnicas em Mineração de Dados
Universidade Federal de Ouro Preto
[email protected]
www.decom.ufop.br/luiz
Aplicações
Softwares
Introdução
Surgimento da Mineração de Dados
A disseminação do uso de meios eletrônicos na sociedade
moderna tem gerado uma enorme quantidade de dados.
I Uso de SGBDs na maioria das organizações públicas e
privadas de médio e grande porte.
I Avanços na aquisição de dados, desde os leitores de códigos
de barra até sistemas de sensoriamento remoto.
Cenário
SQL e Mineração de Dados
I Bancos de dados relacionais são responsáveis por armazenar
e recuperar dados de forma eciente.
I Esses bancos de dados permitem a extração de diversas
informações usando SQL.
I Então para que serve a Mineração de Dados?
I
I
Usando SQL: esse processo resolve questões que
necessariamente devem ser denidas.
Mineração de Dados: a descoberta de novas informações é
automática, ou seja, sem que seja necessária a formulação
de uma questão.
Mineração de Dados
Mineração de Dados
O que é Mineração de Dados?
É o processo automático de descoberta de novas informações e
conhecimento, úteis a uma aplicação, no formato de regras e
padrões, escondidas em grandes volumes de dados.
Onde ocorre?
Este processo é executado sobre grandes quantidades de dados,
estejam esses armazenados em bancos de dados tradicionais, em
data warehouse ou em outra forma de repositório.
Processo de Descoberta de Conhecimento em Bases de Dados
5
4
Conhecimento
3
Regras e
Padrões
2
Dados
Dados
Transformados
Pré-processados
1
Dados
Selecionados
Dados
Fonte: “From data mining to knowledge discovery: An overview”,
U.M.Fayyad et. al., 1996.
Seleção: dados que serão relevantes para análise são
selecionados. Limpeza: remoção de ruídos e dados
inconsistentes. Transformação: dados são transformados para
carem adequados para etapa de mineração. Mineração:
processo de extração de novas informações. Interpretação e
Avaliação: interpretação e identicação dos padrões
interessantes.
Tarefas e Técnicas em Mineração de Dados
Principais Tarefas de Mineração de Dados
Mineração de Dados
O processo de mineração de dados envolve o uso de diversas
Tarefas Preditivas
Tarefas Descritivas
tarefas e técnicas.
I Tarefas: são classes de problemas.
Agrupamento
(Segmentação)
Classificação
I Técnicas: são os algoritmos utilizados na resolução dos
Regressão
Padrões de
Seqüência
Associação
problemas propostos nas tarefas.
Sumarização
Tarefas em Mineração de Dados
Mineração de Dados Direta
Entrada
I Tarefas Preditivas: do conhecimento adquirido a partir de
um conjunto de dados, fazemos predições para novas
amostras.
Modelo
Exemplo: Se acontecer uma determinada composição de
medidas climáticas, então existe 70% de chover.
I Tarefas Descritivas: buscam identicar padrões de
Dados
Mineração do Modelo
comportamento comuns nos dados.
Exemplo: Fralda
→
Cerveja.
Informação
Mineração de Dados Direta
Mineração de Dados Indireta
I Através de uma técnica de mineração, extrai-se ou treina-se
um modelo que será posteriormente utilizado.
I Principais tarefas: classicação e regressão.
Dados
Who will go bankrupt ?
Mineração da Informação /
Utilização do Modelo
Informação
I Mineração caracterizada pela existências de um campo
especíco (atributo meta) cujo valor deve ser estimado a
partir dos valores dos demais atributos.
Informação
Interpretada
Interpretação
Mineração de Dados Indireta
I Através de uma técnica de mineração, extraem-se padrões
signicativos que serão posteriormente avaliados.
I Principais tarefas: extração de regras de associação,
agrupamento.
Tell me something interesting?
I O resultado da mineração complementa o conhecimento do
especialista e deverá ser examinado e avaliado por este.
Mineração de Associações
I Identicação de itens de um mesmo domínio de aplicação
que ocorrem juntos com determinada freqüência na base de
dados.
I Exemplo: Market Basket Analysis
→
identicação de
produtos que são comprados juntos em um número
signicativo de transações de compras.
Regras de Associação Booleanas
Regras de Associação Quantitativas
I São utilizadas quando se deseja minerar padrões em bases
I Uma regra de associação representa um padrão de
relacionamento entre itens de dados do domínio da
de dados relacionais (formadas por atributos quantitativos
e atributos categóricos).
aplicação que ocorre com uma determinada freqüência na
Atributos Categóricos
base de dados (transacional).
Id-Transação (TID)
Itens Comprados
1
leite, pão, refrigerante
Id
2
cerveja, carne
3
cerveja, fralda, leite, refrigerante
4
cerveja, fralda, leite, pão
5
fralda, leite, refrigerante
I Exemplos de regras: fralda
→
cerveja, fralda
→
Sexo
I Exemplo: (sexo=M)
advogado)
leite
→
Atributos Quantitativos
Profissão
∧
Salário
Idade
(20 < idade < 30)
∧
...
(prossão =
(compra=SIM)
Esta regra indica, com certo grau de certeza, que
advogados, entre 20 e 30 anos, do sexo masculino são
consumidores de laptops.
Padrões Sequenciais
Agrupamento (Segmentação)
I Agrupamento (segmentação) é o processo de identicação
I Padrões de sequências representam sequências de conjuntos
de itens que ocorrem nas transações de diferentes
consumidores, com determinada frequência (na ordem
especicada).
de um conjunto nito de categorias (ou grupos - clusters ),
não previamente denidos, que contêm objetos similares.
I Exemplo: Deseja-se separar os clientes em grupos de forma
que aqueles que apresentam o mesmo comportamento de
consumo quem no mesmo grupo.
Consumidor
Data/Hora
Produtos
João
João
João
Marcos
Marcos
01.08.2001/17:01
03.08.2001/14:25
10.08.2001/21:15
05.08.2001/10:16
08.08.2001/18:30
leite, pão
carne, cerveja
queijo, manteiga, sal
leite, ovos
queijo, manteiga
Cada tupla deste
exemplo indica a
quantidade total de
produtos consumidos e
o preço médio destes
I Exemplo: (leite) (queijo, manteiga)
produtos relativos a
cada consumidor.
Consumidor
1
2
3
4
5
6
7
8
9
Qtd.Prods.
2
10
2
3
12
3
4
11
3
Preço Médio Prods.
1.700
1.800
100
2.000
2.100
200
2.300
2.040
150
Agrupamento (Segmentação)
Cons.
1
2
3
4
5
6
7
8
9
Qtd.
2
10
2
3
12
3
4
11
3
Grupo
$ Méd. Prods.
1.700
1.800
100
2.000
2.100
200
2.300
2.040
150
1
2
3
Classicação
Cons.
1
4
7
2
5
8
3
6
9
Qtd.
2
3
4
10
12
11
2
3
3
$ Méd. Prods.
1.700
2.000
2.300
1.800
2.100
2.040
100
200
150
I Identicação da classe a qual um elemento pertence a partir
de suas características. O conjunto de possíveis classes é
discreto e predenido.
I Exemplo: a partir das características de um indivíduo,
determinar a que classe social ele pertence.
Cada grupo identicado é caracterizado por
consumidores semelhantes em relação à
quantidade de produtos e ao preço médio dos
mesmos.
Classicação
ID
Salário
Idade
1
2
3
4
5
6
7
8
9
3.000
4.000
7.000
6.000
7.000
6.000
6.000
7.000
4.000
30
35
50
45
30
35
35
30
45
Regressão
Tipo Emprego
Autônomo
Indústria
Pesquisa
Autônomo
Pesquisa
Indústria
Autônomo
Autônomo
Indústria
Classe
B
B
C
C
B
B
A
A
B
Árvore de Decisão
Salário
≤ 5.000
treinamento, extrai-se o modelo de
classicação (p.ex., árvore de
I Estimativa do valor de um atributo de uma instância a
> 5.000
partir de suas características. O domínio deste atributo
deve ser numérico e contínuo.
B
Idade
≤ 40
I Exemplo: a partir das características de um imóvel,
> 40
C
T.Empr.
A partir de uma base de
decisão).
Conjunto de classes = {A, B, C, D, E}.
Ind.,Pesq.
B
Autônomo
A
determinar seu valor de venda ou aluguel.
Y = α + βX .
Aplicações
Softwares
I Weka: software de domínio público, desenvolvido (Java)
pela Universidade de Waikato, contém uma série de
Analisar tendências e encontrar padrões a partir de dados
históricos com o objetivo de prever ações futuras e apoiar
decisões pode ser um procedimento útil em diversas áreas, tais
como:
algoritmos de Data Mining (DM).
I Intelligent Miner: foi desenvolvido pela IBM. É uma
ferramenta de DM diretamente interligada com o banco de
dados DB2 da IBM.
I Marketing.
I Oracle Data Miner: desenvolvido pela Oracle,
I Finanças.
permitindo interligação direta com o banco de dados Oracle
I Saúde.
11g Enterprise Edition.
I Educação.
I Enterprise Miner: tradicionalmente utilizado na área de
negócios, marketing e inteligência competitiva.
I Segurança.
I Statistica Data Miner: acrescenta as facilidades de
mineração de dados ao tradicional pacote utilizado em
aplicações de estatística.
Perguntas?
FIM
Download