Classificação dos Padrões

Propaganda
KDD + IA
Técnicas de IA em
Descoberta de Conhecimento em
Bancos de Dados
set/2002
1
KDD: Motivação
• aumento do volume de dados
• ineficiência da análise manual
• necessidade de novas teorias e ferramentas para
auxílio na extração de conhecimento do crescente
volume de dados digitais
set/2002
2
KDD: Definição
Processo não trivial de identificar padrões
que sejam válidos, novos, potencialmente úteis e
inteligíveis, em dados.
CONHECIMENTO
set/2002
3
KDD: Objetivos
1. Verificação (hipótese do usuário)
2. Descoberta (novos padrões)
- previsão
- descrição
set/2002
4
Classificação dos Padrões
1. Regra de Associação
- regras na forma: A1...  AnB1 ... Bm (atributos)
- redes de dependência de probabilidade
ID Transação
2
1
4
5
Itens
A,B,C
A,C
A,D
B,E,F
Itens A e C: A  C (50%, 66.6%)
suporte: P(A e C) = 50%
Grau de Interesse
confiança: P(C|A) = 66.6%
set/2002
5
Classificação dos Padrões
2. Regra de Classificação
- classificação de um conjunto de dados baseado nos
valores de um atributo (atributo classificador)
- árvores de decisão - aprendizado de máquina
- redes neurais
set/2002
6
Classificação dos Padrões
3. Agrupamento
- agrupa um conjunto de dados (sem um determinado
atributo)
- similaridade intraclasse x extraclasse
4. Detecção de mudança/desvio
- evolução do comportamento de um conjunto de dados
set/2002
7
Classificação dos Padrões
5. Regras de Generalização
- sintetizar características gerais de um conjunto de
dados ex: média e desvio padrão
- visão de alto nível de um conjunto de dados
Cod Barra
2
1
4
5
7
set/2002
Marca Categoria
A
Leite Integral
C
Pão Integral
F
Leite Desnatado
E
Pão Branco
B
Leite Integral
Tamanho ...
1 litro
300 gr
1 litro
300 gr
1/2 litro
8
Classificação dos Padrões
Alimentos
pão
leite
desnatado
A
integral
integral branco
B
- Indução orientada a atributos (utiliza hierarquia da
conceitos)
set/2002
9
Etapas do KDD
Interpretação / Avaliação
Mineração de
Dados
Transformação
Pré-processamento
Padrões
Seleção
Dados Préprocessados
Dados
set/2002
CONHECIMENTO
Dados
Transformados
Dados Alvo
10
Grupo BIOINFO-USP
Mundo
Externo
Transformação
dos dados
Leitura de
Dados
set/2002
Núcleo de
Mineração
BD
Relacional
Dados
Primários
Mineração de
Dados
Máquinas
Paralelas de Alto
Desempenho
BD de
Objetos Complexos OC
Elo entre dados
primários e OC
11
Grupo BIOINFO-USP
• Mineração de Dados (dados extraídos do BD)
- classificadores e técnicas de agrupamento
- representação do conhecimento: objetos
complexos/BD Relacional
• Interesses futuros:
- técnicas de representação de conhecimento de IA
- uso de conhecimento prévio
set/2002
12
Proposta de Pesquisa
Ferramentas de representação de conhecimento
Base de Conhecimento
Permitir a integração com a etapa de
Mineração de Dados
set/2002
13
Proposta de Pesquisa
Hierarquia de Conceitos
Formação:
 implícita no BD (definida pelo projetista)
 definida por especialistas
 análise de distribuição de dados (descoberta)
set/2002
14
Proposta de Pesquisa
Hierarquia de Conceitos (cont)
Ajuste:
 dados dinâmicos levam a novos conceitos
Codificação:
 permitir que seja utilizada pelos algoritmos de MD
set/2002
15
Descoberta de padrões em
múltiplos níveis conceituais
Mineração de conceitos individuais (primitivos ou mais
abstratos)
(1) em geral, não existem regularidades fortes em
conceitos de níveis baixos de abstração
(2) regularidades em conceitos de nível mais alto de
abstração, em geral podem ser conhecidas
set/2002
16
Descoberta de padrões em
múltiplos níveis conceituais
Alimentos
pão
leite
desnatado
A
integral
integral
branco
B
Leite Integral  Pão Branco
set/2002
17
KDD + IA
Fim
set/2002
18
Árvores de Decisão
Jogar
tênis
SOL
Chuvoso
Encoberto
umidade
alta
sim
normal
não
DIA
TEMPO
1
SOL
2
CHUVOSO
set/2002
forte
sim
TEMPERATURA
28O
25O
vento
não
UMIDADE
85%
96%
VENTO
15 Km/h
60 Km/h
fraco
sim
CLASSE/CATEGORIA
JOGAR
NÃO JOGAR
19
Download