Abordagens de Mineração de Dados Multi Relacional

Propaganda
Abordagens de transformação de
dados em projetos de KDD
Rosalvo Neto
Roteiro
1.
2.
3.
4.
5.
6.
Introdução
Motivação
Tipos de Abordagens
Classificação das abordagens
Descrição das abordagens
Estudo comparativo
Introdução
• Os dados estão contidos em banco de dados
Relacionais;
• Muitas Relações;
• Muitos atributos;
• Muitas tuplas;
• Como extrair as informações de forma
eficiente?
Motivação
50% - 80%
Source: excerpt of Fayyad et al. 1996
Tipos de abordagens
Proposicionalização
Mineração de dados
Multi Dimensional
Proposicionalização
Table 01
Table 02
Table...
Table N
Result Table
Intelligent Systems
AI Algorithm
Mineração de dados Multi Relacional
Table 01
Table 02
Table...
Table N
Intelligent Systems
AI Algorithm
Classificação das Frameworks Existentes
Multi Relacional Data Mining
Proposicionalização
ILP
Banco de Dados
LINUS
RelAggs
Multi Dimensional DM
ILP
Multi view Learning
CMVV
Inductive Logic Programming (ILP)
Indutive Logic Program (ILP) é um subcampo da
área de aprendizagem de máquina que utiliza
a programação em lógica como uma
representação uniforme para exemplos, base
de conhecimento e hipóteses
Inductive Logic Programming (ILP)
O problema de aprendizado em ILP é normalmente
especificado como segue:
Dado: uma base de conhecimento B, expressa como
um conjunto de definições de predicados, exemplos
positivos E+ e exemplos negativos EProcurar: procurar uma hipótese H tal que o erro de h
seja minimizado em exemplos futuros
Inductive Logic Programming (ILP)
Em ILP, h é usualmente um conjunto de
clausulas de lógica de primeira ordem, e novos
exemplos
serão
classificados
como
pertencente a classe positiva se e somente se
ele é coberto por todas as clausulas de h.
LINUS
O LINUS é uma abordagem de Inductive Logic
Program (ILP) que incorpora existentes
sistemas de aprendizagem atributo-valor.
A ideia é transformar um problema descrito em
ILP dentro da forma proposicional e resolver o
problema através da aprendizagem de regras
proposicionais.
LINUS
Exemplos de treinamento
filha (sue,eve). Pos
filha (ann,pat). pos
filha (tom,ann). Neg
filha (eve,ann). neg
Variáveis
X
Y
Sue
Ann
Tom
Eve
Eve
Pat
Ann
ann
progenitor (eve,sue).
progenitor (ann,tom).
progenitor (pat,ann).
progenitor (tom,sue).
Características proposicionais
F(x) F(y) M(x) M(y) P(x,
x)
1
1
0
0
0
1
0
0
1
0
0
1
1
0
0
0
1
0
0
0
Relações
feminino (ann).
feminino (sue).
feminino (eve).
P(x, y)
0
0
0
0
P(y,
x)
1
1
1
0
masculino (pat).
masculino (tom).
P(y,
y)
0
0
0
0
Classe
Pos
Pos
Neg
Neg
RelAggs
Em sua abordagem é aplicada a ideia de
agregação, comumente utilizada na área de
Data WareHouse.
Exemplo
Cliente
Parcela
RelAggs
Multi View Learning
A abordagem de classificação de múltiplas
visões opera diretamente no banco de dados
relacional com métodos convencionais de
mineração de dados.
Multi View Learning
A abordagem é composta por cinco etapas:
1- Information Propagation Stage
2- Aggregation Stage
3- Multiple Views Construction Stage
4- View Validation Stage
5- View Combination Stage
Correlation-based Multiple View Validation
Source: excerpt of Guo and Viktor 2006
Estudo Comparativo entre
Proposicionalização e Mineração de Dados
Multidimensional sobre um Banco de Dados
Relacional
Download