Abordagens de Mineração de Dados Multi Relacional

Propaganda
Abordagens de Mineração de
Dados Multi Relacional
Rosalvo Neto
Roteiro
1.
2.
3.
4.
5.
6.
Introdução
Motivação
Tipos de Abordagens
Classificação das abordagens
Descrição das abordagens
Estudo comparativo
Introdução
• Os dados estão contidos em banco de dados
Relacionais;
• Muitas Relações;
• Muitos atributos;
• Muitas tuplas;
• Como extrair as informações de forma
eficiente?
Motivação
50% - 80%
Source: excerpt of Fayyad et al. 1996
Tipos de abordagens
Proposicionalização
Mineração de dados
Multi Dimensional
Proposicionalização
Table 01
Table 02
Table...
Table N
Result Table
Intelligent Systems
AI Algorithm
Mineração de dados Multi Relacional
Table 01
Table 02
Table...
Table N
Intelligent Systems
AI Algorithm
Classificação das Abordagens Existentes
Multi Relacional Data Mining
Multi Dimensional DM
Proposicionalização
ILP
TupleID
Propagation
Multi view
Learning
Graph Mining
LINUS
DINUS
RelAggs
FOIL
CrossMine
CMVV
Inductive Logic Programming (ILP)
Indutive Logic Program (ILP) é um subcampo da
área de aprendizagem de máquina que utiliza
a programação em lógica como uma
representação uniforme para exemplos, base
de conhecimento e hipóteses
Inductive Logic Programming (ILP)
O problema de aprendizado em ILP é normalmente
especificado como segue:
Dado: uma base de conhecimento B, expressa como
um conjunto de definições de predicados, exemplos
positivos E+ e exemplos negativos EProcurar: procurar uma hipótese H tal que o erro de h
seja minimizado em exemplos futuros
Inductive Logic Programming (ILP)
Em ILP, h é usualmente um conjunto de
clausulas de lógica de primeira ordem, e novos
exemplos
serão
classificados
como
pertencente a classe positiva se e somente se
ele é coberto por todas as clausulas de h.
LINUS
O LINUS é uma abordagem de Inductive Logic
Program (ILP) que incorpora existentes
sistemas de aprendizagem atributo-valor.
A ideia é transformar um problema descrito em
ILP dentro da forma proposicional e resolver o
problema através da aprendizagem de regras
proposicionais.
LINUS
Exemplos de treinamento
filha (sue,eve). Pos
filha (ann,pat). pos
filha (tom,ann). Neg
filha (eve,ann). neg
Variáveis
X
Y
Sue
Ann
Tom
Eve
Eve
Pat
Ann
ann
progenitor (eve,sue).
progenitor (ann,tom).
progenitor (pat,ann).
progenitor (tom,sue).
Características proposicionais
F(x) F(y) M(x) M(y) P(x,
x)
1
1
0
0
0
1
0
0
1
0
0
1
1
0
0
0
1
0
0
0
Relações
feminino (ann).
feminino (sue).
feminino (eve).
P(x, y)
0
0
0
0
P(y,
x)
1
1
1
0
masculino (pat).
masculino (tom).
P(y,
y)
0
0
0
0
Classe
Pos
Pos
Neg
Neg
RelAggs
Em sua abordagem é aplicada a ideia de
agregação, comumente utilizada na área de
Data WareHouse.
Exemplo
Cliente
Parcela
RelAggs
Graph Mining
Mineração baseada em grafos é uma técnica que extrai
as informações a partir de dados representados na
forma de grafos estruturados. Um grafo pode ser
definido pela equação G={V,E}, onde
V ={v1,v2,v3,…vn} é o conjunto ordenado de vértices do
grafo e
E={e1,e2,e3,……..en} é o conjunto das bordas do grafo
Graph Mining
B
C
A
B
A
C
Propagation ID
Este é método faz a transferência de informação
entre as diferentes relações por meio de junções
virtuais;
Este método mostra-se menos custoso do realizar a
junção física tanto em termos de tempo quanto
espaço;
Quando deseja-se realizar uma predição então
propaga-se os identificadores entre duas
relações;
Propagation ID
Multi View Learning
A abordagem de classificação de múltiplas
visões opera diretamente no banco de dados
relacional com métodos convencionais de
mineração de dados.
Multi View Learning
A abordagem é composta por cinco etapas:
1- Information Propagation Stage
2- Aggregation Stage
3- Multiple Views Construction Stage
4- View Validation Stage
5- View Combination Stage
Comparative Study between
Propositionalization and Multi
Relational Data Mining on a
Relational Database
Rosalvo Neto
Paulo Jorge Adeodato
Ana Carolina Salgado
Murilo Boratto
Outline
1.
2.
3.
4.
5.
6.
7.
Objectives
Related Work
Compared Approaches
Database
Experimental Methodology
Results
Conclusions and Future Works
Objective
Performance Comparison:
- Propositionalization X Multi Relational Data Mining
- Binary Classification
- Database Benchmark (PKDD 1999)
- Credit Risk Domain
Related Work
Comparative Study
between the same
approach
Early Studies
Comparative Study
between different
approaches
Recent Studies
Compared Approach - RELAGGS (RELational
AGGregationS)
Compared Approach - Correlation-based
Multiple View Validation
Source: excerpt of Guo and Viktor 2006
Database
Experimental Methodology
Cross Validation k-fold
Neural Network - MultiLayer Perceptron (MLP)
Kolmogorov-Smirnov Curve (KS)
Paired t-student test
Results
Null Hypothesis:
Alternative Hypothesis:
µd = µ1 − µ2 upper limit p-value
0,0805
∞
0,0181
Paired t-test result
Conclusions and Future Work
- There is indicative of Propositionalization outperforms
Multi Relational Data Mining in Credit Risk Domain
- Domain Driven Data Mining (D3M)
- Investigate the performance of others AI Algorithms and
others databases of the same domain
Download