Abordagens de Mineração de Dados Multi Relacional Rosalvo Neto Roteiro 1. 2. 3. 4. 5. 6. Introdução Motivação Tipos de Abordagens Classificação das abordagens Descrição das abordagens Estudo comparativo Introdução • Os dados estão contidos em banco de dados Relacionais; • Muitas Relações; • Muitos atributos; • Muitas tuplas; • Como extrair as informações de forma eficiente? Motivação 50% - 80% Source: excerpt of Fayyad et al. 1996 Tipos de abordagens Proposicionalização Mineração de dados Multi Dimensional Proposicionalização Table 01 Table 02 Table... Table N Result Table Intelligent Systems AI Algorithm Mineração de dados Multi Relacional Table 01 Table 02 Table... Table N Intelligent Systems AI Algorithm Classificação das Abordagens Existentes Multi Relacional Data Mining Multi Dimensional DM Proposicionalização ILP TupleID Propagation Multi view Learning Graph Mining LINUS DINUS RelAggs FOIL CrossMine CMVV Inductive Logic Programming (ILP) Indutive Logic Program (ILP) é um subcampo da área de aprendizagem de máquina que utiliza a programação em lógica como uma representação uniforme para exemplos, base de conhecimento e hipóteses Inductive Logic Programming (ILP) O problema de aprendizado em ILP é normalmente especificado como segue: Dado: uma base de conhecimento B, expressa como um conjunto de definições de predicados, exemplos positivos E+ e exemplos negativos EProcurar: procurar uma hipótese H tal que o erro de h seja minimizado em exemplos futuros Inductive Logic Programming (ILP) Em ILP, h é usualmente um conjunto de clausulas de lógica de primeira ordem, e novos exemplos serão classificados como pertencente a classe positiva se e somente se ele é coberto por todas as clausulas de h. LINUS O LINUS é uma abordagem de Inductive Logic Program (ILP) que incorpora existentes sistemas de aprendizagem atributo-valor. A ideia é transformar um problema descrito em ILP dentro da forma proposicional e resolver o problema através da aprendizagem de regras proposicionais. LINUS Exemplos de treinamento filha (sue,eve). Pos filha (ann,pat). pos filha (tom,ann). Neg filha (eve,ann). neg Variáveis X Y Sue Ann Tom Eve Eve Pat Ann ann progenitor (eve,sue). progenitor (ann,tom). progenitor (pat,ann). progenitor (tom,sue). Características proposicionais F(x) F(y) M(x) M(y) P(x, x) 1 1 0 0 0 1 0 0 1 0 0 1 1 0 0 0 1 0 0 0 Relações feminino (ann). feminino (sue). feminino (eve). P(x, y) 0 0 0 0 P(y, x) 1 1 1 0 masculino (pat). masculino (tom). P(y, y) 0 0 0 0 Classe Pos Pos Neg Neg RelAggs Em sua abordagem é aplicada a ideia de agregação, comumente utilizada na área de Data WareHouse. Exemplo Cliente Parcela RelAggs Graph Mining Mineração baseada em grafos é uma técnica que extrai as informações a partir de dados representados na forma de grafos estruturados. Um grafo pode ser definido pela equação G={V,E}, onde V ={v1,v2,v3,…vn} é o conjunto ordenado de vértices do grafo e E={e1,e2,e3,……..en} é o conjunto das bordas do grafo Graph Mining B C A B A C Propagation ID Este é método faz a transferência de informação entre as diferentes relações por meio de junções virtuais; Este método mostra-se menos custoso do realizar a junção física tanto em termos de tempo quanto espaço; Quando deseja-se realizar uma predição então propaga-se os identificadores entre duas relações; Propagation ID Multi View Learning A abordagem de classificação de múltiplas visões opera diretamente no banco de dados relacional com métodos convencionais de mineração de dados. Multi View Learning A abordagem é composta por cinco etapas: 1- Information Propagation Stage 2- Aggregation Stage 3- Multiple Views Construction Stage 4- View Validation Stage 5- View Combination Stage Comparative Study between Propositionalization and Multi Relational Data Mining on a Relational Database Rosalvo Neto Paulo Jorge Adeodato Ana Carolina Salgado Murilo Boratto Outline 1. 2. 3. 4. 5. 6. 7. Objectives Related Work Compared Approaches Database Experimental Methodology Results Conclusions and Future Works Objective Performance Comparison: - Propositionalization X Multi Relational Data Mining - Binary Classification - Database Benchmark (PKDD 1999) - Credit Risk Domain Related Work Comparative Study between the same approach Early Studies Comparative Study between different approaches Recent Studies Compared Approach - RELAGGS (RELational AGGregationS) Compared Approach - Correlation-based Multiple View Validation Source: excerpt of Guo and Viktor 2006 Database Experimental Methodology Cross Validation k-fold Neural Network - MultiLayer Perceptron (MLP) Kolmogorov-Smirnov Curve (KS) Paired t-student test Results Null Hypothesis: Alternative Hypothesis: µd = µ1 − µ2 upper limit p-value 0,0805 ∞ 0,0181 Paired t-test result Conclusions and Future Work - There is indicative of Propositionalization outperforms Multi Relational Data Mining in Credit Risk Domain - Domain Driven Data Mining (D3M) - Investigate the performance of others AI Algorithms and others databases of the same domain