Abordagens de transformação de dados em projetos de KDD Rosalvo Neto Roteiro 1. 2. 3. 4. 5. 6. Introdução Motivação Tipos de Abordagens Classificação das abordagens Descrição das abordagens Estudo comparativo Introdução • Os dados estão contidos em banco de dados Relacionais; • Muitas Relações; • Muitos atributos; • Muitas tuplas; • Como extrair as informações de forma eficiente? Motivação 50% - 80% Source: excerpt of Fayyad et al. 1996 Tipos de abordagens Proposicionalização Mineração de dados Multi Dimensional Proposicionalização Table 01 Table 02 Table... Table N Result Table Intelligent Systems AI Algorithm Mineração de dados Multi Relacional Table 01 Table 02 Table... Table N Intelligent Systems AI Algorithm Classificação das Frameworks Existentes Multi Relacional Data Mining Proposicionalização ILP Banco de Dados LINUS RelAggs Multi Dimensional DM ILP Multi view Learning CMVV Inductive Logic Programming (ILP) Indutive Logic Program (ILP) é um subcampo da área de aprendizagem de máquina que utiliza a programação em lógica como uma representação uniforme para exemplos, base de conhecimento e hipóteses Inductive Logic Programming (ILP) O problema de aprendizado em ILP é normalmente especificado como segue: Dado: uma base de conhecimento B, expressa como um conjunto de definições de predicados, exemplos positivos E+ e exemplos negativos EProcurar: procurar uma hipótese H tal que o erro de h seja minimizado em exemplos futuros Inductive Logic Programming (ILP) Em ILP, h é usualmente um conjunto de clausulas de lógica de primeira ordem, e novos exemplos serão classificados como pertencente a classe positiva se e somente se ele é coberto por todas as clausulas de h. LINUS O LINUS é uma abordagem de Inductive Logic Program (ILP) que incorpora existentes sistemas de aprendizagem atributo-valor. A ideia é transformar um problema descrito em ILP dentro da forma proposicional e resolver o problema através da aprendizagem de regras proposicionais. LINUS Exemplos de treinamento filha (sue,eve). Pos filha (ann,pat). pos filha (tom,ann). Neg filha (eve,ann). neg Variáveis X Y Sue Ann Tom Eve Eve Pat Ann ann progenitor (eve,sue). progenitor (ann,tom). progenitor (pat,ann). progenitor (tom,sue). Características proposicionais F(x) F(y) M(x) M(y) P(x, x) 1 1 0 0 0 1 0 0 1 0 0 1 1 0 0 0 1 0 0 0 Relações feminino (ann). feminino (sue). feminino (eve). P(x, y) 0 0 0 0 P(y, x) 1 1 1 0 masculino (pat). masculino (tom). P(y, y) 0 0 0 0 Classe Pos Pos Neg Neg RelAggs Em sua abordagem é aplicada a ideia de agregação, comumente utilizada na área de Data WareHouse. Exemplo Cliente Parcela RelAggs Multi View Learning A abordagem de classificação de múltiplas visões opera diretamente no banco de dados relacional com métodos convencionais de mineração de dados. Multi View Learning A abordagem é composta por cinco etapas: 1- Information Propagation Stage 2- Aggregation Stage 3- Multiple Views Construction Stage 4- View Validation Stage 5- View Combination Stage Correlation-based Multiple View Validation Source: excerpt of Guo and Viktor 2006 Estudo Comparativo entre Proposicionalização e Mineração de Dados Multidimensional sobre um Banco de Dados Relacional