UPE – Caruaru – Sistemas de Informação Disciplina: Mineração de Dados Prof.: Paulemir G. Campos Modelos de Mineração de Dados 5/31/2017 MD - Prof. Paulemir Campos 1 Roteiro da Aula Introdução; Técnicas de Mineração de Dados; Aplicações; Referências. 5/31/2017 MD - Prof. Paulemir Campos 2 Introdução Basicamente compreende os diversos algoritmos de aprendizado de máquina, tais como: Classificação: 5/31/2017 Regressão Linear; Redes MLP e RBF; Árvores de Decisão ID3 e C4.5; Regras de Classificação. MD - Prof. Paulemir Campos 3 Introdução Basicamente compreende os diversos algoritmos de aprendizado de máquina, tais como (Cont.): Cluster ou Agrupamento: Regras de Associação: K-Means; APRIORI A seguir serão descritos alguns destes. 5/31/2017 MD - Prof. Paulemir Campos 4 Regressão Linear Utiliza uma representação matemática linear para detectar algum padrão presente nos dados observados. Modelo clássico de regressão linear: Y = X. + onde: Y é o vetor n x 1; X é uma matriz n x (p+1) do modelo; é uma matriz (p+1)x1 de parâmetros desconhecidos e é um vetor de erros aleatórios nx1. 5/31/2017 MD - Prof. Paulemir Campos 5 Regressão Linear - Exemplo Salary (in $1,000) 100 80 60 40 20 0 0 5/31/2017 5 10 15 Years experience 20 25 MD - Prof. Paulemir Campos 6 Árvores de Decisão Um método "divide e conquista" para o problema de aprendizado de um conjunto de instâncias independentes, onde a classificação é dada pelo nó folha, partindo-se da raiz da árvore. Principais algoritmos: 5/31/2017 ID3 e C4.5. MD - Prof. Paulemir Campos 7 Árvores de Decisão Algoritmo Básico: 5/31/2017 A árvore é construída recursivamente de cima para baixo no modo dividir para conquistar; No início todos os exemplos se encontram na raiz; Os atributos são discretos (os atributos contínuos são discretizados previamente); Os exemplos são particionados recursivamente com base em atributos selecionados; Os atributos são selecionados heuristicamente ou através de uma critério estatístico (ex., ganho de informação). MD - Prof. Paulemir Campos 8 Árvores de Decisão Condições de parada: 5/31/2017 Todas as amostras de um dado nó pertencem a mesma classe; Não há mais atributo disponível para futuras partições – usa-se voto da maioria para classificar a folha; Não há mais exemplos disponíveis. MD - Prof. Paulemir Campos 9 Árvores de Decisão - Exemplo 5/31/2017 MD - Prof. Paulemir Campos 10 Regras de Classificação É uma alternativa popular para árvores de decisão. Os antecedentes de uma regra equivalem aos nós que vão sendo testados até se atingir o nó folha, que é o conseqüente dessa regra. 5/31/2017 MD - Prof. Paulemir Campos 11 Regras de Classificação Exemplos: 5/31/2017 Se Aumento_de_Salario_1_ano > 2.5 e Estututo_de_Feriados > 10 Então Candidato_a_Promocao = Bom Se Aumento_de_Salario_1_ano =< 2.5 Então Candidato_a_Promocao = Ruim MD - Prof. Paulemir Campos 12 K-Means Dado k, o algoritmo k-means é implementado em 4 passos: 5/31/2017 Partição dos objetos em k grupos não vazios; Defina as sementes como os centróides dos grupos da partição atual; Associe cada objeto ao grupo cuja semente é a mais próxima ao mesmo; Volte para o passo 2 até que não haja novas associações de objetos a algum grupo. MD - Prof. Paulemir Campos 13 K-Means - Exemplo 10 10 9 9 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 0 0 0 1 2 3 4 5 6 7 8 9 10 10 10 9 9 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 0 1 2 3 4 5 6 7 8 9 10 0 0 5/31/2017 0 1 2 3 4 5 6 7 8 9 10 0 1 2 MD - Prof. Paulemir Campos 3 4 5 6 7 8 9 10 14 K-Means Pontos Fortes É relativamente eficiente; Geralmente encontra um ótimo local. Pontos Fracos 5/31/2017 Aplicável apenas quando a média é definida; É necessário especificar a priori k, o número de grupos; É sensível a ruídos e valores aberrantes; Não é apropriado para a descoberta de grupos não esféricos. MD - Prof. Paulemir Campos 15 Regras de Associação Diferem das regras de classificação devido a poderem predizer qualquer atributo, não somente a classe. Assim, dão a liberdade de predizer também combinações de atributos. 5/31/2017 MD - Prof. Paulemir Campos 16 Regras de Associação Conceitos Básicos: 5/31/2017 Dados: (1) conjunto de transações, (2) cada transação é uma lista de itens (comprados por um cliente em uma visita); Achar: todas as regras que correlacionam a presença de um conjunto de itens com a presença de outro conjunto de itens em uma mesma transação. MD - Prof. Paulemir Campos 17 Regras de Associação Exemplo: Dado: 98% das pessoas que compram pneus e auto-acessórios, também fazem algum serviço automotivo. Achar: todas as regras X & Y Z com um mínimo de suporte e confiança Suporte (support), s, probabilidade que uma transação contenha {X Y Z}; Confiança (confidence), c, probabilidade condicional que uma transação que contenha {X Y} também contém Z. 5/31/2017 MD - Prof. Paulemir Campos 18 Regras de Associação Assim, a idéia é: 5/31/2017 Achar os conjuntos de itens freqüentes (itemsets freqüentes): o conjunto de itens que tem um mínimo de suporte; Um subconjunto de um itemset freqüente, também deve ser um itemset freqüente; Achar iterativamente itemsets freqüentes com cardinalidade de 1 à k (k-itemset); Usar os itemsets freqüentes para gerar as regras de associação. MD - Prof. Paulemir Campos 19 Regras de Associação O Algoritmo APRIORI: 5/31/2017 Passo de união (join): Ck é gerado, unindo Lk-1 com ele mesmo; Passo de poda (prune): Qualquer (k-1)itemset que não seja freqüente, não pode ser um subconjunto de um k-itemset freqüente. MD - Prof. Paulemir Campos 20 O Algoritmo APRIORI Exemplo Database D TID 100 200 300 400 itemset sup. C1 {1} 2 {2} 3 Scan D {3} 3 {4} 1 {5} 3 Items 134 235 1235 25 C2 itemset sup L2 itemset sup 2 2 3 2 {1 {1 {1 {2 {2 {3 C3 itemset {2 3 5} Scan D {1 3} {2 3} {2 5} {3 5} 5/31/2017 2} 3} 5} 3} 5} 5} 1 2 1 2 3 2 L1 itemset sup. {1} {2} {3} {5} 2 3 3 3 C2 itemset {1 2} Scan D {1 {1 {2 {2 {3 3} 5} 3} 5} 5} L3 itemset sup {2 3 5} 2 MD - Prof. Paulemir Campos 21 Aplicações Potenciais Análise de bases de dados e suporte à decisão Análise de Mercado Análise de Risco 5/31/2017 alvo de campanhas, análise de compras, segmentação do mercado, gerencia de relações com clientes, vendas cruzadas; fidelização de clientes, controle de qualidade, análise de competitividade; Detecção de Fraude MD - Prof. Paulemir Campos 22 Referências Witten, I. H. e Frank, E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, 1999. Han, J. e Kamber, M. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001. 5/31/2017 MD - Prof. Paulemir Campos 23 Referências Notas de aulas dos profs. Francisco A. T. de Carvalho, Paulo Adeodato e Jacques Robin de Mineração de Dados do Cin/UFPE. 5/31/2017 MD - Prof. Paulemir Campos 24