MINERAÇÃO DE DADOS 1 CONCEITOS BÁSICOS CONHECIMENTO INFORMAÇÃO DADO 2 CONCEITOS BÁSICOS DADOS Os dados são elementos brutos, sem significado, desvinculados da realidade. São, segundo Davenport (1998, p. 19), "observações sobre o estado do mundo". São símbolos e imagens que não dissipam nossas incertezas. Eles constituem a matéria-prima da informação. Dados sem qualidade levam a informações e decisões da mesma natureza. Sendo o dado considerado a matéria-prima para a informação: o que são informações? 3 CONCEITOS BÁSICOS INFORMAÇÕES As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker apud Davenport, 1998, p.18). Elas são o resultado do encontro de uma situação de decisão com um conjunto de dados, ou seja, são dados contextualizados que visam a fornecer uma solução para determinada situação de decisão (MacDonough apud Lussato, 1991). A informação pode assim ser considerada como dados processados e contextualizados, mas para Sveiby (1998) a informação também é considerada como "desprovida de significado e de pouco valor", e Malhotra (1993) a considera como "a matériaprima para se obter conhecimento". 4 CONCEITOS BÁSICOS CONHECIMENTO Para Davenport (1998, p.19), o "conhecimento é a informação mais valiosa (...) é valiosa precisamente porque alguém deu à informação um contexto, um significado, uma interpretação (...)". O conhecimento pode então ser considerado como a informação processada pelos indivíduos. O valor agregado à informação depende dos conhecimentos anteriores desses indivíduos. Assim sendo, adquirimos conhecimento por meio do uso da informação nas nossas ações. Desta forma, o conhecimento não pode ser desvinculado do indivíduo; ele está estritamente relacionado com a percepção do mesmo, que codifica, decodifica, distorce e usa a informação de acordo com suas características pessoais, ou seja, de acordo com seus modelos mentais ou necessidade. 5 CONCEITOS BÁSICOS Exemplo Um carro BMW, último tipo, conversível, zero quilômetro, totalmente destruído em um acidente no qual o motorista bateu em uma árvore centenária derrubando-a pode ser codificado, decodificado e distorcido das seguintes maneiras. Algumas pessoas serão levadas a decodificar as informações baseadas em seus valores materiais: "Logo um carro tão caro! Será que ele está segurado? 6 CONCEITOS BÁSICOS Exemplo Enquanto outras pessoas, com valores humanos mais aguçados, terão seu foco no ser humano: "Será que o acidente resultou em feridos?" Outras pessoas com interesses ecológicos ainda terão suas atenções voltadas ao destino da árvore centenária: "Logo nesta árvore! Não poderia ter sido em uma outra?". 7 MAIS UM INGREDIENTE NA CONCEPÇÃO DA UTILIZAÇÃO DA INFORMAÇÃO 8 UM NOVO CONCEITO DADOS DADOS CONTEXTO INFORMAÇÃO INFORMAÇÃO EXPERIÊNCIA CONHECIMENTO CONHECIMENTO HABILIDADE COMPETÊNCIA 9 TOMADA DE DECISÕES Cadeia do Processo Decisório Decisão BI : OLAP, CRM, DATAWAREHOUSE, DATA MINING, etc; Competência Conhecimento Informação ERP , Sistemas Individuais Dados 10 HISTÓRICO Era da Inteligência Era das aplicações Era dos bancos de dados 1980 1990 2000 2010 11 A IMPORTÂNCIA DA INFORMAÇÃO 12 DUPLO PAGAMENTO O consumidor paga duas vezes por cada compra: A primeira com dinheiro e a segunda ao fornecer informação que vale dinheiro. Por exemplo, se o freguês pagar com cartão de crédito, é claro, que muita coisa é revelada. Agora o freguês também está fornecendo: (1) nome, (2) endereço e CEP, (3) informação sobre crédito, (4) base para inferir na renda familiar, e muitas coisas mais. A pergunta essencial que paira no ar é: Quem possui os dados sobre o freguês ? E quando custa. 13 DUPLO PAGAMENTO O consumidor paga duas vezes por cada compra: A primeira com dinheiro e a segunda ao fornecer informação que vale dinheiro. Por exemplo, se o freguês pagar com cartão de crédito, é claro, que muita coisa é revelada. Agora o freguês também está fornecendo: (1) nome, (2) endereço e CEP, (3) informação sobre crédito, (4) base para inferir na renda familiar, e muitas coisas mais. A pergunta essencial que paira no ar é: Quem possui os dados sobre o freguês ? E quando custa. 14 O PODER DA INFORMAÇÃO O maior capital das empresas não são mais os seus colaboradores. Mas sim, as suas informações. As informações passaram a ser os resultados de todas as ações operacionais que fazem a empresa funcionar. 15 OBTENDO INFORMAÇÕES Quais informações poderíamos obter em uma simples Nota Fiscal e que cruzamentos poderíamos fazer? 16 UMA NOTA FISCAL 17 UMA NOTA FISCAL 18 O QUE É MAIS IMPORTANTE ? A INFORMAÇÃO ! 19 REFLEXÃO... “ ADMINISTRAR BEM UM NEGÓCIO É ADMINISTRAR SEU FUTURO; E ADMINISTRAR SEU FUTURO É ADMINISTRAR INFORMAÇÕES “ ( Marion Harper Jr.) 20 REFLEXÃO “O mundo não está interessado nas tempestades que você enfrentou, quer apenas saber se você trouxe o navio” William Mac Fee E como você acha que as organizações pensam? 21 ... “Não estamos aqui para prever o futuro ,mas sim para criar a certeza de tê-lo” Peter Ferdinand Drucker E com quais ferramentas? 22 ESPÉCIES DE ORGANIZAÇÕES AS QUE FAZEM AS COISAS ACONTECEREM. AS QUE OBSERVAM AS COISAS ACONTECEREM. AS QUE PERGUNTAM O QUE ACONTECEU. 23 REFLEXÃO “DIGA-ME, POR FAVOR, QUE CAMINHO DEVO TOMAR PARA SAIR DAQUI ?”, perguntou Alice. “ISTO DEPENDE DE PARA ONDE VOCÊ QUER IR”, disse o gato. “NÃO FAZ DIFERENÇA PARA MIM”, retrucou Alice. “ENTÃO, NÃO FAZ DIFERENÇA QUE CAMINHO VOCÊ TOMA”, respondeu-lhe o gato. “ALICE NO PAÍS DAS MARAVILHAS” Lewis Carroll 24 ..... Comentários ? 25 NECESSIDADES DE UM GESTOR 26 NECESSIDADE DO GESTOR •INFORMAÇÃO •ANÁLISE •DECISÃO •AÇÃO •VELOCIDADE •RESULTADOS 27 NECESSIDADE DO GESTOR Informação QUANTO MAIOR A QUANTIDADE E QUALIDADE DAS INFORMAÇÕES DISPONÍVEIS, MAIS FÁCIL ACHARMOS ONDE ATUAR PARA ALCANÇARMOS NOSSOS OBJETIVOS. Análise QUANTO MAIS FÁCIL PUDERMOS MANIPULAR TAIS INFORMAÇÕES, PERMITINDO ESTUDAR CENÁRIOS POR DIFERENTES PERSPECTIVAS, MAIS CLARAS, FÁCEIS E FIÉIS SERÃO NOSSAS CONCLUSÕES. 28 NECESSIDADE DO GESTOR Decisão CONCLUSÕES EMBASADAS EM DADOS REAIS NOS LEVAM A TOMAR DECISÕES ASSERTIVAS, NA DIREÇÃO EXATA DE NOSSOS OBJETIVOS. Ação TAIS DECISÕES DEVEM SER IMPLANTADAS DE MANEIRA RÁPIDA E ABRANGENTE, SENDO TRANSFORMADAS EM AÇÕES. 29 NECESSIDADE DO GESTOR Velocidade AÇÕES QUE POR SUA VEZ DEVEM SER PROCESSADAS RAPIDAMENTE, COM QUALIDADE, EM QUANTIDADE E ABRANGÊNCIA. Resultados SÓ ASSIM CHEGAMOS AOS RESULTADOS POSITIVOS QUE BUSCAMOS. NÃO POR “MÁGICA” E SIM COMO CONSEQÜÊNCIA LÓGICA E NORMAL DE UM TRABALHO REALIZADO. 30 NECESSIDADES DO USUÁRIO 31 NECESSIDADES DO USUÁRIO “Quero toda a Informação..." Processo de Business out Análise Informação Integrada Retorno Gerado pelo Computador Medias Importantes Experiência in 32 REFLEXÃO “INFORMAÇÃO NÃO É FONTE DE PODER, É FONTE DE GESTÃO” 33 NECESSIDADES CORPORATIVAS INFORMAÇÕES CONHECIMENTO Foco em Resultados BASE DE Métrica dos objetivos Estratégicos 34 Data Mining Mineração de Dados 35 Mineração de Dados 36 Mineração de Dados - Justificativa O volume de dados duplica a cada ano ! 37 DM - MOTIVAÇÃO Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução e velocidade da Tecnologia da Informação em busca de conhecimento. “Morrendo de sede por conhecimento em um oceano de dados” 38 DATA MINING O que é? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (nãotrivial, implícita, previamente desconhecida e potencialmente útil) dos dados armazenados em grandes massas de dados conhecimento para tomada de decisão. 39 DATA MINING KDD Knowledge Discovery in Database Descoberta de Conhecimento em Banco de Dados 40 DATA MINING “KDD é o processo, não trivial, de extração de informações, implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados” [Frawley , Piatetsky-Shapiro & Matheus,1991] 41 DATA MINING Como identificar conhecimento em uma grande massa de dados: – Padrões (“X” acontece se...) – Exceções (isto é diferente de... por causa de...) – Tendências (ao longo do tempo, “Y” deve acontecer...) – Correlações (se “M” acontece, “N” também deve acontecer) 42 DATA MINING O que é? Nomes alternativos: Descoberta (mineração) de conhecimento em banco de dados (KDD - Knowledge Discovery in Database ), extração de conhecimento, análise de dados/padrões, business intelligence, etc. O que não é data mining? Processamento de consultas dedutivo. Sistemas especialistas ou pequenos programas estatísticos ou de aprendizado de máquina. 43 DATA MINING - MOTIVAÇÃO Problema da explosão de dados Processo de tomada de decisão exige análise de grandes massas de dados Solução: Data Warehousing e Data Mining Data warehousing: Visão multidimensional dos dados para processamento OLAP Data mining: Extração de conhecimento interessante (regras, padrões, restrições) dos dados em grandes bases de dados. 44 DATA MINING - APLICAÇÕES Análise de dados e suporte a decisões Análise de mercado Marketing sob demanda, relação entre clientes, análise e segmentação de mercado, análise cruzada de dados, etc. Análise de risco Previsão, controle de qualidade, análise competitiva, análise de seguros Detecção de fraude Outras Aplicações Mineração de texto (news group, email, documentos XML) 45 DM – ANÁLISE DE MERCADO Quais são as fontes de dados para Análise de Mercado ? Transações de cartões de crédito, cartões de fidelidade, cupons de desconto, serviços de televendas, estudos de comportamento (questionários públicos, web, etc.) Marketing sob demanda Descobrir grupos de “modelos” de clientes que compartilham as mesmas características: interesses, hábitos de compras, etc. Determinar padrões de compras. Análise cruzada de dados. Associações/corelações entre vendas de produtos Previsão baseada nas associações determinadas 46 DM – ANÁLISE DE MERCADO Preferências do Cliente Data mining pode mostrar que tipos de clientes compram que tipos de produtos (clustering ou classificação). Identificação das necessidades dos clientes Melhores produtos para diferentes clientes; Modelos de predição para descobrir que fatores vão atrair novos clientes Informações sumárias Relatórios multidimensionais e estatísticos 47 DATA MINING – ANÁLISE DE RISCOS Planejamento de finanças e orçamento Análise e predição de fluxo de caixa Análise de contingência para provisão de bens Análise de séries temporais Planejamento de recursos: Resume e compara os recursos e os gastos Competição: Monitorar concorrentes e direções de mercado Agrupar clientes em classes e elaborar métodos para ajustar preços competitivos com os concorrentes do mercado 48 DM – DETECCÃO DE FRAUDES Aplicações Largamente usada em serviços de saúde, cartões de créditos, telecomunicações (fraude de ligações telefônicas), etc. Técnicas Dados históricos para construir modelos de comportamento fraudulentos e usar mineração de dados para identificar instâncias similares Exemplos Seguro de automóveis: detecta um grupo de pessoas que são potenciais coletores de sinistros Lavagem de dinheiro: detecta transações suspeitas de dinheiro Seguro de saúde: detecta pacientes “profissionais” e grupo de outores usados para receber seguro destes pacientes 49 DM – DETECCÃO DE FRAUDES Detecção inapropriada de tratamento médico Comissão de Seguro de Saúde da Austrália identificou que em muitos casos os tratamentos não eram necessários (economia de $1milhão/ano). Detecção de fraudes telefônicas Modelo de ligações telefônicas: destino da ligação, duração, hora do dia, dia da semana. Análise de padrões que desviam do padrão esperado. 50 DM - DESCOBERTA DO CONHECIMENTO EM BD (KDD) INTERPRETAÇÃO/ AVALIAÇÃO DATA MINING CONHECIMENTO ? PADRÕES TRANSFORMAÇÃO PRÉ-PROCESSAMENTO DADO TRANSFORMADO DADO PROCESSADO SELEÇÃO FAYYAD 1996 DADO ANALISADO DADOS 51 DM - DESCOBERTA DO CONHECIMENTO EM BD (KDD) 1 - SELEÇÃO 2 - PRÉ-PROCESSAMENTO (Limpeza + Enriquecimento) Conhecimento 3 - TRANSFORMAÇÃO 5 4 - MINERAÇÃO 4 5 - INTERPRETAÇÃO 3 Regras e Padrões 2 Dados Pré-processados 1 Dados Dados Transformados Dados Selecionados 52 DM - ETAPAS DO PROCESSO DE KDD Conhecer o domínio da aplicação. Conhecimento relevante e metas da aplicação Criar a base de dados alvo: seleção de dados Limpeza dos dados e pré-processamento: (até 60% do esforço!) Transformação dos dados: Contemplar propriedades importantes e dimensões. Escolha das funções do data mining sumarização, classificação, associação, clustering. Escolha dos algortimos de mineração Data mining: busca dos padrões de interesse Avaliação dos padrões descobertos e apresentação do conhecimento visualização, transformação, remoção de padrões redundantes, etc. Uso do conhecimento descoberto 53 DM - ETAPAS DO PROCESSO DE KDD Lógica Condicional Descoberta Afinidades e Associações Tendências e Variações Data Mining Modelagem de Prognóstico Resultado do Prognóstico Previsão Detecção de Desvio Análise Prévia Análise de Ligações 54 ARQUITETURA DE UM SISTEMA DE DATA MINING Graphical user interface Pattern evaluation Data mining engine Knowledge-base Database or data warehouse server Filtering Data cleaning & data integration Databases Data Warehouse 55 ALGUMAS TÉCNICAS DE MINERAÇÃO DE DADOS 56 TÉCNICAS DE MINERAÇÃO DE DADOS Classificação Descoberta de Regras de Associação Clustering 57 Mineração de Dados - Classificação • Usamos o Indutor, como por exemplo uma Árvore de decisão (ID3, C4.5), para indicar classes para estes dados. Assumimos que dados desconhecidos “próximos” de dados conhecidos terão a mesma classe dos dados conhecidos. • O processo pode ser avaliado se usarmos dados com classes conhecidas, fizermos a sua classificação e compararmos os resultados previstos com os obtidos. 58 Mineração de Dados - Classificação Classificação - REGRAS Regras possuem: antecedentes (condições) e conseqüentes (classe): SE COND1 E COND2 E... ENTÃO CLASSE(A) Condições relacionam valores dos atributos: Atributos : Cliente, Data Vencimento, Pagamento, Valor,.... Relações: <, >, =,...... 59 Mineração de Dados - Classificação Classificação – REGRAS - Exemplo SE 06:00hs< hora_sinistro < 08:30hs E oficina oficinas_suspeitas E prêmio_seguro < R$ 2300 E registro_policial = NÃO E ........... custo_sinistro > 2,4 prêmio_seguro ENTÃO FRAUDE 60 Mineração de Dados - Classificação Classificação - Exemplo Sexo M M F F F M M F F M País França Inglaterra Franca Inglaterra França Alemanha Alemanha Alemanha França França Idade 25 21 23 34 30 21 20 18 34 55 Comprar sim sim sim sim não não não não não não 61 Mineração de Dados - Classificação Classificação SE (país = “Alemanha”) ENTÃO (comprar=“não”) Se (país = “Inglaterra”) ENTÃO (comprar = “sim”) SE (país = “França” E idade 25) ENTÃO (comprar = “sim”) SE (país = “França” E idade > 25) ENTÃO (comprar = “não”) 62 Mineração de Dados - Classificação Algoritmo ID3 [Quinlan 86] Passos para construção de uma árvore de decisão: 1. Seleciona um atributo como sendo o nodo raiz ; 2. Arcos são criados para todos os diferentes valores do atributo selecionado no passo 1; 3. Se todos os exemplos de treinamento sobre uma folha pertencerem a uma mesma classe, esta folha recebe o nome da classe. Se todas as folhas possuem uma classe, o algoritmo termina; 4. Senão, o nodo é determinado com um atributo que não ocorra no trajeto da raiz, e arcos são criados para todos os valores. O algoritmo retorna ao passo 3. 63 Mineração de Dados - Classificação Exemplo Árvore de Decisão ou Árvore de Classificação ID 1 2 3 4 5 6 7 8 9 Salário 3.000 4.000 7.000 6.000 7.000 6.000 6.000 7.000 4.000 Idade 30 35 50 45 30 35 35 30 45 Tipo Emprego Autônomo Indústria Pesquisa Autônomo Pesquisa Indústria Autônomo Autônomo Indústria Classe B B C C B B A A B Salário 5.000 5.000 Idade B 40 40 T.Empr. Ind.,Pesq. C Autônomo Regras de Classificação B A (Sal 5.000) Classe = B (Sal 5.000) (Idade 40) Classe = C (Sal 5.000) (Idade 40) (TEmpr = Autônomo) Classe = A (Sal 5.000) (Idade 40) ((TEmpr = Indústria) (TEmpr = Pesquisa)) Classe = B 64 Mineração de Dados - Classificação Algoritmo ID3: restrições O algoritmo ID3 não contempla todos os casos: • Quando atributos forem numéricos? – Esquemas de discretização. – Identificação de categorias discretas em atributos numéricos (particionamento do atributo). • Quando dados estiverem incompletos? – Usar classe “faltando”. – Substituir valores inexistentes (pré-processamento). • Complexidade da árvore resultante – Pruning (poda) Outros algoritmos: C4.5 / J4.8 65 Mineração de Dados Associação 66 Mineração de Dados - Associação Descoberta de Regras de Associação Regras de associação ou regras associativas têm a forma {X1, X2, ..., Xn} Y significando que se encontrarmos todos os itens X1, X2, ..., Xn numa transação, então temos uma boa chance de encontrar também Y. (Freitas,2000) 67 Mineração de Dados - Associação Precisamos de métricas que indiquem: • Significância em uma associação: ela pode existir mas ser muito rara em uma base de dados (ex. Compra cerveja e fraldas). – Suporte X Λ Y : número de casos que contém X e Y dividido pelo número total de registros. • Confiança em uma associação: o antecedente pode ocorrer várias vezes na base de dados mas nem sempre com o mesmo conseqüente associado. – Confiança X Λ Y : número de registros que contém X e Y dividido pelo número de registros que contém X. (Freitas,2000) 68 Mineração de Dados - Associação Descoberta de Regras de Associação dada a regra de associação XY X implica Y se X então Y se compra X então compra Y, define-se suporte = confiança = Número de registros com X e Y Número total de registros Número de registros com X e Y Número de registros com X Grau de Certeza (Freitas,2000) 69 Mineração de Dados - Associação “ Tarefa é descobrir todas a regras de associação com suporte ao suporte mínimo (minsup) e confiança confiança mínima (minconf) , definidas pelo usuário”. (Freitas,2000) 70 Mineração de Dados - Associação Descoberta de Regras de Associação Cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item. num 1 2 3 4 5 6 7 8 9 10 leite não sim não sim não não não não não não café sim não sim sim não não não não não não cerveja não sim não não sim não não não não não pão sim sim sim sim não não sim não não não manteiga sim sim sim sim não sim não não não não arroz não não não não não não não não sim sim feijão não não não não não não não sim sim não (FREITAS & LAVINGTON 98) 71 Mineração de Dados - Associação Descoberta de Regras de Associação SE (café) ENTÃO (pão) SE (café) ENTÃO (manteiga) SE (pão) ENTÃO (manteiga) SE (manteiga) ENTÃO (pão) SE (café E pão) ENTÃO (manteiga) SE (café E manteiga) ENTÃO (manteiga) SE (café) ENTÃO (manteiga E manteiga) sup=0.3 conf.=1 sup=0.3 conf.=1 sup=0.4 conf.=0.8 sup=0.4 conf.=0.8 sup=0.3 conf.=1 sup=0.3 conf.=1 sup=0.3 conf.=1 (Freitas, 2000) 72 Mineração de Dados - Associação Algoritmos de regras de Associação AIS SETM Apriori Apriori -TID Apriori-Hybrid Dense – Miner MiRABIT 73 TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori (1) Dado um limiar de suporte minsup, no primeiro passo encontre os itens que aparecem ao menos numa fração das transações igual a minsup. Este conjunto é chamado L1, dos itens freqüentes. (2)Os pares dos itens em L1 se tornam pares candidatos C2 para o segundo passo. Os pares em C2 cuja contagem alcançar minsup são os pares freqüentes L2 . (3) As trincas candidatas C3 são aqueles conjuntos {A, B, C} tais que todos os {A, B}, {A, C} e {B, C} estão em L2. No terceiro passo, conte a ocorrência das trincas em C3; aquelas cuja contagem alcançar minconf são as trincas freqüentes, L3. (4) Proceda da mesma forma para tuplas de ordem mais elevada, até os conjuntos se tornarem vazios. Li são os conjuntos freqüentes de tamanho i; Ci+1 é o conjunto de tamanho i+1 tal que cada subconjunto de tamanho i está em Li. 74 TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori Conjunto de itens suporte {leite} 2 {café} 3 {cerveja} 2 {pão} 5 {manteiga} 5 {arroz} 2 {feijão} 2 C1 L1 será os itens de C1 com suporte >= 3 (0,3) Conjunto de itens suporte {café} 3 {pão} 5 {manteiga} 5 L1 75 TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori C2 , L2 Os pares dos itens de L1 tornam-se Candidatos para o C2 Conjunto de itens suporte {café, pão} 3 {café, manteiga} 3 {pão, manteiga} 4 Conjunto de itens {café, pão, manteiga} suporte 3 C3, L3 76 TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori Regras candidatas com dois itens com o seu grau de certeza(Confiança): Conjunto de itens: {café, pão} Se café Então pão conf = 1,0 Se pão Então café conf = 0,6 Conjunto de itens: {café, manteiga} Se café Então manteiga conf = 1,0 Se manteiga Então café conf = 0,6 Conjunto de itens: {pão, manteiga} Se pão Então manteiga conf = 0,8 Se manteiga Então pão conf = 0,8 77 TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori Regras candidatas com três itens com o seu valor de certeza: Conjunto de itens: {café, manteiga, pão} Se café, manteiga Então pão conf = 1,0 Se café, pão Então manteiga conf = 1,0 Se manteiga, pão Então café conf = 0,75 Se café Então manteiga, pão conf = 1,0 Se manteiga Então café, pão conf = 0,6 Se pão Então café, manteiga conf = 0,6 78 Mineração de Dados - Associação Descoberta de Regras de Associação Padrões descobertos, minsup = 0,3 e minconf = 0,8: Se café Então pão conf = 1,0 Se café Então manteiga conf = 1,0 Se pão Então manteiga conf = 0,8 Se manteiga Então pão conf = 0,8 Se café, manteiga Então pão conf = 1,0 Se café, pão Então manteiga conf = 1,0 Se café Então manteiga, pão conf = 1,0 79 Mineração de Dados Clustering Agrupamento 80 Mineração de Dados - Clustering Cluster É o resultado da identificação de um conjunto finito de categorias (ou grupos - clusters) que contêm objetos similares. Grupos esses que não são previamente definidos. 81 Mineração de Dados - Clustering Análise de Cluster “Esta técnica agrupa informações homogêneas de grupos heterogêneos entre os demais e aponta o item que melhor representa cada grupo, permitindo, desta forma, que consigamos perceber a característica de cada grupo. Instintivamente as pessoas visualizam os dados segmentados em grupos discretos, como por exemplo, tipos de plantas ou animais. Na criação desses grupos discretos pode-se notar a similaridade dos objetos em cada grupo”. GTI (2002) - Deborah R. Carvalho 82 Mineração de Dados - Clustering Análise de Cluster Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas; Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite; Seguros: identificação de grupos de assegurados com alto custo de sinistro; Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica; Estudos sobre clientes: identificação dos tipos de clientes em função de pagamentos de duplicatas – Meu Caso. 83 Mineração de Dados - Clustering O que é bom Clustering: Um bom método de agrupamento (clustering) deve produzir clusters de qualidade com: Alta similaridade intra-classe; Baixa similaridade inter-classes. A qualidade do resultado de um processo de clustering depende da medida de similaridade, do método utilizado e de sua implementação; A qualidade um um processo de clustering também deve ser avaliada pela sua habilidade de descobrir alguns ou todos os padrões escondidos (hidden patterns). 84 Mineração de Dados - Clustering Medida da qualidade do cluster Métrica de similaridade / dissimilaridade: expressa em termos de função de distância d(i, j) Existe uma função de “qualidade” que é uma medida da “adequação” de um cluster; Existem definições de funções de distância que são diferentes para variáveis intervalares, booleanas, categóricas e proporções; Pesos devem ser associados às variáveis baseados na aplicação e na semântica dos dados; É difícil definir “suficientemente similar”, pois tipicamente esta avaliação é subjetiva. 85 Mineração de Dados - Clustering Similaridade entre objetos: distâncias Distância típica: de Minkowski; d (i, j) q (| x x | | x x | ... | x x | ) i1 j1 i2 j2 ip jp q q q Onde i = (xi1, xi2, …, xip) e j = (xj1, xj2, …, xjp) são vetores p-dimensionais e q é um inteiro positivo. 86 Mineração de Dados - Clustering Similaridade entre objetos: distâncias q =1: distância de Manhattan: d (i, j) | x x | | x x | ... | x x | i1 j1 i2 j 2 ip jp q =2: distância euclidiana: d (i, j) (| x x | 2 | x x | 2 ... | x x | 2 ) i1 j1 i2 j2 ip jp 87 Mineração de Dados - Clustering O método k-means (k-médias) Dado k, o algoritmo k-means é implementado em quatro passos: 1. Partição dos objetos em k conjuntos não vazios; 2. Cálculo de pontos “semente” como os centróides (médias) dos clusters das partições correntes; 3. Assinalação de cada objeto ao cluster (centróide) mais próximo de acordo com a função de distância; 4. Retorno ao passo 2 até que não haja mais alterações de assinalação. 88 Mineração de Dados - Clustering O método k-means (k-médias) - Exemplo 10 10 9 9 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 0 0 0 1 2 3 4 5 6 7 8 9 10 0 10 10 9 9 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 1 2 3 4 5 6 7 8 9 10 0 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 89 Estudo de Caso Extração de conhecimento na base de clientes da Organização Arnon de Mello 90 Estudo de Caso - OAM Ferramentas Observadas Bayesialab KnowledgeMiner Miner3D Mineset 3.2 PolyAnalyst Weka WizRule WizWhy XpertRule 91 Estudo de Caso - OAM INTERPRETAÇÃO/ AVALIAÇÃO DATA MINING CONHECIMENTO ? PADRÕES TRANSFORMAÇÃO PRÉ-PROCESSAMENTO DADO TRANSFORMADO DADO PROCESSADO SELEÇÃO DADO ANALISADO DADOS SQL Server Planilha EXCEL FAYYAD 1996 Filtros para os atributos: Cliente,Vencimento,Baixa, Valor 92 Estudo de Caso - OAM 93 Estudo de Caso - OAM 94 MineSet - Tools Estudo de Caso - OAM 95 Estudo de Caso - OAM 96 Estudo de Caso - OAM Histograma Cliente X Clientes por quantidade de transações financeiras (Nº de Duplicatas) Cerca de 75% da carteira pagam até 21 dias de atraso Cliente Tipo A pagam entre 0 e 30 dias de atraso 97 Estudo de Caso - OAM Dispersão 98 Estudo de Caso - OAM Dispersão O cliente 105414 paga com mais de 360 dias de atraso e seu volume é de R$717.544 – Requer providências imediatas. 99 Estudo de Caso - OAM Mapa 100 Estudo de Caso - OAM Classificação 101 Estudo de Caso - OAM Classificação – Indutor: Àrvore de decisão 102 Classificação 103 Estudo de Caso - OAM Associação 104 Estudo de Caso - OAM O cliente 105414 se mantém na faixa de atraso em (241.5...360) Regra: Se for cliente 105414 paga com mais de 240 dias de atraso 105 Estudo de Caso - OAM Regra1: Se for cliente 108017 paga até 30 dias de atraso Regra2: Se for cliente 113009 paga no prazo (atraso = 0) 106 Estudo de Caso - OAM Clustering 107 Estudo de Caso - OAM Clustering 108 Estudo de Caso - OAM Clustering 109 Estudo de Caso - OAM Clustering 110