Agenda Apresentação dos Alunos + Docente Introdução à Mineração de Dados (MT-803) Formaç Formação + Situaç Situação Atual Expectativas Apresentação da Disciplina Critérios de Avaliação Programa Dicas sobre revisão de artigos Stanley Robson de Medeiros Oliveira Professor Colaborador Breve Introdução à Mineração de Dados IMECC – 1o. Semestre de 2012 MT-803: Introdução à Mineração de Dados – Aula 1 Informações Gerais Metodologia Professor Responsável: Laecio Barros. Aulas teóricas expositivas. Professor Credenciado: Stanley Robson de Medeiros Oliveira. Discussões em sala de aula. Atividades em sala de aula. Carga Horária Semestral: 60 horas Aulas práticas em laboratório. Número de Créditos: 12 MT-803: Introdução à Mineração de Dados – Aula 1 2 Apresentação de estudos de caso. 3 MT-803: Introdução à Mineração de Dados – Aula 1 4 Sobre o professor Critérios de Avaliação Formação Frequência: Indispensável. Graduação – Ciência da Computação (UFCG – 1990). Horário das aulas: Sextas das 17:00 às 20:00h. Mestrado – Ciência da Computação (UFCG – 1996). Exercícios (15%): Doutorado – Mineração de Dados (Universidade de Alberta, Canadá – 2004). Revisões de artigos – pelo menos 2 artigos p/ aluno. Listas de Exercícios (individual). Atuação Profissional Tarefa especial (15%). Desenvolvedor (Embrapa). Analista de Sistemas (Embrapa). Avaliação: Pesquisador (Embrapa). Prova em Sala de Aula (40%). Docência (ITI/EEP, IPEP, IBTA, Unicamp/Feagri). MT-803: Introdução à Mineração de Dados – Aula 1 Trabalho de Conclusão (45%). 5 MT-803: Introdução à Mineração de Dados – Aula 1 Planejamento das Aulas Planejamento das Aulas ... Aula 1 – 09/03/2012 Aula 2 6 Aspectos relevantes na fase de preparação de dados. Informações gerais sobre o curso: Fatores críticos de sucesso para mineração de dados. Ementa, metodologia, avaliação dos alunos. Caracterização e representação de dados. Dicas sobre como revisar e apresentar artigos científicos. Problemas relacionados à qualidade dos dados: Valores faltantes, ruídos e redundância. Exercício: Definição de um artigo para revisão. Integração de dados de múltiplas fontes. Transformação (normalização) de dados. Abordagens para redução de dados: Breve revisão sobre tarefas de mineração de dados. Agregação, amostragem, sintetização de dados. MT-803: Introdução à Mineração de Dados – Aula 1 7 MT-803: Introdução à Mineração de Dados – Aula 1 8 Planejamento das Aulas ... Planejamento das Aulas ... Aula 3 Aula 4 Redução de Dimensionalidade: Aula Prática – Laboratório – WEKA Aspectos relevantes. Projeção Aleatória, PCA, outros métodos. Aula em laboratório cobrindo os tópicos sobre preparação de dados já apresentados. Métodos para Seleção de Atributos: Força Bruta (Brute-Force); Métodos Embedded; Métodos Warppers; Método baseado no teste do Qui-quadrado; Método baseado na correlação de atributos (CFS). Estudo de caso – comparação dos métodos acima. MT-803: Introdução à Mineração de Dados – Aula 1 9 MT-803: Introdução à Mineração de Dados – Aula 1 Planejamento das Aulas ... Planejamento das Aulas ... Aula 5 Aula 6 Clusterização ou Agrupamentos de Dados: Geração de Regras de Associação: Conceitos básicos Geração de regras de associação O Algoritmo Apriori. Efeitos da distribuição do suporte nos datasets. Conceitos e aplicações Tipos de dados em clusterização Medidas de similaridade Análise da qualidade de clusters gerados Métodos de Clusterização: particionamento Métodos hierárquicos Métodos baseados em densidade Problemas na seleção de regras. Medidas de interesse. Exercício em aula. MT-803: Introdução à Mineração de Dados – Aula 1 10 Outros métodos. 11 MT-803: Introdução à Mineração de Dados – Aula 1 12 Planejamento das Aulas ... Planejamento das Aulas ... Aula 7 Aula 8 Introdução à Aprendizagem de Máquina Aula Prática – Laboratório – WEKA O processo de classificação de dados. Aula em laboratório cobrindo os tópicos sobre regras de associação e clusterização. Principais métodos de classificação. Árvores de decisão. Entropia e ganho de informação. Principais algoritmos existentes (ID3, C4.5, CART). Escolha do atributo “split”. Mecanismos de poda . MT-803: Introdução à Mineração de Dados – Aula 1 13 MT-803: Introdução à Mineração de Dados – Aula 1 Planejamento das Aulas ... Planejamento das Aulas ... Aula 9 Aula 10 Introdução à Aprendizagem de Máquina (continua) O Algoritmo K-NN (vizinho mais próximo) 14 Aula Prática – Laboratório – WEKA Aula em laboratório cobrindo os tópicos sobre: O algoritmo Naïve Bayes. Árvores de decisão, Introdução às redes neurais artificiais. RNA, Classificador SVM (Support Vector Machine). SVM, Naïve Bayes, K-NN. MT-803: Introdução à Mineração de Dados – Aula 1 15 MT-803: Introdução à Mineração de Dados – Aula 1 16 Planejamento das Aulas ... Planejamento das Aulas ... Aula 11 Aula 12 Aprendizado com classes desbalanceadas: Aula Prática – Laboratório – WEKA O algoritmo k-vizinhos mais próximos; Aula em laboratório cobrindo os tópicos sobre aprendizado com classes desbalanceadas. Principais métodos; Precisão, taxa de erro e classes desbalanceadas; Como descartar ou duplicar exemplos; Tratamento para classes desbalanceadas. MT-803: Introdução à Mineração de Dados – Aula 1 17 MT-803: Introdução à Mineração de Dados – Aula 1 Planejamento das Aulas ... Planejamento das Aulas ... Aula 13 Aula 14 Prova em sala de aula Apresentação oral dos trabalhos finais; Assunto: todo o conteúdo sobre preparação de dados apresentado. Entrega de relatórios com resultados (artigo). 18 Aula 15 A prova é Individual e SEM Consulta. Apresentação oral dos trabalhos finais; Não é permitido o empréstimo de qualquer material. Entrega de relatórios com resultados (artigo). Usar caneta azul ou preta. MT-803: Introdução à Mineração de Dados – Aula 1 19 MT-803: Introdução à Mineração de Dados – Aula 1 20 Disponibilização do Material Didático Bibliografia FAYYAD, U., HAUSSLER, D. & STOLORZ, P., Mining Scientific Data, Communications of the ACM, Nov. 1996, Vol. 39, No. 11, 1996, Pages 51-57. HAN, J. & KAMBER, M. Data Mining: Concepts and Techniques, 2nd edition, Morgan Kaufmann, 2006. HAND, D. J.; MANNILA, H. & SMYTH, P. Principles of Data Mining, The MIT Press, 2001. LIU, H.; MOTODA, H. Computational Methods of Feature Selection, Chapman & Hall/CRC, 2008. 419p. MARDIA, K.V.; KENT, J.T. & BIBBY, J.M. Multivariate Analysis, Academic Press, 1979. PIATETSKI-SHAPIRO, G. & FRAWLEY, W.J., Knowledge Discovery in Databases. AAAI Press, Menlo Park, California, 1991. PYLE, D., Data Preparation for Data Mining, Morgan Kaufmann, 1999. REZENDE, S. O., Sistemas Inteligentes, Manole, 2003. TAN, Pang-Ning; STEINBACH, Michael; KUMAR, Vipin. Introduction to Data Mining. Addison Wesley, 2006. 769p. http://www.teleduc.imecc.unicamp.br/~teleduc WITTEN, I.H. & FRANK, E., Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2011. MT-803: Introdução à Mineração de Dados – Aula 1 21 MT-803: Introdução à Mineração de Dados – Aula 1 22 Critérios para avaliar uma revisão Dicas sobre Revisão de Artigos Entendimento: Compreensão sobre o problema de pesquisa e sua solução; Identificação dos pontos fracos e fortes do artigo; Apresentação de críticas pessoais sobre os pontos analisados. Relevância: Tente identificar algum relacionamento entre o artigo revisado com outros artigos relacionados (citados ou não no artigo revisado). MT-803: Introdução à Mineração de Dados – Aula 1 24 Critérios para avaliar uma revisão Respostas: Detalhes importantes Comece lendo o resumo; depois vá para as conclusões. Procure mencionar o problema e sua solução com as suas próprias palavras. Em seguida, leia a introdução e demais seções. Descreva os principais pontos do artigo sem detalhes desnecessários. A introdução deveria conter: Suas respostas devem ser claras e precisas. O problema de pesquisa e sua solução; As principais contribuições do artigo; Um mapa (roteiro) das seções do artigo. MT-803: Introdução à Mineração de Dados – Aula 1 25 MT-803: Introdução à Mineração de Dados – Aula 1 Detalhes importantes Questões a serem respondidas Em geral, as conclusões ressaltam: 1. Qual é o problema que está sendo abordado? A solução do problema de pesquisa (de forma sucinta); 26 2. Como os autores solucionaram o problema? 3. Quais são as diferenças entre o artigo que está sendo revisado com os trabalhos relacionados? As contribuições do artigo; 4. Quais são as principais contribuições do artigo? Os principais resultados alcançados; 5. Quais são os pontos fracos e fortes do artigo? Trabalhos futuros. 6. Como os autores poderiam melhorar o conteúdo e a apresentação do artigo? 7. Qual seria o público alvo para o artigo revisado? MT-803: Introdução à Mineração de Dados – Aula 1 27 MT-803: Introdução à Mineração de Dados – Aula 1 28 Próximos Passos Introdução à Mineração de dados Revisar o artigo abaixo: Gustavo E. A. P. A. Batista; Ronaldo C. Prati; Maria Carolina Monard. A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data. SIGKDD Explorations, 6(1):20-29, 2004. Importante: Entregar a revisão até a próxima aula; Será dado um “feedback” a todos os alunos; Conhecimento Essa revisão não terá nota. Servirá como exercício. MT-803: Introdução à Mineração de Dados – Aula 1 29 O Problema da Explosão de Dados O Problema da Explosão de Dados Ponto de Vista Comercial Informatização generalizada Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc: negócios, governos, pesquisas Armazenamento Dados de comércio eletrônico; Dados de navegação na internet; Dados de compras de clientes em grandes lojas de departamentos, supermercados; Dados de transações bancárias, ou de cartão de crédito. maior capacidade, menor custo Evolução da coleta de dados Leitores de código de barras, Sensores, ... MT-803: Introdução à Mineração de Dados – Aula 1 31 MT-803: Introdução à Mineração de Dados – Aula 1 32 O Problema da Explosão de Dados Efeitos da Explosão de Dados Ponto de Vista Científico: Medicina, Biologia, Engenharia Dados coletados e armazenados a velocidades enormes (GB/hora) Sensores remotos em satélites; A quantidade de informação é duplicada a cada dois anos. Muitas empresas usam apenas 7% dos dados coletados. Telescópios; Somos ricos em dados e pobres em informação e conhecimento. Microarrays gerando dados de expressões de genes; Simulações científicas gerando terabytes de dados. Necessidade: técnicas para explorar grande volume de dados e transformar esses dados em conhecimento. Técnicas tradicionais não apropriadas para analisar tais dados: ruídos e grande dimensionalidade. MT-803: Introdução à Mineração de Dados – Aula 1 33 MT-803: Introdução à Mineração de Dados – Aula 1 34 Dado, Informação e Conhecimento Efeitos da Explosão de Dados ... Existem informações escondidas nos dados que não são evidentes – muitos conjuntos de dados nunca são analisados. operações lógicas interpretações Analistas levariam semanas para analisar parte desses dados. Dados 4,000,000 Informação Conhecimento 3,500,000 Dado é algo bruto; é a matéria-prima da qual podemos extrair informação. The Data Gap 3,000,000 2,500,000 2,000,000 1,500,000 Informação é o dado processado, com significado e contexto bem definido. Total new disk (TB) since 1995 1,000,000 Number of analysts 500,000 Conhecimento é o uso inteligente da informação; é a informação contextualizada e utilizada na prática. 0 1995 1996 1997 1998 1999 Fonte: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” MT-803: Introdução à Mineração de Dados – Aula 1 35 MT-803: Introdução à Mineração de Dados – Aula 1 36 O que é mineração de dados? Diferentes pontos de vista O processo da descoberta de novas informações a partir de grandes massas de dados. Databases: Concentra-se em conjuntos de dados gigantes (non-main-memory). Descoberta de padrões não triviais, implícitos e desconhecidos) em grandes bases de dados. Processo de extração de modelos úteis de um conjunto de dados. MT-803: Introdução à Mineração de Dados – Aula 1 37 AI (machine-learning): concentra-se em modelos complexos, mesmo que os conjuntos de dados sejam pequenos. Statistics: concentra-se em modelos. MT-803: Introdução à Mineração de Dados – Aula 1 Modelos x Processamento Analítico Mineração de Dados: Por que ? Para um especialista em Banco de Dados, data mining é uma forma de processamento analítico – consultas que examinam grandes quantidades de dados. Técnicas de Mineração podem ajudar analistas: O resultado é um conjunto de respostas (padrões, sequências, regras, agrupamento de objetos, etc). 38 Entender e prever as necessidades de clientes; Descobrir fraudes; Descobrir perfis de comportamento de clientes. Técnicas de Mineração podem ajudar cientistas: Classificar e segmentar dados; Para um estatístico, data mining é um processo de inferência de modelos. Formular hipóteses. O resultado é uma lista de parâmetros do modelo. MT-803: Introdução à Mineração de Dados – Aula 1 39 MT-803: Introdução à Mineração de Dados – Aula 1 40 Consulta versus Mineração Consulta e Resultado O que é Mineração de Dados? Cliente Produto Classe Social SELECT Clientes.Prod FROM Clientes WHERE Clientes. Faixa = ‘A’ Tempo 1 Vinho A T1 2 Açúcar B T2 1 Queijo A T1 3 Pão C T3 3 Leite C T3 1 Vinho A T4 1 Queijo A T4 4 Leite C T5 RESPOSTA: Vinho, Queijo Que produtos são comprados por clientes Classe A ? MT-803: Introdução à Mineração de Dados – Aula 1 41 Consulta versus Mineração Cliente Produto Classe Social MT-803: Introdução à Mineração de Dados – Aula 1 42 Resultado da Mineração Tempo 1 Vinho A T1 2 Açúcar B T2 1 Queijo A T1 3 Pão C T3 3 Leite C T3 1 Vinho A T4 1 Queijo A T4 4 Leite C T5 PADRÕES: Classe A -> vinho, queijo Classe C -> pão, leite … Existe ligação entre a classe social e produtos comprados numa mesma transação ? MT-803: Introdução à Mineração de Dados – Aula 1 43 MT-803: Introdução à Mineração de Dados – Aula 1 44 Mineração de Dados: O que é ? Exemplos Qual o perfil do cliente que consome mais ? Sim Não 1. Fazer uma consulta no Google sobre “Data Mining ”. 1. Agrupar documentos similares retornados pelo Google de acordo com seu contexto. 2. Procurar um nome numa lista telefônica. 2. Descobrir se certos nomes aparecem com mais frequência em determinadas regiões da cidade (periferia, centro, bairros abastados,…) 3. Fazer uma consulta SQL a um banco de dados. MT-803: Introdução à Mineração de Dados – Aula 1 45 Mineração: Área Multidiciplinar Que produtos são comprados conjuntamente ? E em sequência ? Meu site web tem uma boa estrutura ? Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas ? Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, enchentes? MT-803: Introdução à Mineração de Dados – Aula 1 46 Influência das Disciplinas Aprendizado de Máquina (Inteligência Artificial) Banco de Dados Estatística Algoritmos de aprendizado indutivo Estatística Inteligência Artificial Mineração de Dados Visualização Métodos de análise de dados Seleção e amostragem de dados Técnicas de avaliação do conhecimento Banco de Dados Otimização Data Warehousing Estruturas de dados e mecanismos de busca Outras Disciplinas Visualização Técnicas que estimulam a percepção e a inteligência MT-803: Introdução à Mineração de Dados – Aula 1 47 MT-803: Introdução à Mineração de Dados – Aula 1 48 A descoberta do conhecimento Pré-processamento: em muitos casos pode consumir 60% ou mais do tempo no processo de descoberta de conhecimento Estatística versus Mineração Avaliação de Padrões Mineração Padrões Especialista Estatística Mineração de Dados Número de pontos a ser analisado é pequeno Número de pontos a ser analisado é muito grande É baseada em hipótese (rejeita ou aceita) É uma atividade exploratória Uma amostra dos dados é suficiente Quanto maior a quantidade de dados, melhor. Conhecimento Seleção e Transformação Dados-Alvo Limpeza e Integração Dados Integrados Dados MT-803: Introdução à Mineração de Dados – Aula 1 49 Principais Tarefas de Mineração MT-803: Introdução à Mineração de Dados – Aula 1 50 Principais Tarefas de Mineração Analista MINERAÇÃO DE DADOS PREDIÇÃO DESCRIÇÃO Tarefas de Mineração de Dados • Associação Dados Conhecimento CLASSIFICAÇÃO • Classificação REGRESSÃO ASSOCIAÇÃO AGRUPAMENTO • Clusterização (agrupamento) MT-803: Introdução à Mineração de Dados – Aula 1 51 MT-803: Introdução à Mineração de Dados – Aula 1 52 Tarefas de Mineração de Dados Tarefas de Mineração Tarefas Preditivas Tarefa padrão. Predizer o valor de um determinado atributo baseado nos valores de outros atributos: Classificação – Predição. Regras de Associação; Tarefas Descritivas Análise de Sequências; Derivar « padrões » : correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados: Regras de Associação – Padrões Sequenciais – Agrupamentos – Anomalias. MT-803: Introdução à Mineração de Dados – Aula 1 ato de descobrir um certo tipo de Classificação; Agrupamento; Outliers, etc. 53 Tarefas versus Técnicas MT-803: Introdução à Mineração de Dados – Aula 1 54 Classificação de Dados A TAREFA consiste no ato de descobrir um certo tipo de padrão, ou seja, que tipo de regularidades temos interesse em encontrar. É uma tarefa preditiva: define o valor de uma variável desconhecida a partir de variáveis conhecidas. Exemplo: um gasto exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus gastos. Passo 1: encontrar um modelo para o atributo alvo como uma função dos valores dos outros atributos. A TÉCNICA consiste na especificação de métodos que garantam a descoberta de padrões que nos interessam. Passo 2: registros não conhecidos devem ser associados à classe com a maior precisão possível. Principais técnicas utilizadas: Estatísticas, técnicas de aprendizado de máquina e técnicas baseadas em crescimento-poda-validação. MT-803: Introdução à Mineração de Dados – Aula 1 55 MT-803: Introdução à Mineração de Dados – Aula 1 56 Exemplo de árvore de decisão O que é classificação? ... Tid Atrib1 Atrib2 Atrib3 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No algoritmo Class 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes usado Indução Criação do Modelo 10 Modelo Conjunto de treinamento Tid Attrib1 11 No Attrib2 Small Attrib3 Aplicação do Modelo Class 55K ? 12 Yes Medium 80K ? 13 Yes Large 110K ? 14 No Small 95K ? 15 No Large 67K ? Dedução Tid Retorno Estado Civil Renda Anual Mentiu 1 Sim Solteiro 125K Nao 2 Nao Casado 100K Nao 3 Nao Solteiro 70K Nao Sim 4 Sim Casado 120K Nao NAO 5 Nao Divorciado 95K Sim 6 Nao Casado 60K Nao 7 Sim Divorciado 220K Nao 8 Nao Solteiro 85K Sim 9 Nao Casado 75K Nao 10 Nao Solteiro 90K Sim Particionamento de Atributos Retorno Nao EstCivil Casado Solteiro, Divorciado Renda < 80K NAO Conjunto de treinamento NAO > 80K Sim Modelo: árvore de decisão 10 Conjunto de Teste MT-803: Introdução à Mineração de Dados – Aula 1 57 Aplicando o conjunto de teste ao modelo Retorno Estado Civil Nao Retorno Sim Casado Conjunto de teste Renda Anual Mentiu 80K Retorno Estado Civil ? Nao Retorno 10 Nao NAO Sim Casado Renda < 80K NAO Renda MT-803: Introdução à Mineração de Dados – Aula 1 < 80K Pode haver mais de uma árvore para o mesmo conjunto de dados! 59 ? EstCivil NAO Sim 80K 10 Casado Solteiro, Divorciado > 80K Casado Renda Anual Mentiu Nao NAO EstCivil Solteiro, Divorciado 58 Aplicando o conjunto de teste ao modelo Conjunto de teste Início na raiz da árvore MT-803: Introdução à Mineração de Dados – Aula 1 NAO NAO > 80K SIM MT-803: Introdução à Mineração de Dados – Aula 1 60 Aplicando o conjunto de teste ao modelo Aplicando o conjunto de teste ao modelo Conjunto de teste Retorno Estado Civil Nao Retorno 80K Retorno Estado Civil ? Nao Retorno 10 Sim Nao NA EstCivil Yes Casado Renda Renda < 80K 61 Aplicando o conjunto de teste ao modelo Nao Sim Casado Conjunto de teste 80K ? Nao Retorno Sim NAO MT-803: Introdução à Mineração de Dados – Aula 1 Renda < 80K NAO 63 ? EstCivil NAO SIM 80K 10 Casado Solteiro, Divorciado > 80K Casado Renda Anual Mentiu Nao NAO Casado Solteiro, Divorciado 62 Retorno Estado Civil EstCivil < 80K MT-803: Introdução à Mineração de Dados – Aula 1 10 Renda YES Renda Anual Mentiu Nao NAO NAO Aplicando o conjunto de teste ao modelo Conjunto de teste Retorno Estado Civil Retorno Casado > 80K NAO MT-803: Introdução à Mineração de Dados – Aula 1 ? EstCivil NAO SIM NAO 80K 10 Solteiro, Divorciado > 80K Casado Renda Anual Mentiu Nao NAO Solteiro, Divorciado < 80K Casado Conjunto de teste Renda Anual Mentiu Associa “Nao” para o atributo Mentiu NAO > 80K SIM MT-803: Introdução à Mineração de Dados – Aula 1 64 Exemplo de Classificação Classificação: Aplicações DADOS Avaliação de concessão de créditos; Detecção de fraudes; Diagnósticos médicos; Sistema de alerta de geada; Previsão de mortalidade de frangos; Agrupamento de família de proteínas; etc. MT-803: Introdução à Mineração de Dados – Aula 1 Registros de venda de automóveis das concessionárias de uma determinada marca. CONHECIMENTO DESCOBERTO SE (tipo = pick–up) E (sexo = M) E (idade < 28) ENTÃO (acessórios = completo) (85%) DECISÃO Lançar novo modelo de pick-up com jogo completo de acessórios e cores atrativas a jovens do sexo masculino. 65 A descoberta do conhecimento ... MT-803: Introdução à Mineração de Dados – Aula 1 66 Perguntas sobre Classificação 1. Considerando que o conjunto de teste é formado, em geral, por 33% das amostras no banco de dados, o que aconteceria se esse conjunto fosse reduzido para 5%? Característica de padrões interessantes: Novos: os padrões descobertos devem possuir um certo grau de novidade. 2. Qual é a grande vantagem da árvore de decisão em relação às outras abordagens (Redes Neurais, Naïve Bayes, etc)? Úteis: os padrões descobertos devem ter potencial de conduzir a ações com utilidade. Compreensíveis: padrões compreensíveis pelos humanos é um objetivo (simplicidade). Padrões interessantes representam CONHECIMENTO MT-803: Introdução à Mineração de Dados – Aula 1 67 MT-803: Introdução à Mineração de Dados – Aula 1 68 Regras de Associação Associação: Aplicações Estuda o relacionamento entre itens de dados que ocorrem com uma certa freqüência. Associação de produtos em um processo de compra. É uma tarefa descritiva: identifica padrões em dados históricos. Elaboração de catálogos de produtos. Layout de prateleiras (produtos relacionados tendem a ser colocados perto nas prateleiras); Análise de seqüências de DNA; Análise de Web log (click stream), etc. MT-803: Introdução à Mineração de Dados – Aula 1 69 MT-803: Introdução à Mineração de Dados – Aula 1 Exemplo de Associação Exercícios sobre Associação Considere um cadastro de 500.000 clientes de uma loja de roupas. Através do uso de mineração foi descoberto: Como essa descoberta seria útil para essa loja? Uma campanha de marketing poderia ser direcionada para esses clientes objetivando o aumento de consumo de produtos infantis. Importante: inicialmente não foi elaborada uma consulta para identificar clientes com esses perfis. MT-803: Introdução à Mineração de Dados – Aula 1 71 Considere o conjunto de transações, abaixo, para uma locadora de filmes: TID T1 T2 T3 T4 T5 7% dos clientes são casados; Esses clientes estão na faixa etária de 31 a 40 anos; e Possuem pelo menos 2 filhos. 1. 2. 70 Lista de Filmes A, B, C, D, F, H, I, J, R A, C, D, P, Q C, P, Q B, C, H, I, J A, D, R, J Existem padrões de consumo? Quais? Com base em um padrão de consumo, dê um exemplo de uma recomendação, isto é, uma oferta que a locadora poderia sugerir para os seus clientes. MT-803: Introdução à Mineração de Dados – Aula 1 72 Clusterização ou Agrupamento Clusterização: Aplicações Marketing: Segmentação de mercado; É também considerada uma tarefa descritiva. Clusterização Medicina: Agrupamento de pacientes com sintomas semelhantes; Agrupamento de conjuntos de dados em clusters. Bioinformática: Agrupamento de famílias de proteínas. Cluster: uma coleção de objetos Similares aos objetos do mesmo cluster. Seguro: Identifica grupos de clientes que fazem comunicação de sinistro com alta freqüência. Dissimilares aos objetos de outros clusters. Clusterização é uma classificação não supervisionada - sem classes predefinidas. MT-803: Introdução à Mineração de Dados – Aula 1 Web: Agrupamento de documentos. 73 MT-803: Introdução à Mineração de Dados – Aula 1 74 Principais softwares para Mineração Exercícios sobre Clusterização 1. Como um analista de dados poderia transformar um problema de séries temporais curtas em um problema de clusterização? 2. Por que clusterização é considerada uma tarefa não-supervisionada? MT-803: Introdução à Mineração de Dados – Aula 1 75 MT-803: Introdução à Mineração de Dados – Aula 1 76 Exercícios Exercícios ... 3. 1. Qual é a diferença básica entre classificação e clusterização? 2. Complete a tabela a seguir: Aplicação Considere o conjunto de dados abaixo sobre eficiência de canade-açúcar em São Paulo (em 2002). Dê exemplo de um tipo de informação e de conhecimento que pode ser extraído desses dados. Tarefa de Mineração Detecção de fraudes Segmentação de mercado Análise de sequências de DNA Segmentar clientes em um banco Layout de prateleiras Diagnósticos médicos Perfil de compra de clientes Avaliação de riscos de empréstimos MT-803: Introdução à Mineração de Dados – Aula 1 77 MT-803: Introdução à Mineração de Dados – Aula 1 78