24/05/2012 Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um comportamento futuro. Objetivo: identificar novos padrões de dados válidos, compreensíveis e com potencial de uso. Origem do Data Mining Surgiu no início dos anos 90 para solucionar o problemas em se conseguir informações estratégicas nos bancos de dados das organizações. A mineração de dados surgiu como alternativa a métodos tradicionais (SQL, Planilhas, investigação manual) e inviáveis para a solução do problema. Foi utilizado idéias de várias áreas: Banco de Dados Aprendizado de Máquina Estatística 1 24/05/2012 Aplicações Comuns do Data Mining Segmentação de mercado Análise das cestas de mercado Identifica as características comuns dos clientes que compram os mesmos produtos de uma empresa. Compreende como produtos e serviços podem ser comumente adquiridos juntos (cerveja e fraldas). Reclamação de cliente Prevê quais clientes estão mais propensos a abandonar uma empresa e ir para a empresa concorrente. Mineração de Dados Processo realizado através de estratégias automatizadas que tem por objetivo a descoberta de conhecimento valioso em grandes bases de dados. Um “pequeno diamante de informação” é extraído a partir de uma verdadeira “montanha de dados”. Mineração de Dados Um Data Warehouse possui Terabytes de dados. Encontrar informações em grandes bases de dados não é uma tarefa fácil. Existe a necessidade de organizar os dados e de utilizar ferramentas para recuperar informações relevantes. Ferramentas de Data Mining recuperam automaticamente informações do Data Warehouse. 2 24/05/2012 Propriedades de um Conhecimento Relevante O conhecimento descoberto através de processos de mineração de dados é considerado interessante quando apresenta certas propriedades: Propriedades de um Conhecimento Relevante Conhecimento Relevante: Representava uma informação nova. Associação inesperada. Não era conhecida pelos analistas da empresa. Os analistas imaginavam que as vendas de cerveja estivessem associadas apenas a produtos como salgados, carne para churrasco e outras bebidas alcoólicas, mas nunca a produtos de higiene infantil. A regra é válida. A regra é interpretável A regra é útil Possuía expressividade estatística. Uma porcentagem considerável das compras realizadas nas noites de quinta-feira continha ambos os produtos. Pôde ser entendida e explicada pelos analistas. Sugere que nas noites de quinta-feira casais jovens com filhos pequenos estocam fraldas e cervejas para o fim-de-semana. Os gerentes puderam tomar ações capazes de aumentar as vendas de cerveja. Ex: os produtos foram colocados em prateleiras próximas. Tipos de Mineração de Dados Descoberta de Associações Objetivo: descobrir combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados. Exemplo: Mineração do BD de um supermercado. Regra de associação: {fraldas} Þ {cerveja} “50% das compras que contêm fraldas, também contêm cerveja e 15% de todas as compras contêm os dois produtos”. Regra de associação: {milho verde} Þ {ervilhas} “A compra do produto milho verde aumenta em 5 vezes a chance de um cliente comprar ervilhas”. 3 24/05/2012 Tipos de Mineração de Dados Descoberta de Associações Exemplo: Sistema de Recomendação (sugerem itens que considera interessantes para um usuário). Regra de associação: {produto} Þ {produto recomendado} Livro 1 e Livro2. Notícia 1 e Notícia 2. Música 1 e música 2. Vídeo 1 e vídeo 2. Exemplo: Segurança de Sistemas (aprimoram banco de dado de antivírus e sistema de detecção de intrusos). Regra de associação: {serviço x} Þ {operação y} (Service = “telnet”) ∧ (FailedLogins ≥ 1) ⇒ (Intrusion = “yes”) Regra indica que as conexões nas quais o serviço de rede utilizado foi o telnet e que apresentaram uma ou mais operações de login rejeitadas, tendem a ser tentativas de intrusões. Tipos de Mineração de Dados Descoberta de Padrões Sequenciais Objetivo: descobrir sequências de eventos frequentes (leva em conta a ordem ou a data de ocorrência dos eventos). Exemplo: Mineração do BD de loja de suprimentos de eletrônica. Padrão sequencial: {netbook} Þ {hard disk} “50% dos consumidores que adquirem um netbook compram um hard disk externo de 2 a 4 meses após a aquisição do netbook”. Padrão sequencial: {navegação na Web} Þ {cliques} Análise de sequência de cliques em um site de ecommerce. Tipos de Mineração de Dados Classificação Objetivo: a partir de um banco de dados contendo objetos préclassificados (objetos cuja classe é conhecida), construir um modelo que seja capaz de classificar automaticamente novos objetos (objetos cuja a classe é desconhecida) em função de suas características através de um modelo classificador. Exemplo: Mineração do BD de uma seguradora. Análise de classificação de risco por característica de cliente. Sexo feminino : “não se envolve em acidente” Sexo masculino e idade superior a 25 anos : “não se envolve em acidente”. Sexo masculino e idade igual ou inferior a 25 anos: “se envolve em acidente” 4 24/05/2012 Tipos de Mineração de Dados Exemplo: Mineração do BD de uma seguradora. Análise de classificação de risco por característica de cliente. A classificação é uma tarefa preditiva. Tarefa preditiva: predizer (dizer antecipadamente o que vai acontecer) o valor de um determinado atributo baseado nos valores de outros atributos Tipos de Mineração de Dados Determinação de Agrupamentos Objetivo: dividir automaticamente um conjunto de objetos em grupos (clusters) de acordo com algum de tipo de relacionamento de similaridade existente. Exemplo: Personagens Simpsons. Divisão em grupos de similaridade Tipos de Mineração de Dados Determinação de Agrupamentos Exemplos de agrupamentos Simpsons 5 24/05/2012 Tipos de Mineração de Dados Outros tipos Mineração de Texto: descoberta de novas informações a partir da análise de texto livre (artigos, documentos WORD ou PDF, etc.) ou semiestruturado (ex: arquivos HTML ou XML). Mineração Web: uso de algoritmos para minerar conhecimento útil de documentos e serviços da Web. Regressão: similar à tarefa de classificação. A principal diferença é que o atributo alvo é do tipo contínuo. Exemplo: valor de um imóvel em função das características dele e do bairro. Padrões em Séries Temporais: os dados de séries temporais contém observações adjacentes e ordenadas, tipicamente uma sequência de valores numéricos com um atributo representando o tempo. Mineração de Exceções: o objetivo da tarefa é determinar objetos que sejam diferentes da maioria dos outros objetos. Aplicações práticas: detecção de fraudes, previsão de distúrbios no ecossistema, e outras. Tecnicas de Data Mining Cada tarefa de mineração de dados possui um conjunto de técnicas associadas, que representam os algoritmos que podem ser empregados para a sua execução. Ferramentas de Data Mining Ferramentas comerciais: Oracle SAS SPSS SQL Server Ferramentas livres: R : já existem diversos pacotes para data mining que podem ser integrados a este tradicional software open source para estatística. Weka: ferramenta para Data Mining. 6