24/05/2012
Data Mining
Prof Luiz Antonio do Nascimento
Data Mining
Ferramenta utilizada para análise de dados para
gerar, automaticamente, uma hipótese sobre
padrões e anomalias identificadas para poder
prever um comportamento futuro.
Objetivo: identificar novos padrões de dados
válidos, compreensíveis e com potencial de uso.
Origem do Data Mining
Surgiu no início dos anos 90 para solucionar o
problemas em se conseguir informações estratégicas
nos bancos de dados das organizações.
A mineração de dados surgiu como alternativa a
métodos tradicionais (SQL, Planilhas, investigação
manual) e inviáveis para a solução do problema.
Foi utilizado idéias de várias áreas:
Banco de Dados
Aprendizado de Máquina
Estatística
1
24/05/2012
Aplicações Comuns do
Data Mining
Segmentação de mercado
Análise das cestas de mercado
Identifica as características comuns dos clientes
que compram os mesmos produtos de uma
empresa.
Compreende como produtos e serviços podem ser
comumente adquiridos juntos (cerveja e fraldas).
Reclamação de cliente
Prevê quais clientes estão mais propensos a
abandonar uma empresa e ir para a empresa
concorrente.
Mineração de Dados
Processo realizado através de estratégias
automatizadas que tem por objetivo a descoberta de
conhecimento valioso em grandes bases de dados.
Um “pequeno diamante de informação” é extraído a partir
de uma verdadeira “montanha de dados”.
Mineração de Dados
Um Data Warehouse possui Terabytes de dados.
Encontrar informações em grandes bases de dados não é
uma tarefa fácil.
Existe a necessidade de organizar os dados e de utilizar
ferramentas para recuperar informações relevantes.
Ferramentas de Data Mining recuperam automaticamente
informações do Data Warehouse.
2
24/05/2012
Propriedades de um
Conhecimento Relevante
O conhecimento descoberto através de processos de
mineração de dados é considerado interessante
quando apresenta certas propriedades:
Propriedades de um
Conhecimento Relevante
Conhecimento Relevante:
Representava uma informação nova.
Associação inesperada.
Não era conhecida pelos analistas da empresa.
Os analistas imaginavam que as vendas de cerveja estivessem associadas apenas a
produtos como salgados, carne para churrasco e outras bebidas alcoólicas, mas nunca
a produtos de higiene infantil.
A regra é válida.
A regra é interpretável
A regra é útil
Possuía expressividade estatística. Uma porcentagem considerável das compras
realizadas nas noites de quinta-feira continha ambos os produtos.
Pôde ser entendida e explicada pelos analistas. Sugere que nas noites de quinta-feira
casais jovens com filhos pequenos estocam fraldas e cervejas para o fim-de-semana.
Os gerentes puderam tomar ações capazes de aumentar as vendas de cerveja. Ex: os
produtos foram colocados em prateleiras próximas.
Tipos de Mineração de Dados
Descoberta de Associações
Objetivo: descobrir combinações de itens ou valores de atributos que
ocorrem com frequência significativa em uma base de dados.
Exemplo: Mineração do BD de um supermercado.
Regra de associação: {fraldas} Þ {cerveja}
 “50% das compras que contêm fraldas, também contêm cerveja e 15%
de todas as compras contêm os dois produtos”.
Regra de associação: {milho verde} Þ {ervilhas}
 “A compra do produto milho verde aumenta em 5 vezes a chance de um
cliente comprar ervilhas”.
3
24/05/2012
Tipos de Mineração de Dados
Descoberta de Associações
Exemplo: Sistema de Recomendação (sugerem itens que considera
interessantes para um usuário).
Regra de associação: {produto} Þ {produto recomendado}
 Livro 1 e Livro2.
 Notícia 1 e Notícia 2.
 Música 1 e música 2.
 Vídeo 1 e vídeo 2.
Exemplo: Segurança de Sistemas (aprimoram banco de dado de
antivírus e sistema de detecção de intrusos).
Regra de associação: {serviço x} Þ {operação y}
 (Service = “telnet”) ∧ (FailedLogins ≥ 1) ⇒ (Intrusion = “yes”)
Regra indica que as conexões nas quais o serviço de rede utilizado foi o telnet e
que apresentaram uma ou mais operações de login rejeitadas, tendem a ser
tentativas de intrusões.
Tipos de Mineração de Dados
Descoberta de Padrões Sequenciais
Objetivo: descobrir sequências de eventos frequentes (leva em conta a
ordem ou a data de ocorrência dos eventos).
Exemplo: Mineração do BD de loja de suprimentos de eletrônica.
Padrão sequencial: {netbook} Þ {hard disk}
 “50% dos consumidores que adquirem um netbook compram um hard
disk externo de 2 a 4 meses após a aquisição do netbook”.
Padrão sequencial: {navegação na Web} Þ {cliques}
 Análise de sequência de cliques em um site de ecommerce.
Tipos de Mineração de Dados
Classificação
Objetivo: a partir de um banco de dados contendo objetos préclassificados (objetos cuja classe é conhecida), construir um modelo que
seja capaz de classificar automaticamente novos objetos (objetos cuja a
classe é desconhecida) em função de suas características através de um
modelo classificador.
Exemplo: Mineração do BD de uma seguradora.
Análise de classificação de risco por característica de cliente.
Sexo feminino : “não se envolve em acidente”
Sexo masculino e idade superior a 25 anos : “não se envolve em acidente”.
Sexo masculino e idade igual ou inferior a 25 anos: “se envolve em acidente”
4
24/05/2012
Tipos de Mineração de Dados
Exemplo: Mineração do BD de uma seguradora.
 Análise de classificação de risco por característica de cliente.
A classificação é uma tarefa preditiva.
Tarefa preditiva: predizer (dizer antecipadamente
o que vai acontecer) o valor de um determinado
atributo baseado nos valores de outros atributos
Tipos de Mineração de Dados
Determinação de Agrupamentos
Objetivo: dividir automaticamente um conjunto de objetos em grupos
(clusters) de acordo com algum de tipo de relacionamento de
similaridade existente.
Exemplo: Personagens Simpsons.
Divisão em grupos de similaridade
Tipos de Mineração de Dados
Determinação de Agrupamentos
Exemplos de agrupamentos Simpsons
5
24/05/2012
Tipos de Mineração de Dados
Outros tipos
Mineração de Texto: descoberta de novas informações a partir da análise
de texto livre (artigos, documentos WORD ou PDF, etc.) ou semiestruturado (ex: arquivos HTML ou XML).
Mineração Web: uso de algoritmos para minerar conhecimento útil de
documentos e serviços da Web.
Regressão: similar à tarefa de classificação. A principal diferença é que o
atributo alvo é do tipo contínuo. Exemplo: valor de um imóvel em função
das características dele e do bairro.
Padrões em Séries Temporais: os dados de séries temporais contém
observações adjacentes e ordenadas, tipicamente uma sequência de valores
numéricos com um atributo representando o tempo.
Mineração de Exceções: o objetivo da tarefa é determinar objetos que
sejam diferentes da maioria dos outros objetos. Aplicações práticas:
detecção de fraudes, previsão de distúrbios no ecossistema, e outras.
Tecnicas de Data Mining
Cada tarefa de mineração de dados possui um
conjunto de técnicas associadas, que representam os
algoritmos que podem ser empregados para a sua
execução.
Ferramentas de Data Mining
Ferramentas comerciais:
Oracle
SAS
SPSS
SQL Server
Ferramentas livres:
R : já existem diversos pacotes para data mining que podem
ser integrados a este tradicional software open source para
estatística.
Weka: ferramenta para Data Mining.
6