Data Mining Origem do Data Mining - Prof. Luiz Antonio

Propaganda
24/05/2012
Data Mining
Prof Luiz Antonio do Nascimento
Data Mining


Ferramenta utilizada para análise de dados para
gerar, automaticamente, uma hipótese sobre
padrões e anomalias identificadas para poder
prever um comportamento futuro.
Objetivo: identificar novos padrões de dados
válidos, compreensíveis e com potencial de uso.
Origem do Data Mining



Surgiu no início dos anos 90 para solucionar o
problemas em se conseguir informações estratégicas
nos bancos de dados das organizações.
A mineração de dados surgiu como alternativa a
métodos tradicionais (SQL, Planilhas, investigação
manual) e inviáveis para a solução do problema.
Foi utilizado idéias de várias áreas:



Banco de Dados
Aprendizado de Máquina
Estatística
1
24/05/2012
Aplicações Comuns do
Data Mining

Segmentação de mercado


Análise das cestas de mercado


Identifica as características comuns dos clientes
que compram os mesmos produtos de uma
empresa.
Compreende como produtos e serviços podem ser
comumente adquiridos juntos (cerveja e fraldas).
Reclamação de cliente

Prevê quais clientes estão mais propensos a
abandonar uma empresa e ir para a empresa
concorrente.
Mineração de Dados

Processo realizado através de estratégias
automatizadas que tem por objetivo a descoberta de
conhecimento valioso em grandes bases de dados.

Um “pequeno diamante de informação” é extraído a partir
de uma verdadeira “montanha de dados”.
Mineração de Dados

Um Data Warehouse possui Terabytes de dados.

Encontrar informações em grandes bases de dados não é
uma tarefa fácil.

Existe a necessidade de organizar os dados e de utilizar
ferramentas para recuperar informações relevantes.

Ferramentas de Data Mining recuperam automaticamente
informações do Data Warehouse.
2
24/05/2012
Propriedades de um
Conhecimento Relevante

O conhecimento descoberto através de processos de
mineração de dados é considerado interessante
quando apresenta certas propriedades:
Propriedades de um
Conhecimento Relevante

Conhecimento Relevante:

Representava uma informação nova.

Associação inesperada.


Não era conhecida pelos analistas da empresa.
Os analistas imaginavam que as vendas de cerveja estivessem associadas apenas a
produtos como salgados, carne para churrasco e outras bebidas alcoólicas, mas nunca
a produtos de higiene infantil.

A regra é válida.

A regra é interpretável

A regra é útil



Possuía expressividade estatística. Uma porcentagem considerável das compras
realizadas nas noites de quinta-feira continha ambos os produtos.
Pôde ser entendida e explicada pelos analistas. Sugere que nas noites de quinta-feira
casais jovens com filhos pequenos estocam fraldas e cervejas para o fim-de-semana.
Os gerentes puderam tomar ações capazes de aumentar as vendas de cerveja. Ex: os
produtos foram colocados em prateleiras próximas.
Tipos de Mineração de Dados

Descoberta de Associações


Objetivo: descobrir combinações de itens ou valores de atributos que
ocorrem com frequência significativa em uma base de dados.
Exemplo: Mineração do BD de um supermercado.


Regra de associação: {fraldas} Þ {cerveja}
 “50% das compras que contêm fraldas, também contêm cerveja e 15%
de todas as compras contêm os dois produtos”.
Regra de associação: {milho verde} Þ {ervilhas}
 “A compra do produto milho verde aumenta em 5 vezes a chance de um
cliente comprar ervilhas”.
3
24/05/2012
Tipos de Mineração de Dados

Descoberta de Associações

Exemplo: Sistema de Recomendação (sugerem itens que considera
interessantes para um usuário).


Regra de associação: {produto} Þ {produto recomendado}
 Livro 1 e Livro2.
 Notícia 1 e Notícia 2.
 Música 1 e música 2.
 Vídeo 1 e vídeo 2.
Exemplo: Segurança de Sistemas (aprimoram banco de dado de
antivírus e sistema de detecção de intrusos).

Regra de associação: {serviço x} Þ {operação y}
 (Service = “telnet”) ∧ (FailedLogins ≥ 1) ⇒ (Intrusion = “yes”)

Regra indica que as conexões nas quais o serviço de rede utilizado foi o telnet e
que apresentaram uma ou mais operações de login rejeitadas, tendem a ser
tentativas de intrusões.
Tipos de Mineração de Dados

Descoberta de Padrões Sequenciais


Objetivo: descobrir sequências de eventos frequentes (leva em conta a
ordem ou a data de ocorrência dos eventos).
Exemplo: Mineração do BD de loja de suprimentos de eletrônica.


Padrão sequencial: {netbook} Þ {hard disk}
 “50% dos consumidores que adquirem um netbook compram um hard
disk externo de 2 a 4 meses após a aquisição do netbook”.
Padrão sequencial: {navegação na Web} Þ {cliques}
 Análise de sequência de cliques em um site de ecommerce.
Tipos de Mineração de Dados

Classificação


Objetivo: a partir de um banco de dados contendo objetos préclassificados (objetos cuja classe é conhecida), construir um modelo que
seja capaz de classificar automaticamente novos objetos (objetos cuja a
classe é desconhecida) em função de suas características através de um
modelo classificador.
Exemplo: Mineração do BD de uma seguradora.




Análise de classificação de risco por característica de cliente.
Sexo feminino : “não se envolve em acidente”
Sexo masculino e idade superior a 25 anos : “não se envolve em acidente”.
Sexo masculino e idade igual ou inferior a 25 anos: “se envolve em acidente”
4
24/05/2012
Tipos de Mineração de Dados


Exemplo: Mineração do BD de uma seguradora.
 Análise de classificação de risco por característica de cliente.
A classificação é uma tarefa preditiva.
Tarefa preditiva: predizer (dizer antecipadamente
o que vai acontecer) o valor de um determinado
atributo baseado nos valores de outros atributos
Tipos de Mineração de Dados

Determinação de Agrupamentos


Objetivo: dividir automaticamente um conjunto de objetos em grupos
(clusters) de acordo com algum de tipo de relacionamento de
similaridade existente.
Exemplo: Personagens Simpsons.

Divisão em grupos de similaridade
Tipos de Mineração de Dados

Determinação de Agrupamentos

Exemplos de agrupamentos Simpsons
5
24/05/2012
Tipos de Mineração de Dados

Outros tipos





Mineração de Texto: descoberta de novas informações a partir da análise
de texto livre (artigos, documentos WORD ou PDF, etc.) ou semiestruturado (ex: arquivos HTML ou XML).
Mineração Web: uso de algoritmos para minerar conhecimento útil de
documentos e serviços da Web.
Regressão: similar à tarefa de classificação. A principal diferença é que o
atributo alvo é do tipo contínuo. Exemplo: valor de um imóvel em função
das características dele e do bairro.
Padrões em Séries Temporais: os dados de séries temporais contém
observações adjacentes e ordenadas, tipicamente uma sequência de valores
numéricos com um atributo representando o tempo.
Mineração de Exceções: o objetivo da tarefa é determinar objetos que
sejam diferentes da maioria dos outros objetos. Aplicações práticas:
detecção de fraudes, previsão de distúrbios no ecossistema, e outras.
Tecnicas de Data Mining

Cada tarefa de mineração de dados possui um
conjunto de técnicas associadas, que representam os
algoritmos que podem ser empregados para a sua
execução.
Ferramentas de Data Mining

Ferramentas comerciais:





Oracle
SAS
SPSS
SQL Server
Ferramentas livres:


R : já existem diversos pacotes para data mining que podem
ser integrados a este tradicional software open source para
estatística.
Weka: ferramenta para Data Mining.
6
Download