Curso de Data Mining - Aula 1 1. Como surgiu 2. O que é 3. Em que

Propaganda
Curso de Data Mining - Aula 1
1. Como surgiu
2. O que é
3. Em que tipo de dados pode ser aplicado
4. Que tipos de padrões podem ser minerados
5. Critérios de classificação de sistemas de Data Mining
6. Tópicos importantes de estudo em Data Mining
7. Aplicações
8. Sistemas Comerciais de Data Mining
Como surgiu
MUITOS DADOS × POUCA INFORMAÇÃO
• Grandes volumes de dados disponı́veis
• Arquivos de dados → “cemitério” de dados : raramente
visitados.
• Necessidade de transformar estes dados em informação útil
• necessidade de desenvolvimento de ferramentas de mineração.
Como surgiu
• Decisões são tomadas utilizando intuição.
• Tecnologias de sistemas especialistas que inserem manualmente
o conhecimento na base de dados : procedimento passı́vel de
erros e extremamente custoso em tempo.
• Ferramentas de Data mining realizam análise de grandes
volumes de dados e podem descobrir padrões interessantes
frequentes nos dados.
• O grande abismo entre dados e informação requer o
desenvolvimento de ferramentas de datamining que vão
transformar os “cemitérios” de dados em “minas” de
conhecimento.
O que é Data Mining
Uma das etapas do processo de Descoberta de Conhecimento
• Limpeza dos dados : eliminação de ruı́dos e dados
inconsistentes.
• Integração dos dados : diversas fontes de dados são
combinadas.
• Seleção dos dados dados relevantes às tarefas de análise são
extraidos do banco de dados.
• Transformação dos dados : formas apropriadas para
mineração.
O que é Data Mining - continuação
• Data Mining : métodos inteligentes são aplicados nos dados
já preparados a fim de extrair padrões interessantes (de
acordo com critérios do usuário).
• Pós-processamento dos padrões minerados para identificar
quais são realmente interessantes para o usuário.
• Visualização : técnicas de visualização e representação de
conhecimento são utilizadas para apresentar o conhecimento
minerado ao usuário.
Em que tipo de dados pode ser aplicado
Bancos de Dados Relacionais :
• Consultas clássicas SQL : dar a lista dos artigos comprados
no último trimestre.
• Data Mining : predizer os riscos de crédito a novos clientes
baseados em seus rendimentos, idade e informações sobre
créditos passados.
Em que tipo de dados pode ser aplicado
Data Warehouse :
• Modelo Multidimensional ou data cubes
• Consultas OLAP (On Line Analytical Processing) :
permitem obter os dados sob diferentes graus de sumarização.
Exemplo : obter o total de vendas por região, por paı́s, etc, a
partir de dados de vendas organizados por cidade.
• Data Mining : Descobrir existência de clusters de clientes em
diferentes localidades, ou em diferentes faixas de salário.
Em que tipo de dados pode ser aplicado
Bancos de Dados de Transações : tickets de supermercado, por
exemplo :
Trans-id
ItensComprados
T100
Pão, Leite, Açúcar
···
···
• Consultas Clássicas : “Quantas transações incluem o item
‘Pão’ ”?
• Data Mining : “Quais itens têm boa saı́da conjuntamente ?”
Exemplo: se impressoras são normalmente compradas
conjuntamente com um computador, então uma boa estratégia
seria oferecer modelos caros de impressoras com desconto para
clientes que compram certas marcas de computadores.
Em que tipo de dados pode ser aplicado
Sistemas de Bancos de Dados Avançados
• Orientado-objeto / Relacional-estendido
• Espacial : bancos de dados geográficos, imagens médicas e de
satélite.
Ex: mapas de cidades, incluindo informações sobre ruas de
mão-única, sugestões de caminhos para ser ir de um ponto A a
um ponto B, hora do rush, localização de restaurantes e
hospitais, etc.
Possı́veis padrões : caracterı́sticas de casas localizadas em
certas regiões (parques, por exemplo).
• Temporal
• Textos e Multimı́dia
• Não estruturados ou Semi-estruturados (XML)
Que tipos de padrões podem ser minerados
Numa grande loja de departamentos...
• Regras de Associação : Clientes entre 20 e 29 anos, com
rendimentos mensais entre 2000 e 5000 normalmente compram
DVD Players.
idade(X,“20-29”) AND rend(X, “2000-5000”) → compra(X,
“DVD-Player”).
• Classificação e Predição : encontrar critérios que
classifiquem os artigos da loja em “vende bem”, “vende
mais ou menos”, “não vende”; poder-se-ia descobrir que os
critérios seriam preço, marca, categoria, lugar de
fabricação.
Que tipos de padrões podem ser minerados
• Análise de Clusters : Detecção de clusters correspondendo à
localização de clientes numa cidade.
Os clientes estão aglutinados em torno de três locais na cidade.
• Análise de Outliers : Deteção de eventos raros, fora do
padrão;
Clientes que excepcionalmente fazem uma compra de grande
valor e pagam com cartão de crédito provavelmente estão tendo
um comportamento fraudulento.
• Sequências (ou Análise Evolutiva) : clientes têm tendência
a comprar aparelhos de TV, depois Vı́deo-Cassete e depois
DVD.
Padrão Sequencial : <TV,Vı́deo,DVD>
Critérios de classificação de sistemas de Data Mining
• Quanto ao tipo de bancos de dados : relacional,
transacional, orientado-objeto, relacional-estendido,
datawarehouse;
• Quanto ao tipo de conhecimento minerado : regras de
associação, classificação, clustering, outliers, análise de
sequências;
• Quanto ao tipo de técnicas utilizadas : técnicas de
aprendizado de máquina (Machine Learning), estatı́stica, redes
neurais, algoritmos genéticos, etc; tipos de interação com o
usuário;
• Quanto ao tipo de aplicações a que são dirigidos :
telecomunicações, análise financeira, bio-informática, mercado
de ações, comércio eletrônico; Diferentes aplicações requerem a
integração de metódos especı́ficos.
Tópicos importantes de estudo em Data Mining
• Mineração de diferentes tipos de padrões;
• Mineração interativa;
• Desenvolvimento de Linguagens de Mineração : permitindo ao
usuário solicitar tarefas de mineração;
• Desenvolvimento de Ferramentas de Visualização do
conhecimento minerado;
• Gerenciamento de ruı́dos e dados incompletos;
• Eficiência e escalabilidade dos algoritmos de mineração;
Aplicações
Análise Financeira
• predição de pagamentos de empréstimos, polı́tica de créditos
para clientes.
• classificação e clustering de clientes para fins de marketing
direcionado.
• detecção de lavagem de dinheiro e outros crimes financeiros.
Necessita integração de diferentes bancos de dados : dados
bancários, registros de polı́cias estaduais e federais.
Aplicações
Comércio varejista, E-comércio
• Marketing - Campanhas publicitárias
• Sugestões de compras aos clientes
• Melhor design de sites de compras
• Distribuição de artigos nas prateleiras
• Análise de fidelidade da clientela
Aplicações
Indústria de Telecomunicações
• Identificação de atividades fraudulentas - padrões atı́picos de
comportamento.
• Regras de associação e padrões sequenciais : “Se um cliente
mora em São Paulo e trabalha fora de São Paulo, então é bem
provável que ele faça uma chamada interurbana entre as duas
localidades por volta de 17:00h e duas horas depois utilize o
celular por pelo menos 30 minutos.”
Aplicações
Análises biomédicas e de DNA
• Identificação de sequências de genes que desempenham papel
importante em diversas doenças.
• Path Analysis : diferentes genes podem tornar-se ativos em
diferentes estágios de uma doença. Se sequências de atividades
genéticas durante as diferentes etapas do desenvolvimento de
uma doença podem ser identificadas, é possı́vel desenvolver
remédios que atuam em sequência nas diferentes etapas.
• Sequências de sintomas associados a determinadas doenças.
Sistemas Comerciais de Data Mining
Nome
Fabricante
Funções
Destaque
IBM
algoritmos
para
regras
de
associação,
classificação,
regressão,
padrões sequenciais, clustering.
algoritmos
classificação,
regressão,
pacotes de análise
estatı́stica.
algoritmos para
regras de associação,
classificação, análise
estatı́stica.
Integrado com o
SGBD DB2 da
IBM. Grande escalabilidade dos
algoritmos.
Intelligent
Miner
Enterprise
Miner
MineSet
SAS
Inc.
Institute
Silicon Graphics Inc.
Grande
variedade
de
ferramentas
estatı́sticas.
Um
robusto
conjunto
de
ferramentas
avançadas
de
visualização.
Sistemas Comerciais de Data Mining
Nome
Fabricante
Funções
Clementine
Integral
Solutions Ltd.
DBMiner
DBMiner Technology Inc.
algoritmos
de regras de
indução,
redes
neurais,
classificação
e
ferramentas de
visualização.
algoritmos
de regras de
associação,
classificação,
clustering.
algoritmos
de análise de
sequências
Genamics Expression
Genamics
veloper
De-
Destaque
Interface
orientadaobjeto.
Data
Mining
utilizando
OLAP
Revolutionary
new
Windows
application for
DNA and protein
sequence
analysis.
Download