Data Mining

Propaganda
Planejamento Estratégico de TI
Prof.: Fernando Ascani
Data Mining
Os métodos tradicionais de Data Mining são:
•
Classificação – Associa ou classifica um item a uma ou várias classes
categóricas pré-definidas.
•
Modelos de Relacionamento entre Variáveis – Associa um item a uma ou
mais variáveis de predição de valores reais, consideradas variáveis
independentes ou exploratórias
•
Análise de Agrupamento (Cluster) - Associa um item a uma ou várias
classes categóricas (ou Clusters), em que as classes são determinadas
pelos dados, diversamente da classificação em que as classes são prédefinidas.
Data Mining
•
Sumarização – Determina uma descrição compacta para um dado
subconjunto.
•
Modelo de Dependência – Descreve dependências significativas entre
variáveis.
•
Regras de Associação – Determinam relações entre campos de um banco
de dados.
•
Análise de Séries Temporais – Determina características sequenciais, como
dados com dependência no tempo.
Data Mining – Aplicações
Data Mining constitui-se em uma tecnologia capaz de automatizar processos
de busca por informações preditivas que podem estar ocultas dentro de um
amontoado de banco de dados ou relatórios gerenciais.
Questões que tradicionalmente exigem um extensivo trabalho de análise
podem agora ser resolvidas diretamente dos dados — instantaneamente, já
que as ferramentas Data Mining fazem uma verdadeira “varredura” nos bancos
de dados, buscando identificar padrões.
Um exemplo são as análises feitas com dados de vendas de varejo para
descobrir supostas relações entre produtos sem conexão aparente mas que
são muitas vezes vendidos juntos.
Data Mining – Aplicações
Outras descobertas incluem detecção de transações fraudulentas com cartões
de crédito e identificação de anomalias que podem representar erros nos
registros dos dados comerciais.
Quando as ferramentas Data Mining são implementadas em sistemas de
processamento de alta performance, elas podem analisar massivos bancos de
dados em questão de minutos.
Através de um processamento mais rápido, os usuários podem executar
simulações com diferentes modelos, compreendendo dados ainda mais
complexos, obtendo então predições mais aperfeiçoadas.
Data Mining – Aplicações
Análise Financeira
•
Predição de pagamentos de empréstimos, política de créditos para clientes.
•
Classificação e clustering de clientes para fins de marketing direcionado.
•
Detecção de lavagem de dinheiro e outros crimes financeiros. Necessita
integração de diferentes bancos de dados : dados bancários, registros de
polícias estaduais e federais.
Data Mining – Aplicações
Comércio varejista / E-comerce
•
Marketing - Campanhas publicitárias
•
Sugestões de compras aos clientes
•
Melhor design de sites de compras
•
Distribuição de artigos nas prateleiras
•
Análise de fidelidade da clientela
Data Mining – Aplicações
Indústria de Telecomunicações
•
Identificação de atividades fraudulentas - padrões atípicos de
comportamento.
•
Regras de associação e padrões sequenciais
“Se um cliente mora em São Paulo e trabalha fora de São Paulo, então é
bem provável que ele faça uma chamada interurbana entre as duas
localidades por volta de 17:00h e duas horas depois utilize o celular por pelo
menos 30 minutos.”
Data Mining – Aplicações
Aplicações para Bancos de Varejo
ABC Bank é um banco full-service com 1 milhão de clientes. O Vice Presidente
de Marketing está interessado em persuadir os clientes mais ricos a transferir
os seus saldos de outros cartões de outros bancos para o cartão do ABC
Bank. Planeja atiçá-los com uma oferta de juros baixos para financiar os saldos
que forem transferidos.
Uma campanha como esta geralmente apresentaria um custo elevado,
portanto o planejamento de marketing deseja dirigir o foco para aqueles que
apresentam maiores chances de aceitar a oferta e que possuem hábitos de
consumo específicos.
O Vice Presidente decide fazer um teste e envia uma “mala direta luxuosa”
para uma amostra de 10.000 clientes escolhidos aleatoriamente. Quinhentos
clientes aceitaram a oferta = ( 5% de resposta ).
Data Mining – Aplicações
Aplicações para Bancos de Varejo
Aplicando um Data Mining com o software Discovery Server, o banco usa a
informação obtida com os 10.000 clientes para criar modelos preditivos de
segmentação, e aplica em seguida este "molde" nos 990.000 clientes restantes
para extrair os registros de clientes que apresentam as mesmas
características.
O software Segment Viewer mostra as regras, ou características , de cada
segmento encontrado, assim como a participação na receita bruta. O Vice
Presidente aprende que o número de saques em Caixa Automático e como
também que clientes antigos que vem mantendo contas no banco são fatores
preditivos para determinar quem apresentará maiores chances de aceitar
uma oferta de transferência de saldo.
Data Mining – Aplicações
Aplicações para Bancos de Varejo
Ele fica surpreso ao saber que o saldo do cartão não é necessariamente um
fator que determina quem vai participar da promoção.
Trabalhando com o modelo de lucratividade Profit Chart® , ele aprende que é
possível otimizar os lucros se dirigir os esforços para os três segmentos que
apresentam maiores chances de responder à promoção, mesmo que estes
não sejam os mais volumosos quando comparados a outros segmentos de
clientes.
Concentrando o investimento nos três segmentos mais receptivos recebe o
mesmo número de respostas se enviasse para uma lista aleatória 10 vezes
maior, obtendo a mesma receita com um custo dez vezes menor.
Data Mining – Softwares comerciais
Nome
Fabricante
Funções
Destaque
Inteligente
Miner
IBM
Algoritmos para regras
de associação, classificação,
regressão, padrões
sequenciais, clustering.
Integrado com o
SGBD DB2 da IBM.
Grande escalabilidade
dos algoritmos.
Enterprise
Miner
SAS
Algoritmos classificação,
Institute Inc. regressão, pacotes de análise
estatística.
Grande variedade
de ferramentas
estatísticas.
MineSet
Silicon
Graphics
Inc.
Algoritmos para regras de
associação, classificação,
análise estatística.
Um robusto conjunto
de ferramentas
avançadas de
visualização.
Clementine
Integral
Solutions
Ltd.
Algoritmos de regras de
Interface
indução, redes neurais,
orientada-objeto.
classificação e ferramentas de
visualização.
Processo Analítico - OLAP
O OLAP (Online Analytical Processing – Processamento Analítico Online) é
uma tecnologia usada para organizar grande bancos de dados comerciais e
oferecer suporte à inteligência comercial.
Os bancos de dados OLAP são divididos em um ou mais cubos, e cada cubo é
organizado e projetado por um administrador de cubo para se ajustar à forma
que você recupera e analisa os dados de forma que seja mais fácil criar e usar
os relatórios de tabela dinâmica e os relatórios de gráfico dinâmico que de que
você precisa.
Basicamente, é uma classe de tecnologias projetada para análise de dados
multidimensionais, muito utilizada nos sistemas de suporte à decisão,
permitindo avaliar séries históricas de dados.
Processo Analítico - OLAP
O OLAP é uma categoria de tecnologia de software que possibilita que os
analistas, gerentes e executivos tenham entendimento sobre os dados de
forma rápida, consistente e com acesso interativo a uma ampla variedade de
visões possíveis de informações que foram transformadas a partir de dados
brutos para refletir a dimensionalidade real da empresa como entendida pelo
usuário.
É uma ferramenta de Business Inteligente utilizada para apoiar as empresas
na análise ad-hoc de suas informações, visando obter novos conhecimentos
que são empregados na tomada de decisão.
As ferramentas OLAP surgiram com a intenção de facilitar a busca por
informações em data wharehouses, permitindo a procura de dados relevantes,
com maior rapidez e visualização em perspectivas multidimensionais.
Banco de dados Multidimensional - MDD
A modelagem de dados descreve e representa de uma forma abstrata os
dados de uma organização. Data Warehouses e ferramentas OLAP se utilizam
do modelo de dados multidimensional e apresentam informações na forma de
cubos de dados (Data Cubes).
Um modelo dimensional é uma forma de modelagem de dados que
acondiciona os dados de acordo com consultas e processos específicos do
negócio.
Os objetivos são a compreensibilidade dos usuários de negócio e o
desempenho de consultas multidimensionais.
Banco de dados Multidimensional - MDD
Os benefícios da modelagem multidimensional são dois:
De um lado, ela torna os esquemas de dados mais compreensíveis para os
usuários finais e por outro lado, ela permite usar armazenamento específico e
técnicas de acesso que melhoram o desempenho de queries.
A maneira para obter estes benefícios é a simplificação dos esquemas de
dados, de forma que eles só contenham as coisas essenciais.
Esses esquemas são próximos da concepção de dados dos analistas, e
sugerem um tipo específico de queries, de forma que o sistema pode ser
personalizado facilmente para resolvê-las com bons tempos de resposta.
Download