data mining - Gestão em Sistemas de Informação PE

Propaganda
DATA MINING
Disciplina
SIPE
EQUIPE 4
ARACHELY SILVA
CLAUDINEI NASCIMENTO
ERICA MIRELLA ARAUJO SANTOS
FABIO STAUDINGOR
LUCIANO FRANCISCO
JANAÍNA MARTINS
PEDRO GOMES
Orientadora: Profº. MÁRCIA PASSOS
1
Tópicos da Apresentação
3 DATA MINING E OBJETIVOS
3 FUTURO E HISTÓRIA
3 CARACTERÍSTICAS
3 FASES E PROCESSOS
3 CONCEITOS
3 VANTAGENS E DESVANTAGENS
3 ESTUDO DE CASO
3 REFERÊNCIAS
2
DATA MINING
• O que é Data mining:
– “Data
mining
(mineração de dados),
é o processo de
extração
de
conhecimento
de
grandes
bases
de
dados, convencionais
ou não.
– Utiliza
técnicas
de
inteligência
artificial
que procuram relações
de
similaridade
ou
discordância
entre
dados.
[01] Queens University - Belfast
3
Introdução
• O que é Data mining:
– “Data mining (mineração de dados), é o processo de
extração de conhecimento de grandes bases de dados,
convencionais ou não.
– Utiliza técnicas de inteligência artificial que procuram
relações de similaridade ou discordância entre dados.
– Seu objetivo é encontrar, automaticamente, padrões,
anomalias e regras com o propósito de transformar
dados, aparentemente ocultos, em informações úteis para
a tomada de decisão e/ou avaliação de resultados.
Fernando S. Goulart Júnior & Robson do Nascimento Fidalgo (1998)
4
Exemplos de Data Mining
• Exemplo:
Fabricante Estado Cidade Cor do Produto Lucro
Smith
CA
Los Angeles
Azul
Alto
Smith
AZ
Flagstaff
Verde
Baixo
Adams
NY
NYC
Azul
Alto
Adams
AZ
Flagstaff
Vermelho
Baixo
Johnson
NY
NYC
Verde
Médio
Johnson
CA
Los Angeles
Vermelho
Médio
•Conclusões:
•Produtos azuis são de alto lucro
ou
•Arizona é um lucro baixo
5
Objetivos do Data Mining
• Extrair inteligentimente os dados ;
•
Construir um modelo neural,
"adestrado" a rede em um data set
de treinamento e então usamos a
rede já treinada para fazer
predições;
•
Identificar
padrões
de
comportamento em vendas de
consumidores,
Associar
comportamentos à características
demográficas
de
consumidoresCampanhas
de
marketing
direto
(mailing
6
História da Data Mining
•Evolução até o data mining
Evolução
Perguntas
Tecnologia disponível
Características
Coleção de
dados
1960
“Qual foi meu
rendimento total nos
últimos cinco anos ?”
Computadores, Fitas,
discos
Retrospectiva,
Dados estáticos
como resposta
Acessos aos
dados
1980
“Qual foi meu
rendimento no Brasil no
último janeiro ?”
RDBMS,
SQL,
ODBC
Restropectiva,
dados dinâmicos a
nível de registos
como resposta
Data
warehousing
& suporte a
decisão
1990
“Qual foi meu
rendimento no Brasil no
último janeiro? Do sul
até o nordeste
Processamento analítico
on-line, banco de dados
multidimencionais, data
warehousing
Retrospectiva,
dados dinâmicos
em múltiplos níveis
como resposta
Data Mining
Atualmente
“Porque alguns produtos
são mais vendidos na
região sul ?”
Algoritmos avançados,
computadores
multiprocessados, B.D.
grandes e poderosos
Prospectivo,
Informações
(perspectivas)
como resposta.
7
O FUTURO da Data Mining
• O futuro está no aprimoramento da técnica do Data Mining
têm sido aplicadas com sucesso para a solução de
problemas em diversas áreas, como descrito a seguir:
•
•
Vendas: Identificar padrões de comportamento dos
consumidor ,Encontrar características dos consumidores
de acordo com a região e Prever quais consumidores
serão atingidos nas campanhas de marketing.
•
• Finanças: - Detectar padrões de fraudes no uso dos
cartões de crédito, Identificar os consumidores que estão
tendendo a mudar a companhia do cartão de
crédito,Identificar regras de estocagem a partir dos dados
do mercado e Encontrar correlações escondidas nas
bases de dados.
•
•
Seguros e Planos de Saúde: Determinar quais
procedimentos médicos são requisitados ao mesmo tempo8
Características do Data Mining
• A estatística: A mais antiga delas. Sem a estatística não seria
possível termos o DM, visto que a mesma é a base da maioria das
tecnologias a partir das quais o DM é construído. A Estatística
Clássica envolve conceitos como distribuição normal e análise de
conjuntos.
•
Inteligência Artificial: A segunda linhagem do DM que soluciona os
problemas estatísticos e como módulos de otimização de consulta
para SGBDS.
•
Machine Learning: E a terceira e última linhagem do DM é a
chamada machine learning, que pode ser melhor descrita como o
casamento entre a estatística e a IA.
9
Fases do Data Mining
•
•
•
Os passos fundamentais de uma mineração bem
sucedida a partir de fontes de dados (bancos de
dados, relatórios, logs de acesso, transações, etc.)
consistem
de
uma
limpeza
(consistência,
preenchimento de informações, remoção de ruído e
redundâncias, etc.).
É a partir deles que se pode selecionar algumas
colunas para atravessarem o processo de mineração.
Tipicamente, este processo não é o final da história:
de forma interativa e frequentemente usando
visualização gráfica, um analista refina e conduz o
processo até que os padrões apareçam
10
Processos do data mining
• .Seleção-Selecionar ou segmentar dados de acordo
com critérios definidos:
• Ex.: Todas as pessoas que são proprietárias de carros é
um subconjunto de dados determinado.
• Pré-processamento -Estágio de limpeza dos dados, onde
informações julgadas desnecessárias são removidas.
• Ex. :O sexo de um paciente gestante .
• Transformação- Transforma-se os dados em formatos
utilizáveis. Esta depende da técnica data Mining
usada.
• Interpretação e Avaliação- Identificado os padrões
pelo
sistema,
estes
são
interpretados
em
conhecimentos, os quais darão suporte a tomada de
decisões humanas
11
• Ex.: Tarefas de previsões e classificações.
Conceitos do Data Mining
•
Segundo o autor ( Rob Mattison ),toda a Data
Mining é a verdadeira extração dos padrões de
comportamento dos dados e utilizando a
definição de fatos, medidas de padrões, estados
e o relacionamento entre eles.
•
• DataMining ou mineração de dados de (Bigus) é
o processo de extrair informação válida,
previamente desconhecida e de máxima
abrangência a partir de grandes bases de dados,
usando-as para efetuar decisões cruciais.
12
Vantagens do Data Mining
• Vantagens:
•
Modelo de fácil compreensão;
•
Analisar Grandes bases de dados;
•
Descoberta de informações inesperadas;
•
Variáveis que não necessitam de recodificação;
•
Os Modelos são precisos;
•
Os Modelos são construídos e atualizados
rapidamente.
13
Desvantagens do Data Mining
•.
Alto custo;
Necessidades de grandes bases de dados;
Novidade e complexidade;
Criar ambientes ideais;
Interação muito forte com analistas
humanos
14
Estudo de Caso Data Mining
•
•
•
•
•
•
•
•
•
•
•
Exemplo (1) - Fraldas e cervejas
O que as cervejas tem a ver com as fraldas ?
homens casados, entre 25 e 30 anos;
compravam fraldas e/ou cervejas às sextas-feiras à
tarde no caminho do trabalho para casa;
Wal-Mart otimizou às gôndolas nos pontos de
vendas, colocando as fraldas ao lado das cervejas;
Resultado: o consumo cresceu 30% .
Exemplo (2) - Lojas Brasileiras (Info 03/98)
Aplicou 1 milhão de dólares em técnicas de data
mining
Reduziu de 51000 produtos para 14000 produtos
oferecidos em suas lojas.
Exemplo de anomalias detectadas:
Roupas de inverno e guarda chuvas encalhadas no
nordeste eBatedeiras 110v a venda em SC onde a
15
Conclusões
Perguntas ?
16
Referências
• Bigus, J. (1995). Data Mining with Neural Networks.
McGraw-Hill.
•
• Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for
Science Data Analysis: Issues and Examples”.
Proceedings of Second International Conference on
Knowledge Discovery and Data Mining (KDD-96),
AAAI Press.
• Data Mining, Paulo Abadie Guedes, Eduardo
Aranha – Documento de Datamining, 16-01-2004,
14H30;
• Implementação e Desenvolvimento de uma Grade
Computacional, Grupo COMCIDIS, coordenação
de Ciência da
17
18
Download