Data Mining

Propaganda
Sistemas de Informação Inteligentes
Aula 1
Nadilma Nunes
[email protected]
[email protected]
Conceitos – Visão geral
• Data Warehouse (armazém de dados)
– armazenar informações relativas às atividades de uma organização
em bancos de dados, de forma consolidada.
• Data Mart (repositório de dados)
– é sub-conjunto de dados de um Data warehouse.
• Business Intelligence (Inteligência empresarial)
– refere-se ao processo de coleta, organização, análise,
compartilhamento e monitoramento de informações que oferecem
suporte a gestão de negócios.
• Data Mining (Mineração de Dados)
– processo de exploração de grandes quantidades de dados a fim de
reunir grupos semelhantes (padrões) para detectar relacionamentos
entre variáveis e assim detectar novos subconjuntos de dados.
Hoje...
• Introdução sumarizada: o que é mineração de
dados?
– Para que serve?
– Como se relaciona com outras
disciplinas/técnicas/áreas?
• Descoberta de conhecimentos em bancos de
dados.
– Passos do processo.
– Relação com mineração de dados
Motivação
• Crescimento explosivo na capacidade de gerar e coletar
dados:
– Científicos (coleta automática por sensores).
– Sociais (censos, pesquisas).
– Econômicos e comerciais (transações bancárias e
comerciais de código de barras).
• Crescimento na capacidade de relacionar estes dados
• Crescimento na capacidade de armazenar estes da
• Crescimento (ainda não suficiente) na capacidade de
processar estes dados.
Volume de dados
• Stanford Linear Accelerator Center (SLAC): mais de um
petabyte de dados coletados e armazenados
– Um petabyte = 1.048.576G
• Uma cena de satélite Landsat, 3 bandas (185x185k
resolução 30x30m): 108M
– Imagem de todo o território brasileiro: 26.4G
• CERN: espera chegar em 5 a 20 petabytes.
• Dados gerados automaticamente:
–
–
–
–
–
Bilhões de chamadas telefônicas por dia.
Dezenas a milhões de registros/dia em logs de servidores
Tráfego de rede.
Impossível armazenar dados! Análise deve ser feita on-the-fly
Questão da privacidade.
Perguntas
• Quem vê tudo isso?
– É viável? É automatizável?
• Como identificar padrões, exceções,
tendências e correlações?
• O que existe de interessante nestes dados?
– Como definir interessante ?
Como processar esses dados
• Consultas simples? SQL resolve:
– Quem comprou queijo gorgonzola?
– Quem comprou queijo e vinho?
– Qual é o gasto médio das compras deste perfil?
• E descoberta de novas associações e conhecimentos?
–
–
–
–
–
–
–
Qual item é comprado com mais freqüência juntamente com vinho?
Quais conjuntos de itens são comprados com mais freqüência?
Como prever perfis de consumo?
Como prever que usuários vão mudar de provedor?
Como identificar coisas parecidas?
Como identificar o que é diferente do resto?
Porquê?
• Procuramos novas informações sobre os dados e não comprovar
informações já consideradas
Definições
• Data Mining: é um dos processos de Descoberta
de Conhecimento em Banco de Dados (KDD)
• Processo geral de descoberta de conhecimentos
úteis (previamente desconhecidos) a partir de
(grandes) bancos de dados
• Processo em várias etapas interdependentes, que
podem ser repetidas e que nem sempre tem
distinções claras entre si.
• Definir: conhecimento, útil, bancos de dados.
• Considerar: dados previamente desconhecidos,
grande BD
Processo de KDD
• Compreender o domínio da aplicação, entender as
expectativas do usuário final do processo.
• Criar/selecionar uma coleção de dados para aplicação
• Pré-processar e limpar os dados (eliminar impureza de
dados irrelevantes).
• Transformar (reduzir e reprojetar) os dados (encontrar
atributos úteis e interessantes).
• Escolher a tarefa, métodos, modelos, parâmetros, etc do
processo de data mining e executar este processo.
• Interpretar os resultados, iterar se necessário.
• Consolidar o conhecimento, resolver conflitos, iterar se
necessário.
Processo KDD
KDD/DM não é...
Data Mining
• Envolve várias áreas de conhecimento:
–
–
–
–
–
Estatística e Matemática.
Computação Aplicada (Inteligência Artificial, Machine Learning).
Visualização de Dados (Computação Gráfica).
Bancos de Dados.
Sistemas Distribuídos, Algoritmos Paralelos, Alta Performance.
• Áreas de aplicação:
– Economia, comércio eletrônico, marketing, detecção de fraudes.
– WWW.
– Bioinformática e medicina
Data Mining
• Tarefas principais:
– Classificação: aprendizado de uma função que
mapeia um dado em uma de várias classes
conhecidas.
– Regressão (predição): aprendizado de uma função
mapeia um dado em um valor real.
– Deteção de desvios: identificação de dados que
deveriam seguir um padrão mas não o fazem
Aplicações de Sucesso
• Amazon: recomendações de livros e interesses
– Usuário compra mais de um livro, a associação é
armazenada e usada para recomendações.
• Verizon Wireless: redução de desistências contratuais
– Verificou que tipo usuários tinham tendência maior a
mudar de operadora, fez marketing/ofertas específicas a
perfis
• Análise de crédito
– Como avaliar o risco de oferecer crédito para um cliente?
– Quem é mais confiável precisa menos de crédito!
Data Mining e Privacidade...
• Dados pessoais (histórico bancário, saúde, censo,
etc. já são coletados).
• Alguns podem ser coletados sem esforço:
– Logs de navegação.
– Compras.
– Localização e movimentação.
• Até que ponto isso pode ser feito de forma:
– Ética?
– Que mantenha a privacidade?
– Que possa ser útil?
Em resumo...
• Dados para mineração:
– Transacionais, séries temporais, texto, multimídia,
heterogêneos, legados, WWW, etc.
• Conhecimento a ser extraído:
– Caracterização, discriminação, associação, classificação,
tendências, desvios, etc.
• Técnicas utilizadas:
– Técnicas de bancos de dados, machine learning, estatística, IA,
visualização, etc.
• Aplicações
– Vendas/marketing, telecomunicações, bancos/mercados
financeiros deteção de fraudes, bioinformática, medicina,
WWW, etc.
Exercício
• Verificar em
http://www.kdnuggets.com/dmcourse/data_
mining_course/course_notes.pdf exemplos de
aplicação de Data Mining.
• Ver se existe algum exemplo com alguma
similaridade ou aplicabilidade ao seu TCC.
• Pesquisar a ferramenta WEKA e trazer na
próxima aula um exemplo prático de Data
mining. (Valendo até 2 pontos na prova!!)
Download