Tipologia do conhecimento de saída da mineração de dados

Propaganda
Aplicações práticas da
descoberta de conhecimento em BD
Material Elaborado pelos Profs. Jacques Robin e
Francisco de A. T. de Carvalho – UFPE / CIn
Aplicações da Mineração de Dados
Marketing e comércio
Gerenciamento
de relação com clientes
• descrição multi-dimensional, agrupamento e
classificação de clientes, associações entre
produtos ou serviços, para otimização e
personalização de:


campanhas de propaganda e de promoções
sugestões de produtos e serviços
• mineração comparativa de evolução de compras,
produtos ou serviços oferecidos e preços para:


promover retenção de clientes
definir política de preço altamente dinâmica (ex,
passagem aérea)
Marketing e comércio
Gerenciamento
de relação com clientes
• ambos a partir de:


Transações com cartões de fidelidade, de requisitos
de programa a la carte (TV, vídeo, música), de
reservas (passagens, hotéis, ingressos)
Log de servidor Web para comércio eletrônico
Finanças e segurança
 Serviços
financeiros:
• mineração de séries temporais de valores na bolsa para
especulação
• mineração de associação e grupos de valores para
definição de portfolio de investimento e planos de
aposentadoria
• previsão de inadimplência para definir política de
empréstimo
 Detecção
de fraude:
• descrição multi-dimensional e mineração de séries
excepcionais de:




uso de cartão de créditos para serviços financeiros
pedidos de acesso a sites para segurança de sistemas
transferências de fundos para lavagem de dinheiro sujo e
sonegação de imposto
chamadas para telecomunicações
Finanças e segurança
 Detecção
de tentativas de intrusão
• mineração de padrões temporais de comandos de
protocolos em arquivos de log de servidores
• batch e tempo real
Jogos, esportes e
recursos humanos
 Jogos:
• mineração de regras estratégicas e táticas a partir de
BD de partidas (xadrez, futebol de robôs)
 Jogos,
esportes e re-engenharia de
organizações:
• OLAP, agrupamento e mineração multi-dimensional de
séries de resultados para identificar fatores internos
(ex: composição do time, tática usada) e externos (ex:
tipo de adversário, local do jogo) contribuindo a
vitórias e a derrotas
Jogos, esportes e
recursos humanos
 Jogos
de esportes virtuais, esportes e
recrutamento:
• previsão do desempenho e popularidade futura de
atletas, artistas e funcionários para contratação e
transferência
Serviços de infra-estrutura:
energia, água, transporte,
telecomunicação, Internet
 descrição
multi-dimensional e previsão
comparativa
 de demanda e da capacidade das fontes ou
equipamentos
 para:
• planejar investimentos e otimizar rotas para evitar
interrupção de serviços e congestionamento
• definir vários níveis de qualidade de serviços, seus
preços e seus clientes potenciais
• detecção de fraudes
Serviços de infra-estrutura:
energia, água, transporte,
telecomunicação, Internet
 previsão
de falha de equipamento para definir
política de prevenção de falha
 mineração de regras de diagnóstico para análise
de falha
Saúde
 Indústria
farmacêutica:
• previsão dos efeitos de um novo remédio composto a
partir dos efeitos dos seus componentes em remédios
testados
 Medicina
e epidemiologia:
• mineração de regras de diagnóstico
• previsão de predisposição a doenças e resposta a
tratamento
• a partir de BD de órgãos de saúde (CDC, ministério da
saúde)
Saúde
 Pesquisa
em genética e biologia molecular:
• mineração comparativa de seqüências de genes em
células sadias e doentes (adaptação da mineração de
séries temporais para dados categóricos)
• mineração de associações e grupos de genes baseada
na sua co-ocorrência em várias classes de células
• previsão da forma 3D de uma proteína a partir da sua
seqüência de ácidos-amidos
Conclusão sobre a aplicabilidade de KDD
 Ainda
existe muito mais tarefas e domínios de
aplicação prática da descoberta de conhecimento
em BD não mencionadas
 Ubiqüidade
da necessidade por mineração de
dados e descoberta de conhecimento em BD
O
mais difícil não é identificar setores de
atividade que precisam dessa tecnologia e sim
identificar setores que não podem beneficiar-se
dela
Sistemas e Protótipos
de Data Mining
Como escolher um Sistema de
Data Mining?
 Os
sistemas comerciais de data mining tem
pouco em comum
• Diferentes funcionalidades ou metodologias de data
mining
• Podem trabalhar com conjuntos de dados de tipos
completamente diferentes
 Tipos
de dados: relacional, transacional, texto,
seqüência temporal, espacial?
 Questões sobre o sistema
• execução em um ou vários sistemas operacionais?
• arquitetura cliente/servidor?
• Fornece interfaces baseadas na Web e permite
dados XML como entrada e/ou saída?
Como escolher um Sistema de
Data Mining? (2)
 Fontes
de dados
• arquivos texto ASCII, fontes de dados relacionais
múltiplas
• suporte de conexões ODBC (OLE DB, JDBC)?
 Funções
e metodologias de Data mining
• Única vs. múltiplas funções de data mining
• Único vs. vários metodos por função

Mais funções e métodos por função fornece ao usuário grande
flexibilidade e poder de análise
Como escolher um Sistema de
Data Mining? (2)
 Acoplamento
com BD e/ou data warehouse
• Quatro formas de acoplamento: sem acoplamento,
acoplamento “frouxo”, acoplamento semifirme, e
acoplamento firme

Idealmente, um sistema de data mining deve ser firmemente
acoplado com um sistema de bases de dados
Como escolher um Sistema de
Data Mining? (3)
 Escalabilidade
• Escalabilidade por linhas
• Escalabilidade por coluna
• realizar um sistema com escalabilidade por coluna é
um desafio muito maior do que realizar um sistema
com escalabilidade por linha
 Ferramentas
de Visualização
• “Uma figura vale milhares de palavras”
• Categorias de visualização: visualização de dados,
visualização dos resultados da mineração,
vizualização do processo de mineração, e visual data
mining
 Interface
gráfica e linguagem de interrogação
(query) de Data mining
• Interface gráfica de alta qualidade e fácil de usar
Exemplos de Sistemas de
Data Mining (1)
 IBM
Intelligent Miner
 SAS
Enterprise Miner
• Uma ampla faixa de algoritmos de data mining
• Algoritmos de mineração escaláveis
• Kit de ferramentas: algoritmos de redes neurais,
métodos estatísticos, preparação de dados,
ferramentas de visualização
• Firme integração com o sistema de bases de dados
relacionais IBM's DB2
• Grande variedade de ferramentas de análise
estatística
• Ferramentas de Data warehouse e múltiplos
algoritmos de data mining
 Microsoft
SQLServer 2000
• Integração de BD e OLAP com mineração
Exemplos de Sistemas de
Data Mining (2)
 SGI
MineSet
• Múltiplos algoritmos de data mining e métodos
estatísticos avançados
• Ferramentas de visualização avançadas
 Clementine
(SPSS)
• Meio ambiente de desenvolvimento integrado de data
mining para usuários e programadores
• Múltiplos algoritmos de data mining e ferramentas de
visualização
Exemplos de Sistemas de
Data Mining (2)
 DBMiner
(DBMiner Technology Inc.)
• Múltiplos módulos de data mining: análise OLAP,
associação, classificação, agrupamento
• Funções eficientes de mineração de padrões seqüenciais e
associação, ferramentas de classificação visual
• Mineração de bases de dados relacionais e de data
warehouses
Temas Adicionais em
Mineração de Dados
Data Mining Visual
Visualização: uso de computação gráfica para criar
imagens visuais que ajudam a entender representações
massivas e complexas de dados
 Data Mining Visual: processo de descoberta de
conhecimento implícito a partir de grandes conjuntos de
dados usando técnicas de visualização

Computação
Gráfica
Computação
de alto
desempenho
Multimídia
Interface
Homem
Máquina
Reconhecimento
de Padrões
Visualização
Propósito
da Visualização
• Fornecer uma visão geral qualitativa de grandes
conjuntos de dados
• Busca de padrões, tendências, estrutura,
irregularidades, relações entre dados.
• Ajuda para encontrar regiões interessantes e
parâmetros apropriados para posterior análise
qualitativa.
Data MiningVisual &
Visualização de Dados
 Integração
•
•
•
•
da visualização e do data mining
visualização de dados
visualização dos resultados de data mining
visualização do processo de data mining
data mining visual interativo
 Visualização
de dados
• Dados em um BD ou em um data warehouse podem
ser visualizados
 em diferentes níveis de abstração
 via diferentes combinações de atributos (ou
dimensões)
• Os dados podem ser apresentados em várias formas
visuais
Visualização dos Resultados
do Data Mining
 Apresentação
visual dos resultados (ou
conhecimento) obtidos da mineração de dados
 Exemplos
• Scatter plots e boxplots (obtidos de data mining
descritivo)
• Árvores de Decisão
• Regras de Associação
• Agrupamentos
• Outliers
• Regras de generalização
Boxplots (Statsoft): Múltiplas
Combinações de Variáveis
Visualização dos resultados de Data Mining
(SAS Enterprise Miner): Scatter Plots
Visualização de Regras de Associação
(SGI/MineSet 3.0)
Visualização de uma Árvore de decisão
(SGI/MineSet 3.0)
Visualização do Processo
de Data Mining
 Apresentação
dos vários processos de data
mining em formas visuais de modo que o
usuário pode ver
• O processo de extração de dados
• Onde os dados são extraídos
• Como os dados são limpados, integrados,
processados e minerados
• O método selecionado para data mining
• Onde os resultados são armazenados
• Como eles podem ser vistos
Data Mining Visual Interativo
 Uso
de ferramentas de visualização no
processo de mineração para ajudar os usuários
a realizarem decisões locais astuciosas para a
mineração
 Exemplo
• Mostrar a distribuição dos dados em um conjunto
de atributos usando setores coloridos
• Usar o resultado para decidir qual setor deve ser
selecionado para a classificação e onde fica um
“bom” ponto de corte desse setor
Áudio Data Mining
Usar sinais de áudio para ressaltar padrões de dados
ou características dos resultados da mineração
 Alternativa a mineração visual
 Data mining visual pode ressaltar padrões
interessantes usando gráficos, mas exige que o
usuário se concentre na busca visual de padrões
 Em vez disso: transformar padrões em sons e música e
ouvir ritmos, tons, e melodias para identificar algo
interessante ou não usual

Impactos sociais da
Mineração de Dados
Data Mining é uma moda ou é algo
persistente?
 Data
mining é uma tecnologia
 Ciclo
de vida tecnológico
• Inovação
• Adesão inicial
• Ruptura
• Maioridade inicial
• Maioridade tardia
• Legado
Cilco de vida de adoção tecnológica
 Data
mining está na ruptura!?
• Os sistemas de data mining existentes são muito
genéricos
• É necessário soluções de data mining específicas e
integração da lógica das organizações com as
funções da mineração
Impactos Sociais: Ameaça a
privacidade e a segurança dos dados?
 Data
mining é uma ameaça para a privacidade e
segurança dos dados?
• “Big Brother”, “Big Banker”, e “Big Business” estão
vigiando você cuidadosamente
• Informações de perfil são coletadas o tempo todo


cartão de crédito, cartão de fidelidade, etc
Surfar na Web, alugar um vídeo, preencher um formulário,
• Coletar dados pessoais pode ser benéfico para as
organizações e as pessoas, mas existe o perigo de uso
indevido

Registros médicos, Avaliação do empregado, Etc.
Proteção da Privacidade e da
Segurança dos Dados
 Práticas
corretas
• Regras internacionais para a proteção da
privacidade de dados
• Cobre aspectos relacionados a coleta de dados,
propósito, uso, qualidade, acesso, participação
individual, etc
• Especificação do propósito e Limitação do Uso
• Acesso: Indivíduos tem o direito de conhecer que
informação é coletada sobre ele, quem tem acesso
aos dados, e como os dados são usados
 Desenvolvimento
de técnicas de segurança
• criptografia
• bases de dados anônimas
Tendências em Mineração de Dados
Tendências em Data Mining (1)
 Aplicações
• desenvolvimento de sistemas de data mining para
aplicações específicas
• Data mining invisível (mineração como função interna)
 Métodos
de data mining com escalabilidade
• Constraint-based mining: uso de restrições para guiar
os sistemas de data mining na busca por padrões
interessantes
 Integração
de data mining com bases de dados,
data warehouse e bases de dados na Web
 Data mining invisível
Tendências em Data Mining (2)
 Padronização
da linguagem de data mining
• A padronização facilitará o desenvolvimento sistemático,
melhorará a interoperabilidade, e promoverá a instrução e
o uso de sistemas de data mining na indústria e na
sociedade
 Data
mining Visual
 Novos métodos para minerar tipos de dados
complexos
• Maior esforço de pesquisa para a integração de métodos
de mineração de dados com técnicas existentes da análise
de dados para os tipos complexos de dados
 Web
mining
 Proteção da privacidade e segurança da informação
na mineração dos dados
Download