Extracção de Conhecimento em Bases de Dados

Propaganda
Mineração de Dados
(Mestrado de Informática)
UCE – Sistema de Suporte à Decisão
Paulo J Azevedo
Departamento de Informática
([email protected])
Sistemas de informação cada vez mais sofisticados,
envolvendo elevadas quantidades de dados, motivam o
desenvolvimento de técnicas de Análise Exploratória de
Dados para apoio à Decisão
Mineração de Dados - Apresentação
1
Extracção de “conhecimento”
(relações não triviais entre os dados)
em bases de dados
•
Uma possível definição (KDD): é a tarefa de desenvolver algoritmos (processos)
para extrair estrutura dos dados. Esta estrutura pode ser descrita na sob a forma de
padrões estatísticos, modelos ou mesmo relações. Encontrar esta estrutura pode ser
visto como um processo de redução que permite uma sumarização dos dados.
•
Preparação e recolha dos dados (via Warehousing)
•
Data Mining (extracção das relações “escondidas” entre os dados recolhidos)
•
Pós-processamento e análise dos resultados
•
Visualização
2
Mineração de Dados - Apresentação
Perguntas representativas dos problemas a tratar:
•
•
•
•
Mostrar as transacções que indiciam fraude ?
Quais os indivíduos que tem tendência a comprar o produto X ?
Quais os acessos ao servidor Y que tinham o intuito de “ataque” ?
A que clientes (ou tipo de clientes) deveremos enviar o catálogo de
Natal ?
• Quais os grupos que melhor caracterizam os nosso clientes ?
• Como organizar (e apresentar ao utilizador) o resultado de uma
pesquisa muito genérica no Google ?
• Considerando o historial de concessão de crédito da nossa
instituição deverá ser considerada a proposta Z ?
• Sabendo o conjunto de páginas visitados, que tipo de produto
consultará o utilizador no resto da sua sessão ?
• Que padrões de aminoácidos, de elevado “interesse” biológico, se
pode encontrar numa dada família de proteínas ?
• Como se comporta um dado conjunto de aminoácidos ao longo do
tempo (i.e. ao longo de um determinado processo sofrido pela
proteína)?
Mineração de Dados - Apresentação
3
Case Study (1)
• Web sites Adaptativos
– Amazon: site sugere novos interesses com base nas compras
efectuadas.
– Challange Netflix: http://www.netflixprize.com
• Email Spam filtering,
• Códigos Postais,
– Handwriting recognition.
• Crédito à Habitação
– Apoio à decisão na atribuição de crédito baseando no historial
da instituição.
4
Mineração de Dados - Apresentação
Case Study (2)
• DARPA challenge http://www.darpa.mil/grandchallenge/index.asp
– Conduzir um veiculo autónomo no deserto durante cerca de 200
km.
• Detecção de fraude nas chamadas de telefones móveis
• Detecção de “churning”http://www.kdnuggets.com/news/2009/n05/4i.html
(propensão para os clientes de uma empresa de comunicações/cartões de
crédito/etc mudar de fornecedor)
• MicroArrays
http://www.en.wikipedia.org/wiki/DNA_microarray
– Análise de expressão de DNA (matriz de genes x amostras
“situações”)
5
Mineração de Dados - Apresentação
A Estrutura extraída dos dados pode
ter a forma de:
• Padrões sequenciais,
• Motifs
• Modelos de Previsão (árvores de decisão, redes neuronais,
regras de decisão, etc),
• Agrupamentos (clustering)/ Segmentação,
• Regras de Associação.
• Dependências entre dados (dependências funcionais,
multivalor, etc)
6
Mineração de Dados - Apresentação
O processo KDD
Data Mining
Transformação
Interpretação
DATA
(reavaliação)
Pré-processamento
Selecção
Visualização
7
Mineração de Dados - Apresentação
Algumas ferramentas usadas
durante o curso:
•
•
•
•
•
•
•
C4.5
R
Cubist
Caren
Weka
Microsoft SQL Server
Outras…
8
Mineração de Dados - Apresentação
Principais temas a estudar…
• Modelos de Previsão: árvores de decisão,
classificação, previsão numérica, simplificação de
modelos, avaliação, composição de modelos, etc.
• Regras de Associação: algoritmos, medidas de
interesse, pruning, tratamento de numéricos, aplicações,
etc.
• Clustering: algoritmos, medidas de similaridade,
tipos de clustering, etc.
• Revisão de significância estatística
9
Mineração de Dados - Apresentação
Avaliação
• Proposta:
– Teste Teórico
– Projectos Prático :
• Exercícios semanais
• Projecto final com apresentação em grupo.
– Nota = 0.5 x projecto + 0.5 x teste ?????
10
Mineração de Dados - Apresentação
Biblio
• Data Mining (Pratical Machine Learning tools
and Techniques),
Ian Witten & Eibe Frank,
Morgan Kaufmann Publishers. (WEKA book)
• Data Mining, Concepts and Techniques,
Jiawei Han & Micheline Kamber,
Morgan Kaufmann Publishers.
• Apontamentos das aulas
Mineração de Dados - Apresentação
11
Download