Mineração de dados - Universidade de Évora

Propaganda
Introdução e principais conceitos
Mineração de Dados 2011
Protocolo entre Universidade de Évora e
Universidade Metodista de Angola
Luís Rato
Universidade de Évora, 2011
Mineração de dados / Data Mining
1
Bibliografia e avaliação
Livros de Texto:
- Introduction to Data Mining, Tan, Pearson
International Ed, 2005
- Data Mining – Practical Machine Learning tools and
Techniques, Witten, Morgan-Kaufman Ed, 2005
Avaliação:
50% teste com consulta + 50% trabalho
Universidade de Évora, 2011
Mineração de dados / Data Mining
2
Recursos
Software:
Weka - http://www.cs.waikato.ac.nz/ml/weka/index_downloading.html
Dados:
http://archive.ics.uci.edu/ml/datasets.html
Universidade de Évora, 2011
Mineração de dados / Data Mining
3
Para quê a mineração de dados ?
(visão comercial)
●
São guardados grandes quantidades de dados.
– Web data, e-commerce
– Departamentos de compras
– Bancos e cartões de crédito - transações
●
Computadores são mais baratos
●
Forte pressão para a competitividade
– Dar melhor serviços aos clientes (e.g. Em aplicações de
CRM-Customer Relationship Management)
Universidade de Évora, 2011
Mineração de dados / Data Mining
4
Para quê a mineração de dados ?
(visão científica)
●
Dados recolhidos e e armazenados a
grande velocidade(GB/h)
– Sensores remotos de satélite
– Dados de sequenciação genética
●
– Simulações científicas geram terabytes
de dados
Mineração de dados ajuda os cientistas
– A classificar e segmentar dados
– Na formulação de hipóteses
Motivação Mineração de grandes conjuntos
de dados
●
●
●
Há muita informação escondida nos dados que não é
evidente
Analista Humano poderia levar semanas para descobrir
a informação útil
Muitos dos dados não chegam a ser analisados
Crescimento dos dados
desde 1995
Número de analistas de
dados
Universidade de Évora, 2011
Mineração de dados / Data Mining
6
O que é a mineração de dados ?
●
Muitas Definições
– Extração não-trivial de informação útil de dados
(previamente não acessível)
– Exploração e análise, por meios automáticos (ou
semi-automáticos) de grandes quantidades de
dados de modo a descobrir padrões
Universidade de Évora, 2011
Mineração de dados / Data Mining
7
O que é a mineração de dados ?
Universidade de Évora, 2011
Mineração de dados / Data Mining
8
O que é (ou não é) Mineração de dados?
●
O que não é MD?
• Procurar um
número de
telefone numa
lista telefónica
• Questionar um
serviço de
pesquiza web
sobre “mineração
de dados”
Universidade de Évora, 2011
●
O que é MD ?
Associar os apelidos mais
frequentes em função do
local de residência (O’Brien,
… em Boston, Silva em
Lisboa)
●
Agrupar documentos
obtidos por um motor de
busca (e.g. google) em
função do tema.
●
Mineração de dados / Data Mining
9
Origens da Mineração de Dados
●
Usa ideias da aprendizagem, da IA,
reconhecimento de padrões, estatística, and
sistemas de base de dados
Statistics/
AI
Machine Learning/
Pattern
Recognition
Data Mining
Database
systems
Universidade de Évora, 2011
Mineração de dados / Data Mining
10
Tarefas da MD
●
Predição
– Usar algumas variáveis para prever outras
variáveis futuras ou desconhecidas.
●
Descrição
– Encontrar padrões que descrevam os dados
(padrões que sejam perceptíveis aos
humanos)
Universidade de Évora, 2011
Mineração de dados / Data Mining
11
Tarefas da MD
Classificação [Preditivo]
● Clustering [Descritivo]
● Descoberta de regras de associação [Descritivo]
● Descoberta de padrões sequenciais [Descriptivo]
● Regressão [Predictivo]
● Detecção de desvios [Predictivo]
●
Universidade de Évora, 2011
Mineração de dados / Data Mining
12
Download