Introdução e principais conceitos Mineração de Dados 2011 Protocolo entre Universidade de Évora e Universidade Metodista de Angola Luís Rato Universidade de Évora, 2011 Mineração de dados / Data Mining 1 Bibliografia e avaliação Livros de Texto: - Introduction to Data Mining, Tan, Pearson International Ed, 2005 - Data Mining – Practical Machine Learning tools and Techniques, Witten, Morgan-Kaufman Ed, 2005 Avaliação: 50% teste com consulta + 50% trabalho Universidade de Évora, 2011 Mineração de dados / Data Mining 2 Recursos Software: Weka - http://www.cs.waikato.ac.nz/ml/weka/index_downloading.html Dados: http://archive.ics.uci.edu/ml/datasets.html Universidade de Évora, 2011 Mineração de dados / Data Mining 3 Para quê a mineração de dados ? (visão comercial) ● São guardados grandes quantidades de dados. – Web data, e-commerce – Departamentos de compras – Bancos e cartões de crédito - transações ● Computadores são mais baratos ● Forte pressão para a competitividade – Dar melhor serviços aos clientes (e.g. Em aplicações de CRM-Customer Relationship Management) Universidade de Évora, 2011 Mineração de dados / Data Mining 4 Para quê a mineração de dados ? (visão científica) ● Dados recolhidos e e armazenados a grande velocidade(GB/h) – Sensores remotos de satélite – Dados de sequenciação genética ● – Simulações científicas geram terabytes de dados Mineração de dados ajuda os cientistas – A classificar e segmentar dados – Na formulação de hipóteses Motivação Mineração de grandes conjuntos de dados ● ● ● Há muita informação escondida nos dados que não é evidente Analista Humano poderia levar semanas para descobrir a informação útil Muitos dos dados não chegam a ser analisados Crescimento dos dados desde 1995 Número de analistas de dados Universidade de Évora, 2011 Mineração de dados / Data Mining 6 O que é a mineração de dados ? ● Muitas Definições – Extração não-trivial de informação útil de dados (previamente não acessível) – Exploração e análise, por meios automáticos (ou semi-automáticos) de grandes quantidades de dados de modo a descobrir padrões Universidade de Évora, 2011 Mineração de dados / Data Mining 7 O que é a mineração de dados ? Universidade de Évora, 2011 Mineração de dados / Data Mining 8 O que é (ou não é) Mineração de dados? ● O que não é MD? • Procurar um número de telefone numa lista telefónica • Questionar um serviço de pesquiza web sobre “mineração de dados” Universidade de Évora, 2011 ● O que é MD ? Associar os apelidos mais frequentes em função do local de residência (O’Brien, … em Boston, Silva em Lisboa) ● Agrupar documentos obtidos por um motor de busca (e.g. google) em função do tema. ● Mineração de dados / Data Mining 9 Origens da Mineração de Dados ● Usa ideias da aprendizagem, da IA, reconhecimento de padrões, estatística, and sistemas de base de dados Statistics/ AI Machine Learning/ Pattern Recognition Data Mining Database systems Universidade de Évora, 2011 Mineração de dados / Data Mining 10 Tarefas da MD ● Predição – Usar algumas variáveis para prever outras variáveis futuras ou desconhecidas. ● Descrição – Encontrar padrões que descrevam os dados (padrões que sejam perceptíveis aos humanos) Universidade de Évora, 2011 Mineração de dados / Data Mining 11 Tarefas da MD Classificação [Preditivo] ● Clustering [Descritivo] ● Descoberta de regras de associação [Descritivo] ● Descoberta de padrões sequenciais [Descriptivo] ● Regressão [Predictivo] ● Detecção de desvios [Predictivo] ● Universidade de Évora, 2011 Mineração de dados / Data Mining 12