Roteiro PCC142 / BCC444 - Mineração de Dados Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Tarefas e Técnicas em Mineração de Dados Universidade Federal de Ouro Preto [email protected] www.decom.ufop.br/luiz Aplicações Softwares Introdução Surgimento da Mineração de Dados A disseminação do uso de meios eletrônicos na sociedade moderna tem gerado uma enorme quantidade de dados. I Uso de SGBDs na maioria das organizações públicas e privadas de médio e grande porte. I Avanços na aquisição de dados, desde os leitores de códigos de barra até sistemas de sensoriamento remoto. Cenário SQL e Mineração de Dados I Bancos de dados relacionais são responsáveis por armazenar e recuperar dados de forma eciente. I Esses bancos de dados permitem a extração de diversas informações usando SQL. I Então para que serve a Mineração de Dados? I I Usando SQL: esse processo resolve questões que necessariamente devem ser denidas. Mineração de Dados: a descoberta de novas informações é automática, ou seja, sem que seja necessária a formulação de uma questão. Mineração de Dados Mineração de Dados O que é Mineração de Dados? É o processo automático de descoberta de novas informações e conhecimento, úteis a uma aplicação, no formato de regras e padrões, escondidas em grandes volumes de dados. Onde ocorre? Este processo é executado sobre grandes quantidades de dados, estejam esses armazenados em bancos de dados tradicionais, em data warehouse ou em outra forma de repositório. Processo de Descoberta de Conhecimento em Bases de Dados 5 4 Conhecimento 3 Regras e Padrões 2 Dados Dados Transformados Pré-processados 1 Dados Selecionados Dados Fonte: “From data mining to knowledge discovery: An overview”, U.M.Fayyad et. al., 1996. Seleção: dados que serão relevantes para análise são selecionados. Limpeza: remoção de ruídos e dados inconsistentes. Transformação: dados são transformados para carem adequados para etapa de mineração. Mineração: processo de extração de novas informações. Interpretação e Avaliação: interpretação e identicação dos padrões interessantes. Tarefas e Técnicas em Mineração de Dados Principais Tarefas de Mineração de Dados Mineração de Dados O processo de mineração de dados envolve o uso de diversas Tarefas Preditivas Tarefas Descritivas tarefas e técnicas. I Tarefas: são classes de problemas. Agrupamento (Segmentação) Classificação I Técnicas: são os algoritmos utilizados na resolução dos Regressão Padrões de Seqüência Associação problemas propostos nas tarefas. Sumarização Tarefas em Mineração de Dados Mineração de Dados Direta Entrada I Tarefas Preditivas: do conhecimento adquirido a partir de um conjunto de dados, fazemos predições para novas amostras. Modelo Exemplo: Se acontecer uma determinada composição de medidas climáticas, então existe 70% de chover. I Tarefas Descritivas: buscam identicar padrões de Dados Mineração do Modelo comportamento comuns nos dados. Exemplo: Fralda → Cerveja. Informação Mineração de Dados Direta Mineração de Dados Indireta I Através de uma técnica de mineração, extrai-se ou treina-se um modelo que será posteriormente utilizado. I Principais tarefas: classicação e regressão. Dados Who will go bankrupt ? Mineração da Informação / Utilização do Modelo Informação I Mineração caracterizada pela existências de um campo especíco (atributo meta) cujo valor deve ser estimado a partir dos valores dos demais atributos. Informação Interpretada Interpretação Mineração de Dados Indireta I Através de uma técnica de mineração, extraem-se padrões signicativos que serão posteriormente avaliados. I Principais tarefas: extração de regras de associação, agrupamento. Tell me something interesting? I O resultado da mineração complementa o conhecimento do especialista e deverá ser examinado e avaliado por este. Mineração de Associações I Identicação de itens de um mesmo domínio de aplicação que ocorrem juntos com determinada freqüência na base de dados. I Exemplo: Market Basket Analysis → identicação de produtos que são comprados juntos em um número signicativo de transações de compras. Regras de Associação Booleanas Regras de Associação Quantitativas I São utilizadas quando se deseja minerar padrões em bases I Uma regra de associação representa um padrão de relacionamento entre itens de dados do domínio da de dados relacionais (formadas por atributos quantitativos e atributos categóricos). aplicação que ocorre com uma determinada freqüência na Atributos Categóricos base de dados (transacional). Id-Transação (TID) Itens Comprados 1 leite, pão, refrigerante Id 2 cerveja, carne 3 cerveja, fralda, leite, refrigerante 4 cerveja, fralda, leite, pão 5 fralda, leite, refrigerante I Exemplos de regras: fralda → cerveja, fralda → Sexo I Exemplo: (sexo=M) advogado) leite → Atributos Quantitativos Profissão ∧ Salário Idade (20 < idade < 30) ∧ ... (prossão = (compra=SIM) Esta regra indica, com certo grau de certeza, que advogados, entre 20 e 30 anos, do sexo masculino são consumidores de laptops. Padrões Sequenciais Agrupamento (Segmentação) I Agrupamento (segmentação) é o processo de identicação I Padrões de sequências representam sequências de conjuntos de itens que ocorrem nas transações de diferentes consumidores, com determinada frequência (na ordem especicada). de um conjunto nito de categorias (ou grupos - clusters ), não previamente denidos, que contêm objetos similares. I Exemplo: Deseja-se separar os clientes em grupos de forma que aqueles que apresentam o mesmo comportamento de consumo quem no mesmo grupo. Consumidor Data/Hora Produtos João João João Marcos Marcos 01.08.2001/17:01 03.08.2001/14:25 10.08.2001/21:15 05.08.2001/10:16 08.08.2001/18:30 leite, pão carne, cerveja queijo, manteiga, sal leite, ovos queijo, manteiga Cada tupla deste exemplo indica a quantidade total de produtos consumidos e o preço médio destes I Exemplo: (leite) (queijo, manteiga) produtos relativos a cada consumidor. Consumidor 1 2 3 4 5 6 7 8 9 Qtd.Prods. 2 10 2 3 12 3 4 11 3 Preço Médio Prods. 1.700 1.800 100 2.000 2.100 200 2.300 2.040 150 Agrupamento (Segmentação) Cons. 1 2 3 4 5 6 7 8 9 Qtd. 2 10 2 3 12 3 4 11 3 Grupo $ Méd. Prods. 1.700 1.800 100 2.000 2.100 200 2.300 2.040 150 1 2 3 Classicação Cons. 1 4 7 2 5 8 3 6 9 Qtd. 2 3 4 10 12 11 2 3 3 $ Méd. Prods. 1.700 2.000 2.300 1.800 2.100 2.040 100 200 150 I Identicação da classe a qual um elemento pertence a partir de suas características. O conjunto de possíveis classes é discreto e predenido. I Exemplo: a partir das características de um indivíduo, determinar a que classe social ele pertence. Cada grupo identicado é caracterizado por consumidores semelhantes em relação à quantidade de produtos e ao preço médio dos mesmos. Classicação ID Salário Idade 1 2 3 4 5 6 7 8 9 3.000 4.000 7.000 6.000 7.000 6.000 6.000 7.000 4.000 30 35 50 45 30 35 35 30 45 Regressão Tipo Emprego Autônomo Indústria Pesquisa Autônomo Pesquisa Indústria Autônomo Autônomo Indústria Classe B B C C B B A A B Árvore de Decisão Salário ≤ 5.000 treinamento, extrai-se o modelo de classicação (p.ex., árvore de I Estimativa do valor de um atributo de uma instância a > 5.000 partir de suas características. O domínio deste atributo deve ser numérico e contínuo. B Idade ≤ 40 I Exemplo: a partir das características de um imóvel, > 40 C T.Empr. A partir de uma base de decisão). Conjunto de classes = {A, B, C, D, E}. Ind.,Pesq. B Autônomo A determinar seu valor de venda ou aluguel. Y = α + βX . Aplicações Softwares I Weka: software de domínio público, desenvolvido (Java) pela Universidade de Waikato, contém uma série de Analisar tendências e encontrar padrões a partir de dados históricos com o objetivo de prever ações futuras e apoiar decisões pode ser um procedimento útil em diversas áreas, tais como: algoritmos de Data Mining (DM). I Intelligent Miner: foi desenvolvido pela IBM. É uma ferramenta de DM diretamente interligada com o banco de dados DB2 da IBM. I Marketing. I Oracle Data Miner: desenvolvido pela Oracle, I Finanças. permitindo interligação direta com o banco de dados Oracle I Saúde. 11g Enterprise Edition. I Educação. I Enterprise Miner: tradicionalmente utilizado na área de negócios, marketing e inteligência competitiva. I Segurança. I Statistica Data Miner: acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em aplicações de estatística. Perguntas? FIM