INE5644 – Data Mining Tarefas de DCBD Prof. Luis Otavio Alvares [email protected] Apresentação adaptada do material do livro Introduction to Data Mining – Tan, Steinbach e Kumar e de slides do prof. José Leomar Todesco (UFSC) Porque DCBD? Ponto de vista comercial Enormes quantidades de dados são coletadas e armazenadas – Dados da Web, e-commerce – Compras em supermercados, lojas de departamentos, etc. – Transações bancárias e de cartões de crédito Os computadores se tornaram baratos e mais poderosos A pressão competitiva é muito forte prof. Luis Otavio Alvares Porque DCBD? Ponto de vista científico Dados captados e armazenados em grande velocidade (GB/hora) – sensores remotos em satélites – telescópios varrendo o firmamento – microarrays gerando dados de expressão gênica – simulações científicas gerando terabytes de dados Técnicas tradicionais de anáilise são inviáveis para estes dados brutos prof. Luis Otavio Alvares Motivação para minerar grandes bases de dados Freqüentemente há informação “escondida” nos dados, que não é evidente Analistas humanos podem levar semanas para descobrir informação útil Muitos dados nunca são analisados 4.000.000 3.500.000 The Data Gap 3.000.000 2.500.000 2.000.000 Total new disk (TB) since 1995 1.500.000 1.000.000 Number of 500.000 analysts 0 From: R. Grossman, C. Kamath, V.1995 Kumar, “Data Mining and Engineering Applications”,1999 Kluwer, 2001 1996for Scientific 1997 1998 O que é DCBD? Muitas definições – Extração não-trivial de informação implícita, previamente desconhecida e potencialmente útil de um conjunto de dados – Exploração e análise, de modo automático ou semi-automático, de grandes quantidades de dados para descobrir padrões úteis prof. Luis Otavio Alvares O que (não) é DCBD? O que não é: O que é DCBD: – buscar um nome – descobrir que certos nomes e número de telefone em um arquivo de clientes são mais comuns em alguns lugares (O’Brien, O’Rurke, O’Reilly… na área de Boston) – Consultar um motor de busca na web sobre “Amazon” – Agrupar documentos similares recuperados por um motor de busca de acordo com o seu contexto (ex: Amazon rainforest, Amazon.com,) prof. Luis Otavio Alvares Observando e Aprendendo Exemplo: um proprietário de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a região onde a uva foi cultivada, o clima, o solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricação. Os clientes gostam de visitar sua loja pois, também, aprendem muito sobre vinhos. Porém, só isto não basta, o proprietário precisa conhecê-los, como por exemplo, qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele poderá dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto, duas necessidades: conhecimento e aprendizado Uma pequena loja poucos clientes atendimento personalizado Uma grande empresa milhares de clientes dificuldade em dar um atendimento dedicado prof. Luis Otavio Alvares Observando e Aprendendo Qual a tendência nos dias atuais? Ter clientes leais, através de um relacionamento pessoal, um-paraum, entre a empresa e o cliente. Dentro desta tendência, as empresas desejam identificar os clientes cujos valores e necessidades sejam compatíveis com o uso prolongado de seus produtos, e nos quais é válido o risco de investir em promoções com descontos, pacotes, brindes e outras formas de criar essa relação pessoal. Esta mudança de foco requer mudanças em toda a empresa, mas principalmente nos setores de marketing, vendas e atendimento ao cliente. prof. Luis Otavio Alvares Memória e Inteligência Na pequena empresa, o proprietário com sua inteligência e memória aprende, conhece o cliente. prof. Luis Otavio Alvares Data Warehouse: a memória da empresa Para criar relações um-para-um em uma grande empresa, o proprietário humano precisa ser substituído por uma máquina capaz de tratar grandes números, o computador. A memória do proprietário é substituída por um grande banco de dados denominado de Data Warehouse, enquanto a capacidade de aprendizado é substituída por técnicas de inteligência artificial e estatística genericamente denominadas de Data Mining. Diariamente gera-se dados, por exemplo, considere que gera-se e armazena-se atributos tais como: o número do telefone, a duração da chamada telefônica, o número do cartão de crédito, o endereço da entrega, o produto escolhido, renda do consumidor, escolaridade do consumidor, gasto com lazer, etc. Certamente, só armazenar dados não significa aprender sobre o cliente. prof. Luis Otavio Alvares Memória da empresa Fonte de informações preciosas para a empresa Dados armazenados prof. Luis Otavio Alvares Data Mining: a inteligência da empresa Para o aprendizado ocorrer, uma série de informações de diferentes formatos e fontes precisa ser organizada de maneira consistente na grande memória empresarial. Após isto, métodos de análise estatística e inteligência artificial precisam ser aplicados sobre esses dados e relações novas e úteis à empresa devem ser descobertas, ou seja, os dados devem ser minerados. A mineração dos dados consiste mais especificamente em descobrir relações entre produtos, classificar consumidores, prever vendas, localizar áreas geográficas potencialmente lucrativas para novas filiais, inferir necessidades, entre outras. prof. Luis Otavio Alvares Data Warehouse Data Mining Na grande empresa, a memória é o data warehouse, enquanto a inteligência é o data mining prof. Luis Otavio Alvares Data Mining and BI Aumento do potencial Para suportar decisões do negócio Making Decisions Diretor Visualization Techniques Analista de negócios Data Mining Knowledge Discovery Analista de dados Data Presentation Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Papel, Arquivos, Provedores de informação, Database Systems, OLTP prof. Luis Otavio Alvares DBA Tipos de descobertas (tarefas de DCBD) Os dois principais objetivos de alto nível da DCBD são a descrição e a predição a descrição se concentra em encontrar padrões que descrevem os dados de forma compreensível para o usuário a predição envolve usar valores conhecidos de campos ou variáveis para predizer o valor desconhecido ou futuro de variáveis de interesse para isso, utiliza-se vários tipos de descoberta ou tarefas de DCBD prof. Luis Otavio Alvares Principais Tarefas de DCBD ... Classificação [Preditiva] Clustering [Descritiva] Descoberta de regras de associação [Descritiva] Descoberta de padrões seqüenciais [Descritiva] Regressão [Preditiva] Detecção de desvios [Preditiva] prof. Luis Otavio Alvares Classificação Classificação: exemplos O professor classifica o desempenho do aluno em A, B, C, D ou E Identificar um cogumelo como sendo venenoso ou não Reconhecimento de caracteres prof. Luis Otavio Alvares Classificação: definição Dada uma coleção de registros (conjunto de treinamento) – Cada registro contém um conjunto de atributos, e um dos atributos é a classe. Id Casa própria EstCivil 1 S Solteiro 125K NÃO 2 N Casado 100K NÃO 3 N Solteiro 70K NÃO 4 S Casado 120K NÃO 5 N Divorc. 95K SIM 6 N Casado 60K NÃO 7 S Divorc. 220K NÃO 8 N Solteiro 85K SIM Mau Rendim. Pagador 10 Encontre um modelo para o atributo classe como uma função dos valores dos outros atributos Model Objetivo: definir a classe para novos registros tão acuradamente quanto possível. Casa própria EstCivil N Solteiro 75K ? S Casado 50K ? N Casado 150K ? S Divorciado 90K ? 10 prof. Luis Otavio Alvares Mau Rendim. Pagador Classificação: Aplicação 1 Marketing direto – Objetivo: Reduzir o custo na oferta para um conjunto alvo de consumidores mais prováveis de comprar um novo produto. – Abordagem: Usar os dados de um produto similar oferecido anteriormente. Sabemos quais consumidores compraram e quais não compraram. Esta decisão {compra, não compra} forma o atributo classe. Coletar várias informações pessoais, de estilo de vida e de interações com a empresa de todos estes clientes. – Tipo de atividade, local da moradia, rendimentos, estado civil, compras anteriores, etc. Usar esta informação como atributos de entrada para gerar um modelo de classificação. From [Berry & Linoff] Data Mining Techniques, 1997 prof. Luis Otavio Alvares Classificação: Aplicação 2 Detecção de fraudes – Objetivo: identificar casos de fraude em transações com cartão de crédito. – Abordagem: Usar as transações do cartão de crédito e as informações do proprietário como atributos. – Quando um consumidor compra, o que ele compra, onde ele compra, compra a vista ou a prazo, valor da compra, etc Rotular as transações passadas como fraude ou não. Isto forma o atributo classe. Gerar um modelo de classificação para as transações. Usar este modelo para detectar fraudes observando as novas transações . prof. Luis Otavio Alvares Classificação: Aplicação 3 Conservação de clientes: – Objetivo: prever se é provável que um cliente de uma empresa de telefone celular passe para um concorrente. – Abordagem: Usar um registro detalhado das transações de cada cliente antigo e atual para obter os atributos. – Com que freqüência o cliente faz ligações, para quem ele liga, a que horas ele liga mais freqüentemente, sua renda, estado civil, desde quando é cliente, etc. Rotular Gerar os clientes como fiéis ou infiéis a empresa. um modelo. From [Berry & Linoff] Data Mining Techniques, 1997 prof. Luis Otavio Alvares Classificação: Aplicação 4 Análise de objetos celestes – Objetivo: predizer a classe (estrela ou galáxia) de objetos celestes, especialmente de pouco brilho, baseado em imagens do telescópio do Monte Palomar – 3000 imagens com 23.040 x 23.040 pixels por imagem. – Abordagem: Segmentar a imagem. Medir os atributos da imagem (40 por objeto) Gerar um modelo baseado nestes atributos. Resultado: foram descobertos 16 novos quasars, alguns dos mais distantes objetos já identificados! From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 prof. Luis Otavio Alvares Classificando Galáxias Courtesy: http://aps.umn.edu Early Classe: • Estágio da formação Atributos: • Image features, • Characteristics of light waves received, etc. Intermediate Late dados: • 72 milhões de estrelas, 20 milhões de galáxias • Object Catalog: 9 GB • Image Database: 150 GB prof. Luis Otavio Alvares Clustering (formação de agrupamentos) Clustering (formação de agrupamentos) Dado um conjunto de dados, cada um com um conjunto de atributos, e uma medida de similaridade entre eles, encontre clusters (grupos) tais que: – Dados de um grupo são mais similares entre si que com dados de outros grupos – Dados de grupos diferentes são menos similares entre si. Medidas de similaridade: – Distância Euclidiana, para atributos contínuos – Outras medidas específicas do problema. prof. Luis Otavio Alvares Clustering: exemplo Clustering em espaço 3-D baseado em distância euclidiana. Distâncias intracluster são minimizadas Distâncias intercluster são maximizadas prof. Luis Otavio Alvares Clustering: Aplicação 1 Segmentação de mercado: – Objetivo: subdividir um mercado em diferentes subconjuntos de clientes onde cada subconjunto possa ser selecionado como objetivo específico de marketing a ser alcançado. – Abordagem: Obter diferentes atributos de clientes baseado em informações cadatrais e de estilo de vida dos clientes Encontrar grupos (clusters) de clientes similares. Medir a qualidade dos clusters observando padrões de compra entre clientes do mesmo cluster versus entre clientes de outros clusters prof. Luis Otavio Alvares Clustering: Aplicação 2 Clustering de documentos: – Objetivo: encontrar grupos de documentos que são similares entre si baseado em termos importantes que aparecem nos documentos. – Abordagem: identificar termos que ocorrem freqüentemente em cada documento. Criar uma medida de similaridade baseada na freqüência dos diferentes termos. Usar esta medida para a formação dos grupos. – Ganho: os clusters podem ser usados em Recuperação de Informações para relacionar um novo documento ou termo de pesquisa a clusters de documentos. prof. Luis Otavio Alvares Clustering de ações da bolsa Observe os movimentos das ações a cada dia. Dados: ação-{UP/DOWN} Medida de similaridade: Duas ações são similares se os eventos descritos por elas freqüentemente acontecem juntos no mesmo dia. Discovered Clusters 1 2 3 4 Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N, Sun-DOW N Apple-Co mp-DOW N,Autodesk-DOWN,DEC-DOWN, ADV-M icro-Device-DOWN,Andrew-Corp-DOWN, Co mputer-Assoc-DOWN,Circuit-City-DOWN, Co mpaq-DOWN, EM C-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOW N,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Ho me-Loan-DOW N, MBNA-Corp -DOWN,Morgan-Stanley-DOWN Industry Group Technology1-DOWN Technology2-DOWN Financial-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlu mberger-UP prof. Luis Otavio Alvares Oil-UP Associação Dependência (associação) entre atributos Exemplos: – determinados procedimentos médicos aparecem sempre juntos – determinados procedimento médicos aparecem mais associados a homens e outros a mulheres – compradores de leite geralmente compram pão na mesma transação prof. Luis Otavio Alvares Exemplo: vendas casadas Sei que quem compra o produto A também compra o B. PRODUTO A PRODUTO B Compra de produto PRODUTO A prof. Luis Otavio Alvares Oferta de produto relacionado prof. Luis Otavio Alvares Regras de associação: Definição Dado um conjunto de registros, cada um com um conjunto de itens de uma certa coleção; – Produza regras de dependência que vão predizer a ocorrência de um item baseado na ocorrência de outros. TID Items 1 2 3 4 5 guaraná, leite, pão cerveja, pão cerveja, fralda, guaraná, leite cerveja, fralda, leite, pão fralda, guaraná, leite Regras descobertas: {leite} --> {guaraná} {fralda, leite} --> {cerveja} prof. Luis Otavio Alvares Regras de associação: Aplicação 1 Gerenciamento de prateleiras de supermercado. – Objetivo: identificar itens que são comprados juntos por um grande número de clientes. – Abordagem: processar os dados das transações de compra obtidos com os códigos de barras para encontrar dependências entre itens. – Uma regra clássica- Se um cliente compra fralda e leite ele tem uma boa probabilidade de comprar também cerveja. Portanto, não fique surpreso de encontrar pacotes de cerveja próximo das fraldas! prof. Luis Otavio Alvares Regras de associação: Aplicação 2 Gerência de inventário: – Objetivo: uma empresa de consertos de eletrodomésticos quer antecipar a natureza dos consertos nos aparelhos dos seus clientes de forma a ter em seus veículos de serviço peças de reposição, de modo a poder realizar o conserto na hora, sem precisar voltar à casa dos clientes – Abordagem: Analisar os dados de consertos anteriores em termos de ferramentas e peças necessárias para descobrir padrões de co-ocorrência. prof. Luis Otavio Alvares Padrões sequenciais Padrões sequenciais Detecção de dependências temporais entre eventos. Exemplos: determinado procedimento médico sempre precede outro turistas que visitam o museu do Louvre depois visitam a Notre Dame Definição: Dado um conjunto de objetos, com cada objeto associado com a sua linha de eventos, encontre regras com forte dependência seqüencial entre diferentes eventos. (A B) (C) (D E) prof. Luis Otavio Alvares Padrões seqüenciais: exemplos Em transações de vendas – Livraria de informática: (Intro_To_Visual_C) (C++_Primer) (Perl_for_dummies,Tcl_Tk) – Loja de artigos esportivos: (tenis) (raquete, bolas) (moleton) prof. Luis Otavio Alvares Regressão Regressão Prediz o valor de uma variável contínua baseado no valor de outras variáveis, considerando um modelo de dependência linear ou não linear. Bastante estudado em estatística e redes neurais Exemplos: – Previsão da quantidade de vendas de um novo produto baseado nos gastos com propaganda – Previsão da velocidade do vento em função da temperatura, humidade, pressão atmosférica, etc. – Previsão da evolução do índice de bolsa de valores. prof. Luis Otavio Alvares Detecção de desvios Detecção de desvios Determinar desvios significativos do comportamento normal Aplicações: – Detecção de fraudes em cartões de crédito – Detecção de invasão em redes de computadores – Detecção de eventos através de mensagens do Twitter Typical network traffic at University level may reach over 100 million connections per day prof. Luis Otavio Alvares exemplo: sistema de mortalidade Doenças “P” – Algumas afecções originadas no período perinatal: – Uruguaiana apresenta um desvio significativo em relação a esta classe de doenças, pois foram registrados muito mais casos de morte do que o esperado. – Porto Alegre registrou menos mortes do que a quantidade esperada, para esta classe de doenças. Caxias do Sul apresenta um desvio em relação às doenças “Q- malformação congênita, deformidades e anomalias cromossômicas”. Foi registrado um número de mortes significativamente maior do que o esperado para a cidade. prof. Luis Otavio Alvares Principais Tarefas de DCBD ... Classificação [Preditiva] Clustering [Descritiva] Descoberta de regras de associação [Descritiva] Descoberta de padrões seqüenciais [Descritiva] Regressão [Preditiva] Detecção de desvios [Preditiva] Exercício Especifique a tarefa de DCBD em cada um dos casos abaixo: 1 agrupar proteínas com funcionalidades similares 2 predizer a quantidade de vendas de um novo produto baseado nos gastos com propaganda 3 prever se é provável que um cliente de uma empresa de telefone celular passe para um concorrente 4 identificar itens que são comprados juntos por um grande número de clientes Desafios para Data Mining Escalabilidade Dimensionalidade Dados complexos e heterogêneos Qualidade dos dados Propriedade e distribuição dos dados Preservação da privacidade Dados em fluxo contínuo Próxima aula O processo de KDD