Curso de Data Mining - Aula 1 1. Como surgiu 2. O que é 3. Em que tipo de dados pode ser aplicado 4. Que tipos de padrões podem ser minerados 5. Critérios de classificação de sistemas de Data Mining 6. Tópicos importantes de estudo em Data Mining 7. Aplicações 8. Sistemas Comerciais de Data Mining Como surgiu MUITOS DADOS × POUCA INFORMAÇÃO • Grandes volumes de dados disponı́veis • Arquivos de dados → “cemitério” de dados : raramente visitados. • Necessidade de transformar estes dados em informação útil • necessidade de desenvolvimento de ferramentas de mineração. Como surgiu • Decisões são tomadas utilizando intuição. • Tecnologias de sistemas especialistas que inserem manualmente o conhecimento na base de dados : procedimento passı́vel de erros e extremamente custoso em tempo. • Ferramentas de Data mining realizam análise de grandes volumes de dados e podem descobrir padrões interessantes frequentes nos dados. • O grande abismo entre dados e informação requer o desenvolvimento de ferramentas de datamining que vão transformar os “cemitérios” de dados em “minas” de conhecimento. O que é Data Mining Uma das etapas do processo de Descoberta de Conhecimento • Limpeza dos dados : eliminação de ruı́dos e dados inconsistentes. • Integração dos dados : diversas fontes de dados são combinadas. • Seleção dos dados dados relevantes às tarefas de análise são extraidos do banco de dados. • Transformação dos dados : formas apropriadas para mineração. O que é Data Mining - continuação • Data Mining : métodos inteligentes são aplicados nos dados já preparados a fim de extrair padrões interessantes (de acordo com critérios do usuário). • Pós-processamento dos padrões minerados para identificar quais são realmente interessantes para o usuário. • Visualização : técnicas de visualização e representação de conhecimento são utilizadas para apresentar o conhecimento minerado ao usuário. Em que tipo de dados pode ser aplicado Bancos de Dados Relacionais : • Consultas clássicas SQL : dar a lista dos artigos comprados no último trimestre. • Data Mining : predizer os riscos de crédito a novos clientes baseados em seus rendimentos, idade e informações sobre créditos passados. Em que tipo de dados pode ser aplicado Data Warehouse : • Modelo Multidimensional ou data cubes • Consultas OLAP (On Line Analytical Processing) : permitem obter os dados sob diferentes graus de sumarização. Exemplo : obter o total de vendas por região, por paı́s, etc, a partir de dados de vendas organizados por cidade. • Data Mining : Descobrir existência de clusters de clientes em diferentes localidades, ou em diferentes faixas de salário. Em que tipo de dados pode ser aplicado Bancos de Dados de Transações : tickets de supermercado, por exemplo : Trans-id ItensComprados T100 Pão, Leite, Açúcar ··· ··· • Consultas Clássicas : “Quantas transações incluem o item ‘Pão’ ”? • Data Mining : “Quais itens têm boa saı́da conjuntamente ?” Exemplo: se impressoras são normalmente compradas conjuntamente com um computador, então uma boa estratégia seria oferecer modelos caros de impressoras com desconto para clientes que compram certas marcas de computadores. Em que tipo de dados pode ser aplicado Sistemas de Bancos de Dados Avançados • Orientado-objeto / Relacional-estendido • Espacial : bancos de dados geográficos, imagens médicas e de satélite. Ex: mapas de cidades, incluindo informações sobre ruas de mão-única, sugestões de caminhos para ser ir de um ponto A a um ponto B, hora do rush, localização de restaurantes e hospitais, etc. Possı́veis padrões : caracterı́sticas de casas localizadas em certas regiões (parques, por exemplo). • Temporal • Textos e Multimı́dia • Não estruturados ou Semi-estruturados (XML) Que tipos de padrões podem ser minerados Numa grande loja de departamentos... • Regras de Associação : Clientes entre 20 e 29 anos, com rendimentos mensais entre 2000 e 5000 normalmente compram DVD Players. idade(X,“20-29”) AND rend(X, “2000-5000”) → compra(X, “DVD-Player”). • Classificação e Predição : encontrar critérios que classifiquem os artigos da loja em “vende bem”, “vende mais ou menos”, “não vende”; poder-se-ia descobrir que os critérios seriam preço, marca, categoria, lugar de fabricação. Que tipos de padrões podem ser minerados • Análise de Clusters : Detecção de clusters correspondendo à localização de clientes numa cidade. Os clientes estão aglutinados em torno de três locais na cidade. • Análise de Outliers : Deteção de eventos raros, fora do padrão; Clientes que excepcionalmente fazem uma compra de grande valor e pagam com cartão de crédito provavelmente estão tendo um comportamento fraudulento. • Sequências (ou Análise Evolutiva) : clientes têm tendência a comprar aparelhos de TV, depois Vı́deo-Cassete e depois DVD. Padrão Sequencial : <TV,Vı́deo,DVD> Critérios de classificação de sistemas de Data Mining • Quanto ao tipo de bancos de dados : relacional, transacional, orientado-objeto, relacional-estendido, datawarehouse; • Quanto ao tipo de conhecimento minerado : regras de associação, classificação, clustering, outliers, análise de sequências; • Quanto ao tipo de técnicas utilizadas : técnicas de aprendizado de máquina (Machine Learning), estatı́stica, redes neurais, algoritmos genéticos, etc; tipos de interação com o usuário; • Quanto ao tipo de aplicações a que são dirigidos : telecomunicações, análise financeira, bio-informática, mercado de ações, comércio eletrônico; Diferentes aplicações requerem a integração de metódos especı́ficos. Tópicos importantes de estudo em Data Mining • Mineração de diferentes tipos de padrões; • Mineração interativa; • Desenvolvimento de Linguagens de Mineração : permitindo ao usuário solicitar tarefas de mineração; • Desenvolvimento de Ferramentas de Visualização do conhecimento minerado; • Gerenciamento de ruı́dos e dados incompletos; • Eficiência e escalabilidade dos algoritmos de mineração; Aplicações Análise Financeira • predição de pagamentos de empréstimos, polı́tica de créditos para clientes. • classificação e clustering de clientes para fins de marketing direcionado. • detecção de lavagem de dinheiro e outros crimes financeiros. Necessita integração de diferentes bancos de dados : dados bancários, registros de polı́cias estaduais e federais. Aplicações Comércio varejista, E-comércio • Marketing - Campanhas publicitárias • Sugestões de compras aos clientes • Melhor design de sites de compras • Distribuição de artigos nas prateleiras • Análise de fidelidade da clientela Aplicações Indústria de Telecomunicações • Identificação de atividades fraudulentas - padrões atı́picos de comportamento. • Regras de associação e padrões sequenciais : “Se um cliente mora em São Paulo e trabalha fora de São Paulo, então é bem provável que ele faça uma chamada interurbana entre as duas localidades por volta de 17:00h e duas horas depois utilize o celular por pelo menos 30 minutos.” Aplicações Análises biomédicas e de DNA • Identificação de sequências de genes que desempenham papel importante em diversas doenças. • Path Analysis : diferentes genes podem tornar-se ativos em diferentes estágios de uma doença. Se sequências de atividades genéticas durante as diferentes etapas do desenvolvimento de uma doença podem ser identificadas, é possı́vel desenvolver remédios que atuam em sequência nas diferentes etapas. • Sequências de sintomas associados a determinadas doenças. Sistemas Comerciais de Data Mining Nome Fabricante Funções Destaque IBM algoritmos para regras de associação, classificação, regressão, padrões sequenciais, clustering. algoritmos classificação, regressão, pacotes de análise estatı́stica. algoritmos para regras de associação, classificação, análise estatı́stica. Integrado com o SGBD DB2 da IBM. Grande escalabilidade dos algoritmos. Intelligent Miner Enterprise Miner MineSet SAS Inc. Institute Silicon Graphics Inc. Grande variedade de ferramentas estatı́sticas. Um robusto conjunto de ferramentas avançadas de visualização. Sistemas Comerciais de Data Mining Nome Fabricante Funções Clementine Integral Solutions Ltd. DBMiner DBMiner Technology Inc. algoritmos de regras de indução, redes neurais, classificação e ferramentas de visualização. algoritmos de regras de associação, classificação, clustering. algoritmos de análise de sequências Genamics Expression Genamics veloper De- Destaque Interface orientadaobjeto. Data Mining utilizando OLAP Revolutionary new Windows application for DNA and protein sequence analysis.