INTELIGÊNCIA ARTIFICIAL Data Mining (DM) :alguns conceitos (Revista Byte – Outubro/1995 –págs. 96-110) • Há ouro em seus dados, mas você não consegue vê-lo. Pode ser uma percepção tão simples (e tão lucrativa) quanto se dar conta de que compradores de comida para bebês são também compradores de fraldas. • A mineração de dados (data mining) deixa que o poder dos computadores faça o trabalho de joeirar as imensas quantidades de dados armazenados. Uma busca incansável e persistente pode encontrar a minúscula pepita de ouro em uma montanha de entulho de dados. 1 Imagine agentes inteligentes à solta sobre dados de pesquisas médicas ou informações sobre partículas subatômicas. Os computadores podem revelar novos tratamentos para doenças ou novas visões sobre a natureza do universo. INTELIGÊNCIA ARTIFICIAL Data Mining (DM) :alguns conceitos (Revista Byte – Outubro/1995 –págs. 96-110) • Está tudo ali. A descoberta, o fato, aquela peça de quebracabeça que derrubará a concorrência, impulsionando sua companhia para o topo. • Está tudo ali, em seu banco de dados. Mas você não consegue ver. A quantidade de informações armazenadas em banco de dados está explodindo. De zilhões de transações em pontos de venda e compras com cartão de crédito a imagens pixel-a-pixel de galáxias. Os bancos de dados são medidos em gigabytes e terabytes. No ambiente comercial ferozmente competitivo de hoje, as companhias precisam transformar rapidamente terabytes de dados brutos em visões significativas que guiem o marketing, investimentos e estratégias de gerenciamento. 2 Obs.: 1 terabyte ≈ 2 milhões de livros. Imagine um analista de negócios “varrer” 1 terabyte de dados para detectar tendências (padrões) importantes ao negócio da organização. INTELIGÊNCIA ARTIFICIAL Data Mining (DM) :alguns conceitos (Revista Byte – Outubro/1995 –págs. 96-110) • Exemplo (em 1995) : WalMart – rede com aproximadamente 2.000 lojas de varejo – armazena diariamente 20 milhões de transações de pontos de venda em um sistema massivamente paralelo com 483 processadores administrando um banco de dados centralizado. → Detalhe: a alta administração da empresa quer conhecer as tendências (padrões) da movimentação nos mínimos detalhes. • Data Mining (DM) ou descoberta por conhecimento é o processo auxiliado por computador de “escavar” e analisar enormes conjuntos de dados e então extrair significado das “pepitas” de dados (ou seja, conhecer as tendências/padrões do negócio em questão). 3 INTELIGÊNCIA ARTIFICIAL Data Mining (DM) :alguns conceitos (Revista Byte – Outubro/1995 –págs. 96-110) • Esquema conceitual da mineração de dados (data mining) Fontes de dados: banco de dados, notícias, etc. Pré-processamento dos dados: coleta, “limpeza” Procurar padrões Exame dos dados pelo analista de negócio. Relatório das descobertas Tomada de decisão • Em particular, as ferramentas de DM procuram padrões nos dados. Uma variedade de ferramentas computacionais – tais como redes neurais, sistemas baseados em regras, sistemas baseados em casos, aprendizado de máquina (machine learning) e técnicas estatísticas diversas – sozinhas ou em combinações pode ser aplicada a um problema. 4 INTELIGÊNCIA ARTIFICIAL Data Mining (DM) :alguns conceitos (Revista Byte – Outubro/1995 –págs. 96-110) • (Byte – Outubro/1995): Lembra-se da visão de Bill Gates de “informação na ponta dos dedos”? A verdade é que a maioria de nós está atolada em informações até o pescoço; provavelmente recebemos mais informação em uma semana do que poderíamos processar em várias vidas. • Um desafio para DM é desenvolver agentes inteligentes capazes de priorizar e/ou filtrar os dados que nos bombardeiam diariamente. • Barry Mason, um dos cabeças do IBM Consulting Group, define DM como “ferramentas de descoberta que tomam grandes quantidades de dados detalhados a nível de transação e aplicam técnicas matemáticas sobre eles, ‘descobrindo’ visões sobre o comportamento do consumidor”. 5 INTELIGÊNCIA ARTIFICIAL Data Mining (DM) :alguns exemplos (Revista Byte – Outubro/1995 –págs. 96-110) 6 INTELIGÊNCIA ARTIFICIAL Data Mining (DM) :alguns exemplos (Revista Byte – Outubro/1995 –págs. 96-110) 7 INTELIGÊNCIA ARTIFICIAL Data Mining (DM) :alguns exemplos (Revista Byte – Outubro/1995 –págs. 96-110) 8 INTELIGÊNCIA ARTIFICIAL Data Mining (DM) :alguns exemplos (Revista Byte – Outubro/1995 –págs. 96-110) 9 INTELIGÊNCIA ARTIFICIAL Data Mining and Knowledge Discovery in Databases (KDD) (Communications of the ACM – November 1996/Vol. 39 No 11) • Raw data is rarely of direct benefit. Its true value is predicated on the ability to extract information useful for decision support or exploration and understanding the phenomena governing the data source. • Traditionally, analysis was strictly a manual proccess. However such an approach rapdily breaks down as the quantity of data grows and the number of dimensons (variables) increases. • The amount of data is growing so fast that manual analysis (even if possible) simply cannot keep pace. • The problem of automating data analysis has grown steadly under the label knowledge discovery in databases (KDD) and data mining. The first KDD workshop was held in 1989. 10 INTELIGÊNCIA ARTIFICIAL Data Mining and Knowledge Discovery in Databases (KDD) (Communications of the ACM – November 1996/Vol. 39 No 11) • Databases are increasing in size in two ways: The number N of records, or objects, in the database The number d of fields, or attributes per object. • Databases containing on the order of N = 109 objects are increasingly common in, for example, the astronomical sciences. The number d of fields can easily be on the order of 102 or even 103 in medical diagnosis aplications. 11 INTELIGÊNCIA ARTIFICIAL Data Mining and Knowledge Discovery in Databases (KDD) (Communications of the ACM – November 1996/Vol. 39 No 11) • The problem of knowledge extraction from large databases involves many steps, ranging from data manipulation and retrival to fundamental mathematical and statistical inference, search and reasoning. • Although the problem of extracting knowledge from data (or observations) is not new, automation in the context of large databases opens up many new unsolved problemms. • Finding useful patterns in data is known by different names: Data mining Knowledge extraction Information discovery Information harvesting Data archeology Data pattern processing • “Here we use the term KDD to refer to the overall process of discovering useful knowledge from data. Data mining is a particular step in this process.” 12 INTELIGÊNCIA ARTIFICIAL Data Mining and Knowledge Discovery in Databases (KDD) (Communications of the ACM – November 1996/Vol. 39 No 11) • KDD process – main steps Data preparation Data selection Data cleaning Incorporation of appropriate prior knowledge Data mining Interpretation of the results • KDD has evolved, and continues to evolve, from the intersection of research in such fields as 13 Databases Machine learning Pattern recognition Statistics Artifial intelligence Reasoning with uncertainty Knowledge acquisition for expert systems Data visualization Machine discovery Information retrieval High-performance computing INTELIGÊNCIA ARTIFICIAL Data Mining and Knowledge Discovery in Databases (KDD) (Communications of the ACM – November 1996/Vol. 39 No 11) • KDD and databases “Database theories and tools provide the necessary infraestructure to store, access, and manipulate data.” “Data warehousing, a recently popularized term, refres to the current business trend of collecting and cleaning transactional data to make them available for online analysis and decision support.” “A popular approach for analysis of data warehouses is called on line analytical processing (OLAP). OLAP tools focus on providing multidimensional data analysis, which is superior to SQL in computing summaries and breakdowns along many dimensions.” • KDD places a special emphasis on finding understandable patterns that can be interpreted as useful or interesting knowledge. (...) Fields concerned with inferring models from data – including statistical pattern recognition, applied statistics, machine learning and neural netwaorks – were the impetus for much early KDD work. 14 INTELIGÊNCIA ARTIFICIAL Data Mining and Knowledge Discovery in Databases (KDD) (Communications of the ACM – November 1996/Vol. 39 No 11) • KDD and data mining “Data mining is a step in the KDD process consisting of na enumeration of patterns (or models) over the data, subject to some acceptable computational-efficiency limitations.” “Data mining involves fitting models to or determining patterns from observed data. The fitted models play the role of inferred knowledge. Deciding to whether or not the models reflect useful knowledge is a part of the overall interactive KDD process for which subjective human judgment is usually required.” The more common model functions in current data mining practice include: 15 Classification Regression Clustering Summarization Dependency modeling Link analysis Sequence analysis INTELIGÊNCIA ARTIFICIAL Data Mining and Knowledge Discovery in Databases (KDD) (Communications of the ACM – November 1996/Vol. 39 No 11) 16 INTELIGÊNCIA ARTIFICIAL Descoberta de Conhecimento e Mineração de Dados ICA – Laboratório de Inteligência Computacional Aplicada Departamento de Engenharia Elétrica - PUC-RJ Marco Aurélio/Marley Velasco/Carlos Henrique Lopes - Ago/1999 • Durante os últimos anos tem se verificado um crescimento substancial da quantidade de dados armazenados em meios magnéticos. • Estes dados, produzidos e armazenados em larga escala são inviáveis de serem lidos ou analisados por especialistas através de métodos manuais tradicionais, tais como planilhas de cálculo e relatórios informativos operacionais, onde o especialista testa sua hipótese contra a base de dados. • Argumenta-se que a necessidade de sistemas para dar suporte a decisão tem se desenvolvido ao longo dos anos cada vez mais dentro de uma granularidade de informações mais refinada: Nos anos 60, as exigências e necessidades estavam a nível de mercado Nos anos 70, ao nível de nichos, grupos de interesse Nos anos 80, ao nível de segmentos de mercado Nos anos 90, ao nível de cliente. • O nível de cliente, naturalmente requer o uso de mais dados para se extrair conhecimento. 17 INTELIGÊNCIA ARTIFICIAL Descoberta de Conhecimento e Mineração de Dados ICA – Laboratório de Inteligência Computacional Aplicada Departamento de Engenharia Elétrica - PUC-RJ Marco Aurélio/Marley Velasco/Carlos Henrique Lopes - Ago/1999 • A exploração do valor dos dados (armazenados no bancos de dados) como fonte geradora de informação depende de técnicas tais como regras de associação, classificação e clusterização entre outras. • processo capaz de descobrir este conhecimento em banco de dados chama-se KDD (Knowledge Discovery in Databases). O processo KDD foi proposto em 1989 para referir-se às etapas que produzem conhecimento a partir dos dados. • Uma das etapas mais importantes no processo KDD refere-se à mineração dos dados onde os dados são efetivamente transformados em informações. • Diversas áreas relacionadas à descoberta de conhecimento fazem parte do processo global de KDD tais como aprnedizado de máquina (machine learning), inteligência computacional, estatística e visualização dos dados. • Técnicas tais como redes neurais artificiais, algoritmos genéticos, lógica fuzzy e métodos estatísticos diversos são utilizados no processo de KDD. 18 INTELIGÊNCIA ARTIFICIAL Descoberta de Conhecimento e Mineração de Dados ICA – Laboratório de Inteligência Computacional Aplicada Departamento de Engenharia Elétrica - PUC-RJ Marco Aurélio/Marley Velasco/Carlos Henrique Lopes - Ago/1999 • Visão sistemática do processo KDD • A mineração de dados (data mining) é a mais importante etapa no processo KDD. Caracteriza-se pele existência do algoritmo que diante da tarefa especificada será capaz de extrair eficientemente conhecimento implícito e útil de um banco de dados. 19 INTELIGÊNCIA ARTIFICIAL Descoberta de Conhecimento e Mineração de Dados ICA – Laboratório de Inteligência Computacional Aplicada Departamento de Engenharia Elétrica - PUC-RJ Marco Aurélio/Marley Velasco/Carlos Henrique Lopes - Ago/1999 • Visão da taxonomia da fase de mineração de dados 20 INTELIGÊNCIA ARTIFICIAL Descoberta de Conhecimento - Uma Síntese 21