Universidade do Estado de Santa Catarina–UDESC Centro de Ciências Tecnológicas – CCT Engenharia de Produção e Sistemas Gestão da Tecnologia e da Inovação (GTI) DATA MINING Profº Adalberto J. Tavares Vieira DATA MINING Mineração de dados ou Data Mining é o processo de varrer grandes bases de dados a procura de padrões como regras de associação, sequências temporais, para classificação de ítens ou agrupamento (clustering). Esse é um tópico recente em Ciência da computação mas utiliza várias técnicas da Estatística, Recuperação de informação, Inteligência artificial e reconhecimento de padrões. DATA MINING Mineração de dados é uma etapa de um processo conhecido como extração de conhecimento em bases de dados ou Knowledge-Discovery in Databases (KDD). São exemplos de técnicas de mineração de dados: regras de associação, clustering, algoritmo genético, árvores de decisão e outras. DATA MINING • OBJETIVOS: - Identificar como a tecnologia de Data Mining pode vir ajudar a obter informações preciosas e relevantes de grandes bases de dados; - Inserir os principais conceitos para melhorar a tomada de decisões nas empresas com base em seus acervos de dados; DATA MINING Apresentar os conceitos, técnicas, ferramentas e aplicações de Data Mining; - Mostrar como utilizar a tecnologia de Data Mining no contexto de Business Intelligence (BI); - Capacitar os participantes para atuarem de forma ativa em um projeto de Data Mining; ; DATA MINING - Apresentar exemplos de aplicações de Data Mining para Market Basket Analysis, Segmentação de Mercado, Modelagem de Churn/Attrition, Credit Scoring, Detecção de Fraude. DATA MINING PRINCIPAIS PASSOS DO PROCESSO: 1. Definição do Problema. 2. Identificar e obter os dados. ٭Análise de potenciais variáveis explicativas e canalização de dados. DATA MINING 3. Validar, explorar e limpar os dados. ٭Por melhores que “pareçam” os dados, os erros estão sempre garantidos ! 4. Transpor os dados para o nível de análise pretendido. ٭A maior parte dos algoritmos de Data Mining tem uma “visão” simplista dos dados: tabela onde cada linha é um exemplo e cada coluna é atributo. DATA MINING 5. Analisar a necessidade de incluir variáveis derivadas. 6. Preparar o conjunto de dados. 7. Dividir os dados em conjunto de treino, validação e teste. 8. Escolher o algoritmo de modelação. DATA MINING 9. 9. Treinar o modelo usando o conjunto de treino. ◦ Validar o modelo usando o de validação. ◦ Acertar parâmetros e escolher melhor modelo. 4. 10.Testar o modelo usando o conjunto de 5. teste. 6. 11. Analisar os resultados.