TABD - I Agenda TABD - I Unidade I - KDD (Knowledge Discovery in Databases) ! Estruturas de OLAP • ! AULA 2 – KDD Unidade 1 Descoberta de Conhecimento em Bases de Dados ! ! ROLAP / MOLAP / HOLAP / WOLAP Conceitos Fases Metodologia para KD • CRISP-DM Prof. Edilberto M. Silva Edilberto M. Silva - TABD I 2 Produto Estruturas OLAP Consulta sobre Vendas Estruturas OLAP BD de Vendas Geografia " Tempo OLAP - On-line Analitycal Process " – No OLAP as respostas não são automáticas – Trata-se de um processo interativo, onde o usuário formula hipóteses, faz consultas, recebe informações, verifica um dado específico em profundidade e faz comparações (CARVALHO, 1997b). – Ajuda os usuários a sintetizarem as informações sobre a empresa, através de comparações, visões personalizadas, análises estatísticas, previsões e simulações (FIGUEIREDO, 1998). – 4 tipos de estruturas OLAP: • • • • ROLAP MOLAP HOLAP WOLAP – Desvantagens • pobre conjunto de funções para análises dimensionais • inadequação do esquema estrela (star scheme), " MOLAP - Multidimensional On-Line Analytical Process – modelados em uma estrutura conhecida por cubo – estruturas de dados do tipo "array" – Vantagens 3 6 5 4 Carro B 3 5 5 Carro C 4 3 3 Azul Vermelho Verde • Maior necessidade de espaço, para armazenamento • maior possibilidade de ocorrência dos dados esparsos Edilberto M. Silva - TABD I 4 KDD - Conceituação Estruturas OLAP • Quanto aos resultados HOLAP - Hybrid OLAP – sistema híbrido que utiliza os dois tipos de OLAP: ROLAP e o MOLAP “KDD é o processo, não trivial, de extração de informações, implícitas, previamente desconhecidas e úteis, a partir dos dados armazenados em um banco de dados.” WOLAP ou Web OLAP – migração da tecnologia OLAP para o ambiente da Internet Data Warehouse [Frawley, Piatetsky-Shapiro & Matheus,1991] – Vantagens Reconhecimento de padrões • a possibilidade de plataformas independentes • Quanto ao processo • suporte a usuários distantes • aplicações de groupware Visualização “KDD é uma tarefa de descoberta de conhecimento intensivo, consistindo de interações complexas, feitas longo do tempo, entre o homem e uma grande base de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas. [Brachman & • facilidade de aprendizado e de manutenção – Desvantagens • limitações dos recursos da Internet • as interfaces e as funcionalidades reduzidas FIGUEIREDO, A. M. C. M. (1998) Molap x Rolap: embate de tecnologias para data warehouse, Developers’ Magazine, n. 18, p. 24-25, fev. | CARVALHO, J. (1997b). OLAP sem segredos. Computerworld, nov. 1997. ttp://www.idg.com.br/computerworld/computerworld/236/236indep01.htm Edilberto M. Silva - TABD I Carro A – Desvantagens Edilberto M. Silva - TABD I " • Não tem restrições no volume • Tecnologia estabelecida, de arquitetura aberta e padronizada • o rico e complexo conjunto de funções de análises • Rápido tempo de resposta FIGUEIREDO, A. M. C. M. (1998) Molap x Rolap: embate de tecnologias para data warehouse, Developers’ Magazine, n. 18, p. 24-25, fev. CARVALHO, J. (1997b). OLAP sem segredos. Computerworld, nov. 1997. http://www.idg.com.br/computerworld/computerworld/236/236indep01.htm " ROLAP - Relational On-Line Analytical Process – Feita em banco de dados relacionais – Vantagens 5 Banco de Dados KDD Estatística Inteligência Aprendizado Artificial de Máquinas Anand,1995] Edilberto M. Silva - TABD I 6 1 KDD – O processo KDD – As Fases No No contexto contexto de de solução solução " " Interatividade Identificação do problema # desenvolvimento e o entendimento do domínio da aplicação Processo de KDD # conhecimentos prévios relevantes # objetivos do usuário final. " " " O processo de KDD atua sobre os dados do problema produzindo conhecimento, identifica padrões novos, precisos e úteis e obtendo um modelo do fenômeno. O conhecimento obtido permite a execução de ações produzindo resultados. Identificação do Problema Ação " " " Mensuração " " Pré-processamento, Mineração e Pós-processamento Busca realizar o processo de DC o mais automatizado possível Sinergia com Data Warehousing Data Mining (DM) é uma etapa do KDD Custos e Mão-de-obra especializada Silver, D. L., Knowledge Discovery and Data Mining, MBA course notes of Dalhousie University, Nova Scotia, Canada, 1998. http://ttg.sba.dal.ca/sba/profs/dsilver/. Edilberto M. Silva - TABD I PRADO, Hércules A. Abordagens híbridas para mineração de dados. Exame de qualificação, Porto Alegre: CPGCC da UFRGS-Universidade Federal do Rio Grande do Sul, 1998. Edilberto M. Silva - TABD I 7 KDD – As Fases KDD – As Fases Obtenção e Extração dos Dados Definição e Entendimento do Problema " " Entender aonde se quer chegar – entender e descobrir (qualidade dos dados e/ou na sua padronização. – trivial, mas fundamental – “respostas corretas para perguntas erradas” Materialização do problema " Objetivos que possam ser mensurados " Aliar a extração do conhecimento à definição do problema. " Geralmente consiste em um datawarehousing " Atividades principais – definição dos atributos a serem considerados – extração física dos dados das diversas fontes Exemplos: – Quais os conceitos das notícias produzidas pela empresa e o quanto disto está sendo “conhecido pela sociedade”? (Muito amplo, múltiplas interpretações) – Quais os principais assuntos tratados pelas noticias mês a mês? (foco em uma solução, delineação do problema) Edilberto M. Silva - TABD I Limpeza e Exploração dos Dados " Familiarização com os dados (conteúdo, tipos, significado..) " Limpeza para evitar identificação de padrões errôneos Edilberto M. Silva - TABD I 9 KDD – As Fases Análise sobre pontos específicos " Trabalhar com subconjuntos atributos ou tuplas. Modelo que obtiver melhor Mineração de Dados performance contra dados que não participaram do treinamento " 10 KDD – As Fases Engenharia dos Dados " Através do entendimento do problema – coleção de dados necessários para resolução do problema – entender de forma real o problema " 8 " Etapa mais importante do processo de KDD " Tarefa capaz de extrair eficientemente conhecimento implícito e útil de um banco de dados. Exemplos: 1) comportamento dos clientes do banco por região. " 2) faixas de idade, como jovem, adulto ou idoso “fase que transforma dados em informações” Principais Tarefas Engenharia do Algoritmo Principais Técnicas Associação Estatística e Teoria dos Conjuntos " Seleciona a(s) técnica(s) e o(s) algoritmo(s) Classificação Algoritmos Genéticos, Redes Neurais e Arvores de Decisão " Escolha dos parâmetros mais adequados Clustering Redes Neurais e Estatística Previsão Séries Temporais Redes Neurais, Lógica Nebulosa e Estatística Edilberto M. Silva - TABD I 11 Edilberto M. Silva - TABD I 12 2 Metodologia para Descoberta de Conhecimento - CRISPCRISP-DM KDD – As Fases Interpretação e Validação dos Resultados " Rever e repassar os passos que lhe deram origem " Certificar que o mesmo esteja aliado aos objetivos do negócio " Generalização a partir dos dados do treinamento (overfitting) " Refinamento dos Dados e do Problema Conhecimento " Ação " Aplicação das Informações no negócio da organização Edilberto M. Silva - TABD I " " " Relatório Inicial da Coleção Descrição dos Dados Exploração dos Dados Qualidade dos Dados Seleção dos Dados Limpeza dos Dados Engenharia dos Dados Integração dos Dados Formatação dos Dados Edilberto M. Silva - TABD I Padroniza conceitos e técnicas na busca de informações específicas para a tomada de decisões em negócios. " 6 etapas não-rígidas 14 Modelagem Nessa fase são selecionadas e aplicadas as técnicas de Data Mining mais apropriadas, dependendo dos objetivos pretendidos – – – – " [CRISP[CRISP-DM Process Model, Model, 2000] 15 Seleção da Técnica Teste do modelo Modelo Avaliação Técnica do Modelo Avaliação dos Resultados É verificado se os resultados vão ao encontro dos objetivos do negócio, previamente determinados. É indispensável a participação do especialista que, conhecendo o negócio, será capaz de avaliar se existem falhas ou contradições importantes. A partir disso, decide se o processo termina ou se deverão ser feitas correções no processo, voltando a fases anteriores, ou iniciar novo processo – – – Preparação dos Dados Criação de programas de extração, limpeza e transformação dos dados para uso pelos algoritmos de data mining – – – – – " Objetivo do Negócio Avaliação da Situação Objetivos da Mineração de Dados Plano do Projeto Entendimento dos Dados O analista deve identificar as informações relevantes, familiarizando-se com seu conteúdo, descrição, qualidade e utilidade. Também deverão ser listadas as fontes dos dados, o procedimento de leitura e eventuais problemas detectados. – – – – " CRISPCRISP-DM Entendimento do Negócio Nessa fase inicial, é necessário que se entenda o que o cliente deseja, identificando eventuais problemas e/ou restrições que, se desconsideradas poderão implicar perda de tempo e esforço. – – – – CRoss-Industry Standard Process for Data Mining – 1996 Edilberto M. Silva - TABD I 13 CRISPCRISP-DM " " Avaliação Revisão dos Processos Próximos passos Aplicação Nesse momento é gerado um relatório para explicar os resultados e as experiências, procurando utilizá-los no negócio – – – Planejamento da Aplicação Produção do relatório final Revisão de projeto Edilberto M. Silva - TABD I [CRISP[CRISP-DM Process Model, Model, 2000] 16 3