Sistemas de Informações Gerenciais – SIGA5 Yuni Mika Maeda Prontuário: 1280295 "Mineração de Dados em Data Warehouse para sistema de Abastecimento de água" Introdução: Para obter o objetivo da pesquisa, foram utilizados duas das várias tarefas de Data Mining definidas na literatura. Tais tarefas se mostraram adequadas aos resultados de detecção de perdas aparentes nos hidrômetros. As tarefas aplicadas foram: Classificação por Árvore de Decisão e Classificação Bayesiana (Aprendizado Supervisionado); e Geração de Regras de Associação (Aprendizado Não Supervisionado). Técnicas e Processos: Árvore de Decisão: Trata-se da hierarquização dos dados, baseada em estágios de decisão (nós) e na separação de classes e subconjuntos. Em poucas palavras as árvores de decisão são uma maneira de representar uma série de regras que conduzem a uma classe ou a um valor, sendo que o objetivo principal de uma árvore de decisão é separar as classes, onde as tuplas de classes diferentes tendem a ser alocadas em subconjuntos diferentes. Cada subconjunto é descrito por regra simples em um ou mais itens de dados. Essas regras podem ser expressas como declarações lógicas, em uma linguagem como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das principais vantagens das árvores de decisão é o modelo limpo e explicável, uma vez que tem a forma de regras explícitas, podendo ser representado como um conjunto de regras (galhos), onde cada nó não terminal representa um teste ou decisão sobre o item considerado. Na árvore de decisão cada nó não terminal representa um teste ou decisão sobre o item de dado. Sendo assim, cada caminho da árvore pode ser convertido em uma regra. As principais vantagens de algoritmos baseados em árvore de decisão são sua eficiência computacional e simplicidade. Devido ao uso da aproximação. Classificação Bayesiana: Trata-se de métodos estatísticos que podem predizer a probabilidade de um registro pertencer a uma determinada classe. Esses classificadores estatísticos oferecem uma simples, porém poderosa técnica de classificação supervisionada assumindo que todos os atributos de entrada possuem a mesma importa e são independentes entre si. A classificação Bayesiana é baseada no teorema de Bayes e no algoritmo de classificação, conhecido como NaïvesBayes. O princípio básico desse método está fundamentado na teoria da Probabilidade Bayesiana Geração de Regras de Associação: Trata-se de regras que estabelecem uma correlação estatística entre os atributos de dados e conjunto de dados. Dentro do segmento de regras de associação o algoritmo Apriori é considera um clássico, tal algoritmo foi concebido pelo centro de pesquisa da IBM. Esse algoritmo emprega uma busca em profundidade e utiliza os conjuntos de itens de tamanho k para gerar os conjuntos de itens de tamanho (k+1). O primeiro passo do algoritmo é encontrar os conjuntos de itens frequentes com 1 item. Este conjunto é denominado de L1. O conjunto L1 é usado para gerar L2, que representa os conjuntos de itens frequentes com 2 itens, e assim por diante, até que nenhum conjunto de itens frequentes possa ser gerado. O algoritmo Apriori usa o principio de que cada subconjunto de um conjunto de itens frequentes também deve ser frequente. Esta regra é utilizada para reduzir o número de candidatos a serem comparados com cada transação no banco de dados. Todos os candidatos gerados que contém algum subconjunto que não seja frequente são eliminados. Cada passo inicia com um conjunto semente de itens, e esse conjunto semente gerará novos conjuntos potenciais, chamados conjuntos de itens candidatos. Enquanto o conjunto de itens candidatos não ficar vazio, o algoritmo armazena esses conjuntos e para cada tupla do banco de dados testa se um conjunto candidato está ou não contido na tupla. Caso um conjunto candidato esteja contido na tupla, então incrementa um contador. Se ao final do teste para cada tupla da base de dados uma regra candidata tiver um suporte mínimo especificado, então ela é inserida no novo conjunto semente, que são os itens candidatos.