Sistemas de Informações Gerenciais – SIGA5 Yuni Mika Maeda

Sistemas de Informações Gerenciais – SIGA5
Yuni Mika Maeda
Prontuário: 1280295
"Mineração de Dados em Data Warehouse para sistema de Abastecimento de água"
Introdução:
Para obter o objetivo da pesquisa, foram utilizados duas das várias tarefas de Data
Mining definidas na literatura. Tais tarefas se mostraram adequadas aos resultados de
detecção de perdas aparentes nos hidrômetros. As tarefas aplicadas foram: Classificação por
Árvore de Decisão e Classificação Bayesiana (Aprendizado Supervisionado); e Geração de
Regras de Associação (Aprendizado Não Supervisionado).
Técnicas e Processos:



Árvore de Decisão: Trata-se da hierarquização dos dados, baseada em estágios de
decisão (nós) e na separação de classes e subconjuntos. Em poucas palavras as árvores
de decisão são uma maneira de representar uma série de regras que conduzem a uma
classe ou a um valor, sendo que o objetivo principal de uma árvore de decisão é
separar as classes, onde as tuplas de classes diferentes tendem a ser alocadas em
subconjuntos diferentes. Cada subconjunto é descrito por regra simples em um ou
mais itens de dados. Essas regras podem ser expressas como declarações lógicas, em
uma linguagem como SQL, de modo que possam ser aplicadas diretamente a novas
tuplas.
Uma das principais vantagens das árvores de decisão é o modelo limpo e
explicável, uma vez que tem a forma de regras explícitas, podendo ser representado
como um conjunto de regras (galhos), onde cada nó não terminal representa um teste
ou decisão sobre o item considerado.
Na árvore de decisão cada nó não terminal representa um teste ou decisão
sobre o item de dado. Sendo assim, cada caminho da árvore pode ser convertido em
uma regra.
As principais vantagens de algoritmos baseados em árvore de decisão são sua
eficiência computacional e simplicidade. Devido ao uso da aproximação.
Classificação Bayesiana: Trata-se de métodos estatísticos que podem predizer a
probabilidade de um registro pertencer a uma determinada classe. Esses
classificadores estatísticos oferecem uma simples, porém poderosa técnica de
classificação supervisionada assumindo que todos os atributos de entrada possuem a
mesma importa e são independentes entre si.
A classificação Bayesiana é baseada no teorema de Bayes e no algoritmo de
classificação, conhecido como NaïvesBayes. O princípio básico desse método está
fundamentado na teoria da Probabilidade Bayesiana
Geração de Regras de Associação: Trata-se de regras que estabelecem uma correlação
estatística entre os atributos de dados e conjunto de dados. Dentro do segmento de
regras de associação o algoritmo Apriori é considera um clássico, tal algoritmo foi
concebido pelo centro de pesquisa da IBM. Esse algoritmo emprega uma busca em
profundidade e utiliza os conjuntos de itens de tamanho k para gerar os conjuntos de
itens de tamanho (k+1). O primeiro passo do algoritmo é encontrar os conjuntos de
itens frequentes com 1 item. Este conjunto é denominado de L1. O conjunto L1 é
usado para gerar L2, que representa os conjuntos de itens frequentes com 2 itens, e
assim por diante, até que nenhum conjunto de itens frequentes possa ser gerado.
O algoritmo Apriori usa o principio de que cada subconjunto de um conjunto
de itens frequentes também deve ser frequente. Esta regra é utilizada para reduzir o
número de candidatos a serem comparados com cada transação no banco de dados.
Todos os candidatos gerados que contém algum subconjunto que não seja frequente
são eliminados.
Cada passo inicia com um conjunto semente de itens, e esse conjunto semente
gerará novos conjuntos potenciais, chamados conjuntos de itens candidatos. Enquanto
o conjunto de itens candidatos não ficar vazio, o algoritmo armazena esses conjuntos e
para cada tupla do banco de dados testa se um conjunto candidato está ou não
contido na tupla. Caso um conjunto candidato esteja contido na tupla, então
incrementa um contador. Se ao final do teste para cada tupla da base de dados uma
regra candidata tiver um suporte mínimo especificado, então ela é inserida no novo
conjunto semente, que são os itens candidatos.