MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENERGIA ELÉTRICA Regis Schuch 1, Sérgio Luis Dill 1, Paulo Sérgio Suasen 1, Edson Luis Padoin 1, Mauricio de Campos 1 1 UNIJUI, Ijuí, Brasil, [email protected] 1 UNIJUI, Ijuí, Brasil, [email protected] 1 UNIJUI, Ijuí, Brasil, [email protected] 1 UNIJUI, Ijuí, Brasil, [email protected] 1 UNIJUI, Ijuí, Brasil, [email protected] Abstract: This document presents a study to the application of Data Mining techniques about a base that was composed by electricity sector data, collected through an Unidade Remota de Aquisição de Dados (URAD), prepared at a power substation. These work focuses discover tendencies and patterns. Keywords: Data Mining, Electric Energy, Environment WEKA. Resumo: Este trabalho apresenta um estudo realizado para a aplicação de técnicas de Mineração de Dados sobre uma base composta por dados do setor elétrico, coletados através de uma Unidade Remota de Aquisição de Dados (URAD), disposta em uma subestação de energia elétrica. O intuito é descobrir tendências ou padrões. Palavras-chave: Mineração de Dados, Energia Elétrica, Ferramenta WEKA. 1. INTRODUÇÃO A evolução da tecnologia da informação possibilitou que grandes volumes de dados possam ser armazenados e processados mais rapidamente com uma maior precisão. Em décadas passadas, o problema residia na capacidade física de armazenamento e processamento. Atualmente a questão está focada na competência de análise desses dados, de forma a extrair informações úteis. Os dados, no formato natural em que estão armazenados, podem não apresentar conhecimento, mas se ajustados e manipulados por um processo de mineração, revelam informações que talvez não seriam possíveis de se obter por meio de técnicas estatísticas normais e/ou ferramentas analíticas. Já em 1984, John Naisbitt (apud Larose, 2005) [1] observou, “estamos nos afogando em informação, porém para passar fome em conhecimento”. Isto se torna cada vez mais evidente, pois quanto maior a base de dados, mais difícil é a recuperação e extração de informações. Neste contexto, cada vez mais se fazem necessárias novas formas de entender e tirar um proveito maior dessas volumosas quantidades de dados. Frente a isso, surgem as ferramentas e técnicas de Mineração de Dados (MD), que estão sendo cada vez mais empregadas em organizações e pesquisadas em ambiente acadêmico, pois oferecem de forma rápida, automatizada ou semi-automatizada [2] uma alternativa para a geração de informações e produção do conhecimento, identificando aspectos relevantes que possam ser utilizadas a nível estratégico como apoio ao processo de tomada de decisão. As áreas de aplicação da MD são as mais diversas. Neste trabalho será explorado o setor elétrico com a finalidade de analisar a Energia Elétrica (EE) que é transmitida. O processo busca encontrar relações entre os dados que permitam identificar tendências ou padrões entre os mesmos. Este trabalho está organizado em 7 seções. A partir daqui, a próxima Seção aborda os trabalhos correlatos. Na Seção 3, é apresentada uma visão do sistema Elétrico brasileiro. Na Seção 4, apresenta-se o sistema de monitoramento de subestações de energia Elétrica. Na Seção 5, descrevem-se os principais conceitos que tangem a descoberta do conhecimento através da MD. A aplicação das técnicas de mineração de dados e os resultados alcançados são discutidos na Seção 6. Por fim, as considerações finais, recomendações e sugestões de trabalhos futuros. 2. TRABALHOS CORRELATOS O trabalho desenvolvido por Terra, [3], teve como foco os modelos de previsão de consumo de energia elétrica (ou carga) inserido no contexto do fornecimento de energia com qualidade e quantidade suficientes a satisfação dos fins aos quais se propõe, fazendo uso, para tanto, de Metodologia de Mineração de Dados. Segundo o autor, a variável carga, considerada vital no planejamento da operação elétricoenergética e nos estudos de ampliação e/ou reforços da rede básica assumem importância estratégica na área comercial, valorizando os processos de armazenamento desses dados e da extração de conhecimentos através de técnicas computacionais. No trabalho, as técnicas de Mineração de Dados são utilizadas para fazer a previsão mensal da carga nos intervalos de máximo, médio e baixo consumo, em consonância com as necessidades das empresas de distribuição de energia elétrica. Todo o trabalho foi baseado na série histórica do Consumo Horário de Energia Elétrica (CHEE) formada por registros que estão organizados em colunas, representando 1 Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications Serra Negra, SP - ISSN 2178-3667 804 MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENSERGIA ELÉTRICA Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin. . O trabalho foi focado no estudo de metáforas para visualização de dados hierárquicos – aqueles que são naturalmente representados por estruturas em árvore. Em particular, o estudo de mapas de árvores, uma metáfora visual que mapeia grandes estruturas hierárquicas em retângulos que preenchem o espaço bidirecional de uma tela plana, usando principalmente duas variáveis visuais, que são tamanhos e cores. Para implementar este conceito foi desenvolvida a ferramenta TreeMiner. Ela combina uso de cenas visuais baseadas em mapas em árvores com recursos gráficos para consulta interativa e detalhamento sobre demanda de dados sendo explorados. O TreeMiner é composto de quatro módulos: o módulo de entrada de dados; o módulo de apresentação visual; o módulo de controle e consulta e o módulo de controle de atributos visuais. Estes módulos são responsáveis pela obtenção dos dados e criar uma interface de apresentação visual na qual é fornecido um mecanismo de consulta interatividade sobre os mesmo. Ainda no trabalho, Almeida utilizou quatro estudos de caso para testar a utilidade da ferramenta em diversos domínios de problemas, sendo eles, a análise de dados do setor energético brasileiro, o acesso a repositórios de documentos, e a análise de tráfego de redes de computadores. Até a data da publicação do trabalho, a ferramenta apresentava algumas limitações referentes à quantidade de registros que é capaz de analisar (não haviam sido realizados testes com quantidades superiores a 12.500 registros), o número máximo de cores para apresentação visual dos valores de atributos categóricos era de 20 cores e componente de conexão a Bancos de dados conectava-se apenas ao ORACLE, sendo necessário o aperfeiçoamento para o acesso a outros bancos relacionais, mesmo assim a ferramenta mostrou-se eficiente em todos os casos, desde que observados os cuidados na escolha dos atributos e na preparação dos dados. Já o artigo escrito por Toledo, [6], mostra a adequação das técnicas de Mineração de Dados na solução de problemas ligados à operação de Sistemas Elétricos de Potência (SEP). Segundo os autores, isto se deve ao alto grau de complexidade intrínseca na operação de SEPs, que envolve um grande grau de incerteza e um grande número de variáveis, fazendo com que os operadores destes sistemas precisem lidar com um grande volume de dados e informações, com o agravante de que muitas vezes essa análise precisa ser imediata. O artigo traz além de um levantamento das aplicações de Mineração de Dados ao setor elétrico, a descrição do caso de uso da Companhia Energética de Minas Gerais (CEMIG), onde técnicas de Clusterização não supervisionadas foram aplicadas sobre a base de dados com o objetivo de identificar algum conhecimento útil que mostrasse quais as maiores influências no afundamento de tensão na barra de 138 Kv da subestação de Três Marias, haja vista o esgotamento de recursos para o controle da tensão. Esse problema estava se verificando diariamente no sistema da CEMIG e necessitava-se da indicação de algum mecanismo que evitasse o corte e carga na região. O trabalho foi iniciado, utilizando-se a ferramenta de software iData Analiser (iDA), que trabalha com base de dados em formato Planilha Eletrônica, e até a publicação do artigo não havia sido encerrado, mas já apresentava resultados satisfatórios às 24 horas do dia, e linhas, referentes aos dias corridos, observando ainda a forma como o setor elétrico classifica os dias da semana em 4 dias típicos. A base foi mantida no ambiente Planilha Eletrônica, devido à utilização de Add Ins, softwares complementares que podem ser incorporados ao programa e ao fato de o produto utilizado pela empresa estudada pelo autor ser mantido neste ambiente com interface amigável aos usuários. Sobre esta base, o autor aplicou Modelos Estatísticos, Redes Neurais Artificiais e Algoritmos Genéticos, na criação dos modelos de previsão do consumo de energia elétrica para um mês à frente. Os resultados dos modelos neurais, quando comparados aos resultados dos modelos estatísticos, melhoraram o desempenho, medido através do erro relativo médio, em torno de 0,5%. O artigo escrito por Anciutti [4], descreveu uma abordagem mista, que reúne, no contexto de Mineração de Dados, a Computação Evolucionária e técnicas de Estatística, para extrair informações significativas sobre circuitos elétricos de baixa tensão, com o objetivo de visar principalmente à aplicação destas regras no processo estratégico e de tomada de decisão por empresas distribuidoras de energia elétrica. A técnica de Mineração de Dados escolhida para o trabalho foi Algoritmos Genéticos, por explorarem o paralelismo massivo, necessário, devido ao ambiente analisado, já que nas redes de distribuição de energia podem ocorrer as mais diversas combinações de variáveis em cada circuito que compõe a rede, tornando necessário empregar um método que possa rapidamente analisar todas as possibilidades existentes. A busca de uma solução ótima dentre um grande número de possíveis soluções pode se beneficiar do uso efetivo do paralelismo, no qual muitas possibilidades são exploradas simultaneamente de um modo eficiente. Os dados foram preparados por técnicas estatísticas e o algoritmo genético encontrou regras com alto fitness. O algoritmo genético utilizado para o estudo foi uma adaptação do algoritmo descrito por Goldberg (1989). Para tal foi implementado um programa com as devidas alterações na função objetivo que atenderam aos propósitos do estudo e para cada uma das regras desejadas foram extraídos os registros da base de dados, bem como os atributos pertinentes à regra em questão. Durante o processo de Mineração de Dados, diversos testes foram feitos antes de alcançar a adequação dos dados considerando qualidade, formato e pertinência para o uso efetivo do algoritmo genético selecionado. O algoritmo foi executado com várias combinações de parâmetros para certificar-se que as regras de associação encontradas tinham feito uso do potencial máximo do algoritmo. O objetivo principal do estudo foi alcançado mesmo na utilização de um modelo simples de algoritmo genético. O trabalho desenvolvido por Almeida [5], propôs uma ferramenta de mineração visual de dados que usa mapas em árvores como sua principal metáfora visual. Segundo o autor, dentre as técnicas de Mineração de Dados, a mineração visual de dados e a mais intuitiva, por usar a habilidade humana de rapidamente interpretar cenas visuais. A mineração visual de dados utiliza metáforas visuais para transformar dados em cenas visuais, ao mesmo tempo, que incorpora mecanismos de interpretação para que usuários possam explorá-las. 2 Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications Serra Negra, SP - ISSN 2178-3667 805 MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENERGIA ELÉTRICA Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin. portanto seguindo este conceito, a qualidade de energia pode ser compreendida como a ausência de variações na onda de tensão. Por se tratar de um sistema complexo, envolvendo vários fatores desde a geração, transmissão, distribuição e a influência dos equipamentos do usuário final conectado a rede, a probabilidade de que ocorram os distúrbios que deterioram a qualidade dos sinais de tensão e corrente no que diz respeito à forma de onda, freqüência e interrupções, que levam à redução ou parada de processos produtivos, trazendo prejuízos econômicos e sociais, são grandes. Os distúrbios relacionados à EE podem ser classificados de várias formas, uma delas, é a classificação apresentada por Dugan [9], que classifica os distúrbios de acordo com sua duração, em Transitórios, Variação de Tensão de Curta Duração e Variação de Tensão de Longa Duração. O autor aponta ainda para outras categorias de distúrbios, como as Variações Momentâneas de Freqüência, Distorção Harmônica Total e Desequilíbrio de Tensão. indicando o sucesso da escolha da técnica de Mineração de Dados. Todos os trabalhos aqui descritos somando-se ao levantamento bibliográfico dos principais conceitos envolvidos, de alguma forma contribuíram para a formação da base de conhecimentos necessária para o desenvolvimento deste trabalho. 3. UMA VISÃO BRASILEIRO DO SISTEMA ELÉTRICO O sistema elétrico brasileiro é nacionalmente interligado no chamado Sistema Interligado Nacional (SIN), e a maior parte da capacidade instalada no país é composta de usinas hidrelétricas, distribuídas pelas bacias hidrográficas nas diversas regiões do país. Em função desta peculiaridade, as usinas são construídas aproveitando as afluências e desníveis dos rios, nem sempre perto dos centros consumidores. Para transportar a energia gerada para os centros consumidores é necessária uma rede de transmissão que possibilita também o intercâmbio de energia entre as regiões geográficas, aproveitando a mudança de comportamento das vazões dos rios das diversas bacias hidrográficas, e inclusive países vizinhos. O transporte para os centros de consumo é feito até subestações que se interligam com outras subestações de empresas distribuidoras ou, eventualmente, de consumidores de grande porte [7]. Segundo [7], o SIN envolve aspectos de diversas ordens: a técnica, que estabelece definições e parâmetros físicos da energia elétrica; a legislativa, baseada nas publicações dos órgãos reguladores; e a social, que apresenta conceitos das ciências sociais, que tratam da questão do direito do consumidor, já que a energia elétrica é um bem adquirido pelo mesmo. Por ser serviço de utilidade pública, cabe ao governo a sua concessão, sua regulamentação e fiscalização. Para realizar esta tarefa, o governo dispõe de um órgão específico, a Agência Nacional de Energia Elétrica (ANEEL). A ANEEL fiscaliza a EE através de indicadores modelados matematicamente, estabelecidos através da medição das grandezas físicas envolvidas e de métodos estatísticos, comparando-os com parâmetros préestabelecidos. Neste trabalho, serão aplicadas técnicas de MD sobre dados coletados nas linhas de transmissão de subestações de energia, a fim de encontrar tendências ou padrões nos dados, através de indicadores quantificados matematicamente, de forma semelhante ao realizado pela própria ANEEL, mas sem a preocupação de enquadrar os métodos ou resultados nos padrões do órgão regulador. 4. SISTEMA DE MONITORAMENTO SUBESTAÇÕES DE ENERGIA ELÉTRICA DE O surgimento e aprimoramento de inúmeras tecnologias permitem que sistemas de automação sejam implantados nas mais diversas áreas, fazendo uso de tecnologias de computação e comunicação para automatizar a monitoração e o controle dos processos, efetuando a coleta de dados em ambientes de difícil acesso e eventualmente dispersos geograficamente. É desejável que os sistemas capazes de gerenciar estes processos apresentem as informações de modo amigável aos usuários através de relatórios, gráficos e outros meios de apresentação. A disponibilidade dessas tecnologias somada à importância das questões relacionadas à geração de energia e gerenciamento de suas fontes, e a necessidade de melhor gerenciamento identificada na Usina Velha do Departamento Municipal de Energia de Ijuí (DEMEI), motivou o projeto de desenvolvimento de um Sistema de Monitoramento e Automatização de Subestações de Energia Elétrica (SMASEE). O SMASEE está sendo desenvolvido no Grupo de Automação Industrial e Controle (GAIC), que fica junto ao Departamento de Tecnologia da UNIJUI (DETEC). Entre as principais características desse sistema, destacam-se a facilidade de implementação de sistemas micro-processados, a utilização de plataforma de desenvolvimento gratuita, implementação economicamente viável no nível de hardware e software, portabilidade, mobilidade e segurança, por possuir diversas rotas de comunicação e possibilidade de utilização de estruturas de rede já existentes [10]. Os dados captados pela Unidade Remota de Aquisição de Dados (URAD) e pelo Módulo de Sensores Inteligentes (MSInt) são transmitidos através de Wireless para o Gateway, na qual são retransmitidos para o Servidor Remoto (SR) e Controlador Supervisório (CS) via RS 232. O SR pode transmitir os dados via protocolo MODBUS sobre TCP/IP cabeado ou Wi-Fi para o SR numa rota alternativa conforme ilustra a Figura 1 [11]. Os dados estáticos, como temperatura, podem ser transmitidos pelo MSInt que tem o diferencial de enviar dados em intervalos maiores com o objetivo de economizar as baterias. Esta variedade de rotas 3.1. Alguns Distúrbios relacionados à Energia Elétrica Uma abordagem bem técnica, do que venha a ser EE de qualidade, é apresentado por Mcgranaghan (apud Matana, 2008) [8] que defende que, “a forma de onda ideal para todos os usuários dos sistemas de energia elétrica em corrente alternada são ondas de tensão senoidais perfeitas com amplitudes e freqüências constantes”. As normas vigentes estabelecem parâmetros para muitas das grandezas e distúrbios envolvidos, onde uma ocorrência fora destes limites implica em um problema na qualidade da energia, 3 Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications Serra Negra, SP - ISSN 2178-3667 806 MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENSERGIA ELÉTRICA Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin. . distúrbio em relação a qualidade de transmissão desta energia ao consumidor final. Nessas variáveis, podem ocorrer as mais diversas combinações, sendo necessário empregar uma técnica que possa analisar todas as possibilidades existentes. Desse modo, pode-se beneficiar do uso efetivo das técnicas de Regras de Associação e Árvores de Decisão. As regras de Associação efetuam varreduras na base de dados definindo indicações quanto à presença de um conjunto de variáveis relacionado a outro conjunto distinto nos registros, já as Árvores de decisão através do atributo classificador auxiliam o usuário no encaminhamento de ações corretivas e/ou preventivas. para a aquisição de dados denota segurança neste processo do sistema. A Figura 1 exibe o sistema com as três subdivisões interconectadas: a) Subsistema de Aquisição de Dados; b) Subsistema Servidor Remoto; c) Subsistema Controlador Supervisório. 5.1.1. Técnica de Regras de Associação De acordo com [15], esta técnica pressupõe encontrar associações relevantes entre um conjunto de dados aplicados a outros dados. Genericamente uma regra de associação é representada pela notação X Y (X implica em Y), onde X e Y são conjuntos de itens distintos. O objetivo desta técnica é representar uma relação existente entre o antecedente e o conseqüente de uma regra de associação. A tarefa de associação se enquadra no modelo descritivo, ou seja, visa revelar ocorrências freqüentes, tendências e/ou padrões nos dados [16]. Para determinar a validade da uma regra de associação, dois fatores são avaliados: o suporte, que representa a percentagem de amostras de dados que satisfaz a regra; e a confiança, que avalia o grau de certeza da associação gerada. É definida como a probabilidade condicional de que um padrão de Y é verdadeiro, dado que X também é [13]. As medidas de suporte e confiança são definidas pelas seguintes fórmulas: Suporte (X Y) = número de tuplas contendo X e Y total de tuplas Confiança (X Y) = número de tuplas contendo X e Y número de tuplas contendo X Dependendo do tamanho da base de dados e dos fatores de suporte e confiança, inúmeras regras podem ser geradas. No entanto, para que as mesmas sejam validadas, é necessário satisfazer tanto um limiar mínimo de suporte quanto um limiar mínimo de confiança. Esses limiares são definidos por usuários ou especialistas de domínio, que possuem o apropriado conhecimento do problema ao qual o algoritmo deverá ser aplicado [13]. Figura 1. Arquitetura do Sistema de Monitoramento de Subestações Elétricas. 5. MINERAÇÃO DE DADOS E DESCOBERTA DO CONHECIMENTO Na literatura é possível encontrar diversas definições para a MD, mas um dos principais conceitos, aceito por muitos pesquisadores, foi elaborado por [12] como: “o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis”. Esses autores referem-se, ainda, a Descoberta do Conhecimento em Bases de Dados (DCBD) como um processo global de descoberta de conhecimento que envolve seleção, pré-processamento dos dados e transformação dos mesmos, também MD, interpretação dos resultados e a transformação do conhecimento. A MD é uma das etapas deste processo onde são aplicados algoritmos específicos para extração de padrões a partir dos dados ou até mesmo revelar comportamento de um banco de dados. Para [13], a MD também pode ser descrita como uma área de pesquisa multidisciplinar que engloba diversas outras áreas como: Inteligência Artificial; Aprendizado de Máquina; Redes Neurais; Estatística; dentre outras, sendo que esta só se tornou possível a partir do amadurecimento destas diferentes áreas. 5.1.2. Técnica de Árvores de Decisão As Árvores de Decisão podem ser vistas como uma representação gráfica em forma de árvore, onde cada nó interno representa um teste em um atributo, cada “caminho” representa um resultado do teste, e os nos folha representam as classes ou distribuições de classes [17]. Uma Árvore de Decisão é geralmente construída recursivamente, começando da raiz e descendo ate as folhas, utilizando um algoritmo baseado na aproximação “dividir para conquistar”. Inicialmente todos os registros são associados ao nó raiz da árvore. Então o algoritmo seleciona uma partição dos dados e divide o conjunto de registros no nó raiz de acordo com o valor do atributo selecionado. O objetivo deste processo é separar as classes para que registros de classes distintas tendam a ser associadas a 5.1. Seleção da Técnica de Mineração Adequada Segundo Harrison (apud Dias, 2001) [14], a escolha das técnicas de MD dependerá da tarefa específica a ser executada e dos dados disponíveis para análise, devendo-se levar em conta a natureza dos dados disponíveis em termos de conteúdo, os tipos de campos de dados e a estrutura das relações entre os registros. Analisando os dados oriundos da subestação de energia elétrica, e, dentro do objetivo já exposto de identificar tendências ou padrões referentes à energia transmitida, pode-se encontrar muitas variáveis que caracterizam algum 4 Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications Serra Negra, SP - ISSN 2178-3667 807 MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENERGIA ELÉTRICA Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin. Uma das etapas mais importantes da aplicação de técnicas de MD é o pré-processamento, pois nesta fase os dados são adequados às particularidades da ferramenta e da Tarefa as quais serão submetidos, além de eliminar eventuais impurezas dos dados. A Base de Dados para este estudo foi obtida através do projeto do SMASEE e consiste de grandezas elétricas coletadas através de uma URAD disposta na rede de transmissão. Na aplicação das técnicas de MD deste trabalho, optouse por analisar uma amostra de dados composta a partir de quatro dias de coleta. Esta amostra foi organizada, seguindo o mesmo conceito considerado por [3], de que o setor elétrico classifica os dias da semana em 4 grupos, cada grupo composto pelos dias típicos conforme apresentado na tabela 1. Desta forma, foi selecionado um dia da amostra para representar cada grupo de dias. O tamanho da amostra foi reduzido a 4.777 registros. diferentes partições. Esse processo é recursivamente aplicado a subconjuntos de registros criados pelas partições, produzindo subconjuntos de dados cada vez menores, até que um critério de parada seja satisfeito. Em alguns casos, métodos de poda são utilizados para diminuir a quantidade de ramos da árvore. Segundo Azevedo, as principais vantagens de algoritmos baseados em Árvores de Decisão são sua eficiência computacional, simplicidade e facilidade de interpretação. Permitem também que facilmente se incorpore conhecimento externo ao modelo. Por constituírem modelos não métricos e não–paramétricos métodos de construção de árvores de decisão são indicados para os casos em que se têm muitos atributos categóricos e que não se conhece a distribuição dos dados [18]. 6. APLICAÇÃO DAS TÉCNICAS DE MINERAÇÃO DE DADOS Tabela 1. Definição dos grupos de dias típicos. [3]. A partir do referencial teórico realizado acerca dos conceitos básicos sobre MD e EE, necessários para a compreensão do escopo deste trabalho e motivados pela possibilidade de contribuir para a geração de conhecimento a partir dos dados obtidos pelo SMASEE, e desta forma complementar o projeto já existente, optou-se pela aplicação de tarefas de MD sobre estes dados com o intuito de extrair conhecimentos dos mesmos. Para a aplicação das técnicas que serão apresentadas aqui, foi selecionada a ferramenta Waikato Environment for Knowledge Analysis (WEKA), por se tratar de um software de domínio público e apresentar grande praticidade na utilização. A Ferramenta WEKA foi desenvolvida na Universidade de Waikato, Nova Zelândia. Trata-se de um pacote implementado na linguagem Java, seguindo o paradigma de orientação a objetos, composto de uma série de algoritmos para solucionar problemas de MD. Os algoritmos podem ser aplicados diretamente a uma série de dados. Tem como principal característica ser portável, permitindo trabalhar nas mais variadas plataformas e aproveitando todos os benefícios da orientação a objetos. Por ser uma ferramenta de domínio público encontra-se disponível em http://www.cs.waikato.ac.nz/ml/weka/. Esta ferramenta implementa os algoritmos Apriori (Regras de Associação) e J48 (Árvores de Decisão), os que se mostraram mais viáveis após os testes desenvolvidos. Abaixo apresenta-se uma sucinta descrição dos algoritmos: Essa ferramenta fornece o algoritmo Apriori, “o mais conhecido” no processo de MD para Regras de Associação [15]. “O algoritmo Apriori não analisa padrões, mas gera e, em seguida, conta conjuntos de itens” (um item representa o valor de um atributo) candidatos. Em seguida, agrupa esses itens em conjuntos, desde que atendam o suporte mínimo informado. Então, ele gera regras a partir dos conjuntos, essas são utilizadas para prever a presença de um item de acordo com a presença de outros itens especificados. O algoritmo J48 pertence ao grupo das Trees, ou seja, algoritmos que geram árvores de decisão. Este tipo de algoritmo suporta dados numéricos ou nominais. Dias da Semana Domingos e Feriados Segundas Terças, Quartas, Quintas e Sextas Sábados Grupo 1 2 3 4 Os dados foram fornecidos em uma planilha eletrônica na extensão .xls, onde cada coluna representa um atributo e cada linha um registro, na seguinte ordem de atributos: DATA, HORA, TensaoA, TensaoB, TensaoC, CorrenteA, CorrenteB, CorrenteC, PotAtiva, PotAparente, FatorPot e Classificação (quando os dados são submetidos à tarefa de classificação). O passo seguinte foi a formatação dos atributos DATA no formato “dia-mês-ano”, para o grupo ao qual pertence, por exemplo, a data 24/03/2009 foi substituída por grupo3. Para o atributo HORA, no formato “hora-minutosegundo-milisegundo”, foi considerado apenas a hora. Estas alterações permitem que sejam realizadas análises no que diz respeito à influência do dia e da hora da coleta nos dados. Para os testes, foram selecionadas as seguintes tarefas e seus respectivos algoritmos: Associação, utilizando o algoritmo Apriori. Para tanto, fez-se necessário utilizar um método (filtro) que convertesse os atributos numéricos em nominais. Classificação, utilizando o algoritmo J48. O aspecto mais importante para a aplicação dos algoritmos de classificação é a definição do atributo classificador, neste caso definido o atributo FatorPot (fator de potência), que idealmente deve ser feita com o auxílio de um profissional que domine a área. A tabela 2 apresenta a regra criada para a classificação do atributo. Tabela 2. Regra de classificação do atributo Fator de Potência. Regra FatPot abaixo de 0,44 FatPot de 0,44 a 0,90 FatPot acima de 0,90 Classificação ruim regular bom Após as alterações necessárias, o arquivo na extensão .xls foi salvo como um arquivo de formato texto separado por vírgula e posteriormente convertido ao formato arff, 6.1. O Pré-processamento dos dados 5 Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications Serra Negra, SP - ISSN 2178-3667 808 MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENSERGIA ELÉTRICA Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin. . O segundo teste foi realizado com o algoritmo J48, que utiliza técnicas de árvores de classificação. As regras encontradas pela ferramenta WEKA confirmam a classificação fornecida com um percentual de acerto de 99.7907%, ou seja, de 4777 instâncias 4767 foram corretamente classificadas, e envolvem novos atributos nas regras de decisão além do FatorPot já fornecido, que são: CorrenteA, CorrenteB, TensaoA e HORA. Observando as regras geradas, conclui-se que o atributo que mais influencia na classificação dos registros em níveis bom, regular e ruim, além do FatorPot é a CorrenteA, com uma ocorrência de 1.110 registros e uma margem de erro de apenas 1 registro. Esta regra afirma que, para os registros cujo Fator de potência é inferior ou igual a 0.89, é o valor do atributo CorrenteA quem determina se este registro pertencerá à classificação regular ou ruim. Caso o atributo CorrenteA possua valor inferior a 0,9 a energia pode ser considerada regular, caso contrário, será considerado o atributo CorrenteB, conforme pode ser observado na Figura 3, que apresenta as regras geradas pelo algoritmo J48. suportado pela ferramenta WEKA. Para tanto, foi necessário incluir no arquivo de formato texto o cabeçalho da relação, conforme apresentado na figura 2A e 2B. Figura 2A. Amostra dos dados sem atributo classificador. Figura 2B. Amostra dos dados com atributo classificador. 6.2. Resultados Obtidos Após o pré-processamento, os dados foram submetidos aos testes. Os resultados obtidos a partir da aplicação dos testes foram significativos e serão descritos a seguir. O algoritmo Apriori apresentou duas regras, conforme descrição na tabela 3. Ambas as regras tem em comum o valor do atributo CorrenteC ser igual a 1 e também como data base os dias referentes ao grupo1. Na primeira regra, a TensaoA possui o valor de 229.5, o mais freqüente para este atributo na amostra analisada, associado ao valor 1 de correnteC aparecendo em 658 vezes, sendo destas 614 vezes nos dias referentes ao grupo 1. Portanto a corrente e a data são os elementos mais significativos desta regra, o que é confirmado pela segunda regra, onde os atributos que referenciam a mesma corrente aparecem com proporcional intensidade de freqüência relacionada ao mesmo grupo de dias. Dados estes, apresentados em bons intervalos de confiança. Em resumo, as regras encontradas afirmam que nos dias pertencentes ao grupo1 o valor da corrente (no subsistema C) na EE transmitida é igual a 1, confirmando assim a influência do dia da semana sobre a EE transmitida. Figura 3. Regras geradas pelo algoritmo J48. 7. CONSIDERAÇÕES FINAIS A Descoberta de Conhecimento em Bases de Dados, em especial o processo de MD, é uma área que vem crescendo em importância impulsionada principalmente pelo aumento da coleta de informações e pela valorização do conhecimento, sendo aplicada nas mais diversas áreas, nas quais muitas pesquisas vêm sendo realizados. A MD é composta por avançadas técnicas para a descoberta automática ou semi-automática de conhecimento, sobretudo em grandes bases de dados. Porém, tão importante quanto às técnicas é a participação do analista do domínio dos dados, para que as regras geradas possam ser efetivamente convertidas em conhecimento e assim auxiliar na tomada de decisões para o encaminhamento de ações corretivas e/ou preventivas em relação ao problema analisado. Tabela 3. Regras apresentadas pelo algoritmo Apriori. TID 1 2 Regras de Associação TensãoA=229.5 CorrenteC=1 658 ==> DATA=grupo1 614 CorrenteA=3 CorrenteC=1 831 ==> DATA=grupo1 764 Confiança 0.93 0.92 6 Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications Serra Negra, SP - ISSN 2178-3667 809 MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENERGIA ELÉTRICA Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin. São Carlos, 2008. Dissertação de Mestrado, Escola de Engenharia São Carlos. Universidade de São Paulo, 2008. O objetivo deste trabalho foi alcançado com sucesso no que diz respeito a descoberta de tendências ou padrões nos dados do setor elétrico. Isso, a partir da aplicação de MD sobre a base de dados coletada em uma subestação de energia elétrica. Os resultados discutidos no item cinco relativos ao algoritmo Apriori apontaram regras indicando que os dados de determinadas tensões e correntes aparecem associados com maior freqüência aos dias referentes ao grupo1, podendo-se concluir que isso se dá por uma menor oscilação das mesmas, já que nestes dias a energia apresenta-se mais estável por um menor índice de consumo. Através dos resultados obtidos com o algoritmo J48 e com a regra de classificação utilizada, na qual quanto mais próximo de um melhor é o fator de potência, ou seja, melhor a qualidade da energia transmitida, pôde-se concluir que a maioria dos registros enquadrou-se em um nível de classificação Bom, demonstrando que a energia transmitida é de boa qualidade. MD é processo e, acima de tudo, trabalho interdisciplinar e de equipe. Ao final deste trabalho, salienta-se a importância da interação entre os diferentes profissionais para que se possa extrair o conhecimento das bases de dados com a melhor eficácia possível. [9] Dugan, R. C.; et al. Electrical Power Systems Quality. Secund Edition, 2004. [10] Boniati, B. B., Padoin E. L. “Web Services como Middlewares para interoperabilidade em sistemas”, In: II SIRC - Simpósio de Informática da Região Centro do RS. 2003. [11] Gehrke C. S., Salvadori F., Campos M. de, Sausen P. S., Sponh M. A., Oliveira A. C., Camargo R. F. de, e Lemos J. “Power energy substation automation based on a hybrid network architecture system”. 2005. [12] Fayyad, U., Piateski, S. and Smyth, P. The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, November 1996/vol. 39, no. 11, p. 27-34, 1996. [13] Han, J. and Kamber, M. Data Mining: Concepts and Techniques. San Francisco. Morgan Kalfmann Publishers, Secound Edition, p. 27 – 28, 228 – 234, 2006. [14] Dias, M. Um Modelo de Formalização do Processo de Desenvolvimento de Sistemas de Descoberta de Conhecimento em bancos de Dados. Florianópolis, 2001. Tese de Doutorado, Programa de Pós-Graduação em Engenharia de Produção. Universidade Federal de Santa Catarina, 2001. REFERÊNCIAS [1] Larose, D. Discovering Knowledge in Data: An Introduction to Data Mining. New Jersey: John Wiley & Sons, p. 4, 2005 [2] Berry, M., Linoff, G. Data mining techniques. USA: John Wiley, p.5, 1997 [15] Silva, G. Mineração de Regras de Associação Aplicada a Dados da Secretaria Municipal de Saúde de Londrina – PR. Dissertação de Mestrado, Programa de PósGraduação em Computação. Universidade Federal do Rio Grande do Sul (UFRGS). Porto Alegre, p. 19, 25, 2004. [3] Terra, G. S. Uma Metodologia de Mineração de Dados para previsão de Cargas. Rio de Janeiro, 2003. Tese de Doutorado, Programa de Pós-Graduação de Engenharia. Universidade Federal do Rio de Janeiro, 2003. [16] Ribeiro, M. Mineração de Dados Em Múltiplas Tabelas Fato de Um Data Warehouse. São Carlos, 2004. Dissertação de Mestrado, Universidade Federal de São Carlos, p. 28 – 29,2004. [4] Anciutti, I.; et al. Uma Aplicação de Mineração de Dados sobre Circuitos Elétricos de Baixa tensão utilizando Algoritmos Genéticos. In: CompSul 2004. Universidade Federal de Santa Catarina. Florianópolis, 2004. [17] Barioni, M. C. Visualização de Operações de Junção em Sistemas de Bases de dados para Mineração de Dados. São Carlos, 2002. Dissertação de Mestrado, Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional. Universidade de São Paulo, 2002. [5] Almeida, M. O. Uma Ferramenta para Mineração Visual de Dados usando Mapas em Árvore e suas aplicações. Salvador, 2003. Dissertação de Mestrado, Programa de pós-graduação em Redes de Computadores. Universidade Salvador, 2003. [18] Azevedo, H. L. Costa de. Mineração de Dados Aplicada na Solução de problemas de Marketing Direto e Segmentação de Mercado. Rio de janeiro, 2001. Dissertação de Mestrado, Pontifícia Universidade Católica, 2001. [6] Toledo, L. H. S.; et al. A utilização de Data Mining no apoio à operação de Sistemas Elétricos de Potência.. In: SIMPASE, 2007. Companhia Elétrica de Minas Gerais. Minas Gerais, 2007. [7] Baltazar, A. C. S. Qualidade da Energia no Contexto da Reestruturação do Setor Elétrico Brasileiro. São Paulo, 2007. Dissertação de Mestrado, Programa Interunidades de Pós-Graduação em Energia. Universidade de São Paulo, p.35, 2007. [8] Matana, G. M.; Proposta de Equipamento para Medição dos Fenômenos Relativos à Qualidade da Energia Elétrica utilizando Conceitos de Instrumentos Virtuais. 7 Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications Serra Negra, SP - ISSN 2178-3667 810