mineração de dados em uma subestação de energia elétrica

Propaganda
MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENERGIA ELÉTRICA
Regis Schuch 1, Sérgio Luis Dill 1, Paulo Sérgio Suasen 1, Edson Luis Padoin 1, Mauricio de Campos 1
1
UNIJUI, Ijuí, Brasil, [email protected]
1
UNIJUI, Ijuí, Brasil, [email protected]
1
UNIJUI, Ijuí, Brasil, [email protected]
1
UNIJUI, Ijuí, Brasil, [email protected]
1
UNIJUI, Ijuí, Brasil, [email protected]
Abstract: This document presents a study to the application
of Data Mining techniques about a base that was composed
by electricity sector data, collected through an Unidade
Remota de Aquisição de Dados (URAD), prepared at a
power substation. These work focuses discover tendencies
and patterns.
Keywords: Data Mining, Electric Energy, Environment
WEKA.
Resumo: Este trabalho apresenta um estudo realizado para a
aplicação de técnicas de Mineração de Dados sobre uma
base composta por dados do setor elétrico, coletados através
de uma Unidade Remota de Aquisição de Dados (URAD),
disposta em uma subestação de energia elétrica. O intuito é
descobrir tendências ou padrões.
Palavras-chave: Mineração de Dados, Energia Elétrica,
Ferramenta WEKA.
1. INTRODUÇÃO
A evolução da tecnologia da informação possibilitou que
grandes volumes de dados possam ser armazenados e
processados mais rapidamente com uma maior precisão. Em
décadas passadas, o problema residia na capacidade física de
armazenamento e processamento. Atualmente a questão está
focada na competência de análise desses dados, de forma a
extrair informações úteis. Os dados, no formato natural em
que estão armazenados, podem não apresentar
conhecimento, mas se ajustados e manipulados por um
processo de mineração, revelam informações que talvez não
seriam possíveis de se obter por meio de técnicas estatísticas
normais e/ou ferramentas analíticas.
Já em 1984, John Naisbitt (apud Larose, 2005) [1]
observou, “estamos nos afogando em informação, porém
para passar fome em conhecimento”. Isto se torna cada vez
mais evidente, pois quanto maior a base de dados, mais
difícil é a recuperação e extração de informações.
Neste contexto, cada vez mais se fazem necessárias
novas formas de entender e tirar um proveito maior dessas
volumosas quantidades de dados. Frente a isso, surgem as
ferramentas e técnicas de Mineração de Dados (MD), que
estão sendo cada vez mais empregadas em organizações e
pesquisadas em ambiente acadêmico, pois oferecem de
forma rápida, automatizada ou semi-automatizada [2] uma
alternativa para a geração de informações e produção do
conhecimento, identificando aspectos relevantes que possam
ser utilizadas a nível estratégico como apoio ao processo de
tomada de decisão.
As áreas de aplicação da MD são as mais diversas. Neste
trabalho será explorado o setor elétrico com a finalidade de
analisar a Energia Elétrica (EE) que é transmitida. O
processo busca encontrar relações entre os dados que
permitam identificar tendências ou padrões entre os
mesmos.
Este trabalho está organizado em 7 seções. A partir
daqui, a próxima Seção aborda os trabalhos correlatos. Na
Seção 3, é apresentada uma visão do sistema Elétrico
brasileiro. Na Seção 4, apresenta-se o sistema de
monitoramento de subestações de energia Elétrica. Na Seção
5, descrevem-se os principais conceitos que tangem a
descoberta do conhecimento através da MD. A aplicação das
técnicas de mineração de dados e os resultados alcançados
são discutidos na Seção 6. Por fim, as considerações finais,
recomendações e sugestões de trabalhos futuros.
2. TRABALHOS CORRELATOS
O trabalho desenvolvido por Terra, [3], teve como foco
os modelos de previsão de consumo de energia elétrica (ou
carga) inserido no contexto do fornecimento de energia com
qualidade e quantidade suficientes a satisfação dos fins aos
quais se propõe, fazendo uso, para tanto, de Metodologia de
Mineração de Dados. Segundo o autor, a variável carga,
considerada vital no planejamento da operação elétricoenergética e nos estudos de ampliação e/ou reforços da rede
básica assumem importância estratégica na área comercial,
valorizando os processos de armazenamento desses dados e
da extração de conhecimentos através de técnicas
computacionais. No trabalho, as técnicas de Mineração de
Dados são utilizadas para fazer a previsão mensal da carga
nos intervalos de máximo, médio e baixo consumo, em
consonância com as necessidades das empresas de
distribuição de energia elétrica.
Todo o trabalho foi baseado na série histórica do
Consumo Horário de Energia Elétrica (CHEE) formada por
registros que estão organizados em colunas, representando
1
Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications
Serra Negra, SP - ISSN 2178-3667
804
MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENSERGIA ELÉTRICA
Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin.
.
O trabalho foi focado no estudo de metáforas para
visualização de dados hierárquicos – aqueles que são
naturalmente representados por estruturas em árvore. Em
particular, o estudo de mapas de árvores, uma metáfora
visual que mapeia grandes estruturas hierárquicas em
retângulos que preenchem o espaço bidirecional de uma tela
plana, usando principalmente duas variáveis visuais, que são
tamanhos e cores. Para implementar este conceito foi
desenvolvida a ferramenta TreeMiner. Ela combina uso de
cenas visuais baseadas em mapas em árvores com recursos
gráficos para consulta interativa e detalhamento sobre
demanda de dados sendo explorados.
O TreeMiner é composto de quatro módulos: o módulo
de entrada de dados; o módulo de apresentação visual; o
módulo de controle e consulta e o módulo de controle de
atributos visuais. Estes módulos são responsáveis pela
obtenção dos dados e criar uma interface de apresentação
visual na qual é fornecido um mecanismo de consulta
interatividade sobre os mesmo.
Ainda no trabalho, Almeida utilizou quatro estudos de
caso para testar a utilidade da ferramenta em diversos
domínios de problemas, sendo eles, a análise de dados do
setor energético brasileiro, o acesso a repositórios de
documentos, e a análise de tráfego de redes de
computadores.
Até a data da publicação do trabalho, a ferramenta
apresentava algumas limitações referentes à quantidade de
registros que é capaz de analisar (não haviam sido realizados
testes com quantidades superiores a 12.500 registros), o
número máximo de cores para apresentação visual dos
valores de atributos categóricos era de 20 cores e
componente de conexão a Bancos de dados conectava-se
apenas ao ORACLE, sendo necessário o aperfeiçoamento
para o acesso a outros bancos relacionais, mesmo assim a
ferramenta mostrou-se eficiente em todos os casos, desde
que observados os cuidados na escolha dos atributos e na
preparação dos dados.
Já o artigo escrito por Toledo, [6], mostra a adequação
das técnicas de Mineração de Dados na solução de
problemas ligados à operação de Sistemas Elétricos de
Potência (SEP). Segundo os autores, isto se deve ao alto
grau de complexidade intrínseca na operação de SEPs, que
envolve um grande grau de incerteza e um grande número
de variáveis, fazendo com que os operadores destes sistemas
precisem lidar com um grande volume de dados e
informações, com o agravante de que muitas vezes essa
análise precisa ser imediata.
O artigo traz além de um levantamento das aplicações de
Mineração de Dados ao setor elétrico, a descrição do caso de
uso da Companhia Energética de Minas Gerais (CEMIG),
onde técnicas de Clusterização não supervisionadas foram
aplicadas sobre a base de dados com o objetivo de
identificar algum conhecimento útil que mostrasse quais as
maiores influências no afundamento de tensão na barra de
138 Kv da subestação de Três Marias, haja vista o
esgotamento de recursos para o controle da tensão. Esse
problema estava se verificando diariamente no sistema da
CEMIG e necessitava-se da indicação de algum mecanismo
que evitasse o corte e carga na região. O trabalho foi
iniciado, utilizando-se a ferramenta de software iData
Analiser (iDA), que trabalha com base de dados em formato
Planilha Eletrônica, e até a publicação do artigo não havia
sido encerrado, mas já apresentava resultados satisfatórios
às 24 horas do dia, e linhas, referentes aos dias corridos,
observando ainda a forma como o setor elétrico classifica os
dias da semana em 4 dias típicos. A base foi mantida no
ambiente Planilha Eletrônica, devido à utilização de Add
Ins, softwares complementares que podem ser incorporados
ao programa e ao fato de o produto utilizado pela empresa
estudada pelo autor ser mantido neste ambiente com
interface amigável aos usuários. Sobre esta base, o autor
aplicou Modelos Estatísticos, Redes Neurais Artificiais e
Algoritmos Genéticos, na criação dos modelos de previsão
do consumo de energia elétrica para um mês à frente. Os
resultados dos modelos neurais, quando comparados aos
resultados dos modelos estatísticos, melhoraram o
desempenho, medido através do erro relativo médio, em
torno de 0,5%.
O artigo escrito por Anciutti [4], descreveu uma
abordagem mista, que reúne, no contexto de Mineração de
Dados, a Computação Evolucionária e técnicas de
Estatística, para extrair informações significativas sobre
circuitos elétricos de baixa tensão, com o objetivo de visar
principalmente à aplicação destas regras no processo
estratégico e de tomada de decisão por empresas
distribuidoras de energia elétrica.
A técnica de Mineração de Dados escolhida para o
trabalho foi Algoritmos Genéticos, por explorarem o
paralelismo massivo, necessário, devido ao ambiente
analisado, já que nas redes de distribuição de energia podem
ocorrer as mais diversas combinações de variáveis em cada
circuito que compõe a rede, tornando necessário empregar
um método que possa rapidamente analisar todas as
possibilidades existentes. A busca de uma solução ótima
dentre um grande número de possíveis soluções pode se
beneficiar do uso efetivo do paralelismo, no qual muitas
possibilidades são exploradas simultaneamente de um modo
eficiente.
Os dados foram preparados por técnicas estatísticas e o
algoritmo genético encontrou regras com alto fitness. O
algoritmo genético utilizado para o estudo foi uma
adaptação do algoritmo descrito por Goldberg (1989). Para
tal foi implementado um programa com as devidas
alterações na função objetivo que atenderam aos propósitos
do estudo e para cada uma das regras desejadas foram
extraídos os registros da base de dados, bem como os
atributos pertinentes à regra em questão. Durante o processo
de Mineração de Dados, diversos testes foram feitos antes
de alcançar a adequação dos dados considerando qualidade,
formato e pertinência para o uso efetivo do algoritmo
genético selecionado. O algoritmo foi executado com várias
combinações de parâmetros para certificar-se que as regras
de associação encontradas tinham feito uso do potencial
máximo do algoritmo. O objetivo principal do estudo foi
alcançado mesmo na utilização de um modelo simples de
algoritmo genético.
O trabalho desenvolvido por Almeida [5], propôs uma
ferramenta de mineração visual de dados que usa mapas em
árvores como sua principal metáfora visual. Segundo o
autor, dentre as técnicas de Mineração de Dados, a
mineração visual de dados e a mais intuitiva, por usar a
habilidade humana de rapidamente interpretar cenas visuais.
A mineração visual de dados utiliza metáforas visuais para
transformar dados em cenas visuais, ao mesmo tempo, que
incorpora mecanismos de interpretação para que usuários
possam explorá-las.
2
Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications
Serra Negra, SP - ISSN 2178-3667
805
MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENERGIA ELÉTRICA
Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin.
portanto seguindo este conceito, a qualidade de energia pode
ser compreendida como a ausência de variações na onda de
tensão.
Por se tratar de um sistema complexo, envolvendo vários
fatores desde a geração, transmissão, distribuição e a
influência dos equipamentos do usuário final conectado a
rede, a probabilidade de que ocorram os distúrbios que
deterioram a qualidade dos sinais de tensão e corrente no
que diz respeito à forma de onda, freqüência e interrupções,
que levam à redução ou parada de processos produtivos,
trazendo prejuízos econômicos e sociais, são grandes.
Os distúrbios relacionados à EE podem ser classificados
de várias formas, uma delas, é a classificação apresentada
por Dugan [9], que classifica os distúrbios de acordo com
sua duração, em Transitórios, Variação de Tensão de Curta
Duração e Variação de Tensão de Longa Duração. O autor
aponta ainda para outras categorias de distúrbios, como as
Variações Momentâneas de Freqüência, Distorção
Harmônica Total e Desequilíbrio de Tensão.
indicando o sucesso da escolha da técnica de Mineração de
Dados.
Todos os trabalhos aqui descritos somando-se ao
levantamento bibliográfico dos principais conceitos
envolvidos, de alguma forma contribuíram para a formação
da base de conhecimentos necessária para o
desenvolvimento deste trabalho.
3. UMA VISÃO
BRASILEIRO
DO
SISTEMA
ELÉTRICO
O sistema elétrico brasileiro é nacionalmente interligado
no chamado Sistema Interligado Nacional (SIN), e a maior
parte da capacidade instalada no país é composta de usinas
hidrelétricas, distribuídas pelas bacias hidrográficas nas
diversas regiões do país. Em função desta peculiaridade, as
usinas são construídas aproveitando as afluências e
desníveis dos rios, nem sempre perto dos centros
consumidores. Para transportar a energia gerada para os
centros consumidores é necessária uma rede de transmissão
que possibilita também o intercâmbio de energia entre as
regiões geográficas, aproveitando a mudança de
comportamento das vazões dos rios das diversas bacias
hidrográficas, e inclusive países vizinhos. O transporte para
os centros de consumo é feito até subestações que se
interligam com outras subestações de empresas
distribuidoras ou, eventualmente, de consumidores de
grande porte [7].
Segundo [7], o SIN envolve aspectos de diversas ordens:
a técnica, que estabelece definições e parâmetros físicos da
energia elétrica; a legislativa, baseada nas publicações dos
órgãos reguladores; e a social, que apresenta conceitos das
ciências sociais, que tratam da questão do direito do
consumidor, já que a energia elétrica é um bem adquirido
pelo mesmo. Por ser serviço de utilidade pública, cabe ao
governo a sua concessão, sua regulamentação e fiscalização.
Para realizar esta tarefa, o governo dispõe de um órgão
específico, a Agência Nacional de Energia Elétrica
(ANEEL).
A ANEEL fiscaliza a EE através de indicadores
modelados matematicamente, estabelecidos através da
medição das grandezas físicas envolvidas e de métodos
estatísticos, comparando-os com parâmetros préestabelecidos.
Neste trabalho, serão aplicadas técnicas de MD sobre
dados coletados nas linhas de transmissão de subestações de
energia, a fim de encontrar tendências ou padrões nos dados,
através de indicadores quantificados matematicamente, de
forma semelhante ao realizado pela própria ANEEL, mas
sem a preocupação de enquadrar os métodos ou resultados
nos padrões do órgão regulador.
4.
SISTEMA
DE
MONITORAMENTO
SUBESTAÇÕES DE ENERGIA ELÉTRICA
DE
O surgimento e aprimoramento de inúmeras tecnologias
permitem que sistemas de automação sejam implantados nas
mais diversas áreas, fazendo uso de tecnologias de
computação e comunicação para automatizar a monitoração
e o controle dos processos, efetuando a coleta de dados em
ambientes de difícil acesso e eventualmente dispersos
geograficamente. É desejável que os sistemas capazes de
gerenciar estes processos apresentem as informações de
modo amigável aos usuários através de relatórios, gráficos e
outros meios de apresentação.
A disponibilidade dessas tecnologias somada à
importância das questões relacionadas à geração de energia
e gerenciamento de suas fontes, e a necessidade de melhor
gerenciamento identificada na Usina Velha do
Departamento Municipal de Energia de Ijuí (DEMEI),
motivou o projeto de desenvolvimento de um Sistema de
Monitoramento e Automatização de Subestações de Energia
Elétrica (SMASEE).
O SMASEE está sendo desenvolvido no Grupo de
Automação Industrial e Controle (GAIC), que fica junto ao
Departamento de Tecnologia da UNIJUI (DETEC). Entre as
principais características desse sistema, destacam-se a
facilidade de implementação de sistemas micro-processados,
a utilização de plataforma de desenvolvimento gratuita,
implementação economicamente viável no nível de
hardware e software, portabilidade, mobilidade e segurança,
por possuir diversas rotas de comunicação e possibilidade de
utilização de estruturas de rede já existentes [10].
Os dados captados pela Unidade Remota de Aquisição
de Dados (URAD) e pelo Módulo de Sensores Inteligentes
(MSInt) são transmitidos através de Wireless para o
Gateway, na qual são retransmitidos para o Servidor Remoto
(SR) e Controlador Supervisório (CS) via RS 232. O SR
pode transmitir os dados via protocolo MODBUS sobre
TCP/IP cabeado ou Wi-Fi para o SR numa rota alternativa
conforme ilustra a Figura 1 [11]. Os dados estáticos, como
temperatura, podem ser transmitidos pelo MSInt que tem o
diferencial de enviar dados em intervalos maiores com o
objetivo de economizar as baterias. Esta variedade de rotas
3.1. Alguns Distúrbios relacionados à Energia Elétrica
Uma abordagem bem técnica, do que venha a ser EE de
qualidade, é apresentado por Mcgranaghan (apud Matana,
2008) [8] que defende que, “a forma de onda ideal para
todos os usuários dos sistemas de energia elétrica em
corrente alternada são ondas de tensão senoidais perfeitas
com amplitudes e freqüências constantes”. As normas
vigentes estabelecem parâmetros para muitas das grandezas
e distúrbios envolvidos, onde uma ocorrência fora destes
limites implica em um problema na qualidade da energia,
3
Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications
Serra Negra, SP - ISSN 2178-3667
806
MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENSERGIA ELÉTRICA
Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin.
.
distúrbio em relação a qualidade de transmissão desta
energia ao consumidor final.
Nessas variáveis, podem ocorrer as mais diversas
combinações, sendo necessário empregar uma técnica que
possa analisar todas as possibilidades existentes. Desse
modo, pode-se beneficiar do uso efetivo das técnicas de
Regras de Associação e Árvores de Decisão. As regras de
Associação efetuam varreduras na base de dados definindo
indicações quanto à presença de um conjunto de variáveis
relacionado a outro conjunto distinto nos registros, já as
Árvores de decisão através do atributo classificador
auxiliam o usuário no encaminhamento de ações corretivas
e/ou preventivas.
para a aquisição de dados denota segurança neste processo
do sistema. A Figura 1 exibe o sistema com as três
subdivisões interconectadas: a) Subsistema de Aquisição de
Dados; b) Subsistema Servidor Remoto; c) Subsistema
Controlador Supervisório.
5.1.1. Técnica de Regras de Associação
De acordo com [15], esta técnica pressupõe encontrar
associações relevantes entre um conjunto de dados aplicados
a outros dados. Genericamente uma regra de associação é
representada pela notação X  Y (X implica em Y), onde X
e Y são conjuntos de itens distintos. O objetivo desta técnica
é representar uma relação existente entre o antecedente e o
conseqüente de uma regra de associação. A tarefa de
associação se enquadra no modelo descritivo, ou seja, visa
revelar ocorrências freqüentes, tendências e/ou padrões nos
dados [16].
Para determinar a validade da uma regra de associação,
dois fatores são avaliados: o suporte, que representa a
percentagem de amostras de dados que satisfaz a regra; e a
confiança, que avalia o grau de certeza da associação
gerada. É definida como a probabilidade condicional de que
um padrão de Y é verdadeiro, dado que X também é [13].
As medidas de suporte e confiança são definidas pelas
seguintes fórmulas:
Suporte (X  Y) = número de tuplas contendo X e Y
total de tuplas
Confiança (X  Y) = número de tuplas contendo X e Y
número de tuplas contendo X
Dependendo do tamanho da base de dados e dos fatores
de suporte e confiança, inúmeras regras podem ser geradas.
No entanto, para que as mesmas sejam validadas, é
necessário satisfazer tanto um limiar mínimo de suporte
quanto um limiar mínimo de confiança. Esses limiares são
definidos por usuários ou especialistas de domínio, que
possuem o apropriado conhecimento do problema ao qual o
algoritmo deverá ser aplicado [13].
Figura 1. Arquitetura do Sistema de Monitoramento de Subestações
Elétricas.
5. MINERAÇÃO DE DADOS E DESCOBERTA DO
CONHECIMENTO
Na literatura é possível encontrar diversas definições
para a MD, mas um dos principais conceitos, aceito por
muitos pesquisadores, foi elaborado por [12] como: “o
processo não-trivial de identificar, em dados, padrões
válidos, novos, potencialmente úteis e ultimamente
compreensíveis”.
Esses autores referem-se, ainda, a Descoberta do
Conhecimento em Bases de Dados (DCBD) como um
processo global de descoberta de conhecimento que envolve
seleção, pré-processamento dos dados e transformação dos
mesmos, também MD, interpretação dos resultados e a
transformação do conhecimento. A MD é uma das etapas
deste processo onde são aplicados algoritmos específicos
para extração de padrões a partir dos dados ou até mesmo
revelar comportamento de um banco de dados.
Para [13], a MD também pode ser descrita como uma
área de pesquisa multidisciplinar que engloba diversas
outras áreas como: Inteligência Artificial; Aprendizado de
Máquina; Redes Neurais; Estatística; dentre outras, sendo
que esta só se tornou possível a partir do amadurecimento
destas diferentes áreas.
5.1.2. Técnica de Árvores de Decisão
As Árvores de Decisão podem ser vistas como uma
representação gráfica em forma de árvore, onde cada nó
interno representa um teste em um atributo, cada “caminho”
representa um resultado do teste, e os nos folha representam
as classes ou distribuições de classes [17].
Uma Árvore de Decisão é geralmente construída
recursivamente, começando da raiz e descendo ate as folhas,
utilizando um algoritmo baseado na aproximação “dividir
para conquistar”. Inicialmente todos os registros são
associados ao nó raiz da árvore. Então o algoritmo seleciona
uma partição dos dados e divide o conjunto de registros no
nó raiz de acordo com o valor do atributo selecionado. O
objetivo deste processo é separar as classes para que
registros de classes distintas tendam a ser associadas a
5.1. Seleção da Técnica de Mineração Adequada
Segundo Harrison (apud Dias, 2001) [14], a escolha das
técnicas de MD dependerá da tarefa específica a ser
executada e dos dados disponíveis para análise, devendo-se
levar em conta a natureza dos dados disponíveis em termos
de conteúdo, os tipos de campos de dados e a estrutura das
relações entre os registros.
Analisando os dados oriundos da subestação de energia
elétrica, e, dentro do objetivo já exposto de identificar
tendências ou padrões referentes à energia transmitida,
pode-se encontrar muitas variáveis que caracterizam algum
4
Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications
Serra Negra, SP - ISSN 2178-3667
807
MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENERGIA ELÉTRICA
Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin.
Uma das etapas mais importantes da aplicação de
técnicas de MD é o pré-processamento, pois nesta fase os
dados são adequados às particularidades da ferramenta e da
Tarefa as quais serão submetidos, além de eliminar
eventuais impurezas dos dados. A Base de Dados para este
estudo foi obtida através do projeto do SMASEE e consiste
de grandezas elétricas coletadas através de uma URAD
disposta na rede de transmissão.
Na aplicação das técnicas de MD deste trabalho, optouse por analisar uma amostra de dados composta a partir de
quatro dias de coleta. Esta amostra foi organizada, seguindo
o mesmo conceito considerado por [3], de que o setor
elétrico classifica os dias da semana em 4 grupos, cada
grupo composto pelos dias típicos conforme apresentado na
tabela 1. Desta forma, foi selecionado um dia da amostra
para representar cada grupo de dias. O tamanho da amostra
foi reduzido a 4.777 registros.
diferentes partições. Esse processo é recursivamente
aplicado a subconjuntos de registros criados pelas partições,
produzindo subconjuntos de dados cada vez menores, até
que um critério de parada seja satisfeito. Em alguns casos,
métodos de poda são utilizados para diminuir a quantidade
de ramos da árvore.
Segundo Azevedo, as principais vantagens de algoritmos
baseados em Árvores de Decisão são sua eficiência
computacional, simplicidade e facilidade de interpretação.
Permitem também que facilmente se incorpore
conhecimento externo ao modelo. Por constituírem modelos
não métricos e não–paramétricos métodos de construção de
árvores de decisão são indicados para os casos em que se
têm muitos atributos categóricos e que não se conhece a
distribuição dos dados [18].
6. APLICAÇÃO DAS TÉCNICAS DE MINERAÇÃO
DE DADOS
Tabela 1. Definição dos grupos de dias típicos. [3].
A partir do referencial teórico realizado acerca dos
conceitos básicos sobre MD e EE, necessários para a
compreensão do escopo deste trabalho e motivados pela
possibilidade de contribuir para a geração de conhecimento
a partir dos dados obtidos pelo SMASEE, e desta forma
complementar o projeto já existente, optou-se pela aplicação
de tarefas de MD sobre estes dados com o intuito de extrair
conhecimentos dos mesmos.
Para a aplicação das técnicas que serão apresentadas
aqui, foi selecionada a ferramenta Waikato Environment for
Knowledge Analysis (WEKA), por se tratar de um software
de domínio público e apresentar grande praticidade na
utilização.
A Ferramenta WEKA foi desenvolvida na Universidade
de Waikato, Nova Zelândia. Trata-se de um pacote
implementado na linguagem Java, seguindo o paradigma de
orientação a objetos, composto de uma série de algoritmos
para solucionar problemas de MD. Os algoritmos podem ser
aplicados diretamente a uma série de dados. Tem como
principal característica ser portável, permitindo trabalhar nas
mais variadas plataformas e aproveitando todos os
benefícios da orientação a objetos. Por ser uma ferramenta
de domínio público encontra-se disponível em
http://www.cs.waikato.ac.nz/ml/weka/.
Esta ferramenta implementa os algoritmos Apriori
(Regras de Associação) e J48 (Árvores de Decisão), os que
se mostraram mais viáveis após os testes desenvolvidos.
Abaixo apresenta-se uma sucinta descrição dos algoritmos:
Essa ferramenta fornece o algoritmo Apriori, “o mais
conhecido” no processo de MD para Regras de Associação
[15]. “O algoritmo Apriori não analisa padrões, mas gera e,
em seguida, conta conjuntos de itens” (um item representa o
valor de um atributo) candidatos. Em seguida, agrupa esses
itens em conjuntos, desde que atendam o suporte mínimo
informado. Então, ele gera regras a partir dos conjuntos,
essas são utilizadas para prever a presença de um item de
acordo com a presença de outros itens especificados.
O algoritmo J48 pertence ao grupo das Trees, ou seja,
algoritmos que geram árvores de decisão. Este tipo de
algoritmo suporta dados numéricos ou nominais.
Dias da Semana
Domingos e Feriados
Segundas
Terças, Quartas, Quintas e Sextas
Sábados
Grupo
1
2
3
4
Os dados foram fornecidos em uma planilha eletrônica
na extensão .xls, onde cada coluna representa um atributo e
cada linha um registro, na seguinte ordem de atributos:
DATA, HORA, TensaoA, TensaoB, TensaoC, CorrenteA,
CorrenteB, CorrenteC, PotAtiva, PotAparente, FatorPot e
Classificação (quando os dados são submetidos à tarefa de
classificação).
O passo seguinte foi a formatação dos atributos
DATA no formato “dia-mês-ano”, para o grupo ao qual
pertence, por exemplo, a data 24/03/2009 foi substituída por
grupo3. Para o atributo HORA, no formato “hora-minutosegundo-milisegundo”, foi considerado apenas a hora. Estas
alterações permitem que sejam realizadas análises no que
diz respeito à influência do dia e da hora da coleta nos
dados.
Para os testes, foram selecionadas as seguintes
tarefas e seus respectivos algoritmos:
Associação, utilizando o algoritmo Apriori. Para
tanto, fez-se necessário utilizar um método (filtro) que
convertesse os atributos numéricos em nominais.
Classificação, utilizando o algoritmo J48. O aspecto
mais importante para a aplicação dos algoritmos de
classificação é a definição do atributo classificador, neste
caso definido o atributo FatorPot (fator de potência), que
idealmente deve ser feita com o auxílio de um profissional
que domine a área. A tabela 2 apresenta a regra criada para a
classificação do atributo.
Tabela 2. Regra de classificação do atributo Fator de Potência.
Regra
FatPot abaixo de 0,44
FatPot de 0,44 a 0,90
FatPot acima de 0,90
Classificação
ruim
regular
bom
Após as alterações necessárias, o arquivo na extensão
.xls foi salvo como um arquivo de formato texto separado
por vírgula e posteriormente convertido ao formato arff,
6.1. O Pré-processamento dos dados
5
Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications
Serra Negra, SP - ISSN 2178-3667
808
MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENSERGIA ELÉTRICA
Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin.
.
O segundo teste foi realizado com o algoritmo J48,
que utiliza técnicas de árvores de classificação. As regras
encontradas pela ferramenta WEKA confirmam a
classificação fornecida com um percentual de acerto de
99.7907%, ou seja, de 4777 instâncias 4767 foram
corretamente classificadas, e envolvem novos atributos nas
regras de decisão além do FatorPot já fornecido, que são:
CorrenteA, CorrenteB, TensaoA e HORA.
Observando as regras geradas, conclui-se que o atributo
que mais influencia na classificação dos registros em níveis
bom, regular e ruim, além do FatorPot é a CorrenteA, com
uma ocorrência de 1.110 registros e uma margem de erro de
apenas 1 registro. Esta regra afirma que, para os registros
cujo Fator de potência é inferior ou igual a 0.89, é o valor do
atributo CorrenteA quem determina se este registro
pertencerá à classificação regular ou ruim. Caso o atributo
CorrenteA possua valor inferior a 0,9 a energia pode ser
considerada regular, caso contrário, será considerado o
atributo CorrenteB, conforme pode ser observado na Figura
3, que apresenta as regras geradas pelo algoritmo J48.
suportado pela ferramenta WEKA. Para tanto, foi necessário
incluir no arquivo de formato texto o cabeçalho da relação,
conforme apresentado na figura 2A e 2B.
Figura 2A. Amostra dos dados sem atributo classificador.
Figura 2B. Amostra dos dados com atributo classificador.
6.2. Resultados Obtidos
Após o pré-processamento, os dados foram submetidos
aos testes. Os resultados obtidos a partir da aplicação dos
testes foram significativos e serão descritos a seguir.
O algoritmo Apriori apresentou duas regras,
conforme descrição na tabela 3. Ambas as regras tem em
comum o valor do atributo CorrenteC ser igual a 1 e também
como data base os dias referentes ao grupo1. Na primeira
regra, a TensaoA possui o valor de 229.5, o mais freqüente
para este atributo na amostra analisada, associado ao valor 1
de correnteC aparecendo em 658 vezes, sendo destas 614
vezes nos dias referentes ao grupo 1. Portanto a corrente e a
data são os elementos mais significativos desta regra, o que
é confirmado pela segunda regra, onde os atributos que
referenciam a mesma corrente aparecem com proporcional
intensidade de freqüência relacionada ao mesmo grupo de
dias. Dados estes, apresentados em bons intervalos de
confiança. Em resumo, as regras encontradas afirmam que
nos dias pertencentes ao grupo1 o valor da corrente (no
subsistema C) na EE transmitida é igual a 1, confirmando
assim a influência do dia da semana sobre a EE transmitida.
Figura 3. Regras geradas pelo algoritmo J48.
7. CONSIDERAÇÕES FINAIS
A Descoberta de Conhecimento em Bases de Dados, em
especial o processo de MD, é uma área que vem crescendo
em importância impulsionada principalmente pelo aumento
da coleta de informações e pela valorização do
conhecimento, sendo aplicada nas mais diversas áreas, nas
quais muitas pesquisas vêm sendo realizados.
A MD é composta por avançadas técnicas para a
descoberta automática ou semi-automática de conhecimento,
sobretudo em grandes bases de dados. Porém, tão
importante quanto às técnicas é a participação do analista do
domínio dos dados, para que as regras geradas possam ser
efetivamente convertidas em conhecimento e assim auxiliar
na tomada de decisões para o encaminhamento de ações
corretivas e/ou preventivas em relação ao problema
analisado.
Tabela 3. Regras apresentadas pelo algoritmo Apriori.
TID
1
2
Regras de Associação
TensãoA=229.5 CorrenteC=1 658 ==>
DATA=grupo1 614
CorrenteA=3 CorrenteC=1 831 ==>
DATA=grupo1 764
Confiança
0.93
0.92
6
Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications
Serra Negra, SP - ISSN 2178-3667
809
MINERAÇÃO DE DADOS EM UMA SUBESTAÇÃO DE ENERGIA ELÉTRICA
Regis Schuch, Sérgio Luis Dill, Paulo Sérgio Suasen, Edson Luis Padoin.
São Carlos, 2008. Dissertação de Mestrado, Escola de
Engenharia São Carlos. Universidade de São Paulo,
2008.
O objetivo deste trabalho foi alcançado com sucesso no
que diz respeito a descoberta de tendências ou padrões nos
dados do setor elétrico. Isso, a partir da aplicação de MD
sobre a base de dados coletada em uma subestação de
energia elétrica.
Os resultados discutidos no item cinco relativos ao
algoritmo Apriori apontaram regras indicando que os dados
de determinadas tensões e correntes aparecem associados
com maior freqüência aos dias referentes ao grupo1,
podendo-se concluir que isso se dá por uma menor oscilação
das mesmas, já que nestes dias a energia apresenta-se mais
estável por um menor índice de consumo.
Através dos resultados obtidos com o algoritmo J48 e
com a regra de classificação utilizada, na qual quanto mais
próximo de um melhor é o fator de potência, ou seja, melhor
a qualidade da energia transmitida, pôde-se concluir que a
maioria dos registros enquadrou-se em um nível de
classificação Bom, demonstrando que a energia transmitida
é de boa qualidade.
MD é processo e, acima de tudo, trabalho interdisciplinar
e de equipe. Ao final deste trabalho, salienta-se a
importância da interação entre os diferentes profissionais
para que se possa extrair o conhecimento das bases de dados
com a melhor eficácia possível.
[9] Dugan, R. C.; et al. Electrical Power Systems Quality.
Secund Edition, 2004.
[10] Boniati, B. B., Padoin E. L. “Web Services como
Middlewares para interoperabilidade em sistemas”, In: II
SIRC - Simpósio de Informática da Região Centro do
RS. 2003.
[11] Gehrke C. S., Salvadori F., Campos M. de, Sausen P.
S., Sponh M. A., Oliveira A. C., Camargo R. F. de, e
Lemos J. “Power energy substation automation based on
a hybrid network architecture system”. 2005.
[12] Fayyad, U., Piateski, S. and Smyth, P. The KDD
Process for Extracting Useful Knowledge from Volumes
of Data. In: Communications of the ACM, November
1996/vol. 39, no. 11, p. 27-34, 1996.
[13] Han, J. and Kamber, M. Data Mining: Concepts and
Techniques. San Francisco. Morgan Kalfmann
Publishers, Secound Edition, p. 27 – 28, 228 – 234,
2006.
[14] Dias, M. Um Modelo de Formalização do Processo de
Desenvolvimento de Sistemas de Descoberta de
Conhecimento em bancos de Dados. Florianópolis, 2001.
Tese de Doutorado, Programa de Pós-Graduação em
Engenharia de Produção. Universidade Federal de Santa
Catarina, 2001.
REFERÊNCIAS
[1] Larose, D. Discovering Knowledge in Data: An
Introduction to Data Mining. New Jersey: John Wiley &
Sons, p. 4, 2005
[2] Berry, M., Linoff, G. Data mining techniques. USA:
John Wiley, p.5, 1997
[15] Silva, G. Mineração de Regras de Associação Aplicada
a Dados da Secretaria Municipal de Saúde de Londrina –
PR. Dissertação de Mestrado, Programa de PósGraduação em Computação. Universidade Federal do
Rio Grande do Sul (UFRGS). Porto Alegre, p. 19, 25,
2004.
[3] Terra, G. S. Uma Metodologia de Mineração de Dados
para previsão de Cargas. Rio de Janeiro, 2003. Tese de
Doutorado, Programa de Pós-Graduação de Engenharia.
Universidade Federal do Rio de Janeiro, 2003.
[16] Ribeiro, M. Mineração de Dados Em Múltiplas Tabelas
Fato de Um Data Warehouse. São Carlos, 2004.
Dissertação de Mestrado, Universidade Federal de São
Carlos, p. 28 – 29,2004.
[4] Anciutti, I.; et al. Uma Aplicação de Mineração de
Dados sobre Circuitos Elétricos de Baixa tensão
utilizando Algoritmos Genéticos. In: CompSul 2004.
Universidade Federal de Santa Catarina. Florianópolis,
2004.
[17] Barioni, M. C. Visualização de Operações de Junção
em Sistemas de Bases de dados para Mineração de
Dados. São Carlos, 2002. Dissertação de Mestrado,
Programa de Pós-Graduação em Ciências de
Computação e Matemática Computacional. Universidade
de São Paulo, 2002.
[5] Almeida, M. O. Uma Ferramenta para Mineração Visual
de Dados usando Mapas em Árvore e suas aplicações.
Salvador, 2003. Dissertação de Mestrado, Programa de
pós-graduação
em
Redes
de
Computadores.
Universidade Salvador, 2003.
[18] Azevedo, H. L. Costa de. Mineração de Dados
Aplicada na Solução de problemas de Marketing Direto
e Segmentação de Mercado. Rio de janeiro, 2001.
Dissertação de Mestrado, Pontifícia Universidade
Católica, 2001.
[6] Toledo, L. H. S.; et al. A utilização de Data Mining no
apoio à operação de Sistemas Elétricos de Potência.. In:
SIMPASE, 2007. Companhia Elétrica de Minas Gerais.
Minas Gerais, 2007.
[7] Baltazar, A. C. S. Qualidade da Energia no Contexto da
Reestruturação do Setor Elétrico Brasileiro. São Paulo,
2007. Dissertação de Mestrado, Programa Interunidades
de Pós-Graduação em Energia. Universidade de São
Paulo, p.35, 2007.
[8] Matana, G. M.; Proposta de Equipamento para Medição
dos Fenômenos Relativos à Qualidade da Energia
Elétrica utilizando Conceitos de Instrumentos Virtuais.
7
Proceedings of the 9th Brazilian Conference on Dynamics Control and their Applications
Serra Negra, SP - ISSN 2178-3667
810
Download