9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso PS-563 KNOWLEDGE EXTRACTION FROM ELECTRIC ENERGY CONSUMPTION SERIES USING TIME SERIES KNOWLEDGE MINING Alynne Conceição Saraiva de Queiroz (Universidade Federal do Rio Grande do Norte, Rio Grande do Norte, Brasil) – [email protected] José Alfredo Ferreira Costa (Universidade Federal do Rio Grande do Norte, Rio Grande do Norte, Brasil) - [email protected] Information about the energy consumption dynamic are of great importance to power utilities to achieve financial benefits or to define strategies for better customer service. This paper uses a methodology based on mining tools and representation of time series, in order to extract knowledge relating the energy consumption of various substations of a utility using the Time Series Knowledge Mining (TSKM), that explores temporal relations of duration, coincidence and events sequence, extracting system behavior rules. To the knowledge representation, it was used the language Time Series Knowledge Representation (TSKR) that presents the temporal relationships on each knowledge level using musicology terms. To illustrate the method we performed a case study with hourly measurements of energy consumption of eight substations of New England (USA). Keywords: Time series Multivariate, Time Series Mining, TSKM, TSKR, Electric Energy Consumption. EXTRAÇÃO DE CONHECIMENTO DE SÉRIES DE CONSUMO DE ENERGIA ELÉTRICA USANDO O TIME SERIES KNOWLEDGE MINING Informações sobre o comportamento da dinâmica de consumo de energia são de grande importância para as concessionárias, seja para alcançar vantagens financeiras ou para definir estratégias de melhor atendimento ao cliente. Este trabalho utiliza uma metodologia baseada em ferramentas de mineração e representação de séries temporais, com o objetivo de extrair conhecimento relacionando os consumos de energia de diversas subestações de uma concessionária utilizando o Time Series Knoledge Mining (TSKM), que explora relações temporais de duração, coincidência e sequência de eventos, extraindo regras de comportamento do sistema. Para a representação do conhecimento foi utilizada a linguagem Time Series Knowledge Representation (TSKR) que apresenta as relações temporais em cada nível de conhecimento utilizando termos da área da musicologia. Para ilustrar o método foi realizado um estudo de caso com medições horárias de consumo de energia de oito subestações de New England (EUA). Palavras - chave: Séries Temporais Multivariadas, Mineração de Séries Temporais, TSKM, TSKR, Consumo de Energia Elétrica. 1 002134 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso 1. INTRODUÇÃO Atualmente o mundo está na era da informação, onde tem-se acesso a uma grande massa de dados e as empresas e instituições, cada vez mais, investem em atividades de análise de dados com o objetivo de elaborar gestões estratégicas eficientes, procurando conhecer cada vez melhor seus clientes e prever comportamentos futuros. Com a privatização do setor elétrico brasileiro as concessionárias tendem a buscar informações referentes aos seus clientes, seja para melhorar o atendimento aos consumidores ou para obter vantagens tarifarias junto à ANEEL, autarquia vinculada ao Ministério de Minas e Energia responsável pela fiscalização sobre a geração, distribuição e comercialização de energia elétrica. Considerando a atual conjuntura da economia brasileira, que é uma das que mais cresce no mundo, pode-se ressaltar a importância do fornecimento de energia como fator primordial para o desenvolvimento do país. Para se precaver de imprevistos futuros, faz-se necessário o investimento em projetos de planejamento energético, possibilitando uma administração eficiente de recursos e o desenvolvimento de uma gestão adequada. O conhecimento do comportamento do consumo energia de uma população e seus perfis de carga são informações necessárias para a realização de um bom planejamento, necessitando da coleta de dados e informações para a determinação de metas e prioridades a serem atendidas. Na maioria dos casos, ligados ao sistema energético, temos uma relação temporal envolvendo os dados armazenados, cuja forma mais comum consiste em uma série gerada a partir da observação de algumas propriedades de um evento ao longo do tempo. Diferentemente de dados estáticos, cuja análise consiste na semelhança entre os dados, quando tratamos séries temporais podem-se observar outros tipos de relações, pois muitas vezes elas desenvolvem relações dependentes do tempo. Além disso, surge a preocupação com a representação da informação para que a mesma possa ser interpretada e se torne útil. O uso de técnicas de mineração de dados tem o objetivo de agregar maior precisão ao estudo e permitir que os dados possam ser facilmente interpretáveis. Morchen (2006b) propõe uma linguagem simbólica para a representação de relações temporais em diversos níveis de conhecimento baseando-se em termos da musicologia, chamado Time Series Knowlodge Representation (TSKR) e combina uma série de algoritmos para a extração dessas relações chamado Time Series Knowledge Mining (TSKM). Neste artigo foram utilizadas essas técnicas para extrair as relações temporais presentes nas séries temporais de consumo de energia elétrica. A técnica proporciona ainda a geração de regras de comportamento do sistema que tem a vantagem de oferecer uma representação simples para o usuário, permitindo a formulação de rotinas para a detecção de anomalias e gestão de recursos. Conhecendo essas regras, pode-se promover o planejamento das redes, evitando custos desnecessários e possibilitando informações para formulação de alternativas em situações de emergência. 2 002135 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso 2. REFERENCIAL TEÓRICO 2.1 Análise da Demanda de Energia Elétrica A análise de séries de demanda de energia vem atraindo o interesse das empresas do setor energético. Surgem diversas abordagens para estudar os perfis de comportamento utilizando ferramentas de simulação computacional, algoritmos de mineração de dados e inteligência artificial. A principal tarefa realizada na maioria dos trabalhos está relacionada com atividades de previsão de demanda, proporcionando o conhecimento de comportamentos futuros do sistema. Hippert, Pedreira e Souza (2001) apresentam diversos métodos utilizados na literatura para a previsão de demanda de energia a curto prazo. Neste trabalho o autor relata as principais metodologias utilizadas entre 1991 e 1999 nos quais estão incluídos métodos estatísticos, métodos baseados em redes neurais, lógica fuzzy e sistemas de especialistas. A elaboração de cenários energéticos para a previsão de demanda, considerando fatores econômico-sociais, foi proposta por Zarur (2005). Neste trabalho o autor utiliza Redes Neurais Artificiais Multi Layer Perceptron (MLP) e Redes de Base Radial (RBF) realizando atividades de previsão para horizontes de 10 anos. O algoritmo Backpropagation também apresenta resultados razoáveis (Rodrigues, Silva, & Linden, 2007). Alguns algoritmos híbridos combinando modelos estatísticos, redes neurais e neural fuzzy apresentaram bons resultados, modelando o sistema de forma mais fiel e apresentando melhores resultados se comparados aos métodos processados isoladamente (Elkateb, Solaiman, & Al-Turki, 1998; El Desouky & Elkateb, 2000). Outra preocupação que surge na gestão de recursos de energia elétrica se deve a detecção de desvios de comportamento e/ou anomalias. Minussi (2008) analisou a curva de clientes utilizando algoritmos de mineração de dados para fornecer indicadores de perfil através de árvores de decisão e o classificador bayesiano. Uma ferramenta de mineração visual de dados foi proposta por Almeida (2003) que usou como um dos exemplos de caso dados do setor energético brasileiro. O trabalho foi baseado no estudo de metáforas para a visualização de dados hierárquicos. 2.2. Fundamentos de Séries Temporais 2.2.1. Tendência Tendência em uma série temporal é a mudança gradual observada por meio da variação dos valores da série ao longo do tempo e que se mantém ao se remover os componentes de ciclos, sazonalidades e fatores aleatórios (Palit & Popovic, 2005). Podemos representar a solução geral de uma equação linear 3 002136 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso estocástica com três partes distintas: A componente de tendência de uma série temporal é a sua característica de longo prazo que se manifesta globalmente ou localmente, através do aumento ou diminuição de valores de dados, como uma consequência da superposição de valores da série verdadeira e uma perturbação com tendência ascendente ou descendente (Palit & Popovic, 2005). Análise de tendências é importante na previsão de séries temporais. Na prática, é realizada utilizando as técnicas de regressão linear e não-linear. A componente de tendência é calculada e pode então ser removida da série temporal. 2.2.2 Sazonalidade A sazonalidade refere-se a movimentos similares que ocorrem regularmente em períodos fixos de tempo, como semanas, dias, quinzenas e anos (Maletzke, 2009). Assim, o objetivo principal da análise de séries temporais sazonais está focada na detecção do caráter de suas flutuações periódicas e sobre a sua interpretação. Na engenharia, séries temporais sazonais são encontradas nos problemas de energia, gás, água e outros sistemas de distribuição, onde a previsão de demandas do consumidor representa o problema básico (Palit & Popovic, 2005). Podemos assumir que uma série temporal, , pode ser representada como uma soma de duas partes independentes: uma componente previsível (sazonal) e uma componente estocástica , ou seja, . Além disso, nós podemos assumir que pode ser composta por uma componente de curto prazo e uma componente de longo prazo . Para a remoção da sazonalidade primeiramente a componente de longo prazo é estimada usando uma técnica de filtragem de suavização. Depois, a sazonalidade de curto prazo é removida subtraindo uma média calculada utilizando dados de uma semana, dia ou mês (Janczura & Weron, 2011). A Figura 1 mostra um exemplo de componente sazonal. 4 002137 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Figura 1 - Exemplo de componente Sazonal (Maletzke, 2009) 2.3 Operadores Temporais Os operadores temporais indicam as relações temporais existentes entre os objetos armazenados em uma série temporal. Allen (1983) apresentou um conjunto de treze operadores para representar relacionamentos entre os objetos em uma base temporal. Esses operadores podem ser entendidos na figura abaixo: Figura 2 - Operadores de Allen - Adaptado de Mörchen (2006b) Baseando-se nos diversos operadores propostos na literatura, Mörchen 5 002138 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso (2006b) propõe uma visão unificadora dos conceitos temporais, partindo de uma noção intuitiva do tipo de relação temporal entre os pontos ou intervalos no tempo. Esses conceitos são definidos a seguir: a) Duração: é a persistência ou repetição de uma propriedade sobre vários intervalos de tempo. b) Ordem: é a ocorrência sequêncial de pontos ou intervalos de tempo. c) Concorrência: é a proximidade de dois ou mais eventos temporais sem uma ordem particular. d) Coincidência: descreve a interseção de vários intervalos. e) Sincronismo: é a ocorrência de dois eventos temporais síncronos. É um caso especial de coincidência. f) Periodicidade: é a repetição dos valores, iguais ou muito semelhantes, em períodos (aproximadamente) constantes. A Figura 3 mostra os operadores temporais que são relacionados com cada conceito temporal. Figura 3 - Relação entre os Conceitos Temporais e os Operadores Temporais – Adaptado de Mörchen (2006b) Esses operadores e conceitos podem ser utilizados para descrever séries temporais numéricas ou simbólicas. 2.4 Mineração de Séries Temporais Hand, Smyth e Mannila (2001) definem mineração de dados como “uma análise de conjuntos de dados observacionais com o objetivo de descobrir relações entre os dados e organizar os dados de maneira compreensível e útil” (Hand, Smyth, & Mannila, 2001, p. 7). 6 002139 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Uma série temporal é composta de um conjunto de observações ao longo do tempo. Dessa forma, a análise de uma série temporal é destinada principalmente à obtenção de conhecimento do processo dinâmico pelo qual a série temporal foi gerada. Os atributos relacionados com a informação temporal, presentes neste tipo de conjunto de dados, devem ser tratados de forma diferente de outros tipos de atributos. O objetivo da mineração de séries temporais é descobrir relações escondidas entre sequências e subsequências de eventos (Antunes & Oliveira, 2001). A seguir serão apresentadas diferentes etapas do processo de mineração de séries temporais. 2.4.1 Pré-processamento O pré-processamento de séries temporais requer uma atenção especial, pois, a qualidade dos dados vai refletir diretamente na informação gerada, requerendo métodos que incorporem a dimensão temporal. A redução ou eliminação de tendências, sazonalidades, ruído e oscilações tornam-se necessárias quando tratamos de dados da vida real. Técnicas de suavização e filtragem podem ser usadas para reduzir ruídos e priorizar o comportamento da série. Quando analisamos séries temporais multivariadas com diferentes escalas são necessárias técnicas de normalização e transformações nos dados para extrair certas características ou reduzir a sua dimensionalidade. A análise de componentes principais (Jolliffe, 1986) e análise de componentes independentes (Hyvarinen, 1999) estão entre as técnicas mais utilizadas para redução de dimensionalidade em séries temporais. 2.4.2 Previsão Muitos estudos que envolvem séries temporais envolvem tarefas de previsão. A previsão de uma série temporal consiste em prever os valores futuros da série (numérica ou simbólica) com base em amostras passadas. Sabendo que uma série temporal é uma descrição do passado, um procedimento lógico para realizar previsões é usar esses dados históricos. Se os dados passados são indicativos do que se esperar do futuro, pode-se então postular um modelo matemático que represente o processo. O modelo gerado pode ser usado para realizar previsões. Os modelos de previsão se apóiam principalmente na evolução dos dados históricos tendendo a assumir que o comportamento futuro não se desviará significativamente da tendência verificada (Zarur, 2005). Os modelos estatísticos ARMA, ARIMA e ARMAX e técnicas baseadas em redes neurais, com destaque para as redes Multilayer Perceptron (MLP), Redes 7 002140 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso de Base Radial (RBF) e Máquinas de Vetor de Suporte (SVM), são utilizadas para a previsão de séries temporais. Assim como técnicas que utilizam o Mapa Auto-Organizado de Kohonen e algumas variações do algoritmo (Barreto, 2007; Abinader, Queiroz, & Honda, 2011). 2.4.3 Clustering A análise de clusters consiste em encontrar grupos com características semelhantes nos dados, uma vez que as situações encontradas na vida cotidiana são numerosas demais para serem tratadas individualmente. Segundo Mörchen (2006b), quando tratamos de séries temporais podemos ter três problemas de clustering distintos: 1. Clustering de séries completas: agrupa um conjunto de séries temporais numéricas com base em alguma medida de similaridade e algoritmos de agrupamento padrão. 2. Clustering de sub-séries: cria sub-conjuntos a partir de uma série temporal longa, extraindo segmentos curtos. 3. Clustering em pontos no tempo: os dados são agrupados de acordo com a proximidade temporal e à semelhança dos valores correspondentes. Assemelha-se a uma segmentação da série temporal. Quando o objetivo é analisar agrupamentos em séries temporais multivariadas o problema de clustering consiste em encontrar características semelhantes nos conjuntos de dados. Esses grupos podem então ser analisados em detalhes para se ter uma visão a partir das características comuns dos conjuntos de cada grupo. O conhecimento obtido a partir de atividades de clustering em séries temporais pode ser muito valioso para atividades ligadas a melhoria de processos ou diagnóstico de falhas (Singhal & Seborg, 2006). 2.4.4 Extração de Regras A extração de regras consiste em determinar relações entre os dados que representam a probabilidade de que um evento aconteça dado que outro está presente. Trata-se de uma tarefa importante uma vez que pode ser facilmente convertida para uma linguagem fácil de ser entendida pelo usuário. Em séries temporais, o problema de encontrar regras, relaciona dados de uma série temporal com outras séries. Uma série temporal pode ser convertida em uma representação discreta formando subsequências (usando uma janela deslizante) e depois realizar o agrupamento destas subsequências, usando uma medida adequada de similaridade de padrão. Algoritmos para encontrar regras podem então ser usados diretamente sobre a sequência discretizada para descobrir regras temporais (Das, Lin, Mannila, Renganathan, & Smyth, 1998). 8 002141 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso 2.5 Teoria Musical A música é uma linguagem que pode ser definida e interpretada de diversas maneiras. Para compor uma melodia é necessária a perfeita harmonia de Tons, Acordes e Frase. Um Tom é um intervalo que corresponde à altura do som na escala geral dos sons. Na cultura ocidental as escalas mais utilizadas são a cromática, a maior e a menor (Cardoso & Mascarenhas, 1973). Um acorde é a produção simultânea de varias notas. Os intervalos entre as notas produzidas têm uma escala musical implícita e caracterizam a sonoridade de um acorde (Ribeiro, 2007). Na Figura 4 podemos visualizar os acordes formados na escala de Dó Maior. Figura 4 - Acordes na escala Dó Maior Uma Frase é um trecho da música que é relativamente autônomo e coerente em relação a uma escala de tempo média. As Frases são comumente construídas a partir de acordes combinados para formar períodos musicais e seções maiores de música (DeLone & Wittlich, 1975). 2.6 Time Series Knowledge Representation (TSKR) O TSKR utiliza uma linguagem simbólica hierárquica para representar os dados de uma série temporal mantendo os fenômenos descritos nos operadores mostrados na Seção 2.3. Consiste em uma hierarquia onde cada padrão descreve um conceito temporal. A nomenclatura utilizada pelo TSKR para os diferentes níveis de conhecimento é baseada em termos utilizados na Teoria Musical, cujos conceitos foram expostos na Seção 2.5 (Mörchen, 2006a). Antes de definir as diferentes representações temporais faz-se necessário o conhecimento dos diferentes Aspectos que compõem a série temporal multivariada, principalmente quando temos séries com muitas variáveis e se deseja diminuir a sua dimensionalidade. Assim, os Aspectos consistem em subconjuntos de uma série temporal multivariada, cujas séries de origem, que possuem relações semânticas entre si, são combinadas. Dessa forma, ao invés de processar a série original, utilizaremos os Aspectos para a extração de conhecimento (Allen, 1983). O primeiro nível de representação do TSKR corresponde ao conceito de duração, onde a ocorrência de um estado em determinado intervalo de tempo é chamado de Tom. Em seguida, serão representadas as coincidências entre Tons, 9 002142 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso ou seja, a ocorrência simultânea de vários Tons em um intervalo de tempo, comparando os Tons de diferentes Aspectos. Esse nível de conhecimento é chamado Acorde. A ocorrência de um Acorde padrão corresponde também à ocorrência de todos os sub-Acordes no mesmo intervalo de tempo. De maneira que quanto maior o tamanho de um Acorde, maior o número de sub-Acordes. O critério de fechamento de um Acorde é baseado na inexistência de um Acorde maior com o mesmo comportamento (Mörchen, 2006b). Por fim, as Frases representarão o conceito de ordem parcial entre os Acordes. Assim, uma Frase consiste em k Acordes em ordem e representa o conhecimento máximo de comportamento da série. O critério de fechamento de uma Frase é baseado na frequência na ordem dos Acordes. Vale ressaltar que na formação de Frases não são consideradas as sobreposições, uma vez que esse conceito já é representado pelo Acorde (Mörchen, 2006b). A Figura 5 mostra as diferentes representações de conhecimento apresentadas e suas relações hierárquicas. Figura 5 - Representação do conhecimento em Tons, Acordes e Frases. (Mörchen, 2006b) 2.7 Time Series Knowledge Mining (TSKM) O TSKM consiste em um conjunto de algoritmos utilizados para extração de conhecimento de séries temporais nos diversos níveis de representação do TSKR. 2.7.1 Definição dos Tons A primeira tarefa consiste na definição de Tons dentro de um Aspecto. Os valores dos Tons são encontrados particionando a série com os valores dos bins, 10 002143 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso cujos intervalos entre seus valores podem ser rotulados. O algoritmo Persist propõe um método de discretização univariada que consiste em otimizar o Índice de Persistência (Equação 1), assumindo que a série temporal contém estados duradouros e que são importantes para a descoberta de conhecimento (Mörchen & Ultsch, 2005). onde, é a probabilidade de permanência do estado j, é a probabilidade de transição de estado e SKL( ) é função que calcula a versão simétrica para obter a divergência de Kullback-Leibler de duas distribuições de probabilidade. 2.7.2 Definição dos Acordes A definição dos Acordes consiste em comparar os diversos Aspectos e verificar a ocorrência de coincidências entre os Tons. O algoritmo utilizado é baseado no CHARM (Zaki & Hsiao, 2002) que identifica todas as coincidências fechadas entre os Tons. A principal adaptação feita por Mörchen (Mörchen, 2006b) consiste no fato de apenas um símbolo de Tom por Aspecto ser permitido em um Acorde, uma vez que um Acorde não pode apresentar mais de um estado ao mesmo tempo. Dessa forma, o algoritmo opta pelo Acorde mais representativo, a Figura 6 mostra exemplos de representatividade de Acordes. a) Os Acordes AB e BC tem quase o mesmo tamanho que ABC. b) AC é mais representativo do que ABC c) AB é mais representativo que ABC d) AB e AC são mais representativos que ABC. Figura 6 - Quatro casos para mineração de Acordes (Mörchen, 2006b) Vale ressaltar que nas duas primeiras etapas de extração de conhecimento são usados filtros para excluir Tons e sobrepor Acordes muito curtos. Isso ocorre para evitar outliers e reduzir ruídos nos dados. 11 002144 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso 2.7.3 Definição das Frases As Frases vão representar o conceito de ordem parcial e são obtidas através do processamento dos Acordes. O primeiro passo consiste em converter o conjunto de Acordes em uma série de itemsets, ilustrado na Figura 7. Tons Acordes Máximos Itensets Figura 7 - Exemplo de conversão de sequências de Acordes para Itemsets (Mörchen, 2006b) Para a mineração de sequências foi utilizado o algoritmo proposto por Casas-Garriga (2005) que extrai as sequências por meio da ordenação de relações locais de itens, chamados de transações. Para compor as Frases que vão descrever o comportamento da série, são extraídas ainda as sequências mais frequentes, que consiste em um problema quando tratamos de séries muito densas. Assim, o algoritmo ClosePhraseMining encontra grupos de itensets fechados removendo redundâncias e o algoritmo MergeSequences completa a tarefa criando uma ordem parcial (Mörchen, 2006b). 3. METODOLOGIA A metodologia proposta fundamenta-se na utilização de algoritmos de mineração temporal para extração e representação de conhecimento em séries temporais multivariadas de consumo de energia. O processo pode ser dividido em seis etapas, cuja sequência pode ser visualizada na Figura 8. 12 002145 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Pré-Processamento •Remoção de componentes de tendência e sazonalidade •Normalização dos dados Definição dos Aspectos •Clustering •Redução de Dimensionalidade Definição dos Acordes Definição das Frases •Representação do conceito temporal de coincidência •Representação do conceito temporal de ordem parcial de enventos Definição dos Tons •Representação do conceito temporal de duração Extração das Regras •Criação de regras que descrevem o comportamento da série com base em conceitos temporais Figura 8 - Etapas do modelo para extração de conhecimento de séries temporais 3.1 Pré-processamento A etapa de pré-processamento exige uma atenção especial, pois, a qualidade dos dados vai refletir na informação gerada. Esta etapa compreende a remoção de componentes de tendência e sazonalidade e normalização de dados. A componente de tendência de uma série temporal é a sua característica de longo prazo que se manifesta globalmente ou localmente, através do aumento ou diminuição de valores de dados, como uma consequência da superposição de valores da série verdadeira e uma perturbação com tendência ascendente ou descendente. Na pratica são utilizadas técnicas de regressão linear para calcular essa componente para que a mesma possa ser removida (Palit & Popovic, 2005). A sazonalidade refere-se a movimentos similares que ocorrem regularmente em períodos fixos de tempo, como semanas, dias, quinzenas e anos (Maletzke, 2009). Nas séries temporais de energia é comum observar a existência de comportamentos recorrentes que caracterizam a sazonalidade devido à influência de fatores exógenos (Campos, 2008). Uma vez extraídas as componentes de tendência e sazonalidade temos acesso à componente estocástica dos dados, ou seja, obtemos a sua componente aleatória, uma vez que toda série temporal de demanda de energia elétrica possui uma componente gerada por fatores aleatórios. A normalização de uma série temporal consiste em subtrair de cada observação da série a sua média e dividir pelo seu desvio padrão, assim a distribuição de frequência dos dados terá média zero e desvio padrão igual a um (Alencar, 2007). 13 002146 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso 3.2 Definição dos Aspectos A tarefa de definição de Aspectos consiste em agrupar séries temporais correlacionadas, reduzindo a dimensionalidade da série temporal multivariada. Essa tarefa pode ser feita intuitivamente através de conhecimentos prévios das séries, ou utilizando algoritmos de clustering (Mörchen, 2006b). Neste trabalho optamos por utilizar o Algoritmo Hierárquico Ward (Everitt, 1993) por oferecer uma representação gráfica (dendograma) que permite visualizar agrupamentos naturais da série. No caso em que se formarem Aspectos multivariados faz-se necessário a utilização de uma combinação entre as séries de modo a obter um Aspecto univariado. Para cada Aspecto multivariado foi calculada uma série média utilizando uma média aritmética. Outros métodos de redução de dimensionalidade foram estudados como PCA e ICA, entretanto é necessário que todos os Aspectos estejam no mesmo eixo de coordenadas, o que não é possível quando utilizamos esses métodos de forma independente em cada Aspecto multivariado. 3.2 Definição dos Tons, Acordes e Frases Nesta etapa utilizamos o TSKM para extração dos diversos níveis de conhecimento. Uma vez que os diferentes níveis compõem uma estrutura hierárquica é necessária a descoberta dos níveis em ordem. Na definição dos Tons foram escolhidos rótulos segundo a magnitude dos valores dos bins (alto ou baixo, por exemplo). Esses rótulos são importantes para caracterizar o comportamento do sistema de energia e para indicar similaridades entre diferentes Aspectos. Os Acordes representam o conceito de coincidência entre eventos. Essas coincidências são extraídas através do processamento coletivo dos Tons identificados em cada Aspecto. A definição do Acorde parte do conjunto de símbolos nos Tons que coincidem. O algoritmo CloseChordMining (Mörchen, 2006b) requer uma série de parâmetros que devem ser informados pelo usuário. Cada um desses parâmetros é descrito a seguir: 1. Duração Mínima de um Acordeδ): ( Deve ser escolhido de acordo com o domínio de aplicação. A duração mínima de um Acorde deve ser longa o suficiente para um especialista considerar a coincidências de propriedades significativas. 2. Suporte Mínimo de um Acorde (sup min ): Consiste em um parâmetro de parada do algoritmo que reflete na qualidade dos Acordes. O valor padrão é 0,01. 3. Tamanho Mínimo de um Acorde (s min ): Consiste no número mínimo de símbolos que compõe o Acorde. 4. Tamanho Máximo de um Acorde (s max ): Consiste no número máximo de símbolos que compõe o Acorde. O valor padrão para esse parâmetro é igual ao número de Aspectos. 14 002147 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso 5. Constante que determina as margens (α): Essa ável varilimita consideravelmente o número de Acordes. Ele pode ser fixado experimentalmente. Seu valor padrão é 0,1. As Frases vão representar o conceito temporal de ordem parcial entre eventos. Essa estrutura representa o conhecimento máximo extraído de uma série temporal e são obtidas através do processamento dos Acordes. O Algoritmo 1 oferece um resumo do Algoritmo para a determinação das Frases (Mörchen, 2006b). Algoritmo 1 - Algoritmo de alto nível para definição das Frases Entradas: Seqüência de Intervalos Simbólicos C. Duração Mínima de fragmentos de Acordes na Frase δ. Mínima duração de uma Frase sup min . Valor padrão sup min =1. Comprimento mínimo de um trecho na Frase s min . Valor padrão s min =2. Constante que determina as margens de uma Frase α. Valor padrão α=0,1. Saída: Conjunto de Frases e a seqüência de intervalos simbólicos F. 1: Converte C em uma série de intervalos de itemsets I usando δ. 2: Criar uma janela de transição . 3: Minerar pares (s,T) compostos por padrões seqüenciais que ocorrem na janela de transição usando sup min e s min . 4: Criar os pares máximos de margens (S,T), onde S é um conjunto de todos os padrões seqüenciais que ocorrem em toda a janela de transição usando sup min e α e criar a ocorrência de intervalos F. 5: Criar uma ordem parcial de Acordes para cada conjunto S. Associado a esses dados temos o problema de mineração de sequências frequentes, ou seja, aquelas sequências em cujo limiar é normalmente especificado pelo usuário. Esse problema surge uma vez que o desempenho do algoritmo cai quando temos bases de dados muito densas. Cria-se então o conceito de margens fechadas onde um padrão sequencial é fechado quando não há padrões maiores que ocorrem na mesma transação. 3.3 Extração de Regras A extração de regras de comportamento consiste em determinar relações entre os dados que representam a probabilidade de que um evento aconteça dado que outro está presente. Trata-se de uma tarefa que proporciona uma linguagem fácil de ser entendida pelo usuário. Em séries temporais, o problema de encontrar regras cosiste em relacionar dados de uma série temporal com outras séries (Das, Lin, Mannila, Renganathan, & Smyth, 1998). A partir do conhecimento dos Acordes da série temporal podem-se extrair regras que descrevem relações de coincidências entre os Tons. Com o conhecimento das Frases, que representam a ordem parcial dos Acordes, extraem-se regras globais do sistema, que expressam relações de sequências de 15 002148 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso eventos. 4. AVALIAÇÃO DE DESEMPENHO Para avaliação do método proposto foi realizado um estudo de caso usando uma série temporal multivariada de consumo de energia da cidade de New England, composta de medições horárias em oito subestações no ano de 2010, disponíveis no site da ISO New England (http://www.iso-ne.com). As diferentes zonas atendidas pela ISO New England podem ser visualizadas na Tabela 1. Código da Zona Zona 1 ME Maine Load Zone 2 NH New Hampshire Load Zone 3 VT Vermont Load Zone 4 CT Connecticut Load Zone 5 RI Rhode Island Load Zone 6 SEMASS South East Massachusetts Load Zone 7 WCMASS West Central Massachusetts Load Zone 8 NEMASSBOST North East Massachusetts and Boston Load Zone Tabela 1 - Zonas de Medição de New England Na etapa de pré-processamento dos componentes de tendência e sazonalidade. A necessária para que os dados de todas as séries vez que utilizaremos um algoritmo de cluster euclidiana. dados foram removidas as normalização dos dados foi fiquem na mesma escala uma que se baseia na distância 4.1 Definição dos Aspectos Para a determinação dos Aspectos foi utilizado o algoritmo hierárquico ward, cujo dendograma pode ser visualizado na Figura 9. 16 002149 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Figura 9 - Dendograma de Representação dos Clusters das Séries Temporais O dendograma apresenta a formação de três clusters. Entretanto, percebese que no primeiro agrupamento formam-se dois sub-clusters, de maneira que estes serão tratados individualmente, formando dois clusters, somando um total de quatro Aspectos. A Tabela 2 mostra a divisão dos clusters e quais series compõem cada Aspecto. Podemos constatar que os Aspectos A, B e C são compostos de mais de uma série, compondo Aspectos multivariados. Nestes casos serão calculadas séries médias, onde essa nova série temporal é composta pela média das séries temporais originais, obtendo-se Aspectos univariados. Aspecto Aspecto A Zonas/Séries ME e NH WCMASS, SEMASS e NEMASSBOST VT e RI CT Aspecto B Aspecto C Aspecto D Tabela 2 - Aspectos A extração dos Tons foi realizada utilizando o algoritmo Persist (Mörchen & Ultsch, 2005), para cada Aspecto individualmente. Para evitar a ocorrência de Tons muito curtos foram estabelecidos os seguintes parâmetros: • Números mínimo e máximo de bins: Esses parâmetros estabelecem limiares para o número de estados. O valor máximo não pode ser muito elevado, pois pode tornar o algoritmo muito sensível a outliers. O algoritmo Persist realiza a discretização dos dados de maneira a encontrar um valor ótimo dentro do limiar determinado pelo usuário. Para esse exemplo de caso foram utilizados os valores 3 e 7, respectivamente. 17 002150 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso • Tamanho máximo de uma interrupção e tamanho mínimo de um evento: Esses parâmetros são importantes para realizar a filtragem de interrupções ao longo dos tons ou de tons muito pequenos que não constituem um evento. Os valores utilizados foram 0,1 e 5, respectivamente. A Tabela 3 faz um resumo sobre as características dos Tons encontrados em cada Aspecto. São informados os intervalos contidos em cada rótulo e a quantidade de Tons contidos em cada intervalo. Aspecto Aspecto A Aspecto B Aspecto C Aspecto D Rótulo Intervalo Quantidade Very high 354 High 299 Very low 59 Low 65 High 357 Medium 332 Low 30 Very high 37 High 301 Low 280 Very low 163 High 24 Medium 42 Low 5 Tabela 3 - Descrição dos Tons Na Figura 10 tem-se um exemplo da representação dos Tons do Aspecto A, tomando as 250 últimas amostras. Vale lembrar que os rótulos se referem à amplitude dos consumos e as lacunas existentes entre os Tons correspondem a intervalos que representam outliers ou Tons muito curtos que não representam necessariamente um evento. 18 002151 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Figura 10 - Representação dos Tons do Aspecto A Uma vez conhecidos os Tons, passa-se a tarefa de definição dos Acordes. Nesta etapa os Tons de cada Aspecto são comparados, considerando que o intervalo de ocorrência é o mesmo em todos os Aspectos, formando regras que exprimem a simultaneidade de eventos. Os parâmetros utilizados nessa simulação estão descritos na Tabela 4. Parâmetro Valor Duração Mínima de um Acorde (δ) 10 Suporte Mínimo de um Acorde (sup min ) 0,01 Tamanho Mínimo de um Acorde (s min ) 2 Tamanho Máximo de um Acorde (s max ) 4 Constante que determina as margens (α) 0,1 Tabela 4 - Parâmetros do Algoritmo para Extração dos Acordes As regras são geradas considerando a repetição desses Acordes, pois um Acorde que seja pouco frequente não representa um comportamento característico do sistema. 19 002152 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Figura 11 - Representação de Acordes e super-Acordes A Figura 7 mostra alguns exemplos de Acordes e suas combinações para a formação de super-Acordes. Para o Acorde C4, que ocorre 34 vezes no sistema, temos a seguinte regra: Acorde C4: Quando o Tom do Aspecto A é Alto então o Tom do Aspecto B é Médio e o Tom do Aspecto D é médio. Para esse exemplo de caso foram detectados 16 Acordes diferentes. Uma vez conhecidos os Acordes pode-se extrair o conceito de ordem parcial entre eles, compondo as Frases. Os parâmetros utilizados nessa simulação estão resumidos na Tabela 5. Parâmetro Valor Duração Mínima de fragmentos de Acordes δ. 7 Mínima duração de uma Frase sup min 11 Comprimento mínimo de um trecho na Frase s min 3 Constante das margens de uma Frase α 0,1 Tabela 5 - Parâmetros para Extração das Frases Primeiramente, como vimos na Figura 7, os Acordes são convertidos em um conjunto de itemset, depois são extraídas as sequências que formam as Frases. Foram encontradas 14 sequências para descrever o sistema formando uma Frase. A Frase gerada pode ser visualizada na Figura 12 cujo cada estado representado refere-se a um Acorde. 20 002153 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Figura 12 - Representação da Frase gerada A partir da árvore montada pode-se se extrair um conjunto de regras que podem ser programadas e servir para auxiliar em tarefas de planejamento de subestações e tomadas de decisões, uma vez que a Frase encontrada descreve o comportamento global do sistema. 5. CONCLUSÕES E RECOMENDAÇÕES A tarefa de descrever o comportamento de séries temporais multivariadas de consumo de energia constitui-se numa atividade que tem o propósito de sistematizar, explorar, criar e testar possíveis visões a respeito da estrutura de consumo de uma região. O objetivo principal proposto foi extrair e representar conhecimento de séries temporais multivariadas explorando conceitos e relações temporais entre os dados. O modelo utilizado é capaz de extrair esse conhecimento e representá-lo de forma clara utilizando os conceitos temporais de duração, coincidência e ordem parcial que englobam todos os operadores temporais. O atual cenário de crescente competitividade no setor elétrico, estimula o interesse pela extração de conhecimento dessas séries e a utilização de ferramentas de Mineração de Dados para maior credibilidade dos resultados. Os resultados obtidos através do estudo de caso proposto foram satisfatórios e podem constituir uma ferramenta de auxilio em tomadas de decisão e detecção de anomalias no sistema. Para trabalhos futuros indicamos a pesquisa de outros algoritmos que possam realizar as tarefas de extrair as relações temporais explicitadas, por exemplo, utilizando o algoritmo SOM para a mineração de padrões sequenciais, além de desenvolver um método para extrair as probabilidades de ocorrência das sequências que compõem as Frases extraídas. 21 002154 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso 6. REFERÊNCIAS ABINADER, F.; QUEIROZ, A.; HONDA, D. Self-Organized Hierarchical Methods for Time Series Forecasting. 2011 IEEE 23rd International Conference on Tools with Artificial Intelligence, 2011. p.1057-1062. ALENCAR, A. B.. Mineração e Visualização de Coleções de Séries Temporais. Dissertação de Mestrado do Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2007. ALLEN, J. F. Maintaining knowledge Communications of the ACM, 1983. p.832-843. about temporal intervals. ANTUNES, C. M.; OLIVEIRA, A. L. Temporal Data Mining: an overview. KDD Workshop on Temporal Data Mining, 2001. p.1-13. BARRETO, GUILHERME A. Time Series Prediction with the Self-Organizing Map: A Review. Studies in Computational Intelligence (SCI), 2007. p.138-158. CAMPOS, R. J. Previsão de séries temporais com aplicações a séries de consumo de energia elétrica. Dissertação de Mestrado do Programa de PósGraduação em Engenharia Elétrica, Universidade Federal de Minas Gerais, Belo Horizonte, 2008. CARDOSO, B.; MASCARENHAS, M. Curso Completo de Teoria Musical e Solfejo, Vol 1. Rio de Janeiro: Irmãos Vitale, 1973. DAS, G.; LIN, K.; MANNILA, H.; RENGANATHAN, G.; SMYTH, P. Rule discovery from time series. Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining (KDD'98) 1998. p.16-22. DELONE, R.; WITTLICH, G.E. Aspects of twentieth-century music. Englewood Cliffs, New Jersey: Prentice-Hall, 1975. EL DESOUKY, A.A.; ELKATEB, M. M. Hybrid adaptive techniques for electricload forecast using ANN and ARIMA. IEEE Proceedings on Generation, Transmission and Distribution, 2000. p. 213-217. ELKATEB, M. M.; SOLAIMAN, K.; AL-TURKI, Y. A comparative study of medium-weather-dependent load forecasting using enhanced artificial/fuzzy neural network and statistical techniques. Neurocomputing,1998. p. 3-13. EVERITT, B. S. Cluster analysis. Heinemann Educational Books, London: Academic Press 1993, 3° Edição ed. Hand, D.; Smyth, P.; Mannila, H. Principles of Data Mining. MIT Press 2001. HYVARINEN, A. Survey on independent component analysis. Neural 22 002155 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br 9° CONTECSI - International Conference on Information Systems and Technology Management Cover / Capa Authors / Autores Topics / Áreas Papers / Trabalhos Committees / Comitês Sponsors / Patrocinadores Conference Overview / Panorama do Congresso Computing Surveys 1999. p.94-128. Janczura, Joanna e Rafal Weron. “Efficient estimation of Markov regimes-witching models: An application to electricity spot prices.” HSC Research Report 2011. Jolliffe, I. T. Principal Component Analysis. Springer, 1986. Maletzke, André Gustavo. “Uma metodologia para extração de conhecimento em séries temporais por meio da identificação de motifs e da extração de caracteristicas.” Dissertação de Mestrado ICMC-USP 2009. Mörchen, F. “Algorithms For Time Series Knowledge Mining.” Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining 2006a. Mörchen, F. e A. Ultsch. “Optimizing time series discretization for knowledge discovery.” Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'05), 2005. Mörchen, F. Time Series Knowledge Mining. Marburg, Alemanha, 2006b. Palit, A. K. e D. Popovic. Computational Intelligence in Time Series Forecasting Theory and Engineering Applications. 1. Springer, 2005. Ribeiro, Hugo. “Gramatica e Teoria Musical.” 2007. 10. Rodrigues, L. C., P. P. C. Silva e R. Linden. “Séries Temporais no Consumo de Energia Elétrica no Estado do Rio de Janeiro.” Revista Visões 2007, 02 ed. Singhal, Ashish e Dale E. Seborg. “Clustering multivariate time-series data.” JOURNAL OF CHEMOMETRICS 2006. Zaki, M. J. e C.-J. Hsiao. “CHARM: An efficient algorithm for closed itemset mining.” Proceedings of the 2nd SIAM International Conference on Data Mining (SDM'02) 2002. Zarur, M. A. F. “Modelo para Elaboração de Cenarios do Setor Energético, Utilizando Técnicas de Data Mining.” Dissertação de Mestrado (UFRJ) 2005. 23 002156 TECSI - Laboratório de Tecnologia e Sistemas de Informação FEA USP - www.tecsi.fea.usp.br