III Workshop de Iniciação Científica em Sistemas de Informação, Florianópolis, SC, 17 a 20 de Maio de 2016 Desenvolvimento da Técnica Data Mining Como Apoio à Tomada de Decisão no Sistema Hidrológico para Geração de Estatística das Estações de Telemetria da Defesa Civil de Brusque – SC Alternative Title: Development of Data Mining Techniques as Support for Decision Making in the Hydrological System for Statistics Production of the Telemetry Stations of the Emergency Management in Brusque-SC Jonathan Nau Pedro Sidnei Zanchett Wagner Correia Centro Universitário de Brusque UNIFEBE Rua Dorval Luz, 123 Brusque – SC - Brasil [email protected] Centro Universitário de Brusque UNIFEBE Rua Dorval Luz, 123 Brusque – SC - Brasil [email protected] Centro Universitário de Brusque UNIFEBE Rua Dorval Luz, 123 Brusque – SC - Brasil [email protected] Antonio Eduardo de Barros Ruano Marcos Rodrigo Momo University of Algarve - Faro Email: [email protected] UNIFEBE Rua Dorval Luz, 123 Brusque – SC - Brasil [email protected] RESUMO Palavras-Chave A quantidade de informação dos sistemas hidrológicos cresce a cada medição realizada pelas estações. Com um volume tão alto de informações acaba ficando difícil extrair conhecimento olhando só os dados. O processo de extração de conhecimento (KDD) tem o objetivo de auxiliar a extração do conhecimento a partir de grandes bases de dados. Pensando em facilitar a extração de conhecimento das grandes bases do sistema hidrológico elaborou-se este projeto de pesquisa que visa implantar o processo KDD para geração de estatísticas das estações de telemetria mantidas pela defesa civil de Brusque – SC, com base em dados de níveis de chuva e do rio em Brusque e região oferecendo apoio a decisão estratégica. Através do Data Mining utilizando-se o modelo cubo de decisão por associação será possível extrair diversas visões à gestão de negócio, transformando-se numa ferramenta de ajuda para ganho de tempo no controle e prevenção à enchentes com antecipação e segurança à população. A decisão baseada no conhecimento extraído das grandes bases será mais assertiva, desta forma as informações passadas para toda a população terá algum grau de confiança e não precisam mais serem baseadas em inferências das pessoas que possuem a base de dados em mãos. Sistema de informação; Processo KDD; Data Mining. Estatística. ABSTRACT The amount of information of hydrological systems grows each measurement performed by the seasons. With such a high volume of information ends up being difficult to extract knowledge just looking at the data. The KDD process is intended to assist the extraction of knowledge from large databases. Thinking about facilitating the extraction of knowledge from large bases of the hydrological system elaborated a work based on the KDD process in an attempt to mine the data of hydrological systems and extract knowledge to aid in decision making. A decision based on knowledge extracted from large databases will be more assertive in this way the information passed to the entire population will have some degree of confidence and no longer need to be based on inferences of the people who have the hands on the database. Keywords Information System; KDD process; Data Mining. Statistic. General Terms Experimentation and Database Management. Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. To copy otherwise, or republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee. SBSI 2016, May 17–20, 2016, Florianópolis, Santa Catarina, Brazil. Copyright SBC 2016. Categories and Subject Descriptors E.2 Data Storage Representations. G.3 Probability and Statistics: Statistical software. H. Information Systems: H. 2.8. Database Applications: Data mining. 43 III Workshop de Iniciação Científica em Sistemas de Informação, Florianópolis, SC, 17 a 20 de Maio de 2016 se definir como problemas as enchentes a ser analisado para uma correta tomada de decisão. Na segunda fase o passo é realizar a criação de um conjunto de dados que serão preparados para posteriormente serem minerados. Utilizar-se-á três dados para a mineração, que neste caso é o nível do rio, o nível de chuva e a vazão do rio. Estes três dados serão importantes para a extração de conhecimento de uma base de dados do sistema hidrológico. 1. INTRODUÇÃO A cada dia que passa o volume de informação cresce exponencialmente, obrigando o desenvolvimento de técnicas e ferramentas que facilitem a busca e manipulação de todos esses dados armazenados. A mineração de dados é uma tecnologia que combina métodos tradicionais de análise de dados com algoritmos sofisticados para processar grandes volumes de dados” [2]. A limpeza e o processamento dos dados serão trabalhados na terceira fase do processo KDD. Nesta fase serão eliminados ruídos dos dados que podem afetar a qualidade do conhecimento extraído da base de dados. Como no sistema hidrológico os dados são coletados automaticamente pelas estações de coleta, a possibilidade de haver erros na leitura dos sensores é alta. Os erros que ocorrem na leitura dos sensores são tratados como ruídos no processo KDD e podem levar a uma conclusão precipitada dos padrões identificados, devido a isso os ruídos precisam ser eliminados. Por exemplo, nos dados armazenados pela defesa civil de Brusque se possui muitos meses desde 1912 com falhas nas informações históricas coletadas, essas informações primeiramente precisam ser tratadas para então se prosseguir. O sistema hidrológico de Brusque gera muita informação através das estações de telemetria que se localizam ao longo do rio Itajaí Mirim, os sensores das estações captam o volume de chuva e o nível do rio. Apesar de serem captadas apenas duas variáveis o volume de informação é gigantesco devido a captura dos dados ser em questão de minutos. “Dados de nível de rios usados para controle de cheias podem demandar a coleta e transmissão de dados a cada 10 minutos” [3]. Devido à grande quantidade de informação gerada pelas estações de telemetria da defesa civil de Brusque, é fundamental adotar técnicas de mineração de dados para identificar padrões e anomalias que antes passavam despercebidas e que agora podem ajudar na tomada de decisão, como por exemplo alertar a população de uma possível enchente. Nas figuras 02 e 03 observa-se claramente o ruído causado por uma estação de telemetria da defesa civil de Brusque. A imagem mostra que em dois horários a estação captou valores acima de três mil milímetros de chuva, logo depois o nível caiu para zero e o nível do rio não teve alteração em nenhum momento. Estes ruídos vão precisar ser corrigidos pois afetam diretamente na extração de conhecimento da base de dados, apenas esses dois valores causam uma variação enorme no nível de chuva do mês em questão. No momento a defesa civil de Brusque, não utiliza base de dados históricas das estações de telemetria para tomada de decisões e prestar orientações a sua população. As informações repassadas são somente dos dados atualizados das estações. Esta pesquisa teve por objetivo elaborar e aplicar técnicas de mineração de dados na base de dados histórico da defesa civil para extrair conhecimento que antes não se dava atenção e que agora podem ser usados no processo de tomada de decisão. 2. METODOLOGIA DE EXTRAÇÃO DE INFORMAÇÕES HIDROLÓGICAS O processo de extração de dados é conhecido pela sigla KDD (knowledge-discovery in databases). O conceito deste processo se trata da extração de dados de uma grande base de dados, a fim de identificar padrões para adquirir conhecimento. A extração de conhecimento de uma base de dados consiste em duas grandes fases. A primeira trata da preparação dos dados, que consiste em selecionar os dados que serão utilizados onde faz a limpeza e a projeção destes dados. Já a segunda etapa trata da mineração dos dados, se faz a escolha dos algoritmos e tarefas de mineração, a interpretação de padrões e a consolidação do conhecimento descoberto. Na figura 1 pode-se observar as fases do processo KDD mais detalhadamente. Figura 2. Ruído de dados. Figura 1. Etapas do processo KDD [1] 2.1 ETAPAS DO PROCESSO KDD Na primeira etapa é definida quais tipos de informação será extraída de uma base de dados. Para o sistema hidrológico pode- 44 III Workshop de Iniciação Científica em Sistemas de Informação, Florianópolis, SC, 17 a 20 de Maio de 2016 Classificação: Classes de objetos são criadas para agrupar objetos com características semelhantes. São utilizados dados sobre o passado de determinada base para encontrar padrões com valores significativos, aos quais irão levar a regras sobre o futuro destes objetos. Clusterização: Os dados heterogêneos são reagrupados em grupos com características semelhantes, método conhecido como clustering. A clusterização é a tarefa de segmentar uma população heterogênea em um número de subgrupos (ou clusters) mais homogêneos possíveis, de acordo com alguma medida. O que diferencia a clusterização da classificação é a não existência de grupos pré-definidos. No sexto passo será escolhido os algoritmos de mineração de dados. Os métodos selecionados para serem utilizados no sistema hidrológico foram algoritmo associação, algoritmo de regressão linear e algoritmo clusterização. Descobrir o conhecimento oculto nas grandes bases de dados das mais diversas organizações, seja de forma automática ou semiautomática é o objetivo do Data Mining. Trata-se de um processo da extração de padrões, considerados interessantes e não corriqueiros, a partir de uma base de dados permitindo de forma ágil e rápida a tomada de decisões. Figura 3. Ruído de dados. A correção dos dados é feita de maneira para acrescentar mais um campo ao final da tabela, para que na mineração dos dados o algoritmo saiba quais os dados que estão incorretos. Desta forma além de eliminar os ruídos é possível treinar também o algoritmo de forma que ele identifique os novos valores que estão sendo registrados na base de dados, que com isso é possível garantir a integridade dos dados e saber quando uma estação está apresentando defeitos. Isto vem ao encontro de Cardoso e Machado [4] que definem o Data Mining como uma técnica que faz parte de uma das etapas da descoberta de conhecimento em banco de dados. Ela é capaz de revelar, automaticamente, o conhecimento que está implícito em grandes quantidades de informações armazenadas nos bancos de dados de uma organização. Essa técnica pode fazer, entre outras, uma análise antecipada dos eventos, possibilitando prever tendências e comportamentos futuros, permitindo aos gestores a tomada de decisões baseada em fatos e não em suposições. A quarta fase trata-se da redução e projeção dos dados, é mais conhecida como transformação dos dados. Os dados precisam ser armazenados e formatos de forma que os algoritmos consigam ser aplicados e os dados possam ser minerados. Conforme figura 04 se utilizará apenas uma tabela com alguns campos (somente números), para facilitar no momento da mineração dos dados. A tabela vai conter como campos o código da estação de coleta, o horário que foi realizado a coleta, os valores do nível do rio e das chuvas. A mineração de dados começa efetivamente no sétimo passo. Nesta fase se irá minerar os dados na tentativa de identificar os padrões de interesse, os interesses são necessários antes de começar a mineração dos dados. Um interesse seria a previsão do nível do rio nas horas seguintes, seria interessante também quais são os meses que o risco de cheias aumenta, relação entre quantidade chuva e nível do rio. A tabela 01 demonstra a utilização do algoritmo EM (expectation–maximization algorithm ou algoritmo de estimação de máxima) para minerar dados dos níveis da chuva durante os meses do ano. O algoritmo EM faz parte da técnica de mineração conhecida como clusterização, o algoritmo é ideal para quando os dados são realmente incompletos, quando existe perda de um intervalo de dados na base de dados. Figura 4. Dados utilizados A próxima grande etapa é a de mineração dos dados, esta grande fase é composta por quatro fases menores, que vão desde a escolha de tarefas de mineração até a consolidação do conhecimento descoberto por meio da base de dados selecionada anteriormente. Tabela 1. Mineração de dados da chuva Na quinta fase vamos escolher quais serão as tarefas de mineração que vão ser utilizadas. Nesta etapa se decide qual será o objetivo dos processos de mineração dos dados, os mais comuns são os de classificação, regressão e clusterização. No sistema hidrológico vamos utilizar as três tarefas de mineração. Segundo autores as três técnicas mais comuns no processo KDD são: Associação: Tem por objetivo a combinação de itens considerados importantes, sendo que a presença de tal item indica implicitamente na presença de outro item na mesma transação. Este processo teve como precursor Agrawal, em 1993 [1]. 45 III Workshop de Iniciação Científica em Sistemas de Informação, Florianópolis, SC, 17 a 20 de Maio de 2016 Portanto ao utilizar o algoritmo M5RULES se queria criar regras na tentativa de modelar a forma como se comporta o rio. Na mineração dos dados se obteve as cinco regras, que serão exploradas abaixo: IF Nível do rio em Botuverá <= 1.226 Nível do rio em Botuverá <= 0.977 Nível do rio em Botuverá > 0.559 Nível do rio em Botuverá > 0.73 THEN Nível do rio em Brusque = -0 * Acumulado de chuva em Botuverá + 0.0308 * Nível do rio em Botuverá + 1.3311 [251/57.511%] Figura 5. Primeira regra. IF Nível do rio em Botuverá <= 1.393 Nível do rio em Botuverá > 0.554 THEN Nível do rio em Brusque = -0.0001 * Acumulado de chuva em Botuverá + 0.2425 * Nível do rio em Botuverá + 1.0899 [466/68.005%] A oitava fase é a interpretação dos dados obtidos por meio da mineração de dados. A técnica do algoritmo EM consistiu em dividir os dados em três cluster, cada cluster representa uma massa de dados. O cluster 1 por exemplo representa apenas 2% dos dados analisados, que correspondem a dezesseis meses em que a precipitação de chuva chegou em aproximadamente 112 milímetros de chuva, com desvio padrão de 19 milímetros. Nele ainda se observa que alguns meses tiveram mais ocorrência que outros, como por exemplo, o mês de março com três ocorrências e os meses de fevereiro e abril com duas ocorrências cada. Por sua vez no cluster 2 temos uma média de 63 milímetros de precipitação da chuva, este cluster possui um percentual de ocorrência no valor de 30% e são destaques os meses de fevereiro, março, setembro e dezembro. Por fim a precipitação que mais ocorre em Brusque com 68% de ocorrência fica na média de 29 milímetros, com os meses de maio a agosto em destaque. Figura 6. Segunda regra; IF Nível do rio em Botuverá <= 1.846 THEN Nível do rio em Brusque = 0.0203 * Nível do rio em Botuverá + 1.4469 [192/55.59%] Figura 7. Terceira regra IF Nível do rio em Botuverá <= 2.793 THEN Nível do rio em Brusque = -0.003 * Acumulado de chuva em Botuverá - 0.121 * Nível do rio em Botuverá + 1.8809 [57/54.89%] Esses dados mostram quais as possíveis eventualidades que podem ocorrer durante o ano, por exemplo, o mês de agosto é mais assertivo falar que as medias de precipitação da chuva vão ficar em torno de 19 a 49 milímetros, pois sua a ocorrência dessa media para esse mês é muito maior do que para as demais medias. Figura 8. Quarta regra. Nível do rio em Brusque = - 0.0254 * Acumulado de chuva em Botuverá + 1.1194 * Nível do rio em Botuverá - 0.2767 [15/72.772%] Outra mineração feita foi utilizando o algoritmo M5RULES [5], que utilizou dados da estação de Botuverá e da estação de Brusque. Os dados utilizados da estação de Botuverá foram o acumulado de chuva do dia e a média do nível do rio também para o dia, já na estação de Brusque foi apenas utilizado a média do rio no dia. Figura 9. Quinta regra. O nono e último passo é a consolidação do conhecimento descoberto. Nesta fase irá incorporar os resultados nos sistemas, nas documentações necessárias e nos relatórios para quem se interessar. Neste ponto também se faz aferições de conflitos e a resolução dos mesmos por meio do conhecimento extraído. O algoritmo funciona da seguinte forma: uma árvore de aprendizado é aplicada sobre todo o conjunto de treinamento e uma árvore podada é aprendida. Em seguida, a melhor ramificação (de acordo com alguma heurística) gera uma regra e a árvore é descartada. Todas as instâncias cobertas pela regra são removidas do conjunto de dados, e o processo é aplicado de modo recursivo para os exemplos restantes até que todas as instâncias sejam cobertas por uma ou mais regras. Ao invés de criar uma única regra de aprendizagem, constrói-se um modelo de árvore completo em cada fase e faz-se da melhor ramificação uma nova regra [6]. Para consolidar as regras propostas pelo algoritmo M5RULES é necessário apenas ter os valores, utilizar as regras para realizar os cálculos e chegar ao resultado final. Tem-se por exemplo o seguinte conjunto de dados nível do rio em Botuverá com 0,66 metros, um volume de chuva no valor de 0,00 milímetros e o nível do rio em Brusque com 1,38 metros. Utilizando a primeira regra para o conjunto de informações chega-se a o valor aproximado de 1,351428 metros, que fica muito próximo ao valor esperado de 1,38 metros. 46 III Workshop de Iniciação Científica em Sistemas de Informação, Florianópolis, SC, 17 a 20 de Maio de 2016 A primeira grande fase demanda mais tempo no processo KDD, geralmente fica em torno de 80% do trabalho realizado durante a extração do conhecimento de uma base de dados. As etapas que foram descritas também podem ser repetidas durante a extração, apesar de ser apresentado uma sequência para a extração dos dados a mesma pode ser alterada conforme necessidade, também é possível voltar para alguma etapa anterior caso seja necessário, é aconselhável voltar para evitar erros na consolidação do conhecimento. [4]. CARDOSO, O. N. P., MACHADO, R. T. M. Gestão do conhecimento usando data mining: estudo de caso na Universidade Federal de Lavras. Revista de Administração Pública. Rio de Janeiro 42(3): 495-528, Maio/Jun. 2008. [5] ALBERG, D.; LAST, M.; KANDEL, A. Knowledge discovery in data streams with regression tree methods, 2011. [6]. HOLMES, G.; HALL, M.; FRANK, E. Generating Rule Sets from Model Trees. In: Twelfth Australian Joint Conference on Artificial Intelligence, 1999. 3. CONCLUSÕES E TRABALHOS FUTUROS A técnica Data Minning contribui para extração precisa e inteligente dos dados obtidos pelas estações de telemetria do município de Brusque SC, mantidas pela Defesa Civil para análise dos problemas ocorridos com cheias, fornecendo informações de apoio à decisão para técnicos da área e população em geral, de forma simples e rápida. Com este trabalho conseguiu-se exibir os meses em que mais ocorre chuva e quais são os meses mais propícios para chuva durante o ano, com essa informação é possível verificar os meses de risco, planejar as estratégias durante o ano e disponibilizar a informação para a população. Também foi possível com este trabalho a criação de regras para inferir o nível do rio na cidade de Brusque a partir dos dados da estação da cidade vizinha Botuverá. No sistema hidrológico de Brusque as técnicas de mineração de dados para extração de conhecimento foram utilizadas pela primeira vez com esse trabalho, o que resulta em um grande avanço para a cidade e para a população. Mesmo exibindo algum resultado ainda é necessário mais estudo na aérea de Data Mining com foco nos sistemas hidrológicos. A utilização das redes neurais se mostra interessante para ampliar mais este trabalho, pois com as redes neurais consegue-se modelar a bacia do rio Itajaí Mirim de forma a utilizar todas as estações disponíveis ao longo do rio e saber com precisão qual o nível do rio na última estação. As redes neurais também permitem que os novos dados sejam validados a partir dos ruídos que já foram encontrados. 4. AGRADECIMENTOS Este trabalho de Iniciação Científica teve o apoio da Secretaria de Estado da Educação de Santa Catarina, através da concessão de bolsas com recursos do Artigo 170 da Constituição Estadual, para os alunos de graduação regularmente matriculados na UNIFEBE. 5. REFERÊNCIAS [1]. AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining associations between sets of items in massive databases. ACM-SIGMOD, 1993. Proceedings... Int’l Conference on Management of Data, Washington D.C., May 1993. [2] . ANTUNES, J. F. G.; OLIVEIRA, S. R. M.; RODRIGUES, L. H. A. Mineração de dados para classificação das fases fenológicas da cultura da cana-de-açúcar utilizando dados do sensor modis e de precipitação. VIII Congresso Brasileiro de Agroinformática. Bento Gonçalves, 2011. [3]. BLAINSKI, É.; GARBOSSA, L. H. P.; ANTUNES, E. N. Estações hidrometeorológicas automáticas: recomendações técnicas para instalação. Disponível em: <http://ciram.epagri.sc.gov.br/recomendacoes_tecnicas_par a_instalacao_de_estacoes.pdf >. Acesso em: 25 fev. 2016. 47