18 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 REVISTA GESTÃO EM ENGENHARIA CGE ISSN 2359-3989 homepage: www.mec.ita.br/~cge/RGE.html Aquisição de conhecimento de bases de dados para redimensionamento da rede de monitoramento da qualidade das águas superficiais da bacia do Rio das Velhas Marcos Bartasson Tannús*1, Rodrigo Arnaldo Scarpel2 1 Centro de Inovação e Tecnologia SENAI FIEMG – Campus CETEC, Av. José Cândido da Silveira, 2000, Belo Horizonte/MG, Brasil 2 Instituto Tecnológico de Aeronáutica - Praça Marechal Eduardo Gomes, 50 - São José dos Campos/SP, Brasil RESUMO: A operação de redes de monitoramento da qualidade das águas superficiais com elevado número de estações de coleta e determinação de dezenas de parâmetros físico-químicos e biológicos é bastante onerosa, sendo constante a discussão sobre o redimensionamento destas redes. Neste estudo foram empregados os procedimentos do processo Knowledge Discovery in Databases – KDD, associado à conceituação de ecorregiões aquáticas, na avaliação das informações obtidas com a operação da rede de monitoramento da qualidade das águas superficiais da bacia do rio das Velhas, Estado de Minas Gerais. A análise contemplou uma base de dados composta por 113 estações de amostragem, com informações de 17 parâmetros físico-químicos e biológicos no período de 2007-2013. Seguindo as etapas do processo KDD, aplicando um algoritmo de mineração de dados para identificação de agrupamentos por similaridade e interpretação dos padrões pautada na tipificação de aspectos físicos da bacia, recomenda-se a desativação de 23 estações de amostragem. Palavras-chave: Ecorregiões Mineração de Dados. *Autor correspondente: [email protected] aquáticas. Formação de agrupamentos. Tannús e Scarpel 19 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 Knowledge Discovery in Databases in water quality monitoring network optimization for the Velhas River basin ABSTRACT: The water quality monitoring operation network involves a large number of data sampling stations and dozens of physical, chemical and biological parameters. The optimization procedures for water quality monitoring network has been extensively studied. The aim of this study is to optimize quality monitoring network by Knowledge Discovery in Databases (KDD) procedure associated with aquatic ecoregions concept. Data collected by the surface water quality monitoring network of the Velhas river basin, in Minas Gerais State, Brazil, was analysed. The data analysis included a database of 113 data collection stations, 17 physico-chemical and biological parameters, which represented the region for the 2007-2013 period. Following KDD steps, using data mining algorithm application (grouping by similarity) and pattern identification guided by the physical typologies of the basin, it was possible to establish the recommendation to shutdown 23 data sampling stations. Keywords: Aquatic ecoregions. Clustering. Data mining. 1 INTRODUÇÃO O monitoramento da qualidade das águas naturais representa um conjunto de práticas de coletas de dados e amostras de água em locais específicos, em intervalos regulares de tempo, visando o acompanhamento das alterações nas características físicas, químicas e biológicas da água, decorrentes de atividades antrópicas e de fenômenos naturais (ANA, 2014). Para se avaliar a dinâmica das alterações ambientais decorrentes das ações antrópicas e de fenômenos naturais que impactam os recursos hídricos, diversos órgãos públicos e empresas privadas desenvolvem amplos projetos de monitoramento da qualidade da água. Esses monitoramentos demandam constantes avaliações sobre o arranjo adequado das estações de amostragem, a periodicidade de amostragem e os parâmetros a serem determinados. Comumente, as discussões estão centradas em como obter melhores informações para a gestão dos recursos hídricos tendo em vista os recursos técnicos e financeiros disponíveis. Neste contexto, torna-se imprescindível uma interpretação da expressiva carga de dados gerada com os monitoramentos em curso, alguns com séries históricas de décadas, com o intuito de avaliar se os resultados analíticos conduzem ou repetem, sistematicamente, uma condição de qualidade ambiental que poderia ser identificada com segurança a partir de um esforço amostral menor, com consequente redução dos dispêndios financeiros. Este trabalho teve por objetivo avaliar a existência de similaridade nos dados analíticos obtidos com a operação da rede de monitoramento da qualidade das águas superficiais da bacia do rio das Velhas, no Estado de Minas Gerais, empregando o processo Knowledge Discovery in Databases (KDD), conjuntamente com análise de classes de tipificação de ecorregiões Tannús e Scarpel 20 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 aquáticas, com o intuito de verificar a possibilidade de reduzir o número de estações de amostragem. 2 REFERENCIAL TEÓRICO 2.1 O processo Knowledge Discovery in Databases (KDD) O KDD é um processo de descoberta de conhecimento útil em uma coleção de dados. Fayyad et al. (1996) definem o KDD como sendo um processo não trivial de identificação de padrões válido, original, potencialmente útil e fundamentalmente compreensível em dados. Ressaltam, ainda, que o processo KDD é interativo e iterativo, com muitas decisões pelo usuário. A Figura 1 apresenta uma ilustração das etapas do processo KDD. Fonte: Modificado de Fayyad et al. (1996). Figura 1 – Representação das etapas constituintes do processo KDD. A mineração de dados é um passo no processo KDD que consiste em uma enumeração de padrões (ou modelos) sobre os dados. A mineração de dados envolve os modelos de revelação ou determinação de padrões de dados observados. Um grande número e variedade de algoritmos de mineração de dados são descritos na literatura a partir das áreas estatística, reconhecimento de padrões, aprendizagem de máquina e banco de dados. As funções modelos mais comuns abordadas por esses algoritmos são: classificação, regressão, agrupamento, sumarização, modelagem de dependência, análise de correlação, análise sequencial (FAYYAD et al., 1996, Han e Kamber, 2001). A função agrupamento mapeia um item de dados em uma das várias classes categóricas que são determinadas a partir dos dados. Este estudo empregou a função agrupamento na etapa de mineração de dados. 2.2 Análise de agrupamentos Sharma (1996) define a análise de agrupamentos como uma técnica útil para a identificação de grupos de entidades ou assuntos que são similares entre si no que diz respeito a certas características. Análise de agrupamentos é uma técnica usada para combinar observações em grupos Tannús e Scarpel 21 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 tais que cada grupo seja homogêneo ou compacto com respeito a certas características e que cada grupo deva ser diferente de outros grupos com respeito às mesmas características. A definição de homogeneidade varia de análise para análise e depende do objetivo do estudo. Mingoti (2005) expressa que a partição desejada é aquela que produz grupos os mais heterogêneos possíveis e de forma que os elementos dentro de cada grupo sejam homogêneos. Segundo Sharma (1996), a primeira etapa na análise de agrupamentos é selecionar a medida de similaridade. A segunda etapa se refere à decisão sobre o tipo de técnica de agrupamento a ser empregada (por exemplo, agrupamento hierárquico ou não-hierárquico). Na terceira etapa é selecionado o método de agrupamento para aplicação da técnica selecionada (por exemplo, o método centroide na técnica de agrupamento hierárquico) e na quarta etapa é tomada uma decisão sobre o número de agrupamentos. A etapa final se refere à interpretação dos agrupamentos obtidos. Conforme Mingoti e Lima (2006), a aplicação dos métodos hierárquicos aglomerativos pode ser sintetizada da seguinte forma: no primeiro estágio cada um dos objetos a serem agrupados é considerado como um agrupamento distinto. Esses objetos (agrupamentos) são então comparados entre si utilizando uma medida de dissimilaridade (por exemplo, a distância euclidiana), unindo-se os dois agrupamentos mais similares. Esse procedimento é repetido sucessivas vezes até atingir o número desejado de agrupamentos. Apenas dois agrupamentos podem ser unidos a cada estágio e, uma vez unidos, tornam-se inseparáveis. Emprega-se uma relação de dissimilaridade entre agrupamentos para compará-los em cada estágio e para decidir quais deles devem ser os próximos a serem unidos. O método de Ward (WARD, 1963), empregado neste estudo, não computa distâncias entre os agrupamentos, ao invés disto, ele forma agrupamentos pela maximização da homogeneidade dentro dos agrupamentos. A soma de quadrados dentro do agrupamento é usada como medida de homogeneidade, ou seja, o método de Ward tenta minimizar a soma total dos quadrados dentro do agrupamento (SHARMA, 1996). 2.3 Ecorregiões aquáticas e suas tipificações De acordo com Dinnerstein et al. (1995), ecorregião é um conjunto de comunidades naturais que compartilham a maioria das suas espécies, dinâmicas e processos ecológicos, apresentando condições ambientais similares. Estudos abordando ecorregiões aquáticas têm sido empreendidos em diversos países com o intuito de aprimorar o entendimento dos ecossistemas aquáticos e subsidiar ações de gestão dos recursos hídricos. Consoante com a divisão mundial das ecorregiões aquáticas (ABELL et al., 2008) e com a Resolução no 32/2003 do Conselho Nacional dos Recursos Hídricos, que estabelece as Regiões Hidrográficas Nacionais, a rede hidrográfica do Estado de Minas Gerais é subdividida em quatro ecorregiões aquáticas: São Francisco, Alto Paraná, Mata Atlântica Nordeste e Paraíba do Sul. Ressalta-se que a bacia do rio das Velhas está inserida na ecorregião São Francisco. Tannús e Scarpel 22 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 O Integrated Assessment System for the Ecological Quality of Streams and Rivers throughout Europe using Benthic Macroinvertebrates (AQEM, 2002) aplica uma abordagem de classificação regional do tipo de curso d’água com base na integração de informações hidrobiológicas, geológicas, geográficas e hidrológicas. Esta tipificação pode ser realizada em um modelo “top-down”, como dividir uma ampla ecorregião em sub-ecorregiões a partir de parâmetros baseados no conhecimento da bacia e na presunção humana, ou um modelo “bottom-up”, onde os resultados de análises ecológicas são utilizados para agrupar os cursos d’água. Os dois modelos são considerados ecologicamente relevantes. AQEM (2002) fornece duas abordagens para o desenvolvimento de tipologias regionais de cursos d’águas: o Sistema A e o Sistema B. No Sistema A os corpos de água superficial são primeiramente diferenciados em ecorregiões de acordo com suas altitudes, área da bacia de drenagem e aspectos geológicos (tipos litológicos). No Sistema B a tipologia dos corpos d’água é diferenciada pelo emprego de cinco descritores obrigatórios (basicamente aqueles do Sistema A) e quinze descritores opcionais que compreendem feições geomorfológicas e hidrológicas mais detalhadas, profundidade e largura dos cursos d’água e outros parâmetros comumente levantados em monitoramentos da qualidade das águas superficiais. Ferreira et al. (2014) promoveram a tipificação das quatro ecorregiões aquáticas que abrangem Minas Gerais empregando o Sistema A de AQEM (2002), ou seja, identificaram em cada ecorregião os grupos de corpos de água com características geográficas e hidrológicas relativamente homogêneas e consideradas relevantes para a determinação das condições ecológicas. 3 MATERIAL E MÉTODOS 3.1 Aplicação do processo KDD A adoção do processo KDD nesta proposição de redimensionamento da rede de monitoramento da qualidade das águas superficiais da bacia do rio das Velhas se pauta pela ênfase desta técnica na busca por padrões compreensíveis em bases de dados que podem ser interpretados como conhecimento útil. O KDD aborda a descoberta de conhecimento de dados em um ambiente interativo com usuário, valorizando o conhecimento prévio sobre o tema em análise (FAYYAD et al., 1996). Neste estudo, a interatividade na interpretação dos resultados foi facilitada e suportada pela confrontação dos padrões obtidos com as classes de tipificação de ecorregiões aquáticas (AQEM, 2002). A Figura 2 sintetiza as etapas de aplicação do processo KDD no presente estudo. Tannús e Scarpel 23 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 Seleção da base de dados: série histórica do monitoramento da bacia do rio das Velhas. Pré-processamento da base de dados: aplicação do conhecimento técnico sobre a composição da série histórica. Transformação da base de dados: padronização dos dados para eliminar efeitos de escala. Mineração de dados: método Ward de análise de agrupamento hierárquico (software R). Avaliação/interpretação dos resultados: confrontação dos agrupamentos de estações com a tipificação da bacia do rio das Uso do conhecimento: discussão com o órgão de controle sobre a proposição de desativação de estações da rede. Figura 2 – Etapas da aplicação do processo KDD. O Instituto Mineiro de Gestão das Águas (IGAM) é órgão responsável pelo monitoramento da qualidade das águas superficiais no Estado de Minas Gerais por meio do desenvolvimento do Projeto Águas de Minas, gerando informações para subsidiar a definição de políticas regionais e setoriais para a preservação e melhoria das condições ambientais. A operação do Projeto Águas de Minas – coleta das amostras e determinações de parâmetros físicoquímicos e biológicos em campo e laboratório – está a cargo do Centro de Inovação e Tecnologia SENAI FIEMG (CITSF), sob contrato com o IGAM. 3.1.1 Base de dados do monitoramento da qualidade das águas superficiais da bacia do Rio das Velhas Neste estudo são avaliados os dados obtidos com a operação das diversas estações de amostragem do Projeto Águas de Minas localizadas na bacia do rio das Velhas. Esta bacia está integralmente inserida no Estado de Minas Gerais, compreendendo uma área de 29.173 km2, abrangendo 51 municípios. A série histórica do monitoramento da qualidade das águas superficiais da bacia do rio das Velhas apresenta resultados de diversos parâmetros físico-químicos e biológicos para 142 estações de amostragem, sendo seis estações em ambientes lênticos e 136 em ambientes lôticos. No contexto da aplicação do processo KDD no presente estudo, seguindo a proposição de Fayyad et al. (1996), essa série histórica de dados do monitoramento da qualidade das águas superficiais da bacia do rio das Tannús e Scarpel 24 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 Velhas representa a criação de um conjunto de dados alvo, ou seja, a seleção de um conjunto de dados sobre o qual a descoberta será executada. 3.1.2 Pré-processamento e transformação da base de dados Na aplicação do processo KDD, o transcurso das etapas de préprocessamento dos dados é marcada por uma interação do usuário. No presente estudo, essa interação é pautada nos seguintes conhecimentos técnicos sobre a composição da série histórica de dados do monitoramento da bacia do rio das Velhas: dinâmica de inserção e exclusão de estações; periodicidade de amostragem nas diversas estações; relação de parâmetros determinados para as amostras de cada estação. Também foi considerado o conhecimento referente à sazonalidade das chuvas na bacia do rio das Velhas e as diferenças hidrológicas entre os ambientes lóticos e lênticos que interferem na qualidade das águas superficiais. A série histórica de dados do monitoramento da bacia do rio das Velhas relaciona 47 parâmetros, 43 de natureza físico-química e 4 biológicos. Não é observada uma homogeneidade nos conjuntos de parâmetros determinados nas diversas estações, no entanto, para o período de 2007 a 2013, tem-se uma constância na determinação de um grupo de 17 parâmetros em praticamente todas as estações. A conclusão do pré-processamento da base de dados consistiu no estabelecimento dos valores médios de cada um daqueles 17 parâmetros nas fases enchente/cheia e vazante/seca, por estação, para o período de monitoramento considerado. Em síntese, a base de dados pré-processada encerra os dados médios de 17 parâmetros para as fases enchente/cheia e vazante/seca de 113 estações, sendo 96 estações com médias do período de 2007 a 2013 e 17 estações com médias do período 2012 a 2013. Ressalta-se que a série histórica de dados disponibilizada pelo IGAM, sobre a qual foram estabelecidos os procedimentos de pré-processamento, é composta por 142 estações. 3.1.3 Aplicação do algoritmo de mineração dos dados Para se avaliar a possibilidade de redução do número de estações de amostragem da qualidade das águas superficiais na bacia do rio das Velhas foi analisada a formação de agrupamentos a partir da base de dados préprocessada (113 estações, médias de 17 parâmetros físico-químicos e biológicos), considerando que quanto menor for a medida de dissimilaridade maior será a semelhança entre as informações obtidas nas estações e, por conseguinte, a possibilidade de constituição de um agrupamento. Para esta abordagem adotou-se, previamente, uma padronização com o intuito de eliminar efeitos de escala. A adoção do método de Ward se justifica pelo fato dele estabelecer agrupamentos pela maximização da homogeneidade dentro dos agrupamentos, não computando distâncias entre os agrupamentos, trazendo, assim, maior aderência à abordagem deste estudo. Conforme já mencionado, a soma de quadrados dentro do agrupamento é usada como medida de similaridade. Esta soma representa o quadrado da distância Euclidiana de Tannús e Scarpel 25 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 cada elemento amostral pertencente ao agrupamento em relação ao correspondente vetor de médias do agrupamento. Todas as análises foram feitas utilizando o software livre R (R DEVELOPMENT CORE TEAM, 2011), sendo gerado um dendograma, ou seja, uma árvore estruturada que representa as relações hierárquicas entre todos os objetos que estão sendo agrupados. 4 RESULTADOS E DISCUSSÃO No dendograma, a altura de cada arco indica a distância ou dissimilaridade que resultou na formação do agrupamento aos quais suas extremidades estão conectadas. Julga-se que bons agrupamentos sejam compactos, de modo que seus elementos apresentem alta similaridade e que a similaridade destes elementos com aqueles de outros agrupamentos seja mínima. Para avaliar esta compactação deve-se analisar a altura dos arcos que formam os agrupamentos, pois quanto menor a altura, mais compactos serão os agrupamentos. Na junção de agrupamentos distintos (pouca similaridade), o arco que os une deve ser maior comparativamente com os arcos de seus sub-agrupamentos (METZ, 2006). Normalmente, a escolha tanto do número de agrupamentos como de sua composição é feita de cima para baixo (do inglês top-down). Contudo, como o objetivo do trabalho é de identificar estações similares para propor a exclusão em casos de grande redundância, a escolha da composição dos agrupamentos foi feita de baixo para cima (do inglês bottom-up). Desta forma, foram identificados 26 agrupamentos, conforme pode ser observado no dendograma apresentado na Figura 3. A Figura 4 apresenta a distribuição espacial das estações componentes de cada agrupamento no mapa da tipificação da bacia do rio das Velhas. Discute-se a seguir a composição dos agrupamentos de estações e os resultados de sua confrontação com as classes de tipificação da bacia do rio das Velhas. Tannús e Scarpel 26 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 Figura 3 – Dendograma da similaridade das estações de amostragem da bacia do rio das Velhas gerado pelo software R. Tannús e Scarpel 27 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 Figura 4 – Espacialização dos agrupamentos e classes de tipificação da bacia do rio das Velhas. Fonte: Ferreira et al. (2014). Tannús e Scarpel 28 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 Dezoito agrupamentos têm todas as suas estações, ou pelo menos três delas, em um único trecho da bacia. No entanto, observa-se que alguns agrupamentos foram formados por estações localizadas em diferentes trechos da bacia do rio das Velhas, distanciados, por vezes, por cerca de centenas de quilômetros. Tal possibilidade de composição de agrupamentos é natural e explicada unicamente por uma similaridade das médias de cada um dos 17 parâmetros físico-químicos e biológicos determinados para as estações consideradas, independentemente do distanciamento entre as mesmas, ou seja, denota simplesmente estações com condições similares de qualidade das águas. Com o intuito de avaliar a possibilidade de reduzir o número de estações de amostragem, foi realizada uma análise sobre os agrupamentos formados e suas distribuições pelas classes de tipificação da bacia. Considerou-se que a possibilidade de exclusão de determinada estação de um agrupamento deverá atender à condição de permanência de uma ou mais estações do mesmo agrupamento na mesma classe de tipificação do trecho considerado da bacia. Caso sejam verificadas mais de uma estação atendendo o critério da tipologia para a desativação, a recomendação de exclusão deverá também considerar a melhor distribuição espacial das estações na bacia, buscando menores distâncias entre estações remanescentes. Pautado nestes critérios a Tabela 1 exemplifica a análise realizada para os agrupamentos 17 a 21, apresentando as possibilidades de exclusão de estações destes agrupamentos considerando as diversas classes de tipificação da bacia do rio das Velhas. Avaliando o agrupamento 17 como exemplo, foi possível estabelecer a proposição de desativação de três estações entre as seis que compõem este agrupamento. A distribuição das estações do agrupamento 17 e sua configuração final atendida a proposição de desativação de estações são observadas na Figura 5. De um modo geral, como resultado deste estudo, 23 estações são passíveis de exclusão, representando cerca de 20% das estações consideradas na base de dados pré-processada. Entre as 23 estações recomendadas para desativação, 14 estão situadas no alto trecho da bacia do rio das Velhas, sendo nove estações posicionadas na tipologia “rochas silicosas acima de 800m”. Entre essas estações do alto trecho do rio das Velhas propostas para a desativação estão seis estações localizadas na bacia de contribuição da Lagoa da Pampulha. Conforme Fayyad et al. (1996), a etapa final do processo é representada pelo uso do conhecimento descoberto. Neste sentido, entende-se que a possibilidade de desativação de 23 estações de monitoramento das águas superficiais da bacia do rio das Velhas deva ser avaliada pelo Instituto Mineiro de Gestão das Águas (IGAM) sob o enfoque de, ao suprimir uma estação, relocar os esforços e recursos financeiros de sua operação para a implantação de novas estações, em locais da própria bacia do rio das Velhas ou em quaisquer outras bacias em território mineiro, no sentido de prover informações úteis para a melhor gestão da qualidade das águas superficiais no Estado de Minas Gerais. 21 20 19 18 17 Agrupa mento Rio das Velhas Rio das Velhas Rio das Velhas Rio das Velhas Rio das Velhas Rio das Velhas BV149 BV146 BV150 BV151 BV152 BV141 Rio das Velhas Rio das Velhas Rio das Velhas Rio das Velhas Rio das Velhas Rio das Velhas Rib. das Neves Rib. da Mata Cór. Munizes BV083 BV105 SC16 BV137 BV138 BV156 BV160 SC21 PV150 Rio das Velhas Rio das Velhas BV148 BV142 Localização Estação Rochas silicosas acima de 800m Rochas silicosas entre 300 e 800m Rochas pelíticas entre 300 e 800m Rochas carbonáticas entre 300 e 800m Rochas silicosas entre 300 e 800m Rochas pelíticas entre 300 e 800m Rochas pelíticas entre 300 e 800m Sedimentos inconsolidados entre 300 e 800m Tipologia da ecorregião Alto Médio Médio Médio Alto Médio Baixo Trecho da bacia 1 1 2 0 3 Número de estações passíveis de exclusão BV160 BV138 SC16 BV083 - BV146 BV148 BV150 Estação recomendada para exclusão As estações BV160 e SC21 estão localizadas na bacia do rib. da Mata em uma mesma tipologia. Sugere-se a exclusão da estação mais a montante (BV160) em razão da existência de outras estações nas imediações. Estando as estações BV137 e BV138 posicionadas ao longo do rio das Velhas em uma mesma tipologia, recomenda-se a exclusão da estação mais de jusante (BV138). Todas as estações estão posicionadas ao longo do rio das Velhas em uma mesma tipologia. É possível descartar duas estações, sendo recomendado manter a estação intermediária BV105. Estando as estações em uma mesma tipologia, seria justificável a exclusão de uma delas. No entanto, não é recomendável a exclusão em razão destas estações estarem distanciadas cerca de 120km ao longo do rio e não se ter nenhuma outra estação intermediária. Todas as estações estão situadas no baixo trecho da bacia do rio das Velhas. As estações BV148 e BV149 estão posicionadas em uma mesma tipologia. Pode-se descartar uma dessas estações, sendo recomendo manter a estação BV149 por ser a estação mais a jusante na bacia do rio das Velhas. As estações BV146, BV150, BV151 e BV152 também estão em uma mesma tipologia, podendo-se descartar duas estações. Adotando um critério de manter uma equidistância entre as estações, sugerese a exclusão das estações BV146 e BV150. Comentário Tannús e Scarpel 29 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 Tabela 1 – Possibilidades de exclusão de estações dos agrupamentos 17, 18, 19, 20 e 21. 30 Tannús e Scarpel Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 (A) (B) Figura 5 – Distribuição das estações do agrupamento 17 indicadas por círculos (A) e a configuração considerando a proposição de desativação de 3 estações (B). 5 CONCLUSÕES A aplicação do processo KDD na avaliação da rede de monitoramento da qualidade das águas superficiais da bacia do rio das Velhas, empregando a conceituação de tipologias de ecorregiões aquáticas para a interpretação dos padrões gerados pelo algoritmo de mineração de dados, apresentou consistência diante do conhecimento já estabelecido para a bacia e permitiu a proposição de redução do número de estações de amostragem. A aplicação da técnica de agrupamento hierárquico, pelo método Ward, mostrou-se adequada para os objetivos propostos para este estudo. Creditase o sucesso desta aplicação do processo KDD à apropriação no tratamento e pré-processamento da base de dados do conhecimento já estabelecido sobre a bacia e sobre os procedimentos operacionais do monitoramento, da consistência da série de dados considerada e, principalmente, pela adoção das classes de tipificação de ecorregiões aquáticas na interpretação dos padrões estabelecidos pelo algoritmo de mineração de dados. Agradecimentos Ao Instituto Mineiro de Gestão das Águas (IGAM), à Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG), à Companhia Energética de Minas Gerais (CEMIG) e à Agência Nacional de Energia Tannús e Scarpel 31 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 Elétrica (ANEEL) pela disponibilização de informações imprescindíveis para o presente estudo. REFERÊNCIAS BIBLIOGRÁFICAS ABELL et al. Freswater ecoregions of the world. A new map of biogeographic. Units for Freshwater biodiversity Conservation. BioScience. v.58, n.5, p.403-414, 2008. ANA - AGÊNCIA NACIONAL DE ÁGUAS. Portal da Qualidade das Águas. Disponível em: <http://pnqa.ana.gov.br/rede/rede_monitoramento.aspx>. Acesso em: 18 abr. 2014. AQEM - ASSESSMENT SYSTEM FOR THE ECOLOGICAL QUALITY OF STREAMS AND RIVERS THROUGHOUT EUROPE USING BENTHIC MACROINVERTEBRATE. Manual for the Application of the AQEM System: a comprehensive method to assess european streams using benthic macroinvertebrates, developed for the purpose of the water framework directive. Version 1.0. February 2002. Disponível em: <http://www.aqem.de/mains/products.php >. Acesso em: 01 mai. 2014. DINNERSTEIN, E. et al. A conservation assessment of the terrestrial ecoregions of Latin America and the Caribbean. The World Bank, Washington, DC, USA. 1995. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM , v.39, n.11, p.27– 3, nov. 1996. FERREIRA, H. L. M. et al. Utilização de Índice de Integridade Ecológica para Classificar a Qualidade de Ambientes Aquáticos de Minas Gerais: 3º Relatório de Atividades. Belo Horizonte: Centro de Tecnologia Senai Cetec, 2014. HAN, J. e KAMBER, M. Data Mining: Concepts and Techiniques, 1. ed., New York: Morgan Kaufmann, 2001. METZ, J. Interpretação de clusters gerados por algoritmos de clustering hierárquico. 2006. 165f. Dissertação (Mestre em Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo, São Carlos. MINGOTI, S. A. Análise de Dados Através de Métodos de Estatística Multivariada: uma abordagem aplicada. Belo Horizonte: Editora UFMG, 297 p. 2005. MINGOTI, S. A.; LIMA, J. O. Comparing SOM neural network with Fuzzy cmeans, K-means and traditional hierarchical clustering algorithms. European Journal of Operational Research, v.174, n.3, p.1742-1759, 2006. R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. 2011. SHARMA, S. Applied multivariate techniques. New Jersey: John Wiley & Sons, 1996. Tannús e Scarpel 32 Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014 WARD, J. H. Hierarchical grouping to optimize an objective function. American Statistical Association Journal, v. 58, n. 301, p. 236-244, 1963.