revista gestão em engenharia

Propaganda
18
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
REVISTA GESTÃO EM ENGENHARIA
CGE
ISSN 2359-3989
homepage: www.mec.ita.br/~cge/RGE.html
Aquisição de conhecimento de bases de dados para
redimensionamento da rede de monitoramento da qualidade das
águas superficiais da bacia do Rio das Velhas
Marcos Bartasson Tannús*1, Rodrigo Arnaldo Scarpel2
1
Centro de Inovação e Tecnologia SENAI FIEMG – Campus CETEC, Av. José Cândido da
Silveira, 2000, Belo Horizonte/MG, Brasil
2 Instituto Tecnológico de Aeronáutica - Praça Marechal Eduardo Gomes, 50 - São José dos
Campos/SP, Brasil
RESUMO: A operação de redes de monitoramento da qualidade das águas
superficiais com elevado número de estações de coleta e determinação de
dezenas de parâmetros físico-químicos e biológicos é bastante onerosa,
sendo constante a discussão sobre o redimensionamento destas redes. Neste
estudo foram empregados os procedimentos do processo Knowledge
Discovery in Databases – KDD, associado à conceituação de ecorregiões
aquáticas, na avaliação das informações obtidas com a operação da rede de
monitoramento da qualidade das águas superficiais da bacia do rio das
Velhas, Estado de Minas Gerais. A análise contemplou uma base de dados
composta por 113 estações de amostragem, com informações de 17
parâmetros físico-químicos e biológicos no período de 2007-2013. Seguindo
as etapas do processo KDD, aplicando um algoritmo de mineração de dados
para identificação de agrupamentos por similaridade e interpretação dos
padrões pautada na tipificação de aspectos físicos da bacia, recomenda-se a
desativação de 23 estações de amostragem.
Palavras-chave: Ecorregiões
Mineração de Dados.
*Autor correspondente:
[email protected]
aquáticas.
Formação
de
agrupamentos.
Tannús e Scarpel
19
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
Knowledge Discovery in Databases in water quality monitoring network
optimization for the Velhas River basin
ABSTRACT: The water quality monitoring operation network involves a large
number of data sampling stations and dozens of physical, chemical and
biological parameters. The optimization procedures for water quality
monitoring network has been extensively studied. The aim of this study is to
optimize quality monitoring network by Knowledge Discovery in Databases
(KDD) procedure associated with aquatic ecoregions concept. Data collected
by the surface water quality monitoring network of the Velhas river basin, in
Minas Gerais State, Brazil, was analysed. The data analysis included a
database of 113 data collection stations, 17 physico-chemical and biological
parameters, which represented the region for the 2007-2013 period.
Following KDD steps, using data mining algorithm application (grouping by
similarity) and pattern identification guided by the physical typologies of the
basin, it was possible to establish the recommendation to shutdown 23 data
sampling stations.
Keywords: Aquatic ecoregions. Clustering. Data mining.
1 INTRODUÇÃO
O monitoramento da qualidade das águas naturais representa um
conjunto de práticas de coletas de dados e amostras de água em locais
específicos, em intervalos regulares de tempo, visando o acompanhamento
das alterações nas características físicas, químicas e biológicas da água,
decorrentes de atividades antrópicas e de fenômenos naturais (ANA, 2014).
Para se avaliar a dinâmica das alterações ambientais decorrentes das
ações antrópicas e de fenômenos naturais que impactam os recursos
hídricos, diversos órgãos públicos e empresas privadas desenvolvem amplos
projetos de monitoramento da qualidade da água. Esses monitoramentos
demandam constantes avaliações sobre o arranjo adequado das estações de
amostragem, a periodicidade de amostragem e os parâmetros a serem
determinados. Comumente, as discussões estão centradas em como obter
melhores informações para a gestão dos recursos hídricos tendo em vista os
recursos técnicos e financeiros disponíveis.
Neste contexto, torna-se imprescindível uma interpretação da expressiva
carga de dados gerada com os monitoramentos em curso, alguns com séries
históricas de décadas, com o intuito de avaliar se os resultados analíticos
conduzem ou repetem, sistematicamente, uma condição de qualidade
ambiental que poderia ser identificada com segurança a partir de um esforço
amostral menor, com consequente redução dos dispêndios financeiros.
Este trabalho teve por objetivo avaliar a existência de similaridade nos
dados analíticos obtidos com a operação da rede de monitoramento da
qualidade das águas superficiais da bacia do rio das Velhas, no Estado de
Minas Gerais, empregando o processo Knowledge Discovery in Databases
(KDD), conjuntamente com análise de classes de tipificação de ecorregiões
Tannús e Scarpel
20
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
aquáticas, com o intuito de verificar a possibilidade de reduzir o número de
estações de amostragem.
2 REFERENCIAL TEÓRICO
2.1 O processo Knowledge Discovery in Databases (KDD)
O KDD é um processo de descoberta de conhecimento útil em uma
coleção de dados. Fayyad et al. (1996) definem o KDD como sendo um
processo não trivial de identificação de padrões válido, original,
potencialmente útil e fundamentalmente compreensível em dados.
Ressaltam, ainda, que o processo KDD é interativo e iterativo, com muitas
decisões pelo usuário. A Figura 1 apresenta uma ilustração das etapas do
processo KDD.
Fonte: Modificado de Fayyad et al. (1996).
Figura 1 – Representação das etapas constituintes do processo KDD.
A mineração de dados é um passo no processo KDD que consiste em
uma enumeração de padrões (ou modelos) sobre os dados. A mineração de
dados envolve os modelos de revelação ou determinação de padrões de dados
observados. Um grande número e variedade de algoritmos de mineração de
dados são descritos na literatura a partir das áreas estatística,
reconhecimento de padrões, aprendizagem de máquina e banco de dados. As
funções modelos mais comuns abordadas por esses algoritmos são:
classificação, regressão, agrupamento, sumarização, modelagem de
dependência, análise de correlação, análise sequencial (FAYYAD et al., 1996,
Han e Kamber, 2001).
A função agrupamento mapeia um item de dados em uma das várias
classes categóricas que são determinadas a partir dos dados. Este estudo
empregou a função agrupamento na etapa de mineração de dados.
2.2 Análise de agrupamentos
Sharma (1996) define a análise de agrupamentos como uma técnica útil
para a identificação de grupos de entidades ou assuntos que são similares
entre si no que diz respeito a certas características. Análise de
agrupamentos é uma técnica usada para combinar observações em grupos
Tannús e Scarpel
21
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
tais que cada grupo seja homogêneo ou compacto com respeito a certas
características e que cada grupo deva ser diferente de outros grupos com
respeito às mesmas características. A definição de homogeneidade varia de
análise para análise e depende do objetivo do estudo.
Mingoti (2005) expressa que a partição desejada é aquela que produz
grupos os mais heterogêneos possíveis e de forma que os elementos dentro
de cada grupo sejam homogêneos.
Segundo Sharma (1996), a primeira etapa na análise de agrupamentos é
selecionar a medida de similaridade. A segunda etapa se refere à decisão
sobre o tipo de técnica de agrupamento a ser empregada (por exemplo,
agrupamento hierárquico ou não-hierárquico). Na terceira etapa é
selecionado o método de agrupamento para aplicação da técnica selecionada
(por exemplo, o método centroide na técnica de agrupamento hierárquico) e
na quarta etapa é tomada uma decisão sobre o número de agrupamentos. A
etapa final se refere à interpretação dos agrupamentos obtidos.
Conforme Mingoti e Lima (2006), a aplicação dos métodos hierárquicos
aglomerativos pode ser sintetizada da seguinte forma: no primeiro estágio
cada um dos objetos a serem agrupados é considerado como um
agrupamento distinto. Esses objetos (agrupamentos) são então comparados
entre si utilizando uma medida de dissimilaridade (por exemplo, a distância
euclidiana), unindo-se os dois agrupamentos mais similares. Esse
procedimento é repetido sucessivas vezes até atingir o número desejado de
agrupamentos. Apenas dois agrupamentos podem ser unidos a cada estágio
e, uma vez unidos, tornam-se inseparáveis. Emprega-se uma relação de
dissimilaridade entre agrupamentos para compará-los em cada estágio e
para decidir quais deles devem ser os próximos a serem unidos.
O método de Ward (WARD, 1963), empregado neste estudo, não
computa distâncias entre os agrupamentos, ao invés disto, ele forma
agrupamentos pela maximização da homogeneidade dentro dos
agrupamentos. A soma de quadrados dentro do agrupamento é usada como
medida de homogeneidade, ou seja, o método de Ward tenta minimizar a
soma total dos quadrados dentro do agrupamento (SHARMA, 1996).
2.3
Ecorregiões aquáticas e suas tipificações
De acordo com Dinnerstein et al. (1995), ecorregião é um conjunto de
comunidades naturais que compartilham a maioria das suas espécies,
dinâmicas e processos ecológicos, apresentando condições ambientais
similares. Estudos abordando ecorregiões aquáticas têm sido empreendidos
em diversos países com o intuito de aprimorar o entendimento dos
ecossistemas aquáticos e subsidiar ações de gestão dos recursos hídricos.
Consoante com a divisão mundial das ecorregiões aquáticas (ABELL et al.,
2008) e com a Resolução no 32/2003 do Conselho Nacional dos Recursos
Hídricos, que estabelece as Regiões Hidrográficas Nacionais, a rede
hidrográfica do Estado de Minas Gerais é subdividida em quatro ecorregiões
aquáticas: São Francisco, Alto Paraná, Mata Atlântica Nordeste e Paraíba do
Sul. Ressalta-se que a bacia do rio das Velhas está inserida na ecorregião
São Francisco.
Tannús e Scarpel
22
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
O Integrated Assessment System for the Ecological Quality of Streams
and Rivers throughout Europe using Benthic Macroinvertebrates (AQEM, 2002)
aplica uma abordagem de classificação regional do tipo de curso d’água com
base na integração de informações hidrobiológicas, geológicas, geográficas e
hidrológicas. Esta tipificação pode ser realizada em um modelo “top-down”,
como dividir uma ampla ecorregião em sub-ecorregiões a partir de
parâmetros baseados no conhecimento da bacia e na presunção humana, ou
um modelo “bottom-up”, onde os resultados de análises ecológicas são
utilizados para agrupar os cursos d’água. Os dois modelos são considerados
ecologicamente relevantes.
AQEM (2002) fornece duas abordagens para o desenvolvimento de
tipologias regionais de cursos d’águas: o Sistema A e o Sistema B. No
Sistema A os corpos de água superficial são primeiramente diferenciados em
ecorregiões de acordo com suas altitudes, área da bacia de drenagem e
aspectos geológicos (tipos litológicos). No Sistema B a tipologia dos corpos
d’água é diferenciada pelo emprego de cinco descritores obrigatórios
(basicamente aqueles do Sistema A) e quinze descritores opcionais que
compreendem feições geomorfológicas e hidrológicas mais detalhadas,
profundidade e largura dos cursos d’água e outros parâmetros comumente
levantados em monitoramentos da qualidade das águas superficiais.
Ferreira et al. (2014) promoveram a tipificação das quatro ecorregiões
aquáticas que abrangem Minas Gerais empregando o Sistema A de AQEM
(2002), ou seja, identificaram em cada ecorregião os grupos de corpos de
água com características geográficas e hidrológicas relativamente
homogêneas e consideradas relevantes para a determinação das condições
ecológicas.
3 MATERIAL E MÉTODOS
3.1 Aplicação do processo KDD
A adoção do processo KDD nesta proposição de redimensionamento da
rede de monitoramento da qualidade das águas superficiais da bacia do rio
das Velhas se pauta pela ênfase desta técnica na busca por padrões
compreensíveis em bases de dados que podem ser interpretados como
conhecimento útil. O KDD aborda a descoberta de conhecimento de dados
em um ambiente interativo com usuário, valorizando o conhecimento prévio
sobre o tema em análise (FAYYAD et al., 1996). Neste estudo, a
interatividade na interpretação dos resultados foi facilitada e suportada pela
confrontação dos padrões obtidos com as classes de tipificação de
ecorregiões aquáticas (AQEM, 2002). A Figura 2 sintetiza as etapas de
aplicação do processo KDD no presente estudo.
Tannús e Scarpel
23
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
Seleção da base de dados: série histórica do monitoramento da
bacia do rio das Velhas.
Pré-processamento da base de dados: aplicação do conhecimento
técnico sobre a composição da série histórica.
Transformação da base de dados: padronização dos dados para
eliminar efeitos de escala.
Mineração de dados: método Ward de análise de agrupamento
hierárquico (software R).
Avaliação/interpretação dos resultados: confrontação dos
agrupamentos de estações com a tipificação da bacia do rio das
Uso do conhecimento: discussão com o órgão de controle sobre a
proposição de desativação de estações da rede.
Figura 2 – Etapas da aplicação do processo KDD.
O Instituto Mineiro de Gestão das Águas (IGAM) é órgão responsável
pelo monitoramento da qualidade das águas superficiais no Estado de Minas
Gerais por meio do desenvolvimento do Projeto Águas de Minas, gerando
informações para subsidiar a definição de políticas regionais e setoriais para
a preservação e melhoria das condições ambientais. A operação do Projeto
Águas de Minas – coleta das amostras e determinações de parâmetros físicoquímicos e biológicos em campo e laboratório – está a cargo do Centro de
Inovação e Tecnologia SENAI FIEMG (CITSF), sob contrato com o IGAM.
3.1.1 Base de dados do monitoramento da qualidade das águas superficiais
da bacia do Rio das Velhas
Neste estudo são avaliados os dados obtidos com a operação das
diversas estações de amostragem do Projeto Águas de Minas localizadas na
bacia do rio das Velhas. Esta bacia está integralmente inserida no Estado de
Minas Gerais, compreendendo uma área de 29.173 km2, abrangendo 51
municípios. A série histórica do monitoramento da qualidade das águas
superficiais da bacia do rio das Velhas apresenta resultados de diversos
parâmetros físico-químicos e biológicos para 142 estações de amostragem,
sendo seis estações em ambientes lênticos e 136 em ambientes lôticos.
No contexto da aplicação do processo KDD no presente estudo,
seguindo a proposição de Fayyad et al. (1996), essa série histórica de dados
do monitoramento da qualidade das águas superficiais da bacia do rio das
Tannús e Scarpel
24
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
Velhas representa a criação de um conjunto de dados alvo, ou seja, a seleção
de um conjunto de dados sobre o qual a descoberta será executada.
3.1.2 Pré-processamento e transformação da base de dados
Na aplicação do processo KDD, o transcurso das etapas de préprocessamento dos dados é marcada por uma interação do usuário. No
presente estudo, essa interação é pautada nos seguintes conhecimentos
técnicos sobre a composição da série histórica de dados do monitoramento
da bacia do rio das Velhas: dinâmica de inserção e exclusão de estações;
periodicidade de amostragem nas diversas estações; relação de parâmetros
determinados para as amostras de cada estação. Também foi considerado o
conhecimento referente à sazonalidade das chuvas na bacia do rio das
Velhas e as diferenças hidrológicas entre os ambientes lóticos e lênticos que
interferem na qualidade das águas superficiais.
A série histórica de dados do monitoramento da bacia do rio das Velhas
relaciona 47 parâmetros, 43 de natureza físico-química e 4 biológicos. Não é
observada uma homogeneidade nos conjuntos de parâmetros determinados
nas diversas estações, no entanto, para o período de 2007 a 2013, tem-se
uma constância na determinação de um grupo de 17 parâmetros em
praticamente todas as estações.
A conclusão do pré-processamento da base de dados consistiu no
estabelecimento dos valores médios de cada um daqueles 17 parâmetros nas
fases enchente/cheia e vazante/seca, por estação, para o período de
monitoramento considerado.
Em síntese, a base de dados pré-processada encerra os dados médios de
17 parâmetros para as fases enchente/cheia e vazante/seca de 113 estações,
sendo 96 estações com médias do período de 2007 a 2013 e 17 estações com
médias do período 2012 a 2013. Ressalta-se que a série histórica de dados
disponibilizada pelo IGAM, sobre a qual foram estabelecidos os
procedimentos de pré-processamento, é composta por 142 estações.
3.1.3 Aplicação do algoritmo de mineração dos dados
Para se avaliar a possibilidade de redução do número de estações de
amostragem da qualidade das águas superficiais na bacia do rio das Velhas
foi analisada a formação de agrupamentos a partir da base de dados préprocessada (113 estações, médias de 17 parâmetros físico-químicos e
biológicos), considerando que quanto menor for a medida de dissimilaridade
maior será a semelhança entre as informações obtidas nas estações e, por
conseguinte, a possibilidade de constituição de um agrupamento. Para esta
abordagem adotou-se, previamente, uma padronização com o intuito de
eliminar efeitos de escala.
A adoção do método de Ward se justifica pelo fato dele estabelecer
agrupamentos pela maximização da homogeneidade dentro dos
agrupamentos, não computando distâncias entre os agrupamentos, trazendo,
assim, maior aderência à abordagem deste estudo. Conforme já mencionado,
a soma de quadrados dentro do agrupamento é usada como medida de
similaridade. Esta soma representa o quadrado da distância Euclidiana de
Tannús e Scarpel
25
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
cada elemento amostral pertencente ao agrupamento em relação ao
correspondente vetor de médias do agrupamento. Todas as análises foram
feitas utilizando o software livre R (R DEVELOPMENT CORE TEAM, 2011),
sendo gerado um dendograma, ou seja, uma árvore estruturada que
representa as relações hierárquicas entre todos os objetos que estão sendo
agrupados.
4 RESULTADOS E DISCUSSÃO
No dendograma, a altura de cada arco indica a distância ou
dissimilaridade que resultou na formação do agrupamento aos quais suas
extremidades estão conectadas. Julga-se que bons agrupamentos sejam
compactos, de modo que seus elementos apresentem alta similaridade e que
a similaridade destes elementos com aqueles de outros agrupamentos seja
mínima. Para avaliar esta compactação deve-se analisar a altura dos arcos
que formam os agrupamentos, pois quanto menor a altura, mais compactos
serão os agrupamentos. Na junção de agrupamentos distintos (pouca
similaridade), o arco que os une deve ser maior comparativamente com os
arcos de seus sub-agrupamentos (METZ, 2006).
Normalmente, a escolha tanto do número de agrupamentos como de sua
composição é feita de cima para baixo (do inglês top-down). Contudo, como o
objetivo do trabalho é de identificar estações similares para propor a
exclusão em casos de grande redundância, a escolha da composição dos
agrupamentos foi feita de baixo para cima (do inglês bottom-up). Desta forma,
foram identificados 26 agrupamentos, conforme pode ser observado no
dendograma apresentado na Figura 3.
A Figura 4 apresenta a distribuição espacial das estações componentes
de cada agrupamento no mapa da tipificação da bacia do rio das Velhas.
Discute-se a seguir a composição dos agrupamentos de estações e os
resultados de sua confrontação com as classes de tipificação da bacia do rio
das Velhas.
Tannús e Scarpel
26
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
Figura 3 – Dendograma da similaridade das estações de amostragem
da bacia do rio das Velhas gerado pelo software R.
Tannús e Scarpel
27
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
Figura 4 – Espacialização dos agrupamentos e classes de tipificação da bacia
do rio das Velhas. Fonte: Ferreira et al. (2014).
Tannús e Scarpel
28
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
Dezoito agrupamentos têm todas as suas estações, ou pelo menos três
delas, em um único trecho da bacia. No entanto, observa-se que alguns
agrupamentos foram formados por estações localizadas em diferentes
trechos da bacia do rio das Velhas, distanciados, por vezes, por cerca de
centenas de quilômetros. Tal possibilidade de composição de agrupamentos
é natural e explicada unicamente por uma similaridade das médias de cada
um dos 17 parâmetros físico-químicos e biológicos determinados para as
estações consideradas, independentemente do distanciamento entre as
mesmas, ou seja, denota simplesmente estações com condições similares de
qualidade das águas.
Com o intuito de avaliar a possibilidade de reduzir o número de estações
de amostragem, foi realizada uma análise sobre os agrupamentos formados e
suas distribuições pelas classes de tipificação da bacia. Considerou-se que a
possibilidade de exclusão de determinada estação de um agrupamento
deverá atender à condição de permanência de uma ou mais estações do
mesmo agrupamento na mesma classe de tipificação do trecho considerado
da bacia. Caso sejam verificadas mais de uma estação atendendo o critério
da tipologia para a desativação, a recomendação de exclusão deverá também
considerar a melhor distribuição espacial das estações na bacia, buscando
menores distâncias entre estações remanescentes. Pautado nestes critérios a
Tabela 1 exemplifica a análise realizada para os agrupamentos 17 a 21,
apresentando as possibilidades de exclusão de estações destes
agrupamentos considerando as diversas classes de tipificação da bacia do rio
das Velhas.
Avaliando o agrupamento 17 como exemplo, foi possível estabelecer a
proposição de desativação de três estações entre as seis que compõem este
agrupamento. A distribuição das estações do agrupamento 17 e sua
configuração final atendida a proposição de desativação de estações são
observadas na Figura 5.
De um modo geral, como resultado deste estudo, 23 estações são
passíveis de exclusão, representando cerca de 20% das estações
consideradas na base de dados pré-processada. Entre as 23 estações
recomendadas para desativação, 14 estão situadas no alto trecho da bacia
do rio das Velhas, sendo nove estações posicionadas na tipologia “rochas
silicosas acima de 800m”. Entre essas estações do alto trecho do rio das
Velhas propostas para a desativação estão seis estações localizadas na bacia
de contribuição da Lagoa da Pampulha.
Conforme Fayyad et al. (1996), a etapa final do processo é representada
pelo uso do conhecimento descoberto. Neste sentido, entende-se que a
possibilidade de desativação de 23 estações de monitoramento das águas
superficiais da bacia do rio das Velhas deva ser avaliada pelo Instituto
Mineiro de Gestão das Águas (IGAM) sob o enfoque de, ao suprimir uma
estação, relocar os esforços e recursos financeiros de sua operação para a
implantação de novas estações, em locais da própria bacia do rio das Velhas
ou em quaisquer outras bacias em território mineiro, no sentido de prover
informações úteis para a melhor gestão da qualidade das águas superficiais
no Estado de Minas Gerais.
21
20
19
18
17
Agrupa
mento
Rio das Velhas
Rio das Velhas
Rio das Velhas
Rio das Velhas
Rio das Velhas
Rio das Velhas
BV149
BV146
BV150
BV151
BV152
BV141
Rio das Velhas
Rio das Velhas
Rio das Velhas
Rio das Velhas
Rio das Velhas
Rio das Velhas
Rib. das Neves
Rib. da Mata
Cór. Munizes
BV083
BV105
SC16
BV137
BV138
BV156
BV160
SC21
PV150
Rio das Velhas
Rio das Velhas
BV148
BV142
Localização
Estação
Rochas silicosas
acima de 800m
Rochas silicosas
entre 300 e 800m
Rochas pelíticas
entre 300 e 800m
Rochas carbonáticas
entre 300 e 800m
Rochas silicosas
entre 300 e 800m
Rochas pelíticas
entre 300 e 800m
Rochas pelíticas
entre 300 e 800m
Sedimentos
inconsolidados entre
300 e 800m
Tipologia da
ecorregião
Alto
Médio
Médio
Médio
Alto
Médio
Baixo
Trecho da
bacia
1
1
2
0
3
Número de
estações
passíveis de
exclusão
BV160
BV138
SC16
BV083
-
BV146
BV148
BV150
Estação
recomendada
para exclusão
As estações BV160 e SC21 estão
localizadas na bacia do rib. da Mata em
uma mesma tipologia. Sugere-se a
exclusão da estação mais a montante
(BV160) em razão da existência de
outras estações nas imediações.
Estando as estações BV137 e BV138
posicionadas ao longo do rio das Velhas
em uma mesma tipologia, recomenda-se
a exclusão da estação mais de jusante
(BV138).
Todas as estações estão posicionadas ao
longo do rio das Velhas em uma mesma
tipologia. É possível descartar duas
estações, sendo recomendado manter a
estação intermediária BV105.
Estando as estações em uma mesma
tipologia, seria justificável a exclusão
de uma delas. No entanto, não é
recomendável a exclusão em razão
destas estações estarem distanciadas
cerca de 120km ao longo do rio e não se
ter nenhuma outra estação
intermediária.
Todas as estações estão situadas no
baixo trecho da bacia do rio das Velhas.
As estações BV148 e BV149 estão
posicionadas em uma mesma tipologia.
Pode-se descartar uma dessas estações,
sendo recomendo manter a estação
BV149 por ser a estação mais a jusante
na bacia do rio das Velhas. As estações
BV146, BV150, BV151 e BV152
também estão em uma mesma tipologia,
podendo-se descartar duas estações.
Adotando um critério de manter uma
equidistância entre as estações, sugerese a exclusão das estações BV146 e
BV150.
Comentário
Tannús e Scarpel
29
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
Tabela 1 – Possibilidades de exclusão de estações dos agrupamentos 17, 18,
19, 20 e 21.
30
Tannús e Scarpel
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
(A)
(B)
Figura 5 – Distribuição das estações do agrupamento 17 indicadas por
círculos (A) e a configuração considerando a proposição de desativação de 3
estações (B).
5 CONCLUSÕES
A aplicação do processo KDD na avaliação da rede de monitoramento da
qualidade das águas superficiais da bacia do rio das Velhas, empregando a
conceituação de tipologias de ecorregiões aquáticas para a interpretação dos
padrões gerados pelo algoritmo de mineração de dados, apresentou
consistência diante do conhecimento já estabelecido para a bacia e permitiu
a proposição de redução do número de estações de amostragem.
A aplicação da técnica de agrupamento hierárquico, pelo método Ward,
mostrou-se adequada para os objetivos propostos para este estudo. Creditase o sucesso desta aplicação do processo KDD à apropriação no tratamento e
pré-processamento da base de dados do conhecimento já estabelecido sobre
a bacia e sobre os procedimentos operacionais do monitoramento, da
consistência da série de dados considerada e, principalmente, pela adoção
das classes de tipificação de ecorregiões aquáticas na interpretação dos
padrões estabelecidos pelo algoritmo de mineração de dados.
Agradecimentos
Ao Instituto Mineiro de Gestão das Águas (IGAM), à Fundação de
Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG), à Companhia
Energética de Minas Gerais (CEMIG) e à Agência Nacional de Energia
Tannús e Scarpel
31
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
Elétrica (ANEEL) pela disponibilização de informações imprescindíveis para o
presente estudo.
REFERÊNCIAS BIBLIOGRÁFICAS
ABELL et al. Freswater ecoregions of the world. A new map of biogeographic.
Units for Freshwater biodiversity Conservation. BioScience. v.58, n.5,
p.403-414, 2008.
ANA - AGÊNCIA NACIONAL DE ÁGUAS. Portal da Qualidade das Águas.
Disponível em: <http://pnqa.ana.gov.br/rede/rede_monitoramento.aspx>.
Acesso em: 18 abr. 2014.
AQEM - ASSESSMENT SYSTEM FOR THE ECOLOGICAL QUALITY OF
STREAMS AND RIVERS THROUGHOUT EUROPE USING BENTHIC
MACROINVERTEBRATE. Manual for the Application of the AQEM
System: a comprehensive method to assess european streams using
benthic macroinvertebrates, developed for the purpose of the water
framework directive. Version 1.0. February 2002. Disponível em:
<http://www.aqem.de/mains/products.php >. Acesso em: 01 mai. 2014.
DINNERSTEIN, E. et al. A conservation assessment of the terrestrial
ecoregions of Latin America and the Caribbean. The World Bank,
Washington, DC, USA. 1995.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for
extracting useful knowledge from volumes of data. Communications of the
ACM , v.39, n.11, p.27– 3, nov. 1996.
FERREIRA, H. L. M. et al. Utilização de Índice de Integridade Ecológica
para Classificar a Qualidade de Ambientes Aquáticos de Minas Gerais:
3º Relatório de Atividades. Belo Horizonte: Centro de Tecnologia Senai
Cetec, 2014.
HAN, J. e KAMBER, M. Data Mining: Concepts and Techiniques, 1. ed.,
New York: Morgan Kaufmann, 2001.
METZ, J. Interpretação de clusters gerados por algoritmos de clustering
hierárquico. 2006. 165f. Dissertação (Mestre em Ciências de
Computação e Matemática Computacional) – Instituto de Ciências
Matemáticas e de Computação da Universidade de São Paulo, São Carlos.
MINGOTI, S. A. Análise de Dados Através de Métodos de Estatística
Multivariada: uma abordagem aplicada. Belo Horizonte: Editora UFMG,
297 p. 2005.
MINGOTI, S. A.; LIMA, J. O. Comparing SOM neural network with Fuzzy cmeans, K-means and traditional hierarchical clustering algorithms.
European Journal of Operational Research, v.174, n.3, p.1742-1759,
2006.
R DEVELOPMENT CORE TEAM. R: A language and environment for
statistical computing. R Foundation for Statistical Computing, Vienna,
Austria. 2011.
SHARMA, S. Applied multivariate techniques. New Jersey: John Wiley &
Sons, 1996.
Tannús e Scarpel
32
Revista Gestão em Engenharia, São José dos Campos, v.1, n.1, p.18-32, jul./dez. 2014
WARD, J. H. Hierarchical grouping to optimize an objective function.
American Statistical Association Journal, v. 58, n. 301, p. 236-244,
1963.
Download