técnicas de mineração de dados na classificação de ecotoxicidade

Propaganda
8 e 9 de junho de 2012
ISSN 1984-9354
TÉCNICAS DE MINERAÇÃO DE DADOS
NA CLASSIFICAÇÃO DE
ECOTOXICIDADE DE ÁGUA PARA
APLICAÇÃO NA GESTÃO DE CORPOS
HÍDRICOS
Leonardo Bertholdo
(Faculdade de Tecnologia - Universidade Estadual de Campinas
(Unicamp); Fundação Centro de Pesquisa e Desenvolvimento em
Telecomunicações (CPqD))
Celmar Guimarães da Silva
(Faculdade de Tecnologia - Universidade Estadual de Campinas
(Unicamp))
Gisela de Aragão Umbuzeiro
(Faculdade de Tecnologia - Universidade Estadual de Campinas
(Unicamp))
Luiz Camolesi Júnior
(Faculdade de Tecnologia - Universidade Estadual de Campinas
(Unicamp))
Resumo
Dentre as diversas formas de ação que promovem a sustentabilidade, a
inovação tecnológica pode ser considerada uma das mais importantes.
Neste trabalho são aplicadas técnicas de mineração de dados na
descoberta de conhecimento no domínio dee dados de monitoramento
de qualidade de água, para prover subsídios úteis e relevantes que
auxiliem na tomada de decisão em sistemas de gestão ambiental. No
estágio atual da pesquisa, está sendo utilizada uma técnica de
modelagem previsiva conhecida como classificação baseada em
regras, onde o objetivo é descobrir regras que possam, com base nos
valores de determinados parâmetros químicos, prever o nível de
ecotoxicidade de uma amostra de água. Foram utilizados dados
referentes a análises de água dos principais corpos hídricos do estado
de São Paulo, realizadas entre os anos de 2005 e 2010. Espera-se
obter uma forma confiável, rápida e eficaz para predizer os níveis de
ecotoxicidade de água em rios, lagos e reservatórios com base em
análises de parâmetros químicos, ou indicar a complementaridade
dessas medições em busca da otimização das redes de monitoramento e
consequente melhoria da gestão dos recursos naturais.
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Palavras-chaves: Monitoramento de qualidade de água, Gestão de
recursos hídricos, Descoberta de conhecimento em bases de dados,
Mineração de dados.
2
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
1. Introdução
A água é um elemento essencial para a existência e a manutenção da vida, uma vez
que é o principal componente dos organismos vivos. No contexto humano, além de
possibilitar nossa sobrevivência, a água também viabiliza um amplo espectro de atividades,
tais como abastecimento público e industrial, irrigação agrícola, produção de energia elétrica e
atividades de lazer e recreação. Não obstante a esta realidade, a expansão demográfica e
industrial das últimas décadas vem ocasionando o comprometimento de muitos corpos
hídricos, como rios, lagos e reservatórios. Vale destacar ainda que a água doce é um recurso
natural limitado pelo alto custo da sua obtenção a partir de formas menos convencionais,
como as águas marinhas e subterrâneas. Sendo assim, o uso racional e o controle de qualidade
das águas doces é de fundamental relevância para preservação deste bem (Alves et al., 2008).
Atualmente, a Companhia Ambiental do estado de São Paulo (CETESB) é responsável
pelo monitoramento e levantamento de informações sobre a qualidade das águas dos corpos
hídricos deste estado. Para isso, mantém quase 350 pontos fixos de coleta de amostras, os
quais são localizados ao longo dos corpos hídricos monitorados. Cada amostra é analisada sob
aspectos físicos, químicos e biológicos, formando um conjunto de dados rico em informações
relativas às condições ambientais destes corpos hídricos (CETESB, 2011).
A avaliação individual destes dados pode não proporcionar descobertas relevantes,
tornando indispensáveis metodologias que permitam sintetizar os números levantados em
informações compreensíveis e significativas, viabilizando a inferência da sustentabilidade
ambiental das bacias hidrográficas. Atualmente, existem diversos “índices” ou “indicadores”
para caracterizar o desempenho dos sistemas hídricos. Estes possuem diferentes enfoques e
normalmente englobam vários parâmetros em um único número como, por exemplo, o IVA
(Índice de Qualidade das Águas para Proteção da Vida Aquática), um dos índices utilizados
pela CETESB, que considera em seu cálculo variáveis especialmente impactantes para a vida
aquática como metais, oxigênio dissolvido, pH e toxicidade (CETESB, 2011).
1.1 Objetivo
Atualmente, a toxicidade de uma amostra de água é mensurada por meio de testes
ecotoxicológicos, que consistem na determinação de efeitos tóxicos em organismos aquáticos
causados por um ou mais agentes químicos. Os efeitos tóxicos agudos caracterizam-se por
3
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
serem mais drásticos, causados por elevadas concentrações de agentes químicos e, em geral,
manifestam-se em um curto período de exposição dos organismos. Os efeitos tóxicos crônicos
são mais sutis, causados por baixas concentrações de agentes químicos dissolvidos e são
detectados em prolongados períodos de exposição ou por respostas fisiológicas adversas na
reprodução e crescimento dos organismos vivos (CETESB, 2011).
Esta pesquisa tem como objetivo descobrir padrões de classificação de ecotoxicidade a
partir dos dados de monitoramento levantados pela CETESB entre os anos de 2005 e 2010.
Uma vez descobertos, estes padrões poderiam ser utilizados na predição da toxicidade de
futuras amostras de água, minimizando a utilização de organismos vivos nas análises
ecotoxicológicas, tornando estas análises mais rápidas e eficazes, contribuindo na aferição de
indicadores de sustentabilidade ambiental como o IVA, por exemplo, ou então descobrir que o
conjunto de parâmetros/valores adotados são insuficientes para efetuar essa predição,
indicando a necessidade de análises adicionais ou alteração dos padrões vigentes. Para isso, os
dados citados serão processados por meio de técnicas de mineração de dados, que utilizam
métodos específicos para descoberta de informações implícitas em repositórios de dados.
1.2 Metodologia
A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de
conhecimento em base de dados, conhecido como Knowledge Discovery in Databases (KDD),
o qual é dividido em cinco etapas principais: Seleção dos dados brutos, Pré-processamento
dos dados selecionados, Transformação dos dados pré-processados, Mineração dos dados
transformados e Interpretação e Avaliação dos padrões encontrados pela mineração. Nas duas
etapas iniciais e na etapa final, a pesquisa conta com a importante participação de uma
especialista da área de saneamento ambiental, visando auxiliar na escolha e preparação dos
dados e na análise dos resultados obtidos.
Na etapa de mineração dos dados, foi aplicada uma das abordagens centrais desta
disciplina, a modelagem previsiva, que busca construir um modelo para prever o valor de um
dado atributo com base nos valores de outros atributos do conjunto de dados. Esta modelagem
foi realizada por meio da técnica de classificação baseada em regras, onde os registros de uma
base de dados são classificados a partir de regras obtidas por meio de um mecanismo de
aprendizagem. No âmbito dos dados de qualidade de água, cada registro da base de dados de
monitoramento é representado pela análise de uma amostra de água coletada de um dado
4
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
ponto de um corpo hídrico, em uma data específica, e que é analisada sob diversos parâmetros
químicos. Neste contexto, o objetivo da técnica é descobrir regras que possam, com base nos
valores destes parâmetros, definir o nível de toxicidade de cada amostra de água.
A escolha da técnica de mineração, foi realizada a partir de uma pesquisa bibliográfica
visando levantar métodos já utilizados na área ambiental e com dados semelhantes. Vale
ressaltar que, apesar de serem relacionados à área da computação, todos os trabalhos
pesquisados tinham em comum a forte preocupação com a questão da gestão dos recursos
naturais e do desenvolvimento sustentável. Dentre as diversas abordagens aplicadas neste
domínio, a técnica de cobertura sequencial, foi considerada uma das mais apropriadas para a
tarefa a ser realizada nesse estágio da pesquisa, pois permite extrair regras de classificação
diretamente dos dados, ao contrário de outros métodos que extraem regras indiretamente, a
partir de outros modelos como árvores de decisão e redes neurais. Neste estudo, as regras de
classificação extraídas são representadas pela expressão condicional “Se <valores dos
parâmetros químicos> Então <valor da toxicidade>”, sendo a toxicidade a classe a ser
atribuída aos registros de teste, que nada mais são que as análises das amostras de água onde
pretende-se prever o valor de toxicidade.
O desempenho das regras de classificação geradas por esta técnica foi avaliado pelo
método da validação cruzada de duas partes. Nesta abordagem, a base de dados é dividida em
dois subconjuntos com quantidades de registros semelhantes. Em um primeiro momento, um
dos subconjuntos é utilizado como base de treinamento, ou seja, as regras de classificação são
extraídas a partir deste subconjunto. Em seguida, as regras extraídas são aplicadas ao outro
subconjunto, que faz o papel de base de teste. Por fim, é calculada a taxa de erro das regras
aplicadas nesta base de teste. No segundo momento, os papéis são invertidos, de modo que o
subconjunto de treinamento passa a ser de teste e vice-versa. A taxa de erro total é então
calculada pela média das duas execuções. Com base nesta taxa, pode-se inferir a
confiabilidade das regras geradas e, consequentemente, saber o quanto elas podem ser úteis ao
serem empregadas em sistemas de gestão de qualidade de água.
Os resultados preliminares desta pesquisa são apresentados neste artigo, iniciando pela
Seção 2, que mostra um breve histórico da gestão e do monitoramento de recursos hídricos no
Brasil, em especial no estado de São Paulo. Em seguida, a Seção 3, descreve o processo de
descoberta de conhecimento destacando sua principal etapa, a mineração de dados. Na Seção
4 é apresentada a aplicação da técnica de classificação baseada em regras nos dados de
5
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
monitoramento de água, bem como os resultados preliminares obtidos. Por fim, a Seção 5
apresenta as considerações finais referentes a este trabalho.
2. Gestão de Recursos Hídricos
A gestão de bacias hidrográficas passou a assumir crescente importância no Brasil à
medida que os efeitos da degradação ambiental sobre a disponibilidade de recursos hídricos
foram aumentando (Jacobi et al., 2007). Com a Constituição de 1988 a participação da
sociedade na gestão dos recursos naturais e, especialmente na gestão das águas, passou a ser
um preceito fundamental para nortear todas as políticas públicas do setor. No estado de São
Paulo, a Constituição Estadual de 1989 já havia incorporado novos conceitos à questão dos
recursos hídricos: a gestão descentralizada, participativa e integrada; a divisão por bacia
hidrográfica; e o aproveitamento múltiplo dos recursos hídricos. Em 1991, o governo federal
encaminhou ao Congresso Nacional o primeiro projeto de lei que tratava da Política Nacional
de Recursos Hídricos e, neste mesmo ano, o estado de São Paulo, instituiu, por meio da Lei
7.663, o Sistema Estadual de Recursos Hídricos. A partir deste sistema, o território paulista
foi dividido em 22 regiões hidrográficas e institui-se a gestão por bacia, com participação
efetiva da sociedade civil no processo decisório. A Lei paulista reforçou preceitos do Código
de Águas e da Constituição ao contemplar instrumentos de gestão, como o Plano de Bacias, a
cobrança pelo uso da água e o Fundo Estadual de Recursos Hídricos, para utilização direta nos
Comitês de Bacias – colegiados, com poder deliberativo, que reúnem representantes dos
municípios, dos órgãos de Estado e da sociedade civil organizada para gestão integrada,
descentralizada e participativa das águas (Rede das Águas, 2012).
No estado de São Paulo, a implantação dos comitês de bacia hidrográfica e de outras
agências ambientais descentralizadas, sucedeu a criação de uma instituição que se tornou
centro de referência para questões ambientais. A Companhia Ambiental do estado de São
Paulo (CETESB), criada em 1968, é responsável pelo controle, fiscalização, monitoramento e
licenciamento de atividades geradoras de poluição, com a preocupação fundamental de
preservar e recuperar a qualidade das águas, do ar e do solo (Histórico, 2012). Desde 1974, a
CETESB vem coletando informações sobre a qualidade das águas doces do estado de São
Paulo por meio de uma ampla rede de monitoramento distribuída pelas 22 Unidades de
Gerenciamento de Recursos Hídricos (UGRHIs) delimitadas. Cada uma destas UGRHIs conta
com vários pontos de amostragem, de onde são coletadas as amostras de água que,
6
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
posteriormente, serão analisadas em laboratório (CETESB, 2011). A Figura 1 mostra esta
divisão, classificando as UGRHIs em grupos conforme suas respectivas vocações.
Figura 1. Classificação das 22 UGRHIs por vocação (CETESB, 2010)
Cada UGRHI possui um dado número de pontos de amostragem, sendo que em cada
ponto é analisado um conjunto de parâmetros, os quais podem estar relacionados a aspectos
físicos, químicos, microbiológicos, hidrobiológicos e ecotoxicológicos da água. Anualmente,
a CETESB publica em sua página na Internet as análises realizadas em cada ponto de
amostragem por meio de arquivos em formato PDF. Somente a rede básica, que visa
especificamente a análise da água dos corpos hídricos do estado, gera um volume de dados
anual de 65.000 análises (CETESB, 2011), considerando que cada análise corresponde a uma
medição de um parâmetro em um ponto de amostragem, realizada em uma data específica.
Estas análises são realizadas sob os preceitos da Resolução CONAMA 357/2005,
legislação ambiental regulamentada pelo Conselho Nacional de Meio Ambiente (Brasil,
2005), que dispõe sobre a classificação dos corpos hídricos, dá diretrizes ambientais para o
seu enquadramento, bem como estabelece condições e padrões de lançamento de efluentes
(Umbuzeiro et al., 2010). Esta Resolução também define cinco classes para as águas doces,
Especial, 1, 2, 3 e 4, sendo que a Classe Especial pressupõe usos mais nobres e a Classe 4
menos nobres. Estas classes representam um conjunto de condições e padrões de água
necessários ao atendimento dos usos preponderantes, atuais ou futuros (Von Sperling, 2007).
Enfim, as análises realizadas representam importantes indicadores ambientais para a
gestão do desenvolvimento sustentável, que pode ser definido como o desenvolvimento que
atende às necessidades do presente sem comprometer a capacidade das futuras gerações
atenderem às suas necessidades (Brundtland, 1987). Os indicadores ambientais são de grande
valia, sobretudo por servirem de insumo para composição dos chamados “indicadores de
sustentabilidade” que, segundo Maranhão (2007), representam um aprofundamento dos
7
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
indicadores ambientais no sentido de integrar os territórios dos indicadores econômicos,
sociais e ambientais, visto que o desenvolvimento sustentável requer um tipo de visão
integrada do mundo.
3. Descoberta de Conhecimento em Bases de Dados
A capacidade de uma organização de tomar decisões é frequentemente associada ao
conhecimento que esta possui sobre seu domínio de dados. Um dos problemas dos analistas
de informação é a transformação de dados em informação relevante para a tomada de decisão
(Silva, 2007). Conforme pôde-se notar, as análises realizadas pela CETESB originam um
conjunto valioso de informações referentes à qualidade da água dos corpos hídricos. No
entanto, se analisadas por meio de técnicas convencionais, a descoberta de insumos que
possam auxiliar na tomada de decisão torna-se bastante improvável.
Nas últimas décadas, foram desenvolvidos processos que podem auxiliar na descoberta
de informações não triviais em grandes repositórios de dados e, assim, dar um significado
mais representativo e abrangente aos dados existentes nestes repositórios. Entre estes
processos, talvez o Knowledge Discovery in Databases (KDD), ou Descoberta de
Conhecimento em Bases de Dados, seja um dos mais conhecidos e disseminados no meio
computacional. Conforme Fayyad et al. (1996), KDD é um processo não trivial de identificar
padrões válidos, novos (antes desconhecidos), potencialmente úteis e, essencialmente,
compreensíveis em bancos de dados. Este processo é formado por uma série de etapas, que
compreendem todo o ciclo percorrido pelos dados, desde a seleção do conjunto de dados a ser
estudado até a interpretação dos padrões e regras gerados por abordagens como a mineração
de dados. A Figura 2 apresenta as cinco fases que compõem o processo de KDD.
Figura 2. Etapas que compõem o processo de KDD. Adaptado de (Fayyad et al. 1996)
8
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Na etapa de seleção é escolhido o conjunto de dados a ser estudado, contendo todas as
variáveis que possuem chance de serem utilizadas durante o processo. No pré-processamento
são realizados ajustes no conjunto de dados selecionado como por exemplo: eliminação de
dados redundantes, recuperação de dados incompletos e tratamento de dados discrepantes
(outliers). A fase de transformação contempla a uniformização e a centralização dos dados
selecionados e limpos nas fases anteriores, de modo a reduzir o tempo de processamento dos
mecanismos de mineração. A etapa de mineração de dados é onde são implementados os
algoritmos, mecanismos inteligentes responsáveis pelo levantamento de padrões e regras
implícitos em meio ao conjunto de dados. Por fim, a interpretação e avaliação verificam os
resultados obtidos na etapa de mineração, visando entender o significado e a relevância das
informações descobertas (Prass, 2004). Na maior parte deste processo, é essencial o
acompanhamento de um especialista no domínio tratado, cujas habilidades auxiliam
decisivamente na escolha do conjunto de dados a ser estudado, na definição do tipo de
conhecimento a ser descoberto e como tal conhecimento pode contribuir no suporte a decisões
(Duarte et al., 2011).
Dentre as cinco etapas do KDD, a mineração de dados, ou data mining, pode ser
considerada a principal, pois é nessa fase em que são extraídas de fato as informações
implícitas presentes no conjunto de dados. Este conhecimento é obtido por meio da busca de
padrões e relacionamentos entre as variáveis e seus dados. Segundo Berry (2004), a mineração
de dados consiste na exploração e análise de grandes quantidades de dados, visando a
descoberta de padrões e regras significativas. Para atingir seu objetivo, a mineração de dados
utiliza-se de técnicas de diferentes áreas do conhecimento como: estatística, banco de dados,
reconhecimento de padrões, inteligência artificial, visualização de informação, aprendizagem
de máquina, entre outras. Atualmente, esta abordagem vem sendo aplicada nos mais diversos
cenários, tais como: área acadêmica, finanças, comércio, marketing, medicina, genética,
telecomunicações e meio ambiente.
Particularmente no domínio da gestão ambiental, o método de KDD tem se mostrado
bastante útil no sentido de proporcionar diretrizes para a transformação de dados brutos em
informações de valor estratégico. Conforme Silva (2007), a descoberta de conhecimento em
bases de dados de monitoramento ambiental, utilizando técnicas de mineração de dados, para
avaliar a qualidade da água pode ser uma ferramenta importante para o processo de tomada de
decisão realizado por órgãos e gestores de recursos hídricos na avaliação qualitativa destes.
9
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Em termos de processo de descoberta de conhecimento, o estado atual deste trabalho,
no que se refere à tarefa de modelagem previsiva, encontra-se entre as etapas de mineração de
dados e interpretação e avaliação dos resultados, uma vez que foram obtidos os primeiros
resultados a partir da técnica de classificação baseada em regras, os quais vem sendo
analisados sob os aspectos de significância e relevância.
3.1. Trabalhos Relacionados
Existem diversos trabalhos relativos à utilização da mineração de dados na
classificação de dados de monitoramento de recursos hídricos, os quais visam basicamente
trazer insumos que possam auxiliar na tomada de decisão e a definir futuras políticas públicas
para gestão sustentável destes recursos.
Fernandes et al. (2009) apresenta um sistema de data warehousing para
armazenamento dos dados de qualidade da água de uma determinada região de Portugal, Além
de organizar e uniformizar as informações em uma base de dados, a ferramenta procura
auxiliar na descoberta do conhecimento através da aplicação das técnicas de mineração de
dados, como a classificação e a regressão linear.
Magaia (2009) aborda o papel dos sistemas de suporte à decisão na análise da
qualidade da água. O autor propõe o desenvolvimento de um sistema para este fim específico,
o qual é empregado em uma estação de tratamento de água. A ferramenta tem como objetivo
coletar e fornecer estruturas e meios para a exploração multidimensional dos dados, bem
como a sua classificação e geração de modelos através de mecanismos de data mining.
Seixas et al. (2008) investiga a correlação dos dados espaciais e temporais que
compõem o conjunto de poluentes da Lagoa Rodrigo de Freitas no Rio de Janeiro. O objetivo
principal é obter uma metodologia para a classificação da qualidade da água, que podem ser
utilizados em outros corpos hídricos. O trabalho inclui várias etapas de descoberta de
conhecimento que são implementadas para atingir as metas, bem como a utilização de
técnicas de mineração de dados para agrupar e classificar os dados.
Karimipour et al. (2005) investiga a mineração de dados geoespaciais para gestão de
dados ambientais e, especialmente, para gestão de qualidade de água. Um estudo de caso
realizado na região entre o Azerbaijão e o Irã apresenta a correlação entre a poluição de
centros industriais e indicadores de qualidade de água através de mineração de dados
10
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
geoespaciais. Segundo o estudo, ficam visíveis a relação entre o quantidade e a localização da
poluição industrial e os indicadores de qualidade da água.
Com relação às pesquisas citadas, este trabalho diferencia-se por buscar regras de
classificação que possibilitem especificamente a inferência da toxicidade da água dos corpos
hídricos. Além disso, a parte computacional é implementada por meio da técnica de cobertura
sequencial, visando a extração das regras diretamente do conjunto de dados.
4. Processo para Descoberta de Regras de Classificação de Toxicidade
A abordagem empregada neste estudo, para geração de regras de classificação de
toxicidade em corpos hídricos, foi baseada no processo de KDD, visto que este proporciona
uma eficiente diretriz para estudos voltados à descoberta de conhecimento em bases de dados,
além de ser um método bastante consolidado na área de tecnologia. Esta seção apresenta todos
os passos percorridos durante este processo, desde a seleção e preparação dos dados brutos de
monitoramento de qualidade de água, passando pela etapa de mineração dos dados préprocessados, até a fase de análise dos resultados preliminares obtidos.
4.1. Pré-processamento dos dados
A aplicação das técnicas de mineração de dados tem como premissa que os dados a
serem pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com
um nível satisfatório de completude. Todas essas atividades de preparação dos dados visam
sobretudo otimizar a significância e a confiabilidade dos resultados gerados na etapa de
mineração. Outro importante benefício do pré-processamento dos dados é a redução de
possíveis impactos no desempenho da mineração, uma vez que, ao não se ocupar com o
tratamento dos dados, esta pode concentrar esforço computacional em seu propósito original,
a busca de informações implícitas e úteis no conjunto de dados. Nesse estudo, a etapa de préprocessamento compreendeu atividades para seleção, transformação, centralização, imputação
e discretização dos dados, as quais serão apresentadas nas próximas seções.
4.1.1. Seleção dos Dados
No processo de KDD, a seleção dos dados está situada antes da etapa de préprocessamento, no entanto, alguns autores como Tan et al. (2009), tratam a seleção como
parte desta etapa, abordagem também empregada neste artigo, uma vez que todas as etapas
antes da mineração de dados são fortemente relacionadas, podendo ser agrupadas em uma
única etapa de pré-processamento.
11
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Neste trabalho, o conjunto de dados a ser analisado foi selecionado com base em
critérios gerais, relacionados a aspectos mais abrangentes dos dados, e critérios específicos,
associados a características mais peculiares dos dados. A seguir, os critérios gerais e as
respectivas descrições de como foram aplicados:

Critérios gerais para seleção dos dados:

Tipo de rede de monitoramento – Foram escolhidos os pontos da Rede
Básica, que abrange quase 85% dos pontos da rede de monitoramento da
CETESB. Este tipo de rede visa unicamente o avaliação da água dos rios do
estado de São Paulo, não contemplando análises de sedimentos e
balneabilidade destes rios, tampouco análises oriundas de sistemas de
monitoramento automático.

Aspecto temporal – Foram contempladas as análises realizadas entre os anos
de 2005 a 2010. Apesar de a CETESB publicar dados de análises a partir do
ano 2000, utilizamos somente os últimos seis anos disponíveis para restringir
esta pesquisa à realidade mais recente dos corpos hídricos.

Aspecto espacial – Das 22 UGRHIs existentes no estado de São Paulo, foram
consideradas somente quatro delas, são elas:
Paraíba do Sul (2),
Piracicaba/ Capivari/Jundiaí (5), Alto Tietê (6), Sorocaba/Médio Tietê (10). O
propósito foi selecionar as UGRHIs mais populosas, com aproximadamente
70% dos habitantes do estado, e fortemente industrializadas, uma vez que os
rios de regiões com este perfil normalmente são bastante impactados pela
atividade industrial.
Após a aplicação dos critérios gerais, dos 317 pontos de amostragem, existentes em
média nos seis anos, permaneceram 165, todos localizados nas quatro UGRHIs selecionadas e
integrantes da Rede Básica da CETESB.
Os critérios específicos para seleção dos dados levaram em conta especialmente a
questão da completude, uma das premissas básicas para que a etapa de mineração de dados
seja bem sucedida. A seguir, são apresentados cada um dos critérios específicos empregados
na seleção dos dados, bem como a ordem em que foram aplicados:

Critérios específicos para seleção dos pontos de amostragem:
1. Somente pontos dos corpos hídricos que possuem 2 ou mais pontos de
amostragem.
2. Somente pontos que estão presentes em todos os anos.
12
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
3. Somente pontos que possuem análise de Toxicidade, visto que este parâmetro
é essencial neste estudo.
4. Somente pontos pertencentes à Classe 2. Para manter a uniformidade dos
dados, foram descartados quatro pontos, dois pertencentes à Classe 0
(Especial) e dois pertencentes à Classe 3.
Após a aplicação destes critérios, dos 165 pontos de amostragem, selecionados com
base nos critérios gerais, permaneceram 44, considerados os pontos com maior riqueza e
uniformidade de dados.

Critérios específicos para seleção dos parâmetros de qualidade:
1. Parâmetros que constam em pelo menos 80% dos pontos de amostragem.
2. Parâmetros considerados mais impactantes para a vida aquática e a saúde
humana e, consequentemente, com maior possibilidade de trazer à tona
informações relevantes.
A aplicação destes critérios específicos resultaram na seleção de 10 parâmetros
químicos, que supostamente poderiam estar relacionados direta ou indiretamente,
separadamente ou em conjunto com efeitos tóxicos a biota, além da toxicidade, são eles:
Cádmio Total, Chumbo Total, Cobre Dissolvido, Níquel Total, Nitrato, Nitrito, Nitrogênio
Amoniacal, Oxigênio Dissolvido, Substância Tensoativa e Zinco Total.

Critério específico para seleção dos conjuntos de medição:

Somente conjuntos de medição dos pontos e datas de coleta que contêm o
valor medido no campo Toxicidade.
Este último critério eliminou aproximadamente 30% dos conjuntos de medição
selecionados até então. Vale esclarecer que o termo “conjunto de medição” refere-se a cada
grupo “medições de n parâmetros + medição de toxicidade”, o qual está associado a um ponto
de amostragem e uma data de coleta específicos.
4.1.2. Transformação dos Dados
Após selecionados, os dados brutos foram centralizados em um repositório criado por
meio do sistema gerenciador de banco de dados PostgreSQL. Porém, para tornar isto possível,
foi necessário converter os dados, que se encontravam em arquivos PDF, para um formato
adequado à estrutura de um banco de dados. Essa atividade foi realizada em várias etapas e
consumiu a maior parte do tempo de pré-processamento, uma vez que os arquivos originais
tinham pequenas diferenças entre si, que demandavam tratamento para que não impactassem
na exatidão e na confiabilidade dos dados recuperados. A Figura 3 ilustra o processo de
conversão dos dados originais até o armazenamento no banco de dados.
13
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Figura 3. Esquema de conversão dos dados brutos
Primeiramente, os arquivos PDF foram convertidos para o formato XML (eXtenbible
Markup Language) com o auxílio da própria ferramenta Adobe© Acrobat. Em seguida, por
meio de dois conversores implementados na linguagem de programação Java, foram efetuadas
as conversões de XML para o formato texto (TXT), e deste para o formato SQL (Structured
Query Language). Por fim, os comandos SQL gerados foram executados, permitindo a
inserção dos dados no banco previamente criado no PostgreSQL.
4.1.3. Imputação de Dados Faltantes
A ausência de valores para determinados parâmetros, ou a inexatidão destes, pode
causar interferências na mineração de dados e, consequentemente, gerar resultados
distorcidos. A solução mais radical para estes casos é a remoção do registro completo, mesmo
que este possua somente um dos atributos com valor faltante. Nesse estudo, para não reduzir
ainda mais a quantidade de conjuntos válidos, foi empregada a técnica de imputação, que
consiste na atribuição de valores aos parâmetros baseada em um ou mais critérios.
Em medições com valores faltantes ou onde não foi possível detectar se o valor estava
abaixo ou acima do padrão da resolução CONAMA 357/2005 (Brasil, 2005), denominado
neste trabalho como Padrão CONAMA, o valor foi ignorado sendo imputado um valor médio
mensal do parâmetro nos seis anos (2005-2010). Exemplos:
Valor imputado = Média
Valor imputado = Média
14
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Em medições abaixo do Padrão CONAMA, porém sem valor exato conhecido, foi
imputado o valor medido. Exemplo:
Valor imputado = 0,02
4.1.4. Discretização dos Dados
Normalmente, os mecanismos de classificação requerem que os atributos contínuos
sejam categorizados por meio de valores discretos, processo denominado discretização. De
acordo com Tan et al. (2009), a melhor abordagem de discretização é aquela que produz o
melhor resultado para a técnica de mineração de dados a ser utilizada. A conversão de um
atributo contínuo em discreto envolve duas tarefas: definir quantas categorias devem existir e
como será feito o mapeamento dos valores contínuos para os valores discretos.
A discretização dos dados de monitoramento de qualidade água foi realizada de forma
empírica, por meio da inspeção visual dos dados, dispensando técnicas supervisionadas mais
apuradas. Esta abordagem segundo Tan et al. (2009) às vezes pode ser eficaz. A Tabela 1
mostra como os parâmetros químicos foram discretizados considerando o Padrão CONAMA,
a Toxicidade como parâmetro previamente discretizado conforme a resposta do organismo
vivo, bem como os mnemônicos utilizados para identificação dos valores na base de dados.
Tabela 1. Discretização dos parâmetros contínuos
Parâmetros Contínuos
Mnemônico
Descrição dos Valores Discretizados
Cádmio Total, Cobre Dissolvido,
PC
Padrão CONAMA − Dentro do Padrão
Nitrogênio Amoniacal, Níquel Total,
CONAMA.
Nitrato, Nitrito, Oxigênio
AC
Acima − Acima do Padrão CONAMA em até
Dissolvido, Chumbo Total,
3x.
Substância Tensoativa, Zinco Total
MA
Muito Acima − Acima do Padrão CONAMA
maior que 3x.
Parâmetro Discreto
Mnemônico
Descrição dos Valores Discretos
Toxicidade
NT
Não Tóxico − Ausência de resposta
fisiológica do microcrustáceo Ceriodaphnia
Dubia.
CR
Crônico − Resposta fisiológica do
microcrustáceo Ceriodaphnia Dubia.
AG
Agudo − Forte resposta fisiológica do
microcrustáceo Ceriodaphnia Dubia.
4.2. Classificação de Toxicidade de Água Baseada em Regras
A técnica de classificação baseada em regras é uma abordagem da mineração de dados
que busca construir um modelo, a partir de um conjunto de registros previamente rotulados,
capaz de classificar os registros de outros conjuntos ainda não rotulados. A Figura 4 ilustra de
forma genérica a construção de um modelo de classificação baseado em regras. Na fase
15
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
inicial, um conjunto de treinamento, contendo registros cujas classes são conhecidas, é
selecionado. Este conjunto é utilizado como insumo para construção do modelo de
classificação, que nada mais é que o conjunto de regras de classificação encontrado. No
momento seguinte, este modelo é aplicado a um conjunto de testes, contendo registros cujas
classes são desconhecidas. Por fim, o desempenho do modelo é avaliado com base na taxa de
erros ao classificar os registros da base de testes.
Conjunto de Treinamento
Atributo 1 Atributo 2 Atributo 3 Classe
Sim
Pequeno
22
B
Não
Grande
15
A
Sim
Pequeno
28
B
Conjunto de Teste
Atributo 1 Atributo 2 Atributo 3
Sim
Grande
32
Sim
Pequeno
25
Não
Grande
19
Indução
Algoritmo de
aprendizagem gera as
regras de classificação
Classe
?
?
?
Dedução
Modelo de
Classificação
Regras de classificação
geradas são aplicadas
no conjunto de teste
Figura 4. Construção de um modelo de classificação baseado em regras
No contexto desta pesquisa, o algoritmo aprende um conjunto de regras condicionais a
partir da base de dados de treinamento, sendo cada regra composta por um antecedente,
também chamado de pré-condição, que contém os valores dos parâmetros químicos já
mencionados, e um consequente, que contém o valor da classe prevista, que no caso desse
estudo é a toxicidade. Em seguida, estas regras aprendidas pelo algoritmo são aplicadas à base
de testes, de modo a atribuir um valor de toxicidade à cada conjunto de medição desta base.
Um exemplo de regra gerada seria:
Se Níquel=AC e Chumbo=AC e Zinco=MA Então Toxicidade=CR
Para avaliar a qualidade de uma regra de classificação existem medidas básicas como a
cobertura e a precisão. A primeira visa determinar a taxa de registros que se enquadram no
antecedente da regra e, portanto, disparam esta regra. A segunda define a taxa de registros que
se enquadram tanto no antecedente quanto no consequente da regra e, portanto, além de
disparar esta regra, também pertencem à classe prevista pela regra. Os cálculos destas medidas
podem ser expressos da seguinte forma:
16
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Nessa pesquisa, o modelo de classificação foi gerado por um algoritmo de cobertura
sequencial, que faz uma busca pelas melhores regras para prever cada classe, no caso os
valores de Toxicidade: NT (Não Tóxico), CR (Crônico) e AG (Agudo). Durante a busca das
regras, todos os conjuntos de medição com classe igual a que está sendo pesquisada são
considerados positivos, e todos os outros conjuntos são considerados negativos. Uma regra é
considerada satisfatória se cobrir a maioria dos conjuntos positivos e poucos negativos.
4.3. Resultados Preliminares
Para configurar o processamento da classificação e visualizar os resultados gerados por
este processamento, foi implementado uma ferramenta em linguagem de programação Java,
cuja interface principal é apresentada na Figura 5. Esta interface pode ser dividida em duas
partes: o painel de controle, à esquerda, que destina-se às configurações de classificação e
visualização, bem como aos botões de comando; e a área de processamento, à direita, onde os
resultados do processamento podem ser visualizados.
Antes de iniciar a classificação, primeiramente é necessário selecionar a base de dados
de treinamento, que servirá de insumo para o aprendizado do algoritmo. Em seguida, é
possível configurar as taxas de cobertura e precisão mínimas que devem ser consideradas na
busca de regras, caso não sejam configuradas, são procuradas todas as regras possíveis,
independentemente de suas taxas de cobertura e precisão. Também é possível definir algumas
opções de visualização, que permitem configurar até quatro níveis de detalhamento das
informações de processamento. Por fim, o botão Buscar Regras inicia o processo de busca de
regras de classificação para toxicidade de água.
17
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Figura 5. Ferramenta para busca de regras de classificação de toxicidade de água1
Após gerar as regras, pode-se visualizar o comportamento das taxas de cobertura e
precisão durante a formação de cada regra encontrada. Por meio de um gráfico de linhas, esta
funcionalidade permite avaliar de forma rápida e eficaz o desempenho de cada regra gerada,
auxiliando assim na tomada de decisão de quais regras devem ser consideradas ou descartadas
para a classificação da toxicidade da água. A Figura 6 mostra como as taxas de cobertura e
precisão tendem a seguir direções opostas conforme a regra vai sendo aumentada com novas
condições (ou parâmetros). Esse fenômeno indica que, em geral, quanto maior a precisão de
uma regra, menor será sua cobertura, e vice-versa.
Uma vez geradas as regras, estas são aplicadas na base de teste. Nesse momento, é
calculada e apresentada a quantidade de conjuntos de medição classificados incorretamente,
bem como a taxa de precisão das regras aplicadas. Vale lembrar que, esta verificação é
possível porque, as classes dos conjuntos de medição são conhecidas tanto na base de
treinamento quanto na base de teste, característica indispensável para se aplicar o método de
validação cruzada de duas partes. O passo seguinte consiste em trocar os papéis das duas
bases utilizadas e repetir o mesmo procedimento, de modo que a base que era de treinamento
passe a ser a base de teste e vice-versa. Por fim, o desempenho das regras geradas pelas duas
iterações pode ser avaliado por meio do botão Visualizar Resultado da Validação Cruzada.
Figura 6. Visualização da cobertura e precisão das regras geradas
1
n_amon, cu_dis, ni_tot, pb_tot, zn_tot, nitrat e sub_te referem-se respectivamente aos parâmetros: Nitrogênio
Amoniacal, Cobre Dissolvido, Níquel Total, Chumbo Total, Zinco Total, Nitrato e Substância Tensoativa.
18
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Os resultados preliminares indicaram que a taxa máxima de precisão atingida pelas
regras de classificação geradas ficou em torno de 77%. Isto significa que para cada 100
conjuntos de medição classificados pelas regras geradas, em 23 deles a toxicidade (não tóxico,
crônico ou agudo) foi classificada incorretamente. Além da taxa de erro considerável, os
resultados não se mostraram muito significativos pois as regras de classificação obtidas
estavam majoritariamente associadas ao valor de toxicidade “não tóxico”, quando se esperava
obter regras que previssem valores tóxicos, como “crônico” e “agudo”. Ainda que a
ferramenta tenha gerado algumas regras para a toxicidade “crônica”, não foi possível gerar
regras para toxicidade “aguda”, pois todas as possíveis regras testadas, sempre produziam
mais erros do que acertos.
5. Considerações Finais
Neste artigo, foi apresentada a utilização de técnicas específicas de mineração de
dados para descoberta de conhecimento no domínio de monitoramento de qualidade de água.
Durante a pesquisa, pôde-se perceber o grau de relevância do tema abordado para a gestão da
sustentabilidade. Há um grande volume de trabalhos relacionados à aplicação da computação
na área ambiental, especialmente na gestão de recursos hídricos, fato que demonstra uma forte
preocupação da comunidade científica com o futuro de nossas bacias hidrográficas.
Quanto aos dados selecionados para o estudo, procurou-se contemplar uma amostra
significativa dos dados de qualidade de água do estado de São Paulo, porém notou-se que o
conjunto de dados selecionado precisou ser drasticamente reduzido com relação ao conjunto
original. Um dos motivos que se deve destacar para esta ocorrência é a grande quantidade de
medições incompletas, visto que parâmetros essenciais para esta pesquisa não possuíam valor
medido. Portanto, esta estratégia foi adotada para conservar a qualidade do conjunto de dados,
visto que o resultado da mineração está diretamente relacionado a este fator.
Outro elemento que deve ser considerado é que a descoberta de conhecimento é um
processo inerentemente exploratório e iterativo, característica que demanda muitos ajustes e,
consequentemente, novas iterações e experimentos em busca padrões em meio aos dados. Por
este motivo, será necessário reavaliar particularmente o conjunto de parâmetros selecionados,
além das questões da imputação e da discretização dos dados, uma vez que podem influenciar
fortemente nas respostas da mineração.
19
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
Apesar de as técnicas utilizadas não terem gerado regras de classificação de toxicidade
de água muito significativas, os resultados iniciais desta pesquisa demonstram o potencial que
a mineração de dados possui para auxiliar na extração de informações implícitas em dados de
monitoramento de qualidade de água. A impossibilidade de se criar regras para a toxicidade
aguda, por exemplo, denota que os parâmetros químicos utilizados, nas concentrações
medidas, podem não influenciar uma medição a ponto de ela atingir este nível de toxicidade.
Enfim, informações como esta podem representar subsídios valiosos para a tomada de decisão
no que diz respeito à gestão de recursos hídricos e da sustentabilidade ambiental.
Referências Bibliográficas
ALVES, E. C.; SILVA, C. F.; COSSICH, E. S.; TAVARES, C. R. G.; FILHO, E. E. S.;
CARNIEL, A. (2008). Avaliação da qualidade da água da bacia do rio Pirapó – Maringá,
Estado do Paraná, por meio de parâmetros físicos, químicos e microbiológicos. Acta
Scientiarum. Technology, Maringá, v. 30, n. 1, p. 39-48.
BERRY, M. J. A.; LINOFF, G. S. (2004). Data Mining Techniques: For Marketing, Sales,
and Customer Relationship Management. Indianapolis:Wiley Publishing, Inc., 672 p.
BRASIL. Conselho Nacional do Meio Ambiente. Resolução n. 357, de 17 de março de 2005.
Brasília: CONAMA, 2005.
BRUNDTLAND, G.H.(chair.), “Our Common Future” – Report on the World Commission on
Environment and Development. New York, United Nations Environmental Programme, 1987.
CETESB. Relatório de Qualidade das Águas Superficiais do Estado de São Paulo – 2010.
São Paulo: CETESB, 2011. Disponível em: <http://www.cetesb.sp.gov.br/
agua/aguas-superficiais/35-publicacoes-/-relatorios>. Acesso em: 27 fev. 2012.
DUARTE, A. A. A.; BERTHOLDO, L.; UMBUZEIRO, G. A.; CAMOLESI JÚNIOR, L.;
SILVA, C. G.. Processamento e Visualização de Dados para a Descoberta de Conhecimento
em Sistemas de Monitoramento de Qualidade de Água. In: III Workshop de Computação
Aplicada à Gestão do Meio Ambiente e Recursos Naturais, Natal, p. 1409-1418.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. (1996). From data mining to
knowledge discovery: An overview. In: Advances in Knowledge Discovery and Data Mining,
AAAI Press/The MIT Press, England, p. 37-54.
FERNANDES, J.; DUARTE, A. S.. Um Sistema de Data Warehousing para a Área da
Qualidade da Água. 2009. 16p. Universidade do Minho, Portugal.
HISTÓRICO. Institucional – CETESB - Companhia Ambiental do Estado de São Paulo.
Disponível em: <http://www.cetesb.sp.gov.br/institucional/institucional/52-Histórico>.
Acesso em: 29 fev. 2012.
20
VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO
8 e 9 de junho de 2012
JACOBI, P. R.; BARBI, F.. Democracia e participação na gestão dos recursos hídricos no
Brasil. Revista Katálysis, Florianópolis, v. 10, n. 2, p.237-244, 2007.
KARIMIPOUR, F.; DELAVAR, M. R.; KINAIE, M. (2005). Water Quality Management
Using GIS Data Mining. Journal of Environmental Informatics. Canadá, v. 5, n. 2, p. 61-71.
MAGAIA, L. P. T.. O papel dos sistemas de suporte à decisão na análise da qualidade da
água. 2009. Dissertação (Mestrado em Sistemas de Dados e Processamento Analítico) –
Universidade do Minho, Portugal.
MARANHÃO, N.. Sistema de Indicadores para Planejamento e Gestão dos Recursos
Hídricos de Bacias Hidrográficas. 2007. 422 p. Tese (Doutorado) – Universidade Federal do
Rio de Janeiro, Rio de Janeiro, 2007.
PRASS, F. S. (2004). KDD: Processo de descoberta de conhecimento em bancos de dados.
Grupo de Interesse em Engenharia de Software, Florianópolis, v.1, p. 10-14.
REDE DAS ÁGUAS. Uma política pública para as águas. Disponível em:
<http://www.rededasaguas.org.br/politicas-publicas/>. Acesso em: 02 mar. 2012.
SEIXAS, A. J.; NELSON, F. F. E.; BEATRIZ, S. L. P. L.. Mining spatial and temporal data to
classify water quality: a case study. In: Data Mining IX: Data Mining, Protection, Detection
and Other Security Technologies. Reino Unido, v. 40, p. 83-94, 2008.
SILVA, I. A. F. Descoberta de Conhecimento em Base de Dados de Monitoramento
Ambiental para Avaliação da Qualidade da Água. 2007. 134 p. Dissertação (Mestrado) –
Universidade Federal de Mato Grosso, Cuiabá, 2007.
TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração
de Dados. Rio de Janeiro: Editora Ciência Moderna. 900 p.
UMBUZEIRO, G. A.; LORENZETTI, M. L.. Fundamentos da Gestão da Qualidade das
Águas: Resolução CONAMA 357/2005. Limeira-SP: Biblioteca da Unicamp/CPEA, 2009.
VON SPERLING, M.. Estudos e modelagem da qualidade da água de rios. Belo Horizonte:
Departamento de Engenharia Sanitária e Ambiental – Universidade Federal de Minas Gerais,
2007. 588 p. v.7.
21
Download