8 e 9 de junho de 2012 ISSN 1984-9354 TÉCNICAS DE MINERAÇÃO DE DADOS NA CLASSIFICAÇÃO DE ECOTOXICIDADE DE ÁGUA PARA APLICAÇÃO NA GESTÃO DE CORPOS HÍDRICOS Leonardo Bertholdo (Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp); Fundação Centro de Pesquisa e Desenvolvimento em Telecomunicações (CPqD)) Celmar Guimarães da Silva (Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp)) Gisela de Aragão Umbuzeiro (Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp)) Luiz Camolesi Júnior (Faculdade de Tecnologia - Universidade Estadual de Campinas (Unicamp)) Resumo Dentre as diversas formas de ação que promovem a sustentabilidade, a inovação tecnológica pode ser considerada uma das mais importantes. Neste trabalho são aplicadas técnicas de mineração de dados na descoberta de conhecimento no domínio dee dados de monitoramento de qualidade de água, para prover subsídios úteis e relevantes que auxiliem na tomada de decisão em sistemas de gestão ambiental. No estágio atual da pesquisa, está sendo utilizada uma técnica de modelagem previsiva conhecida como classificação baseada em regras, onde o objetivo é descobrir regras que possam, com base nos valores de determinados parâmetros químicos, prever o nível de ecotoxicidade de uma amostra de água. Foram utilizados dados referentes a análises de água dos principais corpos hídricos do estado de São Paulo, realizadas entre os anos de 2005 e 2010. Espera-se obter uma forma confiável, rápida e eficaz para predizer os níveis de ecotoxicidade de água em rios, lagos e reservatórios com base em análises de parâmetros químicos, ou indicar a complementaridade dessas medições em busca da otimização das redes de monitoramento e consequente melhoria da gestão dos recursos naturais. VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Palavras-chaves: Monitoramento de qualidade de água, Gestão de recursos hídricos, Descoberta de conhecimento em bases de dados, Mineração de dados. 2 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 1. Introdução A água é um elemento essencial para a existência e a manutenção da vida, uma vez que é o principal componente dos organismos vivos. No contexto humano, além de possibilitar nossa sobrevivência, a água também viabiliza um amplo espectro de atividades, tais como abastecimento público e industrial, irrigação agrícola, produção de energia elétrica e atividades de lazer e recreação. Não obstante a esta realidade, a expansão demográfica e industrial das últimas décadas vem ocasionando o comprometimento de muitos corpos hídricos, como rios, lagos e reservatórios. Vale destacar ainda que a água doce é um recurso natural limitado pelo alto custo da sua obtenção a partir de formas menos convencionais, como as águas marinhas e subterrâneas. Sendo assim, o uso racional e o controle de qualidade das águas doces é de fundamental relevância para preservação deste bem (Alves et al., 2008). Atualmente, a Companhia Ambiental do estado de São Paulo (CETESB) é responsável pelo monitoramento e levantamento de informações sobre a qualidade das águas dos corpos hídricos deste estado. Para isso, mantém quase 350 pontos fixos de coleta de amostras, os quais são localizados ao longo dos corpos hídricos monitorados. Cada amostra é analisada sob aspectos físicos, químicos e biológicos, formando um conjunto de dados rico em informações relativas às condições ambientais destes corpos hídricos (CETESB, 2011). A avaliação individual destes dados pode não proporcionar descobertas relevantes, tornando indispensáveis metodologias que permitam sintetizar os números levantados em informações compreensíveis e significativas, viabilizando a inferência da sustentabilidade ambiental das bacias hidrográficas. Atualmente, existem diversos “índices” ou “indicadores” para caracterizar o desempenho dos sistemas hídricos. Estes possuem diferentes enfoques e normalmente englobam vários parâmetros em um único número como, por exemplo, o IVA (Índice de Qualidade das Águas para Proteção da Vida Aquática), um dos índices utilizados pela CETESB, que considera em seu cálculo variáveis especialmente impactantes para a vida aquática como metais, oxigênio dissolvido, pH e toxicidade (CETESB, 2011). 1.1 Objetivo Atualmente, a toxicidade de uma amostra de água é mensurada por meio de testes ecotoxicológicos, que consistem na determinação de efeitos tóxicos em organismos aquáticos causados por um ou mais agentes químicos. Os efeitos tóxicos agudos caracterizam-se por 3 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 serem mais drásticos, causados por elevadas concentrações de agentes químicos e, em geral, manifestam-se em um curto período de exposição dos organismos. Os efeitos tóxicos crônicos são mais sutis, causados por baixas concentrações de agentes químicos dissolvidos e são detectados em prolongados períodos de exposição ou por respostas fisiológicas adversas na reprodução e crescimento dos organismos vivos (CETESB, 2011). Esta pesquisa tem como objetivo descobrir padrões de classificação de ecotoxicidade a partir dos dados de monitoramento levantados pela CETESB entre os anos de 2005 e 2010. Uma vez descobertos, estes padrões poderiam ser utilizados na predição da toxicidade de futuras amostras de água, minimizando a utilização de organismos vivos nas análises ecotoxicológicas, tornando estas análises mais rápidas e eficazes, contribuindo na aferição de indicadores de sustentabilidade ambiental como o IVA, por exemplo, ou então descobrir que o conjunto de parâmetros/valores adotados são insuficientes para efetuar essa predição, indicando a necessidade de análises adicionais ou alteração dos padrões vigentes. Para isso, os dados citados serão processados por meio de técnicas de mineração de dados, que utilizam métodos específicos para descoberta de informações implícitas em repositórios de dados. 1.2 Metodologia A metodologia utilizada nesta pesquisa é baseada no processo de descoberta de conhecimento em base de dados, conhecido como Knowledge Discovery in Databases (KDD), o qual é dividido em cinco etapas principais: Seleção dos dados brutos, Pré-processamento dos dados selecionados, Transformação dos dados pré-processados, Mineração dos dados transformados e Interpretação e Avaliação dos padrões encontrados pela mineração. Nas duas etapas iniciais e na etapa final, a pesquisa conta com a importante participação de uma especialista da área de saneamento ambiental, visando auxiliar na escolha e preparação dos dados e na análise dos resultados obtidos. Na etapa de mineração dos dados, foi aplicada uma das abordagens centrais desta disciplina, a modelagem previsiva, que busca construir um modelo para prever o valor de um dado atributo com base nos valores de outros atributos do conjunto de dados. Esta modelagem foi realizada por meio da técnica de classificação baseada em regras, onde os registros de uma base de dados são classificados a partir de regras obtidas por meio de um mecanismo de aprendizagem. No âmbito dos dados de qualidade de água, cada registro da base de dados de monitoramento é representado pela análise de uma amostra de água coletada de um dado 4 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 ponto de um corpo hídrico, em uma data específica, e que é analisada sob diversos parâmetros químicos. Neste contexto, o objetivo da técnica é descobrir regras que possam, com base nos valores destes parâmetros, definir o nível de toxicidade de cada amostra de água. A escolha da técnica de mineração, foi realizada a partir de uma pesquisa bibliográfica visando levantar métodos já utilizados na área ambiental e com dados semelhantes. Vale ressaltar que, apesar de serem relacionados à área da computação, todos os trabalhos pesquisados tinham em comum a forte preocupação com a questão da gestão dos recursos naturais e do desenvolvimento sustentável. Dentre as diversas abordagens aplicadas neste domínio, a técnica de cobertura sequencial, foi considerada uma das mais apropriadas para a tarefa a ser realizada nesse estágio da pesquisa, pois permite extrair regras de classificação diretamente dos dados, ao contrário de outros métodos que extraem regras indiretamente, a partir de outros modelos como árvores de decisão e redes neurais. Neste estudo, as regras de classificação extraídas são representadas pela expressão condicional “Se <valores dos parâmetros químicos> Então <valor da toxicidade>”, sendo a toxicidade a classe a ser atribuída aos registros de teste, que nada mais são que as análises das amostras de água onde pretende-se prever o valor de toxicidade. O desempenho das regras de classificação geradas por esta técnica foi avaliado pelo método da validação cruzada de duas partes. Nesta abordagem, a base de dados é dividida em dois subconjuntos com quantidades de registros semelhantes. Em um primeiro momento, um dos subconjuntos é utilizado como base de treinamento, ou seja, as regras de classificação são extraídas a partir deste subconjunto. Em seguida, as regras extraídas são aplicadas ao outro subconjunto, que faz o papel de base de teste. Por fim, é calculada a taxa de erro das regras aplicadas nesta base de teste. No segundo momento, os papéis são invertidos, de modo que o subconjunto de treinamento passa a ser de teste e vice-versa. A taxa de erro total é então calculada pela média das duas execuções. Com base nesta taxa, pode-se inferir a confiabilidade das regras geradas e, consequentemente, saber o quanto elas podem ser úteis ao serem empregadas em sistemas de gestão de qualidade de água. Os resultados preliminares desta pesquisa são apresentados neste artigo, iniciando pela Seção 2, que mostra um breve histórico da gestão e do monitoramento de recursos hídricos no Brasil, em especial no estado de São Paulo. Em seguida, a Seção 3, descreve o processo de descoberta de conhecimento destacando sua principal etapa, a mineração de dados. Na Seção 4 é apresentada a aplicação da técnica de classificação baseada em regras nos dados de 5 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 monitoramento de água, bem como os resultados preliminares obtidos. Por fim, a Seção 5 apresenta as considerações finais referentes a este trabalho. 2. Gestão de Recursos Hídricos A gestão de bacias hidrográficas passou a assumir crescente importância no Brasil à medida que os efeitos da degradação ambiental sobre a disponibilidade de recursos hídricos foram aumentando (Jacobi et al., 2007). Com a Constituição de 1988 a participação da sociedade na gestão dos recursos naturais e, especialmente na gestão das águas, passou a ser um preceito fundamental para nortear todas as políticas públicas do setor. No estado de São Paulo, a Constituição Estadual de 1989 já havia incorporado novos conceitos à questão dos recursos hídricos: a gestão descentralizada, participativa e integrada; a divisão por bacia hidrográfica; e o aproveitamento múltiplo dos recursos hídricos. Em 1991, o governo federal encaminhou ao Congresso Nacional o primeiro projeto de lei que tratava da Política Nacional de Recursos Hídricos e, neste mesmo ano, o estado de São Paulo, instituiu, por meio da Lei 7.663, o Sistema Estadual de Recursos Hídricos. A partir deste sistema, o território paulista foi dividido em 22 regiões hidrográficas e institui-se a gestão por bacia, com participação efetiva da sociedade civil no processo decisório. A Lei paulista reforçou preceitos do Código de Águas e da Constituição ao contemplar instrumentos de gestão, como o Plano de Bacias, a cobrança pelo uso da água e o Fundo Estadual de Recursos Hídricos, para utilização direta nos Comitês de Bacias – colegiados, com poder deliberativo, que reúnem representantes dos municípios, dos órgãos de Estado e da sociedade civil organizada para gestão integrada, descentralizada e participativa das águas (Rede das Águas, 2012). No estado de São Paulo, a implantação dos comitês de bacia hidrográfica e de outras agências ambientais descentralizadas, sucedeu a criação de uma instituição que se tornou centro de referência para questões ambientais. A Companhia Ambiental do estado de São Paulo (CETESB), criada em 1968, é responsável pelo controle, fiscalização, monitoramento e licenciamento de atividades geradoras de poluição, com a preocupação fundamental de preservar e recuperar a qualidade das águas, do ar e do solo (Histórico, 2012). Desde 1974, a CETESB vem coletando informações sobre a qualidade das águas doces do estado de São Paulo por meio de uma ampla rede de monitoramento distribuída pelas 22 Unidades de Gerenciamento de Recursos Hídricos (UGRHIs) delimitadas. Cada uma destas UGRHIs conta com vários pontos de amostragem, de onde são coletadas as amostras de água que, 6 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 posteriormente, serão analisadas em laboratório (CETESB, 2011). A Figura 1 mostra esta divisão, classificando as UGRHIs em grupos conforme suas respectivas vocações. Figura 1. Classificação das 22 UGRHIs por vocação (CETESB, 2010) Cada UGRHI possui um dado número de pontos de amostragem, sendo que em cada ponto é analisado um conjunto de parâmetros, os quais podem estar relacionados a aspectos físicos, químicos, microbiológicos, hidrobiológicos e ecotoxicológicos da água. Anualmente, a CETESB publica em sua página na Internet as análises realizadas em cada ponto de amostragem por meio de arquivos em formato PDF. Somente a rede básica, que visa especificamente a análise da água dos corpos hídricos do estado, gera um volume de dados anual de 65.000 análises (CETESB, 2011), considerando que cada análise corresponde a uma medição de um parâmetro em um ponto de amostragem, realizada em uma data específica. Estas análises são realizadas sob os preceitos da Resolução CONAMA 357/2005, legislação ambiental regulamentada pelo Conselho Nacional de Meio Ambiente (Brasil, 2005), que dispõe sobre a classificação dos corpos hídricos, dá diretrizes ambientais para o seu enquadramento, bem como estabelece condições e padrões de lançamento de efluentes (Umbuzeiro et al., 2010). Esta Resolução também define cinco classes para as águas doces, Especial, 1, 2, 3 e 4, sendo que a Classe Especial pressupõe usos mais nobres e a Classe 4 menos nobres. Estas classes representam um conjunto de condições e padrões de água necessários ao atendimento dos usos preponderantes, atuais ou futuros (Von Sperling, 2007). Enfim, as análises realizadas representam importantes indicadores ambientais para a gestão do desenvolvimento sustentável, que pode ser definido como o desenvolvimento que atende às necessidades do presente sem comprometer a capacidade das futuras gerações atenderem às suas necessidades (Brundtland, 1987). Os indicadores ambientais são de grande valia, sobretudo por servirem de insumo para composição dos chamados “indicadores de sustentabilidade” que, segundo Maranhão (2007), representam um aprofundamento dos 7 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 indicadores ambientais no sentido de integrar os territórios dos indicadores econômicos, sociais e ambientais, visto que o desenvolvimento sustentável requer um tipo de visão integrada do mundo. 3. Descoberta de Conhecimento em Bases de Dados A capacidade de uma organização de tomar decisões é frequentemente associada ao conhecimento que esta possui sobre seu domínio de dados. Um dos problemas dos analistas de informação é a transformação de dados em informação relevante para a tomada de decisão (Silva, 2007). Conforme pôde-se notar, as análises realizadas pela CETESB originam um conjunto valioso de informações referentes à qualidade da água dos corpos hídricos. No entanto, se analisadas por meio de técnicas convencionais, a descoberta de insumos que possam auxiliar na tomada de decisão torna-se bastante improvável. Nas últimas décadas, foram desenvolvidos processos que podem auxiliar na descoberta de informações não triviais em grandes repositórios de dados e, assim, dar um significado mais representativo e abrangente aos dados existentes nestes repositórios. Entre estes processos, talvez o Knowledge Discovery in Databases (KDD), ou Descoberta de Conhecimento em Bases de Dados, seja um dos mais conhecidos e disseminados no meio computacional. Conforme Fayyad et al. (1996), KDD é um processo não trivial de identificar padrões válidos, novos (antes desconhecidos), potencialmente úteis e, essencialmente, compreensíveis em bancos de dados. Este processo é formado por uma série de etapas, que compreendem todo o ciclo percorrido pelos dados, desde a seleção do conjunto de dados a ser estudado até a interpretação dos padrões e regras gerados por abordagens como a mineração de dados. A Figura 2 apresenta as cinco fases que compõem o processo de KDD. Figura 2. Etapas que compõem o processo de KDD. Adaptado de (Fayyad et al. 1996) 8 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Na etapa de seleção é escolhido o conjunto de dados a ser estudado, contendo todas as variáveis que possuem chance de serem utilizadas durante o processo. No pré-processamento são realizados ajustes no conjunto de dados selecionado como por exemplo: eliminação de dados redundantes, recuperação de dados incompletos e tratamento de dados discrepantes (outliers). A fase de transformação contempla a uniformização e a centralização dos dados selecionados e limpos nas fases anteriores, de modo a reduzir o tempo de processamento dos mecanismos de mineração. A etapa de mineração de dados é onde são implementados os algoritmos, mecanismos inteligentes responsáveis pelo levantamento de padrões e regras implícitos em meio ao conjunto de dados. Por fim, a interpretação e avaliação verificam os resultados obtidos na etapa de mineração, visando entender o significado e a relevância das informações descobertas (Prass, 2004). Na maior parte deste processo, é essencial o acompanhamento de um especialista no domínio tratado, cujas habilidades auxiliam decisivamente na escolha do conjunto de dados a ser estudado, na definição do tipo de conhecimento a ser descoberto e como tal conhecimento pode contribuir no suporte a decisões (Duarte et al., 2011). Dentre as cinco etapas do KDD, a mineração de dados, ou data mining, pode ser considerada a principal, pois é nessa fase em que são extraídas de fato as informações implícitas presentes no conjunto de dados. Este conhecimento é obtido por meio da busca de padrões e relacionamentos entre as variáveis e seus dados. Segundo Berry (2004), a mineração de dados consiste na exploração e análise de grandes quantidades de dados, visando a descoberta de padrões e regras significativas. Para atingir seu objetivo, a mineração de dados utiliza-se de técnicas de diferentes áreas do conhecimento como: estatística, banco de dados, reconhecimento de padrões, inteligência artificial, visualização de informação, aprendizagem de máquina, entre outras. Atualmente, esta abordagem vem sendo aplicada nos mais diversos cenários, tais como: área acadêmica, finanças, comércio, marketing, medicina, genética, telecomunicações e meio ambiente. Particularmente no domínio da gestão ambiental, o método de KDD tem se mostrado bastante útil no sentido de proporcionar diretrizes para a transformação de dados brutos em informações de valor estratégico. Conforme Silva (2007), a descoberta de conhecimento em bases de dados de monitoramento ambiental, utilizando técnicas de mineração de dados, para avaliar a qualidade da água pode ser uma ferramenta importante para o processo de tomada de decisão realizado por órgãos e gestores de recursos hídricos na avaliação qualitativa destes. 9 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Em termos de processo de descoberta de conhecimento, o estado atual deste trabalho, no que se refere à tarefa de modelagem previsiva, encontra-se entre as etapas de mineração de dados e interpretação e avaliação dos resultados, uma vez que foram obtidos os primeiros resultados a partir da técnica de classificação baseada em regras, os quais vem sendo analisados sob os aspectos de significância e relevância. 3.1. Trabalhos Relacionados Existem diversos trabalhos relativos à utilização da mineração de dados na classificação de dados de monitoramento de recursos hídricos, os quais visam basicamente trazer insumos que possam auxiliar na tomada de decisão e a definir futuras políticas públicas para gestão sustentável destes recursos. Fernandes et al. (2009) apresenta um sistema de data warehousing para armazenamento dos dados de qualidade da água de uma determinada região de Portugal, Além de organizar e uniformizar as informações em uma base de dados, a ferramenta procura auxiliar na descoberta do conhecimento através da aplicação das técnicas de mineração de dados, como a classificação e a regressão linear. Magaia (2009) aborda o papel dos sistemas de suporte à decisão na análise da qualidade da água. O autor propõe o desenvolvimento de um sistema para este fim específico, o qual é empregado em uma estação de tratamento de água. A ferramenta tem como objetivo coletar e fornecer estruturas e meios para a exploração multidimensional dos dados, bem como a sua classificação e geração de modelos através de mecanismos de data mining. Seixas et al. (2008) investiga a correlação dos dados espaciais e temporais que compõem o conjunto de poluentes da Lagoa Rodrigo de Freitas no Rio de Janeiro. O objetivo principal é obter uma metodologia para a classificação da qualidade da água, que podem ser utilizados em outros corpos hídricos. O trabalho inclui várias etapas de descoberta de conhecimento que são implementadas para atingir as metas, bem como a utilização de técnicas de mineração de dados para agrupar e classificar os dados. Karimipour et al. (2005) investiga a mineração de dados geoespaciais para gestão de dados ambientais e, especialmente, para gestão de qualidade de água. Um estudo de caso realizado na região entre o Azerbaijão e o Irã apresenta a correlação entre a poluição de centros industriais e indicadores de qualidade de água através de mineração de dados 10 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 geoespaciais. Segundo o estudo, ficam visíveis a relação entre o quantidade e a localização da poluição industrial e os indicadores de qualidade da água. Com relação às pesquisas citadas, este trabalho diferencia-se por buscar regras de classificação que possibilitem especificamente a inferência da toxicidade da água dos corpos hídricos. Além disso, a parte computacional é implementada por meio da técnica de cobertura sequencial, visando a extração das regras diretamente do conjunto de dados. 4. Processo para Descoberta de Regras de Classificação de Toxicidade A abordagem empregada neste estudo, para geração de regras de classificação de toxicidade em corpos hídricos, foi baseada no processo de KDD, visto que este proporciona uma eficiente diretriz para estudos voltados à descoberta de conhecimento em bases de dados, além de ser um método bastante consolidado na área de tecnologia. Esta seção apresenta todos os passos percorridos durante este processo, desde a seleção e preparação dos dados brutos de monitoramento de qualidade de água, passando pela etapa de mineração dos dados préprocessados, até a fase de análise dos resultados preliminares obtidos. 4.1. Pré-processamento dos dados A aplicação das técnicas de mineração de dados tem como premissa que os dados a serem pesquisados estejam pré-selecionados, uniformes, normalizados, centralizados e com um nível satisfatório de completude. Todas essas atividades de preparação dos dados visam sobretudo otimizar a significância e a confiabilidade dos resultados gerados na etapa de mineração. Outro importante benefício do pré-processamento dos dados é a redução de possíveis impactos no desempenho da mineração, uma vez que, ao não se ocupar com o tratamento dos dados, esta pode concentrar esforço computacional em seu propósito original, a busca de informações implícitas e úteis no conjunto de dados. Nesse estudo, a etapa de préprocessamento compreendeu atividades para seleção, transformação, centralização, imputação e discretização dos dados, as quais serão apresentadas nas próximas seções. 4.1.1. Seleção dos Dados No processo de KDD, a seleção dos dados está situada antes da etapa de préprocessamento, no entanto, alguns autores como Tan et al. (2009), tratam a seleção como parte desta etapa, abordagem também empregada neste artigo, uma vez que todas as etapas antes da mineração de dados são fortemente relacionadas, podendo ser agrupadas em uma única etapa de pré-processamento. 11 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Neste trabalho, o conjunto de dados a ser analisado foi selecionado com base em critérios gerais, relacionados a aspectos mais abrangentes dos dados, e critérios específicos, associados a características mais peculiares dos dados. A seguir, os critérios gerais e as respectivas descrições de como foram aplicados: Critérios gerais para seleção dos dados: Tipo de rede de monitoramento – Foram escolhidos os pontos da Rede Básica, que abrange quase 85% dos pontos da rede de monitoramento da CETESB. Este tipo de rede visa unicamente o avaliação da água dos rios do estado de São Paulo, não contemplando análises de sedimentos e balneabilidade destes rios, tampouco análises oriundas de sistemas de monitoramento automático. Aspecto temporal – Foram contempladas as análises realizadas entre os anos de 2005 a 2010. Apesar de a CETESB publicar dados de análises a partir do ano 2000, utilizamos somente os últimos seis anos disponíveis para restringir esta pesquisa à realidade mais recente dos corpos hídricos. Aspecto espacial – Das 22 UGRHIs existentes no estado de São Paulo, foram consideradas somente quatro delas, são elas: Paraíba do Sul (2), Piracicaba/ Capivari/Jundiaí (5), Alto Tietê (6), Sorocaba/Médio Tietê (10). O propósito foi selecionar as UGRHIs mais populosas, com aproximadamente 70% dos habitantes do estado, e fortemente industrializadas, uma vez que os rios de regiões com este perfil normalmente são bastante impactados pela atividade industrial. Após a aplicação dos critérios gerais, dos 317 pontos de amostragem, existentes em média nos seis anos, permaneceram 165, todos localizados nas quatro UGRHIs selecionadas e integrantes da Rede Básica da CETESB. Os critérios específicos para seleção dos dados levaram em conta especialmente a questão da completude, uma das premissas básicas para que a etapa de mineração de dados seja bem sucedida. A seguir, são apresentados cada um dos critérios específicos empregados na seleção dos dados, bem como a ordem em que foram aplicados: Critérios específicos para seleção dos pontos de amostragem: 1. Somente pontos dos corpos hídricos que possuem 2 ou mais pontos de amostragem. 2. Somente pontos que estão presentes em todos os anos. 12 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 3. Somente pontos que possuem análise de Toxicidade, visto que este parâmetro é essencial neste estudo. 4. Somente pontos pertencentes à Classe 2. Para manter a uniformidade dos dados, foram descartados quatro pontos, dois pertencentes à Classe 0 (Especial) e dois pertencentes à Classe 3. Após a aplicação destes critérios, dos 165 pontos de amostragem, selecionados com base nos critérios gerais, permaneceram 44, considerados os pontos com maior riqueza e uniformidade de dados. Critérios específicos para seleção dos parâmetros de qualidade: 1. Parâmetros que constam em pelo menos 80% dos pontos de amostragem. 2. Parâmetros considerados mais impactantes para a vida aquática e a saúde humana e, consequentemente, com maior possibilidade de trazer à tona informações relevantes. A aplicação destes critérios específicos resultaram na seleção de 10 parâmetros químicos, que supostamente poderiam estar relacionados direta ou indiretamente, separadamente ou em conjunto com efeitos tóxicos a biota, além da toxicidade, são eles: Cádmio Total, Chumbo Total, Cobre Dissolvido, Níquel Total, Nitrato, Nitrito, Nitrogênio Amoniacal, Oxigênio Dissolvido, Substância Tensoativa e Zinco Total. Critério específico para seleção dos conjuntos de medição: Somente conjuntos de medição dos pontos e datas de coleta que contêm o valor medido no campo Toxicidade. Este último critério eliminou aproximadamente 30% dos conjuntos de medição selecionados até então. Vale esclarecer que o termo “conjunto de medição” refere-se a cada grupo “medições de n parâmetros + medição de toxicidade”, o qual está associado a um ponto de amostragem e uma data de coleta específicos. 4.1.2. Transformação dos Dados Após selecionados, os dados brutos foram centralizados em um repositório criado por meio do sistema gerenciador de banco de dados PostgreSQL. Porém, para tornar isto possível, foi necessário converter os dados, que se encontravam em arquivos PDF, para um formato adequado à estrutura de um banco de dados. Essa atividade foi realizada em várias etapas e consumiu a maior parte do tempo de pré-processamento, uma vez que os arquivos originais tinham pequenas diferenças entre si, que demandavam tratamento para que não impactassem na exatidão e na confiabilidade dos dados recuperados. A Figura 3 ilustra o processo de conversão dos dados originais até o armazenamento no banco de dados. 13 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Figura 3. Esquema de conversão dos dados brutos Primeiramente, os arquivos PDF foram convertidos para o formato XML (eXtenbible Markup Language) com o auxílio da própria ferramenta Adobe© Acrobat. Em seguida, por meio de dois conversores implementados na linguagem de programação Java, foram efetuadas as conversões de XML para o formato texto (TXT), e deste para o formato SQL (Structured Query Language). Por fim, os comandos SQL gerados foram executados, permitindo a inserção dos dados no banco previamente criado no PostgreSQL. 4.1.3. Imputação de Dados Faltantes A ausência de valores para determinados parâmetros, ou a inexatidão destes, pode causar interferências na mineração de dados e, consequentemente, gerar resultados distorcidos. A solução mais radical para estes casos é a remoção do registro completo, mesmo que este possua somente um dos atributos com valor faltante. Nesse estudo, para não reduzir ainda mais a quantidade de conjuntos válidos, foi empregada a técnica de imputação, que consiste na atribuição de valores aos parâmetros baseada em um ou mais critérios. Em medições com valores faltantes ou onde não foi possível detectar se o valor estava abaixo ou acima do padrão da resolução CONAMA 357/2005 (Brasil, 2005), denominado neste trabalho como Padrão CONAMA, o valor foi ignorado sendo imputado um valor médio mensal do parâmetro nos seis anos (2005-2010). Exemplos: Valor imputado = Média Valor imputado = Média 14 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Em medições abaixo do Padrão CONAMA, porém sem valor exato conhecido, foi imputado o valor medido. Exemplo: Valor imputado = 0,02 4.1.4. Discretização dos Dados Normalmente, os mecanismos de classificação requerem que os atributos contínuos sejam categorizados por meio de valores discretos, processo denominado discretização. De acordo com Tan et al. (2009), a melhor abordagem de discretização é aquela que produz o melhor resultado para a técnica de mineração de dados a ser utilizada. A conversão de um atributo contínuo em discreto envolve duas tarefas: definir quantas categorias devem existir e como será feito o mapeamento dos valores contínuos para os valores discretos. A discretização dos dados de monitoramento de qualidade água foi realizada de forma empírica, por meio da inspeção visual dos dados, dispensando técnicas supervisionadas mais apuradas. Esta abordagem segundo Tan et al. (2009) às vezes pode ser eficaz. A Tabela 1 mostra como os parâmetros químicos foram discretizados considerando o Padrão CONAMA, a Toxicidade como parâmetro previamente discretizado conforme a resposta do organismo vivo, bem como os mnemônicos utilizados para identificação dos valores na base de dados. Tabela 1. Discretização dos parâmetros contínuos Parâmetros Contínuos Mnemônico Descrição dos Valores Discretizados Cádmio Total, Cobre Dissolvido, PC Padrão CONAMA − Dentro do Padrão Nitrogênio Amoniacal, Níquel Total, CONAMA. Nitrato, Nitrito, Oxigênio AC Acima − Acima do Padrão CONAMA em até Dissolvido, Chumbo Total, 3x. Substância Tensoativa, Zinco Total MA Muito Acima − Acima do Padrão CONAMA maior que 3x. Parâmetro Discreto Mnemônico Descrição dos Valores Discretos Toxicidade NT Não Tóxico − Ausência de resposta fisiológica do microcrustáceo Ceriodaphnia Dubia. CR Crônico − Resposta fisiológica do microcrustáceo Ceriodaphnia Dubia. AG Agudo − Forte resposta fisiológica do microcrustáceo Ceriodaphnia Dubia. 4.2. Classificação de Toxicidade de Água Baseada em Regras A técnica de classificação baseada em regras é uma abordagem da mineração de dados que busca construir um modelo, a partir de um conjunto de registros previamente rotulados, capaz de classificar os registros de outros conjuntos ainda não rotulados. A Figura 4 ilustra de forma genérica a construção de um modelo de classificação baseado em regras. Na fase 15 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 inicial, um conjunto de treinamento, contendo registros cujas classes são conhecidas, é selecionado. Este conjunto é utilizado como insumo para construção do modelo de classificação, que nada mais é que o conjunto de regras de classificação encontrado. No momento seguinte, este modelo é aplicado a um conjunto de testes, contendo registros cujas classes são desconhecidas. Por fim, o desempenho do modelo é avaliado com base na taxa de erros ao classificar os registros da base de testes. Conjunto de Treinamento Atributo 1 Atributo 2 Atributo 3 Classe Sim Pequeno 22 B Não Grande 15 A Sim Pequeno 28 B Conjunto de Teste Atributo 1 Atributo 2 Atributo 3 Sim Grande 32 Sim Pequeno 25 Não Grande 19 Indução Algoritmo de aprendizagem gera as regras de classificação Classe ? ? ? Dedução Modelo de Classificação Regras de classificação geradas são aplicadas no conjunto de teste Figura 4. Construção de um modelo de classificação baseado em regras No contexto desta pesquisa, o algoritmo aprende um conjunto de regras condicionais a partir da base de dados de treinamento, sendo cada regra composta por um antecedente, também chamado de pré-condição, que contém os valores dos parâmetros químicos já mencionados, e um consequente, que contém o valor da classe prevista, que no caso desse estudo é a toxicidade. Em seguida, estas regras aprendidas pelo algoritmo são aplicadas à base de testes, de modo a atribuir um valor de toxicidade à cada conjunto de medição desta base. Um exemplo de regra gerada seria: Se Níquel=AC e Chumbo=AC e Zinco=MA Então Toxicidade=CR Para avaliar a qualidade de uma regra de classificação existem medidas básicas como a cobertura e a precisão. A primeira visa determinar a taxa de registros que se enquadram no antecedente da regra e, portanto, disparam esta regra. A segunda define a taxa de registros que se enquadram tanto no antecedente quanto no consequente da regra e, portanto, além de disparar esta regra, também pertencem à classe prevista pela regra. Os cálculos destas medidas podem ser expressos da seguinte forma: 16 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Nessa pesquisa, o modelo de classificação foi gerado por um algoritmo de cobertura sequencial, que faz uma busca pelas melhores regras para prever cada classe, no caso os valores de Toxicidade: NT (Não Tóxico), CR (Crônico) e AG (Agudo). Durante a busca das regras, todos os conjuntos de medição com classe igual a que está sendo pesquisada são considerados positivos, e todos os outros conjuntos são considerados negativos. Uma regra é considerada satisfatória se cobrir a maioria dos conjuntos positivos e poucos negativos. 4.3. Resultados Preliminares Para configurar o processamento da classificação e visualizar os resultados gerados por este processamento, foi implementado uma ferramenta em linguagem de programação Java, cuja interface principal é apresentada na Figura 5. Esta interface pode ser dividida em duas partes: o painel de controle, à esquerda, que destina-se às configurações de classificação e visualização, bem como aos botões de comando; e a área de processamento, à direita, onde os resultados do processamento podem ser visualizados. Antes de iniciar a classificação, primeiramente é necessário selecionar a base de dados de treinamento, que servirá de insumo para o aprendizado do algoritmo. Em seguida, é possível configurar as taxas de cobertura e precisão mínimas que devem ser consideradas na busca de regras, caso não sejam configuradas, são procuradas todas as regras possíveis, independentemente de suas taxas de cobertura e precisão. Também é possível definir algumas opções de visualização, que permitem configurar até quatro níveis de detalhamento das informações de processamento. Por fim, o botão Buscar Regras inicia o processo de busca de regras de classificação para toxicidade de água. 17 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Figura 5. Ferramenta para busca de regras de classificação de toxicidade de água1 Após gerar as regras, pode-se visualizar o comportamento das taxas de cobertura e precisão durante a formação de cada regra encontrada. Por meio de um gráfico de linhas, esta funcionalidade permite avaliar de forma rápida e eficaz o desempenho de cada regra gerada, auxiliando assim na tomada de decisão de quais regras devem ser consideradas ou descartadas para a classificação da toxicidade da água. A Figura 6 mostra como as taxas de cobertura e precisão tendem a seguir direções opostas conforme a regra vai sendo aumentada com novas condições (ou parâmetros). Esse fenômeno indica que, em geral, quanto maior a precisão de uma regra, menor será sua cobertura, e vice-versa. Uma vez geradas as regras, estas são aplicadas na base de teste. Nesse momento, é calculada e apresentada a quantidade de conjuntos de medição classificados incorretamente, bem como a taxa de precisão das regras aplicadas. Vale lembrar que, esta verificação é possível porque, as classes dos conjuntos de medição são conhecidas tanto na base de treinamento quanto na base de teste, característica indispensável para se aplicar o método de validação cruzada de duas partes. O passo seguinte consiste em trocar os papéis das duas bases utilizadas e repetir o mesmo procedimento, de modo que a base que era de treinamento passe a ser a base de teste e vice-versa. Por fim, o desempenho das regras geradas pelas duas iterações pode ser avaliado por meio do botão Visualizar Resultado da Validação Cruzada. Figura 6. Visualização da cobertura e precisão das regras geradas 1 n_amon, cu_dis, ni_tot, pb_tot, zn_tot, nitrat e sub_te referem-se respectivamente aos parâmetros: Nitrogênio Amoniacal, Cobre Dissolvido, Níquel Total, Chumbo Total, Zinco Total, Nitrato e Substância Tensoativa. 18 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Os resultados preliminares indicaram que a taxa máxima de precisão atingida pelas regras de classificação geradas ficou em torno de 77%. Isto significa que para cada 100 conjuntos de medição classificados pelas regras geradas, em 23 deles a toxicidade (não tóxico, crônico ou agudo) foi classificada incorretamente. Além da taxa de erro considerável, os resultados não se mostraram muito significativos pois as regras de classificação obtidas estavam majoritariamente associadas ao valor de toxicidade “não tóxico”, quando se esperava obter regras que previssem valores tóxicos, como “crônico” e “agudo”. Ainda que a ferramenta tenha gerado algumas regras para a toxicidade “crônica”, não foi possível gerar regras para toxicidade “aguda”, pois todas as possíveis regras testadas, sempre produziam mais erros do que acertos. 5. Considerações Finais Neste artigo, foi apresentada a utilização de técnicas específicas de mineração de dados para descoberta de conhecimento no domínio de monitoramento de qualidade de água. Durante a pesquisa, pôde-se perceber o grau de relevância do tema abordado para a gestão da sustentabilidade. Há um grande volume de trabalhos relacionados à aplicação da computação na área ambiental, especialmente na gestão de recursos hídricos, fato que demonstra uma forte preocupação da comunidade científica com o futuro de nossas bacias hidrográficas. Quanto aos dados selecionados para o estudo, procurou-se contemplar uma amostra significativa dos dados de qualidade de água do estado de São Paulo, porém notou-se que o conjunto de dados selecionado precisou ser drasticamente reduzido com relação ao conjunto original. Um dos motivos que se deve destacar para esta ocorrência é a grande quantidade de medições incompletas, visto que parâmetros essenciais para esta pesquisa não possuíam valor medido. Portanto, esta estratégia foi adotada para conservar a qualidade do conjunto de dados, visto que o resultado da mineração está diretamente relacionado a este fator. Outro elemento que deve ser considerado é que a descoberta de conhecimento é um processo inerentemente exploratório e iterativo, característica que demanda muitos ajustes e, consequentemente, novas iterações e experimentos em busca padrões em meio aos dados. Por este motivo, será necessário reavaliar particularmente o conjunto de parâmetros selecionados, além das questões da imputação e da discretização dos dados, uma vez que podem influenciar fortemente nas respostas da mineração. 19 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 Apesar de as técnicas utilizadas não terem gerado regras de classificação de toxicidade de água muito significativas, os resultados iniciais desta pesquisa demonstram o potencial que a mineração de dados possui para auxiliar na extração de informações implícitas em dados de monitoramento de qualidade de água. A impossibilidade de se criar regras para a toxicidade aguda, por exemplo, denota que os parâmetros químicos utilizados, nas concentrações medidas, podem não influenciar uma medição a ponto de ela atingir este nível de toxicidade. Enfim, informações como esta podem representar subsídios valiosos para a tomada de decisão no que diz respeito à gestão de recursos hídricos e da sustentabilidade ambiental. Referências Bibliográficas ALVES, E. C.; SILVA, C. F.; COSSICH, E. S.; TAVARES, C. R. G.; FILHO, E. E. S.; CARNIEL, A. (2008). Avaliação da qualidade da água da bacia do rio Pirapó – Maringá, Estado do Paraná, por meio de parâmetros físicos, químicos e microbiológicos. Acta Scientiarum. Technology, Maringá, v. 30, n. 1, p. 39-48. BERRY, M. J. A.; LINOFF, G. S. (2004). Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. Indianapolis:Wiley Publishing, Inc., 672 p. BRASIL. Conselho Nacional do Meio Ambiente. Resolução n. 357, de 17 de março de 2005. Brasília: CONAMA, 2005. BRUNDTLAND, G.H.(chair.), “Our Common Future” – Report on the World Commission on Environment and Development. New York, United Nations Environmental Programme, 1987. CETESB. Relatório de Qualidade das Águas Superficiais do Estado de São Paulo – 2010. São Paulo: CETESB, 2011. Disponível em: <http://www.cetesb.sp.gov.br/ agua/aguas-superficiais/35-publicacoes-/-relatorios>. Acesso em: 27 fev. 2012. DUARTE, A. A. A.; BERTHOLDO, L.; UMBUZEIRO, G. A.; CAMOLESI JÚNIOR, L.; SILVA, C. G.. Processamento e Visualização de Dados para a Descoberta de Conhecimento em Sistemas de Monitoramento de Qualidade de Água. In: III Workshop de Computação Aplicada à Gestão do Meio Ambiente e Recursos Naturais, Natal, p. 1409-1418. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. (1996). From data mining to knowledge discovery: An overview. In: Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press, England, p. 37-54. FERNANDES, J.; DUARTE, A. S.. Um Sistema de Data Warehousing para a Área da Qualidade da Água. 2009. 16p. Universidade do Minho, Portugal. HISTÓRICO. Institucional – CETESB - Companhia Ambiental do Estado de São Paulo. Disponível em: <http://www.cetesb.sp.gov.br/institucional/institucional/52-Histórico>. Acesso em: 29 fev. 2012. 20 VIII CONGRESSO NACIONAL DE EXCELÊNCIA EM GESTÃO 8 e 9 de junho de 2012 JACOBI, P. R.; BARBI, F.. Democracia e participação na gestão dos recursos hídricos no Brasil. Revista Katálysis, Florianópolis, v. 10, n. 2, p.237-244, 2007. KARIMIPOUR, F.; DELAVAR, M. R.; KINAIE, M. (2005). Water Quality Management Using GIS Data Mining. Journal of Environmental Informatics. Canadá, v. 5, n. 2, p. 61-71. MAGAIA, L. P. T.. O papel dos sistemas de suporte à decisão na análise da qualidade da água. 2009. Dissertação (Mestrado em Sistemas de Dados e Processamento Analítico) – Universidade do Minho, Portugal. MARANHÃO, N.. Sistema de Indicadores para Planejamento e Gestão dos Recursos Hídricos de Bacias Hidrográficas. 2007. 422 p. Tese (Doutorado) – Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2007. PRASS, F. S. (2004). KDD: Processo de descoberta de conhecimento em bancos de dados. Grupo de Interesse em Engenharia de Software, Florianópolis, v.1, p. 10-14. REDE DAS ÁGUAS. Uma política pública para as águas. Disponível em: <http://www.rededasaguas.org.br/politicas-publicas/>. Acesso em: 02 mar. 2012. SEIXAS, A. J.; NELSON, F. F. E.; BEATRIZ, S. L. P. L.. Mining spatial and temporal data to classify water quality: a case study. In: Data Mining IX: Data Mining, Protection, Detection and Other Security Technologies. Reino Unido, v. 40, p. 83-94, 2008. SILVA, I. A. F. Descoberta de Conhecimento em Base de Dados de Monitoramento Ambiental para Avaliação da Qualidade da Água. 2007. 134 p. Dissertação (Mestrado) – Universidade Federal de Mato Grosso, Cuiabá, 2007. TAN, P.; STEINBACH, M.; KUMAR, V. (2009). Introdução ao Data Mining – Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna. 900 p. UMBUZEIRO, G. A.; LORENZETTI, M. L.. Fundamentos da Gestão da Qualidade das Águas: Resolução CONAMA 357/2005. Limeira-SP: Biblioteca da Unicamp/CPEA, 2009. VON SPERLING, M.. Estudos e modelagem da qualidade da água de rios. Belo Horizonte: Departamento de Engenharia Sanitária e Ambiental – Universidade Federal de Minas Gerais, 2007. 588 p. v.7. 21