UNIVERSIDADE ESTADUAL DO CEARÁ (UECE) INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO CEARÁ UNIVERSIDADE FEDERAL DO RIO DE JANEIRO FREDERICO CLÁUDIO PEIXINHO SISTEMA DE APOIO À DECISÃO APLICADO À GESTÃO DE RECURSOS HÍDRICOS SUBTERRÂNEOS RIO DE JANEIRO 2012 ii FREDERICO CLÁUDIO PEIXINHO SISTEMA DE APOIO À DECISÃO APLICADO À GESTÃO DE RECURSOS HÍDRICOS SUBTERRÂNEOS Dissertação apresentada ao Curso de Mestrado Profissional em Computação Aplicada do Centro de Ciências e Tecnologia - CCT da Universidade Estadual do Ceará, como requisito parcial para a obtenção do grau Mestre em Computação Aplicada. Orientador(a): Prof. Dr. Flávio Luis de Mello RIO DE JANEIRO 2012 iii F363m Peixinho, Frederico Cláudio Sistema de Apoio à Decisão aplicado à Gestão de Recursos Hídricos Subterrâneos. — Rio de Janeiro, 2012. 125 p. : il. Orientador: Prof. Flávio Luis de Mello, D. Sc. (UFRJ) Monografia (Mestrado em Computação Aplicada) – Universidade Estadual do Ceará, Mestrado Profissional em Computação Aplicada. 1. SAD. 2. Sistema de Apoio à Decisão. I. Universidade Estadual do Ceará, Mestrado Profissional em Computação Aplicada. iv FREDERICO CLÁUDIO PEIXINHO SISTEMA DE APOIO À DECISÃO APLICADO À GESTÃO DOS RECURSOS HÍDRICOS SUBTERRÂNEOS Dissertação apresentada ao Mestrado Profissional em Computação Aplicada do Centro de Ciências e Tecnologia – CCT da Universidade Estadual do Ceará, como requisito parcial para a obtenção do grau Mestre em Computação Aplicada. Aprovada em: 21/03/2012 BANCA EXAMINADORA _______________________________________________ Prof. Dr. Flávio Luis de Mello, D.Sc. (Orientador) Universidade Federal do Rio de Janeiro – UFRJ ________________________________________________ Prof. Dr. Luiz Felipe Coutinho, D.E. Instituto Militar de Engenharia – IME ________________________________________________ Prof. Dr. Airton Fontenele Sampaio Xavier, D.Sc. Universidade Estadual do Ceará – UECE ________________________________________________ Prof. Dr. Marcos José Negreiros Gomes, D.Sc. Universidade Estadual do Ceará – UECE v DEDICATÓRIA À minha esposa e filhas que sempre estiveram presentes me estimulando e compartilhando os momentos de dificuldades e renúncias. Edmea, Joana, Carolina e Gabriela vi AGRADECIMENTOS A Deus por me permitir transitar na vida terrena com o compromisso do aprimoramento intelectual e moral, tendo a ciência e o saber, como fio condutor para o meu progresso espiritual. À UFRJ – Escola Politécnica da Universidade Federal do Rio de Janeiro, uma referência no ensino superior. Aos professores, do Mestrado Profissional em Computação Aplicada da UECE, que tanto contribuíram com seus ensinamentos, incentivos e apoio a este trabalho. Em especial, aos professores José Francisco Julião, DSc. (MPCOMP), e Airton Xavier, DSc. (UECE), que transferiram com maestria os seus conhecimentos e saberes, bem como incentivaram e apoiaram no desenvolvimento desta dissertação. Igualmente e em especial, aos professores Flávio Luis de Mello, DSc. (UFRJ) e Edilberto Strauss, Ph.D. (UFRJ) que me orientaram e incentivaram, respectivamente, na condução deste trabalho. Aos colegas do Mestrado Profissional em Computação Aplicada, realizada na UFRJ – Rio de Janeiro, pelo estímulo e contribuição. Aos colegas de trabalho, Ricardo Villafan, Maria Antonieta Mourão, Francisco Barbosa, Marcos Nóbrega, Josias Lima, Leonardo da Matta, Maria Cristina Maio e parentes Carolina Carneiro Peixinho e Priscila Peixinho Fiorindo, que contribuíram com sugestões, material e informações. A todos que direta ou indiretamente contribuíram com sugestões, material e informações e que por lapso ou esquecimento não foram citados. . vii ―Ergo a cabeça ela não treme se a busco não a encontro vazia.‖ Aristóteles Damasceno Peixinho, meu pai. viii RESUMO Esta dissertação apresenta uma metodologia, apoiada no Business Intelligence (BI), para oferecer apoio à decisão do setor de recursos hídricos subterrâneos, dado que este recurso é vital e estratégico para a implementação das políticas públicas e a melhoria da qualidade de vida da população de uma dada região. A ideia fundamental consistiu em propor um modelo para projetar um sistema de apoio à decisão, a partir da base de dados operacional, que enriquecida e sintetizada, resulta numa base de dados referencial, servindo esta de suporte para a construção de um repositório de dados (Data Warehouse) para em seguida, utilizar tecnologias OLAP (On-line Analytical Processing) e algoritmos de Mineração de Dados (Data Minning). A abordagem metodológica se apoia nos principais componentes do BI Base de Dados (Data Warehouse), Análise de Negócio (OLAP e Data Mining), Monitoria e Avaliação do Desempenho (Business Performance Management). Neste sentido, este trabalho contribuiu para internalizar a cultura de BI no ambiente de recursos hídricos subterrâneos; fomentar o uso pelos tomadores de decisão de ferramentas mais apropriadas na gestão de recursos hídricos subterrâneos; enriquecer a base de dados de poços profundos administrada pelo sistema de apoio à decisão; aumentar da eficácia no armazenamento, operação e gestão de base de dados de águas subterrâneas; e melhorar a produtividade e a qualidade dos serviços prestados em recursos hídricos subterrâneos. Palavras - Chave: Data Warehouse, OLAP, Data Mining, Business Performance Management, Sistema de Informações de Águas Subterrâneas. ix ABSTRACT This dissertation aims to present a methodology, based on Business Intelligence (BI) to provide decision support to managers and business analysts in the field of groundwater resources, considering that this resource is vital and strategic to the implementation of public policies and improved quality of life in a given region. The fundamental idea is to propose a methodology to extract a basic framework that will support the construction of data repository (Data Warehouse) from the enriched and synthesized operational database. Then, the next steps consists of the application of OLAP technology (Online Analytical Processing) and Data Mining algorithms (Data Mining), to provide historical and current data of performance, and a better understanding of the usage profile and the use of groundwater resources. The methodological approach relies on major components of BI - Database (Data Warehouse), business analysis (OLAP and Data Mining), performance assessment (Business Performance Management) and user interface (Dashboard) - applied to the groundwater operational database. Thus, the present study contributed to: internalize the culture of BI in groundwater resources environment; promote the use of appropriate tools by decision makers in the management of groundwater resources; enrich the deep wells database that is managed by support system decision; increase efficiency in operating and managing groundwater database; and improve the productivity and the quality of services rendered in groundwater resources. Key-words: Data Warehouse, OLAP, Data Mining, Business Performance Management, Information System for Groundwater. x LISTA DE FIGURAS Figura 1- Distribuição da Água na Terra ........................................................................ 16 Figura 2 - Distribuição Percentual do Povoamento do Banco de Dados SIAGAS ...... 23 Figura 3 - Etapas do Processo KDD .............................................................................. 29 Figura 4 - Estrutura e Visualização do Data Warehouse ............................................... 35 Figura 5 - Interatividade entre Funcionalidades e Técnicas de Mineração de dados .... 47 Figura 6 - Funcionalidades em Mineração de Dados ..................................................... 48 Figura 7 - Sub-funcionalidades da Análise e do Descobrimento .................................... 49 Figura 8 - Gráfico de Nível d’água de um Poço – USGS .............................................. 61 Figura 9 - Modelo Conceitual do SAD Aplicado aos Recursos Hídricos Subterrâneos.. 64 Figura 10 - Modelo de Negócio do SAD Aplicado aos Recursos Hídricos Subterrâneos .................................................................................................. 68 Figura 11 - Modelo de Dados SIAGAS .......................................................................... 72 Figura 12 - Módulo de Entrada de Dados ....................................................................... 73 Figura 13 - Módulo de Consulta na Web – cruzamento de informação espacial e Tabular ......................................................................................................... Figura 14 - Módulo de Consulta na Web – espacialização de dados ............................. 74 74 Figura 15 - Módulo de Análise e Interpretação de Dados – relatórios ........................... 75 Figura 16 - Rede RIMAS – Mapa de Situação dos Aquíferos ....................................... 76 Figura 17 - Mapa de Distribuição dos Poços Cadastrados na Base de Dados ............... 78 Figura 18 - Arquitetura de um Operacional Data Store (ODS) ....................................... 81 Figura 19 - Modelo Lógico do MGE ............................................................................... 88 Figura 20 - Modelo Conceitual do SAD .......................................................................... 93 Figura 21: Mapa de Localização dos Poços .................................................................... 98 Figura 22 - Mapas de Isovalores de Qualidade de Água ................................................. 99 Figura 23 - Principais Indicadores de Qualidade de Água de Poços .............................. 99 xi LISTA DE TABELAS Tabela 1 - Os quatro níveis de dados do ambiente arquitetural de um data warehouse ............................................................................................ 36 Tabela 2 - Exemplos de consultas referentes aos quatro níveis de dados ..................... 37 Tabela 3 - Funcionalidades e suas técnicas para mineração de dados .......................... 50 Tabela 4 - Quadro geral de atributos relevantes cadastrados na base de dados ........... 80 Tabela 5 - Tabela de anexos da dissertação .................................................................. 107 xii LISTA DE ABREVIAÇÕES E SIGLAS ANA Agência Nacional de Águas BI Business Intelligence BPM Business Performance Management BSC Balanced Scorecard CPRM Companhia de Pesquisas e Recursos Minerais DM Data Mining DNAEE Departamento Nacional de Águas e Energia Elétrica DW Data Warehouse EIS Executive Information Systems ETL Extration, Transformation and Load KDD Knowledge Discovery in Data Bases ODS Operational Data Store OLAM On-line Analytical Mining OLAP On-Line Analytical Processing OLTP On-line Transaction Processing OMS Organização Mundial da Saúde PNRH Política Nacional de Recursos Hídricos PNUMA Programa das Nações Unidas para o Meio Ambiente RIMAS Rede Integrada de Monitoramento das Águas Subterrâneas do Brasil ROLAP Relational On-Line Analytical Processing SIAGAS Sistema de Informações de Águas Subterrâneas SAD Sistema de Apoio à Decisão SNIRH Sistema Nacional de Informações sobre Recursos Hídricos SQL Strutured Query Language SGB Serviço Geológico do Brasil USGS United State Geological Survey WEKA Waikato Environment for Knowlegde Analysis XML Extensible Markup Language xiii SUMÁRIO 1 – INTRODUÇÃO ........................................................................................................ 1.1 Contextualização .................................................................................................. 1.2 Justificativa ........................................................................................................... 1.3 Objetivos .............................................................................................................. 1.4 Estrutura da Dissertação ....................................................................................... 15 15 21 23 24 2 – FUNDAMENTAÇÃO TEÓRICA ............................................................................ 2.1 Contextualização .................................................................................................. 2.2 Sistema de Apoio à Decisão ................................................................................. 2.3 O processo de Busca do Conhecimento em Banco de Dados ............................. 2.4 Data Warehouse ................................................................................................... 2.5 Data Mart ............................................................................................................. 2.6 Metadados ............................................................................................................ 2.7 Granularidade ....................................................................................................... 2.8 Visão Geral do Processo de Data Warehouse ..................................................... 2.9 Arquitetura Geral do Data Warehouse ................................................................ 2.10 Processo de Extração, Transformação e Carga – ETL ........................................ 2.11 Modelagem Multidimensional .............................................................................. 2.12 Análise de Negócios e Visualização de Dados .................................................... 2.13 Tecnologia OLAP ................................................................................................ 2.14 Multidimensionalidade – Cubo de Dados ........................................................... 2.15 Data Mining ......................................................................................................... 2.15.1 Funcionalidades da Mineração de Dados ............................................................ 2.15.2 Análise Descritiva................................................................................................. 2.15.3 Análise de Prognóstico ........................................................................................ 2.15.4 Técnicas para Obtenção das Funcionalidades ..................................................... 2.15.5 Algumas técnicas e algoritmos utilizados na mineração de dados ..................... 2.15.6 Abordagem de Mineração de Dados .................................................................. 2.16 Business Performance Management ................................................................... 2.16.1 Balanced Scorecard ............................................................................................ 2.16.2 Arquitetura do BPM ........................................................................................... 2.16.3 Dashboard e Scorecards ..................................................................................... 2.17 Trabalhos Relacionados ...................................................................................... 26 26 27 29 31 32 34 34 34 36 39 40 41 42 43 44 46 48 49 50 52 54 55 56 58 58 59 3 – MODELO CONCEITUAL DE SOSTEMA DE APOIO À DECISÃO – SAD ..................................................................................................... 3.1 Descrição Geral ................................................................................................... 3.2 Modelo de Negócio ............................................................................................. 3.2.1 Modelo de Proposta de Valor ............................................................................ 3.2.2 Modelo de Interface do Usuário ........................................................................ 3.2.3 Modelo de Operação . ......................................................................................... 3.2.4 Modelo Estratégico ............................................................................................. 3.2.5 Modelo Econômico ............................................................................................. 3.3 Descrição do Sistema Operacional – SIAGAS/RIMAS ..................................... 3.4 Preprocessamento ................................................................................................ 3.5 Estrutura do Data Store Operacional .................................................................. 3.6 Data Warehouse Departamental ......................................................................... 3.7 Análise de Negócios e Visualização de Dados ................................................... 63 63 65 65 66 67 68 70 71 77 80 82 83 xiv 3.7.1 Análise do Negócio das Águas Subterrâneas ...................................................... 3.7.2 Relatórios e Consultas para Visualização dos Dados.......................................... 3.8 Business Performance Management (BPM) ....................................................... 83 85 87 4 – SAD APLICADO A ESTUDO DE CASO ............................................................. 4.1 Critérios para Seleção de Projeto Piloto .............................................................. 4.2 Caracterização da Empresa .................................................................................. 4.3 Projeto Piloto ....................................................................................................... 4.4 Diagnóstico do Estado da Arte do Sistema de Apoio à Decisão Aplicado aos Recursos Hídricos Subterrâneos..................... 4.5 Implantação do Modelo Proposto na Área do Projeto Piloto .............................. 4.5.1 Preprocessamento: Análise de Consistência e Enriquecimento da Base de Dados .................................................................. 4.5.2 Base de Dados Operacional/ Data Store Operacional.......................................... 4.5.3 Criação de Data Warehouse ............................................................................... 4.5.4 Análise do Negócio ............................................................................................. 4.5.5 Business Performance Management – BPM ....................................................... 90 90 90 91 92 93 93 94 94 95 99 5 – CONSIDERAÇÕES FINAIS .................................................................................. 102 REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................... 104 ANEXOS ....................................................................................................................... 107 15 1 INTRODUÇÃO Este capítulo introdutório descreve as principais motivações para realização do trabalho, apresenta os objetivos e a justificativa da pesquisa e finaliza expondo a estrutura e organização da dissertação. 1.1 Contextualização A abundância e a escassez de água tem tido, através dos tempos, profundas repercussões na evolução dos povos, influenciando em certas regiões, em função das disponibilidades hídricas, as condições de florescimento, fixação e desenvolvimento das civilizações (CUNHA, 1980). A água é um bem vital e estratégico para a humanidade e representa uma moeda de negociação cada vez mais valiosa entre as nações. Na atualidade as mudanças climáticas, o crescimento populacional, o aumento vertiginoso da concentração urbana, os desastres naturais, envolvendo eventos hidrológicos extremos e a deficiente infraestrutura hídrica (saneamento básico) são os principais fatores que têm trazido enormes prejuízos sociais e econômicos, principalmente, às populações menos assistidas. Segundo (TUNDIZI, 2003, p.7), é falsa a aparente concepção de que a água doce é abundante. Somente 2,5 % da água do planeta é disponível como água doce. Destes 2,5 %, cerca de 75% estão congelados nas calotas polares e cerca de 10% estão reservados aos aquíferos. Portanto 15% dos 3% de água doce estão disponíveis. A figura 1 apresenta a distribuição da água na Terra. Vale considerar que o suprimento global tem reduzido gradativamente com o aumento da população, dos usos múltiplos e com a perda do mecanismo de retenção da água. 16 FIGURA 1 - Distribuição da Água na Terra Fonte: REBOUÇAS (2002), adaptado de SHIKLOMANOV(1998) O mapa mundial assinala que está se ampliando as regiões do planeta com enorme ―déficit” hídrico e com consequentes problemas relacionados à saúde pública. De acordo com o relatório sobre Economias Verde lançado em Estocolmo pelo Programa das Nações Unidas para o Meio Ambiente (PNUMA) durante a Conferência da Semana Mundial da Água, em agosto de 2011, quase 1 bilhão de pessoas não têm acesso à água; 2,6 bilhões não têm acesso ao saneamento básico; e 1,4 milhões de crianças menores de cinco anos morrem a cada ano como resultado da falta de acesso à água potável e aos serviços adequados de saneamento básico UNESCO/UNEP (United Nations Environmental, 2011). Estudos técnicos mundiais indicam que mais de 76 milhões de pessoas, a maioria crianças, morrerão de doenças relacionadas com a água até 2020, a não ser que se adotem medidas urgentes para recuperar os mananciais hídricos do planeta. Segundo a Organização Mundial de Saúde (OMS), em relatório produzido em 2000, estima-se que 04 (quatro) bilhões de casos de diarreias ocorrem a cada ano, matando cinco milhões de pessoas. No Brasil, morrem atualmente 29 pessoas/dia por doenças decorrentes da qualidade da água e do não tratamento de esgotos. O Brasil, país de dimensão continental, possui uma grande disponibilidade hídrica, distribuída de forma desigual em relação à densidade populacional. A produção total das águas doces, no Brasil, representa 53% do continente sul-americano (334.000 m3/s) e 12% do total mundial (1.488.00 m3/s) (REBOUÇAS, 1996). Os principais problemas em recursos hídricos no Brasil são: 17 escassez de água, principalmente, na região semi-árida brasileira; desastres naturais envolvendo eventos hidrológicos extremos (secas e inundações); conflitos de uso da água principalmente nas regiões decorrentes dos seus usos múltiplos; contaminação das águas superficiais e subterrâneas. Para enfrentar estes problemas, no âmbito da gestão dos recursos hídricos, foi instituída pela Lei 9.433, em 08 de janeiro de 1997, uma nova Política Nacional de Recursos Hídricos - PNRH, fundamentada nos princípios da gestão descentralizada e participativa. Todavia, os efeitos negativos dos problemas acima apontados – em especial a escassez de água decorrente das estiagens e secas no semiárido - sobre a população são manifestados pela fome, sede e miséria e estão atrelados à extrema vulnerabilidade da estrutura econômico-social e à baixa eficácia de mecanismos adotados para o aproveitamento, preservação, controle e gestão dos recursos hídricos e para o fortalecimento da economia local. Os problemas sociais decorrentes da seca inserem-se nas grandes questões de ordem nacional, dada à magnitude e o número de pessoas atingidas. Com vistas a minimizar os perversos efeitos da estiagem, o governo tem adotado medidas de intervenção de natureza emergencial, destinadas a assegurar os meios mínimos de subsistência das populações nos períodos mais críticos, ou de caráter permanente que visam ao fortalecimento da infraestrutura local, a partir da execução de obras públicas (barragens, açudes, poços tubulares, etc.). Um exemplo deste fato foi o Programa Emergencial de Combate aos Efeitos da Seca, instituído em 1998, através do Decreto nº 2618, de 05.06.1998 que teve como meta a perfuração, recuperação de poços tubulares e a implantação de dessalinizadores nos municípios inseridos no Polígono das Secas. Como aspectos positivos deste Programa merecem ser destacados o modelo participativo de tomada de decisão; a validação técnica das obras era feita por órgão independente e credenciado (Companhia de Pesquisa de Recursos Minerais - CPRM) e a execução de obras (construção e recuperação de poços) que resultaram na melhor relação custo-benefício do empreendimento. Não obstante os pontos positivos deste Programa, muitos problemas estruturais e recorrentes permaneceram, dentre os quais se destacam: 18 gestão e controle ineficaz, pelo Estado, das águas subterrâneas, sob os quais detêm competência legal, visando o disciplinamento do seu uso. Como resultado agravam-se os problemas de superexplotação (excesso de retirada de água) e contaminação dos aquíferos; inexistência de um sistema permanente de monitoramento e controle da perfuração de poços. Diversos órgãos têm bases de dados próprias, na maioria, desatualizadas e despadronizadas. De acordo com a cartilha elaborada pelo Ministério de Meio Ambiente, em 2001, relativa ao Programa de Águas Subterrâneas (KETTLELHUT, 2001), são os seguintes desafios a serem enfrentados nesta área: a necessidade da gestão integrada da água com base nos instrumentos da Política Nacional de Recursos Hídricos; o controle dos usos e da qualidade das águas insatisfatórios, em face da dispersão e falta de articulação legal e institucional; as legislações existentes apresentavam lacunas e até mesmo conflitos carecendo de ajustes para promover uma gestão integrada dos recursos hídricos; existência de reconhecida carência de conhecimentos básicos em águas subterrâneas, que necessitam ser rapidamente desenvolvidos; a necessidade de mobilização social que resulte na vigilância da sociedade sobre o uso e controle racionais das águas subterrâneas. A CPRM - o Serviço Geológico do Brasil – (SGB), estabeleceu como diretriz estratégica desenvolver um Sistema de Informações de Águas Subterrâneas – SIAGAS, o qual foi implantado em 1996. A referida instituição definiu como estratégia manter estreita articulação com outros organismos provedores de dados, em especial os órgãos estaduais gestores dos recursos hídricos, firmando Acordos de Cooperação Técnica, de modo a garantir um padrão de referência nesta área e possibilitar a integração de bases de dados. Nesta vertente, ela priorizou o Programa de Água Subterrânea para a região Nordeste, em particular, o ―Cadastramento de Fontes de Abastecimento por Água Subterrânea‖. Neste sentido, a empresa vem realizando desde 1998 o citado cadastramento, inicialmente, nos estados do Ceará e Sergipe, ampliando sua atuação para todo o território nacional. A alimentação da base de dados do SIAGAS é feita através das fichas de poços, fornecidas por entidades públicas e privadas. Estas fichas, elaboradas à época da construção 19 do poço, apresentavam inconsistências (coordenadas geográficas incorretas) e imprecisões (campos não preenchidos) que estão sendo depuradas pelo SGB. Em 2009, a CPRM implantou a Rede Integrada de Monitoramento de Águas Subterrâneas do Brasil – RIMAS que se constitui numa nova fonte de dados de poços para base de dados operacional de águas subterrâneas. Os dados gerados nesta rede além de serem mais representativos e confiáveis têm a característica de registrar variações temporais dos parâmetros hidrogeológicos, permitindo avaliar o comportamento dos processos hidrológicos e gerar relatórios que possam estabelecer tendências e avaliar cenários sobre a utilização dos recursos hídricos subterrâneos. O monitoramento das águas subterrâneas, através da rede RIMAS, gerando dados contínuos e completos; a coleta e medição dirigida de parâmetros nos poços existentes; a alimentação da base de dados com poços oriundos do processo de outorga pelo uso da água são procedimentos que resultam no enriquecimento da base de dados operacional de águas subterrâneas e contribui para melhorar o sistema de apoio à decisão em recursos hídricos. A base de dados operacional de águas subterrâneas conta com expressiva quantidade de poços cadastrados e tem a tendência, nos próximos anos, de aumentar significativamente o volume de dados armazenados. Este cenário sinaliza para que se disponha de ferramentas de gerenciamento eficaz de armazenamento de dados, com o uso de sistemas inteligentes, baseados em descoberta de conhecimento. Segundo (RAMOS et al.,1989), a área geocientífica, em especial, a hidrologia – ciência que estuda a ocorrência, a distribuição o movimento e propriedades da água na atmosfera, na superfície e no subsolo terrestre - envolve a realização de estudos de fenômenos de natureza estocástica (precipitação, vazão, níveis de água, etc.), exigindo a formação de séries hidrológicas extensas para se ter uma melhor predição e representatividade do fenômeno analisado. O ambiente de negócio que as organizações, de um modo geral, operam hoje em dia é cada vez mais competitivo, complexo e com rápidas mudanças. As instituições que atuam em recursos hídricos estão submetidas a um tipo especial de pressão do ambiente público e da sociedade no sentido de garantir o fornecimento dados, informações e conhecimentos hidrológicos para atender a política de recurso hídrico aproveitamento racional dos recursos hídricos. Tomar decisões à gestão e neste campo exige quantidades consideráveis de dados oportunos e relevantes, além de informações e conhecimento. Desta forma essas organizações devem buscar inovar suas práticas de gestão da informação no sentido de dar maior eficácia a tomada de decisão 20 Atualmente, manipula-se uma grande base de dados, exigindo a utilização de sistema de suporte à gerência, envolvendo o uso de altas tecnologias para análise, prospecção e visualização de informações. Para isso torna-se importante a utilização do Business Intelligence (BI), um termo ―guarda chuva‖ que engloba ferramentas, arquitetura, bases de dados, data warehouse, gerenciamento de desempenho, metodologias, tudo integrado em uma suíte de software. Os principais objetivos do BI são permitir o acesso interativo aos dados (às vezes em tempo real), proporcionar a manipulação desses dados e fornecer aos gerentes e analistas de negócios a capacidade de realizar análises aprimoradas para tomada de decisão (TURBAN et al., 2008). Diante de um ambiente globalizado, a tecnologia de informação torna-se uma importante aliada na aplicação das políticas públicas, principalmente, daquelas voltadas para melhoria da qualidade de vida da população, nas áreas de recursos hídricos, meio ambiente e saúde pública. As empresas começam a perceber a necessidade de terem maior agilidade, disponibilidade e confiabilidade das suas informações, para que possam tomar as melhores decisões. A Business Intelligence (BI) vem ao encontro dessa realidade, pois utiliza, de forma integrada, seus principais componentes - Base de dados (Data Warehouse - DW), Análise de Negócio ( Online Transaction Processing- OLAP e Data Mining - DM), Gestão e Análise de Desempenho (Business Performance Management – BPM) para melhorar a tomada de decisão. Portanto, a gestão aleatória dará lugar à inteligência de negócio (GOUVEIA,2009). O avanço tecnológico tem possibilitado o armazenamento de grandes e múltiplas quantidades de dados. É necessário fazer melhor uso destes, através de técnicas de enriquecimento de dados, para conferir maior eficácia na tomada de decisão. Uma análise preliminar da base de dados operacional de poços profundos administrada pelo Sistema de Informações de Águas Subterrâneas (SIAGAS) indica que a mesma tem uma grande quantidade de dados permitindo obter informações utilizadas nas políticas públicas relacionadas com recursos hídricos, tais como: a) gestão das águas subterrâneas; b) avaliação hidrogeológica; c) revitalização ou recuperação de poços; d) superexplotação e contaminação dos aquíferos, dentre outros. Todavia, é necessário realizar o enriquecimento e a depuração dos dados, que pelo seu histórico, apresentam inconsistências e falhas, de modo a agregar maior valor à base de dados. Por exemplo enriquecer a base de dados com dados de perfil litológico e construtivo dos poços e hidroquímicos para utiliza-los na avaliação das disponibilidades hídricas subterrâneas e na gestão da qualidade das águas dos aquíferos, respectivamente. 21 O Sistema de Apoio à Decisão aplicado aos Recursos Hídricos Subterrâneos é uma ferramenta que auxilia os planejadores, analistas de negócio e gerentes da área de recursos hídricos na tomada de decisão. A partir dos dados históricos e atuais, situações, métricas e desempenho é possível escolher a solução mais apropriada. Esta dissertação apresenta um modelo conceitual, baseado em BI de um sistema de apoio à decisão aplicado à gestão de recursos hídricos subterrâneos. 1.2 Justificativa Partindo do pressuposto que a água é um bem natural e estratégico, constata-se que o Brasil tem uma disponibilidade hídrica superficial de 251.900 m3/s, cujo potencial corresponde a 53% do total referente à América do Sul e 12% da água doce do planeta. Em relação às águas subterrâneas, nosso país dispõe de um sistema aquífero fissural que ocupa 53% do território nacional e possui bacias sedimentares que ocupam 42% da superfície do país. Não obstante, devido ao grande volume de água doce, disponível no Brasil, existem desafios a serem enfrentados relativos à sua gestão e aproveitamento, pois 80% da produção hídrica brasileira se concentram em três grandes unidades hidrográficas: Amazonas, São Francisco e Paraná (PEIXINHO; FEITOSA, 2008). Além disso, embora o potencial hídrico subterrâneo no Brasil seja significativo, o seu aproveitamento ainda é relativamente pequeno, devido à tradição histórica brasileira de realizar em maior escala o aproveitamento das águas superficiais. Isto decorreu do fato do setor elétrico ter exercido, ao longo de mais de 60 anos, a liderança no aproveitamento dos recursos hídricos para a geração de energia, efetuando um monitoramento hidrológico contínuo nas principais bacias hidrográficas e garantindo um rico acervo de informações sobre o regime hidrológico brasileiro. A evolução histórica dos recursos hídricos, em nosso país, demonstra que ficou a cargo do Ministério de Minas e Energia, através do Departamento Nacional de Energia Elétrica (DNAEE), extinto em 1996, a incumbência de realizar a gestão dos recursos hídricos, até a promulgação da Lei 9.433, que instituiu a Política Nacional de Recursos Hídricos. A implantação da Política Nacional de Recursos Hídricos, em 1997, estabeleceu uma nova configuração no modelo de gestão das águas no Brasil, obedecendo a princípios que privilegiam a participação e a descentralização nos processos decisórios, novos atores sugiram 22 neste processo, destacando-se os Conselhos, Comitês e Agências de Bacias. Além disso, instituiu instrumentos para a gestão dos recursos hídricos. Entre os principais desafios em recursos hídricos no Brasil destacam-se: 1. Cheias – esse fenômeno hidrológico ocorre nas principais bacias hidrográficas brasileiras (Nordeste, Centro-Oeste, Sul e Sudeste) provocando inundações principalmente associadas a escorregamentos de encostas, resultando em desastres naturais com enormes prejuízos sócio-econômicos (Sul e Sudeste). 2. Conflitos de Uso – características das regiões Sul e Sudeste aonde a oferta de águas é insuficiente para atender a demanda de múltiplos usos. 3. Contaminação das Águas – ocorre, na maioria das regiões densamente povoadas e/ou que tem um saneamento básico deficitário. 4. Escassez de água – com ocorrência predominantemente nas bacias da região Nordeste. O ―déficit hídrico‖ existente no Nordeste associado à elevada densidade populacional levou a se buscar, de forma alternativa, o aproveitamento dos recursos hídricos subterrâneos através da exploração de poços profundos. A deficiência no processo de gestão e controle das águas subterrâneas, em especial, do processo de perfuração de poços tem resultado em ineficiência no sistema de recursos hídricos com elevados desperdícios de água e baixa produtividade para atendimento a população. O SIAGAS compõe o Sistema Nacional de Informações sobre os Recursos Hídricos da Política Nacional de Recursos Hídricos e visa apoiar a pesquisa, os estudos, a gestão e o aproveitamento das águas subterrâneas. Dentre os principais desafios nesta área merecem destaques: a) a necessidade de internalizar o uso da ferramenta SIAGAS nos órgãos gestores estaduais de recursos hídricos, que detêm o poder legal sobre as águas subterrâneas, permitindo a padronização e intercâmbio dos dados, a nível nacional; b) a necessidade de enriquecimento da base de dados relativo a dados geológicos, hidrodinâmicos e hidroquímicos (vide figura 2); e c) ter à disposição um sistema de apoio à decisão em recursos hídricos. 23 SIAGAS - Cadastro de Poços ENTIDADE PROPRIETÁRIO USO 100 90 80 70 FORMAÇÃO LITOLOGIA SITUAÇÃO N. ESTÁTICO 60 50 40 30 N. DINÂMICO 20 10 0 FERRO CLORETO VAZÃO PH CONDUTIVIDADE SÓLIDOS TOTAIS NORTE COLIFORMES FIGURA 2 – Distribuição Percentual do Povoamento do Banco de Dados SIAGAS Fonte: Base de Dados SIAGAS – www.cprm.gov.br O gráfico da figura 2 apresenta a distribuição dos registros de poços existentes na base de dados administrada pelo SIAGAS, por tipo de atributo, da região Norte. A análise da distribuição destes dados mostra que existem poucos registros sobre dados hidroquímicos (pH, condutividade, cloretos, etc) e mediana quantidade sobre informações hidrodinâmicas (nível estático e dinâmico, vazão, etc), enquanto que dados gerais (entidade, proprietário, etc) existem praticamente 100% de registros armazenados. Esta condição se apresenta nas demais regiões do país. A intenção é despertar o interesse dos pesquisadores, gestores e usuários dos recursos hídricos subterrâneos, na adequada produção de dados, armazenamento, recuperação e difusão de informações, bem como no uso de Sistema de Apoio à Decisão aplicado aos Recursos Hídricos Subterrâneos, baseado em Business Intelligence. Desta forma a motivação da pesquisa está orientada pelos seguintes aspectos: tornar a base de dados de água subterrânea referência em qualidade dos dados, para dar suporte à pesquisa, estudos, gestão e aproveitamento das águas subterrâneas; motivar os órgãos gestores e intervenientes na utilização das ferramentas SIAGAS e SAD, no processo de gestão das águas subterrâneas; aumentar a eficácia do programa de águas subterrâneas. 1.3 Objetivos A água subterrânea é parte integrante do ciclo hidrológico, representando 98% das águas doces e líquidas do planeta. Elas são responsáveis pela alimentação e pela regularização 24 (perenização) dos rios, dos córregos, dos lagos e outros, permitindo que estes continuem fluindo na época de estiagem/seca. As referidas águas têm importância estratégica, pois normalmente apresentam elevado padrão de qualidade, físico-química e bacteriológica. Além disso, não são afetadas por períodos de estiagens prolongados e sua obra de captação (poço) pode ser construída próxima ao local da demanda. No Brasil, devido à extensa rede de drenagem fluvial e expressiva disponibilidade hídrica superficial, ao longo do tempo, se utilizou das águas superficiais em detrimento das águas subterrâneas. O crescente consumo e aproveitamento das águas têm proporcionado o uso mais intenso das águas subterrâneas. A gestão eficaz das águas subterrâneas pressupõe a existência de sistemas de informações que as organizem e lhes dêem representatividade e confiabilidade. Os resultados deste trabalho poderão ser aproveitados pelos profissionais envolvidos em projetos de Data Warehouse e Análise de Negócio, bem como o uso de ferramentas para manipulação e análise de dados tais como: Data Mining, Business Performance Management e Dashboard. Objetivo geral O objetivo geral da pesquisa é projetar um modelo conceitual de um Sistema de Apoio à Decisão, apoiado em BI, aplicado aos recursos hídricos subterrâneos, composto das seguintes etapas: Projetar um Sistema de Apoio à Decisão (SAD) baseado no BI. Estruturar uma Base de Dados Referencial (Data Store Operacional- ODS ). Fornecer aos tomadores de decisão ferramentas de consulta e análise de negócios Objetivo específicos Estabelecer critérios para o enriquecimento da base de dados Implementar programa de cadastramento de poços seletivos Promover a modernização do sistema de informações de águas subterrâneas Simular a aplicação do SAD numa área piloto 1.4 Estrutura da Dissertação A presente dissertação está estruturada em 5 capítulos, em que o 1º já foi exposto, e os demais estão descritos a seguir. O Capítulo 2 configura o estado da arte da pesquisa e tem 25 por finalidade apresentar os principais conceitos envolvidos com o tema da dissertação, sob a forma de revisão bibliográfica. O capítulo 3 descreve a metodologia para construção do modelo conceitual de um Sistema de Apoio à Decisão, baseado em BI, analisando os componentes do modelo que envolve o Sistema Operacional (SIAGAS/RIMAS), Data Store Operacional, Data Warehouse, OLAP, Data Mining e Business Performance Management - BPM. O capítulo 4 apresenta um protótipo do modelo conceitual SAD aplicado aos recursos hídricos subterrâneos em Porto Velho – Rondônia. O capítulo 5 apresenta a conclusão do trabalho, finalizando a dissertação com os resultados e contribuições relevantes, dificuldades encontradas e as indicações para trabalhos futuros. 26 2 FUNDAMENTAÇÃO TEÓRICA Este capítulo configura o estado da arte da dissertação e busca discutir os requisitos relacionados aos Sistemas de Apoio à Decisão, Data Warehouse, OLAP, Data Mining e Business Performance Intelligence. São apresentados os principais conceitos e a importância dos processos decisórios, mostrando a relevância para a utilização do Business Intelligence. 2.1 Contextualização A hidrologia é uma ciência de natureza estocástica, ou seja, não determinística, necessitando formar séries históricas extensas para a sua utilização racional e eficiente na gestão e no aproveitamento dos recursos hídricos. Portanto, dispor de uma base de dados hidrológica confiável e representativa é fundamental para dela extrair informações valiosas na aplicação dos recursos hídricos. Atualmente, o Brasil dispõe de um banco de dados de hidrologia de superfície, construído ao longo dos 90 anos de levantamento hidrometeorológico para atender, primordialmente, o aproveitamento hidroenergético. São mais de 500 milhões de dados de precipitação, evaporação, níveis d’água, descargas líquidas e sólidas dos rios, qualidade da água e armazenamento em uma base de dados administrada pelo Sistema Nacional de Informações sobre Recursos Hídricos. No entanto, o mesmo não se pode dizer em relação à formação da base de dados de água subterrânea. Historicamente, prevaleceu, em nosso país, a gestão e o aproveitamento dos recursos hídricos superficiais. Mais recentemente, a Companhia de Pesquisa de Recursos Minerais - CPRM, implantou o Sistema de Informações de Águas Subterrâneas – SIAGAS, que permitiu formar uma base de dados de águas subterrâneas que hoje conta com cerca de 215.000 poços cadastrados. O SIAGAS tem sido utilizado como um instrumento importante de tomada de decisão no campo da gestão e aproveitamento dos recursos hídricos subterrâneos, obtendo o reconhecimento do Conselho Nacional de Recursos Hídricos - CNRH, que recomenda a sua adoção pelos órgãos gestores e os usuários de informações hidrogeológicas. Além disso, o SIAGAS foi implantado em Cuba e existe a perspectiva de sua utilização pelos Serviços Geológicos dos países ibero-americanos. 27 Não obstante, devido ao ineficiente controle exercido pelos órgãos gestores dos recursos hídricos, cujo domínio é estadual, tem resultado numa base de dados com muitas falhas e inconsistências, limitando a sua utilização, principalmente nas aplicações seguintes: aumento do conhecimento sobre a disponibilidade e vulnerabilidade hídrica; melhoria da eficiência das obras hídricas; e gestão e controle da contaminação das águas subterrâneas, dentre outros. Neste sentido, torna-se importante adotar um sistema de apoio à decisão que proporcione uma avaliação crítica das informações de água subterrânea, auxiliando os gestores a definir tendências, apontar problemas e absorver decisões inteligentes. 2.2 Sistema de Apoio à Decisão O Sistema de Apoio à Decisão, baseado em BI, se utiliza de várias tecnologias, dentre elas, Data Warehouse, Data Mart, Sistema Gerenciadores de Banco de Dados, Processamento Analítico On-line (OLAP), Banco de Dados Multidimensionais, Mineração de Dados (Data Minning), entre outros. Segundo GOUVEIA (2009), as Ferramentas de Apoio à Decisão (FAD) fazem parte do conceito BI ou Inteligência do Negócio e constituem o conjunto de tecnologias que permitem o cruzamento de informações, o suporte à análise dos indicadores de desempenho de um negócio. Com elas, é possível apresentar informações dos negócios, sob forma gráfica, simulando a ocorrência e oferecendo maior capacidade de análise para descobrimento de novos conhecimentos e padrões. De acordo com TURBAN et al. (2009), o termo BI foi cunhado pelo Gartner Group em meados da década de 1990. Todavia outra fonte indica que este termo apareceu em 1958 num trabalho de Hans Peter Luhn, pesquisador da IBM. Este conceito, todavia, iniciou muito antes, com os sistemas de geração de relatório SIG na década de 1970. Neste período os sistemas de geração de relatórios eram estáticos, bidimensionais e não possuíam recursos de análise. No início dos anos 80 surgiu o conceito de sistema de informações executivas (EIS). Foram introduzidos na década de 1990 recursos de geração de relatórios dinâmicos e multidimensionais (ad hoc ou sob demanda), prognósticos, análise de tendências e detalhamento e fatores críticos de sucesso. O uso desses recursos e alguns novos apareceram sob o nome de BI. Em 2005 incorporou-se ao BI recurso de inteligência artificial, bem como poderosos recursos de análise, tais como: ferramentas OLAP, relatórios de visualização ―ad hoc‖ e Data Mining. 28 O maior objetivo do BI é definir regras e técnicas que permitam as empresas gerenciar os seus dados transformando-os em depósitos estruturados de informações, independente de sua origem. Entre os depósitos de informações estruturados destaca-se o Data Warehouse, que armazena informações em estruturas dimensionais e representa uma forma de dar suporte a tomada de decisões. Esta evolução dos Sistemas de Apoio à Decisão (SAD) foi em função da necessidade das organizações estarem focadas na captação, compreensão e exploração dos seus dados, em face do ciclo de negócio estar cada vez mais apertado, exigindo uma decisão melhor e mais rápida. Os gerentes precisam de informações certas, na hora certa e no lugar certo. O uso do SAD decorreu, também, do crescente aumento da quantidade de dados armazenados em meio eletrônico, da constante diminuição do custo de armazenamento de dados e do aumento da eficiência das tecnologias de informações. De acordo com ELMASRI (2005), os bancos de dados de apoio à decisão são extensos, com elevado grau de indexação e envolvem muitas redundâncias. As chaves quase sempre envolvem um componente temporal e as consultas são normalmente complexas. Os sistemas de banco de dados para apoio à decisão diferem dos sistemas de banco de dados operacional ou transacional, pelo fato daqueles serem quase sempre exclusivamente para leitura/consulta e, dificilmente, para atualizações como é o caso destes últimos. Por esta razão verifica-se dificuldade de manipular grande número de variáveis e de dados históricos. Daí a necessidade de extrair informações relevantes da base de dados transacional ou operacional. Os bancos de dados operacionais possuem algumas características, como dinamismo, incompletudes, redundâncias e ruídos que os tornam inapropriados à função de extração de informações para apoio à decisão. Segundo TURBAN et al. (2009), o BI tem quatro grandes componentes: um data warehouse, composto de dados fontes; a análise de negócios, um conjunto de ferramentas para manipular e analisar dados no data warehouse, o qual inclui o data mining; business performance management (BPM) para monitoramento e análise de desempenho e uma interface com o usuário (como o dashboard). No caso do data warehouse, estamos diante de um ambiente técnico enquanto que o ambiente de análise está mais voltado para o analista de negócio. O usuário pode se conectar ao sistema por meio de interface do usuário, como navegador e a alta administração pode usar o BPM e o dashboard. 29 2.3 O processo de Busca do Conhecimento em Banco de Dados Com o aumento exponencial da quantidade de dados armazenada em base de dados, o homem necessita de ferramentas computacionais que o auxiliem na análise, interpretação e na construção de relacionamento de dados. Nesta vertente, o objetivo aqui é realizar a extração em grandes bases de dados informações desconhecidas e válidas que possam ser utilizadas para tomada de decisões. Para atender esta nova realidade surge uma nova linha de pesquisa denominada Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases – KDD), mas popularmente, denominada de Mineração de dados (PEIXINHO, 2009). O KDD surge como um amplo conceito de busca do conhecimento e envolve diversas áreas de conhecimento, dentre as quais merecem destaque: Estatística Data Warehousing Reconhecimento de Padrões Inteligência Computacional e Aprendizado de Máquinas Banco de Dados A título de ilustração, segue a figura 3 em que cada etapa da execução do processo KDD possui uma interseção com as demais. Desta forma os resultados obtidos numa fase podem ser utilizados para melhorar os resultas das próximas fases. Este procedimento revela uma interatividade, na perspectiva de melhorar os resultados a cada interação (GOUVEIA, 2009). FIGURA 3 – Etapas do Processo KDD Fonte: Adaptação de SYMEONIDIS, et al. (2005) 30 O KDD, quando abordado sob a ótica do resultado, é definido como um processo de extração trivial de informação, implícita, previamente desconhecida e potencialmente útil, a partir dos dados armazenados em banco de dados. Conceituado sob a ótica de processo, o KDD é considerado como uma tarefa de descoberta de conhecimento intensivo, consistindo de interações complexas, feitas ao longo do tempo entre o homem e uma grande base de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas. O KDD também é considerado como sendo um processo composto de etapas operacionais de pré-processamento, mineração de dados e pós-processamento (GOLDSCHMIDT et. al., 2005). A etapa de pré-processamento refere-se à execução de tarefas de captação, organização e tratamento de dados. Em seguida, temos a etapa de Data Mining, considerada essencial, relacionada com a extração do conhecimento útil no âmbito da aplicação KDD. O pós-processamento, algumas vezes dispensável, tem o objetivo de viabilizar a avaliação da utilidade do conhecimento descoberto (GOLDSCHMIDT et. al., 2005). A complexidade do processo KDD está diretamente associada à dificuldade em perceber e interpretar adequadamente inúmeros fatos observáveis durante o processo e na dificuldade em conjugar dinamicamente tais interpretações de forma a decidir quais ações devem ser realizadas em cada caso (GOLDSCHMIDT et. al., 2005). Ao analista cabe a difícil tarefa de orientar o processo KDD. O processo de descoberta de conhecimento envolve seis estágios, a saber: 1) Seleção, 2) Limpeza, 3) Codificação, 4) Enriquecimento, e 5) Mineração de Dados e 6) Relatórios. As organizações passaram a utilizar-se de duas categorias de banco de dados: o banco de dados transacional para atender operações normais e o Data Warehouse para dar suporte às decisões estratégicas, ao prover uma sólida plataforma de dados históricos integrados a partir dos quais é possível fazer análises. A seleção dos dados é extraída do banco de dados transacional e, para facilitar este processo, eles são copiados para um banco de dados separado, ou mesmo para o próprio Data Warehouse. O estágio de Limpeza dos dados é feito através de algoritmos com o objetivo de depurá-los. Ele abrange qualquer tratamento realizado sobre os dados selecionados de forma a garantir a qualidade (completude, veracidade e integridade) dos fatos por eles representados. 31 A codificação dos dados, por sua vez, é realizada de modo que eles fiquem em condições de serem usados como entrada dos algoritmos de reconhecimento de padrões. Esta é uma atividade criativa que deve ser realizada diversas vezes para se obter a melhor solução. O enriquecimento dos dados consiste em buscar mais informações que possam ser reunidas aos registros existentes, aprimorando-os para que estes contribuam no processo de descoberta de conhecimento. Por fim, a etapa de mineração de dados, que alguns autores consideram com sinônimo da Descoberta de Conhecimento em Bases de Dados, envolve a aplicação de algoritmos sobre os dados, na busca de conhecimento implícito e útil. Nesta etapa são definidos técnicas e algoritmos a serem utilizados no problema em questão, tais como: Ferramenta de Consulta, Técnicas Estatísticas, Visualização, Processamento Analítico on-line (ferramenta OLAP), Árvores de Decisão, Redes Neurais, Regras de Associação e Algoritmo Genético. 2.4 Data Warehouse O DATA WAREHOUSING é um ambiente computacional onde os usuários extraem informações estratégicas que os ajudam a conduzir seu processo de negócio. A seguir, abordaremos definições e conceitos sobre o referido ambiente computacional. O produto do DATA WAREHOUSING é o DATA WAREHOUSE(DW), um conjunto de dados produzidos para dar suporte à decisão, de interesse dos níveis gerenciais da organização. Segundo TURBAN et al., (2009), os dados são, normalmente, estruturados de modo a estarem disponíveis em um formato pronto para as atividades de processamento analítico (p. ex. processamento analítico on line [OLAP], data mining, consultas, geração de relatórios, outras aplicações de suporte à decisão). De acordo com INMON (2005), o termo é definido como ―um depósito de dado orientado por assunto, integrado, não volátil, variável com o tempo, para apoiar as decisões da gerência‖. Uma maneira de apresentar o data warehousing é recorrer as suas características fundamentais: Orientação por assunto. Os dados são organizados por assunto pormenorizado, como vendas, produto ou clientes, e contem informações relevantes para tomada de decisão, permitindo avaliar o desempenho da organização. Um data warehouse difere de um banco de dado operacional, por que estes são 32 orientados por processo e lidam com transações que atualizam o banco de dados. Integrado. A integração é uma característica de um data warehouse. Os dados advindos de diferentes fontes como BD operacionais, arquivos textos, sistemas legados, etc. devem estar em formato consistente. Aparecem conflitos de nomenclatura e discrepância entre unidades de medidas a serem superados. Variável no tempo (série temporal). Um data warehouse mantém dados históricos e por conseguinte detectam tendências, variações e relações de longo prazo que permitem fazer previsões e comparações. Não-volátil. Após os dados serem inseridos no data warehouse não podem ser alterados ou atualizados. Os dados obsoletos são descartados e as alterações são consideradas como dados novos. Portanto o banco de dados está disposto para otimizações e consultas. Segundo TURBAN et al. (2009), as características adicionais de um data warehouse que podem ser incluídas são as seguintes: Baseado em Web. Os data warehouses são desenvolvidos para ambiente informatizado eficiente baseado na Web; Relacional/multidimensional. Um data warehouse usa tanto um estrutura relacional como multidimensional; Cliente/Servidor. Um data warehouse, para proporcionar acesso mais fácil, usa arquitetura cliente/servidor. Em tempo real. Os data warehouse mais recentes já incluem recursos de acesso e análise em tempo real. Inclui metadados. O uso do metadados (dado sobre dado) no data warehouse tem a finalidade de informar como os dados estão organizados e como usa-lo de forma mais eficiente. Portanto, o data warehouse (DW) é um repositório de dados especiais, enquanto que o data warehousing é um processo inteiro. Existem três tipos de data warehouses: data mart (DM), data store operacional (ODS) e data warehouses empresariais (EDW). 2.5 Data Mart De acordo com GOUVEIA (2009 apud KIMBAL, et al.2002: 36): 33 “Um Data Mart é um Data Warehouse de menor capacidade e complexidade usado para atender a uma unidade específica de negócios. Portanto, são tipicamente mais fáceis de construir e manter.” Segundo TURBAN et al. (2009:58), um data warehouse une banco de dados de toda a empresa; já um data mart, geralmente, é menor e se concentra em um assunto ou departamento específico. O Data Mart é um subconjunto de um Data Warehouse, que consiste em uma única área temática (p. ex., marketing, produção). Um Data Mart pode ser dependente ou independente. Um Data Mart dependente é um subconjunto criado diretamente do Data Warehouse. Uma vantagem é ter um modelo de dados consistentes e para toda a empresa, além de produzir dados de qualidade. Um Data Mart independente é um Data Warehouse pequeno, projetado para uma unidade estratégica de negócios (UEN) ou um departamento, mas cuja fonte não seja um EDW. Ele é útil nas seguintes condições (GOUVEIA, 2009): Os dados devem estar segregados para melhorar o desempenho do sistema do ponto de vista do usuário; Deve ter cópia dos dados onde somente às pessoas autorizadas tenham acesso; Em ambiente corporativo é importante que seja fortalecido o conceito de propriedade em banco de dados. Data stores operacionais Segundo TURBAN et al. (2009:58) o data store operacional (ODS) proporciona uma forma de arquivar informações recentes para consumo. Este tipo de banco de dado constantemente usado na área de preparação temporária de um Data Warehouse. Ao contrário dos conteúdos estáticos de um DW, os conteúdos de um ODS são atualizados durante o curso das operações comerciais. Um ODS é usado para decisões de curto prazo e envolve operações de consolidação de vários sistemas-fonte, permitindo uma visão integrada e quase em tempo real dos dados voláteis e correntes. Portanto o ODS pode-se considerar como um tipo especial e intermediário de base de dados entre a base de dados operacional e o Data Warehouse. O DW é periodicamente alimentado adotando o método incremental ou de substituição total dos dados históricos. Data warehouse empresarial Um data warehouse empresarial (EDW) é um data warehouse em grande escala e utilizado por toda a organização. Esta dimensão lhe proporciona meios para integrar dados 34 oriundos de muitas fontes em um formato padronizado, possibilitando maior eficiência das aplicações deste BI até suporte a decisão. 2.6 Metadados Os metadados são componentes muito importantes dentro do ambiente, pois ajudam a identificar e localizar os demais dados do DW. Eles descrevem a estrutura e alguns significados a respeito dos dados e contribuem para seu uso eficiente ou ineficiente (TURBAN et al., 2009). Em termos de uso, os metadados podem ser definidos como técnico ou de negócios. Segundo KASSAM (2002 apud TURBAN, 2009:59), os metadados de negócios incluem informações que aumentam a compreensão sobre os dados tradicionais (estruturados). O seu principal objetivo é oferecer contexto aos dados relatados, isto é, informações enriquecedoras que conduzem à geração do conhecimento. Existem considerações éticas a serem observadas na coleta e posse de informações contidas nos metadados, inclusive questões de natureza intelectual e de privacidade que surgem no estágio de desenvolvimento do projeto. 2.7 Granularidade A granularidade diz respeito ao nível de detalhamento das informações que estão armazenadas no Data Warehouse. Segundo INMON (1997), constitui a informação mais importante do projeto. Quanto maior o nível de detalhamento dos dados, menor é a granularidade do DW. A granularidade está ligada ao volume dos dados armazenados e, consequentemente, determina o grau de consulta que pode ser extraído da base de dados. Ao definir um nível mais detalhado, o usuário terá informações em qualquer nível de agregação e maior será o detalhamento da consulta. Cabe a equipe de sistemas, projetar adequadamente o Data Warehouse de maneira a atender satisfatoriamente às consultas e análises dos gerentes, com tempos de resposta satisfatórios e com tamanho e crescimento do banco de dados perfeitamente gerenciável. 2.8 Visão Geral do Processo de Data Warehouse Muitas organizações, sejam elas públicas ou privadas, têm, constantemente, gerado dados e informações em níveis cada vez maiores e os armazenam em sistemas informatizados. Manter e usar estes dados e informações, num ambiente extremamente competitivo e dinâmico, se torna uma tarefa bastante complexa, principalmente quando se 35 considera questões de escalabilidade. Também aumenta cada vez mais o número de usuários que deseja acessar as informações contínuas e cada vez mais confiáveis e representativas, exigindo que as organizações criem data warehouses – armazéns com grande quantidade de dados, em série temporal para o suporte à decisão. Na figura 4 é mostrado o conceito de data warehouse. Os principais componentes de um processo de data warehousing, segundo TURBAN et al. (2009), são os seguintes: FIGURA 4 – Estrutura e Visualização do Data Warehouse Fonte: TURBAN et al. (2009) Fonte de Dados. Os dados são coletados em múltiplas fontes, através de sistemas operacionais independentes ou integrados. Extração de Dados. Os dados são extraídos com um software personalizado ou comercial chamado ETL (extração, transformação e carga). Carregamento dos Dados. Os dados são carregados numa área intermediária, para serem transformados e limpos e, posteriormente, enviados para carga no data warehouse. Banco de Dados Abrangente. É o banco de dados empresarial que fornece informações relevantes resumidas e detalhadas extraídas de diversas fontes de dados. Metadados. Os metadados são utilizados pelo pessoal de TI e pelos usuários. Ele dispõe de regras para organizar resumos de dados, com facilidades de indexação e busca, as quais podem ser realizadas por ferramentas da Web. 36 Ferramentas de milddleware. São ferramentas para acesso ao data warehouse. Usuários avançados podem criar suas próprias consultas em SQL. 2.9 Arquitetura Geral do Data Warehouse Segundo GOUVEIA (2009), ao se projetar um Data Warehouse há de considerar dois tipos de dados: dados primitivos (operacionais ou atômicos) e dados derivados. Os dados primitivos são atuais, passíveis de atualização e processados repetidamente. Enquanto os dados derivados são, em geral, valores históricos baseados em assuntos ou negócios, resumidos, ou refinados e são processados de forma heurística (INMON, 2005). A escolha do dado primitivo para armazenamento no DW tem vantagens e desvantagens. O maior benefício é dispor de uma base mais rica para efetuar a pesquisa, proporcionando uma análise mais profunda e cuidadosa dos dados, permitindo avaliar, a partir do histórico, tendências, fazer previsões ou elaborar cenários. A principal desvantagem é a ocupação de maior área para armazenamento dos dados e a exigência de maior capacidade de processamento para que não haja perda de performance na consulta e análise dos dados. Já a escolha dos dados derivados para armazenamento no DW apresenta, também, vantagens e desvantagens. O maior benefício é que os dados já estão resumidos e no formato apropriado para consulta. Além de ocupar menos espaço para armazenamento, o processamento é mais rápido. Como desvantagem a sumarização reduz a capacidade de pesquisa e análise. Normalmente as empresas adotam ambas as forma de armazenamento. De acordo com INMON (2005) existem 04 (quatro) níveis do ambiente arquitetural de um Data Warehouse: 1) Nível Operacional, 2) Nível Atômico, 3) Nível Departamental; e 4) Nível Individual, como mostra a Tabela 1. TABELA 1 – Os quatro níveis de dados do ambiente arquitetural de um data warehouse Nível Operacional Dados detalhados Nível Atômico Dados mais granular Nível Departamental Nível Individual Dados paroquial Dados temporários (restritos) Dia a dia (cotidiano) Variáveis no tempo Alguns derivados Consulta ―ad hoc‖ e alguns valores atuais (histórico) primitivos Alta Probabilidade Picos de Acesso de Acesso Tipos de Heurístico Departamento 37 Orientado Aplicação à Orientado a Assunto Orientado por Baseado em PCs ou departamento de estações de negócio Trabalho Fonte: Adaptação (INMON, 2005) Segundo GOUVEIA (2009), o nível operacional de dados está relacionado com aplicação envolvendo dados primitivos e atende ao processamento de transações de alta performance. O nível atômico ou Data Warehouse contem dados primitivos que não sofrem atualizações, além de alguns dados derivados. Já o nível departamental contem quase exclusivamente dados derivados. Este nível é definido de acordo com a necessidade dos usuários finais adaptadas às necessidades do Departamento. E o nível individual de dados é onde muitas análises heurísticas são realizadas. Na tabela 2 são apresentados os 04 (quatro) níveis de dados. TABELA 2 – Exemplos de consultas referentes aos quatro níveis de dados Nível Operacional Nível Atômico Nível Departamental Nível Individual -Qual a vazão de - Qual o histórico de Vazão produção produção do poço médias de vazões captada no poço analisado está neste momento? produção. aumentando? - Quais são as tendências em relação ao setor analisado? Medição da vazão Maio a Agosto de Maio a Agosto de de produção (Abril 2010 2007 = 2,5 m3 /h. de 2011): 2 m3 /h. Vazão de produção = Ponto no 10001 2,5 m3 /h. Inspecionar os poços para constar a sua situação em termos de estado de funcionamento (paralisado, abandonado e não instalado) Ponto no 10001 Setembro a Setembro a Dezembro de Dezembro de 2010 2007: 2,5 m3 /h. Vazão bombeada = 3,0 m3 /h . Ponto no 10001 Janeiro a Abril de Janeiro a Abril de 2007: 3,0 m3 /h. 2007: 2,5 m3 /h. No nível operacional considera a vazão produção do poço para atender o consumo de um dado cliente, a partir do último levantamento efetuado. 38 No nível atômico ou de Data Warehouse a consulta possibilita extrair informação sobre o histórico da vazão de produção no poço para consumo de um dado cliente, no período de considerado. No terceiro nível, ou seja, Data Mart obtêm-se informações de maior complexidade e orientada ao negócio para tomada de decisão. Como exemplo, poderia considerar uma relação de todos os usuários de poços, por tipo de uso. Como consulta neste nível tem-se: qual a tendência do volume de água produzido do poço num período considerado. O retorno desta consulta são as médias de volume bombeado agrupado por períodos. O nível individual possibilita a previsão de informações fornecendo projeções de cenários por meio de análises heurísticas. Os dados neste nível são geralmente temporários e de pequenas proporções (GOUVEIA, 2009). No que tange a arquitetura básica de data warehousing, segundo TURBAN et al. (2009), a mais comum são as de duas e três camadas. HOFFER et al. (2007) as distinguem pela divisão do Data Warehouse em três partes: O data warehouse composto dos dados e do software associados. Software de aquisição dados que extrai os dados de sistemas legados e fontes externas. Software de cliente (front-end) que permite o usuário acessar e analisar os dados a partir do data warehouse. O data warehouse integrado a Internet produz o data warehousing baseado na Web. Sua arquitetura de três camadas inclui PC cliente, servidor de Web e servidor de aplicação. No lado do cliente é necessário uma conexão a Internet e um navegador de Web. No lado do servidor é usado um servidor Web para gerenciar o fluxo de entrada e a saída de informações entre o servidor e o cliente. Esta tarefa é apoiada por um Data Warehouse e um servidor de aplicação (TURBAN, et. al., 2009). Segundo ARYYACHANDRA e WATSON (2005), existem 10 fatores que afetam a decisão relativa à seleção de arquitetura, descritos a seguir. Interdependência de informações entre as unidades da organização Demanda de informações da alta administração Nível de urgência de um data warehouse Natureza das tarefas do usuário final Limitação de recursos 39 Visão estratégica do data warehouse antes da implementação Compatibilidade com os sistemas existentes Capacidade interna da equipe de Tecnologia de Informação (TI) Questões de natureza técnica Fatores sociais/políticos Estes fatores guardam semelhança com os descritos na literatura para sistemas de informações, Sistema de Apoio à Decisão e Business Intelligence (BI). Não obstante a importância das questões técnicas prevalecem as questões de ordem comportamental, como a satisfação das necessidades de informação da Alta Administração e o envolvimento do usuário no processo de desenvolvimento. 2.10 Processo de Extração, Transformação e Carga - ETL Para a construção de um DW é necessário manipular uma grande quantidade de dados e organizá-los de maneira estruturada num DW. Esta manipulação dos dados é feita através de um processo de Extração, Transformação e Carga (Extraction Transformation and Load). Esta etapa é vista com uma das mais críticas de um projeto de DW, pois uma falha no processo de carregamento do DW pode trazer consequências imprevisíveis posteriormente. A etapa de extração, como o próprio nome diz, realiza a extração de dados de uma ou mais fontes. Em muitos projetos de DW é necessário fazer a extração de vários dados, que estão espalhados em sistemas operacionais e fontes externas. A fase de transformação é responsável pela conversão dos dados extraídos de sua forma anterior para a que deve estar. A carga corresponde a colocação dos dados no Data Warehouse. Primeiramente, os dados passam por limpeza ou filtragem onde o objetivo é garantir a integridade dos dados, deixando-os em um estado consistente antes de serem carregados no DW. Em seguida é necessário deixar os dados de forma homogênea visando a sua integridade, uma das principais características do ambiente de DW. A última etapa do processo de ETL é a carga propriamente dita dos dados extraídos e transformados para o DW. Existem hoje no mercado vários provedores de software de ETL dentre os quais incluem Microsoft, Oracle, IBM, Informática, Embarcadero e Tibco. 40 2.11 Modelagem Multidimensional A modelagem de dados é uma das mais importantes diferenças entre um ambiente operacional e um ambiente de DW. Em um ambiente operacional normalmente se emprega o modelo Entidade e Relacionamento (ER) para garantir o desempenho das transações, eliminado a redundância dos dados. Já no ambiente de DW necessitamos de uma técnica que suporte o ambiente de análise multidimensional de dados. Em banco de dados que manipulam multidimensões existem, basicamente, dois tipos principais de estruturas ou esquemas, o esquema estrela (star schema) e o esquema floco de neve (snowflakeschema). Cada um dos esquemas possui suas características que serão descritas mais adiante, no entanto, qualquer que seja o esquema utilizado, existem três elementos básicos: fato: um fato é uma coleção de itens de dados, cada fato representa um item, um evento de negócio de uma empresa. É representado pelos valores numéricos e implementado pelas tabelas denominadas tabelas de fato; dimensões: são os elementos que participam de um fato, as dimensões determinam o contexto de um assunto de negócios; medidas: são os atributos numéricos que representam um fato, a performance de um indicador de negócios relativo às dimensões que participam desse fato. Uma medida é determinada pela combinação das dimensões que participam de um fato e estão localizadas como atributos de um fato. A ideia principal da modelagem multidimensional é que quase todos os tipos de dados de negócio podem ser representados por um cubo de dados, onde as células do cubo contêm os valores medidos e os lados definem as dimensões. Um cubo nos permite representar um modelo tridimensional, entretanto usualmente um modelo dimensional consiste de mais de três dimensões, o que é definido com um hipercubo. A visualização de um hipercubo é muito difícil, desta forma adota-se a referência cubo para qualquer modelo multidimensional. Modelo Estrela O modelo estrela é o termo comum para a designação de modelos de dados multidimensionais. Sua composição possui uma grande entidade central, a tabela de fatos, e um conjunto de entidades menores, as tabelas de dimensões, formando uma estrela. Os relacionamentos entre a entidade fato e as dimensões são simples ligações entre as duas entidades em um relacionamento de um para muitos no sentido da dimensão para o fato. 41 A utilização do modelo estrela possibilita alguns benefícios em relação a uma estrutura relacional para o processamento analítico, entre eles podemos destacar o rápido tempo de resposta, o seu fácil entendimento e baixa manutenção. Modelo Floco de Neve O modelo de dados multidimensional é usualmente similar a uma estrela em seu design. Um fato está no centro da estrela e as dimensões estão ao redor, formando as pontas da estrela. O modelo floco de neve, basicamente, é uma extensão do modelo estrela, onde uma ou mais dimensões são decompostas, formando uma hierarquia de dimensões. A decomposição das dimensões é o resultado da aplicação da terceira forma normal sobre as tabelas de dimensão. Como é um modelo normalizado, ele evita a redundância de valores textuais em uma tabela. 2.12 Análise de Negócios e Visualização de Dados Muitas organizações têm acumulado uma grande quantidade de dados que bem manipulados podem produzir informações valiosas, permitindo que sejam usadas com sucesso nos seus negócios. O ato de permitir a análise da decisão por meio de acesso a todos os dados e informações relevantes é conhecido como análise de negócios (BA) (TURBAN, et al., 2009). A BA inclui OLAP, multidimensionalidade, visualização de dados, SIG, data mining e técnicas de análise avançada. Os dados analisados com o uso da BA podem ser encontrados em um Data Warehouse, ser dados operacionais ou estar em arquivos da Internet. O uso de software de análise de negócio, o qual contempla um conjunto de ferramentas de relatórios, modelos estatísticos e técnicas de visualização, coloca a disposição dos tomadores de decisões informações oportunas, precisas e detalhadas. Uma característica importante que a ferramenta de análise de negócios possibilita é coletar e analisar informações em vários pontos e distribui-la rapidamente. Conforme TURBAN et. al.(2009), isto é possível da seguinte maneira: criação de Data Warehouse que integra e padroniza dados provenientes de muitas fontes e locais; uso de software que permite fácil consulta dos dados de qualquer local, a qualquer momento; uso de software para preparar e distribuir relatórios; 42 uso de software de BI para realizar várias análises de dados, visando descobrir oportunidades ou problemas e encontrar soluções ou tendências; uso de software de BI para alertar gerentes e outros; descoberta de status de vendas e estoques de forma rápida ( ou seja, usando relatórios); O BA, portanto, oferece modelos e procedimentos de análise e monitoramento dos dados de modo a garantir uma vantagem competitiva. Ao usar o software para BA o usuário faz consulta e requisita relatório ―ad hoc‖ ou realiza análises. É possível realizar consultas em várias camadas. A BA utiliza um grande número de ferramentas, as quais podem ser classificadas em 03 (três) categorias: descoberta de informações e conhecimento; Data, text e web mining; Suporte à decisão e sistemas inteligentes. 2.13 Tecnologias OLAP Para atender a necessidade de operação transacional surgiram, inicialmente, as tecnologias denominadas On-line Transaction Processing (OLTP). As principais operações neste tipo de processamento são alteração, inclusão, exclusão e consultas. As tecnologias OnLine Analytical Processing (OLAP) foram concebidas para desenvolver atividades de geração e respostas às consultas, solicitação de relatórios e gráficos ad hoc, realização de análises estatísticas e construção de apresentações visuais. Alguns tipos de informações podem ser de interesse dos planejadores de recursos hídricos: qual a quantidade de poços paralisados e inativos, agrupados por categoria da qualidade da água (água doce, salobra e salgada) ou qual a variação do nível estático dos poços situados num dado aquífero. Segundo TURBAN et al. (2009), os produtos OLAP oferecem recursos de modelagem, análise e visualizações de grande conjunto de dados, ou para gerenciamento de banco de dados (SGBD) ou, mais frequentemente para sistema de Data Warehouse. Ainda de acordo com autor, são os seguintes tipos de OLAP: OLAP multidimensional (MOLAP) – quando o OLAP é implementado através de um banco de dados multidimensional. As transações são resumidas em visões multidimensionais e os dados são organizados em estrutura de cubo; 43 OLAP relacional (ROLAP) quando um banco de dados OLAP é implementado por um banco relacional existente e é chamado de ROLAP relacional. Ela extrai dados de banco de dados relacional. Database OLAP é um sistema de gerenciamento de banco de dados relacional projetado para hospedar estrutura e realizar cálculos de OLAP. Desktop OLAP. O desktop OLAP envolve ferramentas OLAP simples e baratas que executam análise multidimensional e apresentação de dados baixados de bancos de dados relacional. Conforme GOUVEIA (2009), a principal vantagem em utilizar a ferramenta OLAP ao invés de uma ferramenta de banco de dados, é que ela apresenta facilidades quanto a visualização e manipulação do modelo dimensional (tabela, fatos e dimensões). Outra vantagem é que não há necessidade de escrever queries SQL, como ocorre em ambiente puramente de Banco de Dados, pois esta ferramenta dispõe de interface gráfica para dar suporte a realização de consultas. 2.14 Multidimensionalidade – Cubo de Dados Uma importante característica das tecnologias OLAP é permitir uma visão conceitual multidimensional. Os fatores que são levados em consideração na multidimensionalidade são dimensão, medidas e tempo. Seguem alguns exemplos: Dimensões. Alguns exemplos de dimensão são: produtos, equipes de produção, segmentos de mercado, unidade de negócios e locais de distribuição; Medidas. Alguns exemplos de medidas são: dinheiro, volume de produção, número de funcionário, lucro previsto vs. real; Tempo. Alguns exemplos de tempo são: diário, semanal, trimestral e anual. TURBAN et al. (2009) afirmam que um banco de dados multidimensional é um banco de dados cuja organização permite uma análise multidimensional. Os dados são trazidos de um data warehouse. Um exemplo de como a multidimensionalidade funciona: um gerente deseja saber a produção de um serviço, uma área geográfica específica, de uma equipe de produção, durante um dado mês. A resposta a esta pergunta pode ser obtida, mais rapidamente pelo usuário, independente da estrutura do banco de dados, se os dados estiverem organizados em bancos de dados multidimensionais, ou a consulta ou produtos de softwares estiverem 44 projetados para multidimensionalidade. O usuário terá a funcionalidade de pesquisar em várias dimensões e níveis de dados por meio de tabelas ou gráficos e realizar interpretações rápidas. O cubo de dados é utilizado para representar dados em um conjunto, com medidas de interesse. O tal ―cubo‖ pode ser bidimensional, tridimensional ou com outra dimensão. Cada dimensão representa um atributo no banco de dados, e as células no cubo de dados representam medidas de interesse. Segundo TURBAN et al. (2009), a análise de cubos permite realizar consultas através de busca de uma série de visualização de relatórios, usando os recursos do software OLAP, permitindo ao usuário ter visões ―parciais‖ de um cubo de dados. O termo cubo referese a um conjunto de dados altamente correlacionados que são organizados para permitir a combinação de qualquer atributo em um cubo. De acordo com relatório de uma pesquisa do Grupo Gartner (1998 apud GRAY e WATSON) a multidimensionalidade possui algumas limitações: o banco de dados multidimensional pode ocupar mais espaço de memória do que um banco relacional; o carregamento do banco de dados consome tempo e recursos significativos do sistema, dependendo do volume de dados e número de dimensões; as interfaces e manutenção são mais complexas em banco de dados multidimensionais do que em banco de dados relacionais. Estão em constante evolução os estudos para tornar cada vez mais eficiente a manipulação da estrutura dimensional dos cubos de dados, buscando otimizar as consultas e operações OLAP. 2.15 Data Mining Segundo TAN et al. (2006), Data Mining ou Mineração de Dados é o processo de descoberta de informações úteis em grandes depósitos de dados. As técnicas de mineração são organizadas para atuar sobre grandes bancos de dados de modo a descobrir padrões úteis e recentes que poderiam de alguma forma permanecer ignorados. As técnicas de mineração de dados são utilizadas para ampliar uma ampla gama de inteligência do negócio com a criação de perfis de clientes ou para responder a questões científicas como o relacionamento entre a frequência e a intensidade dos distúrbios aquecimento global. no ecossistema assim como as secas com o 45 A mineração de dados é uma parte integral da descoberta de conhecimento em banco de dados (KDD – Knowledge Discovery in Databases) e envolve a aplicação de algoritmos sobre os dados, na busca de conhecimento implícito e útil. Na mineração dos dados são definidos técnicas e algoritmos a serem utilizados no problema em questão, tais como: Ferramenta de Consulta Técnicas Estatísticas Visualização Processamento Analítico on-line (ferramenta OLAP) Arvores de decisão Redes Neurais Regras de Associação Algoritmo Genético A ferramenta de consulta representa o primeiro passo no projeto de Mineração de Dados, sendo uma análise rústica do conjunto de dados, utilizando-se de ferramenta tradicional de consulta antes de aplicar algoritmo de análise mais avançado, pois é necessário conhecer alguns aspectos básicos e estruturais do conjunto de dados. Uma boa prática para iniciar o processo é extrair algumas informações estatísticas simples do conjunto de dados, as quais ajudam a estabelecer procedimentos para o julgamento dos algoritmos de aprendizagem e do reconhecimento de padrões. As técnicas de visualização dos dados representam métodos muito úteis para se conhecer a qualidade do conjunto de dados e onde os padrões podem ser usados. A ferramenta OLAP é utilizada para responder a várias consultas, com diversos tipos de relações, onde a análise multidimensional é necessária. Por sua vez a árvore de decisão é uma técnica de classificação utilizada a partir da qual se procura descobrir uma função que mapeie um conjunto de registros em um conjunto de rótulos categóricos pré-definidos. As redes neurais artificiais são modelos matemáticos inspirados no princípio de funcionamento dos neurônios biológicos na estrutura do cérebro. Esses modelos simulam computacionalmente habilidades humanas tais como aprendizados, generalizações, associação e abstração. Portanto, constitui um dos algoritmos utilizados nas tarefas do KDD. 46 As regras de associação são utilizadas para distinguir na pesquisa do banco de dados, associação interessante dentre outras que não o são. Abrange a busca de itens que frequentemente ocorram em transações de banco de dados. Os algoritmos genéticos são técnicas que procuram obter boas soluções para problemas complexos. O processo é adaptativo, pois as soluções existentes a cada instante influenciam a busca por futuras soluções (GOLDSCHMIT et al., 2005). A apresentação dos resultados do processo pode ser feita através de relatório contendo descrição textual das tendências ou através de gráficos que mostrem as relações do modelo. 2.15.1 Funcionalidades da Mineração de Dados No processo de mineração de dados é possível utilizar diversos tipos de armazenamento e banco de dados. Em função do tipo de dados é possível definir que tipo de padrões ou relacionamento se quer obter através de mineração dos dados. A funcionalidade na mineração de dados é uma busca para especificar que tipos de padrões ou relacionamentos existem entre os registros ou variáveis que podem ser usadas na mineração (AZEVEDO et al., 2005). Alguns autores tratam essa funcionalidade como recompensas (outcomes) ou tarefas (tasks). A literatura, em muitos casos não deixa clara a diferença entre funcionalidades e técnicas. A seguir, a figura 5 mostra, em camadas, as interações entre funcionalidades técnicas e algoritmos. 47 FIGURA 5 - Interatividade entre funcionalidades e técnicas de mineração de dados (Azevedo & Côrtes, 2009) As funcionalidades em mineração de dados são classificadas como Análise Descritiva e Análise de Prognóstico. A figura 6 ilustra essa abordagem de funcionalidade da mineração de dados. Esta forma de expressar a funcionalidade facilita quando surge nova necessidade de análise de dados. Neste caso somente é necessário identificar a que resultado pretende chegar para escolher a técnica a aplicar. 48 FIGURA 6 - Funcionalidades em Mineração de Dados Fonte: (AZEVEDO; CÔRTES, 2005) 2.15.2 Análise Descritiva A Análise Descritiva é a área da investigação nos dados que descreve fatos relevantes, não triviais e desconhecidos dos usuários, bem como analisa a qualidade dos dados existentes, com o objetivo de validar o processo de mineração dos dados. A análise descritiva está subdividida em Análise Prévia e Descobrimento (AZEVEDO; CÔRTES, 2005): análise prévia – é o processo de análise da base de dados visando identificar anomalias ou resultados raros que podem influenciar os resultados da mineração dos dados; conhecimento – é o processo de examinar a base de dados e encontrar padrões escondidos, sem que se exista uma ideia ou hipótese previamente estabelecida. A análise prévia e o conhecimento podem ser subdivididas em subfuncionalidades, conforme figura 7, a seguir 49 FIGURA 7 – Sub-funcionalidades da Análise e do Descobrimento Fonte: (AZEVEDO; CÔRTES, 2005) 2.15.3 Análise de Prognóstico A análise de prognóstico é a área da investigação nos dados que busca inferir resultados a partir dos padrões encontrados na análise descritiva, ou seja, prognosticar o comportamento de um novo conjunto de dados. É possível dividi-la em Predição (Estimação e Predição) e Classificação. Estimação – é o processo de predizer algum valor, baseado num padrão conhecido. Por exemplo, conhecendo-se o padrão de despesas e a idade de uma pessoa, estima-se o seu salário e seu número de filhos. Predição - é o processo de predizer um comportamento futuro, baseado em vários valores. Por exemplo, baseado na formação escolar, no trabalho atual e no ramo de atividade profissional de uma pessoa, é feita a predição que seu salário será de certo montante até determinado ano. 50 Classificação – é o processo de predizer algum valor para uma variável categórica. Por exemplo, um banco financeiro pode determinar que um conjunto de clientes oferece risco ou não para contrair empréstimo pessoal. 2.15.4 Técnicas para obtenção das funcionalidades Definidas as funcionalidades para se chegar ao processo de mineração de dados é necessário escolher quais técnicas deverão ser utilizadas para garantir maior aderência na obtenção dos resultados. Por exemplo, a funcionalidade de estimação pode ser feita através da utilização da técnica de regressão linear e regressão múltipla. A tabela 3 apresenta um conjunto parcial de técnicas utilizadas para cada funcionalidade (AZEVEDO et al., 2005). TABELA 3 – Funcionalidades e suas técnicas para mineração de dados Funcionalidade Sub-Funcionalidade Técnica Análise Prévia Análise de outliers Ferramentas de consulta e técnicas estatísticas Indução por árvores de decisão Análise de desvios Ferramentas de consulta e técnicas de estatísticas Indução por árvores de decisão Visualização Agregações e gráficos diversos Classificação Indução por árvore de decisão Análise de associações Mineração de regras de associação Descobrimento booleanas unidimensionais a partir de bancos de dados transacionais. Mineração de regras de associação em múltiplos níveis a partir de banco de dados transacionais e data warehouse Mineração de regras de associação multidimensionais a partir de bancos de dados transacionais e data warehouse 51 Da mineração de associação à análise de correlação Mineração de associação baseada em restrição Agrupamento (clustering) Métodos de particionamento Métodos hierárquicos Métodos baseados em densidade Métodos baseados em grid Métodos de clustering baseados em – modelos abordagem estatística e redes neurais Análise de outliers Descrição do Conceito – Sumarização e Generalização dos (caracterização e dados baseados em caracterização comparação) Caracterização analítica – análise da relevância do atributo Segmentação Indução por árvore de decisão Sumarização e Agregação e gráficos diversos Visualização Análise em dados no Análise formato texto de dados textual e recuperação de informações Mineração de textos – classificação de documentos e associação de palavras chaves Estimação/Predição Estimação/Predição Regressão Linear Regressão Múltipla Regressão não Linear Regressão Logística Regressão de Poisson Outros modelos de regressão Classificação Classificação Indução por árvores de decisão Classificação bayeana 52 Classificação por backpropagation – Redes Neurais Artificiais Análise de vizinhança (k-Nearest Neighbor) Casos baseados em Raciocínio Algoritmos genéticos Abordagem por conjunto fuzzy 2.15.5 Algumas técnicas e algoritmos utilizados na mineração de dados A seguir serão expostas algumas técnicas e algoritmos que são utilizados na mineração de dados. Ferramenta de consulta e técnicas de estatística O primeiro passo na mineração de dados é realizar uma análise simples, preliminar, ―grosseira‖ do conjunto de dados a ser minerado, através do uso de ferramentas de consulta. Por exemplo, aplicando as funções built-in da linguagem SQL de um banco de dados relacional é possível extrair informações significativas sobre a distribuição dos dados. Conforme AZEVEDO et al. (2005), uso de funções estatísticas, como média aritmética, desvio padrão, valores máximos e mínimos e distribuição percentual de todo o conjunto de dados, bem como a geração de gráficos a partir dos dados, constituem passos iniciais importantes na mineração de dados. Visualização A técnica de visualização é muito útil para descobrir padrões em conjunto de dados. Não obstante possa parecer uma técnica não muito sofisticada, permite ter uma medida sobre a qualidade dos dados e de onde padrões podem ser encontrados. Na fase mais avançada de mineração de dados, é possível a utilização de gráficos tridimensionais de forma interativa (AZEVEDO et al., 2005). Análise de Vizinhança (K-nearest neighbor) Quando se interpreta dados como um ponto no espaço é necessário definir o conceito de vizinhança, o qual significa identificar um conjunto de registros que estão próximos, que são ―fechados‖ por alguma característica dos dados (AZEVEDO et al., 2005). Constitui basicamente uma técnica de pesquisa e não de conhecimento e é utilizada na análise de prognósticos. Árvore de Decisão 53 Uma árvore de decisão é um fluxograma (flow-chart) que tem a estrutura de uma árvore, onde cada nó interno representa uma decisão sobre um atributo que determina como os dados serão particionados pelos seus nós filhos. Cada ramo (subárvore) representa o resultado do teste e cada folha representa a distribuição dos registros. Quando utilizada em análise de prognóstico ou em classificação, sua aplicação é denominada por alguns autores de indução por árvore de decisão. Sua utilização recomenda o treinamento do método, utilizando várias amostras nos dados, até que se conheçam as melhores regras para segmentação dos dados (AZEVEDO et al., 2005). Regras de Associação Esta técnica consiste basicamente em encontrar conjunto de itens que ocorram simultaneamente e de forma frequente em um banco de dados (GOLDSCHMIDT et al., 2005). Ela permite expor características e tendências extraídas da base de dados, gerando redes de conexões presentes no conjunto de dados usando as associações item a item. Considera-se que a presença de um item impõe a existência de outro na mesma transação. O banco de dados é considerado como uma coleção de transações, cada um envolvendo um conjunto de itens. Na área de marketing é conhecido como análise de transações de compras (market basket analysis) (AZEVEDO et al., 2005). Redes neurais artificiais Em termos intuitivos redes neurais artificiais (RNAs) são modelos matemáticos inspirados nos princípios de funcionamento dos neurônios biológicos e na estrutura do cérebro (GOLDSCHMIDT et al., 2005). Esses modelos têm a capacidade de adquirir, armazenar e utilizar conhecimento experimental e buscam simular computacionalmente habilidades humanas tais como aprendizado, generalização, associação e abstração. Algoritmos Genéticos (AGs) Os Algoritmos Genéticos são modelos computacionais de busca e otimização inspirados na teoria da evolução de Charles Darwin e da reprodução genética. Enquanto os métodos de otimização e buscas convencionais trabalham, geralmente, de forma sequencial, avaliando a cada instante uma possível solução, os AGs trabalham com um conjunto de soluções simultaneamente. Modelados após o surgimento adaptativo de espécies biológicas a partir de mecanismos evolutivos os AGs vêm sendo aplicados com sucesso em campos diversificados como análise de imagem, escalonamentos e projetos de engenharia (AZEVEDO et al., 2005). Técnicas de análise de agrupamento (clustering) 54 A técnica de Clusterização, também chamada de agrupamento é usada para particionar os registros de uma base de dados em subconjunto ou clusters, de tal forma que os elementos em um cluster compartilhem um conjunto de propriedades comuns que os diferenciem dos elementos de outros clusters. O objetivo é ordenar casos (ex. pessoas, coisas e eventos) em grupos ou clusters de modo que o grau de associação seja forte entre os membros do mesmo cluster e fraco entre os membros de clusters diferentes (TURBAN, et al., 2009). 2.15.6 Abordagem de mineração de dados A abordagem de mineração de dados ou metodologias de aplicação descreve como o usuário irá conduzir o processo da mineração na obtenção de suas funcionalidades. Essencialmente existem as abordagens top-down e bottom-up, e uma terceira que é a combinação destas abordagens. Na abordagem top-down o usuário parte do princípio de que existe uma hipótese ou uma ideia preconcebida que deseja confirmá-la ou rejeitá-la. Em relação à abordagem bottom-up, também chamada de busca do conhecimento, o usuário inicia o processo de exploração de dados na tentativa de descobrir alguma coisa que ainda não é conhecimento. Na aplicação de uma dessas abordagens o usuário decidirá se usará a abordagem para busca do conhecimento na forma direta ou indireta. Busca do conhecimento direta Na busca de conhecimento na forma direta ou supervisionada sua meta é orientada. Os passos a serem seguidos são os seguintes: identificar a fonte de dados selecionados para mineração; preparar os dados para análise; construir e treinar o modelo computacional; avaliar o modelo computacional. Busca do conhecimento indireta Na busca de conhecimento na forma indireta ou não supervisionada não existe uma meta bem definida. As ferramentas são mais livres na sua aplicação sobre os dados e espera-se descobrir uma estrutura significativa sobre os dados. São adotados os seguintes passos: identificar a fonte de dados; preparar os dados para análise; 55 construir e treinar o modelo computacional; avaliar o modelo computacional; aplicar o modelo computacional no novo conjunto de dados; identificar potenciais objetivos para busca de conhecimento direta; gerar novas hipóteses para teste. 2.16 Business Performance Management – BPM Segundo TURBAN et al. (2009), business performance management é o componente final do processo de BI. Este componente baseia-se na metodologia balanced scorecard que trata de uma estrutura para definir, implementar e gerenciar a estratégia de negócios de uma empresa conectando aos seus objetivos factuais. O BPM usa a análise e a geração de relatórios e as consultas do BI. Seu objetivo é otimizar o desempenho geral de uma organização. De acordo com o referido autor, o BPM é o que define como sendo um conjunto de softwares, processos de negócios e medidas de sucesso dos negócios (métricas e KPI’s – key performance indicators) que, quando combinados, permitem a organização, agir e influenciar na performance de seus negócios. O BPM realiza avaliação de desempenho real do negócio de modo que seja possível compreender onde e quando o negócio está em risco, assim como evitar situações potenciais de risco. Um projeto de implementação de solução de BPM leva em conta a existência de um ambiente de Business Intelligence. Não obstante, a análise das informações pertinentes ao passado seja relevante é a capacidade de prever situações futuras que o justifica. No entanto, as previsões futuras devem considerar as movimentações históricas, sazonalidades, fatos externos, etc. Pode-se afirmar que quanto melhor o modelo de Data Warehouse ou dos Data Marts disponíveis, tanto melhor serão também os resultados das aplicações de planos orçamentários, forecasts e simulações. O BPM inclui um conjunto de processo de ciclo fechado que liga a estratégia à execução a fim de otimizar o desempenho dos negócios. Os principais processos são: definir estratégias, planejar, monitorar, agir ou ajustar. Para otimizar o desempenho dos negócios é necessário que as empresas tenham sistema de medida de desempenho, que auxilie os gerentes a rastrear a implementação das estratégicas de negócios comparando os resultados reais com as estratégias e objetivos. O 56 sistema de medida de desempenho engloba métodos sistemáticos de união das metas de negócios com relatórios de retorno periódico que indicam o progresso em relação às metas (SIMONS, 2002). De acordo com TURBAN et al. (2009), existe muito mais em relação à medida de desempenho do que simplesmente manter o escore. Um sistema de medida de desempenho efetivo deveria ajudar a fazer o seguinte: alinhar objetivos de nível superior com iniciativas básicas; identificar oportunidades e problemas em tempo; determinar prioridade e alocar recursos com base nas prioridades; mudar medidas quando os processos e estratégicas mudam; delinear responsabilidades, entender o desempenho real relativo às responsabilidades, e recompensar e reconhecer as realizações; agir para melhorar os processos e procedimentos quando os dados os autorizam; planejar e prever de forma mais confiável e oportuna. Para atender estes pressupostos é necessária uma estrutura de medida de desempenho holística. Nos últimos 40 anos muitos sistemas foram propostos, alguns deles com foco no financeiro, enquanto outros centrados nos processos, como o gerenciamento da qualidade total (TQM). 2.16.1 Balanced Scorecard - BSC Um dos mais conhecidos e utilizados sistema de gerenciamento é o Balanced Scorecard – BSC. O BSC foi concebido, originalmente, segundo os seus autores, como ferramenta de gestão de mensuração balanceada, apoiada em medida financeira e não-financeira, que traduzia a missão e a estratégia de uma unidade de negócio em objetivos e medidas tangíveis. Sua proposta original visava superar as limitações da gestão baseada apenas em indicadores financeiros. A sua mensuração incorporava novos indicadores que comunicam vetores de desempenho futuro, sob a forma de criação de valor mediante investimentos em clientes, fornecedores, empregados, tecnologia e inovação. A experiência da aplicação do BSC, com sucesso, em organizações públicas e privadas, mostrou que ele é mais do que um sistema de gestão de mensuração e sim de gestão estratégica, pois além de manter o interesse no desempenho financeiro, revela com clareza os 57 vetores de desempenho superior e de longo prazo em termos competitivos e de criação de valor. Nesta nova abordagem, busca-se converter a estratégia em processo contínuo a ser executado, não somente pela Alta Administração, mas também por toda a organização (PEIXINHO, 2002). De acordo com KAPLAN et al. (2001), nas suas pesquisas sobre empresas bemsucedidas do balanced scorcard revelaram um padrão consistente na consecução do foco e alinhamento estratégico. Foi observada a atuação de cinco princípios comuns, chamados de princípios da organização focalizada na estratégia: Principio 1. - Traduzir as estratégias em Termos Operacionais – o BSC fornece sistema referencial para descrever e comunicar a estratégia de maneira coerente e criativa para toda a organização denominado ―Mapa Estratégico‖. Princípio 2 – Alinhar a Organização à Estratégia - trata-se de um princípio fundamental para garantir o alinhamento de todos ao foco estratégico. Este princípio busca promover o alinhamento entre o scorecard corporativo e os scorecards das unidades de negócios e de serviços de apoio. Princípio 3 – Transformar a Estratégia em Tarefa de Todos. Este princípio estabelece, para as organizações orientadas para a estratégia, a necessidade de que todos os empregados compreendam a estratégia e conduzam as suas tarefas cotidianas de modo a contribuir para o seu êxito. Princípio 4 – Converter a Estratégia em Processo Contínuo. As empresas que adotam o BSC implementam de forma integrada, num único processo, o gerenciamento estratégico e o gerenciamento tácito (orçamentos financeiros e avaliações mensais) de forma ininterrupta e contínua. Este processo envolve as seguintes etapas vinculadas à estratégia: orçamentação, sistema de informações (feedback) e reuniões. Principio 5 – Mobilizar a Mudança por meio da Liderança Executiva. Este princípio propõe, através de Liderança Executiva concentrar inicialmente o foco na mobilização das pessoas e, em seguida, no processo de governança para se concluir com a implementação de novo sistema gerencial. O BSC é planejado para superar as limitações de sistemas que têm foco financeiro. Ele faz isso traduzindo a visão e estratégia de uma empresa em objetivos financeiros e não financeiros, medidas, metas e iniciativas. Para alinhar as estratégias e as ações, o BSC utiliza o Mapa Estratégico que é arquitetura genérica para descrever a estratégia. A lógica de causa e efeito do referencial constitui a hipótese da estratégia (KAPLAN et al., 2001). 58 2.16.2 Arquitetura do BPM O termo arquitetura de sistema refere-se aos projetos lógicos e físicos de um sistema. O projeto lógico detalha os elementos funcionais e suas interações enquanto o projeto fisico especifica como o projeto lógico vai ser implementado e implantado. O BPM, segundo TURBAN et al. (2009), envolve a integração de componentes individuais, que devem ser integrados para contribuir para a implementação bem-sucedida da estratégia. Estes componentes, exemplificado são os seguintes: camada de banco de dados - camada que contém a definição da organização, que abrange seu passado, presente e futuro e é expressa em termos de estrutura e regras de negócios; ela também contém informações e vínculos a informações, na forma de planos e resultados; camada de aplicações - esta camada alimenta os processos BPM transformando a interação do usuário e os dados fontes em orçamentos, planos, previsões, relatórios e análises; camada de cliente ou interface de usuário - camada utilizada para dirigir e regular a implementação da estratégia por meio de comunicação, colaboração e orientação com o usuário. Na arquitetura de BPM a camada de banco de dados proporcionam os metadados, bem como os dados sobre os quais se apóiam as aplicações BPM. Esta camada também armazena documentos estratégicos, planos táticos, dentre outos. A camada acomoda uma variedade de aplicações, que envolvem um ciclo fechado, desde o planejamento estratégico a planejamento operacional, orçamento, monitoramento, ajustes e ação. A interface com usuário é a ponte que liga o BPM ao usuário final. A interface é função da aplicação específica que está sendo acessada, bem como do papel dos usuários , seus objetivos e expectativas. Nos últimos anos o navegador Web tornou-se a ferramenta principal de acesso às informações em um sistema BPM. 2.16.3 Dashboards e Scorecards Segundo TURBAN et al. (2009), os scorecards e dashboard são componentes comuns, de grande parte dos sistemas de gerenciamento, sistema de medição de desempenho e suítes de BPM. Tanto um quanto o outro proporcionam exibições visuais de informações importantes, consolidadas e organizadas em uma tela única para serem absorvidas e 59 exploradas facilmente. Eles fornecem informações imediatas sobre o desempenho dos negócios em toda a empresa. Ainda que scorecards e dashboards tenham muitos pontos em comum existem diferenças entre os dois. A mais importante delas é que os dashboards de desempenho são apresentações visuais para monitorar o desempenho operacional, enquanto os scorecards de desempenho são exibições visuais voltadas para mapear o progresso com relação às metas estratégicas e táticas. O autor acima citado afirma que os scorecards e dashborards bem planejados possuem as seguintes características: usam componentes visuais (p.ex., gráficos, barras de desempenho, indicadores, medidores, semáforos) para destacar de forma imediata os dados e exceções que exigem ação; são transparentes aos usuários; ou seja, apresentam facilidades e uso com pouco treinamento; combinam dados de diversos sistemas para formar um visão do negócio única, resumida e unificada; possibilitam a realização de drill down (ou navegar através) em fonte de dados ou relatórios; apresentam uma visualização dinâmica e prática com atualização pontual dos dados. exigem poucos ou nenhum código customizados para implantar e manter. 2.17 Trabalhos Relacionados Vale ressaltar que não foi encontrado nenhum trabalho no nível de abordagem do tema – Sistema de Apoio à Decisão, baseado em BI, aplicado aos recursos hídricos subterrâneos. Na literatura existem pesquisas e trabalhos específicos utilizando separadamente os componentes do BI (data warehouse, data mining e ferramentas OLAP), merecendo destacar, todavia, a dissertação que trata da Mineração de Dados em Data Warehouse para Sistema de Abastecimento (GOUVEIA, 2009). Este trabalho apresenta uma proposta de utilizar a tecnologia de banco de dados com a finalidade de oferecer apoio à decisão para os gestores do setor de saneamento. Envolvem as tarefas de sintetizar e organizar num Data Warehouse os dados do setor de saneamento e aplicar tecnologias OLAP e algoritmos de 60 Mineração de Dados para obtenção de resultados que proporcionem aos gestores um melhor entendimento dos processos e torne mais eficaz à tomada de decisão. O levantamento feito internacionalmente, tanto na ambiência institucional como de pesquisa em recursos hídricos mostrou que a maioria dos sistemas de informações em recursos hídricos não utiliza de forma integrada os componentes que compõem o BI. Normalmente, é adotado o sistema de apoio à decisão voltado para modelagem de bacias hidrográficas e simulação de cenários que visam responder questões relacionadas à disponibilidade e uso dos recursos hídricos. A seguir são apresentadas algumas experiências: Continente Europeu Projeto de Pesquisa – (BELO, et. al., 2000) - compreende o desenvolvimento de um sistema de informação para a análise e validação de qualidade das águas na região de Alqueva, em Portugal. A plataforma do sistema pressupõe uma abordagem multidisciplinar, incluindo a participação de técnicos responsáveis pela gestão da água, especialistas de modelagem hidrológica, de qualidade da água, de gestão de base de dados e processamento analítico. Em termos básicos, envolve o monitoramento, diagnóstico e emissão de relatórios. O sistema, também, permite definir cenários na gestão das águas. Sua estrutura é constituída de 03 (três) subsistemas: sistema de informação; de modelação e análise. Projeto de Pesquisa – um Sistema de Data Warehousing para à Área da Qualidade da Água – Este trabalho foi centrado na criação de um sistema de data warehousing para qualidade de água para consumo urbano e para a prática balnear. Posteriormente foi feito um estudo acerca da previsão da qualidade da água nestas duas situações, para os anos seguintes, através de técnicas de mineração de dados. As áreas de estudo escolhidas foram a barragem de Crestuma-Lever e a praia fluvial Olho D’água, em Portugal, respectivamente. (FERNANDES , et. al., 2001) . Continente Americano Projeto Institucional – United State Geological Survey – USGS – dispõe de um Sistema Nacional de Informações sobre Águas (USGS National Information System), o qual contém dados sobre recursos hídricos para a nação, de acesso público. Em relação a águas subterrâneas, o USGS tem cerca de 850.000 registros de poços, com informações de coordenadas geográficas, dados descritivos de poços, profundidade e tipo de aquífero. Uma rede de 61 monitoramento de poços é mantida fornecendo dados ―on line‖ acerca de nível d’água, gerando relatórios analíticos. A título de ilustração, segue o gráfico da Figura 8, que apresenta um relatório do sistema via Web. FIGURA 8 - Gráfico de Nível D’água de um Poço (USGS) Além disso, o USGS dispõe de Data Warehouse para avaliação nacional da qualidade da água. Este trabalho começou em 1991 com a coleta sistemática de dados físicos, químicos e biológicos de qualidade de água de 42 unidades de estudos (bacias). O Data Warehouse contêm os seguintes dados: concentração química da água; variáveis descritivas da unidade de estudo fluxo diário dos locais de amostragem amostras de nutrientes, sedimentos e organismos aquáticos A maioria destes dados é originário do Sistema Nacional de Informações de Qualidade de Água, do USGS. Continente Asiático No continente asiático, tomando como referência a experiência da Índia, constatase a existência de um sistema de apoio à decisão aplicado a recursos hídricos. É uma ferramenta usada para planejamento e gestão dos recursos hídricos. O sistema é personalizado e definido para cada agência gestora de água. O sistema se apoia em base de dados e modelos 62 matemáticos. Sua saída são relatórios simples no padrão MS-produtos (EXCEL e WORD) ou HTML para publicação na WEB. Este sistema tem por objetivo atender ao desenvolvimento integrado dos recursos hídricos abordando cinco componentes de planejamento e gestão da água: Planejamento de águas superficiais e subterrâneas Operação integrada de reservatórios Monitoramento, avaliação e gestão das secas; Gestão da qualidade de água de superfície e subterrânea Em relação a sua funcionalidade o sistema contempla: Gerenciamento das séries espaciais e temporais; Gestão de cenários para definir e executar simulações do modelo que permitem análise e processamento dos resultados. Análise de custo-benefício mediante método de multicritério; Análise e processamento dos resultados. Destaca-se como ferramentas usadas pelo sistema o seguinte: MB MIKE BASIN TA Temporal Analyst M11 MIKE 11 MS MIKESHE 63 2 MODELO CONCEITUAL DE SISTEMA DE APOIO À DECISÃO APLICADO AOS RECURSOS HÍDRICOS SUBTERRÂNEOS Este capítulo descreve a metodologia para construção do modelo conceitual de um Sistema de Apoio à Decisão, baseado em Business Intelligence –BI, envolvendo a descrição do sistema operacional (SIAGAS/RIMAS), do Data Warehouse, da Análise do Negócio e da Monitoria e Avaliação de Desempenho. 3.1 Descrição Geral Na concepção do modelo conceitual do SAD, baseado em Business Intelligence (BI) aplicado aos recursos hídricos subterrâneos, levou-se em conta os seguintes aspectos: as águas subterrâneas são de domínio dos Estados da Federação, que tem legislação própria sobre recursos hídricos e dispõe de sistemas de informação e base de dados específicos, que ainda não se integram com o Sistema de Informações de Águas Subterrâneas – SIAGAS. Constata-se que 60% dos estados mantem Acordos de Cooperação Técnica para intercâmbio dos dados com a banco de dados administrado pelo SIAGAS; o SIAGAS é recomendado pelo Conselho Nacional de Recursos Hídricos – CNRH, através da Moção no 018, como instrumento a ser adotado na gestão dos recursos hídricos subterrâneos, devido ao fato de gerenciar uma base de dados nacional de águas subterrâneas e por adotar um modelo e dicionário de dados padronizados; a necessidade de se dispor de uma base de dados confiável e representativa oriunda de diversas fontes de dados, devidamente integrada e consistida, proporcionando a existência de um sistema de apoio à decisão em recursos hídricos voltado para a gestão estratégica desta área de conhecimento. Um Sistema de Apoio à Decisão (SAD), integrado ao Business Intelligence foi concebido com o objetivo de apoiar, contribuir e influenciar na tomada de decisão, nos níveis operacional, tático e estratégico, na gestão de águas subterrâneas. Conforme ilustra a figura 9, o SAD projetado nesta pesquisa é constituído pelos seguintes componentes: a) Base de Dados Operacionais a.1 Base de Dados Operacional (SIAGAS/RIMAS) a.2 Base de Dados Referencial ( Operacional Data Store – ODS) b) Data Warehouse Departamental c) Ferramenta de Apoio a Decisão (Análise e Visualização da Informação) 64 c.1 Ferramentas OLAP c.2 Data Mining d) Gestão Estratégica do Negócio d.1 Business Performance Management – BPM FIGURA 9 – Modelo Conceitual do SAD Aplicado a Recursos Hídricos Subterrâneos Fonte: Adaptação de (FERNANDES, 2010). A solução de governança adotada neste projeto de SAD que se apoia em fontes de dados internas (projetos e rede RIMAS) e externas (órgãos gestores e intervenientes em recursos hídricos) e em sistemas não integrados foi organizar a maneira como a informação é armazenada, disponibilizada e acessada. Neste sentido adotou-se, no ambiente operacional, o SIAGAS e o ODS ou banco de dados referencial, este último, como uma área para consolidação de dados de diversos sistemas-fontes, integração e preparação para transferência para o DW Departamental. Desta forma o ODS, constitui um banco de dados intermediário, entre o banco de dados operacional e o DW. Ao contrário dos conteúdos estáticos do DW, os conteúdos do ODS são atualizados durante o curso das operações. O SIAGAS por sua vez é um sistema operacional que tem a capacidade de receber dados de diversas fontes e armazená-lo num formato único e específico para consulta. Todavia estas fontes de dados por vezes são incompletas, inconsistentes e não padronizadas. Esta condição permite considerar no modelo proposto de sistema de apoio à decisão deste trabalho um ODS ou Base de Dados Referencial, a qual representará uma base operacional com um subconjunto de dados mais qualificado, bem como servirá de área de preparação para o Data Warehouse Departamental. O SAD proposto permitirá análise e visualização de informações para subsidiar o aumento de oferta hídrica, através da revitalização de poços; a gestão dos recursos hídricos, 65 por meio do instrumento de outorga pelo uso da água; e a avaliação da disponibilidade hídrica subterrânea, através da produção de mapas temáticos de hidrogeologia. As Ferramentas de Apoio à Decisão, no contexto deste trabalho, são softwares que manipulam os dados extraídos do ODS e/ou DW através de estrutura de cubos de dados, de funções de agregação, estatísticas ou de funções gráficas. Elas auxiliam na simulação dos dados, proporcionando a descoberta do conhecimento. 3.2 Modelo de Negócio 3.2.1 Modelo de Proposta de Valor O SIAGAS é uma ferramenta que está incorporada ao Sistema Nacional de Informações sobre Recursos Hídricos, um dos instrumentos da Política Nacional de Recursos Hídricos cuja Lei Federal no 9.433 foi instituída em 08 de janeiro de 1997. Além disso, atende as necessidades das legislações estaduais em relação às políticas estaduais de recursos hídricos, na medida em que a maioria delas obedecem aos princípios estabelecidos na lei federal, a seguir descritos: a adoção da bacia hidrográfica como unidade de planejamento; uso múltiplo das águas; o reconhecimento da água como um bem finito e vulnerável; o reconhecimento do valor econômico da água, indutor do seu uso racional; gestão descentralizada e participativa, ou seja, o que pode ser decidido em níveis hierárquicos mais baixos do governo não pode ser resolvido por nível mais altos da hierarquia. Em relação à lei acima citada foram definidos cinco instrumentos essenciais à gestão das águas, abaixo descritos: o Plano Nacional de Recursos Hídricos, que atualiza e consolida os planos diretores de recursos hídricos; a Outorga de Direito de Uso dos Recursos Hídricos, o qual o usuário recebe uma autorização, ou uma concessão, ou ainda uma permissão para fazer uso da água; a Cobrança pelo Uso da Água, essencial para criar as condições de equilíbrio entre a oferta e a demanda e harmonizar os interesses dos diversos usuários; o Enquadramento dos Corpos D’água em Classes de Uso; 66 o Sistema Nacional de Informações sobre Recursos Hídricos - SNIRH, encarregado de coletar, organizar, consistir e difundir a base de dados relativa aos recursos hídricos. Em relação ao quinto instrumento acima mencionado, o Sistema Nacional de Informações sobre Recursos Hídricos (SNIRH), o mais aderente ao propósito desta dissertação, o que se pode dizer é que o Sistema de Informações de Águas Subterrâneas – SIAGAS, concebido em 1996, se incorporará ao SNIRH, ainda em desenvolvimento. Em relação aos estados a maioria não dispõe de sistemas de informações sobre recursos hídricos, o que torna o SIAGAS, incrementado com componentes do BI, um ferramenta de apoio à decisão para águas subterrâneas, junto aos gestores e intervenientes em recursos hídricos, apresentando os seguintes fatores críticos de sucesso: gestão otimizada da informação recebida; integração dos resultados de diferentes áreas; eliminação da duplicação do trabalho; promoção de análises multi-disciplinares; intercâmbio de dados e informações entre os órgãos; articulação entre os diversos sistemas de informações. A utilização pelos usuários (planejadores, gestores, pesquisadores, etc) do sistema de apoio à decisão aplicado aos recursos hídricos subterrâneos, ancorado no SIAGAS, o qual adota modelo e dicionário de dados padronizados constitui num diferencial do Serviço Geológico do Brasil, em face de sua competência e por promover a unificação das bases de dados, facilitando o intercâmbio e integração entre sistemas, nos diversos níveis hierárquicos e por proporcionar maior eficiência, eficácia e efetividade na aplicação dos instrumentos que compõem à política nacional de recursos hídricos. 3.2.2 Modelo de Interface com o Usuário O Sistema de Apoio à Decisão preconizado manterá uma interface com o usuário, de forma transparente, seja na geração como na disponibilização dos dados A coleta dos dados será feita – utilizando equipamentos de última geração como GPS, palm top e smartphones - de forma descentralizada e assíncrona e suportado por acordos de cooperação técnica para promover o intercâmbio permanente de dados entre os principais fornecedores externos (órgãos gestores e intervenientes em recursos hídricos) e o SGB. Por outro lado, a maioria das fontes externas utilizará ferramenta SIAGAS para transferência de dados, o que 67 eliminará a necessidade de utilização de importadores de dados. Uma forma de alimentação de dados é por meio do programa de entrada de dados do sistema, disponível para download, bem como pela possibilidade de alimentação dos dados via web. Em relação ao uso de dados e informações, serão colocadas à disposição do usuário ferramentas de ―middleware‖ as quais permitirão o acesso à base de dados pelos usuários avançados e escrever a sua própria consulta em SQL. Além disso, outras facilidades funcionais em ambiente de Web mining permitirão realizar pesquisas tabulares e espaciais, bem como a geração de relatórios customizados "ad hoc" e ―download‖ da base de dados. Deverão ser elaborados programas de treinamento à distância para os usuários, visando à fidelização do uso do sistema. Os principais tópicos do treinamento são: a) metodologia de cadastramento de fontes por abastecimento de águas subterrâneas; b) implantação, operação e utilização do sistema de apoio à decisão aplicado às águas subterrâneas; c) metodologia para realização da outorga de direito de uso dos recursos hídricos subterrâneos. 3.2.3 Modelo de Operação O modelo de operação envolverá, de forma descentralizada e assíncrona, a execução dos processos de coleta, consistência e alimentação de dados, extraídos de diversas fontes, tais como: a) interna: dados da rede integrada de monitoramento das águas subterrâneas e de projetos específicos do SGB; b) externa: dados dos órgãos gestores e intervenientes em recursos hídricos e de usuários diversos. A alimentação dos dados, para banco de dados central será feita da seguinte forma: fontes internas: transferência, via WEB, para o banco central de dados; fontes externas: transferência, em meio digital ou Web, para unidades descentralizadas do SGB que, após consistidas, serão transferidas, via WEB, para o banco central de dados. Cabe observar que a consistência dos dados é uma questão que deve ser abordada segundo duas estratégias distintas de processamento. A primeira, e mais evidente, é que determinados atributos podem ser criticados e validados automaticamente pelo sistema, pois são facilmente caracterizados e determinados por regras perfeitamente definidas. O atributo de pH da água, por exemplo, é sabidamente um valor entre 0 e 14 (valor prático). Deste modo, um valor preenchido com 50 pode ser perfeitamente identificado pelo sistema, que exibirá um 68 aviso de exceção. Um caso análogo seria uma georreferenciação de um poço perfurado em uma coordenada geográfica localizada em um oceano, lago, ou rio. A segunda estratégia, por sua vez, está relacionada a critérios subjetivos, ou ainda, de modelagem computacional significativamente mais complexa. Os dados preenchidos por um operador tido como distraído devem ser analisados por um ser humano para poder identificar eventuais equívocos. Entretanto, como caracterizar que o operador foi displicente? Além disso, seja um poço que tradicionalmente tem uma profundidade de 20m, mas que em um determinado momento é atualizado para 2m. Houve de fato uma variação significativa, ou foi simplesmente um erro de digitação? A intervenção humana tende a ser a resposta mais adequada para ambos os casos, ao menos no presente momento de maturidade do sistema. Os dados armazenados na base central serão transferidos para um Data Store Operacional e, em seguida, realizada a extração dos dados para um Data Mart Departamental, com vista a sua disponibilização (Navegadores Web, Portais Corporativos e Outras Ferramentas). A figura 10 ilustra o modelo de negócio para o Sistema de Apoio à Decisão Aplicado aos Recursos Hídricos Subterrâneos. FIGURA 10 - Modelo de Negócio do SAD Aplicado aos Recursos Hídricos Subterrâneos 3.2.4 Modelo Estratégico Segundo CHIAVENATO et al. (2003), o processo de planejamento estratégico é constituído dos seguintes elementos: Declaração de missão 69 Visão de negócios Diagnóstico estratégico externo Diagnóstico estratégico interno Fatores críticos de sucesso Sistema de planejamento estratégico Definição de objetivos Análise dos grupos de influência Formalização do plano Auditoria de desempenho e resultados. O processo de planejamento estratégico, analisado sob a ótica do Sistema de Apoio à Decisão aplicado aos recursos hídricos subterrâneos, apresenta-se da seguinte forma: Declaração de Missão – gerar e difundir o conhecimento hidrológico e geológico para o desenvolvimento sustentável do país, através do uso, entre as diversas formas, de Sistema de Apoio à Decisão. Visão do Negócio – tornar o Sistema de Apoio à Decisão aplicado aos recursos hídricos subterrâneos reconhecido nacional e internacionalmente como a ferramenta de suporte à gestão dos recursos hídricos subterrâneos. Diagnóstico Estratégico Externo: a necessidade de implementar os instrumentos das políticas de recursos hídricos, nos níveis federal e estaduais, em especial os sistemas de informações sobre recursos hídricos, constituem uma oportunidade para dotar todos os órgãos gestores de ferramenta adequada para a implementação dos instrumentos de gestão. Diagnóstico estratégico interno - a elevada capilaridade operacional da empresa, tendo unidades executivas na maioria das unidades da federação; o modelo e dicionário de dados padronizados, facilitando o intercâmbio de informações; a utilização de equipes técnicas especialmente treinadas na consistência, alimentação e produção de conhecimento no âmbito da hidrogeologia são competências essenciais que a credenciam na liderança deste sistema; Fatores Críticos de Sucesso - para consecução da missão destacam-se como fatores críticos de sucesso: a) formalizar parcerias com os órgãos gestores e intervenientes em recursos hídricos; b) aperfeiçoar e modernizar o sistema de informações de águas subterrâneas e agregar valor ao mesmo introduzindo a 70 filosofia de sistema de apoio à decisão baseado em BI; c) promover o enriquecimento da base de dados; Planejamento Estratégico – a longo prazo pretende-se que todos os órgãos gestores em recursos hídricos (federal e estaduais) adotem o Sistema de Apoio à Decisão aplicado aos recursos hídricos subterrâneos. Internacionalmente o mesmo deve estar incorporado aos serviços geológicos dos países íbero- americanos; Plano de Ação – a implementação das ações estratégicas dar-se-á buscando parcerias com os diversos órgãos intervenientes em recursos hídricos, visando o intercâmbio de dados, treinamento técnico, enriquecimento de dados e fornecimento de facilidades no âmbito do acesso e disponibilização de dados e informações; Avaliação de Desempenho e Resultados – utilização do Sistema de Gerenciamento de Projetos, associada à metodologia ―Business Performance Management‖ para medir os resultados alcançados. 3.2.5 Modelo Econômico O modelo econômico que dará apoio ao Sistema de Apoio à Decisão Aplicado aos Recursos Hídricos Subterrâneos estará sustentado nos seguintes mecanismos: Nacional a) recurso do Programa de Aceleração de Crescimento - PAC para execução dos projetos: coleta, consistência e alimentação e difusão de informações hidrogeológicas; cadastramento aperfeiçoamento de fontes de e modernização abastecimento por do sistema; águas e subterrâneas; enriquecimento da base de dados; b) acordos de cooperação técnica com os órgãos gestores e intervenientes em recursos hídricos visando o intercâmbio de dados para o sistema; c) fortalecimento financeiro e institucional dos órgãos gestores de recursos hídricos; Internacional a) acordos de cooperação técnicas com os serviços geológicos de 23 (vinte e três) países ibero-americanos, incluindo Portugal e Espanha; 71 b) desenvolvimento de projeto multinacional de avaliação das águas subterrâneas dos países ibero-americanos. 3.3 Descrição do Sistema Operacional – SIAGAS/RIMAS Sistema de Informações de Águas Subterrâneas - SIAGAS A Companhia de Pesquisas de Recursos Minerais – O Serviço Geológico do Brasil – objeto deste trabalho tem a missão de gerar e difundir conhecimento hidrológico e geológico para o desenvolvimento sustentável do país. Foi dentro desta linha de atuação que, em 1997, o SGB desenvolveu o Sistema de Informações de Águas Subterrâneas - SIAGAS, com o objetivo de coletar, consistir, armazenar e disponibilizar dados e informações hidrogeológicas. Inicialmente, o SIAGAS visou dar suporte à elaboração de mapas hidrogeológicos inseridos no Programa Levantamentos Geológicos Básicos da CPRM e, posteriormente, ampliou o espectro de atuação para atender as demandas dos diversos tipos de usuários incluindo aqueles relacionados com as políticas de recursos hídricos. Como consequência o Conselho Nacional de Recursos Hídricos – CNRH, emitiu a moção no 38 recomendando a adoção do SIAGAS na gestão dos recursos hídricos. Uma das preocupações prioritárias foi de fornecer aos gerentes e tomadores de decisão informações cada vez mais qualificadas e relevantes relativas às águas subterrâneas. Daí que a filosofia adotada foi de construir um banco de dados relacional, estruturado em um modelo e dicionário de dados padrão, com uma gama ampla de atributos, de modo a permitir maior flexibilidade, racionalização e intercâmbio com outras bases de dados e com outros sistemas. Outra finalidade do sistema era permitir o fácil acesso à informação pela Internet, por parte das entidades públicas e privadas. Para compor o seu acervo de dados foram originalmente coletadas fichas, relatórios e dados de poços fornecidos por diversas instituições públicas e privadas, as quais passaram a integrar uma rede interinstitucional para intercâmbio de dados hidrogeológicos viabilizada através de Acordos de Cooperação Técnica. Em 2002 foram feitas melhorias no seu modelo de dados, bem como incorporada nova funcionalidade ao sistema através do aplicativo de análise e interpretação de dados hidrogeológicos. Atualmente, o SIAGAS é um sistema de informações operacional que fornece suporte a pesquisa, estudos e gestão das águas subterrâneas. A sua arquitetura é de cliente- 72 servidor e se apoia no SGBD SQL Server, permitindo o controle rigoroso das permissões de acesso, carregamento e alteração dos dados. Ele incorpora na sua estrutura ferramentas gráficas, para consistência de dados; sistema de informações geográficas e rotinas de importação e exportação de dados em diversos formatos. Os recursos apresentados pelo programa de entrada de dados poderão estimular a padronização e a integração interinstitucional, facilitando a constituição de uma base de dados nacional. O programa de consulta na Web oferece facilidades de pesquisas hierarquizadas, tanto pontuais como espaciais, permitindo aos usuários, utilizá-lo numa ampla gama de aplicações e, opcionalmente, aos usuários da área de pesquisa, planejamento e gestão, contar via parceria ou aquisição no mercado, com poderosa ferramenta de interpretação de dados. O modelo de dados é relacional e contempla 59 (cinquenta e nove) tabelas dispostas no formato Esquema Estrela, idealizado por Ralph Kimball, conforme figura 11. FIGURA 11 – Modelo de Dados do SIAGAS O dicionário de dados é padronizado. O SIAGAS é constituído por 03 (três) módulos: Módulo de Entrada de Dados - possui funções de atualização de dados de poços (inclusão, exclusão e alteração), de consistência dados e de geração de relatórios simplificados. Este software é de uso público e irrestrito. Na figura 12 é apresentada uma tela de entrada de dados, a qual contempla 73 funcionalidades relacionadas com a captura de imagem e de fotos e visualização do estado dos atributos ( existente ou não) na base de dados. FIGURA 12 – Módulo de Entrada de Dados Módulo de Consulta na Web - permite realizar pesquisas simples e complexas na base de dados de poços, utilizando ferramentas SIG para realizar cruzamento de informações em mapas e tabelas, bem como realizar a exportação dos dados, num limite fixado, em diversos formatos. As figuras 13 e 14, a seguir, ilustram este tipo de pesquisa. 74 FIGURA 13 – Módulo consulta na Web - cruzamento de informação espacial e tabular FIGURA 14 – Módulo Consulta na Web - espacialização de dados Módulo de Análise e Interpretação de Dados - possui funcionalidades de ambiente SIG, permitindo a análise e interpretação de dados hidrogeológicos e a geração de relatórios avançados. Este aplicativo é de uso restrito do SGB. A figura 15 apresenta um tipo de saída de dados. 75 FIGURA 15 – Módulo de Análise e Interpretação de Dados – Relatórios A CPRM na condição de empresa pública Governo Federal vem adotando a política de uso de software livre. Neste sentido, o SIAGAS está migrando do ambiente proprietário para ambiente de multiplataforma, já tendo o Módulo II – Análise e Interpretação de Dados ajustado para esta nova configuração. Os dados contidos na base de dados operacional de águas subterrâneas da CPRM são provenientes de fontes internas e externas. As fontes internas são dos projetos de cadastramento de fontes de abastecimento por águas subterrâneas e da Rede Integrada de Monitoramento de Águas Subterrâneas – RIMAS, esta última recentemente implantada. As fontes externas são provenientes dos órgãos gestores e intervenientes em recursos hídricos e empresas perfuradoras de poços. Neste contexto a referida base de dados apresenta três níveis de qualidade dos dados, em relação as falhas e inconsistências: Nível 1 – dados armazenados com regular qualidade. As fontes destes dados são predominantemente de empresas privadas ou de órgãos gestores e intervenientes dos recursos hídricos, os quais ainda não implantaram de forma satisfatória mecanismo/instrumento de controle e/ou processo de outorga pelo direito de uso da água. Nível 2 - dados armazenados com boa qualidade. As fontes de dados são oriundas, principalmente, dos órgãos gestores e intervenientes em recursos hídricos que implantaram 76 instrumentos de outorga pelo uso da água ou têm mecanismo de controle sobre a captação das águas subterrâneas. Nível 3 - dados armazenados com muito boa qualidade. Dados provenientes de projetos de pesquisas e da rede integrada de monitoramento de águas subterrâneas. Rede Integrada de Monitoramento de Águas Subterrâneas - RIMAS A Rede Integrada de Monitoramento de Águas Subterrâneas do Brasil – RIMAS, a qual se integra o SIAGAS, iniciou sua implantação, pelo SGB, em 2009, e conta 182 estações monitoradas distribuídas nos principais aquíferos brasileiros, conforme a figura 16. O seu objetivo é ampliar o conhecimento hidrogeológico e acompanhar a variação espacial e temporal da qualidade e quantidade das águas subterrâneas para fins de gestão integrada dos recursos hídricos. FIGURA 16 – Rede RIMAS – Mapa de Situação dos Aquíferos O critério de seleção dos aquíferos para compor a rede RIMAS foram os seguintes: aquíferos sedimentares; importância socioeconômica; aspectos de vulnerabilidade natural e risco; representatividade espacial do aquífero; existência de poços de monitoramento. A densidade dos poços da rede é variável e levou em conta o uso da água, o uso e ocupação do solo, a densidade demográfica e a extensão do aquífero. Além disso, considerou- 77 se que a densidade deveria ser suficiente para obtenção dos valores representativos das condições hidrogeológicas, carga hidráulica, variação de níveis d’água e alterações da qualidade. Além dos dados básicos relativos à engenharia do poço, hidrodinâmicos e hidroquímicos levantados quando da instalação do ponto de monitoramento, também são obtidos os seguintes parâmetros na rede de monitoramento: nível d’água, na frequência diária; condutividade elétrica, na frequência trimestral; análise físico-química completa, na frequência de 5 anos. Os equipamentos de medição utilizados são semiautomáticos, os quais armazenam os dados em ―data logger‖, para recolhimento trimestral pela equipe de campo. Os dados coletados no ―data logger‖ serão submetidos a uma análise de consistência utilizando ferramentas estatísticas. Após este tratamento os dados são enviados para armazenamento na base central de dados. Desta forma os dados recolhidos pela rede RIMAS e que compõe a base de dados operacional de águas subterrâneas corresponde ao segmento da base de dados que apresentam melhores características para compor um Data Mart Operacional e Data Warehouse Departamental, componentes do modelo de sistema de apoio à decisão proposto neste trabalho. Os dados levantados na rede RIMAS tem uma estrutura de dados compatível com a do SIAGAS, necessitando, apenas, pequenos ajustes no modelo de dados. 3.4 Pré-processamento A base de dados operacional de águas subterrâneas contém cerca de 215.000 poços cadastrados, de todo território nacional, como ilustra a figura 17. Os dados nela contidos são insumos essenciais para diversas aplicações em hidrologia, tais como: gestão dos recursos hídricos, avaliação das disponibilidades hídricas, através dos mapas hidrogeológicos, aumento de oferta da água, por meio da revitalização dos poços profundos ou para o controle da contaminação dos aquíferos, entre outros. 78 FIGURA 17 – Mapa de distribuição dos poços cadastrados na base de dados Os dados que compõem a base de dados podem ser agrupados nas seguintes classes: dados gerais; formação geológica; dados hidrodinâmicos; dados hidroquímicos. Estas classes de dados guardam diferenciados níveis de importância em relação aos tipos de aplicação. A gestão de recursos hídricos tem necessidades de dados, com igual nível de importância de todas as classes, enquanto o controle da contaminação dos aquíferos demanda dados, com maior relevância, da classe de dados hidroquímicos. Para traçar uma política de aumento de oferta de água, através da revitalização de poços, em região com elevado ―stress‖ hídrico, como o semiárido brasileiro, dispor de dados hidrodinâmicos e hidroquímicos são essenciais para o adequado aproveitamento da água. A produção de mapas hidrogeológicos, como os outros tipos de aplicações, necessita de dados de todas as classes, porém dispor de dados da classe formação geológica (perfil litológico e construtivo) é essencial para a qualidade do mapa hidrogeológico produzido. Desta forma, quanto mais completos forem os dados do registro do poço maior a chance de ter dados qualificados, 79 essencial para o sistema de suporte a decisão. Sob esta ótica, esta dissertação permitiu direcionar ações no sentido de aprimorar o conteúdo informativo da base de dados, a saber: coleta e armazenamento de dados da rede RIMAS, os mais completos e qualificados; coleta e armazenamento de dados, oriundos do órgãos estaduais gestores de recursos hídricos, que realizam a outorga do uso da água, que por requisito fornece dados de poços mais qualificados; levantamento de campo dos poços escolhidos na base de dados, mediante critério de negócio pré-estabelecido. Historicamente, o controle e gerenciamento deficiente das águas subterrâneas resultaram na formação de uma base de dados que apresenta falhas e inconsistências. O presente trabalho tornou evidentes estas características e permitiu adotar medidas com o objetivo de minimizar seu impacto na operação do Sistema de Apoio à Decisão. Neste sentido, além das ações acima apresentadas estão sendo formalizados acordos de cooperação técnica com os órgãos gestores e intervenientes para uso do SIAGAS e intercâmbio de dados. Os dados que compõe a base de dados são oriundos de fontes internas e externas. As fontes internas são dos projetos desenvolvidos pela CPRM ou da Rede Integrada de Monitoramento de Águas Subterrâneas – RIMAS, enquanto que as fontes externas são provenientes dos órgãos gestores e empresas públicas e privadas. O processo de alimentação da base de dados é feito mensalmente de forma descentralizada, pelas Unidades Regionais da CPRM. Previamente, os dados são consistidos e posteriormente remetidos para armazenamento na base de dados. O Módulo de Entrada de Dados do SIAGAS é ferramenta utilizada para consistir e remeter os dados para a base central de dados. Foi feito um diagnóstico na base de dados operacional de águas subterrâneas para identificar a quantidade de registro de dados existente por atributo e relacionar com as principais aplicações. O resultado encontra-se sintetizado na tabela, a seguir: 80 TABELA 4 – Quadro geral de atributos relevantes cadastrados na base de dados QUADRO GERAL DE ATRIBUTOS CADASTRADOS NA BASE DE DADOS DE POÇOS ATRIBUTOS RELEVANTES % ATRIBUTOS Dados Gerais Código do Ponto Coordenadas Geográficas Municipio Bacia Localidade Proprietário % Médio Atributo Cadastrado Dados Geológico e Litológicos Formação Geológica Litologia % Médio Atributo Cadastrado Dados Hidrodinâmico Nível Estático Nível Dinâmico Vazão % Médio Atributo Cadastrado Dados Hidroquímicos pH Condutividade Életrica Sólidos Totais Dissolvidos DBO Cloretos Ferro Total Coliformes Fecais % Médio Atributo Cadastrado Fonte: SIAGAS -Base de Dados Operacional GESTÃO ATRIBUTOS RELEVANTES POR USO ESTUDO OFERTA CONTAMINAÇÃO 100% 100% 100% 81% 88% 100% 95% X X 50% 51% 51% X X 60% 47% 53% 53% X 15% 23% 4% 0% 5% 5% 2% 8% X X X X X Assim, interpretamos as características da tabela exposta: a classe de dados ―Dados Gerais‖ é a que apresenta o melhor resultado, ou seja, 95 % dos atributos desta classe contem dados na base de dados; as classes de dados ―Dados Geológicos e Litológicos‖ e ―Hidrodinâmicos‖ têm, em média, 51% e 53%, respectivamente, de atributos com registros na base de dados; a classe de dados ―Hidroquímico‖ tem somente, em média, 8% de registros cadastrado na base de dados; Esta constatação mostra a necessidade de uma ação mais efetiva de enriquecimento de dados e reforça a necessidade de criar uma base de dados referencial (Data Store Operacional), um dos componentes do sistema de apoio à decisão proposto neste trabalho. 3.5 Estrutura do Data Store Operacional O Data Store Operacional (ODS) é visto como uma arquitetura que é alimentada por programas de transformação e integração (i/t). A Figura 18 mostra o posicionamento clássico do ODS. 81 FIGURA 18 – Arquitetura de um Operacional Data Store (ODS) Estes programas de transformação e integração podem ser os mesmos programas que alimentam um DW ou programas separados. O ODS, por sua vez, alimenta um DW. Alguns dados operacionais podem ir diretamente para o DW utilizando a camada de programas ETL, enquanto outros dados operacionais são enviados para o ODS e depois, do ODS, para Data Warehouse. O ODS é integrado, orientado ao assunto, volátil e tem uma estrutura tipo ―current-valued‖ (valores atuais), desenhada para atender aos usuários operacionais, em grandes processos de integração, permitindo um melhor desempenho. Por sua vez, o ODS atua num duplo papel - de um lado é operacional, pois permite um alto tempo de resposta e uma alta disponibilidade, estando qualificado para atuar como base de um sistema de missão crítica; por outro lado, o ODS tem, claramente, característica de um SAD, pois é integrado, orientado a assunto e incorpora alguns importantes requisitos para o suporte a decisão. Já o desenho clássico e fundamental de um ambiente ODS começa com um modelo de dado que reflete as necessidades de informação da empresa. Tabelas normalizadas são definidas na modelagem dos dados e constituem o que se pode chamar de desenho lógico. Quando estas tabelas normalizadas são combinadas no desenho físico é chamado de ―normalização suave‖. Num desenho com a normalização leve as tabelas são combinadas com base nos conteúdos, como chaves comuns e uso geral comum LIMA (2010). O banco de dados operacional administrado pelo SIAGAS segue uma modelagem dimensional segundo o esquema floco de neve. Este esquema é uma extensão do Esquema Estrela e consiste na decomposição de uma ou mais dimensões, formando hierarquia nas 82 dimensões, isto é normalizando-as. É utilizado este esquema quando se tem dimensões grandes que são estáticas ou semiestáticas. O Data Store ou Base de Dados Referencial proposto para compor o SAD deste trabalho tem o mesmo tipo de modelagem do banco de dados operacional, porém, com um número reduzido de dimensões e atributos, somente considerando aqueles mais relevantes no contexto do negócio. 3.6 Data Warehouse Departamental De acordo com TURBAN et al. (2009), as organizações estão coletando dados, informações e conhecimento em níveis cada vez maiores e, manter e usar estes dados está se tornando cada vez mais complexo. Com o advento da Internet o número de usuários que acessam informações está crescendo cada vez mais. O trabalho com múltiplos bancos de dados vem se tornando uma tarefa muito difícil e que exige um grande conhecimento especializado. A CPRM é uma empresa pública que atua no campo da geração e difusão do conhecimento geocientífico, nas áreas de geologia, hidrologia e meio ambiente. A empresa manipula grande quantidade de dados que necessitam estar armazenados em bancos de dados, de modo a permitir tomada de decisões estratégicas. Atualmente, estes dados estão organizados em bases de dados temáticas, sendo que uma dela refere-se à hidrogeologia, um importante segmento de serviço da instituição. Os dados hidrogeológicos são coletados interna e externamente, estes últimos, dos órgãos gestores e intervenientes em recursos hídricos. Estes dados, depois de efetuada sua depuração são armazenados numa base central e difundidos para o usuário final, através de sistema transacional/operacional (SIAGAS). O SAD proposto considera a necessidade de prover uma plataforma de dados históricos integrados a partir do qual se possa fazer análise para dar suporte às decisões estratégicas. O ambiente mais adequado para atender esta finalidade é o de um Data Warehouse. O motivo principal que leva a considerar no modelo conceitual do SAD aplicado aos recursos hídricos subterrâneos, o ambiente de Data Warehouse Departamental ou Data Mart ao invés de um ambiente de banco de dados tradicional, reside no fato dos ambientes de suporte à decisão e extração do conhecimento em bases de dados serem caracterizados pela não volatilidade e pela complexidade das consultas ad hoc. 83 A escolha do Data Warehouse Departamental, ou seja, um Data Mart ao invés de Data Warehouse Corporativo decorreu do fato de se estar projetando um SAD para uma área específica de serviço da empresa. Em relação ao modelo de dados, é proposto adotar o modelo dimensional ao invés do modelo tradicional, denominado relacional por que o modelo dimensional atende melhor aos requisitos relacionados com maior facilidade em manipular funções de agregações, associações, classificações, entre outros aspectos, próprios do ambiente do sistema de apoio à decisão ao contrário do que ocorre com o modelo relacional cujo foco reside na definição de um modelo de transação eficiente GOUVEIA (2008). Vale considerar que a fonte principal de dados para o Data Store Operacional ODS e Data Warehouse vem da base de dados operacional administrada pelo SIAGAS, cujo modelo de dados é normalizado e tem um dicionário de dados padronizado. Esta característica reduz a complexidade de estrutura do ODS ou Base de Dados Referencial, bem como facilita a execução das etapas de processamento e transformação do processo KDD. 3.7 Análise de Negócios e Visualização de Dados Neste item será abordada a análise de negócios com suas respectivas características, bem como a visualização dos dados. 3.7.1 Análise do Negócio das Águas Subterrâneas Cada vez mais estão sendo necessários dados e informações detalhadas, precisas e oportunas para dar suporte à decisão e a implementação de estratégicas em recursos hídricos. A seguir são apresentadas as principais áreas que demandam dados e informações sobre recursos hídricos subterrâneos: Gestão dos Recursos Hídricos Os dados e informações de águas subterrâneas são insumos essenciais para a aplicação dos instrumentos de gestão dos recursos hídricos. O deficiente controle das águas subterrâneas, a carência de dados confiáveis e representativos e a falta de sistemas integrados de informações são os principais fatores que mais tem contribuído para aplicação deficiente do instrumento de outorga de direito do uso da água, cuja atribuição é dos órgãos estaduais em recursos hídricos. O modelo de sistema de apoio à decisão proposto neste trabalho considera o estabelecimento de mecanismo de integração entre o SIAGAS os sistemas de informações de recursos hídricos dos órgãos gestores e intervenientes em recursos hídricos. 84 Estudos Hidrogeológicos A ampliação do conhecimento dos recursos hídricos subterrâneos nos principais aquíferos brasileiros envolve a elaboração de mapas hidrogeológicos, apoiado em sistema de informações geográficas (SIG). Os dados de poços são insumos essenciais na elaboração destes mapas. A insuficiência de dados e a ausência de sistema de informações geográficas integrado aos mapas são as principais deficiências do processo. No modelo conceitual de SAD aplicado aos recursos hídricos subterrâneos propõe-se incorporar funcionalidades relacionadas à integração da base de dados aos mapas hidrogeológicos. Oferta de Água Ampliar a oferta de água, principalmente, nas regiões com elevado deficit hídrico, como o semiárido nordestino, através da revitalização de poços, tem sido a estratégia adotada pelo Governo. Para realizar este trabalho é fundamental dispor de sistema de apoio à decisão que, a partir de uma regra negócio estabelecida, escolha a melhor alternativa para recuperação dos poços. Atualmente este procedimento é feito em ambiente externo ao SIAGAS. No modelo conceitual proposto neste trabalho será considerada a análise de negócio acima exposta. Contaminação das Águas A contaminação das águas subterrâneas é pouco conhecida no Brasil em decorrência de falta de informações. A base de dados atual contempla um número muito pequeno de parâmetros hidroquímicos. O grande esforço deve ser concentrado no processo de enriquecimento dessa base de dados. No modelo de SAD considerado neste trabalho, destacase o uso da técnica de mineração de dados, principalmente, aplicada à avaliação da qualidade das águas subterrâneas. A partir da análise de negócio de águas subterrâneas o modelo conceitual do sistema de apoio à decisão aplicada à água subterrânea, deve considerar: ferramenta automática de extração, transformação e carga (ETL) dos dados provenientes de fontes externas para o banco de dados operacional administrado pelo SIAGAS; data store operational - ODS, derivado da base de dados operacional, o qual constitui a base de dados referencial; data warehouse departamental serve para organizar dados para o processamento analítico da informação; 85 ferramentas para análise de negócios estruturado nos seguintes níveis: descoberta de informações e conhecimento, suporte decisão e visualização 3.7.2 Relatórios e Consulta para Visualização de Dados Segundo TURBAN et al. (2009), o termo processamento analítico online (OLAP) normalmente refere-se a uma gama de atividades realizada por usuários finais em sistema online. OLAP inclui atividades de geração e respostas de consultas, solicitação de relatórios e gráficos ad hoc e execução dos mesmos, realização de análises estatísticas tradicionais ou modernas e construção de apresentações visuais. Os produtos OLAP oferecem recursos de modelagem, análise e visualização de grandes quantidades de dados, ou para sistema de gerenciamento de dados (SGDB) ou para sistema de data warehouse. Eles oferecem uma visão conceitual multidimensional dos dados. Uma das características que devem estar presentes em ferramenta OLAP é a capacidade de efetuar operações como: drill Across: ocorre quando o usuário pula de nível intermediário dentro de uma mesma dimensão; por exemplo a dimensão tempo é composta por ano, semestre, trimestre, mês e dia. A operação drill Across é executada quando o usuário, estando na dimensão de ano, passa direto para trimestre ou mês, sem visitar a dimensão de semestre; drill Down: ocorre quando o usuário aumenta o nível de detalhe da informação, diminuindo a granularidade. drill Up: é o oposto do drill Down, ocorre quando o usuário aumenta a granularidade, diminuindo o nível de detalhamento da informação; drill Thought: ocorre quando o usuário passa de uma informação contida numa dimensão para outra. Por exemplo: Inicia na dimensão do tempo e no próximo passo analisa a informação por região; Slice e Dice: é uma das principais características de uma ferramenta OLAP. Como a ferramenta OLAP recupera microcubo (no OLAP as informações são armazenadas em cubos multidimensionais, que gravam valores quantitativos e medidas, permitindo a visualização através de diversos ângulos. Estas medidas são organizadas em categorias descritivas, chamadas de dimensões e formam, assim, a estrutura de cubo), surgiu a necessidade de criar um módulo, que se convencionou de Slice and Dice, para ficar responsável por trabalhar esta 86 informação. Ele serve para modificar a posição da informação, trocar linhas por colunas de maneira a facilitar a compreensão do usuário e girar o cubo sempre que houver necessidade. A ferramenta OLAP, que obedece a estrutura cliente/servidor multiusuário, pode ser implementada de diversas formas, classificadas nos seguintes tipos: OLAP multidimensional (MOLAP). Quando o OLAP é implementado através de um banco de dados (ou data store) multidimensional especializado, ele é chamado de OLAP multidimensional (MOLAP). Os dados são organizados em estrutura de cubos. Seu uso é mais adequado para consultas financeiras. Com o MOLAP as consultas são mais rápidas, pois a consolidação já foi realizada. OLAP relacional (ROLAP). Quando um banco de dados OLAP é implementado através de um banco de dados relacional existente, ele é chamado de OLAP relacional (ROLAP). As ferramentas OLAP relacional extraem dados de bancos de dados relacionais. Database OLAP e Web OLAP (DOLAP e Web OLAP). O database OLAP se refere a um sistema de gerenciamento de banco de dados relacional projetado para hospedar uma estrutura e executar cálculos OLAP. O Web OLAP se refere a dados de OLAP acessíveis de um navegador da Web. Desktop OLAP. O desktop OLAP envolve ferramentas OLAP simples e baratas que executam análise local multidimensional e apresentação de dados baixados de bancos de dados relacionais ou multidimensionais para máquinas do cliente. A Oracle e a Microsoft, grandes fornecedores de banco de dados, fornecem servidores OLAP juntamente com banco de dados relacionais tradicionais: OLAP option da Oracle e Analysis Services 2005 da Microsoft. Além disso, temos outras ferramentas OLAP, como Distributor Data Solutions da MicroStrategy e Analytics Maestro da Centage Corporation. O Analysis Services 2005 é uma tecnologia utilizada por trás do Analysis Services 2000. Ele vem com o conceito UDM (Unified Dimensional Model) – Modelo Dimensional Unificado), o qual permite que DBAs (Database Administrator) e desenvolvedores definam dimensões, cubos OLAP e hierarquias de forma ―abstrata‖ que possam subsequentemente ser armazenados em bases de dados relacionais ou multidimensionais. 87 O OLAP Option da Oracle é executado com um processo único, com única instância de banco de dados, sendo portável para todas as plataformas de servidor em que o banco de dados Oracle pode ser executado. O DSS MicroStrategy é classificada como uma ferramenta ROLAP por acessar um banco relacional via comandos SQL. A ferramenta OLAP Maestro, é fornecida e desenvolvida pela Hyper Consultoria em Informática. Ela suporta a metodologia de desenvolvimento de Data Warehouse. Esta medotologia tem a vantagem de ter resolvido o problema de conformidade entre conceitos e dimensões. O Maestro resolve este problema através do uso de um repositório central onde são definidas medidas e dimensões. A tecnologia OLAP permite ao usuário realizar cálculos complexos, através de consultas com maior flexibilidade e funcionalidade. As qualidades essenciais das ferramentas OLAP são a rapidez, a sumarização e análise flexível dos dados. 3.8 Business Performance Management (BPM) A empresa considerada neste trabalho é pública, fundada em 1969, que atua em todo território nacional, realizando pesquisa, estudos e levantamentos básicos em geologia e hidrologia. No âmbito de sua competência legal lhe cabe, entre outras atribuições, desenvolver sistemas de informações que resultem na produção de base de dados, relatórios, mapas e cartas temáticas que traduzam o conhecimento mineral e hidrológico nacional, tornando-os acessíveis aos interessados. Sua estrutura organizacional segue o modelo tradicional ou hierárquico, cuja autoridade e poder estão graduados por níveis de gerência estratégica (presidência e diretorias), gerência tática (departamentos e divisões) e gerência operacional (Unidades Regionais). Em condições especiais, esta estrutura passa a ser multidimensional, integrando, a estrutura tradicional por funções com a estrutura por projeto. Os principais clientes estão assim distribuídos: Órgãos Federais (70%), Estaduais e Municipais (10%), Academia (10%) e Empresas Privadas (10%). Modelo de Gestão Estratégica Um pressuposto importante para o modelo de SAD proposto neste trabalho é que a empresa adote o Modelo de Gestão Estratégica – MGE baseado no Balanced Scorecard – BSC. A figura 19 apresenta o modelo lógico do MGE. 88 Neste modelo o indicador de desempenho serve como elemento de integração e alinhamento estratégico entre os níveis operacional, tático e estratégico da empresa. A presente dissertação foi influenciada pelo referido modelo, que permitiu, a partir dos indicadores de desempenho corporativo e de cada unidade de negócio redirecionar a estratégia de captação dos dados de poços de diferentes fontes de alimentação. FIGURA 19 - Modelo Lógico do MGE Objetivos Estratégicos Os objetivos estratégicos são os seguintes: Levantamento de Informações Básicas Sistemas de Apoio à Decisão Pesquisa e Estudos Interpretativos Metas Estratégicas As metas estratégicas para a área de águas subterrâneas, objeto do estudo deste trabalho, para o período 2012-2015, são as seguintes: Instalar e operar 1.000 (mil) poços na rede integrada de monitoramento de águas subterrâneas; Promover o cadastramento de 100.000 (cem mil) poços no banco de dados operacional de águas subterrâneas; 89 Promover a consistência de dados de 100.000 (cem mil) poços no banco de dados operacional de águas subterrâneas Elaborar 20 (vinte) mapas hidrogeológicos, em ambiente SIG, nos níveis regional e estadual; Desenvolver 04 (quatro) estudos, aplicando as técnicas de mineração de dados, sobre águas subterrâneas. Desenvolver 04 (quatro) sistemas integrados de apoio à decisão, aplicados aos recursos hídricos subterrâneos; Implantar 01 (uma) rede integrada de gerenciamento de informações hidrogeológica. Indicadores de Desempenho Os indicadores de desempenho a serem adotados são os seguintes: Indicador de Desempenho Geral Informações levantadas Indicadores de Desempenho Específicos Poços monitorados Poços cadastrados Poços consistidos Mapas elaborados Sistemas produzidos Relatórios elaborados Estudos realizados 90 4 SISTEMA DE APOIO À DECISÃO APLICADO À GESTÃO DE RECURSOS HÍDRICOS SUBTERRÂNESO EM PORTO VELHO – ESTUDO DE CASO Este capítulo apresenta um protótipo do modelo conceitual de sistema de apoio à decisão aplicado as águas subterrâneas – Rondônia – Porto Velho 4.1 Critérios para Seleção de Projeto Piloto Considerando que a elaboração deste trabalho objetivou definir um modelo de sistema de apoio à decisão aplicado aos recursos hídricos subterrâneos e as condições de sua aplicabilidade e que ele é mais aderente ao ambiente das organizações públicas que atuam na geração de informações sobre recursos hídricos e implementação de seus instrumentos, optouse por simular um protótipo do modelo levando em conta as seguintes condições de contorno: público alvo – órgãos governamentais; natureza da empresa – empresa pública; política de informação – acesso público, irrestrito; política de Tecnologia de Informação – uso de software livre. 4.2 Caracterização da Empresa Uma empresa pública, Companhia de Recursos Minerais – CPRM que atua, no âmbito nacional e cuja missão é gerar e difundir conhecimento geológico e hidrológico, para o desenvolvimento sustentável do país, identificou, por avaliação própria e pressões do ambiente externo a necessidade de aperfeiçoar os seus sistemas de informações geocientíficas, apropriando-se então das modernas tecnologias existentes no mercado, no âmbito da inteligência do negócio, para introduzir um novo conceito de sistema de apoio a decisão, de modo a responder de forma rápida, precisa e detalhada as demandas por informações de seus clientes/parceiros. Além disso, a empresa redirecionou sua política de informação para adotar o uso de software livre e permitir o acesso à informação de forma democrática, pública e irrestrita. A partir de 2005 a empresa implantou o modelo de gestão de organização orientada à estratégia, segundo o princípio estabelecido no Balanced Scorecard (BSC) e um sistema de gerenciamento de projeto, de modo a garantir que estratégias traçadas pela empresa sejam implementadas, de forma alinhada e compartilhadas por toda a força de trabalho. 91 A empresa tem um escritório central no Rio de Janeiro, que exerce os papéis de coordenação e administração dos seus programas e 11 (onze) unidades executivas distribuídas nas seguintes localidades: Manaus, Porto Velho, Belém, Recife, Teresina, Fortaleza, Salvador, São Paulo, Porto Alegre, Belo Horizonte e Goiânia. 4.3 Projeto Piloto O projeto piloto escolhido para servir como protótipo na modelagem do sistema de suporte à decisão foi o sistema de informação de águas subterrâneas. A Unidade Regional de Porto Velho foi a que apresentou os melhores requisitos para modelar o sistema decorrentes dos seguintes fatores: necessidade de aperfeiçoar o sistema de informações de águas subterrâneas (sistema transacional ou operacional) para atender as demandas dos usuários internos (projetos de hidrogeologia desenvolvidos pela CPRM) e externos (órgãos gestores e intervenientes em recursos hídricos); atender à política de uso de software livre, transferindo-se da plataforma proprietária para multiplataforma; necessidade de fidelização do parceiro/cliente em relação ao sistema de informações de águas subterrâneas e ao sistema de suporte à decisão aplicado aos recursos hídricos subterrâneos; necessidade de enriquecer a base de dados de águas subterrâneas com dados de perfil litológico e construtivo, hidrodinâmicos e hidroquímicos para atender as pesquisas e estudos hidrogeológicos, aos instrumentos de gestão dos recursos hídricos e ao aproveitamento racional das águas subterrâneas; o fato de a Unidade de Porto Velho ser aquela, dentre as Unidades Regionais existentes, a que possui maior amplitude de dados, experiência e projetos em desenvolvimento (qualidade da água subterrânea) que atendem aos requisitos do modelo proposto. O projeto piloto foi implantado no ambiente do Escritório Central e da Regional de Porto Velho. Antes, porém, foi feito um diagnóstico do estado da arte do sistema de apoio à decisão aos recursos hídricos subterrâneos, adotado pela empresa, cotejando-o com o modelo proposto de SAD aos recursos hídricos subterrâneos. 92 4.4 Diagnóstico do Estado da Arte do Sistema de Apoio à Decisão Aplicado aos Recursos Hídricos Subterrâneos O diagnóstico foi realizado segundo o seguinte roteiro de trabalho: realização de reuniões presenciais e não presenciais (vídeo conferência), com usuários internos e externos, usuários do banco de dados e do sistema de informações de águas subterrâneas para fins de pesquisas, estudos, gestão e aproveitamento dos dados de águas subterrâneas, de modo a firmar um entendimento do processo como um todo; análise de sistema de informações de águas subterrâneas, em relação sua estrutura de dados, funcionalidade, configuração e adequação as políticas de TI e as demandas dos usuários; avaliação da base de dados de águas subterrâneas visando identificar qual o nível de qualidade da informação armazenada na base de dados; realização de entrevistas para conhecer a efetividade dos processos de gestão estratégicas e de projetos, bem como avaliar o funcionamento dos indicadores de desempenho. O diagnóstico realizado permitiu identificar problemas de natureza técnica, gerencial e institucional, relacionadas com o sistema de apoio à decisão a seguir apontadas: falhas e inconsistências na base de dados de coordenadas geográficas, perfil litológico, níveis d’agua, vazão, pH, condutividade etc, resultando em prejuízo no uso da informação e no processo de tomada de decisão; fontes de dados dispersas e não integradas; incapacidade de compartilhar dados de forma oportuna devido a dificuldade de intercâmbio de dados; falta de padronização dos dados provenientes de várias fontes externas; falta de integração entre o sistema de informação de água subterrânea da empresa e os sistemas de outras instituições envolvidas; acordos de cooperação para intercâmbio de dados deficientes; consultas e geração de relatórios de limitado valor agregado (relatórios estáticos e com poucas informações relevantes) para tomada de decisão; deficiente comunicação e troca de informação entre a empresa clientes/parceiros devido às mudanças frequentes de interlocutores; e seus 93 deficiente integração entre os diversos componentes do sistema de monitoramento e avaliação de desempenho; gerenciamento de projeto ineficaz, devido a cultura organizacional anterior não projetizada; falta de alinhamento estratégico. Com base no diagnóstico realizado, por meio de relatórios, entrevistas e vídeos conferências foi planejada a implantação do modelo protótipo do sistema proposto. 4.5 Implantação do Modelo Proposto na área do Projeto Piloto O diagnóstico realizado permitiu definir o modelo de Sistema de Apoio à Decisão como ilustrado na figura 20 e que envolveu o desenvolvimento das seguintes atividades, que serão melhor apresentadas nas subseções seguintes: Pré-processamento da Base de Dados Construção do Data Store Operacional Criação do Data Warehouse Elaboração da Análise de Negócio Implementação da gerência de processos utilizando BPM FIGURA 20 - Modelo Conceitual do SAD 4.5.1 Preprocessamento: Análise de Consistência e Enriquecimento da Base de Dados Foi elaborado um manual de procedimento para análise e tratamento de dados; e realizado treinamento para análise e alimentação da base de dados na área piloto escolhida para aplicação do modelo protótipo. 94 A ação de enriquecimento da base de dados foi desenvolvida, após ser efetuada uma prospecção na base de dados e identificar os atributos relacionados com os dados hidroquímicos e de formação geológica, os quais apresentavam a maior incidência de falta de dados, Os resultados da pesquisa permitiram adotar, no âmbito da área do projeto piloto, as seguintes medidas: alimentação da base de dados de águas subterrâneas com os dados gerais, engenharia de poços, hidrodinâmicos e hidroquímicos provenientes da Rede de Monitoramento Integrado das Águas Subterrâneas, os quais se apresentam bastante qualificados (completos e consistentes); alimentação da base de dados de águas subterrâneas com os dados dos poços outorgados e recolhidos junto aos órgãos gestores estaduais, cujo registro de dados dos poços se apresentam completos e consistentes; realização de campanha de campo para levantar dados complementares dos poços existentes na base de dados, segundo regra de negócio estabelecida. Foi feito, adicionalmente, o cadastramento de 108 (cento e oito) poços situados na cidade de Porto Velho, utilizados para abastecimento residencial e efetuada a coleta de dados para análise da água. os dados acima levantados serviram para realizar estudos de qualidade das águas subterrâneas, na área do projeto piloto, com base em técnicas de geoestatísticas. 4.5.2 Base de Dados Operacional/ Data Store Operacional Para a criação do Data Store Operacional foram realizadas as seguintes ações: adequação do modelo de dados e das rotinas do sistema de informações de águas subterrâneas para sincronização com as diversas fontes de dados; definição do processo de migração do sistema de informações de águas subterrâneas da plataforma proprietária (Windows) para multiplataforma (Windows/Linux); definição de estrutura de dados e de rotinas para extração de dados da base de dados de água subterrâneas para o Data Store Operacional; 4.5.3 Criação de Data Warehouse 95 Um sistema de data warehousing serve de suporte para sistemas de apoio à decisão, isto é, serve de base para aplicação de técnicas direcionadas a extração de informações estratégicas que depois servirão de base para a tomada de decisões no ambiente organizacional. A organização para este tipo de sistema é orientada por assunto permitindo integrar os dados provenientes de diversas fontes, além de garantir informações históricas e não voláteis. A aplicação do modelo proposto não considerou, no momento, a necessidade de criação de Data Warehouse Departamental e, sim, de Data Store Operacional, pelas seguintes razões: fonte de dados: a integração, bem como os processos de extração, transformação e carga dos dados provenientes de diversas fontes são tarefas típicas a serem realizadas no ambiente de data warehousing. Todavia, estas tarefas foram feitas no ambiente operacional, utilizando-se, para tal, o módulo de entrada de dados do sistema de informações de águas subterrâneas; estas tarefas foram facilitadas pelo uso do formato de dados do sistema de informações de águas subterrâneas. modelagem de dados: a modelagem dimensional – uma técnica utilizada para estruturar os dados de forma intuitiva e que permite um acesso aos dados em ambiente de data warehouse - não foi considerada necessária nesta aplicação devido ao uso de estrutura padronizada de dados do sistema de informações de águas subterrâneas. data store operacional: trata-se de um banco de dados operacional usado como área temporária de um data warehouse. Ele pode ser atualizado, consolidar dados de diversos sistemas fontes e dar uma visão integrada e quase em tempo real de dados voláteis e correntes. Os processos ETL de um ODS são idênticos aos de um data warehouse. Considerando que foi desenvolvido um ODS operacional para o modelo proposto, o qual incorpora caraterísticas e algumas funcionalidades do DW optou-se por não desenvolver o Data Warehouse. 4.5.4 Análise do Negócio Para simulação do modelo proposto, na área do projeto piloto, foram realizadas as seguintes tarefas: 96 identificação dos tipos de consulta e relatórios de saídas necessários – a partir do critério de negócio estabelecido foi feita pesquisa/consulta à base de dados para extrair informações relevantes com vista a estruturar o programa de cadastramento de poços seletivos. Os dados levantados neste cadastramento possibilitarão o enriquecimento da base de dados. As pesquisas foram feitas com o gerenciador de base de dados SQL-Server 2.08 e concentraram-se em identificar a inexistência de registros dos atributos relativos ao perfil litológico e construtivo e dados hidrodinâmicos e hidroquímicos dos poços. As principais pesquisas/consultas realizadas foram as seguintes: poços que não possuem perfil litológico e construtivo; estes dados são importantes na elaboração de mapa hidrogeológico; poços que não possuem dados hidroquímicos; importante para avaliar a qualidade de água dos aquíferos. poços que apresentam as características acima apontadas localizados nos aquíferos monitorados através da rede integrada de águas subterrâneas. Concluiu-se que dos 1981 poços cadastrados na base de dados, 351 poços atendem a requisitos acima enumerados e, os mesmos serão utilizados para promover o enriquecimento da base de dados. incorporação ao sistema de informação de águas subterrâneas de ferramentas OLAP - para o estudo de caso foram incorporadas ao SIAGAS as seguintes ferramentas: geração e resposta às consultas - a partir da consulta à base de dados de poço de Porto Velho, foram geradas tabelas de poços que atendem aos seguintes critérios: Critério I – relação de poços que dispõem, simultaneamente, de registros de níveis estático e dinâmico e de vazão de poços, porém não há dados de perfil litológico e construtivo. Além de atender os requisitos acima estão situados nos aquíferos prioritários para fins de monitoramento das águas subterrâneas; Critério II - relação de poços que dispõem, simultaneamente, de registros de níveis estático e dinâmico e de vazão dos poços, porém não há dados hidroquímicos (Ph, condutividade elétrica e sólido totais dissolvidos). Além de atender os requisitos acima 97 estão situados nos aquíferos prioritários para fins de monitoramento das águas subterrâneas. geração de relatórios e gráficos – relatórios e gráficos que informem ao gerente de negócio da empresa, por exemplo: qual a quantidade evolutiva de poços alimentados na base de dados pelo órgão gestor de recursos hídricos; qual a situação dos poços armazenados na base de dados, que apresentam o maior percentual de registros de poços armazenados, por fonte de alimentação (órgão gestor, projetos específicos e rede de monitoramento de águas subterrâneas - RIMAS). análise estatística de dados: foram realizadas análises estatísticas para identificar correlações entre parâmetros construtivos dos poços e qualidade da água. avaliação da qualidade de águas dos poços da cidade de Porto Velho – a contaminação de uma água extraída de um poço tubular pode advir de duas situações: contaminação pela infiltração de águas superficiais nos poços em virtude de condições construtivas precárias; contaminação do aquífero decorrente de atividades antrópicas. Assim, os poços bem construídos são aqueles que possuem pelo menos: proteção sanitária/selo solitário; cimentação da parte superior do poço; informações construtivas que permitem avaliar os aquíferos interceptados e as profundidades de entrada d’água, perfil litológico, revestimento, filtros e entradas d’água. Então, para se determinar a contaminação das águas é necessário efetuar a análise de vários parâmetros, alguns de grande complexidade analítica e de coleta e preservação. Entretanto, como uma avaliação preliminar pode-se efetuar a análise de alguns parâmetros indicadores, cujo valor ou concentração pode indicar contaminação da água subterrânea. A resolução do Conselho Nacional de Recursos Hídricos orienta para que seja feito na frequência semestral o levantamento dos seguintes parâmetros: pH, cloretos, nitritos, nitratos, dureza total, alcalinidade total, ferro total, sólidos totais dissolvidos, e coliformes termotolerantes (fecais). 98 Um levantamento realizado, no projeto piloto, foi extrair informações sobre as condições construtivas dos poços e correlacionar com os indicadores de qualidade da água. Neste estudo foram feitas coletas de amostras em 108 (cento e oito) poços, no período de maio e junho de 2011, na sede do município de Porto Velho – RO e realizadas medições de 11 (onze) variáveis físicas, químicas e biológicas. Nessa campanha foi utilizado o índice de qualidade de água segundo a Resolução CONAMA No 357, de 17 de março de 2005. Os dados coletados em campo foram: data e hora da coleta, ocorrência de chuva, coordenadas geográficas, os parâmetros físico-químicos e bacteriológicos, natureza dos poços (amazônico ou tubular), profundidade, nível estático, nome do proprietário e endereço da localidade. A figura 21 apresenta a distribuição dos poços na área de estudo escolhida. A figura 22 destaca mapas de isovalores relativos à condutividade elétrica e a sólidos totais dissolvidos, dois parâmetros importantes na medida de qualidade da água dos poços. A figura 23 apresenta gráficos extraídos de dados organizados em planilha Excel relativos a alguns indicadores de qualidade de água, respeitando os valores máximos permitidos pela Portaria no 518 do Ministério da Saúde e Resolução CONAMA no 357. FIGURA 21 – Mapa de Localização dos Poços 99 FIGURA 22 – Mapas de Isovalores de Qualidade de Água Colocar escala e sistema de coordenadas FIGURA 23 – Principais Indicadores de Qualidade de Água de Poços 4.5.5 Business Performance Management - BPM TURBAN et al. (2009) afirmam que o BPM é um conjunto integrado de processos, ferramentas, metodologia, métricas e aplicações projetadas para impelir o desempenho geral da empresa. Ele ajuda as empresas a converterem suas estratégias e objetivos em planos, monitorar o desempenho em relação aos seus planos, analisar a variação entre resultados reais e planejados, e ajustar os seus objetivos e ações em respostas a essa análise. 100 A empresa em questão adotou o modelo de gestão estratégica, baseado no ―Balanced Scorecard‖ tanto no nível corporativo como por unidade de negócio, e implantou um sistema de gerenciamento de projeto. A implementação do BPM no âmbito da empresa e do projeto piloto seguiu a metodologia do BSC e iniciou com a definição dos temas estratégicos; passando para a construção dos mapas estratégicos corporativos e das unidades de negócio e a estruturação dos programas e ações a serem desenvolvidas. Em seguida foram elaborados os projetos contemplando o plano de trabalho, orçamento, indicadores de desempenho e metas físicas e financeiras. Os indicadores de desempenho da unidade de negócio foram vinculados a seu mapa estratégico. Apresenta-se abaixo os principais componentes do sistema de avaliação de desempenho considerados no projeto piloto: Unidade Negócio: Amazônia Programa: Gestão do Conhecimento Geocientífico; Ação: Levantamento Hidrogeológico Projeto: Gestão da Informação Hidrogeológica Indicador de Desempenho: Poços Cadastrados Meta Anual (2012): 1.200 poços cadastrados. A arquitetura do sistema BPM da empresa é composta de três camadas (banco de dados, aplicações e de cliente ou interface com o usuário) que permite monitorar a implementação da estratégia da empresa. O modelo de Sistema de Apoio à Decisão ora apresentado, incorporando componentes do BI, tem o propósito de ser um suporte computadorizado à decisão, facilitando o monitoramento do ambiente e aprimorando as ações de respostas no setor de recursos hídricos subterrâneos. A fim de determinar a estrutura do modelo para aplicação na área de recursos hídricos subterrâneos, foi analisado o funcionamento do sistema de informações de águas subterrâneas e sua capacidade de dar suporte à tomada de decisão. Desta forma foi feito um diagnóstico do conteúdo da base de dados operacional sob a administração do sistema e constatou-se que, embora exista uma quantidade expressiva de dados, o nível de falta de dados e inconsistência é elevado, reduzindo a eficácia do sistema como ferramenta de suporte à decisão. 101 Com isto, este trabalho possibilitou definir, a partir de consulta orientada à base de dados, regras de negócio, que resultem no enriquecimento da base de dados, além de confirmar a necessidade de ter no modelo proposto a componente Data Store e ferramentas OLAP para consulta e geração de relatórios avançados. Uma análise do processo que envolve a administração da base de dados de água subterrânea, pelo SIAGAS, permitiu verificar que os dados armazenados na referida base são provenientes de fontes internas e externas. Uma das fontes é a rede integrada de monitoramento de águas subterrâneas (RIMAS), que fornece dados contínuos e qualificados. Tanto a necessidade de integrar dados de várias fontes como receber dados com as características de confiabilidade e temporalidade da rede RIMAS são requisitos que tornam o Data Warehouse um componente necessário e previsto no modelo proposto. A existência de vários atores atuando em recursos hídricos subterrâneos que necessitam de informações estratégicas para tomada de decisão vai ao encontro do modelo proposto o qual incorpora à análise do negócio um sistema de monitoramento e de avaliação de desempenho. 102 5 CONSIDERAÇÕES FINAIS O ambiente em que as empresas atualmente operam, sejam elas públicas ou privadas, é de crescente pressão para que sejam tomadas decisões com rapidez sob condições quase sempre mutantes. Tomar decisões, em certas circunstâncias, para serem eficazes, exige a manipulação de grandes quantidades de dados e informações. Num ambiente volátil e competitivo a qualidade e a pontualidade da informação constitui um fator crítico de sucesso. Esta assertiva também é válida no campo da ciência hidrológica. É preciso dispor de grande massa de dados hidrológicos para se inferir, com maior precisão, o comportamento do fenômeno que está sendo estudado. No campo da hidrogeologia a existência de uma volumosa base de dados de poços profundos nos permite explorá-la e tomar decisões mais acertadas nesta área de conhecimento. Um dos principais resultados para realização deste trabalho foi propor uma nova abordagem de Sistema de Apoio à Decisão Aplicada aos Recursos Hídricos Subterrâneos, no qual estão incorporadas, de forma integrada, os componentes do BI envolvendo (SIAGAS, Data Warehouse, Ferramentas OLAP, Data Mining e Business Performance Management – BPM). A utilização deste sistema de apoio à decisão trouxe benefícios, para área de recursos hídricos, nos seguintes aspectos: Contribuiu para internalizar a cultura de Business Intelligence – BI no ambiente dos recursos hídricos subterrâneo, incorporando a visão estratégica ao processo de tomada de decisão; forneceu aos tomadores de decisão ferramentas mais poderosas de consulta e análise do negócios, nos níveis operacionais, tático e estratégico; melhorou a qualidade da base de dados, visando à fidelização dos usuários do referido sistema; melhorou a produtividade e a qualidade dos serviços que se utilizam dos dados administrados pelo sistema; aumentou a eficiência na gestão da informação de águas subterrâneas. Vale destacar que, embora tenha sido proposto um sistema de apoio à decisão aplicado a uma área específica de conhecimento ele, também, se aplica para as demais áreas de negócio da empresa (geologia, recursos minerais e gestão territorial). 103 Em decorrência do estudo abordado nesta dissertação, alguns assuntos merecem aprofundamento em pesquisas ou trabalhos futuros. Os principais são: aperfeiçoar e automatizar as técnicas de análise de consistência de dados de águas subterrâneas; desenvolver mecanismos para integração de dados de águas subterrâneas provenientes de várias fontes/organismos; aplicar técnicas de mineração de dados, na área de hidrologia. Aperfeiçoar mecanismos integrados de natureza política, institucional, técnica, financeira e legal junto aos órgãos gestores e intervenientes, que proporcionem mais efetividade e qualidade no fornecimento dos dados. Finalmente, espera-se com este trabalho contribuir para a melhoria da qualidade e o aumento da eficiência na gestão de informações em apoio aos recursos hídricos subterrâneos. 104 REFERÊNCIAS BIBLIOGRÁFICAS ARIYACHANDRA, T., H.WATSON. Key Factors in Selecting a Data Warehouse Architecture”. Business Intelligence Journal, Vol. 10, No. 2, 2005. AZEVEDO, H., CÔRTES, S., Data Mining – Conceitos, Ferramentas e Aplicações. Texto para estudo do Curso ―Data Mining‖ – Pontifícia Universidade Católica – PUC, 2005. BELO, O., LOURENÇO,A., SARMENTO, P., et al. AQUA- Um Sistema de Informação para Análise e Validação de Parâmetros de Qualidade da Água em Alqueva. Artigo. Universidade do Minho, Portugal, 2000. CUNHA, V., GONÇALVES, A. S., FIGUEIREDO, V. A., et. al. A Gestão das Águas – Princípios Fundamentais e sua Aplicação em Portugal. 1a ed. Lisboa, Editora Calouste Gulbenkian, 1980 CHIAVENATO,I., SAPIRO,A., Planejamento Estratégico – Fundamentos e Aplicações. 2a ed. Rio de Janeiro, Editora Campos, 2004 DUTRA,A.J., Business Performance Management. Disponível em: http://www.baguete.com.br/colunistas/colunas/42/antonio-dutra-jr/16/07/2002/businessperformance-management; Acessado em 03 de setembro de 2011. ELMASRI, R. E., e SHAMKANT B. N., Sistemas de Banco de Dados [Trad]. 4a ed. Pearson, 2005. FERNANDES, J., DUARTE, A.S., Um Sistema de Data Warehousing para a Área da Qualidade da Água. Disponível em: http://www3.di.uminho.pt/~prh/uce15-0809/g16.pdf; acessado em 28 de agosto de 2011. GOLDSCHMIT, R., PASSOS, E., Data Mining Um Guia Prático. 1a ed. São Paulo: Editora Campus, 2005. GOUVEIA. R. M. M., Mineração de Dados em Data Warehouse para Sistema de Abastecimento de Água. Dissertação de Mestrado, Universidade Federal da Paraíba, 2009. GRAY,P., e WATSON, H.J., Decision Support in the Date Warehouse. Upper Saddle River, NJ: Prentice Hall, 1998 105 HOFFER, J.A., PRESCOTT, M.B., MCFADDEN, F.R., Modern Database Management, 8th, Ed. Upper Saddle River, NJ: Prentice Hall, 2007. INMON, W.H., Como Construir o Data Warehouse. 2. Ed. N.Y, Editora Campus, 1997 INMON, W.H., Building the Data Warehouse: Getting Started. 4a Edição. Editora: Wiley Publishing, Inc, 2005. KAPLAN, R. S., D.P.NORTON., Organização Orientada para à Estratégia. 5a ed. Rio de Janeiro, Editora Campus, 2000. KETTLELHUT, J. T. S., Programa de Águas Subterrâneas. Cartilha PAS MMA; Disponível em: http://www.perfuradores.com.br/downloads/material_didatico/CARTILHA_PAS MMA.pdf; acessado em 27 de agosto de 2011. KIMBAL, R., MARGY, R., The Data Warehouse Toolkit – The Complete Guide To Dimensional Modeling (2nd. Ed.), Wiley, 2002. Disponível em: http://imasters.com.br/artigo/17011/gerencia-de-ti/business-intelligence-e-apoio-a-tomada-dedecisoes; acessado em 27 de agosto de 2011. LIMA, C.A.L., Data Warehouse/Business Intelligence. Disponível em: http://litolima.com/2010/04/22/o-operacional-data-store-ods-desenhando-o-operational -datastore; acessado em 22 de fevereiro de 2012. LUHN, H.P., A Business Intelligence System. IBM Journal 2(4):314, 1958 PEIXINHO, F. C, FEITOSA, F. A., ―Água é Vida‖. In: Silva, C. R., Geodiversidade do Brasil – Conhecer o passado para entender o presente e prever o futuro. Rio de Janeiro RJ, CPRM, 2008. RAMOS, F., OCCHIPINTI, A. G; NOVA, N.A. V., Engenharia Hidrológica. Coleção ABRH de Recursos Hídricos, ABRH-Editora UFRJ, Rio de Janeiro, 1989. REBOUÇAS, A. C., Diagnóstico do Setor de Hidrogeologia. São Paulo. Associação Brasileira de Águas Subterrâneas, 146. 46 p. REBOUÇAS, A.C., BRAGA,B.A.,TUNDIZI,J.G., Águas Doces no Brasil: Capital Ecológico, Uso e Conservação. 3. Ed. Revisada e Ampliada. São Paulo, ESCRITURA, 2002. 106 SHIKLOMANOV, I,A., World Water Resources – a new appraisal and assessment for de 21th century, IPH/UNESCO. SIMONS, R., Performance Measurement and Control Systems for Implementing Strategy. Upper Saddle River, NJ: Prentice Hall, 2002. SYMEONIDIS, A.L., MITKAS, P.A., Agent Intelligence Through Data Mining. SPRINGER, 2005. TAN,P., STEINBACH, M., KUMAR,V., Introdução ao DATA MINING Mineração de Dados. Rio de Janeiro. Editora Ciência Moderna, 2009. TURBAN, E., SHARDA, R., ARONSON, J. E., et al. Business Intelligence - Um Enfoque Gerencial para a Inteligência do Negócio. Editora Artmed, Porto Alegre, 2009. TUNDIZI, J. G., Água no Século XXI: Enfrentando a Escassez. São Paulo: Editora Rima, 2003. UNESCO/UNEP ( United Nations Environmental Program). Towards a Green Economy: Pathways to Sustainable Development and Poverty Eradication. In Report United Nations Enviromnent Programme, 2011. Disponível em: http://www.onu.org.br/onu-apontaestrategias-de-investimento-para-reducao-da-escassez-da-agua/; acessado em 27 de agosto de 2011. 107 Anexos – Modelos de Documento Os anexos (documentos) que servem de apoio a esta dissertação são apresentados a seguir: TABELA 5 - Relação de Anexos da Dissertação Anexo Sigla Nome do Documento I FCP Ficha de Cadastramento de Poços II TED Tabela de Estrutura de Dados III MAS Moção Adoção do SIAGAS IV MRS Modelo de Relatório de Saída V TDP Tabela de Dados de Poços – Extrato - Porto Velho 108 Anexo I FCP – FICHA DE CADASTRAMENTO DE POÇOS CADASTRAMENTO DE POÇOS SIAGAS - MAPA HIDROGEOLOGICO DO BRASIL SIG DADOS GERAIS Código no SIAGAS: Código do Poço: Ponto no Cadastro: Natureza do Ponto: Coordenadas Geográficas (**usar SAD69): ’ ° , ” Fotografia: Longitude ’ ° , ” Poço Tubular Latitude Poço Escavado Localidade: ........................................................................................................................... Poço Amazonas UF:........Município:.............................................................................................................. Proprietário do Terreno: ..................................................................................................... Fonte Natural Endereço do Proprietário:................................................................................................... Perfurado em: ....../....../...... **PERFURADOR:....................................... Contratante:................................. DADOS HIDROGEOLÓGICOS Tipo Formação: Natureza do Aqüífero: Profundidade (m): Tipo de Revestimento: Informada:................... Aço Medida:....................... Diâm.Int.(pol):.............. Poroso Fissural Cárstico CARACTERÍSTICAS DO POÇO PVC Comum PVC Aditivado Altura da boca (m):.................. INSTALAÇÕES DO POÇO Equipamento Bombeamento: Reservatório: Bomba Centrífuga Bomba Injetora Compressor Catavento Bomba Submersa Bomba Manual Não Equipado Sarilho Outros Crivo da Bomba (m)............ Alvenaria Fibra Aço Tambor Potência do Equipamento (cv)............ Amianto Capacidade (m3)............................. Diâmetro do Tubo Edutor(pol).............. Data Instalação ....../......../........ Dessalinizador: Sim Não Fabricante: ............................................................ Capacidade de Produção (m 3/h):............................ Data da Instalação: ........./.........../............... Situação: Em Instalação Motivo da Paralisação: Em Operação Com Defeito Paralisado Necessita troca de membranas Abandonado Falta de manutenção SITUAÇÃO DO POÇO Abandonado Colmatado Parado Não Instalado Nível Estático (NE):.......... Nível Dinâmico (ND):......... Informado Informada:........... Obstruído DADOS OPERACIONAIS DO POÇO Níveis da Água (m) Vazão (m3/h) Medida:............... .... Fechado Medido Em Operação Regime de Bombeamento Horas / Dia:.................... Dias / Semana:............... 109 Anexo I FCP – FICHA DE CADASTRAMENTO DE POÇOS - CONTINUAÇÃO QUALIDADE DA ÁGUA Condutividade Elétrica (µS/cm) Cor Odor Valor:..................... Quando não coletar amostra justificar em Límpida Turva Com Odor Inodora ‘Observações’ USO DA ÁGUA Abastecimento doméstico Abastecimento doméstico/animal Abastecimento doméstico/Irrigação Abastecimento industrial Abastecimento múltiplo Abastecimento urbano Doméstico/irrigação/animal Irrigação Outros (lazer,etc.) Pecuária Sem uso OBSERVAÇÃO Justificativa da falta de coleta de amostra de água e / ou outras observações: Informante: ......................................................................Recenseador: ............................................................................ Data: ......./.. ..../......... Assinatura do Recenseador:.......................................................................................................................................... Assinatura Coordenação de Área: ................................................................................................................................ Observação Importante – sempre buscar a informação do nome do **PERFURADOR do poço, para posterior recuperação dos dados construtivos e litológicos em relatórios. 110 Anexo II TED – TABELA DE ESTRUTURA DE DADOS – BASE DE DADOS REFERENCIAL 111 Anexo III MAS – MOÇÃO DE ADOÇÃO DO SIAGAS 112 Anexo IV MRS – MODELO DE RELATÓRIO SAÍDA 113 Anexo V TDP – TABELA DE DADOS DE POÇOS – PROJETO PILOTO – PORTO VELHO 114 Anexo V TDP – TABELA DE DADOS DE POÇOS – PROJETO PILOTO – PORTO VELHO CONTINUAÇÃO 115 Anexo V TDP – TABELA DE DADOS DE POÇOS – PROJETO PILOTO – PORTO VELHO CONTINUAÇÃO