UM ARMAZÉM DE DADOS PARA OS MUNICÍPIOS DA ZONA SUL DO RS: TECNOLOGIAS QUE APOIAM O MEIO AMBIENTE REGIONAL Mário Capanema Ulysséa, Paulo Prestes Porto Luiz Antônio Moro Palazzo FATEC – Senac Pelotas Rua Gonçalves Chaves,602 – 96015-560 Pelotas {mucapanema, prporto}@senacrs.com.br [email protected] Resumo: Este artigo propõe o uso das tecnologias de armazém de dados, mineração de dados e sistemas de informação geográfica para os municípios da zona sul do RS. O estudo conduz a uma proposta de armazenamento e processamento dos dados coletados, com apoio da inteligência artificial para a promoção do desenvolvimento regional sul do Rio Grande do Sul. Palavras-chave: mineração de dados, descoberta de conhecimento, meio ambiente 1. INTRODUÇÃO Os municípios da zona sul do RS armazenaram um grande volume de informações ao longo dos anos. As informações coletadas, nos últimos 30 anos, se encontram dispersas, sem integração, formadas de milhares de dados cadastrados, em diferentes formatos e pulverizadas entre as organizações, segundo o interesse dos trabalhos de pesquisa das instituições como a EMBRAPA, UCPel, UFPel, IBAMA, FEPAM, dentre outras. A procura do conhecimento novo requer uma metodologia que atenda as organizações, apoiada por um armazém de dados, para apoiar o desenvolvimento regional e integração dos processos econômicos e sociais do MERCOSUL. A mineração de dados e a descoberta de conhecimento em bases de dados permitem transformar dados em informações de qualidade, no objetivo de tomar decisões estratégicas para o melhor desempenho das organizações, face à crescente competitividade e o mercado globalizado. Isto requer o estudo de tecnologias que permitam a integração de dados, a exemplo de um armazém de dados que permite o estudo estatístico das informações e visualização dos dados, com apoio de sistemas de informação geográfica (SIG), dentre outros. Identifica, portanto, a seguinte hipótese: a possibilidade de relacionamento entre os dados socioeconômicos e do meio ambiente existentes, nos municípios da zona sul do RS, obtidos por software, fornecerá ferramentas, meios e alternativas de uma melhor definição para a economia regional. O objetivo da proposta se fundamenta na organização das informações dos municípios da zonal sul do RS, na forma de um armazém de dados, e apoiada por metodologias de descoberta de conhecimento na base de dados e sistemas de informação geográfica, dentre outras. A descoberta de conhecimento em base de dados (DCBD) se utiliza de conhecimentos de diversas áreas, como inteligência artificial, banco de dados e aprendizado de máquina e se destina a estudar os algoritmos de extração de padrões e modelos, segundo (FAYYAD, 1996). A necessidade de um armazém de dados com informações históricas e de uma grande quantidade de dados se fundamenta em (BERSON, 1997), como exigência da própria técnica para geração de modelos de qualidade, pois pequenas quantidades de dados podem gerar padrões não confiáveis. A justificativa se fundamenta na ausência de trabalhos similares na região sul, na falta de integração dos dados existentes, nas dificuldades econômicas que obrigam as organizações a uma nova estratégia de competição e nas facilidades das tecnologias de informação disponíveis nas organizações. Os benefícios sociais previstos para a implantação do projeto são amplos e abrangem aplicações na definição de políticas de desenvolvimento e integração regional, como o apoio as organizações nas estratégias de competição, frente ao mundo globalizado. O trabalho inclui uma revisão bibliográfica, destacando o estado da arte em mineração de dados e descoberta de conhecimento, disponibilizados num armazém de dados, com apoio de sistemas de informação geográfica projetados para os municípios da zona sul do RS. 2. ARMAZÉM DE DADOS: UMA TECNOLOGIA INTEGRADORA Os problemas das organizações, relativos ao processo decisório, vem de longa data, muito antes dos computadores e tratados de formas diferenciadas. A necessidade de decisões mais embasadas motivou a redescoberta da estatística, a criação de ferramentas e metodologias para tratar a informação e, principalmente, pela tomada de decisão nos negócios, cada vez mais competitivo, estimulando as tecnologias. Segundo (STAIR, 1998) alguns sistemas podem ser citados, como os Sistemas Gerenciais, Sistemas Executivos, Sistemas Especialistas e Sistemas de Apoio a Decisão. Sistemas de Apoio a Decisão, em particular, possuem como características a manipulação de grandes volumes de dados, o processamento de dados de fontes diferentes, além das operações complexas, na forma de textos e gráficos, com flexibilidade para emissão de relatórios e visualização de dados em diferentes formatos. Um Armazém de Dados - AD, segundo Bill Inmon, citado por (HARRISON, 1998), é um conjunto de dados baseados em assuntos, integrado, não volátil e variável em relação ao tempo, de apoio as decisões gerenciais. Baseados em assuntos refere-se ao fato de que o AD está organizado de maneira a descrever o desempenho dos negócios da organização; integrados, refere-se ao fato dos dados serem organizados para fornecer uma fonte única; variáveis em relação ao tempo diz respeito à pontuação cronológica e comparado com o tempo; e não-volátil porque uma vez inseridos no AD os dados não devem mudar. A tecnologia de Armazém de Dados permite as mais variadas atividades representadas pela Emissão de Relatórios, Processamento Analítico On Line (OLAP), Sistema de Informação Executiva (EIS) e Mineração de Dados, de fundamental importância para as funções gerenciais administrativas das organizações. Na visão de (HARRISON, 1998), um Armazém de Dados possui dados atuais, históricos e resumos oriundos de um sistema de base de dados operacional de uma organização. Eles armazenam uma grande quantidade dados comparados as bases de dados operacionais e refletem muito mais a estrutura do negócio da organização do que a modelagem dos dados em bases operacionais. Os AD podem ser usados em conjunto com os softwares de mineração de dados para a realização de análise dos dados e descoberta do conhecimento novo. Armazém de Dados, segundo (ABEL, 2000), é tipicamente um sistema de banco de dados dedicado. A maioria de seus dados são obtidos dos sistemas de produção ou sistemas fontes, ou seja, um Armazém de Dados é separado de suas operações. Numa visão geral, descrita pela mesma autora, os Armazéns de Dados - são utilizados para armazenar o comportamento de uma organização ao longo do tempo, refletido através de seus dados. Para isso, armazena quantidades gigantescas de dados, coletados ao longo de grandes períodos de tempo. Os dados obtidos de múltiplos bancos de dados são, na maioria dos casos, sistemas legados, como modelos, formas de representação e plataformas diferentes, que devem ser integrados e homogeneizados antes de serem incluídos no Armazém de Dados. Os modelos de dados são concebidos do ponto de vista de análise e não de transação, sendo que as consultas são otimizadas, mas não as alterações, praticamente inexistentes. No Processamento Analítico On Line (OLAP), segundo a descrição de (HARRISON, 1998), aplica-se a todas as funções analíticas (geração de consultas a banco de dados, execução de cálculos matemáticos e formatação de dados) requeridas para a criação de informações úteis a partir dos dados armazenados num Armazém de Dados. Permite que os usuários executem funções de análise de dados passando livremente pelas várias dimensões do AD. Possibilita, a criação dinâmica de documentos para vincular conteúdos estruturados (dados alfanuméricos ao depósito de conteúdo não-estruturado de uma “intranet”, particularmente, informações em texto e imagens. A definição de OLAP geralmente se refere a quatro capacidades: consulta a relatório; análise multidimensional; análise estatística e mineração de dados. A literatura descreve os “data-mart” como uma versão de baixo custo e de tamanho reduzido de um AD. Um “data-mart” é um AD de pequeno porte projetado para atender uma unidade de negócios estratégica dentro da organização. Diferentes abordagens são descritas, como um AD único e global; a integração de “data-mart”, - definidos para cada uma das áreas de negócio da empresa, para serem posteriormente integrados, e a terceira alternativa no desenvolvimento de um Armazém de Dados, onde a opção de integração desde o início é definido com armazenamento local. 3. MINERAÇÃO DE DADOS E DESCOBERTA DE CONHECIMENTO O sucesso de uma aplicação em Descoberta de Conhecimento é descrito por (FAYYAD, 1996) que propõe critérios práticos e técnicos; o primeiro conhecido como o impacto potencial da aplicação, a falta de alternativa, o suporte organizacional e os problemas legais; os critérios técnicos são: atributos relevantes, baixo nível de ruídos, intervalos de confiança e conhecimento prévio. As etapas do processo de DCBD, possui alguma variação entre os métodos de Fayyad e Adriaans, mas constituem-se basicamente das mesmas atividades. Algumas vezes estas atividades estão distribuídas em um número menor de etapas, as quais podem ser resumidas em: 1. Definir e entender o domínio e as metas; 2. Selecionar os dados alvos do processo; 3. Limpeza dos dados e pré-processamento, eliminando ruídos e preparando os dados; 4. Redução e projeção dos dados para representá-los melhor de acordo com a meta estabelecida; 5. Decidir qual a técnica ou método de mineração a ser utilizado; 6. Escolher qual o algoritmo a ser utilizado, bem como modelos e parâmetros; 7. Executar a mineração; 8. Interpretar os resultados podendo voltar a fazer iterações nos dados; 9. Avaliação (consolidação) do conhecimento descoberto. Segundo (HARRISON, 1998), o emprego comercial da mineração de dados usa técnicas da estatística, da ciência da computação e da pesquisa de inteligência artificial. A escolha de uma combinação específica de técnicas a serem aplicadas em uma certa situação, depende da natureza da tarefa de mineração dos dados a ser executada e da natureza dos dados disponíveis. Na descoberta de conhecimento, não é feita nenhuma suposição antecipada; é permitido aos dados falarem por si mesmos. O mesmo autor enfatiza: “Esta descoberta de conhecimento pode ser de dois tipos: supervisionada ou não supervisionada. A descoberta de conhecimento supervisionada tenta explicar ou categorizar alguns campos de dados específicos, como receitas ou respostas. A descoberta de conhecimento não supervisionada tenta encontrar modelos ou similaridades entre grupos de registros sem o uso de um campo alvo específico ou conjunto de classes predefinidas”. A maioria das técnicas de mineração de dados descritas existem há anos ou décadas, na forma de algoritmos, mas somente nos últimos anos que a mineração de dados comercial tomou grandes proporções. Dentre as técnicas de mineração de dados podem ser citadas: as redes neurais, os algoritmos genéticos, as árvores de decisão e a indução de regras, a detecção de agrupamentos, a análise estatística, e a análise de vínculos, dentre outras. As principais tarefas em mineração de dados, descritas na literatura e realizadas para certas circunstâncias, são: a classificação, a estimativa, a previsão, a segmentação, a descrição e o agrupamento por afinidades. 4. ARMAZÉM DE DADOS: A METODOLOGIA INTEGRADORA A metodologia se fundamenta na definição de um Armazém de Dados para os Municípios da Zona Sul, na forma de “data-mart” para os Municípios da Zona Sul do RS, destacando a coleta e disponibilidade dos dados da região, através do Sistema de Informações Ambientais (SIAM). O Armazém de Dados, na filosofia integradora, permite as mais variadas atividades representadas pela emissão de Relatórios, OLAP, EIS e Mineração de Dados para as funções administrativas das organizações, além do apoio de sistemas de informação geográfica no processamento de informações de mapas e tabelas para visualização de dados georreferenciadas. A arquitetura proposta possui as seguintes características, (Figuras 1 e 2), detalhando o AD, com as respectivas numerações laterais, e a modelagem de dados ER para os municípios da zona sul do RS. Figura 1 - Fonte: Adaptado de Bello ( 1999) 1. Metadados – permitem a localização e descrição dos vários componentes, como a definição dos nomes, a estrutura e o conteúdo do AD, além das regras de integração, atualização, modelos de análise e monitoração dos dados e procedimentos de segurança; 2. Fontes de Informação – caracteriza-se pelos diferentes tipos e formatos de dados do AD; 3. Concentração de Dados – nesta área os dados são selecionados, extraídos, transformados e integrados, denominados de SETI, acrônimo das funções descritas (seleção, extração, transformação e integração); 4. Sistema de AD - composto de vários “data-marts” implementados que irão integrar o armazém de dados; 5. Plataforma de Decisão – composta por diferentes formatos de saída das informações na forma de relatórios, base de dados individuais, hipercubos e conjunto de dados destinados a mineração de dados ou a sistemas de apoio a decisão. Figura 2 – Modelo ER do Banco de Dados Geográfico dos Municípios da Zona Sul do RS A modelagem dos dados dos municípios da Zona Sul do RS, descreve o foco do interesse regional, sendo usada no Sistema de Informação Ambiental. 5. SISTEMAS DE INFORMAÇÃO GEOGRÁFICA Um Sistema de Informação Geográfica (SIG), segundo (COWEN, 1989) é “um sistema de suporte a decisão que integra dados referenciados espacialmente num ambiente de respostas a problemas”. Um SIG pode ser utilizado de três grandes maneiras: como ferramenta para produção de mapas; como suporte espacial para análise de fenômenos e como um banco de dados geográfico. A estrutura geral de um SIG é formada por uma interface com o usuário, entrada e integração de dados, funções de processamento gráfico e de imagens, além do armazenamento e recuperação de dados (banco de dados geográfico), exemplo na (Figura 4). Um SIG, através da análise espacial, tem a capacidade de responder questões em vários graus de complexidade, a exemplo da descrição apresentada na Figura 3, o que ajuda a estreitar a relação com a área da Inteligência Artificial. Os cientistas da IA, segundo Waterman (1986), buscam desenvolver programas computacionais através de heurísticas, na solução de problemas de forma inteligente. Neste caso o computador atua como um especialista nas funções de desenho, mapeamento, classificações, generalização de características de mapas com o apoio da IA provendo modelos, técnicas de sistemas de desenho e análise. Análise Pergunta Geral Condição Localização Tendência Roteamento Padrões “O que está...” “Onde está...” “O que mudou...” “Por onde ir...” “Qual o padrão...” Modelos Exemplo Qual a população desta cidade? Quais as áreas com possibilidade de alagamento? Esta terra era produtiva 5 anos atrás? Qual o melhor caminho para a praia? Qual a distribuição da miséria em Pelotas? Qual o impacto na população se poluirmos nossa O que acontece se... praia? Figura 3 - Adaptada de Maguire, 1991 Um exemplo de integração entre SIG e IA se verifica pela tecnologia dos Sistemas Especialistas. Estes se caracterizam pelo uso intensivo do conhecimento especializado para resolver problemas ao nível de um especialista humano e emulam o comportamento em algum domínio específico do conhecimento. Um especialista é uma pessoa que tem um conhecimento especializado numa determinada área. Sistemas Especialistas são utilizados na resolução de problemas na área do planejamento, controle e expansão do desenvolvimento urbano, entre outras. O SIG, neste caso, funciona como uma potente base de dados e/ou informações que, aliado a experiência dos especialistas da área do planejamento urbano, forma uma expressiva base de conhecimento para o desenvolvimento de um sistema especialista. Uma ferramenta de SIG, com expressivo uso entre usuários, é o Geographic Resources Analysis Support System (GRASS), foi criada pela U.S. Army Construction Engineering Research Laboratories (USA-CERL, 1982-1995), disponível na versão 6.3.0, no endereço http://grass.itc.it., sob licença GNU - General Public License (GPL), executável em diversas plataformas e sistemas operacionais. O GRASS é usado no gerenciamento de dados, processamento de imagens, produção de gráficos, modelagem espacial, e visualização dos mais variados tipos de dados. No SIG GRASS e a título de exemplificação, possui um arcabouço de sistema especialista, que contém um motor de inferência baseado na estatística bayesiana (raciocínio da experiência passada). Foi projetado para ajudar a peritos no desenvolvimento de sistemas especialistas no planejamento e gerência do uso de solos. Estes Sistemas Especialistas foram projetados para auxiliar os leigos nas decisões sobre o uso e aproveitamento dos solos pesquisados. Em um sistema especialista que usar o arcabouço, os impactos prováveis de uma ação futura do uso do solo, possui como base as probabilidades condicionais sobre o impacto de ações passadas e similares. Figura 4 – SIG/GRASS - consulta a base de dados As tecnologias de SIG e similares provêem um melhor detalhamento do potencial oferecido pelos municípios da zona sul do RS e constitui uma importante ferramenta para os estudos no planejamento e desenvolvimento regional. 6. CONSIDERAÇÕES FINAIS A pesquisa Armazém de Dados para os Municípios da Zona Sul do RS precedeu a um estudo e levantamento de dados dos 28 municípios, relativos as condições da agricultura, pecuária, clima, saúde e educação, com apoio das instituições de pesquisa UCPel, UFPel, EMBRAPA, ITEPA/UCPel e ALM/UFPel. A primeira fase caracterizou-se pela coleta e organização das informações descritas e definição de um Armazém de Dados, na forma de “data-mart”, integrado, desde o início, usando a mesma filosofia e modelagem, com vistas à viabilização de custos operacionais. A entrada de dados com apoio do Sistema de Informações Ambientais - SIAM, desenvolvido anteriormente, atendeu as finalidades definidas, criando a infra-estrutura básica da proposta. O ambiente descrito permitiu a integração de dados e textos, em formatos diversos, com apoio de aplicativos e ferramentas de software. Os resultados obtidos, com o software AIRA, na mineração de dados atestou a viabilidade da proposta permitindo conclusões parciais, relativo as associações de regras entre as principais cultivares de arroz e soja com as variáveis climáticas, identificadas como a precipitação, insolação e nebulosidade. Isto incentiva a novas formulações de hipóteses na pesquisa de mineração de dados da agricultura regional, bem como a necessidade de se incorporar um maior número de dados no “data-mart” para garantir maior representatividade dos dados. A obtenção dos resultados, também parciais, com o apoio do SIG/GRASS, na forma de mapas e dados georreferenciados pesquisados, atestam que as tecnologias descritas oferecem resultados confiávies quanto a tecnologia da informação e o desenvolvimento regional. Dentre as vantagens podem ser descritas, em primeiro lugar, a criação de um ambiente integrado para mineração de dados, contendo diferentes ferramentas de software e dados em formatos diferentes; as facilidades para a pesquisa para diferentes tipos de usuários, permitindo abordagens e heurísticas diferenciadas, como a integração dos softwares de geoprocessamento e dados espaciais. Destaca-se, também, a integração da informação, como o armazenamento orientado ao contexto, onde os modelos de dados, na forma de estrela ou floco de neve permitirão aos agentes de decisão os cenários diferenciados e armazenamento segundo a lógica definida. Os benefícios para o desenvolvimento regional se caracterizam pela metodologia proposta ao oferecer a organização dos dados históricos e atuais dos Municípios da Zona Sul do RS, bem como a integração dos dados, conduzindo ao conhecimento novo, obtidos por software, quer na forma de mapas, dados estatísticos ou descritivos para apoiar as definições de políticas do desenvolvimento regional. E, finalmente, recomenda-se a institucionalização de um Armazém de Dados para os Municípios da Zona Sul do RS, através da FATEC/SENAC, como contribuição efetiva aos processos de integração dos municípios da Zona Sul do RS com os países do Mercosul. REFERÊNCIAS ABEL, M. Data Warehouse. Centro de Empreendimentos do Instituto de Informática da UFRGS, Porto Alegre, 2000. ADRIAANS, P.; ZANINGE, D. Data Mining. Harlow: Addison-Wesley,1997. 158 p. BELLO, O. Ambientes de Data Warehouse Orientados por Técnicas de Sistemas de Informação Geográfica. Universidade de Minho. Portugal, 1999. BERRY, M.; LINOFF, G. Data Minig Techniques. Wiley Computer Publishing.1997. BRACHMAN, R. J.; ANAND, T. The process of knowledge discovery in databases: a human-centered approuch. IN: FAYYAD, Usama M. et alli (eds), Advances in Knowledge Discovery and Data Mining. Menlo Park, The MIT Press, 1996. CHU, W. W.; CHEN, Q. A strutured approuch for cooperative query answering. IEEE. Transactions on Knowledge and Data Engineering, V.6, n.5. Outubro de 1994. COWEN, D.J. GIS versus CAD versus DBMS: what are the diferences? Photogrammetric Engineering and Remote, 54: 1551-1554, 1988. FAYYAD, V. M. et all. Advances in knowledge discovery and data mining. Menlo Park. The MIT Press, 1996. FAYYAD, V.M. From data mining to knowledge discovery: an overview. The MIT Press, 1997. FELDENS, M.; CASTILHO, J. M. V. Engenharia da Descoberta do Conhecimento em Bases de Dados: estudo e aplicação na área da saúde. Porto Alegre. CPGCC/UFRGS, Março de 1997. GIAGNON, G. Data Warehousing: An Overview. PC Magazine. Mosehg, 1999. HARRISON, T. H. Intranet Data Warehouse. Ed. Berkeley, São Paulo, 1998. MAGUIRE, D. J. An overview and definition of GIS, in MAGUIRE, D. J; GOODCHILD, M. F., RHIND, D. W. (org) Geographical Information Systems: Principles and Applications, Langman, London, pp.9-20, vol.1, 1991. MOSCAROLA, J.; BAULAC, Y.; BOLDEN, R. Technology watch via textual data analysis. Note de Recherche n.98-14, Université de Savoie, Julho de 1998. TERRA, E. L. Uma Experiência de Descoberta de Conhecimento em uma Base de Dados Legada e Temporal. Dissertação Mestrado. PUC-RS, Porto Alegre, 1999. WATERMAN, D.A. A Guide to Expert Systems. 1a ed., Addison-Wesley, 1986. WEISS, S. M.; INDURKHYA, N. Predictive Data Mining – A practical Guide. Morgan Kaufmann Publishers Inc. San Francisco, California, 1998.