um armazém de dados para os municípios da zona sul do rs

UM ARMAZÉM DE DADOS PARA OS MUNICÍPIOS DA
ZONA SUL DO RS: TECNOLOGIAS QUE APOIAM O
MEIO AMBIENTE REGIONAL
Mário Capanema Ulysséa, Paulo Prestes Porto
Luiz Antônio Moro Palazzo
FATEC – Senac Pelotas
Rua Gonçalves Chaves,602 – 96015-560 Pelotas
{mucapanema, prporto}@senacrs.com.br
[email protected]
Resumo: Este artigo propõe o uso das tecnologias de armazém de dados, mineração de dados e
sistemas de informação geográfica para os municípios da zona sul do RS. O estudo conduz a
uma proposta de armazenamento e processamento dos dados coletados, com apoio da
inteligência artificial para a promoção do desenvolvimento regional sul do Rio Grande do Sul.
Palavras-chave: mineração de dados, descoberta de conhecimento, meio ambiente
1.
INTRODUÇÃO
Os municípios da zona sul do RS armazenaram um grande volume de
informações ao longo dos anos. As informações coletadas, nos últimos 30 anos, se
encontram dispersas, sem integração, formadas de milhares de dados cadastrados, em
diferentes formatos e pulverizadas entre as organizações, segundo o interesse dos
trabalhos de pesquisa das instituições como a EMBRAPA, UCPel, UFPel, IBAMA,
FEPAM, dentre outras. A procura do conhecimento novo requer uma metodologia que
atenda as organizações, apoiada por um armazém de dados, para apoiar o
desenvolvimento regional e integração dos processos econômicos e sociais do
MERCOSUL.
A mineração de dados e a descoberta de conhecimento em bases de dados
permitem transformar dados em informações de qualidade, no objetivo de tomar
decisões estratégicas para o melhor desempenho das organizações, face à crescente
competitividade e o mercado globalizado. Isto requer o estudo de tecnologias que
permitam a integração de dados, a exemplo de um armazém de dados que permite o
estudo estatístico das informações e visualização dos dados, com apoio de sistemas de
informação geográfica (SIG), dentre outros. Identifica, portanto, a seguinte hipótese: a
possibilidade de relacionamento entre os dados socioeconômicos e do meio ambiente
existentes, nos municípios da zona sul do RS, obtidos por software, fornecerá
ferramentas, meios e alternativas de uma melhor definição para a economia regional.
O objetivo da proposta se fundamenta na organização das informações dos
municípios da zonal sul do RS, na forma de um armazém de dados, e apoiada por
metodologias de descoberta de conhecimento na base de dados e sistemas de
informação geográfica, dentre outras. A descoberta de conhecimento em base de dados
(DCBD) se utiliza de conhecimentos de diversas áreas, como inteligência artificial,
banco de dados e aprendizado de máquina e se destina a estudar os algoritmos de
extração de padrões e modelos, segundo (FAYYAD, 1996). A necessidade de um
armazém de dados com informações históricas e de uma grande quantidade de dados se
fundamenta em (BERSON, 1997), como exigência da própria técnica para geração de
modelos de qualidade, pois pequenas quantidades de dados podem gerar padrões não
confiáveis.
A justificativa se fundamenta na ausência de trabalhos similares na região sul, na
falta de integração dos dados existentes, nas dificuldades econômicas que obrigam as
organizações a uma nova estratégia de competição e nas facilidades das tecnologias de
informação disponíveis nas organizações. Os benefícios sociais previstos para a
implantação do projeto são amplos e abrangem aplicações na definição de políticas de
desenvolvimento e integração regional, como o apoio as organizações nas estratégias de
competição, frente ao mundo globalizado.
O trabalho inclui uma revisão bibliográfica, destacando o estado da arte em
mineração de dados e descoberta de conhecimento, disponibilizados num armazém de
dados, com apoio de sistemas de informação geográfica projetados para os municípios
da zona sul do RS.
2.
ARMAZÉM DE DADOS: UMA TECNOLOGIA INTEGRADORA
Os problemas das organizações, relativos ao processo decisório, vem de longa
data, muito antes dos computadores e tratados de formas diferenciadas. A necessidade
de decisões mais embasadas motivou a redescoberta da estatística, a criação de
ferramentas e metodologias para tratar a informação e, principalmente, pela tomada de
decisão nos negócios, cada vez mais competitivo, estimulando as tecnologias. Segundo
(STAIR, 1998) alguns sistemas podem ser citados, como os Sistemas Gerenciais,
Sistemas Executivos, Sistemas Especialistas e Sistemas de Apoio a Decisão. Sistemas
de Apoio a Decisão, em particular, possuem como características a manipulação de
grandes volumes de dados, o processamento de dados de fontes diferentes, além das
operações complexas, na forma de textos e gráficos, com flexibilidade para emissão de
relatórios e visualização de dados em diferentes formatos.
Um Armazém de Dados - AD, segundo Bill Inmon, citado por (HARRISON, 1998), é
um conjunto de dados baseados em assuntos, integrado, não volátil e variável em
relação ao tempo, de apoio as decisões gerenciais. Baseados em assuntos refere-se ao
fato de que o AD está organizado de maneira a descrever o desempenho dos negócios
da organização; integrados, refere-se ao fato dos dados serem organizados para fornecer
uma fonte única; variáveis em relação ao tempo diz respeito à pontuação cronológica e
comparado com o tempo; e não-volátil porque uma vez inseridos no AD os dados não
devem mudar.
A tecnologia de Armazém de Dados permite as mais variadas atividades
representadas pela Emissão de Relatórios, Processamento Analítico On Line (OLAP),
Sistema de Informação Executiva (EIS) e Mineração de Dados, de fundamental
importância para as funções gerenciais administrativas das organizações.
Na visão de (HARRISON, 1998), um Armazém de Dados possui dados atuais,
históricos e resumos oriundos de um sistema de base de dados operacional de uma
organização. Eles armazenam uma grande quantidade dados comparados as bases de
dados operacionais e refletem muito mais a estrutura do negócio da organização do que
a modelagem dos dados em bases operacionais. Os AD podem ser usados em conjunto
com os softwares de mineração de dados para a realização de análise dos dados e
descoberta do conhecimento novo.
Armazém de Dados, segundo (ABEL, 2000), é tipicamente um sistema de banco de
dados dedicado. A maioria de seus dados são obtidos dos sistemas de produção ou
sistemas fontes, ou seja, um Armazém de Dados é separado de suas operações. Numa
visão geral, descrita pela mesma autora, os Armazéns de Dados - são utilizados para
armazenar o comportamento de uma organização ao longo do tempo, refletido através
de seus dados. Para isso, armazena quantidades gigantescas de dados, coletados ao
longo de grandes períodos de tempo. Os dados obtidos de múltiplos bancos de dados
são, na maioria dos casos, sistemas legados, como modelos, formas de representação e
plataformas diferentes, que devem ser integrados e homogeneizados antes de serem
incluídos no Armazém de Dados. Os modelos de dados são concebidos do ponto de
vista de análise e não de transação, sendo que as consultas são otimizadas, mas não as
alterações, praticamente inexistentes.
No Processamento Analítico On Line (OLAP), segundo a descrição de
(HARRISON, 1998), aplica-se a todas as funções analíticas (geração de consultas a
banco de dados, execução de cálculos matemáticos e formatação de dados) requeridas
para a criação de informações úteis a partir dos dados armazenados num Armazém de
Dados. Permite que os usuários executem funções de análise de dados passando
livremente pelas várias dimensões do AD. Possibilita, a criação dinâmica de
documentos para vincular conteúdos estruturados (dados alfanuméricos ao depósito de
conteúdo não-estruturado de uma “intranet”, particularmente, informações em texto e
imagens. A definição de OLAP geralmente se refere a quatro capacidades: consulta a
relatório; análise multidimensional; análise estatística e mineração de dados.
A literatura descreve os “data-mart” como uma versão de baixo custo e de tamanho
reduzido de um AD. Um “data-mart” é um AD de pequeno porte projetado para atender
uma unidade de negócios estratégica dentro da organização. Diferentes abordagens são
descritas, como um AD único e global; a integração de “data-mart”, - definidos para
cada uma das áreas de negócio da empresa, para serem posteriormente integrados, e a
terceira alternativa no desenvolvimento de um Armazém de Dados, onde a opção de
integração desde o início é definido com armazenamento local.
3. MINERAÇÃO DE DADOS E DESCOBERTA DE CONHECIMENTO
O sucesso de uma aplicação em Descoberta de Conhecimento é descrito por
(FAYYAD, 1996) que propõe critérios práticos e técnicos; o primeiro conhecido como
o impacto potencial da aplicação, a falta de alternativa, o suporte organizacional e os
problemas legais; os critérios técnicos são: atributos relevantes, baixo nível de ruídos,
intervalos de confiança e conhecimento prévio.
As etapas do processo de DCBD, possui alguma variação entre os métodos de
Fayyad e Adriaans, mas constituem-se basicamente das mesmas atividades. Algumas
vezes estas atividades estão distribuídas em um número menor de etapas, as quais
podem ser resumidas em:
1. Definir e entender o domínio e as metas;
2. Selecionar os dados alvos do processo;
3. Limpeza dos dados e pré-processamento, eliminando ruídos e preparando os
dados;
4. Redução e projeção dos dados para representá-los melhor de acordo com a meta
estabelecida;
5. Decidir qual a técnica ou método de mineração a ser utilizado;
6. Escolher qual o algoritmo a ser utilizado, bem como modelos e parâmetros;
7. Executar a mineração;
8. Interpretar os resultados podendo voltar a fazer iterações nos dados;
9. Avaliação (consolidação) do conhecimento descoberto.
Segundo (HARRISON, 1998), o emprego comercial da mineração de dados usa
técnicas da estatística, da ciência da computação e da pesquisa de inteligência artificial.
A escolha de uma combinação específica de técnicas a serem aplicadas em uma certa
situação, depende da natureza da tarefa de mineração dos dados a ser executada e da
natureza dos dados disponíveis. Na descoberta de conhecimento, não é feita nenhuma
suposição antecipada; é permitido aos dados falarem por si mesmos. O mesmo autor
enfatiza: “Esta descoberta de conhecimento pode ser de dois tipos: supervisionada ou
não supervisionada. A descoberta de conhecimento supervisionada tenta explicar ou
categorizar alguns campos de dados específicos, como receitas ou respostas. A
descoberta de conhecimento não supervisionada tenta encontrar modelos ou
similaridades entre grupos de registros sem o uso de um campo alvo específico ou
conjunto de classes predefinidas”. A maioria das técnicas de mineração de dados
descritas existem há anos ou décadas, na forma de algoritmos, mas somente nos últimos
anos que a mineração de dados comercial tomou grandes proporções. Dentre as técnicas
de mineração de dados podem ser citadas: as redes neurais, os algoritmos genéticos, as
árvores de decisão e a indução de regras, a detecção de agrupamentos, a análise
estatística, e a análise de vínculos, dentre outras. As principais tarefas em mineração de
dados, descritas na literatura e realizadas para certas circunstâncias, são: a classificação,
a estimativa, a previsão, a segmentação, a descrição e o agrupamento por afinidades.
4. ARMAZÉM DE DADOS: A METODOLOGIA INTEGRADORA
A metodologia se fundamenta na definição de um Armazém de Dados para os
Municípios da Zona Sul, na forma de “data-mart” para os Municípios da Zona Sul do
RS, destacando a coleta e disponibilidade dos dados da região, através do Sistema de
Informações Ambientais (SIAM).
O Armazém de Dados, na filosofia integradora, permite as mais variadas
atividades representadas pela emissão de Relatórios, OLAP, EIS e Mineração de Dados
para as funções administrativas das organizações, além do apoio de sistemas de
informação geográfica no processamento de informações de mapas e tabelas para
visualização de dados georreferenciadas. A arquitetura proposta possui as seguintes
características, (Figuras 1 e 2), detalhando o AD, com as respectivas numerações
laterais, e a modelagem de dados ER para os municípios da zona sul do RS.
Figura 1 - Fonte: Adaptado de Bello ( 1999)
1. Metadados – permitem a localização e descrição dos vários componentes,
como a definição dos nomes, a estrutura e o conteúdo do AD, além das regras de
integração, atualização, modelos de análise e monitoração dos dados e procedimentos
de segurança;
2. Fontes de Informação – caracteriza-se pelos diferentes tipos e formatos de
dados do AD;
3. Concentração de Dados – nesta área os dados são selecionados, extraídos,
transformados e integrados, denominados de SETI, acrônimo das funções descritas
(seleção, extração, transformação e integração);
4. Sistema de AD - composto de vários “data-marts” implementados que irão
integrar o armazém de dados;
5. Plataforma de Decisão – composta por diferentes formatos de saída das
informações na forma de relatórios, base de dados individuais, hipercubos e conjunto de
dados destinados a mineração de dados ou a sistemas de apoio a decisão.
Figura 2 – Modelo ER do Banco de Dados Geográfico dos Municípios da Zona Sul do RS
A modelagem dos dados dos municípios da Zona Sul do RS, descreve o foco do
interesse regional, sendo usada no Sistema de Informação Ambiental.
5. SISTEMAS DE INFORMAÇÃO GEOGRÁFICA
Um Sistema de Informação Geográfica (SIG), segundo (COWEN, 1989) é “um
sistema de suporte a decisão que integra dados referenciados espacialmente num
ambiente de respostas a problemas”. Um SIG pode ser utilizado de três grandes
maneiras: como ferramenta para produção de mapas; como suporte espacial para análise
de fenômenos e como um banco de dados geográfico. A estrutura geral de um SIG é
formada por uma interface com o usuário, entrada e integração de dados, funções de
processamento gráfico e de imagens, além do armazenamento e recuperação de dados
(banco de dados geográfico), exemplo na (Figura 4).
Um SIG, através da análise espacial, tem a capacidade de responder questões em
vários graus de complexidade, a exemplo da descrição apresentada na Figura 3, o que
ajuda a estreitar a relação com a área da Inteligência Artificial. Os cientistas da IA,
segundo Waterman (1986), buscam desenvolver programas computacionais através de
heurísticas, na solução de problemas de forma inteligente. Neste caso o computador
atua como um especialista nas funções de desenho, mapeamento, classificações,
generalização de características de mapas com o apoio da IA provendo modelos,
técnicas de sistemas de desenho e análise.
Análise
Pergunta Geral
Condição
Localização
Tendência
Roteamento
Padrões
“O que está...”
“Onde está...”
“O que mudou...”
“Por onde ir...”
“Qual o padrão...”
Modelos
Exemplo
Qual a população desta cidade?
Quais as áreas com possibilidade de alagamento?
Esta terra era produtiva 5 anos atrás?
Qual o melhor caminho para a praia?
Qual a distribuição da miséria em Pelotas?
Qual o impacto na população se poluirmos nossa
O que acontece se...
praia?
Figura 3 - Adaptada de Maguire, 1991
Um exemplo de integração entre SIG e IA se verifica pela tecnologia dos
Sistemas Especialistas. Estes se caracterizam pelo uso intensivo do conhecimento
especializado para resolver problemas ao nível de um especialista humano e emulam o
comportamento em algum domínio específico do conhecimento. Um especialista é uma
pessoa que tem um conhecimento especializado numa determinada área.
Sistemas Especialistas são utilizados na resolução de problemas na área do
planejamento, controle e expansão do desenvolvimento urbano, entre outras. O SIG,
neste caso, funciona como uma potente base de dados e/ou informações que, aliado a
experiência dos especialistas da área do planejamento urbano, forma uma expressiva
base de conhecimento para o desenvolvimento de um sistema especialista.
Uma ferramenta de SIG, com expressivo uso entre usuários, é o Geographic
Resources Analysis Support System (GRASS), foi criada pela U.S. Army Construction
Engineering Research Laboratories (USA-CERL, 1982-1995), disponível na versão
6.3.0, no endereço http://grass.itc.it., sob licença GNU - General Public License (GPL),
executável em diversas plataformas e sistemas operacionais. O GRASS é usado no
gerenciamento de dados, processamento de imagens, produção de gráficos, modelagem
espacial, e visualização dos mais variados tipos de dados.
No SIG GRASS e a título de exemplificação, possui um arcabouço de sistema
especialista, que contém um motor de inferência baseado na estatística bayesiana
(raciocínio da experiência passada). Foi projetado para ajudar a peritos no
desenvolvimento de sistemas especialistas no planejamento e gerência do uso de solos.
Estes Sistemas Especialistas foram projetados para auxiliar os leigos nas decisões sobre
o uso e aproveitamento dos solos pesquisados. Em um sistema especialista que usar o
arcabouço, os impactos prováveis de uma ação futura do uso do solo, possui como base
as probabilidades condicionais sobre o impacto de ações passadas e similares.
Figura 4 – SIG/GRASS - consulta a base de dados
As tecnologias de SIG e similares provêem um melhor detalhamento do
potencial oferecido pelos municípios da zona sul do RS e constitui uma importante
ferramenta para os estudos no planejamento e desenvolvimento regional.
6. CONSIDERAÇÕES FINAIS
A pesquisa Armazém de Dados para os Municípios da Zona Sul do RS precedeu
a um estudo e levantamento de dados dos 28 municípios, relativos as condições da
agricultura, pecuária, clima, saúde e educação, com apoio das instituições de pesquisa
UCPel, UFPel, EMBRAPA, ITEPA/UCPel e ALM/UFPel.
A primeira fase caracterizou-se pela coleta e organização das informações
descritas e definição de um Armazém de Dados, na forma de “data-mart”, integrado,
desde o início, usando a mesma filosofia e modelagem, com vistas à viabilização de
custos operacionais. A entrada de dados com apoio do Sistema de Informações
Ambientais - SIAM, desenvolvido anteriormente, atendeu as finalidades definidas,
criando a infra-estrutura básica da proposta. O ambiente descrito permitiu a integração
de dados e textos, em formatos diversos, com apoio de aplicativos e ferramentas de
software.
Os resultados obtidos, com o software AIRA, na mineração de dados atestou a
viabilidade da proposta permitindo conclusões parciais, relativo as associações de regras
entre as principais cultivares de arroz e soja com as variáveis climáticas, identificadas
como a precipitação, insolação e nebulosidade. Isto incentiva a novas formulações de
hipóteses na pesquisa de mineração de dados da agricultura regional, bem como a
necessidade de se incorporar um maior número de dados no “data-mart” para garantir
maior representatividade dos dados. A obtenção dos resultados, também parciais, com o
apoio do SIG/GRASS, na forma de mapas e dados georreferenciados pesquisados,
atestam que as tecnologias descritas oferecem resultados confiávies quanto a tecnologia
da informação e o desenvolvimento regional.
Dentre as vantagens podem ser descritas, em primeiro lugar, a criação de um
ambiente integrado para mineração de dados, contendo diferentes ferramentas de
software e dados em formatos diferentes; as facilidades para a pesquisa para diferentes
tipos de usuários, permitindo abordagens e heurísticas diferenciadas, como a integração
dos softwares de geoprocessamento e dados espaciais. Destaca-se, também, a integração
da informação, como o armazenamento orientado ao contexto, onde os modelos de
dados, na forma de estrela ou floco de neve permitirão aos agentes de decisão os
cenários diferenciados e armazenamento segundo a lógica definida. Os benefícios para
o desenvolvimento regional se caracterizam pela metodologia proposta ao oferecer a
organização dos dados históricos e atuais dos Municípios da Zona Sul do RS, bem como
a integração dos dados, conduzindo ao conhecimento novo, obtidos por software, quer
na forma de mapas, dados estatísticos ou descritivos para apoiar as definições de
políticas
do
desenvolvimento
regional.
E,
finalmente,
recomenda-se
a
institucionalização de um Armazém de Dados para os Municípios da Zona Sul do RS,
através da FATEC/SENAC, como contribuição efetiva aos processos de integração dos
municípios da Zona Sul do RS com os países do Mercosul.
REFERÊNCIAS
ABEL, M. Data Warehouse. Centro de Empreendimentos do Instituto de Informática da
UFRGS, Porto Alegre, 2000.
ADRIAANS, P.; ZANINGE, D. Data Mining. Harlow: Addison-Wesley,1997. 158 p.
BELLO, O. Ambientes de Data Warehouse Orientados por Técnicas de Sistemas de
Informação Geográfica. Universidade de Minho. Portugal, 1999.
BERRY, M.; LINOFF, G. Data Minig Techniques. Wiley Computer Publishing.1997.
BRACHMAN, R. J.; ANAND, T. The process of knowledge discovery in databases: a
human-centered approuch. IN: FAYYAD, Usama M. et alli (eds), Advances in
Knowledge Discovery and Data Mining. Menlo Park, The MIT Press, 1996.
CHU, W. W.; CHEN, Q. A strutured approuch for cooperative query answering. IEEE.
Transactions on Knowledge and Data Engineering, V.6, n.5. Outubro de 1994.
COWEN, D.J. GIS versus CAD versus DBMS: what are the diferences?
Photogrammetric Engineering and Remote, 54: 1551-1554, 1988.
FAYYAD, V. M. et all. Advances in knowledge discovery and data mining. Menlo
Park. The MIT Press, 1996.
FAYYAD, V.M. From data mining to knowledge discovery: an overview. The MIT
Press, 1997.
FELDENS, M.; CASTILHO, J. M. V. Engenharia da Descoberta do Conhecimento em
Bases de Dados: estudo e aplicação na área da saúde. Porto Alegre. CPGCC/UFRGS,
Março de 1997.
GIAGNON, G. Data Warehousing: An Overview. PC Magazine. Mosehg, 1999.
HARRISON, T. H. Intranet Data Warehouse. Ed. Berkeley, São Paulo, 1998.
MAGUIRE, D. J. An overview and definition of GIS, in MAGUIRE, D. J;
GOODCHILD, M. F., RHIND, D. W. (org) Geographical Information Systems:
Principles and Applications, Langman, London, pp.9-20, vol.1, 1991.
MOSCAROLA, J.; BAULAC, Y.; BOLDEN, R. Technology watch via textual data
analysis. Note de Recherche n.98-14, Université de Savoie, Julho de 1998.
TERRA, E. L. Uma Experiência de Descoberta de Conhecimento em uma Base de
Dados Legada e Temporal. Dissertação Mestrado. PUC-RS, Porto Alegre, 1999.
WATERMAN, D.A. A Guide to Expert Systems. 1a ed., Addison-Wesley, 1986.
WEISS, S. M.; INDURKHYA, N. Predictive Data Mining – A practical Guide. Morgan
Kaufmann Publishers Inc. San Francisco, California, 1998.