Estudo e Análise da Base de Dados do Portal - PROEC

Propaganda
Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia
Militar com vista à aplicação de Técnicas de Mineração de Dados1
Rafaela Giroto, 10º módulo de Ciência da Computação, UFLA, [email protected], Rua:
Elbert Vilela, nº 1679, Bairro: Presidente Kenedy, Lavras (MG).
Orientador: Ahmed Ali Abdala Esmin, UFLA/DCC.
Palavras Chave: Segurança Pública, Mineração de Dados, KDD, Banco de dados.
1. INTRODUÇÃO
Nas últimas décadas vem ocorrendo um aumento dramático na quantidade de
informações ou dados que são armazenadas em formato eletrônico. Deve ser considerado,
entretanto, que o valor destes dados está ligado à capacidade de extrair informações de mais
alto nível, ou seja, informações úteis que sirvam para dar suporte a decisões. Portanto, tornase cada vez mais necessária a aplicação de técnicas e ferramentas que transformem, de
maneira automática, os dados disponíveis em conhecimento. Dentro deste contexto, o termo
mineração dos dados (data mining), que representa a extração de informações implícitas e
padrões ocultos em bases de dados, tem recebido muita atenção de diversas áreas.
Em iniciativa conjunta do Departamento de Ciência da Computação (DCC) e
membros da Sexta Região da Polícia Militar, foi desenvolvido o Portal Corporativo da Sexta
Região da Policia Militar (6RPM). Este projeto vem sendo consolidado e hoje oferece uma
infra-estrutura computacional de apoio informatizado e também serve de instrumento de
integração entre a comunidade e a Polícia Militar. Este Portal possui em Banco de Dados
alimentado diariamente com diversos dados relativos à registros de ocorrências, troca de
informações, dados estatísticos, logística e etc. Deve ser considerado, entretanto, que o valor
destes dados está ligado à capacidade de extrair informações de mais alto nível, ou seja,
informações úteis que sirvam para dar suporte a decisões. Portanto, torna-se cada vez mais
necessária a aplicação de técnicas e ferramentas que transformem, de maneira automática, os
dados disponíveis em conhecimento. Para tal, inicialmente, deve-se estudar a base de dados a
fim de se analisar as condições do banco para posterior aplicação da Técnica de Mineração de
Dados.
1
Projeto de Extensão/PROEX/UFLA: Desenvolvimento e Implementação de Metodologia para a Análise de Dados e
Extração de Conhecimentos no Portal Corporativo da Sexta Região da Policia Militar (6RPM/PMMG).
1.1 Objetivo
Este trabalho tem como objetivo realizar um estudo de viabilidade sobre a atual
estrutura do banco de dados da 6ª Região de Polícia Militar de Minas Gerais para
posteriormente aplicar técnicas de Mineração de Dados.
2. REFERENCIAL TEÓRICO
2.1 Descoberta de Conhecimento e Mineração de Dados
A busca por conhecimento em grandes bases de dados recebeu diversos nomes até que
em 1989 o termo “Descoberta de Conhecimento em Banco de Dados” foi então designado
para se referir ao processo total de extração de conhecimento. (FAYYAD, et al., 1996). Sendo
assim, o termo Mineração de Dados é uma das etapas deste processo como observamos na
figura seguinte.
Figura 1: Etapas do Processo de KDD. Fonte: Fayadd et al (1996).
As etapas que compõem o processo de Descoberta do Conhecimento em Banco de
Dados compreendem uma série de estágios subseqüentes e iterativos onde os resultados de
cada passo realimentam as próximas ações. O analista de informações exerce um papel
fundamental nesse processo, interagindo com os especialistas, direcionando e orientando as
respectivas ações de desenvolvimento de KDD. As atividades interativas e iterativas do
processo podem ser assim descritas:

Seleção – elegem-se os dados pertinentes as áreas de interesse, ou sumarizados em um
subconjunto de amostragem.

Pré-processamento – consiste no emprego de ferramentas que viabilizem a
preparação de dados para torná-los apropriados para as próximas fases do processo.
Nesta etapa são corrigidas as distorções, ausência de dados ou, simplesmente, é
realizada uma reorganização das informações.

Transformação – Os dados são processados e trabalhados de forma diferenciada da
original, no entanto, suas propriedades são mantidas. O novo formato então é
disponibilizado e deve ser mais bem aproveitado nas etapas sucessoras.

Mineração de Dados – é a principal etapa do processo, pois, é nela que ocorre a
extração do conhecimento, obtido por meio de métodos computacionais capazes de
descobrir padrões, estruturas e tendências, etc. Utilizam-se algoritmos para abstrair
conhecimentos novos e úteis.

Interpretação – Os resultados da mineração são verificados, analisados e
interpretados pelos especialistas, que julgam ser necessário ou não a repetição do
processo, alterando etapas específicas ou todas.
2.2 Mineração de Dados
MOXON (2009) afirma que Data Mining também denominado “mineração” de dados
é um conjunto de técnicas automáticas, usadas para explorar exaustivamente e descobrir
relacionamentos complexos em um grande conjunto de dados. O conjunto de dados, na
maioria das vezes, está armazenado em um banco de dados em forma de tabelas. Porém,
segundo o autor, as técnicas também podem ser aplicadas a outras representações de dados,
como banco de dados multidimensionais, textos e ambiente multimídia.
O conceito de mineração de dados pode ser definido como a descoberta de
informações potencialmente úteis a partir de um conjunto de dados disponibilizado, te tal
forma que tais informações não possam ser determinadas pela análise simples e direta. Por
conseqüência, a atividade de MD não é trivial, sendo que valia de sua utilização se deve ao
fato de que seus resultados permitem uma melhor compreensão do conjunto de dados
(Frawley et al 1991).
Segundo (Keim and Kriegel 1996), a idéia de Mineração de Dados pode ser formamelnte
definida como a busca por dois elementos:
-
Um subconjunto D*, pertencente a um conjunto de D={d1, d2,...dn};
-
Hipóteses Hu(D*,C) sobre D*, tais que o usuário as considere úteis no contexto de
uma aplicação C.
A mineração de dados é um conjunto de técnicas e métodos que buscam a
identificação de relacionamentos e padrões existentes no conjunto de dados, auxiliando na
tomada de decisões. Devido ao aumento extraordinário na aquisição e armazenagem de dados,
e a motivação de se conseguir vantagens em qualquer atividade humana onde haja
concorrência, o interesse nessas ferramentas de MD tem crescido muito nos últimos anos, o
que se nota no aumento do número de publicações e de ferramentas de MD no decorrer do
tempo.
A grande quantidade de algoritmos de MD já apresentados na literatura impede uma
análise das técnicas de mineração focando-se na estrutura de seus princípios de
implementação. Um tratamento mais adequado do tema é possível concentrando-se nos
principais problemas abordados pelos algoritmos. Segundo (Chen et al 1996), os principais
métodos que compõem a aplicação de MD são:

Regras de associação: busca descobrir regras para inferência dos dados da seguinte
forma: se A1^A2^...^Am então B1^B2^...^Bn. Onde Ai (i  {1,...m}) e Bi (i  {1,...,n})
são conjuntos de valores de atributos do conjunto de dados relevantes da base de
dados.

Generalização e sumarização: procura gerar uma caracterização, uma visão geral de
um conjunto de dados fornecido.

Classificação: procura classificar os dados de um conjunto baseando-se nos valores de
alguns atributos.

Identificação de aglomerados: também chamado de segmentação, procura
fragmentar os elementos de dados em subconjuntos cuja elementos possuem uma certa
similaridade, de forma que os dados com propriedades semelhantes são considerados
homogêneos.

Busca de padrões e dados temporais: procura identificar padrões que apenas se
manifestam ao longo do tempo. Os resultados são utilizados para previsão de risco,
identificação de determinados fenômenos e tendências associadas a padrões.
Observando-se as diferentes finalidades dos algoritmos de MD, fica clara a
abrangência de suas aplicações e como os seus resultados podem ajudar em diversos domínios
de aplicação. A utilização dos resultados obtidos promove vantagens nos negócios,
conclusões em estudos científicos, prevenção de riscos, previsão de fenômenos etc.
3. METODOLOGIA
Num primeiro momento foi realizada uma revisão de literatura sobre a temática
referente à Mineração de dados, para tanto, foram realizadas nesse processo consultas a livros
e artigos reconhecidos da área.
Por seguinte, foi realizado um backup da base de dados da Polícia Militar para
promover os experimentos de tratamentos dos dados. Tal procedimento foi necessário em
razão da manutenção da segurança do banco de dados original e das constantes inserções de
dados que ocorrem diariamente.
Desta forma, antes de iniciar a verificação da base de dados, foram estabelecidas as
questões a serem submetidas ao processo de KDD, ou seja, definir os resultados que seriam
mais importantes para subsidiar as decisões estratégicas da polícia militar. Assim, foram
identificadas as tabelas relacionadas com as ocorrências registradas no portal da PM
pertencentes à área de interesse selecionada.
Após o estudo, foi solicitada a equipe responsável pelo planejamento das operações da
PM que elaborasse uma listagem de questões, a partir das tabelas selecionadas, a serem
verificadas através do processo de mineração de dados.
Como o gerenciador de banco de dados do portal é o SQL Server da Microsoft optouse pela ferramenta Business Intelligence Development Studio, que já está presente no sistema
e que possui uma gama diversificada e ampla de recursos que podem ser empregados em
processos de mineração de dados. Para compreender melhor o ferramental e potencializar a
sua utilização foi necessário entende-la melhor, para tanto, foi utilizado o livro Data Mining
with SQL Server 2005 de Tang e MacLennan.
4. RESULTADOS
Foi realizada uma análise detalhada sobre a estrutura do banco de dados do portal e foi
diagnosticada uma série de disfunções estruturais na organização das tabelas. Entretanto,
procedeu-se com o desenvolvimento do trabalho retificando as distorções e realizando uma
modelagem de parte da base de dados. Novamente, inconsistências seminais prejudicaram o
andamento dos trabalhos. Desta forma, foram realizadas as primeiras etapas de KDD, onde
foram feitos os processos de limpeza de dados e de pré-processamento. Contudo, após
tentativas infindáveis de progredir para as etapas seguintes e pelos eventos anteriores
imprevistos não foi possível aplicar as técnicas de mineração e nem concluir as metas
estabelecidas a priori.
4.1 Considerações finais
O banco de dados é relativamente grande e apresentou vários problemas estruturais,
uma possível explicação para esse fenômeno pode ser em função da ausência de um
planejamento e de uma modelagem adequada, visto que, grande parte dos desenvolvedores
foram voluntários e bolsistas (alunos) de graduação.
As sucessivas dificuldades encontradas no decorrer das atividades demandaram um
esforço maior na tentativa de compreender a estrutura do banco de dados, não sendo possível
desta forma, atingir dentro da vigência da bolsa a fase de aplicação de Técnicas de Mineração
de Dados. No entanto, contribuições significativas originaram-se deste trabalho, como a
identificação dos problemas previamente inexistentes e a emergência de realizar um processo
de reengenharia no banco para corrigir as inconsistências, ações indispensáveis e necessárias
para futuramente possibilitar a aplicação de ferramentas para a extração de informação.
Além disso, as rotinas de trabalho, o relacionamento cotidiano e as atividades em
equipe, viabilizaram uma troca de conhecimento e experiências importantes tanto para o
bolsista quanto para os policiais militares envolvidos no processo. Mais especificamente
propiciou a polícia militar e seus especialistas um contato com uma tecnologia ainda pouco
difundida na segurança pública, que poderá num futuro próximo auxiliar nas decisões
estratégicas e operacionais da companhia.
5. REFERÊNCIAS BIBLIOGRÁFICAS
FAYYAD, U. From data mining to knowledge discovery: an overview. In: Advances in
Knowledge discovery and data mining, AAA Press / The Mit Press, MIT, Cambridge,
England, 1996, p.1-34.
HAN, J., KAMBER, M., Data Mining, Concepts and Techniques. Morgan Kaufmann,
2001.
HARRIES, K. Mapping Crime: Principle and Practice. U.S. Department of Justice.
Washington, D.C: 1999. Original disponível em: www.ncjrs.org/html/nij/mapping/pdf.html acessado em 23/03/2007. Tradução disponível em: www.crisp.ufmg.br/livro.htm - acessado
em 23/03/2007
KEIM, D. A. and H. P. KRIEGEL (1996). “Visualization Techniques for Mining Large
Databases: A Comparison”. IEEE Transactions in Knowledge and Data Engineering 8(6):
923-938.
KLÖSGEN, W.; ZYTKOW, J. M. Handbook of DATA MINING and KNOWLEDGE
DISCOVERY. New York. USA: Oxford University Press, 2002. 1026 p
MOXON, B. (2009). Defining Data Mining. DBMS, Data Warehouse Supplement, august
1996. Disponível in http://www.dbmsmag.com/9608d53.html.
TANG, Z. and MACLENNAN, J. Data Mining with SQL Server 2005. Wiley Publishing,
Inc, 2005.
WANG, L., FU, X., Data mining with computational intelligence. Sciences Engineering
Library, 2005.
WEKA 3 - Data Mining with Open Source Machine Learning Software in Java, 2007.
Disponível in: <http://www.cs.waikato.ac.nz/ml/weka/> Acesso em: 06 Mar. 2007.
WITTEN, I. H., Eibe Frank (2005). Data Mining: Practical Machine Learning Tools and
Techniques (2nd. Ed.). Morgan Kaufmann.
Download