Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1 Rafaela Giroto, 10º módulo de Ciência da Computação, UFLA, [email protected], Rua: Elbert Vilela, nº 1679, Bairro: Presidente Kenedy, Lavras (MG). Orientador: Ahmed Ali Abdala Esmin, UFLA/DCC. Palavras Chave: Segurança Pública, Mineração de Dados, KDD, Banco de dados. 1. INTRODUÇÃO Nas últimas décadas vem ocorrendo um aumento dramático na quantidade de informações ou dados que são armazenadas em formato eletrônico. Deve ser considerado, entretanto, que o valor destes dados está ligado à capacidade de extrair informações de mais alto nível, ou seja, informações úteis que sirvam para dar suporte a decisões. Portanto, tornase cada vez mais necessária a aplicação de técnicas e ferramentas que transformem, de maneira automática, os dados disponíveis em conhecimento. Dentro deste contexto, o termo mineração dos dados (data mining), que representa a extração de informações implícitas e padrões ocultos em bases de dados, tem recebido muita atenção de diversas áreas. Em iniciativa conjunta do Departamento de Ciência da Computação (DCC) e membros da Sexta Região da Polícia Militar, foi desenvolvido o Portal Corporativo da Sexta Região da Policia Militar (6RPM). Este projeto vem sendo consolidado e hoje oferece uma infra-estrutura computacional de apoio informatizado e também serve de instrumento de integração entre a comunidade e a Polícia Militar. Este Portal possui em Banco de Dados alimentado diariamente com diversos dados relativos à registros de ocorrências, troca de informações, dados estatísticos, logística e etc. Deve ser considerado, entretanto, que o valor destes dados está ligado à capacidade de extrair informações de mais alto nível, ou seja, informações úteis que sirvam para dar suporte a decisões. Portanto, torna-se cada vez mais necessária a aplicação de técnicas e ferramentas que transformem, de maneira automática, os dados disponíveis em conhecimento. Para tal, inicialmente, deve-se estudar a base de dados a fim de se analisar as condições do banco para posterior aplicação da Técnica de Mineração de Dados. 1 Projeto de Extensão/PROEX/UFLA: Desenvolvimento e Implementação de Metodologia para a Análise de Dados e Extração de Conhecimentos no Portal Corporativo da Sexta Região da Policia Militar (6RPM/PMMG). 1.1 Objetivo Este trabalho tem como objetivo realizar um estudo de viabilidade sobre a atual estrutura do banco de dados da 6ª Região de Polícia Militar de Minas Gerais para posteriormente aplicar técnicas de Mineração de Dados. 2. REFERENCIAL TEÓRICO 2.1 Descoberta de Conhecimento e Mineração de Dados A busca por conhecimento em grandes bases de dados recebeu diversos nomes até que em 1989 o termo “Descoberta de Conhecimento em Banco de Dados” foi então designado para se referir ao processo total de extração de conhecimento. (FAYYAD, et al., 1996). Sendo assim, o termo Mineração de Dados é uma das etapas deste processo como observamos na figura seguinte. Figura 1: Etapas do Processo de KDD. Fonte: Fayadd et al (1996). As etapas que compõem o processo de Descoberta do Conhecimento em Banco de Dados compreendem uma série de estágios subseqüentes e iterativos onde os resultados de cada passo realimentam as próximas ações. O analista de informações exerce um papel fundamental nesse processo, interagindo com os especialistas, direcionando e orientando as respectivas ações de desenvolvimento de KDD. As atividades interativas e iterativas do processo podem ser assim descritas: Seleção – elegem-se os dados pertinentes as áreas de interesse, ou sumarizados em um subconjunto de amostragem. Pré-processamento – consiste no emprego de ferramentas que viabilizem a preparação de dados para torná-los apropriados para as próximas fases do processo. Nesta etapa são corrigidas as distorções, ausência de dados ou, simplesmente, é realizada uma reorganização das informações. Transformação – Os dados são processados e trabalhados de forma diferenciada da original, no entanto, suas propriedades são mantidas. O novo formato então é disponibilizado e deve ser mais bem aproveitado nas etapas sucessoras. Mineração de Dados – é a principal etapa do processo, pois, é nela que ocorre a extração do conhecimento, obtido por meio de métodos computacionais capazes de descobrir padrões, estruturas e tendências, etc. Utilizam-se algoritmos para abstrair conhecimentos novos e úteis. Interpretação – Os resultados da mineração são verificados, analisados e interpretados pelos especialistas, que julgam ser necessário ou não a repetição do processo, alterando etapas específicas ou todas. 2.2 Mineração de Dados MOXON (2009) afirma que Data Mining também denominado “mineração” de dados é um conjunto de técnicas automáticas, usadas para explorar exaustivamente e descobrir relacionamentos complexos em um grande conjunto de dados. O conjunto de dados, na maioria das vezes, está armazenado em um banco de dados em forma de tabelas. Porém, segundo o autor, as técnicas também podem ser aplicadas a outras representações de dados, como banco de dados multidimensionais, textos e ambiente multimídia. O conceito de mineração de dados pode ser definido como a descoberta de informações potencialmente úteis a partir de um conjunto de dados disponibilizado, te tal forma que tais informações não possam ser determinadas pela análise simples e direta. Por conseqüência, a atividade de MD não é trivial, sendo que valia de sua utilização se deve ao fato de que seus resultados permitem uma melhor compreensão do conjunto de dados (Frawley et al 1991). Segundo (Keim and Kriegel 1996), a idéia de Mineração de Dados pode ser formamelnte definida como a busca por dois elementos: - Um subconjunto D*, pertencente a um conjunto de D={d1, d2,...dn}; - Hipóteses Hu(D*,C) sobre D*, tais que o usuário as considere úteis no contexto de uma aplicação C. A mineração de dados é um conjunto de técnicas e métodos que buscam a identificação de relacionamentos e padrões existentes no conjunto de dados, auxiliando na tomada de decisões. Devido ao aumento extraordinário na aquisição e armazenagem de dados, e a motivação de se conseguir vantagens em qualquer atividade humana onde haja concorrência, o interesse nessas ferramentas de MD tem crescido muito nos últimos anos, o que se nota no aumento do número de publicações e de ferramentas de MD no decorrer do tempo. A grande quantidade de algoritmos de MD já apresentados na literatura impede uma análise das técnicas de mineração focando-se na estrutura de seus princípios de implementação. Um tratamento mais adequado do tema é possível concentrando-se nos principais problemas abordados pelos algoritmos. Segundo (Chen et al 1996), os principais métodos que compõem a aplicação de MD são: Regras de associação: busca descobrir regras para inferência dos dados da seguinte forma: se A1^A2^...^Am então B1^B2^...^Bn. Onde Ai (i {1,...m}) e Bi (i {1,...,n}) são conjuntos de valores de atributos do conjunto de dados relevantes da base de dados. Generalização e sumarização: procura gerar uma caracterização, uma visão geral de um conjunto de dados fornecido. Classificação: procura classificar os dados de um conjunto baseando-se nos valores de alguns atributos. Identificação de aglomerados: também chamado de segmentação, procura fragmentar os elementos de dados em subconjuntos cuja elementos possuem uma certa similaridade, de forma que os dados com propriedades semelhantes são considerados homogêneos. Busca de padrões e dados temporais: procura identificar padrões que apenas se manifestam ao longo do tempo. Os resultados são utilizados para previsão de risco, identificação de determinados fenômenos e tendências associadas a padrões. Observando-se as diferentes finalidades dos algoritmos de MD, fica clara a abrangência de suas aplicações e como os seus resultados podem ajudar em diversos domínios de aplicação. A utilização dos resultados obtidos promove vantagens nos negócios, conclusões em estudos científicos, prevenção de riscos, previsão de fenômenos etc. 3. METODOLOGIA Num primeiro momento foi realizada uma revisão de literatura sobre a temática referente à Mineração de dados, para tanto, foram realizadas nesse processo consultas a livros e artigos reconhecidos da área. Por seguinte, foi realizado um backup da base de dados da Polícia Militar para promover os experimentos de tratamentos dos dados. Tal procedimento foi necessário em razão da manutenção da segurança do banco de dados original e das constantes inserções de dados que ocorrem diariamente. Desta forma, antes de iniciar a verificação da base de dados, foram estabelecidas as questões a serem submetidas ao processo de KDD, ou seja, definir os resultados que seriam mais importantes para subsidiar as decisões estratégicas da polícia militar. Assim, foram identificadas as tabelas relacionadas com as ocorrências registradas no portal da PM pertencentes à área de interesse selecionada. Após o estudo, foi solicitada a equipe responsável pelo planejamento das operações da PM que elaborasse uma listagem de questões, a partir das tabelas selecionadas, a serem verificadas através do processo de mineração de dados. Como o gerenciador de banco de dados do portal é o SQL Server da Microsoft optouse pela ferramenta Business Intelligence Development Studio, que já está presente no sistema e que possui uma gama diversificada e ampla de recursos que podem ser empregados em processos de mineração de dados. Para compreender melhor o ferramental e potencializar a sua utilização foi necessário entende-la melhor, para tanto, foi utilizado o livro Data Mining with SQL Server 2005 de Tang e MacLennan. 4. RESULTADOS Foi realizada uma análise detalhada sobre a estrutura do banco de dados do portal e foi diagnosticada uma série de disfunções estruturais na organização das tabelas. Entretanto, procedeu-se com o desenvolvimento do trabalho retificando as distorções e realizando uma modelagem de parte da base de dados. Novamente, inconsistências seminais prejudicaram o andamento dos trabalhos. Desta forma, foram realizadas as primeiras etapas de KDD, onde foram feitos os processos de limpeza de dados e de pré-processamento. Contudo, após tentativas infindáveis de progredir para as etapas seguintes e pelos eventos anteriores imprevistos não foi possível aplicar as técnicas de mineração e nem concluir as metas estabelecidas a priori. 4.1 Considerações finais O banco de dados é relativamente grande e apresentou vários problemas estruturais, uma possível explicação para esse fenômeno pode ser em função da ausência de um planejamento e de uma modelagem adequada, visto que, grande parte dos desenvolvedores foram voluntários e bolsistas (alunos) de graduação. As sucessivas dificuldades encontradas no decorrer das atividades demandaram um esforço maior na tentativa de compreender a estrutura do banco de dados, não sendo possível desta forma, atingir dentro da vigência da bolsa a fase de aplicação de Técnicas de Mineração de Dados. No entanto, contribuições significativas originaram-se deste trabalho, como a identificação dos problemas previamente inexistentes e a emergência de realizar um processo de reengenharia no banco para corrigir as inconsistências, ações indispensáveis e necessárias para futuramente possibilitar a aplicação de ferramentas para a extração de informação. Além disso, as rotinas de trabalho, o relacionamento cotidiano e as atividades em equipe, viabilizaram uma troca de conhecimento e experiências importantes tanto para o bolsista quanto para os policiais militares envolvidos no processo. Mais especificamente propiciou a polícia militar e seus especialistas um contato com uma tecnologia ainda pouco difundida na segurança pública, que poderá num futuro próximo auxiliar nas decisões estratégicas e operacionais da companhia. 5. REFERÊNCIAS BIBLIOGRÁFICAS FAYYAD, U. From data mining to knowledge discovery: an overview. In: Advances in Knowledge discovery and data mining, AAA Press / The Mit Press, MIT, Cambridge, England, 1996, p.1-34. HAN, J., KAMBER, M., Data Mining, Concepts and Techniques. Morgan Kaufmann, 2001. HARRIES, K. Mapping Crime: Principle and Practice. U.S. Department of Justice. Washington, D.C: 1999. Original disponível em: www.ncjrs.org/html/nij/mapping/pdf.html acessado em 23/03/2007. Tradução disponível em: www.crisp.ufmg.br/livro.htm - acessado em 23/03/2007 KEIM, D. A. and H. P. KRIEGEL (1996). “Visualization Techniques for Mining Large Databases: A Comparison”. IEEE Transactions in Knowledge and Data Engineering 8(6): 923-938. KLÖSGEN, W.; ZYTKOW, J. M. Handbook of DATA MINING and KNOWLEDGE DISCOVERY. New York. USA: Oxford University Press, 2002. 1026 p MOXON, B. (2009). Defining Data Mining. DBMS, Data Warehouse Supplement, august 1996. Disponível in http://www.dbmsmag.com/9608d53.html. TANG, Z. and MACLENNAN, J. Data Mining with SQL Server 2005. Wiley Publishing, Inc, 2005. WANG, L., FU, X., Data mining with computational intelligence. Sciences Engineering Library, 2005. WEKA 3 - Data Mining with Open Source Machine Learning Software in Java, 2007. Disponível in: <http://www.cs.waikato.ac.nz/ml/weka/> Acesso em: 06 Mar. 2007. WITTEN, I. H., Eibe Frank (2005). Data Mining: Practical Machine Learning Tools and Techniques (2nd. Ed.). Morgan Kaufmann.