UNIVERSIDADE ESTADUAL DO CEARÁ MARCELO DAMASCENO DE MELO UM PROCESSO DE MINERAÇÃO DE DADOS PARA PREDIÇÃO DE NÍVEIS CRIMINAIS DE ÁREAS GEOGRÁFICAS FORTALEZA - CEARÁ 2010 MARCELO DAMASCENO DE MELO UM PROCESSO DE MINERAÇÃO DE DADOS PARA PREDIÇÃO DE NÍVEIS CRIMINAIS DE ÁREAS GEOGRÁFICAS Dissertação apresentada no Mestrado Acadêmico de Ciência da Computação da Universidade Estadual do ceará, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Orientador: Prof. Dr. Jereson Teixeira de Souza Co-Orientadores: Prof. Dr. Gustavo Au- gusto Lima de Campos FORTALEZA - CEARÁ 2010 M528p Melo, Marcelo Damasceno. Um Processo de Mineração de Dados para Predição de Níveis Criminais de Áreas Geográcas / Marcelo Damasceno de Melo. , 2010. 128p.;il. Orientador: Prof. Dr. Jereson Teixeira de Souza Monograa (Mestrado Acadêmico em Ciência da Computação) - Universidade Estadual do Ceará, Centro de Ciências Cientícas. 1. Processo de Mineração de Dados Nível Criminal 3. 2. Predição de Redes Neurais Articiais I. Universi- dade Estadual do Ceará, Centro de Ciências Cientícas. CDD: 001.6 MARCELO DAMASCENO DE MELO UM PROCESSO DE MINERAÇÃO DE DADOS PARA PREDIÇÃO DE NÍVEIS CRIMINAIS DE ÁREAS GEOGRÁFICAS Dissertação apresentada no Mestrado Acadêmico de Ciência da Computação da Universidade Estadual do ceará, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Aprovada em: __/__/____ BANCA EXAMINADORA Prof. Dr. Jereson Teixeira de Souza(Orientador) Universidade Estadual do Ceará - UECE Prof. Dr. Gustavo Augusto Lima de Campos Universidade Estadual do Ceará - UECE Co-orientador Prof. Dr. Marcus Costa Sampaio Universidade Estadual do Ceará - UECE Prof. Dr. José Maria da Silva Monteiro Filho Universidade Federal do Ceará - UFC Agradecimentos Primeiramente a um ser superior, conhecido como Deus, que guiou meus passos e livrou-me de diversos problemas, presenteando-me com diversos presentes neste período na UECE. A minha primeira e segunda família: Meus pais, meu irmão e minha sogra Aila. A minha amada "namorida Alia. Pelos momentos juntos, com seu amor e carinho, dedicação e entendimento pelo trabalho que estava sendo feito. A todos os momentos que não pude dar atenção e estar devidamente ao seu lado. A todos os meus companheiros da UECE, tanto professores, quanto colegas de turma. Especialmente ao pessoal do apartamento: Alex, Daladier e Wallace, Vigno, Marçal e Alyson e aos integrantes do LACONI: Rafael e Fabrício. Pelos diversos momentos bons e ruins. Aos meus queridos orientadores: Jereson e Gustavo. Por acreditar no trabalho, com sua dedicação e incentivo. Aos meus novos amigos que z no IFRN, Valério, colega "computeiro, a Babilônia Family, Luciana, Michele, Davi, Marcos e Althiere. E a todos que zeram parte ativamente ou passivamente deste trabalho. Querer é poder! Desconhecido Sumário Lista de Figuras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lista de Siglas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.1 Motivação e Contexto da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2 Justicativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.3 Objetivos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.4 Objetivos Especícos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.5 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2 Fundamentação Teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1 Criminalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2 Previsão Empírica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3 Previsão de Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.4 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4.1 Tarefas de Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4.2 Exemplos de Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.4.3 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Seleção de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.4.1 Aprendizado Supervionado, Não Supervisionado e Semi-Supervisionado . . 36 2.4.4.2 Aprendizado de Conceito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4.4.3 Redes Neurais Articiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.4.3.1 2.4.4 2.4.5 Pós-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.5 Descoberta de Conhecimento em Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.6 CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Entendimento do Negócio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Plano de Atuação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Entendimento dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.6.2.1 Coleta e Análise dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.6.2.2 Exploração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Preparação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.6.3.1 Transformação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.6.3.2 Integração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.6.3.3 Formatação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.6.4 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.6.5 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.6.5.1 Revisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.6.5.2 Próximas Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.6.6.1 Plano de Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.6.6.2 Relatório Final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Região Metropolitana de Fortaleza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.6.1 2.6.1.1 2.6.2 2.6.3 2.6.6 2.7 3 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.1 Clusterização de Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2 Identicação de Redes de Criminosos e Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.3 Mineração de Relatórios Policiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4 Associação e Comparação de Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.5 Predição de Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.6 Recuperação de Informações da Área Criminal . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4 Processo de Mineração de Dados para Predição de Níveis Criminais . . 64 4.1 Estrutura do Processo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.2 Entendimento do Negócio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.2.1 Determinação dos Objetivos de Negócio a Serem Alcançados . . . . . . . . . . . . . . 67 4.2.2 Requisitos do Projeto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.2.3 Objetivos Técnicos a Serem Alcançados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.2.4 Plano de Atuação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Coleta e Análise dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.3.1.1 Dados Sócio-econômicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.3.1.2 Dados Criminais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Exploração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.4.1 Transformação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.4.2 Integração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.4.3 Seleção de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.4.4 Limpeza dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.4.5 Formatação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.5.1 Determinação do Modelo Preditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.5.2 Geração do Conjunto de Teste e Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.5.3 Aplicação do Algoritmo de Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . 80 4.5.4 Avaliação Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.6.1 Avaliação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.6.2 Revisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.6.3 Próximas Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.7.1 Plano de Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.7.2 Relatório e Apresentação Final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.3 4.3.1 4.3.2 4.4 4.5 4.6 4.7 5 Estudo De Caso: Predição Criminal na Região Metropolitana de Fortaleza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.1 Entendimento do Negócio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.1.1 Determinação dos Objetivos de Negócio a Serem Alcançados . . . . . . . . . . . . . . 86 5.1.2 Requisitos do Projeto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.1.3 Objetivos Técnicos a Serem Alcançados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.1.4 Plano de Atuação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Coleta e Análise dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.2.1 Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.2.2 Exploração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.3.1 Transformação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.3.2 Integração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.3.3 Seleção de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.3.4 Limpeza dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.3.5 Formatação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.2 5.3 5.4 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.4.1 Determinação do Modelo Preditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.4.2 Geração do Conjunto de Teste e Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.4.3 Aplicação do Algoritmo de Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . 101 5.4.4 Avaliação Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.5 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5.5.1 Avaliação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5.5.2 Revisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 5.5.3 Próximas Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 5.6 5.6.1 Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Plano de Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6 Conclusões e Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Lista de Figuras Figura 1 Organização do framework desenvolvido por Winklhofer, Diamantopoulos e Witt (1996) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Figura 2 Esquema de um Neurônio Articial ................................... 38 Figura 3 Rede Neural Articial ................................................ 38 Figura 4 Various edge detection algorithms .................................... 40 Figura 5 Região Metropolitana de Fortaleza ................................... 53 Figura 6 Clusterização de uma área da cidade de Tehran identicando regiões de baixa, média e alta incidência de crimes. Figura 7 57 Exibe um exemplo de uma rede de criminosos identicada utilizando algoritmos de aprendizagem de máquina Figura 8 .............................. ................................ 58 Exibe um exemplo de identicação dos membros chaves de sub-grupos criminal e suas relações ............................................... 58 Figura 9 Representação do Processo Proposto ................................. 65 Figura 10 Sub-tarefas da etapa de Modelagem .................................. 79 Figura 11 Gráco utilizado para a visualização dos resultado do modelo preditivo 83 Figura 12 Representação de um histograma 88 Figura 13 Distribuição dos níveis crimais no conjunto de dados ..................................... . . . . . . . . . . . . . . . . . . 90 Figura 14 Distribuição das classes para o nível muito baixo ..................... 93 Figura 15 Distribuição das classes para o nível baixo ............................ 94 Figura 16 Distribuição das classes para o nível médio ........................... 94 Figura 17 Distribuição das classes para o nível alto Figura 18 Distribuição das classes para o nível muito alto Figura 19 Predição de uma instância muito baixa positiva do primeiro grupo de dados Figura 20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 ....................... 95 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Predição de uma instância muito baixa positiva do segundo grupo de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Figura 21 Predição de uma instância baixa positiva do primeiro grupo de dados . 104 Figura 22 Predição de uma instância baixa positiva do segundo grupo de dados . 104 Figura 23 Predição de uma instância média negativa do primeiro grupo de dados 105 Figura 24 Predição de uma instância média negativa do segundo grupo de dados 106 Figura 25 Predição de uma instância alta negativa do primeiro grupo de dados . . 106 Figura 26 Predição de uma instância alta negativa do segundo grupo de dados . . 107 Figura 27 Predição de uma instância muito alta negativa do primeiro grupo de dados Figura 28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Predição de uma instância muito alta negativa do segundo grupo de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Lista de Tabelas Tabela 1 Conjunto de exemplos para o aprendizado do conceito Pratica Esporte Tabela 2 Comparação dos processos apresentados reproduzido no artigo de Kurgan e Musilek (2006) ..................................................... Tabela 3 População de Fortaleza de 1980 a 2001 Tabela 4 Cronograma de Atividades 37 46 ............................... 54 ........................................... 87 Lista de Siglas IBGE Instituto Brasileiro de Geograa e Estatística SSPDS Secretaria de Segurança e Defesa Social do Estado do Ceará RMF Região Metropolitana de Fortaleza UECE Universidade Estadual do Ceará UFC Universidade Federal do Ceará GIS Geograc Information Systems SOM Self-Organization Maps DCBD Descoberta de Conhecimento em Banco de Dados AM Aprendizagem de Máquina MD Mineração de Dados RN Redes Neurais AED Área de Expansão Demográca IBGE SSPDS RMF UECE UFC GIS SOM DCBD AM MD RN AED Resumo O aumento da violência em todo o mundo está se tornando um grande problema, acarretando vários danos à sociedade: materiais (furtos, assaltos), sociais (medo, diminuição na qualidade de vida), psicológicos (estupros, ameaças, traumas) e físicos (homicídios, agressões). Atualmente, a violência está tão presente em nosso dia-a-dia, que está se tornando banal, tanto que várias famílias sofrem todos os dias algum tipo de crime, desde pequenos furtos a homicídios qualicados. O Poder Público necessita de ferramentas ecazes para combater a criminalidade e para isso, são necessárias ferramentas que o auxiliem na prevenção do acontecimento de novos crimes, na alocação de seus recursos, no estudo do comportamento dos criminosos e seus crimes e na visualização de áreas geográcas com alta concentração de ocorrências. Este trabalho tem como objetivo propor um processo de mineração de dados para a predição do nível criminal de áreas geográcas. O processo desenvolvido perpassa todas as fases da descoberta de conhecimento em banco de dados, fases essas como a de conhecimento do negócio e dos dados, coleta, limpeza e transformação dos dados, aplicação do algortimo de aprendizagem, avaliação, distribuição e treinamento do modelo desenvolvido. Todos especícos para o problema de predição de níveis criminais. O processo recomenda o uso de dados sociais, econômicos e criminais para a modelagem e implementação do sistema preditivo. Este processo pode ser seguido por qualquer prossional que queira predizer o nível criminal de qualquer área geográca, inclusive municípios brasileiros. O processo proposto foi utilizado no desenvolvimento de um preditor construído para predizer níveis criminais em áreas geográcas da Região Metropolitana de Fortaleza (RMF). Foram obtidos resultados interessantes, tanto na questão da engenharia do preditor desenvolvido, quanto nos resultados técnicos das predições realizadas. O estudo de caso provou que o processo é útil e ecaz na construção de um preditor de níveis criminais. Palavras-Chave: Processo de Mineração de Dados, Predição de Nível Criminal, Redes Neurais Articiais 16 1 Introdução O avanço da violência ocorrido nos últimos anos tem sido objeto de estudo de diversos pesquisadores. Os governos e a sociedade em geral sofrem os transtornos causados por esse fenômeno. Anualmente são gastos milhões de reais no combate à violência, desde equipamentos, a treinamento e compra de ferramentas que auxiliam o trabalho policial. Podemos denir crimes como atos ilícitos cometidos por uma ou mais pessoas. Esta denição é de grande importância para o contexto do nosso trabalho. Em cada crime cometido, podemos levantar uma série de dados, como por exemplo: data, hora e local do acontecimento, modus operandi, tipo do crime e dados relativos à situação sócio-econômica da vítima. O presente capítulo tem como objetivo descrever a motivação e o contexto da pesquisa, tal como a relevância, justicativa e os desaos encontrados no trabalho. Além disso, são levantados os principais problemas encontrados no desenrolar do trabalho, bem como os objetivos e a metodologia utilizada para chegar às conclusões que serão apresentadas. 1.1 Motivação e Contexto da Pesquisa A geração de dados está intimamente ligada com o desenvolvimento e uso intenso de hardware e software. Assim, o surgimento de novos softwares e a difusão cada vez maior do uso dos computadores pela população, bem como por instituições governamentais e militares, acarretam a geração de grandes volumes de dados. As instituições governamentais estão constantemente investindo em equipamentos, softwares e consultorias que possam melhorar o entendimento dos dados armazenados em suas bases. O conhecimento gerado é essencial para a melhoria de seus serviços, tais como logística, atendimento ao cidadão e criação de estratégias de desenvolvimento e combate a crimes (MCCUE, 2006, 2005). Uma base de dados não é vista apenas como um repositório, e sim como uma fonte de informações valiosas para uma instituição. Atualmente a criminalidade está sendo um dos principais problemas que a sociedade enfrenta, gerando males tanto sociais quanto governamentais (ADORNO, 2002; COELHO, 1988; PEZZIN, 1986). O governo sofre com danos econômicos e morais; a socie- dade sofre transtornos econômicos, sociais, pscicológicos e morais. Os danos econômicos estão relacionados ao aumento dos custos provenientes da rede de saúde, judiciária e prisi- 17 onal pública. Já os danos morais relacionam-se com a descrença da sociedade em relação ao trabalho realizado pelo governo. O governo investe muito no trabalho preventivo e punitivo para tentar reverter o aumento da violência no nosso país (JUSTIçA, 2010). As autoridades policiais promovem diversas estratégias para o combate ao crime, dentre elas as reativas e preventivas. As estratégias reativas são aquelas que são ativadas após o crime já ter iniciado, quando a polícia já deve ter conhecimento do acontecido; já as estratégias preventivas são aquelas cujo objetivo é antecipar o acontecimento de crimes. As ações preventivas são realizadas através de atos sócio-educativos e aproximação da polícia com a comunidade, como já acontece em diversos estados, a exemplo do Ceará. As ações reativas são as mais utilizadas, pois este tipo de ação é mais simples de ser implementada e tem uma visibilidade maior junto à sociedade. A utilização de ações preventivas está crescendo devido à percepção de sua importância por nossos gestores. Esse crescimento é percebido por meio da criação de editais de pesquisa e desenvolvimento, por meio do uso de sistemas computacionais de monitoração e prevenção de crimes, e pela implantação de projetos sócio-educativos em áreas de risco. Vários pesquisadores (estatísticos, sociólogos, criminologistas, antropologistas etc) estudam diversos fatores que tendenciam um indivíduo a cometer um crime. Eles acreditam que o entendimento do ambiente no qual o indivíduo vive pode levantar evidências que expliquem os motivos que o levam a se tornar um criminoso. vantados são sociais, econômicos e psicológicos. Alguns fatores le- A ocorrência de crimes gera diversas informações como dados temporais, espaciais, comportamentais e criminais. A Secretaria de Segurança Pública do Estado do Ceará (SSPDS) tem uma base de dados com diversos crimes já acontecidos e esses dados são utilizados para o desenvolvimento de estratégias de combate ao crime. A Secretaria gentilmente forneceu os dados criminais dos anos de 2007 e 2008 para a realização deste trabalho. Os dados contêm informações sobre o local e sobre a hora do ocorrido, sobre tipo e sub-tipo do crime cometido. Diversas técnicas são utilizadas para estudar o crime e sua dinâmica. Técni- cas estatísticas são utilizadas frequentemente por diversos estudiosos, tendo vantagens e desvantagens devido a restrições impostas nas informações ou técnicas utilizadas (BERK, 2008). A utilização de algoritmos de aprendizagem de máquina é recomendada no âmbito criminal por se tratar de uma ferramenta poderosa na análise e construção do conhecimento retido em um banco de dados criminais (MICHALSKI; CARBONELL; MITCHELL, 1986). A criminalidade é um fenômeno totalmente dinâmico e complexo. Dinâmico, devido aos indivíduos estarem em constante diversicação de suas ações e tipos de atos cometidos; complexo, pois o crime não deve ser tratado apenas como um fenômeno criminal e sim, como consequência de fatores sociais e econômicos desfavoráveis, entre outros. A maioria dos trabalhos levantados apresentaram uma abordagem de mapeamento de crimes, correlação e estudos dos fatores que levaram ao crime (CAMARGO et al., 2008; BARATA; RIBEIRO, 2000; GAWRYSZEWSKI; COSTA, 2005). A predição de crimes é uma área muito utilizada para prever a dinâmica crimi- 18 nal e obter conhecimento organizacional dos futuros lugares onde os crimes irão acontecer (MITCHELL; BROWN; CONKLIN, 2007; GORR; HARRIES, 2003; MCCUE, 2006). Se o ato de cometer um crime é um comportamento humano, e se alguns comportamentos humanos são previsíveis, então, concluimos que podemos prever crimes baseados no comportamento criminal. Diversas teorias desenvolvem atividades no estudo do comportamento criminoso: atividades rotineiras (COHEN; FELSON, 1979), hot spots (grupos espaciais de crime) (SHERMAN; GARTIN; BUERGER, 1989; KIANMEHR; ALHAJJ, 2006; AZIMI; DELAVAR, 2007) e ecologia do crime (BRANTINGHAM; BRANTINGHAM, 1984). Diversas técnicas foram utilizadas para a previsão de crimes, dentre elas podemos citar: superfícies probabilísticas (BROWN; LIU, 1999), máquinas de vetores de suporte (KIANMEHR; ALHAJJ, 2006), raciocínio baseado em casos (OATLEY; ZELEZNIKOW; EWART, 2005), árvores de classicação e regressão (BERK; HE; SORENSON, 2005), métodos probabilísticos e estatísticos (BERK, 2008), redes neurais (ZHANG; PATUWO; HU, 1998), séries temporais (GORR; OLLIGSCHLAEGER; THOMPSON, 2003) e modelo de escolha discreta espacial (MITCHELL; BROWN; CONKLIN, 2007). Gorr, Olligschlaeger e Thompson (2003) concluiram que qualquer método baseado na predição é mais preciso que as técnicas utilizadas pela polícia americana, pois fornece métodos precisos baseados em características levantadas. Assim, a polícia pode tomar decisões em ações de combate ao crime utilizando as predições feitas, como a correta distribuição do efetivo nas áreas de maior concentração dos crimes e agendamento de treinamentos e férias. Mineração de dados é um processo de descoberta de padrões embutidos nos dados (WITTEN; FRANK, 2005). Minerar dados tem sido importante por se tratar de uma ferramenta poderosa na extração de informações valiosas encontradas nos dados. Técnicas de mineração de dados têm sido intensamente utilizadas em diversas tarefas do nosso dia-a-dia. Desta forma, podemos encontrar aplicações em diversas áreas como detecção de fraudes (CHAN et al., 1999), levantamento de pers (FAWCETT; PROVOST, 1996), marke- ting (BERRY; LINOFF, 1997; LING; LI, 1998), monitoração (BROSSETTE et al., 2007), jogos de basquete (BHANDARI et al., 1997) e mercado de ações (KIM; HAN, 2000). A mineração de dados é uma das etapas de um grande processo conhecido como Descoberta de Conhecimento em Banco de Dados (DCBD). Este processo é não-trivial e é composto de diversas tarefas. Um dos grandes problemas na aplicação de técnicas de mineração de dados é a diculdade teórica e logística para que os analistas consigam criar um sistema conável e robusto no tempo e custos previsto para o projeto. Denir um processo de mineração que forneça diretrizes e ferramentas para a construção de um modelo que utilize mineração de dados é indispensável. Assim, um processo que dena todos os passos que vão desde a coleta e entendimento dos dados até o treinamento dos usuários que utilizarão o modelo desenvolvido deve ser descrito de forma minuciosa. O levantamento bibliográco realizado identicou uma série de problemas vistos em artigos que tratam da predição de crimes utilizando técnicas computacionais. Aspectos sócio-econômicos têm uma grande relevância na ocorrência dos crimes e não foram levados 19 em consideração em diversos trabalhos. Também não foi observado nenhum processo de mineração de dados indicado para uma tarefa criminal, especicamente para o problema de predição de níveis criminais. Assim, o presente trabalho apresenta um processo para a predição do nível criminal em áreas geográcas utilizando dados temporais, espaciais, criminais, sociais e econômicos. O processo proposto é indicado para ser executado em qualquer município brasileiro, mas o mesmo pode ser facilmente extendido para qualquer município mundial, desde que tenha os dados necessários e informação necessária para a integração das diferentes bases. Além de propor o processo, iremos validá-lo construindo um modelo preditivo utilizando os dados criminais e sócio-econômicos da Região Metropolitana de Fortaleza. 1.2 Justicativa A complexidade da criminalidade e todos os fatores envolvidos na criação de um método preditivo criminal foram as principais motivações para a iniciação deste trabalho. A contribuição social também foi um dos requisitos do trabalho, pois além de um trabalho teórico, uma ferramenta preditiva funcional poderá ser utilizada no dia-a-dia de uma inteligência policial. O processo desenvolvido neste trabalho foi desenvolvido como um facilitador/guia para a construção de sistemas preditores de níveis criminais, utilizando dados criminais e sócio-econômicos. Existem vários processos na literatura, mas o desenvolvido neste trabalho se diferencia em relação a especicidade. A maioria dos processos presentes na literatura são muito genéricos, assim quando um analista vai utilizá-lo tem que desenvolver todos os passos a sua maneira, sem saber se existe uma forma melhor ou funcional para o seu problema, gerando perda de tempo e dinheiro no desenvolvimento do sistema proposto. Assim, o analista não tem uma metodologia que possa aplicar que especique cada passo para a resolução de seu problema, servindo como parâmetro de execução. O processo desenvolvido fornece tarefas especícas para o problema da criminalidade, fornecendo ao analista métodos já testados na construção de um sistema. O processo desenvolvido é extensível e adaptável, onde o analista pode facilmente modicar as tarefas propostas para a resolução de problemas especícos de sua aplicação. Outros processos foram observados para aplicação do nosso problemas, mas encontramos diversos problemas devido a alta generalidade dos processos observados e divergência entre etapas e tarefas presentes nos processos observados. As principais vantagens na utilização de um processo especíco são a ausência de ambiquidade na execução de tarefas denidas no processo, tarefas simples e diretas especícas para a resolução de diculdades especícas do problema de predição de níveis criminais, liberdade para modicar tarefas ou ações denidas no processo sem alterar toda a execução do processo ou tarefas subsequentes. O projeto de predição de níveis criminais pode ser muito bem ser desenvolvido utilizando outros processos, mas com custos monetários e de tempo superiores do que quando executado seguindo o processo proposto neste trabalho. 20 Métodos preditivos foram abordados de diferentes formas, utilizando diversas técnicas. Assim, justicar a criação de um novo método para a predição de níveis criminais utilizando abordagens ainda não apresentadas é uma forma de abordar o problema com um novo olhar. O presente trabalho difere-se de outros na utilização de variáveis sócioeconômicas envolvidas, fazendo um estudo da problemática criminal. A construção de um método útil para a predição dos níveis criminais pode ser caracterizado por uma ferramenta de fundamental importância para gestores que necessitam de modelos que apoiem as decisões tomadas, baseando-se em dados criminais e sócio-econômicos. 1.3 Objetivos Gerais Esta dissertação tem como objetivo geral o desenvolvimento de um novo processo de predição do nível criminal de áreas geográcas utilizando técnicas de mineração de dados e dados relativamente distintos e fortemente relacionados. Os dados são distintos pois pertencem a esferas semânticas inicialmente vistas como distintas e fortemente relacionadas pois dados sociais, econômicas e criminais estão de certo modo relacionados ao dia-a-dia da sociedade. Os dados utilizados foram criminais, temporais, espaciais, sociais e econômicos. O presente trabalho aborda as problemáticas envolvidas no âmbito criminal e a proposta de um processo de mineração de dados especíco ao problema de predição de níveis criminais. Este processo permite que outros pesquisadores possam utilizar do conhecimento construido em seus trabalhos, aprimorando os resultados alcançados ou extendendo-o para seus interesses. O processo proposto dará total condição da resolução do problema de predição de níveis criminais em áreas geográcas utilizando etapas e tarefas denidas especicamente para o problema em questão. A especicidades traz benefícios de aplicação e facilidade de aplicação de todas as tarefas denidas no processo, utilizando dados criminais, temporais, espaciais, sociais e econômicos. 1.4 Objetivos Especícos O objetivo geral descrito acima pode ser fragmentado nos seguintes objetivos especícos: Identicação e documentação de processos de mineração de dados e de aplicações de técnicas de mineração de dados na área de segurança pública; Identicação e documentação dos possíveis tipos de dados que possam estar diretamente ou indiretamente relacionados ao acontecimentos de crimes; Identicação e estudo de ferramentas e metodologias que possam colaborar no desenvolvimento desta dissertação; 21 Denição e modelagem de um processo de mineração de dados que possa ser aplicado na predição de níveis criminais; Projeto, desenvolvimento, prototipação e avaliação de um método preditor de níveis criminais utilizando o processo proposto; Desenvolvimento de atividades objetivas para a resolução do problema de predição de níveis criminais; Recomendação de ações práticas para obtenção das primitivas necessárias para a execução do processo proposto; 1.5 Organização do Trabalho O trabalho está organizado em 6 capítulos. O Capítulo 1 corresponde a Introdução. Nele, informamos ao leitor o problema atacado, as motivações e justicativas e alguns conceitos iniciais necessários ao entendimento do trabalho. O Capítulo 2 aborda de forma sucinta a fundamentação teórica utilizada em nosso trabalho. Sendo de fundamental importância para o entendimento de um leitor iniciante na área de mineração de dados e processo de mineração. O Capítulo 3 apresenta e discuti os trabalhos relacionados. Apresentando diversos trabalhos, de diversas áreas que discutem, denem, encontram causas, desenvolvem e mapeiam atividades relacionadas a criminalidade. No capítulo 4 abordamos o processo de mineração proposto, denindo e explicando cada passo e suas tarefas. Este processo tem carácter de guia, pois o mesmo está de escrito de forma direta que qualquer analista de dados pode utilizá-lo para construir seu próprio modelo preditivo. O Capítulo 5 discute nosso estudo de caso. O estudo de caso utiliza o processo proposto para a construção de um modelo para a previsão do nível criminal da Região Metropolitana de Fortaleza. O último capítulo, Capítulo 6, apresenta as conclusões e os trabalhos futuros para aqueles que desejam seguir nesta linha de pesquisa e aproveitar o presente trabalho em suas pesquisas. 22 2 Fundamentação Teórica Este capítulo aborda de forma sucinta a fundamentação teórica utilizada neste trabalho. Sendo de fundamental importância para o entendimento de um leitor iniciante na área de mineração de dados e processo de mineração. Além de conceitos relacionados a mineração de dados, processos de mineração de dados e aprendizagem de máquina, apresentamos conceitos relacionados ao entendimento das principais ações para combate e conceitos relacionados ao crescimento e entedimento da criminalidade. 2.1 Criminalidade A sociedade brasileira passa por quatro tendências de crescimento da violência (COELHO, 1988). Delinquência urbana: O crescimento deste tipo de organização está sendo visto prin- cipalmente em grandes centros urbanos. Crimes como sequestro, crimes contra o patrimônio público e assaltos. Crime Organizado: O tráco internacional de drogas é um dos principais motivadores na organização dos criminosos. O poder público tem problemas em atuar devido a complexidade das relações entre os criminosos e o ambiente em que eles se encontram, principalmente em comunidades carentes. Direitos humanos: A situação democrática em que vivemos às vezes é danicada por episódios em que os direitos humanos são violados. Essa violação gera transtornos nas vítimas e indignação na sociedade brasileira. Conitos Pessoais: Devido a nossa vida moderna, o aumento de discussões e conitos entre pessoas com um alto grau de intimidade está aumentando. Conitos simples estão chegando a ter desfechos fatais, como brigas de vizinhos e crimes passionais. As estatísticas ociais indicam que a violência urbana vem crescendo mundialmente desde a década de 50, ainda que estudos indicam declínio na década de 90, principalmente nos Estados Unidos (ADORNO, 2002). Alguns estudos apontam que o declínio vivido pelos Estados Unidos é devido ao desenvolvimento econômico, pela redução do desemprego, pela expansão do mercado consumidor e do aumento do bem-estar em conjuto de políticas de combate ao crime (GARLAND, 2001; DONZIGER, 1996). 23 A sociedade brasileira não está imune a esta tendência mundial, já que o Brasil encontra-se numa rota mundial de contrabando de armas e tráco de drogas. O contrabando de armas e o tráco de drogas estão dentre os crimes que nanciam outros crimes, como os sequestros, assaltos e homicídios. As taxas de criminalidade encontradas no Brasil, como em São Paulo e Rio de Janeiro são mais altas do que grandes metrópoles mundiais. Infelizmente no Brasil não existe uma base de dados única com dados relativos a criminalidade ocorrida no nosso país. o número de homicídios. O único dado que temos em escala nacional é Para quantizar os homicídios realizados no Brasil é utilizado a mortalidade por causas externas, dados extraídos dos registros de óbitos. As taxas de 23, 83/100.000 habitantes, já no Estados 2, 43; na Itália, 4, 90; na Bélgica, 4, 11; em Portu- homicídios levantados no ano de 1995 foram de Unidos acusou gal, 8, 22; na Grã-Bretanha, 3, 99; na França, 4, 11 (Brasil, Datasus, Ministério da Saúde, 1995; França, Ministério do Interior, 1997; USA, Union Crime Reports, 1996). Recentes estudos sobre o crescimento de homicídios no Brasil constataram que o número de homicídios causados por arma de fogo vem aumentando desde 1979 e que esse número cresceu mais rapidamente do que o crescimento da população. Em Brasília em 1980, a taxa de homicídios era de 2000). Em torno de 21% 13, 7/100.000; em 1991 saltou para 36, 3 (SOARES, dos homicídios registrados no Brasil em 1998 concentra-se no Rio de Janeiro e em São Paulo. A taxa de homicídio no período de 1980 a 1998 cresceu 262% nas doze regiões metropolitanas, enquanto em todo o Brasil o crescimento foi de 209%. As maiores vítimas de homicídios no Brasil são adolescentes e jovens adultos masculinos pertecentes às camadas populares urbanas (JORGE, 1982). estimou que Castro (1993) 2, 7% dos jovens são assassinados no Estado de São Paulo no ano de 1990. Este mesmo artigo mostra que as armas de fogo foram a grande maioria das armas utilizadas para cometer os homicídios. Tendências de crimes violentos podem ser encontrados em várias capitais brasileiras e suas respectivas regiões metropolitanas. Os crimes violentos são denidos como os crimes que representam ameaça a integridade física da vítima. No município de São Paulo, entre 1984 e 1993 a participação de crimes violentos na massa de crimes registrados cresceu 10,1%. Estudos indicam que os crimes violentos, principalmente os homicídios aumentam o sentimento de medo e insegurança da sociedade brasileira (CARDIA, 1999). O surgimento de grupos de extermínio, chacinas e linchamentos acontece principalmente devido a ruptura dos padrões sociais principalmente em comunidades de baixa renda e a descrença no poder público. Crimes como tentativas ou o ato de estupro, roubos ou homicídios levam a comunidade a fazer atos considerados crimes e não vistas pelos atuadores como sendo legítimas e moralmente corretas. Todas essas características levam ao surgimento de grupos de extermínio para a execução de suspeitos de crimes. Grupos formados principalmente por moradores que agem sob ordem ou cumplicidade dos moradores. As vítimas são geralmente moradores do mesmo bairro, considerados delinquentes 24 ou com antecedentes criminais. Pessoas com antecedentes criminais são consideradas pessoas mal vistas nestes bairros devido a impunidade da polícia ou o sentimento da população do bairro que o período de recrusão denido foi de forma imprópria (ADORNO; CARDIA, 1999). Muitos atos violentos são praticados por tensões nas relações pessoais e não tem relação nenhuma com a criminalidade cotidiana. As principais causas para que estes atos sejam cometidos são o enfraquecimento da relação ou o desentedimentos entre pessoas que têm o mesmo convívio. Conitos entre companheiros, amigos, parentes, vizinhos, amigos de trabalho ou até mesmo pessoas que frequentam o mesmo espaço físico. Os motivos para que estes conitos aconteçam são considerados como motivos corriqueiros, tais como amores não correspondidos ou traições, papéis sociais não correspondidos ao desempenho do papel de pai, mãe, irmão ou lho; desentedimentos relativos a bens ou a dívidas não pagas. Exitem diversos estudos acerca deste tipo de crime. Violência nas escolas (SPóSITO, 2001; SANTOS, 2001), a violência de gangues e em bailes funks (VIANA, 1996), a violência doméstica (IZUMINO, 1998), guangues e brigas entre jovens (DIóGENES, 1998) e assassinatos de homossexuais (SPAGNOL, 2001). Diversos pesquisadores tentam explicar os motivos para que o crime aconteça e que motivos levaram ao aumento das taxas de violência vividas por nós atualmente (ZALUAR, 1994). Os pesquisadore concentram as explicações em três vertentes: 1. mudanças na sociedade e nos padrões convencionais de delinquência e violência; 2. crise no sistema de justiça criminal; 3. desigualdade social e segregação urbana Mundanças nos processos econômicos e sociais fazem com que a criminalidade se diferencie ao longo do tempo. Novas formas de produção industrial e acumulação de capital; concentração industrial e tecnológicas; mudanças nos processos inerentes à força de trabalho são possíveis razões para que a criminalidade tenha sofrido modicações. Anteriormente os padrões tradicionais de crime contra o patrimônio eram cometidos por apenas um deliquente ou no máximo um pequeno bando. Atualmente, observamos crimes cada vez mais organizados com características empresariais e globalizado. O tráco de drogas e armas são crimes organizados mais complexos que o poder público enfrenta. Os crimes organizados inuenciam crimes menores como os homicídios utilizando arma de fogo, corrupção do poder público, desorganização da atuação do poder militar e criação de poderes paralelos ao poder instituido na nação. Já é sabido por toda a população brasileira que a nossa justiça criminal está com problemas em conter o crime e a violência. O crime cresceu e cou mais complexo, mudando a suas características, enquanto a justiça criminal ainda continua nos moldes de 4 décadas atrás. Podemos perceber a fragilidade do poder aplicado pela justiça no surgimento de rebeliões organizadas por grupos criminais como o Comando Vermelho ou o Primeiro 25 Comando da Capital (PCC), pelo resgate de presos e pelo surgimento de poderes paralelos nas comunidades carentes, onde o governo não consegue ter inuência. Um dos problemas mais visíveis na crise enfrentada pelo sistema criminal é a impunidade penal. Vários estudos (SOARES, 1996; ADORNO, 1994, 1995; CASTRO, 1993) mostram que as taxas de impunidade no Brasil são superiores a países como a França (ROBERT, 1994), a Inglaterra, e os Estados Unidos (DONZIGER, 1996; GURR, 1989). No Brasil as taxas de impunidade são maiores em crimes como os homicídios cometidos pela polícia, por grupos de segurança privada, por grupos de extermínio e por linchamentos cometidos pela população. Crimes de colarinho branco cometidos por pessoas de classe média alta ou classe alta tem números signicativos de impunidade penal. A consequência para todos esses problemas é a descrença no poder público em aplicar corretamente suas ferramentas para conter o avanço da violência e combater a impunidade. A contratação de empresas de segurança privada, especializadas em segurança eletrônica é um dos fortes indícios da descrença da população no sistema criminal. A população carente que não tem condições nanceiras de contratar segurança particular, ca a cargo da proteção de tracantes, líderes populares ou resolve seus problemas relacionados a criminalidade por conta própria. Pesquisa realizada pelo DataFolha revela que o número de brasileiros que consideram a violência o mais grave problema do país duplicou em apenas 2 meses. Em dezembro de 2001, 10% acreditavam, já em fevereiro de 2002, 21% acreditavam que a violência era o problema mais grave. A mesma pesquisa revela que 12% das pessoas vivem em moradias onde há armas de fogo, sendo muitas delas irregulares. 59% dos entrevistados armaram que tem mais medo da polícia do que conança. A pesquisa também revelou a subnoticação de crimes, onde 64% das vítimas de roubo e 71% das vítimas de furto não apresentaram queixa à polícia (Folha de São Paulo, C-1/4, 10/03/2002). A desconança na ação da polícia principalmente na represão de atos criminosos não se traduz na aprovação do estado de insegurança em que vivemos. A sociedade necessita e cobra das autoridades meios para que a criminalidade seja minimizada, chegando a aprovar mortes de prováveis suspeitos de crime. Acredita-se que a pobreza tem uma forte inuência na tendência da criminalidade. Isto devido a maioria dos criminosos que estão nos presídios brasileiros serem de classes baixas. Estudo de Pezzin (1986) revela correlações positivas entre urbanização, pobreza e desemprego com a criminalidade patrimonial, no município de São Paulo. Criminalidade patrimonial são os crimes contra os bens públicos ou privados de um cidadão, tais como roubo ou furto. Esse tipo de discurso que o crime é oriundo da pobreza é contestado por muitos pesquisadores, pois a associação entre pobreza e violência fazia com que emergisse mais perguntas do que soluções. A carência econômica e social da maioria dos criminosos não explica o seu envolvimento com o crime, pois a maior parte dos trabalhadores submetidos ao mesmo ambiente de pobreza e desigualdade social não enveredaram no mundo do crime. Podemos perceber um poder mais punitivo com os negros e pobres devido a essa 26 associação entre a pobreza e o crime. Os estudos que armam que existe uma correlação entre a pobreza e o crime são frequentemente contestadas por diversos pesquisadores (ZALUAR, 1994; COELHO, 1988; BEATO, 1988). Coelho (1988) observou o declínio nas taxas de homicídio na região metro- politana do Rio de Janeiro entre os anos de 1980 e 1983. Este período é caracterizado pela crise econômica enfrentada pelo nosso país e por altas taxas de desemprego. Beato (1988) observa que os municípios do Estado de Minas Gerais com menores taxas de criminalidade são os mais pobres e que os municípios com maiores riquezas e circulação de dinheiro tem maiores concentrações de crimes, principalmente os violentos. Já Cano e Santos (2001) em seus estudos sobre a relação entre renda, desigualdade social e violência letal armam não ser possível identicar forte inuência da renda sobre as taxas de homicídio. Diversos estudos (BRANT, 1994; ADORNO; LIMA; BORDINI, 1999) sobre a relação entre a população carcerária e o mercado de trabalho indicam proporções elevadas de carcerários procedentes do mercado informal que nunca tiveram uma carteira prossional assinada ou contrato como forma de trabalho. Todos os pontos abordados nesta seção mostra o quão complexo é o fenômeno criminal. Também é percebido que a criminalidade é interdisciplinar, por ter características sociais, econômicas e psicológicas. Um método capaz de fornecer ferramentas para o entendimento e até o combate da criminalidade é de grande valia para a sociedade. Assim, o presente trabalho apresenta diversos benefícios no entendimento e seleção de fatores de destaque e um método ecaz para o entendimento e combate ao crime. 2.2 Previsão Empírica O sucesso de coorporações, tanto públicas, quanto privadas, dependem de um planejamento correto das ações a serem tomadas em um determinado horizonte temporal. O planejamento tem como objetivo antecipar ou almejar condições ou situações futuras precisamente, de forma que o impacto seja o melhor possível. Organizações empresariais têm o hábito de realizar planejamentos comerciais, tais como: qual será a expectativa de vendas em um determinado bimestre, quais serão os produtos mais vendidos, qual será o capital rotativo, qual será o volume de atendimento, dentre outros detalhes relacionados. Assim como uma empresa realiza um planejamento, as organizações governamentais também deveriam realizar, planejando por exemplo a divisão de seu efetivo policial ou construção de escolas e presídios baseados em variáveis populacionais. Toda corporação, tanto empresarial, quanto governamental, planeja suas ações a partir de dados qualitativos ou quantitativos gerados no dia-a-dia. Os dados coletados devem ilustrar as experiências vividas e demonstrar os erros e acertos cometidos diariamente. O planejamento de ações vem aumentando consideravelmente e sendo usadas exaustivamente no planejamento corporativo através do uso de sistemas computacionais e técnicas de análise de dados. Modelos de previsão quantitativos utilizam basicamente 27 dados históricos para detectar padrões de comportamento e estimá-los no futuro. Tais modelos empregam técnicas computacionais e estatísticas para representar e executar ações para os quais foram criados. Assim, a aquisição de ferramentas deste tipo deve ser encarada como um diferencial organizacional, pois adicionará suporte a decisões a serem tomadas pelos gestores. Diversas áreas estão utilizando previsão para o suporte de decisões realizadas por seus gestores, por exemplo o uso da previsão de preços de ações no mercado imobiliário, pontuação de jogos de futebol, tempo previsto para acontecer um novo ataque cardíaco em um paciente, ataque a uma rede de computadores ou um assalto a um domicílio residencial. O ato de prever pode ser denido como a obtenção de uma resposta precisa sobre determinado assunto que deverá acontecer no futuro, baseado no passado. O futuro citado deve ser entendido como um cenário ou situação nunca vivida por uma corporação ou algo que se queira almejar. Assim as previsões devem ser realizadas em variáveis independentes baseadas totalmente em dados do presente e do passado armazenados em suas bases e na experiência dos gestores e outros prossionais envolvidos. A previsões a serem obtidas no trabalho terão um considerável nível de detalhamento para um curto horizonte temporal. De acordo com Makridakis, Wheelwright e Mcgee (1998), o recente uso de técnicas de previsão nas organizações é devido: Ao aumento da complexidade das organizações (número do público alvo e de produtos) e de mercado (mudanças de mercado e estrutura de demanda) : Esta modicação dicultou as decisões dos gestores, levando em conta todos os fatores relacionados ao desenvolvimento futuro da organização; As organizações passaram a adotar procedimentos decisórios mais sistemáticos, que envolvem justicativas explícitas para cada ação tomada. Ter uma previsão formal é uma forma de suportar tais procedimentos. O desenvolvimento contínuo das técnicas de previsão e suas aplicações, permitindo que não só analistas especializados como também gerentes e outros tomadores de decisão entendessem e utilizassem tais técnicas. Uma questão a ser levada em conta é o espaço de aplicação que poderemos atuar no desenvolvimento de teorias e a sua correta aplicação. Assim, a aplicação de técnicas preditivas necessitam geralmente de adaptações na teoria para a correta aplicação, tendo assim, um trabalho adicional para as devidas modicações. Portanto, muito problemas devem ser resolvidos antes da aplicação do método preditivo. Um processo de mineração deve ser acompanhado, pois facilita o desenvolvimento do sistema e a aplicação das adaptações propostas no processo, minimizando os problemas decorrentes da execução de uma técnica de previsão (ARMSTRONG, 1988; DEROECK, 1991; MAHMOUD et al., 1992). O processo deve conectar a teoria presente na literatura aos problemas encontrados na aplicação da mesma. Um dos objetivos deste trabalho é desenvolver um processo para o desenvolvimento de uma aplicação de previsão de níveis criminais que poderá ser aplicada a qualquer município, utilizando algoritmos de 28 aprendizagem de máquina. O trabalho irá utilizar como estudo de caso a previsão de níveis criminais de áreas demográcas de uma Região Metropolitana de uma metrópole brasileira, especicamente a de Fortaleza, utilizando dados criminais e sócio-econômicos. Winklhofer, Diamantopoulos e Witt (1996) desenvolveram um framework para lidar com as questões da aplicação de técnicas de previsão. De acordo com as pesquisas realizadas por ele, poucos autores trataram do levantamento das questões em forma de um guia, discutindo as questões relacionadas ao desenvolvimento de um sistema de previsão. Os poucos que trataram foram especícos a técnicas de previsão estatística (LEVENBACH; CLEARY, 1981, 1982, 1984). A Figura 1 exibe a organização do framework desenvolvido por Winklhofer, Diamantopoulos e Witt (1996). O framework é dividido em três conjuntos de questões atreladas a previsão: design, seleção/especicação e avaliação. Figura 1: Organização do framework desenvolvido por Winklhofer, Diamantopoulos e Witt (1996) 29 2.3 Previsão de Crimes O presente trabalho foca a previsão do nível criminal utilizando dados sócio-econômicos e criminais de áreas geográcas. Previsão e problemas de decisão geralmente são classicados pelo horizonte de tempo utilizado: curto prazo (desenvolvimento tático), médio prazo (alocação de recursos) e a longo prazo (planejamento estratégico). O presente trabalho pode ser classicado como curto e médio prazo, pois ele objetiva tanto o desenvolvimento tático, quanto a alocação de recursos baseado somente no tempo de consulta que se deseja utilizar. Escolhemos esta janela de tempo pois a polícia brasileira precisa de uma ferramenta qualitativa que a auxilie na tomada de decisões sobre o desenvolvimento tático e a correta alocação de seus recursos. A sazonalidade criminal é um fenômeno que analisa a quantidade de crime em determinados períodos temporais, tais como meses, anos, quinzenas, feriados nacionais, natal e eventos pontuais no calendário de uma cidade (COHEN, 1941; LANDAU; FRIDMAN, 1993; CECCATO, 2005; HIPP et al., 2003). Prever crimes em um período de tempo especíco é desejado e é possível, pois o comportamento humano é previsível. A quantidade de roubos e furtos em áreas comerciais aumenta consideravelmente em uma cidade devido ao grande uxo de pessoas fazendo compras e a quantidade de dinheiro circulando no comércio. Arrombamentos a casas de veraneio também aumentam em períodos do ano que não são classicadas como férias ou verão. Geralmente as casas cam isoladas sem nenhum vigia, ocasionando a cobiça dos marginais, por se tratar de um imóvel vulnerável, com equipamentos e valores guardados em seu interior. Além de identicar períodos com um alto número de crimes, a sazonalidade também pode ser usada para o gerenciamento da força policial. Treinamentos e férias podem ser agendadas para períodos ou meses com poucos crimes, enquanto nos meses com um número maior, todo o efetivo deverá estar trabalhando. Podemos utilizar a sazonalidade criminal como um fator de previsão criminal. Identicar essa relação criminal com o tempo é essencial no combate ao crime. A polícia utiliza dados criminais para vericar se houve uma mudança no comportamento criminal. Geralmente, dois tipos de mudanças são analisadas: mudanças no nível e no padrão criminal. A polícia geralmente utiliza um período anual para vericar a mudança no nível criminal, isto é, é calculado a diferença entre o mês que se deseja 12 vericiar a mudança e o mesmo período no ano passado. ∆t = At − At−12 , onde At é a quantidade de crime do mês analisado e At−12 é quantidade de crime no mesmo mês do ano anterior. Mudança no padrão criminal corresponde a perguntas como: Nós diminuimos o número de roubos que ocorreram ano passado ou no semestre passado?. Para obter respostas a esta pergunta a polícia utiliza o valor que eles haviam previsto para o δ δ período de tempo questionado. A polícia utiliza a seguinte fórmula Pt = At − Ft para δ saber se houve um aumento ou um decréscimo no número de crimes. Onde Ft é o valor δ previsto pela polícia. Através de Pt é possível analizar a mudança no padrão criminal. Dentro do contexto de oportunidades de se cometer um crime, técnicas como a routina de atividade, teoria de padrão criminal e a perspectiva da escolha racional (FELSON; CLARKE, 1998) são apresentadas. Teoria de Rotina de Atividade (COHEN; FELSON, 30 1979) arma que as oportunidades criminais estão concentradas no tempo e lugar, com diferenças espaciais afetando a probabilidade da convergência de três condições (BOGGS, 1965; NEWMAN, 1972; BRANTINGHAM; BRANTINGHAM, 1984): 1. Motivação dos criminosos; 2. Alvos possíveis; 3. Falta de um guardião capaz; O comportamento humano pode ser previsto, especialmente devido a Teoria de Rotina de atividades (COHEN; FELSON, 1979). Nós podemos prever crimes cometidos devido a previsibilidade do comportamento humano. O objetivo principal na predição de crimes está diretamentoe ligado a prevenção de crimes e a correta execução das leis. Vários estudos estão sendo desenvolvidos na predição de crimes (GORR; HARRIES, 2003; CAMARGO et al., 2008; LI et al., 2006; MITCHELL; BROWN; CONKLIN, 2007). Predizer crimes é uma tarefa complicada devido a enorme variação no acontecimento. Diversas causas podem fazer com que crimes possam mudar, tanto em sua natureza ou localização: mudanças sociais, econômicas, nas leis judiciárias, táticas policiais, etc. Prever crimes pode ser uma tarefa dispendiosa, mas fornece várias utilidades com diversas vantagens. A polícia pode executar ações táticas como determinação de áreas críticas, distribuição dos contigentes, determinação da força policial, entre prevenção e reativa, determinação de períodos para treinamento e férias baseado em predições com boa precisão. O poder judiciário pode usar a predição de crimes no planejamento de novas unidades carcerárias, a partir do estudo demográco do crime, predizer impactos gerados na criminalidade, devido a mudanças de leis, predizer se um prisioneiro com prisão condicional irá repetir o crime, de acordo com o seu perl. Atualmente, os softwares que fazem predição utilizam GIS (Geograc Information Systems ) para facilitar a visualização dos crimes, tanto espacialmente, quanto de forma temporal. GIS são softwares que utilizam mapas para a vizualização dos dados. Esses softwates são interessantes, pois os dados espaciais e temporários podem ser distribuidos entre regiões demográcas, facilitando o entendimento dos acontecimentos. Mapas personalizados, termômetros de criminalidade e comparação entre mapas podem ser feitos através de ferramentas GIS. Diversos GIS, como o Google Maps, são amplamente utiliza- dos pela sociedade. Para as pessoas comuns, as ferramentas GIS fornece ferramentas como identicação de locais, empresas, traçar rotas, visualização de mapas e imagens feitas por satélite e visualização de ruas como se estivesse passeando por elas. 2.4 Mineração de Dados Nossa vida, nossas escolhas pessoais e prossionais estão atualmente armanzenadas em banco de dados. Nossas ações como pesquisas, compras, consultas a site de 31 notícias e desejos estão sendo armazenadas a todo momento. Esse armazenamento causa a geração de um grande volume de dados interresantes para diversos objetivos. Lojas, agências de notícias e publicidade estão interessadas neste dados, pois eles fornecem informações sobre nossos hábitos, para assim, fornecer seus serviços de forma mais direta e com o mínimo de impacto. Mineração de Dados (Data Mining ) é um processo de descoberta de conhecimento útil em grande volumes de dados, onde seu principal objetivo é identicar padrões presente nos dados (HAND; MANNILA; SMYTH, 2001). A mineração é um dos passos de um processo conhecido como Descoberta de Conhecimento em Base de Dados (DCBD) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996c). O homem vem procurando padrões desde o iní- cio da vida humana, como a descoberta de informações sobre o clima ou o padrão de comportamento de uma animal com o objetivo de caçá-lo ou domesticá-lo. Existe um espaço que separa a capacidade que os computadores tem de armazenar dados e a capacidade de entendê-los. É estimado que a quantidade de dados armazenado em banco de dados ao redor do mundo dobra a cada 20 meses (WITTEN; FRANK, 2005) e para reconhecer padrões importantes nestes dados é necessário técnicas de busca ágeis. Buscar informações em um grande volume de dados é uma tarefa complexa e dispendiosa, devido ao grande volume armazenado e ao grande número de variáveis que deve ser levado em consideração. Assim, minerar estas informações, isto é, descobrir padrões nos dados é uma tarefa complexa e que deve ser feita de forma automática ou semi-automática. Os padrões encontrados podem ser visualizados de duas formas: como caixaspretas, onde a estrutura do padrão não é exibida ou a sua representação não tem fácil entendimento; e de forma estrutural, onde exibem a estrutura da decisão ou padrão, explicando o padrão ou algo presente nos dados. 2.4.1 Tarefas de Mineração de Dados Analistas utilizam técnicas de mineração de dados para resolver problemas levantados. A literatura apresenta diversas técnicas de mineração para diferentes propósitos, dentre eles citamos: Predição: O sistema tem como objetivo encontrar padrões para predizer o futuro utili- zando características de algumas entidades (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996a); Descrição: O sistema identica padrões para apresentar de uma forma legível para o usuário (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996c); Classicação: É uma função de que mapeia uma instância em uma das classes pré- denidas (WEISS; KULIKOWSKI, 1991); Regressão: Regressão é um tipo de predição, onde o valor a ser predito é um valor pertencente ao conjunto dos reais (i ∈ R) (HOSMER; LEMESHOW; MAY, 2008); 32 Agrupamento: Uma tarefa descritiva cujo objetivo é encontrar um conjunto nito de categorias capazes de descrever os dados (CHEN et al., 2003); Sumarização: Métodos utilizados para encontrar uma descrição compacta para um sub- conjunto de dados (AGRAWAL; SRIKANT, 1994); Modelagem de Dependência: Consiste em encontrar um modelo que descreva depen- dências signicativas entre as variáveis presentes nos dados (GLYMOUR et al., 1996); Detecção de Mudança e Desvio: Se concentra em descobrir mudanças signicativas nos dados a partir de medidas ou valores normativos pré-calculados (BASSEVILLE; NIKIFOROV, 1993); 2.4.2 Exemplos de Treinamento Uma das primeiras decisões que devemos tomar na DCBD é a escolha do tipo dos exemplos de treinamento. Os exemplos de treinamento podem ser oriundos de uma fonte única, ou diversas fontes; terem tipos variados; representar dados numéricos, temporais ou espaciais. Uma das características é a origem dos exemplos de treinamento. Os exemplos podem ter origem de um feedback direto ou indireto. O feedback indireto é aquele na qual os exemplos não representam a melhor escolha ou o modelo a ser escolhido; já o feedback direto permite que a escolha seja feita. Por exemplo, um conjunto de exemplos em um jogo de xadrez pode ser do tipo indireto ou direto. O tipo indireto é aquele que temos várias sequências de movimentos e o resultado do jogo. O direto é composto de exemplos de qual jogada será feita dependendo da conguração do tabuleiro. O tipo indireto é denominado desta maneira pois o algoritmo deve inferir qual a melhor jogada a ser tomada tendo o resultado do jogo, isto é, se o jogo foi perdido ou ganho. Já o tipo direto é mais simples para o algoritmo, pois o mesmo não precisa inferir nenhuma ação que deverá ser tomada, podendo tomar ações consideradas ótimas no início do processamento mas acabar tendo um desempenho ruim devido a ações não ótimas tomadas em um momento futuro. A distribuição dos exemplos no conjunto é um importante fator a ser levantado. Os exemplos de treinamento devem ser o maior possível e com qualidade. Entende- se por maior possível, a sua capacidade de representar todas as possíveis alternativas pertecentes ao universo de estudo. Isto é importante, pois a capacidade de aprendizagem é totalmente dependente dos exemplos de treinamento. Para a medição da performance de um sistema é necessário um conjunto de exemplos para testes. Se por acaso este conjunto tenha uma distribuição dos dados diferentes das utilizadas em seu treinamento, a performance do sistema será trágico pois o sistema não teve como ter uma boa média de acertos baseando-se somente nos exemplos de treinamento, que no caso são diferentes dos utilizados no conjunto de testes. 33 2.4.3 Pré-processamento Uma das tarefas mais importantes do processo é o pré-processamento dos dados (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996a). Através desta etapa, é possível fazer a limpeza, transformar e selecionar os dados mais relevantes para a tarefa a ser realizada. Um bom pré-processamento pode representar o sucesso ou o fracasso de todo o projeto de mineração de dados. Um dos papéis da limpeza dos dados é identicar e eliminar dados errôneos. A presença de exemplos com classicações erradas é comum de acontecer por diversos motivos, principalmente erros humanos. Dados errôneos podem levar a extração de informações erradas pois alguns algoritmos são sensíveis a erros, isto é, fazem formulações errôneas baseadas nestes erros. Assim, a limpeza dos dados é importante pois elimina exemplos errôneos e otimiza os dados para o processo de aprendizado. Além de dados considerados errôneos, o processo de limpar dados também identica e elimina exemplos que fogem de um padrão presente nos dados, também conhecidos como outlier (HODGE; AUSTIN, 2004). A limpeza também retira variáveis/atributos não relevantes para o pro- cesso de aprendizagem. A obtenção de dados derivados de atributos e alteração do tipo do atributo são tarefas referentes a transformação dos dados. Estas ações têm como objetivo melhorar a qualidade dos dados, pois dependendo do objetivo, os dados modicados tem maior relevância do que os dados mantidos em seu formato original. A mudança de tipagem dos dados pode ser necessária pois alguns algoritmos de aprendizagem utilizam apenas alguns tipos de dados, como numérico, nominal, discreto ou contínuo. A mudança de tipagem será obrigatória caso a escolha do algoritmo a ser utilizado, exija certa característica para o seu correto funcionamento. 2.4.3.1 Seleção de Atributos Algoritmos de seleção de atributos são técnicas que buscam encontrar os melhores atributos presentes em um conjunto de dados (GUYON; ELISSEEFF, 2003). Alguns conjuntos de dados contêm dezenas ou centenas de atributos e a diminuição da quantidade destes atributos é essencial no processo de aprendizagem. Podemos citar a qualidade da informação gerada, diminuição do tempo de execução do algoritmos, melhora na performance dos preditores construídos, facilidade da visualização e entendimentos dos dados e redução de tamanho do conjunto de dados como benefícios que os algoritmos de seleção de atributos nos oferece. Resumindo, algoritmos de seleção de atributos tem como objetivo selecionar sub-conjuntos de atributos que são úteis na construção de um bom preditor. Conjunto de dados de áreas como processamento de texto, análise de expressão gênica e química combinatória são exemplos de áreas que geralmente contêm uma grande quantidade de atributos que os analistas devem utilizar técnicas de seleção de atributos. A tarefa dos algoritmos de seleção de atributos é um processo de otimização composta de duas sub-tarefas. A primeira sub-tarefa consiste em encontrar os atributos 34 mais relevantes, isto é, aqueles que melhoram a qualidade do algoritmo de aprendizagem de máquina. A segunda é encontrar os atributos redundantes, aqueles cujo conteúdo é próximo a outro atributo ou não aumenta a performance já que existe outro atributo similar a ele no conjunto de dados. Os atributos redundantes devem ser excluídos, pois a sua presença no processo de aprendizagem altera a performance do algoritmo, chegando a aumentar o tempo de processamento ou prejudicando o entendimento do processo de aprendizagem. Métodos de seleção de atributos são divididos em 3 tipos: Filtros, Wrappers e embutidos. O método ltro é designado como um método de pré-processamento pois o mesmo é executado antes da aplicação do algoritmo de aprendizagem e é totalmente independente do processo de aprendizagem. Os métodos chamados de wrappers utilizam o algoritmos de aprendizagem para selecionar o melhor sub-conjunto de atributos. Já os embutidos são aqueles que executam a seleção junto com o processo de aprendizagem. Dado um conjunto de treinamento T com com m exemplos {xk , yk (k n atributos xk,i (i = 1, . . . , n) e o atributo de saída (classicação) yk . = 1, . . . , m)}, Métodos de ran- king são métodos que ordenam todos os atributos basendo-se em uma função de avaliação S(i) S(i) computada a partir dos exemplos de treinamento (xk , yk ). A função de avaliação informa quanto importante o atributo é, sendo assim, métodos de ranking ordenam de forma decrescente todos os atributos baseado-se no valor da função S(i). Métodos de ranking é classicado como um método ltro, pois é executado antes do processo de aprendizagem e independe do algoritmo de aprendizagem. Métodos de ranking é computacionalmente eciente, pois requer apenas a ordenação de função de avaliação S(i) n atributos baseado em uma e estatisticamente robusto pois evita o overtting, ocasionando um vício de seleção. Selecionar atributos baseando-se somente em funções de avaliação é um pouco perigoso pois um sub-conjunto de atributos são mais relevantes para o processo do que quando são avaliados individualmente. Assim, métodos que avaliem não somente o atributo, mas sim o sub-conjunto integralmente em relação ao atributo de saída yk são mais recomendados. Metódos do tipo wrapper utilizam algoritmos de aprendizagem para selecionar o melhor sub-conjunto de atributos. Estes métodos não avaliam individualmente cada atributo, mas o sub-conjunto a ser analisado. Para a sua utilização devemos denir alguns parâmetros: 1. Qual método de procura será utilizado; 2. Como avaliar a performance do algoritmo. Essa informação será necessária para guiar o processo de procura; 3. Qual algoritmo utilizar; Na literatura existem várias estratégias de procura, onde podemos citar: Best-First,Bran- ch-and-Bound, têmpera simulada e algoritmos genéticos (KOHAVI; JOHN, 1997). Métodos gulosos também são bastante utilizados, tendo duas vertentes: seleção para frente ou 35 eliminação para trás. Na seleção para frente, as variáveis são adicionadas de forma incremental ao sub-conjunto, enquanto na eliminação para trás o sub-conjunto contém todos os atributos e a cada passo um atributo é eliminado, cando somente os melhores atributos. A avaliação da perfomance do método utilizado é realizadp utilizando um conjunto de avaliação ou validação cruzada. Os métodos embutidos são executados junto com o processo de aprendizagem. A procura é guiada pela estimativa de mundanças no valor da função objetivo a partir da modicação do sub-conjunto de atributos trabalhado. Algumas vantagens no uso de métodos embutidos são o uso integral de todo o conjunto de dados, já que o conjunto não é dividido para ser usado para validação e alcançam a uma solução mais rápida pela não necessidade de retreinar o preditor para cada sub-conjunto avaliado. Árvores de decisão são estruturas de decisão que utilizam métodos embutidos para selecionar os melhores atributos. O algoritmo C4.5 (QUINLAN, 1993) utilizado para construir árvores de decisão utiliza o Information Gain (KULLBACK; LEIBLER, 1951; KULLBACK, 1997) como método para selecionar os atributos. 2.4.4 Aprendizagem de Máquina Uma das características mais importantes no ser humano é a sua capacidade de aprender. O aprendizado no ser humano é feito a partir de ensinamentos ou de sua vivência através de sua experiência. O mais importante do aprendizado do ser humano é a capacidade de utilizar o conhecimento adquirido em problemas nunca enfrentados. Os computadores são máquinas extraordinárias, têm a capacidade de processamento e memórias muito superiores a dos seres humanos. Infelizmente os computadores têm uma certa deciência, não são capazes de forma independente de tomar as próprias decisões. Se pudessemos programar os computadores para que eles pudessem aprender, melhorar sua performance com o passar do tempo seria extraordinário, juntaríamos características humanas e computacionais que possa criar um sistema capaz de aprender com a perfomance de um computador. A aprendizagem de máquina (AM) é uma área multidiciplinar que almeja a capacidade dos computadores em aprender (MICHALSKI; CARBONELL; MITCHELL, 1986). É multidisciplinar pois utiliza resultados da inteligênia articial, estatística, probabilidade, teoria da complexidade computacional, teoria da informação, psicologia, losoa, neurobiologia e outros campos. É dito que um computador aprende se o uso de experiências na resolução de conjunto de tarefas melhora com as experiências apresentadas, isto é, ele tem a capacidade de melhorar seu desempenho com o uso das experiências. Sendo assim, a aprendizagem dos computadores acontece quando os mesmos são capazes de formar ações generalizadas a partir de experiências pré-apresentadas. A experiência é apresentada na forma de dados e através de algortimos é possível aprender, isto é, construir, identicar padrões gerais presente nos dados. Os testes feitos para medir a capacidade do computador em aprender são feitos através da observação de uma nova experiência e a comparação deste resultado com o uso de experiências anteriores. 36 Podemos dividir uma tarefa de aprendizagem de máquina em três elementos: Tarefa, Performance e Experiência. Iremos exemplicar esta divisão através do exemplo de reconhecimento de caracteres em imagens. Tarefa: Reconhecer caracteres em imagens; Performance: Experiência: Taxa de acerto; Base de imagens de caracteres com a sua respectiva classicação; Sendo o conceito um resultado de um processo de aprendizagem, podemos dizer que a aprendizagem ocorre quando há uma procura por conceitos coerentes com os exemplos de treinamento em um conjunto de conceitos nito. Um algoritmo de AM poderia enumerar todos os conceitos possíveis no universo de varíaveis/atributos presentes no conjunto de treinamento e selecionar apenas aqueles que são compatíveis com os exemplos de treinamento. Infelizmente esta técnica é insatisfatória, pois dependendo do número de atributos, a procura/comparação iria demorar muito tempo, sendo impraticável. algoritmos de AM Bons tem como objetivo fazer esta procura em pouco tempo, utilizando as melhores estratégias. 2.4.4.1 Aprendizado Supervionado, Não Supervisionado e Semi-Supervisionado A presença de uma classe, ou seja, de uma saída yk nem sempre está disponível no conjunto de treinamento. Entretanto o aprendizado deve se adaptar com a presença ou a ausência deste importante atributo. O aprendizado que utiliza a sáida yk é conhecido como aprendizado supervisionado. Este aprendizado se dá com a utilização deste atributo para a correta construção do modelo de aprendizado baseado no conjunto de treinamento T. Redes Neurais, Árvores de Decisão, Redes Baysianas são exemplos de algoritmos de aprendizagem supervisionados. O aprendizado não supervisionado é processado sem a necessidade do atributo de classe. Esses algoritmos são mais utilizados para agrupamento de dados, atribuição de classes a instâncias que não contém este atributo e detecção de outlyers. Exemplos de algoritmos não supervisionados são as redes de Kohonen e algoritmos de agrupamento de dados como k-Nearest Hood. O aprendizado Semi-Supervisionado utiliza exemplos com classes com classes yk não denidas. yk denidas e Geralmente o aprendizado utiliza um pequeno conjunto de exemplos rotulados e um grande conjunto de exemplos não rotulados. Os exemplos rotulados irão auxiliar o algoritmos na denição das classes nos exemplos não rotulados. Este auxílio tem como objetivo a melhora da precisão do algoritmo nos exemplos que não contém classe denida. 37 2.4.4.2 Aprendizado de Conceito Podemos armar que o aprendizado consiste em gerar hipóteses gerais de exemplos de treinamento especícos. O aprendizado humano também é baseado na geração destas hipóteses, pois podemos classicar, por exemplo, alguns animais como cães dentre todos os animais existentes. Nós podemos conseguimos identicar cães mesmo sem ter visto todos os cães ou mesmo todos os animais presentes na Terra. A aprendizagem de conceito baseia-se nesta idéia, de armar se determinado exemplo é de um tipo observando somente as suas características. Computacionalmente, escrevemos um algoritmo capaz de armar se determinado exemplo pertence a classe que ele representa. Isto é, a aprendizagem de conceito aproxima uma função booleana utilizando um conjunto de exemplos de treinamento (MICHALSKI; CARBONELL; MITCHELL, 1986). Os exemplos pertecentes ao conjunto de treinamento devem ter suas características e um atributo conhecido como conceito alvo que identica se o exemplo pertence ao conceito que queremos identicar. O algoritmo é capaz de gerar uma hipótese que represente o conceito que queremos identicar utilizando um sub-conjunto de características presentes no conjunto de treinamento. Por exemplo, para identicarmos uma gura geométrica como triângulo podemos utilizar um conjunto de treinamento com a cor, quantidade de lados, tamanho de cada lado, ângulo dos vértices. Todos nós sabemos que uma gura geométrica é um triângulo se contiver apenas 3 lados, ou seja, um bom algoritmo de aprendizagem de conceito deve utilizar apenas em sua hipótese o número de lados para ter uma hipótese verdadeira e genérica (TANENBAUM, 1999). A Tabela 1 representa um pequeno conjunto de treinamento para a tarefa de aprendizado de conceito. A tarefa consiste em aprender que características presente em um dia qualquer faz com que uma pessoa pratique seu esporte favorito. A prática do esporte depende de algumas características presentes em sua personalidade ou condições propícias para o esporte que a tarefa de aprendizagem deseja identicar. O conjunto de treinamento é composto de 7 atributos, sendo 6 características dos exemplos: Céu, Temperatura do Ar, Umidade, Vento, Água, Previsão; e o atributo que representa o conceito alvo: Pratica Esporte. Tabela 1: Conjunto de exemplos para o aprendizado do conceito Pratica Esporte Exemplo Céu Temperatura Umidade Vento Água Previsão do Ar Pratica Esporte 1 Ensolarado Amena Normal Forte Amena Mesma Sim 2 Ensolarado Amena Alta Forte Amena Mesma Sim 3 Chuvoso Frio Alta Forte Amena Alterou Não 4 Ensolarado Amena Alta Forte Boa Alterou Sim A aprendizagem de conceito terá papel fundamental neste trabalho, pois o mesmo está fundamentado nestas idéias. Teremos 5 conceitos a serem identicados pelo modelo. Os conceitos serão traduzidos como níveis criminais e serão denidos e descritos posteri- 38 ormente. 2.4.4.3 Redes Neurais Articiais Redes Neurais Articiais (RNA) são estruturas computacionais inspiradas nas redes neurais biológicas. As RNA são compostas por nós, chamados de neurônios e cada neurônio é conectado a outro através de conexões. Para cada conexão existe um valor, no qual é chamado de peso (KASABOV, 1996; OLLIGSCHLAEGER, 1997). As Redes Neurais são conhecidas como modelo conexionista devido a estas características. O aprendizado de uma RNA é obtido através de algoritmos cujo objetivo é modicar os pesos para que a rede possa obter um resultado de acordo com os exemplos de treinamento. ciência onde se aplica as RNA A área da para o processamento de informações é conhecida como Neurocomputação. A Figura 3 exibe um modelo genérico de uma RNA. Figura 2: Esquema de um Neurônio Articial Figura 3: Rede Neural Articial O primeiro neurônio articial, representação matemática, foi denido por McCulloch e Pitts (1943). Através da Figura 2 podemos ver a estrutura de um neuronio articial. Um neurônio artical é uma estrutura composta por entradas e pesos atribuídos a cada entrada, uma saída e uma função de ativação. Para cada entrada E = x0 , x1 , . . . , xi − 1, xi existe um peso P = w0 , w1 , . . . , wi − 1, wi . 39 A função de entrada peso wi é uma função somatória que agrega cada entrada u = f (E, P ) = correspodente. A função de ativação A função de saída valor de O conjunto f E ϕ P i=1,...,n xi a cada xi .wi . calcula o sinal de ativação do neurônio a=ϕ(u). yk = s(ϕ(u)) calcula o valor de saída do neurônio. Geralmente o s=ϕ(u). de entrada e o valor de saída yk podem ser binários 0,1; bivalentes -1,1; contínuo [0,1]; ou valores discretos. O perceptron foi criado por Rosenblatt (1958) e é considerada como a rede neural mais simples. O perceptron é um classicador binário que mapeia um vetor de entrada X∈R a uma valor de saída f (X). f (X) = Onde w é o vetor de pesos, vertor de entrada e b 1, 0, w.X se w.X + b > 0 senão é o produto interno do vetor de pesos com o é o vício, um valor constante indepedente do vetor X. O perceptron tem 2 camadas, uma camada de entrada e uma de saída, onde os neurônios da camanda de entrada são totalmente conectados com os da camada de saída, i.e, para todo neurônio da camada de entrada sj . ni existe uma conexão ci j para cada neurônio da camada de saída Mais detalhes sobre as camadas serão apresentados. As funções de ativação mais usadas são: Sinal: Se o valor u ativado (yk senão o neurônio cará inativo = 1), Linear: O valor de ativação função de entrada isto é, da função de entrada for maior que um certo valor o neurônio é yk = 1; u. yk yk = 0; Ilustração na Figura 4(a). aumenta linearmente de acordo com o valor da Se um certo limite for ultrapassado, a rede cará saturada, Ilustração na Figura 4(b). Sigmóide: A função sigmóide é uma função não linear crescente em forma de S. A imagem é delimitada por dois valores limites, por exemplo [0,1],[-1,1]. A sigmóide é constante e suave, sendo também diferenciável. Ilustração na Figura 4(c). Gaussiana: A função gaussiana também conhecida como sino é comumente utilizada, pois é contínua e diferenciável. Ilustração na Figura 4(d). As funções descritas podem ser melhor observadas através da Figura 4. A rede neural observada na Figura 3 tem 1 camada de entrada, 1 camada oculta e um neurônio de saída. A primeira camada contém 4 neurônios e a camada oculta contém 2 neurônios. Uma rede neural pode conter quantas camadas ocultas forem necessárias. Esse tipo de rede, na qual existe uma camada de entrada, pelo menos uma camada 40 (a) Função Sinal (b) Função Linear (c) Função Sigmóide (d) Função Gaussiana Figura 4: Various edge detection algorithms 41 intermediária e uma camada de saída, é chamada de MLP (Multilayer Perceptron ). Quando todo neurônio está conectado a qualquer outro na rede é dito que a rede é totalmente conectada e as MLP são exemplos de redes totalmente conectadas. A rede é conectada parcialmente quando é permitida apenas a conexão dos neurônios que estão presentes entre camadas, isto é, um neurônio da camada de uma camada j 6= i. i só pode estar conectado a um neurônio Em cada conexão existe um peso associado onde cada peso é obtido a partir de um algoritmo de aprendizagem. Um rede é dita treinada quando seus pesos estão de acordo com os exemplos de treinamento e quando a rede consegue obter resultados satisfatórios para exemplos nunca vistos. Depedendo de como as conexões estão organizadas entre os neurônios, podemos classicar uma rede em feedforward ou feedback. Na arquitetura feedforward não existe conexões ligando neurônios de camadas mais próximas a camada de saída a neurônios pertecentes a camadas mais próxima a camada de entrada. Não existe conexões ligando neurônios da camada x a camada y, onde x > y. Redes com arquitetura feedback contém conexões entre camadas mais próximas a saída com neurônios pertecentes a camadas mais próximas da camada de entrada. Essa característica cria laços, possibilitando a criação de uma memória dos estados anteriores. O estados não dependem somente dos parâmetros de entrada, mas sim de estados anteriores armazenados nestes laços. A característica mais atraente presente nas redes neurais é a sua capacidade de aprender. O aprendizado de uma rede neural se dá pela mudança dos pesos presentes na conexões. Cada exemplo de treinamento xi é dado para a rede no processo de aprendizado e os pesos são alterados para que a saída da rede seja compatível com yi do exemplo xi . O processo de aprendizado se dá através da aplicação de todo o conjunto de exemplos de treinamento X e a devida alteração nos pesos, onde a alteração dos pesos fornece a rede neural a capacidade de generalizar a função aprendida. Para avaliar a precisão da rede treinada é utilizado exemplos de teste, isto é, exemplos de treinamento que não foram utilizados pela rede em seu processo de aprendizagem. As RNAs aprendem o que lhe proposto a aprender através de algoritmos de apren- dizagem. Os algoritmos de aprendizagem podem ser classicados como: 1. Aprendizado Supervisionado: A Rede Neural aproxima uma função partir de exemplos com os atributos der yk . x1 , . . . , x n f (X) = y a e o resultado que se deseja apren- O aprendizado adquirido ca codicado através dos pesos presentes nas conexões. 2. Aprendizado Não-Supervisionado: Ao invés de receber o conjunto de atributos e a saída desejada, a RNA recebe apenas os atributos. As SOM X (Self-Organization Maps ) é um tipo de rede com aprendizado não supervisionado. 3. Aprendizado com Reforço: Nesse tipo de aprendizado a rede é premiada se a saída for considerada satisfatória. A premiação causa o aumento no valor dos pesos das conexões presentes. Caso a saída seja considerada ruim, a rede é penalisada e os 42 pesos das conexões consideradas são diminuidos, i.e., diminuindo o seu fator de impacto no resultado da rede. O processo propoe o uso de uma rede neural com arquitetura feedforward, portanto, iremos discutir o algoritmo mais utilizado nesta arquitetura. O algortimo de aprendizagem mais conhecidos para EDMILLER; BRAUN, 1993). RNAs com arquitetura feedforward é o backpropagation (RI- A regra Delta é a base de cáluclo da atualização dos pesos utilizado no backpropagation (WIDROW; LEHR, 1990). O objetivo do backpropagation é diP P p minuir o máximo o erro global Err = p j Errj , onde o erro de um exemplo p pode ser calculado através por exemplo do Erro Médio Quadrático ou Mean Square Error (MSE): Errjp = ε2j /2 (ALLEN, 1971). Os pesos das conexões são atualizados a partir da regra Delta. Os ajustes denidos por esta regra é dada pela seguinte expressão: wij(t+1)=wij(t) +η∗εj(t) ∗xi (2.1) Onde: i=índice do sinal de entrada; j =índice do neurônio da camada de saída; t=iteração; wij(t+1) =valor wij(t) =valor η =taxa εj(t) = do peso ajustado; do peso anterior; de aprendizado; valor do erro para o neurônio xi =valor j, conforme a expressão 2.2. de entrada; εj(t) = dj(t) − yj(t) (2.2) Onde: dj(t) =Saída desejada para o neurônio yj(t) =Saída calculada para o neurônio j; j; No backpropagation existe a denição de epoch ou ciclo de aprendizagem. O ciclo é denido como o processo de propagação de um ou mais exemplos de treinamento e o cálculo do erro de cada exemplo. aprendizagem: O algoritmo executa dois passos a cada ciclo de 43 1. Passagem: Os exemplos são apenas fornecidos e propagados até a camada de saída; 2. Passagem Retroativa: Quando o erro de saída é calculado, os pesos são atualizados de forma retroativa, i.e., as atualizações acontecem primeiro nas conexões mais próximas a camada de saída. No processo da passagem retroativa, o erro Errni de um neurônio intermediário ni Errnj de todos os neurônios nj conectados pesos wij . Esse processo é repetido até que os é calculado a partir da multiplicação dos erros ao neurônio ni pelo os seus respectivos erros de todos os neurônios sejam calculados, lembrando que o cálculo é feito de forma retroativa. Os erros calculados são utilizados para a atualização dos pesos e a ordenação de atualização é feita do mesmo modo do cálculo dos erros, ou seja, de forma retroativa. O treinamento ocorre até todos os ciclos acabarem ou quando o erro Err for sucientemente pequeno. 2.4.5 Pós-processamento Os dados que são processados por algoritmos de aprendizagem de máquina contêm muitos ruídos e são inconsistentes, assim, muitas fases devem ser realizadas antes do processo de extração de conhecimento realmente ocorra. Alguns passos de pré- processamento devem ser executados para que os dados sejam limpos, transformados e organizados para que o algortimo de aprendizagem possa trabalhar corretamente. O resultado do aprendizado pode ser uma árvore de decisão, um conjunto de regras, uma topologia de uma rede neural. Entretanto, estes modelos podem não ser apropriados para a visualização dos resultados, pois são de difícil compreensão ou apresentam padrões não relevantes. Para melhorar o entendimento destes modelos, é necessário executar um pósprocessamento (BRUHA; FAMILI, 2000) nos resultados obtios após a fase de mineração. Procedimento de pós-processamento inclui rotinas de corte, ltragem de regras ou mesmo integração e visualização de conhecimento. Todos estes procedimentos têm como objetivo servir de ltro para erros e conhecimento impreciso gerado pelos modelos. A fase de pós-processamento é composta de vários procedimentos e métodos que podem ser categorizadas da seguinte maneira: Filtro de conhecimento: Geralmente os algoritmos indutivos como árvores e regras de decisão geram folhas correspodentes a poucos exemplos presentes no conjunto de treinamento. Isto acontece porque os algoritmos tentam ser o mais consistentes com o conjunto de treinamento. O método para evitar isto, é excluindo as folhas que exibem este comportamento. Estes métodos são conhecidos como pós-podação para árvores e truncação para regras de decisão. Interpretação e explicação: Após o conhecimento ter sido obtido pelo algoritmos de aprendizado, é necessário utilizá-lo de forma correta. Infelizmente algumas técnicas não apresentam uma forma amigável de apresentar seus resultados, inclusive se os 44 mesmos devem ser apresentados ao usuário nal. Para isso, uma das formas de facilitar a legibilidade do conhecimento produzido é a sua documentação, visualização ou combinação com sistemas já existentes. Avaliação: A fase de avaliação deve ser executada após os algoritmos terem produzidos suas hipóteses baseadas no conjunto de treinamento. Existe geralmente várias medidas para avaliar um processo, onde as mais utilizadas são: precisão na classicação, legibilidade, complexidade computacional, etc. Integração de Conhecimento: Sistemas tradicionais de apoio a decisão utilizam so- mente um algoritmo de aprendizagem. Entretanto novos métodos vem sendo construídos baseando-se em mais de um modelo de aprendizagem. Estes modelos devem ser corretamente integrados de forma a não entrar em conito no conhecimento produzido e conter métodos de visualização ecazes para apresentar os diversos resultados produzidos. A fase de pós-processamento deve ser entendida como uma fase importante no processo de Descoberta de Conhecimento em Banco de Dados. Através de seus métodos podemos obter resultados melhores a partir do conhecimento obtido. Assim, podemos construir sistemas mais amigáveis e legíveis, melhorando a precisão e a intepretação do usuário nal. 2.5 Descoberta de Conhecimento em Banco de Dados A mineração de dados é um passo de um grande processo chamado de descoberta de conhecimento em banco de dados. A tarefa de mineração se preocupa com a aplicação de algoritmos para analisar os dados ou extrair padrões em categorias especícas dos dados com ou sem a supervisão humana (KLOSGEN; ZYTKOW, 2002). A descoberta de conhecimento é um processo que procura por informações relevantes presentes nos dados, sendo a mineração um de seus passos. A descoberta de conhecimento é um processo não trivial desenvolvido para identicar padrões válidos, novos, potencialmente úteis e entendíveis (FAYYAD et al., 1996). O primeiro processo desenvolvido foi apresentado por Fayyad et al. (1996) em seu livro, onde o modelo não focava em uma técnica particular, mas provia um processo genérico para a geração de conhecimento presente nos dados. Inicialmente, os cientistas não se preocupavam muito no processo utilizado para a extração de conhecimento, mas na concepção, melhora e aplicação de algoritmos de mineração de dados. O foco nos algoritmos trouxe problemas relacionados ao uso das técnicas por pessoas não especialistas ou com poucos casos de sucesso na indústria. Devido a estes problemas foi concluído que deveria ser desenvolvido um modelo interativo e iterativo que forneça ferramentas para a análise de dados. O processo de descoberta de conhecimento se preocupa com todo o processo de extração do conhecimento, incluindo, como os dados serão armazenados e acessados, limpos, transformados e selecionados; quais serão os algoritmos utilizados, como a avaliação 45 das informações extraídas deverá ser realizada e quais serão os métodos de visualização. Resumindo, a principal razão em denir e implementar um processo de mineração de dados é garantir que o produto nal seja útil para o usuário, atendendo todas as suas expectativas (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996b). Um outro fator de motivação para a modelagem de um processo de mineração é o entendimento do processo em si, do negócio e das informações coletadas. Os analistas necessitam de um processo formal para denição das necessidades dos usuários e quais serão os objetivos a serem alcançados utilizando uma ferramenta de mineração de dados. Uma das diculdades que os usuários têm é a diculdade em expressar seus desejos de forma exata, isto é devido a inexperiência ou o não saber o que se deseja. Outra diculdade é a grande quantidade de dados a ser analisada e utilizada na tarefa de mineração. O grande volume pode conter informações para diferentes interesses e a denição e identicação de informações corretas pode ser uma tarefa árdua e custosa. O primeiro processo de mineração foi publicado em 1996 por Fayyad et al. (1996) e contém 9 passos (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996c, 1996a). Este processo cobre tarefas como entendimento do domínio da aplicação ou limpeza e pré-processamento dos dados, focando-se na academia. O próximo modelo, publicado por Cabena et al. (1998) contém 5 passos. Diferente do modelo desenvolvido por Fayyad, Piatetsky-Shapiro e Smyth (1996c), o processo criado foca a indústria, utilizando problemas reais. O terceiro processo, contendo 8 passos foi desenvolvido por Anand e Buchner (1998) (ANAND et al., 1998). O CRISP-DM (CRoss-Industry Standard Process for Data Mining ) é um processo que inclui 6 passos. Foi proposto em 1996 por um consórcio de empresas: SPSS (for- necedora de ferramentas para mineração), NCR (empresa de banco de dados), Daimler Chrysler (indústria de veículos) e OHRA (empresa de seguros). O modelo foi ocialmente lançado apenas em 2000 e hoje têm um grande apoio da indústria e da academia (SHEARER, 2000; WIRTH; HIPP, 2000). Finalmente, o processo de 6 passos desenvolvido por Cios et al. (2000) foi publicado. Este processo utilizou o CRISP-DM como base, modicando alguns passos para necessidades especícas da academia. As principais colaborações foi em relação a generalização do processo, descrição dos passos orientados a pesquisa e introdução de mecanismos para comentários e a enfatização que um conhecimento adquirido a partir de um domínio pode ser aplicado a outros domínios. Todos os processos aqui citados contêm etapas semelhantes que podem ser comparadas entre si. Diferenciandose por exemplo em relação a execução ou a forma que as ações foram abordadas. Os processos mais novos contêm passos adicionais, sendo estes adicionados devido a novas características e problemas descobertos na denição do processo de mineração de dados produzidos anteriormente. A Tabela 2 publicada no artigo de Kurgan e Musilek (2006) apresenta uma comparação resumida dos processos citados. A sub-seção seguinte irá tratar do especicamente do CRISP-DM. O CRISP-DM foi utilizado para a criação do processo formulado neste trabalho, sendo sua base teórica. O processo proposto neste trabalho pode ser especicado como uma especialização do CRISP-DM, onde o principal objetivo é servir de guia para a criação de um método preditivo de níveis criminais. Diferentemente do CRISP-DM, o processo proposto no Modelo Área Nº de passos Refs. Passos 7 Descoberta de Padrões 8 Pós-Processamento 2 Preparação dos Dados 3 Mineração 4 Elicitação do Domínio de Conhecimento 5 Assimilação do Conhecimento 2 Criando um Conjunto Alvo 3 Limpeza e PréProcessamento dos Dados 4 Redução e Projeção dos Dados 5 Escolhendo a Tarefa de MD 6 Escolhendo o Algoritmo de Mineração 7 Mineração 8 Interpretação dos Padrões Minerados 9 Consolidação do Conhecimento Decoberto Anand & Buchner Academia 8 (ANAND et al., 1998) 1 Identicação de Recursos Humanos 2 Especicação do Problema 3 Prospecção dos Dados 4 Elicitação do Domínio do Conhecimento 5 Identicação da Metodologia 6 Pré-Processamento dos Dados Cabena et al Indústria 5 (CABENA et al., 1998) 1 Determinação dos Objetivos de Negócio 4 Modelagem 5 Avaliação do Conhecimento 6 Divulgação 3 Preparação dos Dados 2 Entendimento dos Dados CRISP-DM Indústria 6 (SHEARER, 2000) Entendimento do Negócio Tabela 2: Comparação dos processos apresentados reproduzido no artigo de Kurgan e Musilek (2006) Fayyad et al. Academia 9 (FAYYAD et al., 1996) 1. Desenvolvimento e Entendimento do Domínio da Aplicação 4 Mineração 5 Avaliação do Conhecimento Adquirido 6 Usando o Conhecimento Descoberto 3 Preparação dos Dados 2 Entendimento dos Dados Cios et al. Academia 6 (CIOS et al., 2000) 1 Entendimento do Problema de Domínio 46 47 trabalho não é genérico, pois recomendamos que certas ações sejam executadas baseadas na criminalidade e nos dados coletados. Devido a isto, alguns passos foram modicados para que fossem adequados corretamente ao problema abordado. 2.6 CRISP-DM O processo CRISP-DM foi concebido no nal de 1996 por prossionais do mercado de mineração de dados pertecentes a Daimler-Crysler, SPSS e NCR. Depois de dois anos e meio de desenvolvimento foi alcançado um rascunho de qualidade do processo, que nalmente poderia ser utilizado. A Daimler-Crysler já utilizava a mineração de dados em suas operações de negócio, a SPSS fornece ferramentas e serviços baseados em mineração desde 1990 e a NCR que desejava adicionar algum valor ao grande volume de dados presente em seus Data Warehouses. O CRISP-DM foi criado para responder questões presentes no dia-a-dia destas empresas. Estamos fazendo o certo? Um novato tem a possibilidade de aprender, sem ser na tentativa-erro? Podemos demonstrar para os gerentes que a mineração de dados é uma área madura que pode ser aplicada sem problemas aos negócios da empresa? Assim, um processo de mineração gratuito e não proprietário poderia ser disponibilizado para que questões como estas possam ser respondidas. O CRISP-DM não foi criado de forma teórica, de maneira acadêmica, utilizando princípios técnicos em seu texto ou foi desenvolvido por gurus da área. Foi criado para ser utilizado de forma prática e fácil, baseando-se na execução de tarefas que no nal geram um produto implementado e documentado. O CRISP-DM foi testado em várias aplicações do mundo real e pode ser considerado um sucesso pela quantidade de pessoas no mundo que o utiliza no desenvolvimento de projetos de mineração de dados. O processo contém 6 etapas principais: Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, Avaliação e Divulgação. Trataremos de forma sucinta cada etapa, maiores detalhes podem ser obtidos através da leitura de Chapman (2000). As próximas sub-seções irão descrever cada etapa pertecente ao CRISP-DM. Dentro de cada etapa iremos descrever sub-etapas importantes no desenvolvimento do processo proposto neste trabalho. 2.6.1 Entendimento do Negócio A etapa inicial foca no entendimento dos objetivos do projeto e requisitos da perspectiva do negócio. Convertendo o conhecimento adquirido em problemas tratáveis pela mineração de dados. Além do entedimento propriamente do negócio, nesta etapa devemos programar toda a execução do processo de mineração, identicando todos os passos e riscos que podem atrasar o projeto. 48 2.6.1.1 Plano de Atuação No plano de atuação devemos planejar cuidadosamente todos os passos a serem feitos para alcançar os objetivos determinados na fase do Entendimento do Negócio. O plano de atuação deve conter o número de participantes, quais equipamentos serão utilizados, quais serão as dependências entre tarefas e detalhes sobre as ferramentas que serão utilizadas. Deve estar contido no plano de atuação informações como o planejamento de compra, instalação, conguração e treinamento do software que será utilizado. O le- vantamento do software e técnicas que serão abordadas devem ser avaliadas antes de qualquer execução relacionada aos dados. Os softwares e técnicas levantadas devem ser vericadas e comparadas levando em conta preço, tempo de aprendizagem, treinamento, usabilidade, precisão e tempo de resposta. Levando-se em conta o que foi denido na fase de levantamento dos objetivos técnicos. A equipe deve construir um plano com todas as informações citadas. O do- cumento servirá como documentação estrutural do projeto, identicando os recursos, requisitos e prioridades. Poderemos, através dele, avaliar o andamento da concepção, organização e andamento inicial do projeto. O plano de atuação irá detalhar todos os passos necessários para alcançar os resultados denidos nos objetivos do negócio. 2.6.2 Entendimento dos Dados A fase de entendimento dos dados inicia com um conjuto inicial de dados e continua com tarefas para deixar o analista familiar com os dados, identicando problemas de qualidade e primeiras impressões dos dados. 2.6.2.1 Coleta e Análise dos Dados A coleta dos dados é um processo que pode ser custoso e burocrático, podendo ser realizada de diferentes formas, dependendo da natureza dos dados. Os dados podem ser colhidos através de pesquisas feitas a população, banco de dados empresariais e/ou governamentais, logs, observações, etc. O processo de liberação e uso dos dados devem ser informados e solicitados. A liberação dos dados pode demorar um certo tempo dependendo da burocracia inerente ao processo de solicitação. A decisão de que método a ser realizado deve-se levar em conta os custos e os benefícios do uso do método. Pesquisas feitas a sociedade são custosas, pois necessitam de pessoas para a coleta, organização e análise dos dados colhidos, já a coleta em banco de dados pode ser burocrático devido a liberação dos dados, mas de fácil aquisição devido as facilidades para acesso aos dados. 49 2.6.2.2 Exploração dos Dados Esta fase é composta de tarefas que irão consultar, visualizar e reportar características intrínsecas dos dados. Características como a distribuição do atributo de classe, relações entre pequenos grupos de atributos e agregações. Fornece como saída informações relevantes para a seleção dos melhores atributos, que irão melhorar o processo de predição, diminuir o tempo de treinamento e aumentar a precisão das predições realizadas. 2.6.3 Preparação dos Dados A fase de preparação cobre todas as atividades para contrução do conjunto de dados nal. Atividades como a limpeza e transformação dos dados e seleção dos atributos mais relevantes. 2.6.3.1 Transformação dos Dados A transformação dos dados visa a melhora na qualidade dos dados. A transformação consiste de tarefas como derivação de atributos, inserção de instâncias ou valores alterados. A transformação dos dados é necessária pois algumas vezes os algoritmos de aprendizagem trabalham melhor com alguns tipos de dados ou a restrições impostas. Por exemplo, a normalização de números reais para serem corretamento utilizados em Redes Neurais. 2.6.3.2 Integração dos Dados A integração deve combinar diferentes tabelas utilizando atributos comuns a ambas. Caso não exista nenhum atributo relacionado em ambas, deve ser criado um atributo que possa fazer a correta relação entre todas as instâncias. Esta estratégia de integração agrupa os dados que estão em diferentes tabelas, gerando apenas uma, simplicando o entendimento dos dados. Integrar dados adiciona ao projeto vantagens como a eliminação de dados repetidos, economia de espaço de armazenamento e velocidade no processamento dos algoritmos. 2.6.3.3 Formatação dos Dados Modicações sintáticas são necessárias dependendo da forma como a ferramenta de mineração trabalha. Modicações sintáticas apenas mudam a forma dos dados sem modicar seu signicado, seja na transformação de formato dos arquivos de entrada, como valores separados por vírgula ou formatos proprietários como o formato ar. 50 2.6.4 Modelagem Nesta fase, vários modelos de mineração são escolhidos e testados e seus parâmetros são denidos para serem os melhores. Existem diversos modelos para o mesmo problema de mineração de dados, onde alguns impõe certas restrições nos dados. Para satisfazer estas restrições tarefas adicionais devem ser realizadas na etapa anterior, preparação dos dados. 2.6.5 Avaliação A etapa de Avaliação contém tarefas para a avaliação do modelo construído. A etapa de avaliação deve ser executada antes da divulgação do modelo para garantir que o modelo cobre todos os requisitos identicados na fase de entendimento do negócio. Além de questões de negócio, questões técnicas também devem ser avaliadas. O analista deve identicar os resultados e deciências dos modelos. Devem ser levados em conta os objetivos do negócio, observando-se as métricas técnicas. Deve-se escolher o modelo que contém a menor quantidade de deciências, com os melhores resultados técnicos para ser utilizado como o modelo preditivo nal. Os resultados da avaliação pode direcionar para novas direções, como a aquisição de informações não previstas, modelos com pouco poder preditivo ou não contemplação de todos os requisitos denidos. 2.6.5.1 Revisão Todos os passos para a denição, aplicação e avaliação do modelo preditivo devem ser revisados. Teremos um modelo preditivo que pode prever o nível criminal de áreas demográcas urbanas, caso todos os passos tenham sido executados corretamente e devidamente aprovados. Agora é necessário realizar um processo de revisão para ter certeza que todos os detalhes foram levados em conta. Detalhes relacionados a qualidade dos dados, requisitos técnicos e práticos abordados pelo modelo, estratégias e passos adotados ao longo da execução da metodologia. Na revisão é necessário apontar os pontos positivos e negativos do processo e denir estratégias para solucionar os pontos negativos. Os pontos negativos devem ser solucionados executando novamente as tarefas que irão resolver o problema identicado. Além de apontar os pontos positivos e negativos, o documento deve apontar os passos que foram esquecidos ou não executados. Os passos devem ser executados e avaliados, para que o analista perceba se a sua execução obteve uma melhora no modelo já construído. 51 2.6.5.2 Próximas Ações Um documento com a denição das próximas ações a serem tomadas deve ser escrito. Estas futuras ações serão denidas a partir dos resultados obtidos no processo de revisão. O analista deve decidir se o projeto de modelagem, aplicação e avaliação deve ser nalizado e poderá seguir para a divulgação ou deve recomeçar o processo a partir de determinada fase. As ações a serem tomadas serão baseadas em reuniões com o analista e o especialista do negócio. Ambos devem tomar a decisão de concluir o processo ou avaliar pontos que não foram inteiramente atendidos. O documento deve listar as ações e as decisões que organizaram a execução das ações planejadas. 2.6.6 Divulgação Após a etapa de avaliação devemos executar a etapa de divulgação do modelo construído. A etapa de divulgação trata de tarefas de adequação do conhecimento obtido pela aplicação do modelo aos usuários, planos de implantação e manutenção do sistema. Geralmente o conhecimento obtido é embutido em sistema e processos já existentes em empresas. O método de visualização e divulgação do modelo construído pode ser experimentado através de relatórios, grácos, sistemas de visualização ou através do uso de sistemas que o utilizem como conhecimento adquirido no seu funcionamento. Lembrando que instâncias são caracterizações dos atributos presentes no conjunto de dados, ou seja, um conjunto nito de valores dos atributos, onde cada atributo pode estar presente no conjunto uma única vez. Os sistemas de apoio a decisão, sistemas de recomendação de produtos e documentos, personalização de sites e sistemas são softwares que utilizam um conhecimento gerado por modelos inteligentes. 2.6.6.1 Plano de Divulgação O plano de divulgação é um documento que deve ser descrito para servir de guia de implantação e manuntenção do modelo preditivo. O plano deve conter as estratégias de divulgação e as ações que devem ser executadas para que o método seja concluído. Questões como a visualização, detalhes relacionados ao uso, como direitos e deveres e acesso aos equipamentos utilizados. A visualização do método pode ser feita através de grácos, relatórios, mapas, regras ou embutidos em sistemas de apoio a decisão. Além das ações para a divulgação, o plano deve conter questões relacionadas a manutenção do modelo construído. 52 2.6.6.2 Relatório Final O relatório deve conter informações sobre ações que deram certas ou erradas, os resultados alcançados e o que deve ser melhorado. As melhorias levantadas não devem inteferir positivamente no modelo preditivo, pois elas já deveriam ter sido realizadas na revisão do processo de construção do modelo. As melhorias apontadas no relatório são relacionadas a questões como segurança, usabilidade, assessibilidade do modelo e feedback dos usuários. O relatório nal será um documento de experiências obtidas ao decorrer de todo o processo. O processo metodológico é composto de muitas decisões e ações que leva a analistas experientes a viver situações nunca vividas. Cada membro deve escrever as experiências, citando as ações, estratégias, o modo de pensar e agir desenvolvido na tarefa realizada. Deve ser marcado uma reunião geral para apresentar o modelo construído. Nesta reunião deve estar presente todos os envolvidos no projeto e interessados. A apresentação deve citar os pontos discussados no relatório nal, para que todos os presentes estejam a parte dos resultados alcançados e de todo o processo vivido na construção do modelo. As próximas seções irão apresentar alguns conceitos referentes ao entendimento da Região Metropolitana de Fortaleza (RMF). Os dados desta região foram utilizados para validar o processo de mineração de dados proposto neste trabalho. 2.7 Região Metropolitana de Fortaleza A Região Metropolitana de Fortaleza (RMF) foi instituída e denida por força legal pela Lei Complementar nº 14 de 1973. A institucionalização da região deu-se antes da manifestação do processo de metropolização. Atualmente a RMF é composta por 13 muni- cípios: Fortaleza, Caucaia, Maranquape, Pacatuba, Aquiraz, Eusébio, Guaiúba, Itaitinga, Maracanaú, Horizonte, Pacajús, Chorozinho e São Gonçalo do Amarante. No início, a RMF era constituída pelos municípios de Fortaleza, Caucaia, Maranquape, Pacatuba e Aquiraz. Os municípios de Eusébio, Guaiúba, Itaitinga e Maracanaú foram adicionados a RMF devido aos desmembramentos ocorridos apartir da emancipação dos municípios citados. A Lei 12.989 de 29 de dezembro de 1999, adicionou a RMF os municípios de Horizonte, Pacajús, Choroziho e São Gonçalo do Amarante. Fortaleza é a quarta maior cidade brasileira em termos de população e comanda a sexta maior região metropolitana, totalizando uma população de 2.141.402 habitantes no ano de 2000, 71,74% da população da RMF (ESTATISTICA, 2010). A RMF concentra 53,4% da população urbana do Estado do Ceará, sendo Fortaleza responsável por 46,5% deste total. O crescimento geométrico da RMF no período intercensitário 1991/2000, foi da ordem de 2,4% ao ano. A Tabela 3 exibe a evolução populacional de Fortaleza nos anos de 1980 a 2001. Fortaleza registrou uma queda no crescimento populacional comparado a década passada, passando de 4,3% para 2,15% ao ano. Já os municípios de Horizonte (7,1%), 53 Figura 5: Região Metropolitana de Fortaleza Eusébio (4,9%), Caucaia (4,7%), Pacajus (3,7%) e Aquiraz (3%) tiveram crescimento superior ao da capital. Os município de Maranguape (2,3%) e São Gonçalo do Amarante (2,2%) obtiveram crescimento aproximado ao da capital. Tiveram crescimento inferior ao de Fortaleza, Chorozinho (2,1%), Maracanaú (1,5%) e Guaiúba (1,4%). Pacatuba teve um crescimento negativo (-1,7%) devido a emancipação do Distrito de Itaitinga que anteriormente lhe pertencia. Alguns pesquisadores atribuem a diminuição no crescimento do município de Fortaleza a valorização do solo urbano e a especulação imobiliária que afasta a população de baixa renda aos municípios vizinhos; a criação de conjuntos habitacionais no entorno do município pelo governo e a realocalização das indústrias na para novas localidades (PEQUENO, 2009). RMF que atraiu a população 54 Tabela 3: População de Fortaleza de 1980 a 2001 Anos População 1890 40.902 1900 48.369 1920 78.536 1940 180.185 1950 270.169 1960 514.813 1970 857.980 1980 1.308.919 1991 1.768.637 1996 1.965.513 2001 2.141.402 55 3 Trabalhos Relacionados O governo e principalmente a população, estão preocupados com o aumento considerável da violência. Ferramentas para o combate e prevenção de acontecimentos de novos crimes são de grande necessidade para a força policial. A análise do grande volume de dados gerado pelos crimes é de extrema complexidade. Essa complexidade decorre das características dos dados envolvidos, das diversas fontes a serem analisadas e da identicação das relações relevantes entre os dados. Ferramentas computacionais tem um papel considerável no combate ao crime, pois espera-se que seja uma ferramenta que facilite o acesso, a análise e a descoberta de conhecimento presente nos dados criminais (CHEN et al., 2003, 2004; JIE et al., 2004; MCCUE, 2006). Na literatura podemos encontrar diversas aplicações de ferramentas computacionais no âmbito da criminalidade (THONGTAE; SRISUK, 2008). Aplicações como: Extração de Entidades: Utilizada principalmente para extrair, automaticamente, nomes de pessoas, endereços, veículos de relatórios policiais, facilitando a análise das entidades e fornecimento de dados para outras taredas (CHAU; XU; CHEN, 2002); Clusterização: Geralmente utilizada para associar diferentes objetos nos registros criminais, encontrando relações entre os objetos encontrados (HAUCK et al., 2002); Detecção de Desvio: Vem sendo aplicado em detecção de fraudes, detecção de invasão de redes e outros crimes envolvendo ações anormais; Classicação: Tem sido usado na identicação de spams (mensagem não solicitada, enviada em massa) (VEL et al., 2001); Comparação de Strings: Vem sendo usado na detecção de informações errôneas dadas pelos acusados em interrogatório (WANG; CHEN; ATABAKHSH, 2004); Análise de Redes Sociais: Tem sido utilizada para analisar o comportamento dos criminosos e associações entre as entidades criminais (CHEN et al., 2003); Regras de Associação: Utilizando para encontrar relacionamentos entre crimes e criminosos (SOARES, 2009); GIS: Utilizado como ferramenta de visualização de dados. Fornece meios para ma- peamento de crimes, ocorrências, facilitando a localização, planejamento e ação das 56 forças policiais e de atendimento médico (CANTER, 1993; COHEN; GORR; OLLIGSCHLAEGER, 1993). 3.1 Clusterização de Crimes O avanço da violência nos últimos tempos, levou vários pesquisadores a fazerem diversas perguntas como: Onde o crime ocorre? Porque ele ocorre lá? Quais informações interessantes podem ser geradas a partir da localização, padrões e tendências? Quais as áreas e vizinhaças têm o risco maior? a ecácia no combate ao crime? Existem ferramentas que facilitem e aumentem Todas essas perguntas podem ser respondidas com o uso de técnicas de clusterização de crimes, principalmente crimes com atributos espaciais. Clusterizar crimes é organizar os crimes em relação a suas semelhanças, onde um grupo (cluster) com crimes são mais semelhantes entre si do que os crimes pertencentes aos outros grupos (clusters). Técnicas de clusterização unidas com os softwares do tipo GIS podem gerar in- formações relevantes utilizando dados espaciais (BROWN, 1998b). Mapas podem ser utilizados para identicas áreas com crimes idênticos, áreas com altos riscos e análise de áreas com alta concentração de crimes. A marcação de crimes em mapas é importante pois fornece um meio fácil e rápido para analisar cada crime, visualizando seus diversos atributos e identicando padrões, tendências ou causas para um determinado tipo de crime. O uso de marcação de crimes em mapas é conhecido como crime mapping. Azimi e Delavar (2007) aplica um clusterização para a localização de hot spot. Os autores utilizam uma técnica de diversas camadas (layers ) e medem a distância de cada objeto a cada crime. multiespectral. Depois eles reunem todos as camadas e constroem uma imagem Com essa imagem, eles fazem uma clusterização utilizando o k-means com 3 classes (alta, média e baixa incidência). Na gura 6 podemos ver o resultado da clusterização em uma área da cidade de Tehran no Iran. A clusterização de crimes também pode ser utilizada para o levantamento de evidências importantes (NATH, 2006). Para cada crime pertecente ao mesmo grupo, é possível levantar alguma evidência crucial, comum a todos os crimes. Podemos ainda levantar alguma evidência não encontrada em um outro crime do mesmo grupo. Esta evidência pode ser vital para a resolução dos crimes, pois pode ter sido um erro cometido pelo criminoso. O recolhimento dessas evidências não foram possíveis devido a diversas cincurstâncias. Nath (2006) utilizou o K-Means modicado para fazer o seu agrupamento. A modicação feita foi na abordagem da importância de cada atributo. Foram utilizados pesos, aplicados dinamicamente, para os atributos considerados mais importantes para o estudo do crime em questão. 57 Figura 6: Clusterização de uma área da cidade de Tehran identicando regiões de baixa, média e alta incidência de crimes. 3.2 Identicação de Redes de Criminosos e Crimes Geralmente os criminosos formam grupos, desenvolvendo redes de contatos. Usualmente, cada grupo contém um membro chave que coordena as atividades do grupo, sendo a peça principal da organização criminosa. Além das relações intra-grupos, também podemos observar relações entre grupos. Estas relações são estudas, pois através delas, podemos identicar as propriedades de grupos parecidos e inter-relacionados. Através destas relações, podemos identicar a forma que os grupos se comunicam, tipos de negócios e áreas de atuação. Diversos estudos foram, e estão sendo, desenvolvidos para a identicação de redes de criminosos e atribuição de crimes a determinadas acusados. Jie et al. (2004) desenvolve uma série de aplicações utilizando algoritmos de aprendizagem de máquina. Dentre as aplicações discutidas, o autor apresenta uma que é capaz de identicar sub-grupos e membros chaves nas redes de criminosos analisadas. O autor usa uma abordagem de espaço de conceito para extrair as relações entre os criminosos para assim poder montar a rede. Para cada ligação entre dois criminosos era atribuído um peso que mede a frequência que ambos aparecem no mesmo incidente. Além de medir a relações, o autor aplicou agrupamento hieráquico para identicar os subgrupos de criminosos, e uma abordagem baseada na modelagem de blocos para encontrar padrões de relações entre grupos. O autor ainda aplica medidas de centralidade para identicar membros chaves em cada grupo, como líderes de guangues. A Figura 3.2 exibe um exemplo de uma rede de criminosos e a Figura 8 exibe a identicação de membros chaves de sub-grupos criminais e sua relações. O tamanho dos círculos vistos na Figura 8 é proporcional ao números de membros daquele sub-grupo. 58 Figura 7: Exibe um exemplo de uma rede de criminosos identicada utilizando algoritmos de aprendizagem de máquina Figura 8: Exibe um exemplo de identicação dos membros chaves de sub-grupos criminal e suas relações 3.3 Mineração de Relatórios Policiais Analisar dados presentes em base de dados estruturada é uma tarefa mais trivial do que analisar textos sem estrutura, isso devido aos campos já pré-denidos na estrutura da base. Além das muitas informações criminais estarem presentes em base de dados, 59 também estão presentes em relatórios policiais. Extrair informações relevante de dados não estruturados através de métodos automatizados não é uma tarefa fácil, devido principalmente a erros linguísticos e características da linguagem natural. Erros linguísticos como palavras escritas em caixa alta, erros gramaticais e de concordância (ETZIONI et al., 2005). Além da identicação de redes de criminosos, Jie et al. (2004) utilizou um algoritmo de extração de entidades que usa um processo de três passos para identicar nomes de pessoas, locais e organizações no relatório policial. O sistema desenvolvido foi comparado a outros sistemas e em média conseguiu melhor performance. O sistema foi treinado para identicar nomes de pessoas, endereços, veículos, nomes de narcóticos e características físicas. O sistema obteve um resultado de 74,1% na identicação de nomes de pessoas, 85,4% em nomes de narcóticos, 59,6% em endereços e 46,8% em características pessoais. Nomes de veículos não foram analisados porque os 36 relatórios utilizados para treinamento tinham apenas 4 referências a veículos. 3.4 Associação e Comparação de Crimes Um grande número de crimes são realizados em grupo. Geralmente, a maioria dos grupos têm elementos chaves, e não mais aquela gura central, onde todos os integrantes obedecem. Uma das grandes questões enfrentadas diariamente pela força policial é saber se um determinado crime pertence a uma rede de crime organizada ou é apenas um fato isolado (ADDERLEY, 2004; BROWN, 1998b). Outra questão interessante é saber a seriedade ou o risco de outras atividades criminais estarem acontecendo na região através de um determinado crime (ALBANESE, 2001). Albanese (2001) arma que existe três modos de se obter informações da maioria dos crimes: dos criminosos, das vítimas e das agências policiais. Através destas três fontes de informações é possível fazer uma ligação entre um crime isolado e o crime organizado. As agências policiais utilizam diversas ferramentas para retirar informações sobre a rede criminal. Geralmente utilizam os próprios acusados, na maioria das vezes não são fontes conáveis, pois mentem frequentemente. Muitos criminosos tornam-se informantes da polícia em troca de proteção, diminuição do tempo de reclusão ou ressentimento em ter causado alguns males a sociedade. O trabalho dos informantes é essencial para o desempenho das investigações policiais, pois uma boa informação pode diminuir vários meses de trabalho policial. Na área do crime organizado é muito complicado colocar policiais inltrados, pois demora-se muito tempo para que o policial ganhe a conança do grupo criminoso. O perigo relacionado a descoberta da identidade do policial também faz da investigação um grande risco. Os pesquisadores além de obter informações valiosas dos acusados e vítimas, podem obtê-las também através dos relatórios policiais. Relatórios policiais são uma grande fonte de informações sobre onde, a que horas e, como o crime foi cometido. Alguns países colocam em seus relatórios campos relacionados a ligação do crime cometido a 60 crimes organizados. 3.5 Predição de Crimes Gorr e Harries (2003) apresentam um survey de 6 artigos, onde dois falam da problemática em predizer crimes em pequenas áreas (GORR; OLLIGSCHLAEGER; THOMPSON, 2003; FELSON; POULSEN, 2003). Ambos artigos concluem que quanto menor a área, maior será o erro da predição. Gorr, Olligschlaeger e Thompson (2003) contrasta o uso de modelos de predição usando modelos de séries temporais univariadas e métodos usados pela polícia americana (método Naïve). Eles obtiveram como resultado que, para um método ter uma acurácia com 20% de erro, a quantidade de crimes em uma determinada área deve ser igual ou superior a 30 crimes, e que qualquer método baseado na predição é mais preciso do que as práticas utilizadas pela polícia. Análise de sobrevivência já foi usado pra predizer crimes, onde Oatley, Zeleznikow e Ewart (2005) a utilizou para prever arrobamentos de residência. A análise de sobre- vivência calcula o tempo provável de que o crime aconteça, isto é, ele calcula o tempo de sobrevivência do objeto (HOSMER; LEMESHOW; MAY, 2008). Para fazer a predição foram usados dados relativos a uso de força, comportamento de procura na casa, tipo de residência, lugar de entrada e saída e uso de método falso de entrada. Redes Baysianas (JENSEN, 1996; OATLEY; ZELEZNIKOW; EWART, 2005) foi um outro método utilizado para a predição da revitimização da residência. Para este método foi utilizado dados relativos a: histórico de crimes, concentração dos crimes, objeto roubado e atributos do modus operandi. Algoritmos de aprendizagem de máquina como Redes Neurais foram utilizados no trabalho de Olligschlaeger (1997) para predizer crimes. A visualização da predição é feita através de superfícies coloridas que signicam a probabilidade de ter um alto número de chamadas ao 911 (número de chamadas de emergência nos Estados Unidos). Os tipos de crimes utilizados no artigo foram referentes ao tráco de drogas. Os riscos de ter um homicídio pode ser inferido a partir de algoritmos Geoestatísticos (CAMARGO et al., 2008). A cada sub-área estudada pelo pesquisador, foi denida uma variável aleatória que representa a taxa de homicídio Z, e a partir de Z, podemos inferir o risco de ser assassinado em determinada sub-área. O trabalho de Albanese (2001) apresenta uma ferramenta para avaliação de risco de crimes. Para fazer a avaliação de risco ele utiliza 17 variáveis preditoras: 4 de fatores econômicos, 3 governamentais, 4 relativos criminalidade, 2 de mudanças sociais e tecnológicas, 3 de habilidades especiais ou do ambiente criminal e 1 de potenciais danos. O autor acredita que essas seis categorias de fatores são os mais favoráveis para modelar ou afetar o crime organizado. A aplicação da ferramenta é aconselhável para pequenas juridições ou pequenas cidades, pois a variação da criminalidade e, principalmente, dos atributos de explicação variam pouco. Como caso de estudo, ele utilizou o crime organizado que atua no mercado de contrabando de cigarros. Este crime movimenta milhões de dólares, 61 acontece dentro, e entre vários países, e envolve diferentes grupos criminais. O autor não fala precisamente como a ferramenta de análise de risco funciona ou quais os resultados encontrados no uso da sua ferramenta. Berk (2008) fala da aplicação de métodos probabilísticos e estatíscos na previsão de crimes. O artigo também apresenta um tabela com trabalhos, em ordem cronoló- gica, com a aplicação de técnicas como correlação bivariada (BURGESS, 1928), tabelas de contigências (GLUECK; GLUECK, 1930), testes de hipóteses (REISS, 1951), agrupamento hierárquico (GLASER, 1962), regressão múltipla (BABST; GOTTFREDSON; BALLARD, 1968), simulação computacional (BLUMSTEIN; LARSON, 1969), modelos equacionais de estrutura dinâmica (BERK et al., 1983), regressão de séries temporais (COHEN; LAND, 1987), análise de sobrevivência (SCHMIDT; WITTE, 1988), regressão logística (SORENSER; PILGRIM, 2000), métodos microsimulados (AUSTIN; NARO; FABELO, 2007), aprendizado esta- tístico (BERK; KRIEGLER; BAEK, 2006) e regressão Cox (KLEIMAN; OSTROM; CHEEMAN, 2007). Novos métodos também foram propostos utilizando a criminalidade como estudo de caso. Brown e Liu (1999) apresenta um novo modelo de predição utilizando superfícies probabilísticas para exibir áreas que terão futuros crimes. A predição é feita a partir da teoria dos pontos, onde cada ponto tem atributos, como a presença de força policial, distância para uma rodovia, presença de casas com altos valores guardados ou casas sem segurança. Para descobrir os melhores atributos, foi feito um agrupamento proposto em Brown (1998a). Os atributos ltrados pelo método foram a densidade familiar por bloco, gastos com saúde por família por bloco e a distância a rodovia mais próxima. Para a visualização da predição, as áreas mais criminosas foram coloridas em tons de cinza e para a determinação dos tons foi utilizada uma abordagem baseada na estimação de densidade. A violência doméstica também já foi estudada por Berk, He e Sorenson (2005) utilizando métodos preditivos. O autor faz uma discussão dos falsos positivos e negativos para o contexto da violência doméstica. Ele acaba cocluindo que é melhor termos falsos positivos do que negativos, pois é mais custoso para o sistema não informar que uma família vai sofrer uma violência, do que fazer uma predição errada. Foram utilizados árvores de classicação e de regressão como algoritmos de predição. Goodman (1953a, 1953b) emfatiza que se deve medir a ecácia de um método preditivo não apenas pelos seus resultados, mas também pelos custos sociais causados pelos erros. Erros causados por ferramentas preditivas podem ser desvantagosas para a sociedade, pois podem trazer ações errôneas e custos desnecessários. Erros podem fazer com que o contigente policial esteja em locais que não são tão perigosos, causando a sensação de desconforto por parte dos moradores. A concentração da força policial em determinado lugar errôneo faz com que áreas que realmente precisam de reforço estejam desprotegidas, facilitando a ação dos criminosos. Novos algoritmos para o estudo da criminalidade estão sendo desenvolvidos a todo momento. Um modelo híbrido de self-organization maps (SOM) e Fuzzy foi desenvolvido 62 por Li et al. (2006). Este método foi desenvolvido pois o modelo SOM não trabalha muito bem com variáveis linguísticas. O autor utilizou um conjunto de dados com vários crimes entre o período dos anos de 2003 a 2004. Como caso de uso, ele mapeou a cidade com áreas de diversas cores de acordo com a presença da violência. As cores são, vermelho, amarelo, roxo, verde e azul, que signicam respectivamente: muito ruim, ruim, intermediário, bom e muito bom. Coloração de mapas também foi usada no trabalho de Mitchell, Brown e Conklin (2007). O autor implementa uma ferramenta para a previsão de crimes utilizando um Modelo de Escolha Discreta espacial (DCM) que leva em conta atributos da localidade e preferências dos criminosos. O autor utilizou dados demográcos, de distância e criminal. Os dados demográcos incluem detalhes sobre a população como, casa por milha quadrada ou renda per capita, e os dados de distância foram: a distância a pontos especícos, como estradas ou pontos de relevância . Os dados criminais foram a latitude a longitude e o tipo do crime entre Maio e Julho de 2006. Os dados foram agrupados por tipo de crime, e dentre de cada sub-grupo, foi agrupado por mês. A saída do algoritmo é exibida através de uma superfície, onde sombras ou coloração exibe a probabilidade de um futuro crime acontecer na determinada área. 3.6 Recuperação de Informações da Área Criminal Crimes são objetos de estudo complexos. Além das características relativas ao crime, temos características do meio, do autor e vítima, dos meios de divulgação e da questão sócio-econômica. Todas as informações que podem ser levantadas podem ser a chave para a resolução de um crime. Entretando, esta tarefa se torna árdua devido ao grande volume de dados e, principalmente, as diversas fontes de dados distintas. Assim, a investigação de um crime deve relacionar, identicar e compreender estas relações entre os dados. O sucesso do processo de investigação irá depender, pricinpalmente da identicação dos dados distintos e suas relações complexas (BARTH et al., 2007). A investigação criminal deve buscar identicar elementos associados, relações entre fatos conexos e construir modelos de informação sintetizada, possibilitando a compreensão da ocorrência como um todo, e de cada parte. Barth et al. (2007) criou um protótipo de um sistema para recuperação de informação projetado para processar fontes de informação estruturada e não-estruturadas públicas ou privadas. Uma consulta é feita nestas fontes, onde os termos da consulta são confrontados com uma ontologia de domínio. Os documentos recuperados são submetidos a algoritmos de agrupamento hierárquico, onde é possível identicar entidades nomeadas. No referido trabalho foi salientado a importância de fazer uma análise qualitativa e quantitativa do sistema proposto. A análise qualitativa foi feita baseada em: vericar se o sistema agrega valor ao processo de investigação; identicar as mudanças a serem feitas no sistema para uma melhor adequação ao 63 processo investigativo; A análise quantitativa analisou os seguintes pontos: avaliar o índice de precisão (Número de documentos relevantes recuperados / Número de documentos recuperados); avaliar o índice de recuperação (Número de documentos relevantes recuperados / Número de documentos relevantes); vericar a qualidade do modelo e do algoritmo para identicação de entidades implementado; mensurar o tempo de cálculo do algoritmo de agrupamento hierárquico; Todos os trabalhos listados neste capítulo tem suas relevâncias no trabalho desenvolvido. Os trabalhos relacionados foram de grande valia para a concepção e comparação entre o processo proposto neste trabalho e os conceitos, abordagens presentes nos trabalhos relacionados. O processo proposto faz referências aos diversos trabalhos e apresenta contribuições a falhas encontradas. Contribuições estas como a proposta de um processo especíco para a predição de níveis criminais utilizando dados sócio-econômicos e criminais, concepção de um método de visualização das predições feitas, incluindo a detecção de tendências. Denição de tarefas especícas para o processo de descoberta de informações relevantes em dados sócio-econômicos e criminais com o objetivo de prever qual o nível criminal a partir de valores presentes nos dados ou dados como entrada pelo usuário. 64 4 Processo de Mineração de Dados para Predição de Níveis Criminais Um processo ecaz é composto de tarefas e sub-tarefas importantes para que os objetivos planejados sejam alcançados com sucesso. A não realização ou imprudência na execução destas tarefas podem comprometer todo o processo, acarretando em custos e trabalho adicionais. Podemos citar como tarefas clássicas de um processo de mineração o pré-processamento, a aplicação do algoritmo de aprendizagem e o pós-processamento dos resultados alcançados. Tarefas como o entedimento do negócio, coleta e análise dos dados, avaliação do modelo desenvolvido, visualização das predições e divulgação do método preditivo serão discutidas no nosso processo. Este capítulo apresenta um processo de mineração de dados para a construção de um modelo preditor de níveis criminais de áreas geográcas. A abordagem proposta servirá como um guia para a construção de um sistema produtor e contém tarefas que devem ser executadas em uma ordem pré-denida. O processo propõe que devem ser utilizados dados sociais, econômicos e criminais, pois a criminalidade é um fenômeno que tem causas em todos esses âmbitos. A denição destes tipos de dados foi baseada nas características do fenômeno criminal observada na literatura. A abordagem trata de tarefas de mineração clássicas e outras especícas do processo, como procedimentos especícos para a predição de crimes utilizando dados brasileiros. Questões como a visualização das predições e coleta e análise dos dados serão discutidas com mais atenção pela sua importância no processo desenvolvido. Na literatura existem outros processos que podem ser aplicados no problema da criminalidade atacado pelo nosso trabalho. Dentre os diversos processos existentes podemos citar o CRISP-DM (SHEARER, 2000; WIRTH; HIPP, 2000). A desvantagem em usar o CRISP-DM ou outros processos é que os mesmos são muito generalistas, gerando assim espaço para dúvidas pelo analista. Processos generalistas são adequados para qualquer projeto de mineração de dados. Sendo assim contém passos e tarefas abstratas, sem levar em conta problemas especícos do projeto de mineração, problema a ser solucionado ou problemas especícos da execução do projeto. O uso do processo proposto neste trabalho fornece os passos necessários para a execução do projeto do começo ao m, fornecendo tarefas e funções especícas para o problema atacado. O processo proposto é uma especialização com modicações do 65 processo CRISP-DM. O processo relatado neste trabalho segue os princípios básicos estipulados no CRISP-DM com modicações necessárias devido a problemática do projeto a ser executado e ao problema de predição de níveis criminais em áreas geográcas. A criação de um novo processo preditivo deve ser desenvolvido para facilitar a tarefa de mineração de dados, especicamente o problema de predição de níveis criminais de áreas geográcas. O processo será tratado de forma clara e objetiva, explicando todos os passos de modo a dar agilidade e segurança nos resultados a serem alcançados. A Figura 9 exibe as tarefas que devem ser executadas e a sua devida ordem. Figura 9: Representação do Processo Proposto 4.1 Estrutura do Processo O processo é composto por 6 fases que deverão ser executadas corretamente para que o sistema preditivo seja desenvolvido, validado e divulgado. Assim, o produto da execução do processo denido em nosso trabalho será um sistema preditivo usável e conável. As 6 fases são: Entendimento do Negócio, Coleta e Análise dos Dados, Pré-Processamento, Modelagem, Avaliação e Divulgação. A execução das fases não é exclusivamente executada de forma sequencial, isto é, é possível retornar a fases já executadas com o objetivo de melhorar o processo. A fase de Entendimento do Negócio trata de questões sobre a natureza do problema, caracterizando o negócio e levantando os objetivos e soluções. Já a fase de Coleta e Análise dos Dados é composta de tarefas para a coleta dos dados identicados para serem utilizados no projeto e a sua devida análise. Análise esta que deve levantar algumas informações gerais sobre os dados e conrmar algumas hipóteses inicialmente formuladas. Se porventura a fase de Coleta e Análise dos Dados apresente valores avaliativos inexpres- 66 sivos ou os dados não apresentam informações interessantes, a fase de Entendimento do Negócio deverá ser revisitada. O Pré-Processamento consiste de tarefas de otimização dos dados utilizados. Tarefas como a limpeza, transformação e seleção dos dados. A fase de Modelagem é res- ponsável pela avaliação e denição do algoritmo de aprendizagem de máquina que deverá ser utilizado para fornecer as respostas solicitadas na fase de entendimento do negócio. Caso o algoritmo denido imponha certas restrições nos dados, os mesmos devem ser préprocessados novamente, isto é, a fase de Pré-processamento deverá ser executada quantas vezes forem necessárias. A fase de Avaliação contém tarefas que irão informar se os resultados obtidos são satisfatórios de acordo com as restrições identicadas na fase de Entedimento de Negócio. Caso os resultados obtidos apresentem informações inexpressivas, todo o processo deve ser refeito, pois algum problema não foi identicado em alguma das fases anteriores. A última fase, a fase de Divulgação trata da socialização, treinamento e manutenção da ferramenta desenvolvida. A Figura 9 apresenta as fases do processo proposto e a sequencia de execução. 4.2 Entendimento do Negócio Diversos pesquisadores trabalham com a criminalidade tentando identicar as causas e tendências. Contudo, os crimes vêm aumentando gradativamente ao longo dos anos. Este fenômeno tem características sociais (saúde, educação, mobilidade, moradia) e econômicas, onde o desenvolvimento, denição e construção de ferramentas de combate ao crime, investimentos em educação, saúde e moradia geram um grande custo aos cofres públicos. A construção de ferramentas computacionais que auxiliem no combate ao crime de forma ecaz trará benefícios sociais, quanto econômicos a sociedade brasileira. Fer- ramentas computacionais têm um grande papel na sociedade moderna, na qual existe ferramentas para otimizar e facilitar tarefas realizadas por seres humanos. O desenvolvimento de ferramentas para o combate ao crime é de grande importância, pois proverá agilidade no entendimento e combate ao crime. Para a fase do entendimento do negócio, a criminalidade da região a ser estudada deve ser cuidadosamente avaliada e compreendida. De acordo com a literatura levantanda não devem ser apenas consideradas características criminais, mas também características sociais, demográcas e econômicas. É essencial levantar pequenos detalhes como data, hora, local do acontecimento dos crimes e tipo de crime cometido. Além de levantar dados relativos aos crimes cometidos, é importante coletar dados sociais da região como densidade populacional, analfabetismo, índices de qualidade de vida, esporte e cultura, números de pessoas diferenciados pelo sexo e idade. Dados econômicos como o PIB da região, média de salários, quantidade de pessoas empregadas e número de casas próprias. Lembramos que os dados sócio-econômicos devem ser coletados e avaliados pois o processo 67 proposto os necessita para o seu correto uso. 4.2.1 Determinação dos Objetivos de Negócio a Serem Alcançados O processo inicia nos anseios do usuário. As necessidades serão adquiridas através de entrevistas e reuniões, onde serão transformadas em tarefas que podem ser executadas por algoritmos de aprendizagem de máquina. O analista deve levantar as necessidades e os requisitos, escolhendo os fatos mais importantes para a construção do modelo preditivo. Os objetivos concebidos após o levantamento feito no entendimento do negócio são (o usuário deve levar em conta que estes objetivos são apenas recomendações e que o mesmo pode denir outros mais): 1. Predizer a periculosidade de áreas geográcas a partir de dados sociais, econômicos e criminais; 2. Utilizar o modelo preditivo para melhorar a alocação de recursos policiais; 3. Aumentar as políticas sociais em áreas com periculosidade acima do esperado, baseado nos resultados do projeto; 4. Facilitar a decisão do administrador em segurança em otimizar o policiamento em áreas especícas; 5. Construir um modelo de fácil uso, que exiba informações de grande relevância no combate a criminalidade; 4.2.2 Requisitos do Projeto Todas as especicações relacionadas ao desenvolvimento do projeto devem ser detalhadas nesta etapa. Detalhes relativos ao processo de concepção, criação e divulgação do modelo preditivo. Recomendamos que as áreas geográcas utilizadas para delimitar os crimes serão espaços geográcos conhecidos como AED. AED é um acrônimo para Área de Expansão de Dados, ou seja, áreas de ponderação para denição de amostra baseada na densidade demográca. As AEDs foram denidas pelo IBGE e podem ser composta por um ou mais bairros de um município, pois sua delimitação é baseada pelo número populacional. As predições obtidas devem ser visualizadas através de grácos, informando a conança do sistema em armar tal nível da área consultada. O sistema não irá apenas armar qual o nível ciminal, mas também a conança que ele tem na predição realizada em determinado exemplo. Exibir a conança do modelo foi necessária pois uma consulta (instância) pode ter características de mais de um nível, podendo estar no limiar entre dois níveis criminais. 68 Os níveis criminais de cada Muito Baixo; Baixo; Médio Alto; Muito Alto; AED devem ser dividida em 5: Recomendamos que seja avaliados diferentes ferramentas para o desenvolvimento do projeto, dentre diversas, propomos 3: Weka (WAIKATO, 2010; GARNER, 1995), SPSS Modeler (SPSS, 2010) e Joone (TEAM, 2010). Waikato Environment for Knowledge Analy- sis (Weka) é uma suíte de ferramentas open-source para Mineração de Dados desenvolvida na Universidade de Waikato (Nova Zelândia). A suíte fornece ferramentas para a coleta, pré-processamento, modelagem e visualização dos resultados dos modelos a serem construídos. Assim como o Weka, o Modeler desenvolvido pela SPSS é uma suíte para a resolução de problemas utilizando mineração de dados. O Modeler é um software proprietário, utilizado por diversas empresas para diferentes usos. Já o Joone é um framework open-source para a modelagem e execução de Redes Neurais. Desenvolvido utilizando a linguagem de programação Java, totalmente extensível para uso em projetos que queiram o utilizar. Após avaliar cada ferramenta independetemente, aconselhamos a utilização da suíte Weka após perceber suas vantagens e desvantagens em comparação a todas as ferramentas analisadas. Todas as ferramentas analisadas são boas, mas o Weka mostrou mais vantagens entre seus concorrentes por ser open-source, isto é, seu uso é gratuito; e por disponibilizar diferentes algoritmos de aprendizagem de máquina, além de suprir todos os requisitos que o processo demanda. Poderemos utilizar a ferramenta dentro da implementação do projeto, guiado pelo processo, pois o mesmo é acessível através de código Java. Além de identicar os requisitos de sucesso do projeto, devemos identicar os riscos que poderão inviabilizar ou atrasá-lo. Os riscos identicados são: Proibição ou atraso na disponibilização dos dados; Problemas referentes ao aprendizado e uso da ferramenta de modelagem escolhida (Treinamento, Documentação, Facilidade no Uso); Precisão do método abaixo do previsto, taxa de acerto inferior a 70%. Taxa de acerto recomendada a partir da leitura de outros artigos e do aumento de precisão dado pelo uso do método do que usando nenhum sistema de predição (ADDERLEY, 2004; ALBANESE, 2001; THONGTAE; SRISUK, 2008). Nenhum prossional foi consultado para a denição desta taxa e seu valor foi justicado após a execução do estudo de caso; Descoberta de informações irrelevantes; 69 4.2.3 Objetivos Técnicos a Serem Alcançados Objetivos de negócio são aqueles inerentes a detalhes que o especialista no negócio pode explanar. Por exemplo: Quantos assassinatos irão ocorrer no próximo mês?, Qual área sofrerá mais assaltos a veículos?. Esses objetivos devem ser traduzidos para objetivos técnicos pelo analista de dados. O analista deve identicar cada objetivo e traduzi-los em um formato que o algoritmo de aprendizagem possa trabalhar. Por exemplo: Realizar uma regressão numérica na quantidade de assassinatos baseado no local e data nos últimos 2 anos; ou Classicar cada região demográca a partir dos assaltos a veículos nos últimos 2 anos baseados no tempo, características econômicas do veículo e local onde ocorreu o ato criminoso;. Também devem ser tratadas nesta sub-tarefa questões como a precisão que o modelo deve conseguir ou a forma que os usuários irão visualizar as predições realizadas. O processo deve focar na predição do nivel criminal de áreas geográcas de municípios brasileiros. O método a ser construído terá como tarefa a determinação de um nível criminal para área a ser analisada, ou seja, uma tarefa de classicação ou de aprendizado de conceito. O método deve ter um erro médio de 30%, utilizando os dados limpos, transformados e pré-selecionados. Este erro é razoável tratando-se da complexidade da atividade envolvida, a determinação de níveis criminais. A visualização dos resultados deverá ser feita através de relatórios, que serão utilizadas como suporte para as decisões dos gestores em segurança pública. São denidos 5 níveis baseando-se na quantidade de crimes. Os graus são: muito baixo, baixo, médio, alto, muito alto. Os graus ou níveis são denidos a partir do histórico de crimes em uma determianda região baseado no tempo e tipo de crime cometido. 4.2.4 Plano de Atuação No plano de atuação devemos planejar cuidadosamente todos os passos a serem feitos para alcançar os objetivos determinados na fase do Entendimento do Negócio. A equipe deve constuir um plano com todas as informações necessárias para o bom andamento do projeto. O documento servirá como documentação estrutural, identicando os recursos, requisitos e prioridades. Poderemos através dele avaliar o andamento da concepção, organização e andamento inicial do projeto. 4.3 Coleta e Análise dos Dados A análise dos dados é necessária para a criação das primeiras impressões sobre os dados, já podendo identicar algumas relações, problemas na qualidade e sub-conjuntos de atributos que podem conter informações relevantes. 70 4.3.1 Coleta dos Dados Os dados a serem utilizados na implementação do método preditivo devem ser coletados junto aos orgãos que detém as informações desejadas. Podemos citar como instituições detentoras destes dados a Secretaria de Segurança Pública, prefeituras, IBGE ou junto ao projeto Observatório das Metrópoles presentes em diversas metrópoles brasileiras. Os dados criminais coletados devem exibir atributos temporais, geográcos e criminais. Exemplos de dados: data e hora do acontecimento, rua, bairro, coordenadas ou pontos referenciais, tipo do crime, características do crime e do criminoso. Já os dados sócio-econômicos devem exibir informações sobre a educação, saúde, moradia, demograa, emprego e renda 4.3.1.1 Dados Sócio-econômicos Os dados socio-econômicos a serem levantados devem ser relativos a região demográca alvo. Recomendamos que estas informações sejam colhidas junto ao IBGE ou ao projeto Observatório das Metrópoles. As informações mais recentes sobre a sociedade e a economia brasileira foram coletadas através do Censo 2000 organizado pelo IBGE. Estas informações são relativas a moradia, educação, demograa, emprego, renda e mobilidade. Os dados são armazenados e disponibilizados em várias planinhas xls. As informações abaixo descrevem os arquivos e os dados que serão coletados e utilizados no processo. Todas as planilhas contém informações sobre o código que representa a entrada no banco de dados, AED e município e serão ocultadas para melhor organização. Educação Planilha 1- Pessoas de 18 anos e mais de idade com 11 anos ou mais de estudo. X Total de pessoas que frequentam a escola X Pessoas com 11 anos ou mais de estudo Planilha 2- Pessoas de 0 a 6 anos de idade que frequentam creche ou escola X Total de pessoas de 0 a 6 anos X Pessoas de 0 a 6 anos que frequentam a escola Planilha 3- Pessoas de 7 a 14 anos de idade que frequentam a escola X Total de pessoas de 7 a 14 anos X Pessoas de 7 a 14 anos que frequentam a escola Planilha 4- Pessoas de 15 a 17 anos de idade que frequentam a escola 71 X Total de pessoas de 15 a 17 anos X Pessoas de 15 a 17 anos que frequentam a escola Planilha 5- Pessoas de 18 a 25 anos de idade que frequentam a escola X Total de pessoas de 18 a 25 anos X Pessoas de 18 a 25 anos que frequentam a escola Planilha 6- Educação dos responsáveis pela família X Quantidade de responsáveis X Responsáveis sem instrução X Responsáveis com 11 anos ou mais de estudo Planilha 7- Pessoas com 15 anos ou mais sem instrução ou com até 3 anos de estudo X Quantidade de pessoas que frequentam a escola X Com até 3 anos de estudo Planilha 8- Pessoas com 15 anos de idade ou mais sem instrução X Quantidade de pessoas que frequentam a escola X Quantidade de pessoas que não sabem ler Demograa Planilha 1- População residente, área dos municípios e densidade demográca X População X Área em kilômetros X Densidade Planilha 2- Total e participação dos grupos etários no total da população dos municípios X População X População de 0-14 anos X População de 15-64 anos X População de 64 anos ou mais Emprego e Renda 72 Planilha 1- Número de famílias por faixa de renda familiar per capita X Total de Famílias X Até 1/2 salário X De 1/2 a 1 salário X De 1 a 3 salários X Acima de 3 salários Planilha 2- Número de ocupados com rendimento no trabalho principal X Total de ocupados X Homens ocupados X Mulheres ocupadas X Brancos ocupados X Não brancos ocupados X Menos de 8 anos de estudo X Mais de 8 anos de estudo Planilha 3- Rendimento médio no trabalho principal em salário mínimo X Rendimento médio X Homens X Mulheres X Brancos X Não brancos X Menos de 8 anos de estudo X Mais de 8 anos de estudo Planilha 4- População economicamente ativa e taxa de atividade por grupos de idade e sexo X População de 10 a 24 anos em idade ativa X População de 25 a 49 anos em idade ativa X População com 50 ou mais em idade ativa X Homens em idade ativa X Mulheres em idade ativa X População de 10 a 24 anos economicamente ativa X População de 25 a 49 anos economicamente ativa 73 X População com 50 ou mais economicamente ativa X Homens economicamente ativo X Mulheres economicamente ativa Moradia Planilha 1- Domicílios segundo o acesso a bens X Total de domicílios X Acesso a bens de uso difundido X Acesso a bens de média difusão X Acesso a bens de uso restrito Planilha 2- Domicílios segundo as condições de moradia X Total de domicílios X Em terreno não próprio X Sem sanitários X Inadequação por adensamento X Carência de água X Carência de iluminação X Carência de instalação sanitária X Carência na destinação do lixo urbano X Residências com até 3 cômodos X Domicílios próprios com propriedade do terreno X Domicílios próprios sem propriedade do terreno X Domicílios alugados X Outros X Abastecimento adequado de água X Escoamento sanitário adequado X Coleta adequada de lixo 4.3.1.2 Dados Criminais Os dados criminais como dito anteriormente devem ser coletados junto as instituições que os estuda no município que está sendo analisado. Algumas instituições que controlam estes dados são as secretarias de segurança ou saúde e organizações não governamentais. Após a coleta destes dados, o analista pode os organizar em uma tabela criminal. Alguns atributos listados abaixo são derivados de outros presentes na tabela criminal original. Exemplos de atributos derivados: turno, dia da semana e nível criminal. 74 Turno do dia em que o crime aconteceu. Os turnos são divididos em manhã, tarde, noite e madrugada; Dia da Semana em que crime aconteceu; Mês do acontecimento do crime; Ano que o crime aconteceu; AED onde o crime foi cometido; AED Município na qual a Crime cometido; Quantidade de crimes agrupado pelos atributos descritos acima; Nível que caracteriza a periclosidade da semana, mês, ano, AED, pertence; AED agrupado pelos atributos turno, dia da Município e Crime; 4.3.2 Exploração dos Dados Nesta fase o analista deve levantar algumas questões sobre a qualidade dos dados: vericar se os dados coletados estão coerentes com os objetivos de negócio denidos, conferir erros ou instâncias fora do padrão (outlyers ) e identicar quais os atributos que não contém valores. Denir estratégias para solução destes problemas, como atribuir valores ou utilizar algoritmos que tratam de atributos com valores faltantes. Técnicas para a solução destes problemas podem ser encontradas em Witten e Frank (2005), Klosgen e Zytkow (2002). Ao nal desta fase o analista terá uma visão geral dos dados coletados e a percepção dos problemas a serem enfrentados. 4.4 Pré-Processamento O objetivo desta fase é conceber o conjunto de dados nal que será utilizado na fase da aplicação do algoritmo de aprendizagem. No pré-processamento realizamos tarefas como a identicação de outlyers, seleção de exemplos e atributos, limpeza e transformação dos dados. 4.4.1 Transformação dos Dados Para satisfazer os objetivos do negócio, o analista deve derivar um novo atributo. Este atributo é a Área de Expansão de Dados (AED), que provavelmente não deve estar presente nos dados criminais. Os dados criminais dicilmente estarão organizados em 75 AED. Normalmente os dados são agrupados por bairros, A AED é importante para a integração das bases sócio- áreas geográcas delimitadas pelas regionais ou zonas municipais. econômicas e criminal, pois com este novo atributo, pode-se integrar as bases baseando-se em um atributo com mesmo valor semântico. Um outro atributo a ser criado na base criminal será o rótulo. Este atributo irá indicar se determinada instância pertence ao nível de periculosidade que o conjunto representa. Este novo atributo irá caracterizar a aprendizagem de conceito, pois determinará se tal instância é daquele conceito, ou seja, nosso modelo irá aproximar uma função booleana que indicará se determinada instância pertence ou não a classe que ele prediz. 4.4.2 Integração de Dados A utilização dos dados pelos algortimos de aprendizagem é facilitada se as informações estão presentes em uma única base. Devido a isto, a integração deve ser realizada caso os dados estejam em bases diferentes. Normalmente os dados que serão trabalhados na predição do nível criminal estarão em diferentes bases: criminais, sociais e econômicas. A maioria dos dados descritos na seção 4.3.1 serão utilizados na construção do modelo. Algumas informações já devem ser inicialmente excluídas por apresentarem informações irrelevantes ou de baixa qualidade. Essa exclusão deve ser feita a partir da análise prévia do analista. Supondo que os dados sócio-econômicos foram coletados junto ao IBGE, os mesmos serão cedidos através de várias planilhas. Cada planilha representa uma informação levantada no Censo, cabe ao analista escolher quais são as mais interessantes para a predição que o mesmo deseja. Para facilitar a utilização dos dados, os códigos que representam a entrada no banco de dados devem ser excluídos. As planilhas devem ser unidas, agrupadas pela AED e município presente nos dados. Sendo assim, todos os atributos descritos nas planilhas devem estar organizados por AED e município. A junção das planilhas em apenas uma base foi uma prévia integração entre os elementos de uma mesma esfera, sócio-econômica. A integração sócio-econômica e criminal deve ser feita para que os dados sejam corretamente utilizados na próxima fase do processo. Para a integração dos dados sócio-econômicos é necessário criar um atributo AED a partir do bairro ou região demográca presente na base de dados criminal. Cada bairro têm um código da AED correspondente, assim para cada instância criminal deve ter o có- AED que o crime foi cometido. O analista deve realizar esta sub-tarefa de relacionar cada bairro a sua AED correspodente. A integração de todos os dados, sócio-econômicos e criminais deve ser executado quando o relacionamento bairro AED for nalizado. Lemdigo da brando que esta tarefa é possível pela presença de um atributo comum a todas as bases, o atributo AED. Recomenda-se que a integração dos dados sócio-econômicos e criminais gere uma 76 base com 69 atributos, incluindo o atributo que indica se determinada instância pertence ao nível criminal que o modelo prediz. Os 69 atributos recomendados são: 1. Total de pessoas que frequentam a escola 2. Acesso a bens de uso difundido 3. Acesso a bens de média difusão 4. Acesso a bens de uso restrito 5. Pessoas de 15 anos e mais de idade que 6. Densidade demográca não sabem ler 7. População de 10 a 24 anos em idade ativa 8. População de 25 a 49 anos em idade ativa 9. População com 50 ou mais em idade 10. Homens em idade ativa ativa 11. Mulheres em idade ativa 12. População de 10 a 24 anos economicamente ativa 13. População de 25 a 49 anos 14. População com 50 ou mais economicamente ativa economicamente ativa 15. Homens economicamente ativo 16. Mulheres economicamente ativa 17. Pessoas de 0 a 6 anos que 18. Pessoas de 7 a 14 anos que frequentam a escola frequentam a escola 19. Pessoas de 15 a 17 anos que 20. Pessoas de 18 a 25 anos que frequentam a escola frequentam a escola 21. População de 0-14 anos 22. População de 15-64 anos 23. População de 64 anos ou mais 24. Em terreno não próprio 25. Sem sanitários 26. Inadequação por adensamento 27. Carência de água 28. Carência de iluminação 29. Carência de instalação sanitária 30. Carência na destinação do lixo urbano 31. Residências com até 3 cômodos 32. Domicílios próprios com propriedade do terreno 33. Domicílios próprios sem 34. Domicílios alugados propriedade do terreno 35. Outros 36. Abastecimento adequado de água 37. Escoamento sanitário adequado 38. Coleta adequada de lixo 39. Quantidade de famílias cohabitadas 40. Domicílios improvisados 41. Rendimento médio 42. Rendimento médio dos homens 43. Rendimento médio das mulheres 44. Rendimento médio da população de brancos 45. Rendimento médio da população 46. Rendimento médio da população não branca com menos de 8 anos de estudo 47. Rendimento médio da população com 48. Total de famílias 8 ou mais anos de estudo 77 49. Até 1/2 salário 50. De 1/2 a 1 salário 51. De 1 a 3 salários 52. Acima de 3 salários 53. Total de homens ocupados 54. Total de mulheres ocupadas 55. Total de brancos ocupados 56. Total de não brancos ocupados 57. Total de ocupados com menos de 58. Total de ocupados com mais de 8 anos de estudo 8 anos de estudo 59. Responsáveis familiar sem instrução 60. Responsáveis familiar com 11 anos ou mais de estudo 61. Pessoas com 15 ou mais de idade 62. Turno do dia em que o crime sem instrução aconteceu 63. Dia da Semana em que crime aconteceu 64. Mês do acontecimento do crime 65. Ano que o crime aconteceu 66. 67. Município na qual a AED pertence AED onde o crime foi cometido 68. Crime cometido 69. Rótulo que caracteriza a periclosidade da AED Após a integração ter sido concluída, é necessário a divisão do conjunto de dados transformado em 5 diferentes conjunto de dados. Como o tipo de aprendizagem realizado é o de conceito, é necessário construir 5 conjuntos distintos a partir do conjunto original, pois temos 5 diferentes conceitos a serem aprendidos. Cada conjunto gerado/separado representa uma determinada periculosidade, sendo assim, existe um conjunto de dados para cada nível de periculosidade, composto pelas instâncias que representam determinada periculosidade e aquelas que não representam. Cada conjunto criado será composto por todos os atributos do conjunto original, exceto a quantidade de crimes e o nível criminal. Um novo atributo será adicionado (rótulo), pois identicará se determinada instância participa ou não do nível criminal que o conjunto representa. No nal da transformação teremos 5 conjuntos de dados que servirão para treinar 5 diferentes modelos de predição, onde cada modelo irá determinar se um determinado exemplo pertence ao nível criminal que ele representa. 4.4.3 Seleção de Dados Nesta etapa determina-se quais atributos serão selecionados para o processo de aprendizado. Os dados que serão selecionados deverão estar de acordo com os objetivos técnicos e de negócio. Detalhes de negócio, como as perguntas que devem ser respondidas pelo processo de aprendizagem e detalhes técnicos como atributos com valores faltosos ou tipo e volume de dados. Relevância para o processo, qualidade e restrições técnicas também são detalhes a serem levados em conta no processo de seleção. A suíte Weka apresenta vários algoritmos de busca e avaliação de atributos. Esses algoritmos de busca e avaliação são classicados em ltros, Wrappers e embutido. Mais informações sobre a fundamentação da área de seleção de atributos pode ser lida na Seção 2.4.3.1. 78 Dentre os algoritmos de busca podemos citar os: XBest First XExhaustiveSearch XRanker XRank Search XTabu Search Já os algoritmos de avaliação podemos citar: XCfsSubsetEval XPrincipal Components XInformation XGain Ratio Gain Recomendamos a utilização do Ranker como algoritmo de busca e Infomation Gain como o de avaliação. O Ranker foi escolhido pois ordena todos os atributos de acordo com a métrica de avaliação, no caso o Information Gain. A métrica Information Gain é muito utilizada para medir a qualidade do atributo em relação a classe a ser predita e utilizada no processo de construção de árvores de decisão, utilizando o algoritmo C.45 (QUINLAN, 1996). Após os atributos terem sido selecionados é importante avaliar se os selecionados são geradores das informações desejadas nos objetivos do negócio. Esta análise é importante pois importantes atributos para o entendimento e objetivos do negócio podem ser excluídos no processo de seleção, impossibilitando a visualização dos detalhes tão importantes para o negócio. Deve-se realizar uma etapa de pós-seleção nos 5 conjuntos obtidos, pois geralmente cada conjunto de atributos são distintos entre si. Devido a esta característica, é necessário construir uma forma de padronizar os atributos pertecentes a cada conjunto. Uma forma interessante é escolher uma quantidade x dos melhores atributos de cada conjunto, de acordo com a métrica de avaliação do atributo. Assim teremos em cada conjunto os melhores atributos globais, selecionados pelo algoritmo de seleção. 4.4.4 Limpeza dos Dados Após a tarefa de seleção de dados ter sido concluída, teremos que limpar os dados. Isto é, retirar ruídos e dados sem importância. São considerados dados sem importância dados que contém valores que divergem muito do padrão, atributos sem valores ou com erros. A presença destes dados no conjunto de dados a ser utilizado por um algoritmo de aprendizagem irão aumentar a taxa de erro e dicultar a leitura e análise das informações coletadas. Indicamos tarefas como a inserção de valores padrão, cálculo de valores para os atributos com valores faltantes e exclusão de dados com baixa qualidade para a resolução deste problemas (WITTEN; FRANK, 2005). 4.4.5 Formatação dos dados Recomendamos a criação de um pequeno programa para a extração dos dados presentes em um banco de dados e inserí-los em um arquivo de texto do tipo ar pois 79 uma das formas de entrada de dados do Weka é feita usando esta opção. A suíte Weka comumente trabalha com dois tipos de dados: numérico (contínuo) e nominais (discretos). Comumente os usuários do Weka transformam todos os dados numéricos para o tipo numérico e os dados textuais, com características discretas para nominais. Os dados textuais que não contém características discretas, devem ser transformados em algum atributo numérico que contenha a mesma semântica do dado textual. Todos os valores numéricos presentes no conjunto de dados coletado deve ser designado para o tipo numérico. Já os dados nominais, com características discretas devem ser denidos para o tipo nominal, ou seja, deve ser discretizado. Exemplos de atributos nominais ou discretos: Turno, Dia da Semana, Mês, Ano, AED, crime e nível criminal. 4.5 Modelagem Esta fase é responsável pelas tarefas relacionadas a aplicação do algoritmo de aprendizagem. É recomendável a aplicação desta fase somente após as fases de Entendimento do Negócio, Coleta de Dados e Pré-processamento terem sido realizadas. Esta fase é composta de sub-tarefas como: 1. Determinação do Modelo Preditivo; 2. Geração do Conjunto de Teste e Validação; 3. Construção do Modelo; 4. Avaliação Preliminar; Cada fase deve ser executada na sequencia exibida na Figura 10. Figura 10: Sub-tarefas da etapa de Modelagem 4.5.1 Determinação do Modelo Preditivo O modelo a ser denido deve estar de acordo com os objetivos de negócio e com o formato dos dados coletados. Recomendamos o uso das Redes Neurais (RNA), pois é um dos modelos preditivos que se adequa aos objetivos e a natureza dos dados. As RNAs tem a capacidade de trabalhar com dados numéricos quanto nominais. A estrutura da rede neural é modicável para o propósito que ela está sendo modelada, característica que fazem que as redes seja uma estrutura computacional exível para diversos tipos de 80 problemas. Estas características zeram com que as RNA fosse recomendada como modelo preditivo, além da suíte de mineração recomendada pelo processo, a suíte Weka, conter uma implementação da rede MultiLayer Perceptron utilizando o algoritmo backpropaga- tion. 4.5.2 Geração do Conjunto de Teste e Validação O conjunto de dados coletado deve ser utilizado para treinamento, teste e validação. O conjunto pode ser dividido da seguinte forma: 80% para treinamento e 20% para testes. Caso o analista deseje um conjunto de validação, a divisão do conjunto de dados pode ser 70% para treinamento, 20% para testes e 10% para validação. Estas proporções foram recomendadas com o conceito que se deve utilizar a maior parte do conjunto de dados para treinamento, ou seja, o algoritmo deve ser treinado com a maior parte do conjunto de dados e o restante para testar a qualidade do aprendizado do algoritmo (WITTEN; FRANK, 2005; KLOSGEN; ZYTKOW, 2002). Em algumas técnicas de treinamento dos algoritmos não é necessário a denição de um conjunto de testes e/ou treinamento, pois as técnicas dividem automaticamente o conjunto de dados e realiza o treinamento e a avaliação do modelo. Hold-out e validação cruzada (cross validation ) são exemplos destas técnicas. Inicialmente não recomendamos o uso do método de validação cruzada devido ao grande tempo de treinamento necessário. Devido a grande quantidade de instâncias presentes no conjunto de dados, caso o número de instâncias não seja tão grande pode-se utilizar a validação cruzada. 4.5.3 Aplicação do Algoritmo de Aprendizagem de Máquina Esta etapa será responsável pela correta aplicação do algoritmo de aprendizagem. Neste trabalho é recomendado o uso das Redes Neurais devido ao seu alto poder de generalização e a capacidade de aprendizado de funções não lineares (LIPPMANN, 1987). Para cada conjunto de dados deve-se criar uma rede e a mesma será treinada utilizando o conjunto especíco, ou seja, o conjunto que representa seu nível criminal. Os 5 conjuntos de dados distintos a serem utilizados foram denidos e construídos na fase de transformação. Execuções iniciais devem ser realizadas am de perceber o poder preditivo do modelo e/ou problema nos dados. Após a escolha do algoritmo de aprendizagem, deve-se trabalhar nas características do funcionamento do algoritmo. Como a RNA foi o algoritmo recomendado, devemos nos atentar a questões como a estrutura da rede ou qual algoritmo de aprendizado utilizar. A estrutura da rede deve ter 3 camadas de neurônios: a camada de entrada, a camada intermediária ou oculta e a camada de saída. Recomendamos uma rede com 3 camadas devido a generalização dela para qualquer problema não linear (LIPPMANN, 1987). A camada de entrada deve ter um neurônio para cada atributo de entrada, e a 81 camada de saída deve conter apenas 2 neurônios. Um que será ativado caso a entrada seja do nível criminal que a rede representa e o outro que será ativado caso a entrada não seja do determinado nível. O número de neurônios da camada oculta foi denido através da fórmula nOculta = (LIPPMANN, 1987). nCamadaEntrada + nCamadaSaida 2 O número de neurônios determinado pela fórmula é interessante pois o grande número de neurônios na camada oculta acarreta no overtting do conjunto de treinamento e um alto tempo de processamento; já o baixo número acarreta na alta generalização da rede, gerando uma baixa precisão nos resultados. Overtting signica que o algoritmo de aprendizado tem um alto número de acertos nas intâncias no conjunto de treinamento e baixo acerto nas instâncias do conjunto de testes e em outras instâncias não vistas pelo algoritmo. Isto é, o algoritmo tem um vício em acertar apenas as instâncias utilizadas em seu treinamento. Além de se denir a estrutura da rede, é necessário escolher parâmetros que serão utilizados na execução do algoritmo de aprendizagem. Parâmetros como a taxa de aprendizado e momentum que devem ser selecionados a partir de vários testes. Os melhores valores em nossos testes para a taxa de aprendizado e momentum foram 0.5 e 0.3 respectivamente. 4.5.4 Avaliação Preliminar O analista de mineração deve fazer uma avaliação preliminar após os modelos terem sido construídos. O processo de avaliação utiliza métodos para averiguar medidas técnicas como a precisão, conança, taxa de falsos positivos e positivos verdadeiros. Após o modelo ter sido avaliado tecnicamente pelo analista, é necessário a exibição aos especialistas do negócio, para os mesmos poderem validar o modelo de acordo com os desejos especicados na fase de Entedimento do Negócio. Finalmente o analista deve vericar todos os modelos construídos e os ordenar pelas medidas técnicas. Além de medidas técnicas, é necessário levar em conta os objetivos do negócio para que a ordenação dos métodos satisfaça os dois universos. 4.6 Avaliação O modelo deve ser validado de acordo com sua precisão nos dados de teste ou validação, isto é, os modelos devem predizer com exatidão os dados não trabalhados pelo modelo na fase de treinamento. Os modelos devem ser avaliados por diversas métricas: o Coeciente de Correlação, o Erro absoluto Médio, o Erro Quadrático Médio e o Erro Absoluto Relativo (WITTEN; FRANK, 2005; HORNICK; MARCADé; VENKAYALA, 2007). 82 4.6.1 Avaliação dos Resultados Esta sub-etapa deve apresentar os resultados técnicos alcançados pelo modelo. Os resultados devem ser apresentados para cada modelo, ou seja, para cada modelo que trabalha com cada nível criminal. As métricas recomendadas para apresentação serão: Quantidade de Instâncias Classicadas Corretamente; Quantidade de Instâncias Classicadas Incorretamente; Erro Médio Absoluto; Erro Médio Quadrático; Matriz de Confusão; Recomenda-se que a quantidade de instâncias classicadas incorretamente seja no máximo de 30% da quantidade total de instâncias, devido a complexidade do problema atacado (criminalidade). Este erro é considerado plausível pela natureza da criminali- dade, ou seja, complexa e dinâmica. O fenômeno criminal apresenta uma alta dinâmica e o mais importante nesta tarefa não é apenas acertar o nível criminal, mas entender a problemática, através dos resultados determinísticos (níveis) e subjetivos (conança). Caso queira, o analista pode diminuir a taxa de erro. 4.6.2 Revisão Nesta etapa o analista deve revisar todo o processo, identicando os possíveis erros. Na seção 2.6 encontra-se mais informações sobre esta etapa. 4.6.3 Próximas Ações Nesta sub-etapa o analista deve listar quais serão as próximas ações a serem tomadas após a revisão de todo o processo ter sido concluído. Informações adicionais podem ser encontradas na seção 2.6. 4.7 Divulgação A criação de um modelo preciso que atenda todos os objetivos denidos não garante necessariamente o sucesso do processo como um todo. O método preditivo deve ser usável, rápido e legível para o usuário comum, ou seja, aquele que irá utilizar o modelo diariamente. O processo recomenda que a visualização do resultado seja feita através de um gráco de linha. O gráco tem em sua abcissa os níveis criminais e em sua ordenada 83 Figura 11: Gráco utilizado para a visualização dos resultado do modelo preditivo valores que variam entre 0 e 1. Esses valores são utilizados para medir a conança e o valor preditivo resultante do modelo. O modelo retorna o valor 1 (um) quando o modelo prediz que o exemplo é de determinado nível criminal e 0 (zero) caso contrário. Os valores de conança também são representados pelos valores presentes na ordenada. A conança é uma medida que pode ser intepretada como a quantidade de certeza em que o modelo tem em armar tal predição. Para calcular a conança é utilizado os valores dos neurônios pertecentes a camada de saída, isto é, os valores de ativação dos neurônios. Estes valores são normalizados para um, dando a distribuição da probabilidade da rede. O gráco é composto por duas linhas, uma que representa a predição realizada e a outra a conança que o modelo tem em arma a sua predição. A Figura 11 representa um gráco que prediz uma instância qualquer. A linha pontilhada com quadrados (cor preta) representa as predições realizadas para cada nível criminal. A linha pontilhada com quadrados da Figura 11 informa que a determinada instância pode ter nível criminal alto ou muito alto, pois o valor da predição é igual a 1. Já a linha pontilhada com círculos (cor cinza) representa a conança que cada modelo tem em armar a sua predição. Na Figura 11 podemos ver que o modelo previu a instância com nível criminal alto e muito alto com 70% e 60% de conança respectivamente. O processo permite a criação de um sistema que fornece meios para estudar, prever e simular situações criminais e sócio-econômicas reais ou ctícias. O estudo, predição e simulação de situações é possível por meio da variação de valores nos dados sócioeconômicos e criminais. Estas variações permitem que o analista possa criar situações que possam servir como apoio a decisões estratégicas de combate ao crime e de aumento do bem-estar da população. O estudo dos níveis criminais gerados a partir da variação de valores realizados a partir de uma pergunta ao sistema. A resposta do sistema será um gráco, similar ao exibido na Figura 11. Assim, o analista pode vericar as consequências que podem 84 acontecer no aumento ou decréscimo nos valores das variáveis sócio-econômicas. Podendo assim criar estratégias prévias para solucionar possíveis problemas caso os valores reais atinjam os valores dados como entrada ao sistema. Estratégias sócio-educativas também podem ser criadas a partir da utilização do sistema proposto. O poder público pode através do sistema ver as consequências, aumento ou decréscimo do nível criminal, a partir da variação de dados sócio-econômicos. 4.7.1 Plano de Divulgação O plano de divulgação do processo deve descrever passos para a implantação, treinamento e manutenção do modelo que será implementado. Maiores detalhes sobre este documento, visite a sub-seção 2.6.6 do Capítulo 2. A manutenção do modelo é importante pois garante o correto funcionamento e a precisão alcançada no momento da construção. A manutenção evita que o modelo que defasado em relação as mudanças nos dados. As mudanças acontecem pois a criminalidade está em constante modicação, devido a ação policial ou a características sócio-econômicas e a inserção diária de iformações no banco de dados, gerando uma grande quantidade de dados inédito. O uso do mesmo modelo por um longo período de tempo pode levar erros relacionados a mudança da natureza dos dados, ou seja, mudança na criminalidade do município estudado. 4.7.2 Relatório e Apresentação Final Um relatório nal deve ser escrito descrevendo todos os passos executados, os pontos positivos e negativos. O relatório deve resumir todas as ações executadas através das fases do processo. O mesmo deve ser apresentado para a diretoria para socialização do projeto implementado. 85 5 Estudo De Caso: Predição Criminal na Região Metropolitana de Fortaleza Para provar que o processo especicado no Capítulo 4 é simples, fácil e útil em projetos de modelagem, construção e aplicação de métodos preditivos, iremos neste capítulo focar na aplicação do processo especicado no capítulo anterior. Assim poderemos modelar, construir e aplicar um método para predição de níveis criminais em áreas geográcas urbanas. Iremos seguir o processo especicado, cumprindo todos as fases e sub-tarefas propostas. O estudo de caso irá comprovar que o processo proposto é útil, apresentando as vantagens em seguir um método bem denido, ao invés de suposições do analista de dados. Dentre as vantagens podemos citar a organização do processo, a documentação gerada, a execução de todas as tarefas especicadas e garantia que o projeto estará de acordo com os requisitos de negócio e técnicos estipulados. 5.1 Entendimento do Negócio Nos últimos anos (2008-2010), o Governo do Estado do Ceará, através da Secretaria de Segurança e Defesa Social (SSPDS) têm investido na diminuição do crime no Estado. Investimento em equipamentos (viaturas, armas, equipamentos eletrônicos, pesquisas), contratação de pessoal e treinamentos com o objetivo de combater o avanço da violência. Nosso objeto de estudo foi a Região Metropolitana de Fortaleza (RMF), composta de 13 municípios: Fortaleza, Caucaia, Maranquape, Pacatuba, Aquiraz, Eusébio, Guaiúba, Itaitinga, Maracanaú, Horizonte, Pacajús, Chorozinho e São Gonçalo do Amarante. No primeiro semestre de 2009 ocorreram 768 homicídios na RMF (NORDESTE, 2009). É percebido que os jovens são a maioria no número de vítimas, cometidos principalmente por acerto de contas provenientes de gangues ou tráco de drogas. Os bairros nos quais acontecem mais homicídios em Fortaleza são a Grande Messejana, Conjuntos Palmeiras, São Miguel, São Cristovão, Jangurussu, Bom Jardim, Pantanal, Rosalina, Tancredo Neves, Genibaú, Praia do Futuro e Pajuçara (Maracanaú). 86 5.1.1 Determinação dos Objetivos de Negócio a Serem Alcançados O principal objetivo do projeto foi sua implementação de acordo com o que foi previsto na sua aprovação pela FUNCAP através do Edital 05/2008 - Segurança Pública e o mesmo foi desenvolvido nas dependências do Mestrado Acadêmico em Ciência da Computação. Um dos objetivos é fornecer um sistema preditivo correto utilizando dados sócio-econômicos e criminais. Este sistema fornecerá ferramentas para que o analista de dados e criminal possa prever, estudar e simular situações para que sejam tomadas ações cabíveis contra o avanço da violência ou do aumento do bem estar da população. O sistema será aceito caso todos os objetivos determinados forem alcançados e tenha uma precisão de no mínimo 70%. Chegamos a conclusão de que a precisão ou taxa de acerto deve ser no mínimo de 70% baseado na complexidade do fenômeno criminal e em erros (ruídos) presentes nos dados. 5.1.2 Requisitos do Projeto A RMF contém 98 áreas de expansão, sendo 71 pertencentes ao município de For- taleza, 10 a Caucaia e 5 a Maracanaú. Os municípios de Maranguape e Aquiraz contém 2 AEDs cada um. Os dados sociais, econômicos e criminais utilizados em nosso estudo serão delimitados e agregados pelas AEDs. O nível criminal de cada AED é predita utilizando os dados sócio-econômicos e criminais. Os dados sócio-econômicos serão coletados junto ao projeto Observatório das Metrópoles (METRóPOLES, 2010). Os dados solicitados são referentes as informações le- IBGE através do Censo acontecido no ano 2000. Já os dados criminais serão Secretaria de Segurança e Defesa Social (SSPDS). Pretende-se trabalhar com vantadas pelo solicitados a os crimes cometidos nos anos de 2007 e 2008. Os crimes referentes ao ano de 2009 não serão utilizados pois o ano de 2009 ainda não havia terminado até o momento da solicitação. Todos os dados foram pedidos através de documento formal, explicando quais resultados desejamos alcançar com o seu uso e como os mesmos serão divulgados a sociedade. Os resultados visados pelo projeto é a construção de um método preditivo de níveis criminais em áreas geográcas utilizando o processo de mineração proposto neste trabalho. Os resultados servirão para a Secretaria de Segurança e Defesa Social, permitindo o entendimento e a visualização da criminalidade futura. O projeto foi desenvolvido utilizando a linguagem Java (MICROSYSTEMS, 2010). A linguagem Java é uma linguagem poderosa, utilizada para diferentes propósitos, desde a sistema embarcados a grandes sistemas corporativos. Diversas bibliotecas de mineração de dados podem ser usufruidas a partir da linguagem. Sendo assim, a linguagem Java é indicada para a construção do nosso modelo para predição do nível criminal de áreas geográcas de regiões metropolitanas brasileiras. 87 O projeto foi desenvolvido nas depedências do Laboratório de Computação Natural e Inteligente pertecente ao Mestrado Acadêmico em Ciência da Computação da Universidade Estadual do Ceará. O desenvolvimento foi realizado por Marcelo Damasceno de Melo (Aluno - Mestrado) e pelos Professores Jereson Teixeira de Souza e Gustavo Augusto Lima de Campos. O projeto foi desenvolvido em 18 meses, dentro do prazo proposto de 12 meses, extensível por mais 6. O cronograma representado na Tabela 4 foi obedecido para que o projeto seja concluído em tempo hábil. Adquirir dados provenientes de outras instituições é sempre um problema. Dados são informações cruciais dentro de instituições e contém informações diárias que muitas vezes não são permitidas divulgação. Os dados criminais foram solicitados a SSPDS e os sócio-econômicos ao projeto Observatório das Metrópoles. Caso o pedido não tivesse sido aceito pela SSPDS, solicitariamos a outras instituições, como a imprensa cearense, prefeituras municipais ou ONGs que trabalhem com o fenômeno criminal. Caso o projeto Observatório das Metrópoles recusasse o pedido de liberação, solicitariamos junto ao IBGE, que é a instituição brasileira que faz o levantamento sócio-econômico brasileiro. Um dos riscos inerentes a implementação do projeto são os relativos ao uso de ferramentas de modelagem e de mineração de dados. Os riscos previstos são contornados utilizando outras alternativas levantadas, como o Joone (TEAM, 2010) ou SPSS Modeler (SPSS, 2010). O problema da acurácia do preditor deve ser contornado através de novas execuções de passos da fase de pré-processamento e a execução de outros algoritmos de aprendizagem que possa aumentar a precisão do modelo. Obter informações irrelevantes é um risco que deve ser entendido como um problema da distribuição dos dados, ou seja, os dados utilizados são pouco expressivos. Já a visualização dos resultados é uma das restrições que devemos denir com cuidado. O modelo de acesso que o usuário utilizará poderá ser a chave do sucesso de um sistema computacional. 5.1.3 Objetivos Técnicos a Serem Alcançados A predição do nível criminal de áreas geográcas utilizando dados sociais, econômicos e criminais deve ser traduzido para uma tarefa de mineração de dados. Assim foi pensado em traduzir a predição em um problema de aprendizado de conceito. Aprendizado de conceito é baseado em distinguir eventos, objetos ou classes utilizando os seus atributos. Exemplo: Construir um modelo que possa armar se um determinado objeto é uma Fase / Mês 1 2 3 4 5 6 7 8 9 Entendimento do Negócio Coleta e Análise dos Dados Pré-Processamento Modelagem Avaliação Divulgação Tabela 4: Cronograma de Atividades 10 11 12 88 cadeira através de sua visualização. A solução foi composta de 5 modelos que predizem o nível criminal de cada consulta. Cada modelo para cada nível criminal (muito baixo, baixo, médio, alto, muito alto). Assim temos 5 resultados, proveniente de cada modelo, utilizando a previsão feita e a conança que cada modelo tem na previsão realizada. Cada modelo utiliza como entrada uma consulta feita pelo usuário sobre as características criminais e sócio-econômicas da região na qual ele quer predizer o nível criminal. Após dada a entrada, o sistema preditor utiliza algoritmos de aprendizagem de máquina para dizer qual o nível criminal aquela entrada pertence e se existe tendência de aumento ou diminição do nível criminal. A saída da ferramenta é um gráco que informa a predição e a conança que cada modelo teve em sua resposta. 5.1.4 Plano de Atuação O equipamento utilizado no desenvolvimento foi um notebook com processador Athlon XP 1.6 Ghz, 2GB de memória RAM com 120 GB de HD. Como descrito anteriormente, o processo foi executado por 3 pessoas, sendo um aluno do mestrado e dois professores. Para a execução dos agoritmos de aprendizagem foi utilizado a suíte Weka. Weka é uma ferramenta open-source, portanto sem a necessidade de custos com a aquisição. No cronograma foi reservado um período de tempo para o treinamento na ferramenta e o mesmo foi feito através da leitura de manuais, análise de exemplos e tutorais presentes na Internet. A coleta dos dados sócio-econômicos foi realizada junto ao projeto Observatório da Métropoles. Já os dados criminais forão adquiridos junto a SSPDS. Após os dados terem sido coletados, a etapa de entendimento e análise de dados deve ser realizada. O entendimento dos dados foi feito a partir da observação de seus atributos. Foi observado a quantidade, o tipo de cada atributo, os valores máximos, mínimos e médios de cada atributo. O histograma é o gráco adequado para a visualização de informações como o valor máximo e mínimo e a frequência dos valores de cada atributo no conjunto de dados. Podemos observar um exemplo de um histograma na Figura 12. Figura 12: Representação de um histograma 89 5.2 Coleta e Análise dos Dados A fase de análise é composta de tarefas para o analista se familiarizar com os dados colhidos, levantando algumas relações iniciais e informações interessantes nos dados. Além da possibilidade de identicar dados fora do padrão ou ruídos. 5.2.1 Coleta dos Dados Os dados criminais foram liberados em forma de arquivo texto estruturado e são correspondentes as bases CIOPS e SIP nos anos de 2007 e 2008 de todos os municípios do Estado do Ceará. Apenas os dados contidos na base CIOPS foi utilizado no nosso projeto, CIOPS contém dados temporais, geográcos e criminais dos crimes cometidos. Infelizmente a base SIP não contém dados geográcos, isto é, o local exato ou aproximado pois a base que o crime foi cometido. Os dados sócio-econômicos cedidos pelo projeto Observatório das Metrópoles com pólo na UFC são correspodentes ao Censo feito no ano 2000. Os dados foram disponibi- lizados através de planilhas no formato xls, produzidos no Microsoft Oce Excel. Os dados demoraram cerca de 2 meses para ser colhidos, pois houveram problemas para sincronizar a agenda do Professor Eustógio e do aluno Marcelo. O professor Eustógio é um dos coordenadores do projeto no pólo Ceará. Como percebido, os dados colhidos são provenientes de duas bases diferentes. A integração de ambas deve ser realizado através da identicação ou geração de um atributo que seja comum a ambas. A base sócio-econômica é agrupada por Áreas de Expansão de Dados (AED), já a base criminal é agrupada por bairro. Para integramos as duas bases foi necessária a geração de um atributo na base de dados criminal. O novo atributo gerado é formado a partir da AED correspodente ao bairro presente na base criminal. A geração do novo atributo permitiu a integração das bases, já que agora temos um valor semântico comum a ambas. Os dados foram inseridos em um banco de dados MySQL utilizando um script MySQL desenvolvido para o carregamento dos dados presentes nos arquivos texto. Tal script tem a função de ler o arquivo texto e inserir os dados no banco de forma correta, obedecendo o formato denido no arquivo. Após a inserção das bases no banco, a integração de ambas as bases deve ser realizada. O processo explicado foi realizado de forma que ambas as bases possam ser tratadas como apenas uma. A integração é obrigatória pois fornecerá ao modelo informações sobre todas as esferas (social, econômica e criminal). 90 5.2.2 Exploração dos Dados Nesta etapa os dados coletados foram explorados para serem obtidas algumas informações iniciais. Uma das tarefas pertencentes a esta etapa é vericar a distribuição das classes no conjunto de dados. A Figura 13 representa a distribuição de cada classe do conjunto de dados, ou seja, cada nível criminal proposto no processo. A primeira, segunda, terceira, quarta e quinta coluna representam a quantidade de instâncias pertencentes ao nível muito baixo, baixo, médio, alto e muito alto respectivamente. Outra informação interessante no conjunto é que nenhum atributo coletado contém valores faltantes. A Figura 13 mostra que a maioria das instâncias contém o nível muito baixo como nível criminal. A soma da quantidade de instâncias dos outros níveis não ultrapassa o número de instâncias com o nível muito baixo. A baixa distribuição das instâncias nos diferentes níveis acarreta em um conceito chamado de desbalanceamento de classes. Este desbalanceamento acarreta no alto número de acerto no nível criminal com mais instâncias e baixo número de acertos nos níveis com menores números de instâncias. Aplicamos técnicas como seleção de exemplos e exclusão de instâncias para solucionar o problema de desbalanceamento de classes (BISHOP, 2006). Figura 13: Distribuição dos níveis crimais no conjunto de dados Todos os dados colhidos foram utilizados na construção do modelo. Nenhum atributo foi descartado de primeira vista, sem que os próximos passos sejam executados. Os dados colhidos estão de acordo com os objetivos do projeto, pois contém informações necessárias para predizer o nível criminal de áreas geográcas utilizando dados sócioeconômicos e criminais. Outro objetivo desta sub-fase é encontrar instâncias fora do padrão, que consequentemente podem ser erros, também conhecido como ruído ou outlyer. A suíte Weka contém um ltro, o Interqualite Range, muito utilizado para identicar exemplos fora do padrão, conhecidos como outlyers. O Interqualite Range utiliza o interquatil calculado a partir do conjunto de dados para identicar os valores extremos e outlyers presente 91 nos dados. Foi aplicado este ltro mas a maioria dos dados identicados por ele eram pertencentes a outros municípios que não Fortaleza. Ele identicou as instâncias cujo município não era Fortaleza como ruídos, por serem minoria no conjunto de dados e consequentemente serem tratados pelo ltro como valor extremo. Nós decidimos não utilizar o resultado deste ltro por excluir todas essas instâncias. 5.3 Pré-Processamento Nesta fase iremos aplicar transformações nos dados, transformações referentes a geração de novos atributos, normalização e geração de 5 conjuntos de dados distintos derivados do conjunto de dados original. Cada conjunto de dados deste aglomerado de 5, representa um nível criminal, ou seja, temos um conjunto de dados para representar as características de cada nível criminal. Foi aplicado um algoritmo de seleção de atributos logo após as transformações terem sido concluídas. O algoritmo de seleção é utilizado para identicar quais são os melhores atributos para predizer o nível criminal das áreas geográcas em questão. 5.3.1 Transformação dos Dados A fase de transformação de dados é composta de tarefas de exclusão, adição e derivação de novos dados a partir de dados presentes no conjunto. Os dados criminais que foram coletados são os que irão sofrer mais transformações. O atributo turno é um exemplo de um atributo derivado, foi derivado do horário que o crime foi cometido. Outros exemplos de atributos derivados são o dia da semana, mês e ano que o crime aconteceu. Estes dados foram derivados pois fornece maior qualidade preditiva em relação ao atributo gerador pois agrupa informações, diminuindo a variância dos dados e apresenta melhor qualidade semântica para o projeto. Por exemplo, é muito difícil que mais de dois crimes da mesma natureza aconteça ao mesmo tempo, gerando uma alta variância se formos dividir os dados pelo horário. Como temos apenas 4 turnos para dividir os dados, temos uma baixa variância nos dados em relação ao turno, pois a probabilidade de acontecer mais de dois crimes em um mesmo turno é muito maior do que acontecer no mesmo horário. A exclusão, derivação ou transformação dos dados são atividades pertencentes a esta fase do processo. Temos como exemplo de exclusão, a eliminação da hora do crime, ela deve ser excluída pois é uma informação de pouca relevância para a predição, por ter uma alta variância entre os exemplos. A data era um atributo presente no conjunto de dados criminal original e também foi excluída pelas mesmas razões que o atributo hora, pois sua alta variância era devido ao pequeno número de crimes que foram cometidos ao mesmo tempo. A quantidade de crimes é um outro exemplo de atributo derivado. Para contabilizar a quantidade de crime cometidos foi necessário somar a quantidade de crimes de um determinado tipo acontecidos naquele turno, dia da semana, mês, ano e em uma 92 determinada AED. Para satisfazer os objetivos do negócio o analista deve derivar um novo atributo. Este atributo é o nível criminal baseado na quantidade de crimes em uma calcular o nível criminal da AED. Para AED foi necessário realizar um determinado cálculo, utilizando o número máximo e mínimo de crimes X cometidos. Com estes dois valores, foi possível determinar todos os níveis, ou seja, os níveis muito baixo, baixo, médio, alto e muito alto. O nível muito baixo foi dado a todas as instâncias que continham a quantidade mínima de crimes cometidos do tipo X. Já o nível muito alto foi dado as instâncias que continham o valor máximo de infrações do tipo X. O cálculo dos níveis intermediários (baixo, médio e alto) foram feitos utilizando o valor mínimo (min) e máximo (max), inc = max − min . 5 Assim, o nível baixo foi determinado para a quantidade de crimes cujo valor está entre min + inc e min + 2 ∗ inc. O nível médio foi denido para o atributo cuja quantidade de crimes quant é min + 3 ∗ inc > quant ≥ min + 2 ∗ inc e o nível alto para valores max > quant ≥ min + 3 ∗ inc. Sendo o valor mínimo e máximo de crimes observado em um conjunto de dados foi de 2 e 100 crimes respectivamente. Seja uma instância com 50 crimes, o nível criminal 98 = 19, 6; e a quantidade de crimes da instância para esta instância é o médio pois, inc = 5 se adequa as inequações: 2 + (3 ∗ 19, 6) > 50 ≥ 2 + (2 ∗ 19, 6); 60, 8 > 50 ≥ 41, 2. Um outro atributo criado na base criminal foi o rótulo. Este atributo indica se determinada instância pertence ao nível criminal que o conjunto representa. Este atributo foi criado devido a necessidade do aprendizado baseado em conceitos, ou seja o atributo rótulo é o atributo que identica se a instância pertence a determinado conceito. 5.3.2 Integração de Dados As bases forão integradas utilizando como base o atributo AED. Após a integração ter sido concluída temos 69 atributos, descritos na subseção 4.4.2. Após a nalização da integração, é necessário a divisão do conjunto de dados transformado em 5 diferentes conjuntos. Onde cada conjunto irá representar cada nível 93 criminal. Como o tipo de aprendizagem realizado é o de conceito, é necessário construir 5 conjuntos distintos a partir do conjunto original, pois são 5 diferentes conceitos (níveis criminais) a serem aprendidos. Estes conceitos são os níveis criminais estabelecidos na fase de entendimento do negócio. 5.3.3 Seleção de Atributos A etapa de seleção dos melhores atributos é executada após os dados terem sido integrados. Nesta etapa serão escolhidos os atributos que melhor identicam cada nível criminal. Serão excluídos os aributos que nada interferem ou atrapalham a predição correta. Além de integrar, a fase de integração também gerou 5 conjuntos distintos. Cada conjunto representa o conceito para o qual foi denido, ou seja, existe um conjunto de dados para cada nível, isto é, existe um conjunto para os níveis muito baixo, baixo, médio, alto e muito alto. Como cada conjunto de dados representa um determinado conceito ou classe, podemos armar que cada conjunto contém a sua respectiva distribuição de classes. De agora em diante iremos trabalhar com os conjuntos de dados que representam somente um nível criminal. Agora os conjuntos de dados são divididos em 2 classes: as instâncias que são daquele nível e aquelas que não são. ção das classes sim e não para o nível muito baixo. A Figura 14 exibe a distribui- Podemos perceber que o conjunto referente ao nível muito baixo contém 80262 exemplos, sendo 61947 positivas e 18315 negativas para este nível. Este conjunto de dados é o único a ter mais exemplos positivos que negativos. Isto signica que na RMF existe mais exemplos com áreas com nível crimi- nal muito baixo que a soma dos exemplos pertencentes aos outros níveis criminais. Esta característica necessariamente não signica que a maioria das áreas tem o nível muito baixo, mas que naquela conguração de atributos a maioria das áreas foram classicadas como muito baixa. Lembrando que a classicação muito baixa foi estabelecida pelo número mínimo de crimes naquela agregação de atributos, não signicando que uma área pode ter semanticamente o nível muito baixo tendo no mínimo 8 homicídios por semana. Não zemos esta análise na sub-fase de exploração de dados pois ainda era necessário realizar as transformações e integrações nos dados. Figura 14: Distribuição das classes para o nível muito baixo 94 A Figura 15 representa a distribuição do conjunto com exemplos positivos e negativos relativos ao nível baixo. Este conjunto contém 79645 exemplos únicos, sendo 68272 negativos e 11373 positivos. Figura 15: Distribuição das classes para o nível baixo A Figura 16 exibe a distribuição do conjunto com instâncias positivas e negativas relativa ao nível médio. Este conjunto contém 79135 exemplos distintos, sendo 74688 negativos e 4447 positivos. Figura 16: Distribuição das classes para o nível médio As Figuras 17 e 18 exibem a distribuição dos exemplos referentes aos nível alto e muito alto respectivamente. O conjunto que representa o conceito referente ao nível alto contém 78747 instâncias, onde 77431 são negativas e 1316 positivas. Já o conjunto que representa o conceito muito alto contém 78802 exemplos distintos, sendo 77466 negativos e 1336 positivos. Uma questão a ser levada em conta é a grande diferença entre a quantidade de exemplos positivos e negativos. No pior caso observamos que a classe majoritária é 58,84 vezes superior que a classe minoritária. Diferença observada no conjunto que representa o conceito muito alto. Essa grande diferença leva a problemas relacionados ao treinamento do modelo, levando o mesmo apenas a predizer os valores da classe majoritária. Na subtarefa de seleção de exemplos iremos tratar a questão da grande diferença de proporção entre os exemplos positivos e negativos. Após essa análise da distribuição das classes ter sido realizada, foi executada a fase de seleção de atributos. O algoritmo de busca Ranker com a métrica de avaliação dos atributos baseada no Information Gain foi a utilizada para a seleção dos atributos. O 95 Figura 17: Distribuição das classes para o nível alto Figura 18: Distribuição das classes para o nível muito alto algoritmo Ranker ordena os atributos do melhor ao pior baseado na métrica de avaliação, onde a escolhida foi a Information Gain. A mesma conguração dos algoritmos de seleção foram executados para selecionar os melhores atributos em todos os 5 conjuntos de dados. Abaixo iremos exibir os 15 melhores atributos identicados, ordenados do melhor para o pior de acordo com o seu valor de information gain (MICHALSKI; CARBONELL; MITCHELL, 1986). Information Gain é uma medida de ecácia de um atributo em classicar o conjunto de treinamento. Quanto maior o information gain de um atributo melhor ele é para classicar corretamente a classe de qualquer instância pertencente ao conjunto de dados. 1- Atributos selecionados no conjunto de dados que representa o nível muito baixo; 96 1. AED 2. População com 50 ou mais em idade ativa 3. Pessoas de 0 a 6 anos 4. Número de brancos com rendimento que frequentam a escola no trabalho principal 5. Pessoas de 15 a 17 anos 6. População de 25 a 49 anos que frequentam a escola economicamente ativa 7. Inadequação por adensamento 8. Até 1/2 salário de renda familiar per capita 9. População de 10 a 24 Anos 10. Pessoas de 15 a 17 anos em idade ativa que frequentam a escola 11. Acesso a bens de média difusão 12. Abastecimento adequado de água 13. Rendimento médio em salário 14. Pessoas com 15 ou mais mínimo dos não brancos de idade sem instrução 15. População de 25 a 49 anos em idade ativa 21. Atributos selecionados no conjunto de dados que representa o nível baixo; AED 2. Pessoas de 0 a 6 anos que frequentam a escola 3. Rendimento médio em salário mínimo 4. População com 50 ou mais da população com menos em idade ativa de 8 anos de estudo 5. Coleta adequada de lixo 6. Rendimento médio em salário mínimo dos brancos 7. População de 25 a 49 anos 8. Número de brancos economicamente ativa com rendimento no trabalho principal 9. Pessoas de 7 a 14 anos 10. Número de domicílios que frequentam a escola próprios com propriedade do terreno 11. População de 64 anos ou mais 12. População de 0-14 anos 13. Abastecimento adequado 14. Renda familiar de água per capita com mais de 1 a 3 salários 15. Pessoas com 15 ou mais de idade sem instrução 3- Atributos selecionados no conjunto de dados que representa o nível médio; 97 1. AED 2. De 1/2 a 1 salário de renda familiar per capita 3. Residências com até 3 cômodos 4. Pessoas de 15 a 17 anos que frequentam a escola 5. Rendimento médio no trabalho 6. Domicílios sem sanitários principal em salário mínimo 7. Pessoas de 0 a 6 anos 8. Quantidade de pessoas que frequentam a escola que não sabem ler 9. Rendimento médio 10. População de 10 a 24 anos em salário mínimo dos homens em idade ativa 11. Ocupados com menos 12. Responsáveis familiar de 8 anos de estudo com 11 anos ou mais de estudo 13. Acesso a bens 14. Domicílios com carência de média difusão de água 15. Pessoas com 15 ou mais de idade sem instrução 41. Atributos selecionados no conjunto de dados que representa o nível alto; AED 2. Dia da semana que o crime foi cometido 3. Quantidade de domicílios alugados 4. Pessoas de 18 a 25 anos que frequentam a escola 5. Crime cometido 6.População de 0-14 anos 7. Outros tipos de 8. População de 10 a 24 anos aquisição de moradia economicamente ativa 9. População de 64 anos ou mais 10. População de 10 a 24 anos em idade ativa 11. Total de não brancos ocupados 12. População de 15-64 anos 13. Carência de iluminação 14. Carência de água 15. Total de famílias com renda familiar per capita 5- Atributos selecionados no conjunto de dados que representa o nível muito alto; 98 1. AED 2. Rendimento médio em salário mínimo dos brancos 3. Coleta adequada de lixo 4. Acesso a bens de uso restrito 5. Pessoas de 18 a 25 anos 6. Número de mulheres que frequentam a escola economicamente ativa 7. Total de mulheres ocupadas 8. Carência na destinação do lixo urbano 9. Carência de água 10. Número de domicílios alugados 11. Total de famílias 12. Renda familiar per com renda familiar per capita capita de 1 a 3 salários 13. Responsáveis familiar 14. Rendimento médio com 11 anos ou mais de estudo da população com menos de 8 anos de estudo 15. População de 10 a 24 anos economicamente ativa Ao m do processo de seleção, o conjunto de atributos selecionados eram diferentes entre si. Foi questionado um modo de padronizar o conjunto de atributos, onde os atributos pertencentes sejam os melhores em cada conjunto. Recomendamos que seja selecionado os 7 melhores atributos de cada conjunto, gerando um conjunto de atributos com 35 atributos mais o rótulo, totalizando 36 atributos. criminal do exemplo. O rótulo indica qual o nível A quantidade de atributos a ser extraída de cada conjunto foi proposta para ser 7 (sete) pois este valor é a metade da quantidade de atributos de cada conjunto de dados, ou seja, 7 é a metade inteira de 15. O conjunto nal de atributos é composto pelos seguintes atributos: 99 1. AED 2. População com 50 ou mais em idade ativa 3. Pessoas de 0 a 6 anos 4. Número de brancos com que frequentam a escola rendimento no trabalho principal 5. Pessoas de 15 a 17 anos 6. População de 25 a 49 que frequentam a escola anos economicamente ativa 7. Inadequação por adensamento 8. Rendimento médio em salário mínimo da população com menos de 8 anos de estudo 9. Coleta adequada de lixo 10. Rendimento médio em salário mínimo dos brancos 11. População de 25 a 49 12. Número de domicílios anos economicamente ativa próprios com propriedade do terreno 13. População de 64 anos ou mais 14. Pessoas de 7 a 14 anos que frequentam a escola 15. De 1/2 a 1 salário de renda 16. Residências com até 3 cômodos familiar per capita 17. Rendimento médio no trabalho 18. Domicílios sem sanitários principal em salário mínimo 19. Quantidade de pessoas 20. Rendimento médio que não sabem ler em salário mínimo dos homens 21. População de 10 a 24 22. Dia da semana anos em idade ativa que o crime foi cometido 23. Quantidade de domicílios alugados 24. Pessoas de 18 a 25 anos que frequentam a escola 25. Crime cometido 26. População de 0-14 anos 27. Outros tipos de aquisição 28. População de 10 a 24 de moradia anos economicamente ativa 29. Acesso a bens de uso restrito 30. Número de mulheres economicamente ativa 31. Total de mulheres ocupadas 32. Carência na destinação do lixo urbano 33. Carência de água 34. Renda familiar per capita de 1 a 3 salários 35. Responsáveis familiar com 36. Rótulo que caracteriza 11 anos ou mais de estudo o nível criminal da AED Infelizmente o conjunto de atributos selecionados pela tarefa de seleção não continha atributos tão importantes para o negócio como o município, turno do dia, mês e ano do acontecimento do crime. Pelo resultado do algoritmo conclui-se que os atributos temporais não são tão importantes pois têm baixa valor deinformation gain e que o município pode ser excluído, pois é possível determinar seu valor a partir da AED da instância. Os atributos temporais (turno do dia, mês e ano) pouco identicam os níveis criminais, 100 pois os valores ao longo do tempo têm baixa variância; o ano não foi selecionado devido ao baixo número de amostras ao longo dos anos (2007 e 2008). Outros 5 conjuntos com os atributos já selecionados, mais os excluídos que foram citados acima foram desenvolvidos, pois os atributos excluídos são importantes para o negócio, pois fornecem padrões de tempo e localização. Portanto, o nosso modelo preditivo será treinado com os dois grupos de dados, os com e sem os atributos temporais. O treinamento dos 2 grupos de dados servirá para comparar o desempenho e precisão do modelo. Desempenho tanto técnico, quanto semântico. 5.3.4 Limpeza dos Dados As tarefas de limpeza de dados não foram aplicadas pois não temos dados com valores faltosos e a remoção dos outlyers foi ignorada por questões já tratadas na subseção 5.2.2. 5.3.5 Formatação dos dados Algumas formatações são necessárias devido a restrições impostas pelo algoritmo de aprendizagem ou mesmo pela ferramenta computacional utilizada. As formatações sintáticas alteram a forma do valor, sem alterar sua semântica. Exemplos de formatação semântica são a modicação da estrutura do arquivo dos dados ou da tipagem do atributo pertecente ao conjunto. Como nossos dados estão presentes em um banco de dados, necessitamos de uma forma de extraí-los, para que os mesmos possam ser utilizado pelo Weka. A extração e modicação para o arquivo com formato ar é necessária pois a suíte Weka aceita, dentre as opções de entrada este tipo de arquivo. O formato ar contém a sua própria estrutura, que pode ser vista com mais detalhes no manual do Weka (BOUCKAERT et al., 2009). A suíte tem a capacidade de extrair os dados diretamente do banco de dados, mas foi escolhido utilizar esta forma pois é conhecida pela maioria dos analistas. Um script SQL foi desenvolvido para a extração e modicação dos dados. Para a criação do arquivo com formato ar foi desenvolvido um pequeno programa utilizando os scripts desenvolvidos para realizar esta tarefa. Além da extração, tarefas como as da sub-fase de transformação de dados podem ser realizadas utilizando o programa desenvolvido. 5.4 Modelagem A fase de modelagem consiste de tarefas relacionadas a denição, treinamento e avaliação preliminar do método preditivo. Esta fase deve ser executada somente após as tarefas de Entendimento do Negócio, Coleta e Análise de Dados e Pré-Processamento. 101 5.4.1 Determinação do Modelo Preditivo Iremos utilizar as redes neurais como estrutura computacional para a tarefa de previsão, como foi proposto pelo processo. A rede utilizada no modelo foi o MultiLayer Perceptron. Esta rede é um tipo muito utilizado em problemas de classicação, predição e regressão numérica, onde o algoritmo backpropagation é o mais utilizado no aprendizado, ou seja, identica as características mais relevantes contida nos dados. 5.4.2 Geração do Conjunto de Teste e Validação O conjunto de dados utilizado para treinamento e testes foram divididos da forma que o processo recomendava: 80% para treinamento e 20% para testes. No processo de treinamento não foi denido nenhum conjunto de validação pois foi decidido usar a maior parte dos dados para treinamento. Inicialmente o método de treinamento de validação cruzada foi testado no treinamento, mas o uso do mesmo foi cancelado devido ao grande tempo de treinamento. O tempo de treinamento foi grande porque o conjunto de dados contém muitas instâncias, além da validação cruzada ser indicada para conjunto de dados com baixo número de instâncias. 5.4.3 Aplicação do Algoritmo de Aprendizagem de Máquina Para cada conjunto de dados foi criado uma rede e a mesma será treinada utilizando o conjunto especicado. Foi denido na fase de transformação de dados dois grupos com 5 conjuntos de dados distintos. O primeiro grupo é composto pelos conjuntos que não contém atributos temporais como o turno, mês e ano, excluídos no processo de seleção. Já o segundo grupo é composto pelos dados anteriores, com o diferencial de conter estes atributos temporais tão importantes para o objetivo do negócio. Os grupos serão comparados e analisados para obter melhores resultados na precisão e conança. Execuções iniciais foram realizadas am de perceber o poder preditivo do modelo ou problema nos dados. Foi percebido que o uso de atributos discretos prejudicava o tempo de treinamento, pois o Weka criava um neurônio de entrada para cada valor do conjunto discreto. Resolveu-se transformar todos os dados discretos em numéricos para contornar este problema. Assim temos 36 e 40 atributos numéricos no primeiro e segundo grupo respectivamente. Para o primeiro grupo de dados a rede foi modelada com 35 neurônios de entrada, uma camada oculta com 19 neurônios e dois neurônios na camada de saída. Já para o segundo grupo, a rede contém 40 neurônios na camada de entrada, 20 na camada oculta e 2 na camada de saída. O número de neurônios da camada oculta foi denido através da fórmula nOculta = nCamadaEntrada nCamadaSaida 102 (OLLIGSCHLAEGER, 1997). Este número é interessante pois o grande número de neurônios na camada oculta acarreta no overtting do conjunto de treinamento e o baixo número acarreta na alta generalização da rede, gerando uma baixa precisão nos resultados. Além da denição da estrutura da rede é necessário escolher parâmetros utilizados na execução do algoritmo. Os parâmetros de taxa de aprendizado e momentum foram selecionados e os melhores valores foram escolhidos após várias execuções. Os melhores valores para a taxa de aprendizado e momentum foram 0.5 e 0.3 respectivamente. A visualização dos resultados deve ser realizada através de grácos, como proposto pelo processo. Os grácos exibirão a predição feita por cada modelo e a conança que cada um teve em sua predição. Para efeitos de comparação iremos exibir alguns resultados da seguinte forma: um gráco para cada nível criminal em cada grupo de dados (os com e sem os dados temporais). Nível Muito Baixo A instância exibida neste exemplo tem muito baixo como nível criminal. O gráco visto na Figura 19 mostra que todos os modelos predizem a instância como negativa, mesmo ela tendo muito baixa como nível criminal. A instância testada pertence ao primeiro grupo de dados, o grupo com 36 atributos. As predições são visualizadas através da linha pontilhada preta com quadrados que está constante no valor 0 e a conança através da linha pontilhada cinza com círculos. A maior conança foi para a predição feita pelo modelo que prediz a nível alto e a menor para o modelo que prediz a periculosidade muito baixa. Podemos intepretar que a predição não foi tão errônea, pois ela errou em relação a classe, mas a sua conança em armar tal predição para o nível muito baixo foi pequena. Lembrando que o nível da instância testada é o muito baixo. A Figura 20 exibe a predição dos modelos utilizando a instância pertecente ao segundo grupo de dados. Tal como o resultado anterior, todos os modelos preveram a instância como negativa para o conceito que representa. Tal instância contém o nível criminal muito baixo. A menor conança na armação foi feita pelo modelo que prediz as instâncias com nível baixo e o maior valor foi para o modelo que prediz as instâncias com nível alto. Infelizmente o segundo modelo apresentou uma alta conança em negar o nível muito baixo, ou seja, predição errônea, mas o modelo negou com baixa conança o nível baixo. A partir dos resultados dos dois preditores pode-se concluir que a classe do exemplo está no limiar entre a muito baixo e baixo, baseando-se principalmente no resultado do primeiro preditor. Nível Baixo A Figura 21 exibe a predição para a instância com nível baixo, onde todos os modelos negaram a participação da instância na classe que ele prediz. Lembrando que esta instância pertence ao primeiro grupo de dados. O modelo que teve menor conança na sua armação foi o que prediz as instâncias muito baixa, seguido pela baixa. Através 103 Figura 19: Predição de uma instância muito baixa positiva do primeiro grupo de dados Figura 20: Predição de uma instância muito baixa positiva do segundo grupo de dados deste resultado podemos concluir que a instância está no limite entre os níveis muito baixo e baixo. A Figura 22 exibe a predição do sistema para uma instância com nível baixo. Esta instância pertence ao segundo grupo, ou seja, o grupo com 40 atributos. Assim como o exemplo anterior, todos os modelos predizeram o exemplo como negativo. Onde a menor conança foi para o modelo que prediz o nível médio. 104 Figura 21: Predição de uma instância baixa positiva do primeiro grupo de dados Pode-se perceber que as duas predições se complementam, pois a primeira exibe que a instância está entre muito baixa e médio, já a segunda predição exibe que a instância pode ser média. O resultado para este exemplo pode identicar uma tendência de crescimento do nível criminal nesta área de muito baixo a médio. Figura 22: Predição de uma instância baixa positiva do segundo grupo de dados Nível Médio Diferente dos exemplos anteriores, não foi utilizado uma instância com o nível 105 criminal verdadeiro para aquele conceito, ou seja, a instância utilizada não pertence ao conceito que o modelo prediz. A instância utilizada como exemplo não será uma com nível médio e pertencerá ao primeiro grupo de dados. Todos os modelos armaram que a instância é negativa com maior conança para o modelo que prediz o nível médio, conrmando o que nós já sabíamos. O modelo armou que ele tem 90% de conança que a instância não tem nível médio e 60% de conança que não é muito baixa ou alta, indicando possivelmente que o exemplo é de uma destes níveis. Para tentar armar qual nível esta instância exemplo pertence, pode-se utilizar o segundo grupo de dados. Esta estratégia será utilizada pois o modelo preveu com pouca certeza classes tão distintas semanticamente. A Figura 23 exibe os resultados para a instância pertecente ao primeiro grupo de dados. Figura 23: Predição de uma instância média negativa do primeiro grupo de dados O segundo preditor arma que a instância exemplo tem nível criminal alto com 70% de conança e que a instância pode ter nível alto e muito alto. Lembrando que esta instância pertence ao segundo conjunto de dados, ou seja, o conjunto com 40 atributos. A maior conança exibida foi para a negação da instância para o nível baixo. Assim a partir da conança vista no preditor anterior pode-se armar que o exemplo é pertecente a um limiar entre alta e muito alta, já que o preditor anterior disse com 60% de certeza que a instância tinha nível alto. A Figura 24 exibe o gráco com os resultados para a instância do segundo grupo que não tem nível médio. Nível Alto A instância utilizada para prever o nível alto foi uma instância que não tem este nível criminal e pertence ao primeiro grupo. O preditor que utiliza os dados do primeiro grupo negou a participação para seu nível para todos os modelos, onde teve maior conança na sua armação para o nível muito alto e o menor para o nível muito 106 Figura 24: Predição de uma instância média negativa do segundo grupo de dados baixo. Isto signica que o preditor tem muita conança que o exemplo não tem nível muito alto e provalvelmente a instância pertença ao nível muito baixo. A Figura 25 exibe o resultado discutido. Figura 25: Predição de uma instância alta negativa do primeiro grupo de dados Assim como o exemplo anterior, o preditor negou a participação da instância pertencente ao segundo grupo em todos os modelos e teve a menor conança para o nível muito baixo e a maior para o nível muito alto. Provavelmente assim como o resultado do 107 primeiro preditor a instância tenha o nível muito baixo. A partir de ambos os resultados, podemos armar que a instância pertence ao nível muito baixo. Ver a Figura 26 para visualizar o resultado discutido. Figura 26: Predição de uma instância alta negativa do segundo grupo de dados Nível Muito Alto A instância escolhida foi também uma negativa para a nível muito alto. Lem- brando que esta instância pertence ao primeiro grupo de dados. O preditor preveu para todos os modelos que o exemplo não pertence a nenhum nível. O preditor demonstrou maior conança na sua armação para o nível alto e muito alto e baixa conança no nível muito baixo. A Figura 27 exibe estes resultados. Já o segundo preditor exibiu resultados diferentes do primeiro. Ele também negou para todos os níveis a participação do exemplo, com uma alta conança no nível alto (95%) e baixa conança no nível baixo (80%). Os dois preditores se contradizem em respeito ao nível muito baixo, mas podemos tirar uma conclusão deste exemplo. Sabe-se que o exemplo é negativo para o nível muito alto, a conrmação do nível se dará a partir da maior conança, caso o modelo preveja positivamente ou a menor conança caso contrário. O primeiro preditor exibiu esse resultado, ele forneceu uma baixa conança para o nível muito baixo e uma alta conança para nível muito alto, informação que já sabíamos. Podemos concluir que a instância pertença ao nível muito baixo, pois resultou em uma baixa conança no primeiro preditor. Não utilizamos o resultado do segundo preditor pois as menores conanças de cada modelo foram consideradas altas e diferentes das encontradas no primeiro preditor. A conança do nível muito baixo do primeiro preditor apresentou o valor exibiu o valor 0, 90. 0, 65, já o segundo preditor 108 Figura 27: Predição de uma instância muito alta negativa do primeiro grupo de dados Figura 28: Predição de uma instância muito alta negativa do segundo grupo de dados 5.4.4 Avaliação Preliminar Nesta fase deve-se executar uma avaliação preliminar para que a próxima fase seja executada. Nesta fase dene-se a execução de tarefas como a vericação dos resultados alcançados, vericando a exatidão e a conablidade do modelo. Garantindo que os resultados técnicos e semânticos são válidos. tratadas na próxima seção. Detalhes sobre as métricas técnicas serão 109 Requisitos de negócio como tempo de treinamento, tempo de resposta, legibilidade e visualização dos resultados foram satisfeitos na construção dos preditores. O maior tempo de treinamento levado foi de 1 hora, 3 minutos e 17 segundos e mínimo de 2 minutos e 10 segundos. Lembrando que o treinamento é feito apenas uma vez e que na execução diária do preditor não será necessário fazer nenhum treinamento adicional. O tempo de resposta é inferior a 2 segundos e a legibilidade e visualização dos resultados estão de acordo com o denido pelo analista de negócio. Os grácos conseguiram exibir os resultados desejados na fase de entendimento do negócio. O gráco é legível pois nele podemos visualizar a predição e a conança de todos os modelos. 5.5 Avaliação As métricas de performance foram apresentadas e discutidas na sub-Seção 5.4.4 e as métricas técnicas serão apresentadas na próxima seção. Anteriormente foi denido que um dos requisitos técnicos para o sistema era que a taxa de acerto deveria ser acima de 70%. Todos os modelos construídos e testados tiveram uma taxa de acerto superior a 70%, chegando a 76.7%. 5.5.1 Avaliação dos Resultados Esta etapa irá apresentar os resultados técnicos alcançados pelo modelo. Os resultados serão apresentados para cada modelo, em cada grupo de dados. As métricas apresentadas serão: Quantidade de Instâncias Classicadas Corretamente; Quantidade de Instâncias Classicadas Incorretamente; Erro Médio Absoluto; Erro Médio Quadrático;neural Matriz de Confusão; Resultados da aplicação de cada modelo no primero grupo de dados. Nível Criminal Muito Baixo; Total de Instâcias do Conjunto de Teste: 14652 Instâncias Classicadas Corretamentes: 11018 75.1979% Instâncias Classicadas Incorretamentes: 3634 24.8021% Erro Médio Absoluto: 0.3606 Erro Médio Quadrático: 0.4283 110 Atual sim não 11018 0 sim 3634 0 não Predito Matriz de Confusão Nível Criminal Baixo; Total de Instâcias do Conjunto de Teste: 9098 Instâncias Classicadas Corretamentes: 6815 74.9066 % Instâncias Classicadas Incorretamentes: 2283 25.0934 % Erro Médio Absoluto: 0.3607 Erro Médio Quadrático: 0.4266 Atual sim não 6815 0 sim 2283 0 não Predito Matriz de Confusão Nível Criminal Médio; Total de Instâcias do Conjunto de Teste: 3558 Instâncias Classicadas Corretamentes: 2667 74.9578 % Instâncias Classicadas Incorretamentes: 891 25.0422 % Erro Médio Absoluto: 0.3407 Erro Médio Quadrático: 0.4299 Atual sim não 2657 13 sim 878 10 não Predito Matriz de Confusão Nível Criminal Alto; Total de Instâcias do Conjunto de Teste: 1053 Instâncias Classicadas Corretamentes: 778 73.8841 % Instâncias Classicadas Incorretamentes: 275 26.1159 % Erro Médio Absoluto: 0.3533 Erro Médio Quadrático: 0.4282 111 Atual sim não 748 43 sim 232 30 não Predito Matriz de Confusão Nível Criminal Muito Alto; Resultados do modelo para o nível alto; Total de Instâcias do Conjunto de Teste: 1069 Instâncias Classicadas Corretamentes: 790 73.9008 % Instâncias Classicadas Incorretamentes: 279 26.0992 % Erro Médio Absoluto: 0.3168 Erro Médio Quadrático: 0.4467 Atual sim não 761 24 sim 255 29 não Predito Matriz de Confusão Resultados da aplicação de cada modelo no segundo grupo de dados. Nível Criminal Muito Baixo; Total de Instâcias do Conjunto de Teste: 16052 Instâncias Classicadas Corretamentes: 12299 76.6197 % Instâncias Classicadas Incorretamentes: 3753 23.3803 % Erro Médio Absoluto: 0.3361 Erro Médio Quadrático: 0.4094 Atual sim não 11783 629 sim 3124 516 não Predito Matriz de Confusão Nível Criminal Baixo; 112 Total de Instâcias do Conjunto de Teste: 9098 Instâncias Classicadas Corretamentes: 6692 73.5546 % Instâncias Classicadas Incorretamentes: 2406 26.4454 % Erro Médio Absoluto: 0.3555 Erro Médio Quadrático: 0.4301 Atual sim não 6539 276 sim 2130 153 não Predito Matriz de Confusão Nível Criminal Médio; Total de Instâcias do Conjunto de Teste: 3558 Instâncias Classicadas Corretamentes: 2632 73.9741 % Instâncias Classicadas Incorretamentes: 926 26.0259 % Erro Médio Absoluto: 0.3104 Erro Médio Quadrático: 0.439 Atual sim não 2595 75 sim 851 37 não Predito Matriz de Confusão Nível Criminal Alto; Total de Instâcias do Conjunto de Teste: 1053 Instâncias Classicadas Corretamentes: 782 74.264 % Instâncias Classicadas Incorretamentes: 271 25.736 % Erro Médio Absoluto: 0.3032 Erro Médio Quadrático: 0.4442 Atual sim não 719 72 sim 199 63 não Predito Matriz de Confusão 113 Nível Criminal Muito Alto; Total de Instâcias do Conjunto de Teste: 1069 Instâncias Classicadas Corretamentes: 766 71.6558 % Instâncias Classicadas Incorretamentes: 303 28.3442 % Erro Médio Absoluto: 0.3238 Erro Médio Quadrático: 0.4791 Atual sim não 703 82 sim 221 63 não Predito Matriz de Confusão 5.5.2 Revisão Esta subfase faz uma revisão geral de todo o processo de pré-processamento, treinamento, avaliação e visualização do preditor construído. É vericado se todos os passos denidos pelo processo foram realizados e os motivos para que alguns passos não tenham sido executados. Entendimento do Negócio Esta fase foi contemplada através do levantamento da natureza do negócio: a criminalidade. Foram enumerados os requisitos do negócio que deveriam ser satisfeitos, tais como: 1. Predizer o nível criminal de áreas geográcas a partir de dados sociais, econômicos e criminais; 2. Utilizar o modelo para melhorar a alocação de recursos; 3. Aumentar as políticas sociais em áreas com níveis criminais acima do esperado; 4. Facilitar a decisão do administrador em segurança sobre o aumento do policiamento sobre áreas especícas; 5. Ter um modelo com boa usabilidade, que exiba informações de grande relevância; Após os requisitos do negócio terem sido denidos foi preciso denir os requisitos do projeto. Os requisitos do projeto trata do processo de concepção, criação e divulgação do modelo preditivo. Questões relacionadas aos dados criminais, sociais, econômicos, geográcos e temporais foram estabelecidos e discutidos. O modelo prediz níveis criminais utilizando 5 conceitos: muito baixo, baixo, médio, alto e muito alto. Questões relacionadas 114 a plataforma de programação e ao framework de mineração de dados também foi tratado. Foi denido que iríamos utilizar a linguaguem de programação Java, com a suíte Weka para implementar o processo proposto. Os riscos que poderiam inviabilizar ou atrasar o projeto foram identicados, dentre eles podemos citar a proibição ou atraso na entrega dos dados, precisão do método abaixo do previsto e descoberta de informações irrelevantes. Para cada risco identi- cado foi criado um plano alternativo para ser executado caso a situação de risco venha a acontecer. Após os requisitos de negócio e de projeto terem sido denidos, tratamos dos objetivos e requisitos técnicos. Os objetivos trata da tradução dos objetivos de negócio para problemas tratáveis por técnicas de mineração de dados e os requisitos técnicos irão tratar da performance e acurácia do modelo a ser construído. A predição do nível criminal de áreas geográcas, utilizando dados criminais e sócio-econômicos, foi traduzido em uma tarefa de aprendizado de conceito. Cada conceito, nível criminal, foi predito por um modelo, sendo que cada modelo irá armar se o exemplo é do conceito que ele representa. Assim o preditor foi composto de 5 modelos, onde cada um irá armar se a instância faz parte do nível criminal que ele representa. Além de armar a participação da instância no determinado nível criminal, ele irá armar a conança em sua resposta. Detalhes sobre como o processo metodológico foi desenvolvido através de um plano de atuação, que foi dividido em 4 partes importantes: levantamento da ferramenta de modelagem, coleta e análise dos dados, modelagem e divulgação do método. Todos esses pontos foram tratados e discutidos para que o processo de construção do preditor seja alcançado. Os dados foram coletados de duas bases diferentes. Os dados criminais referentes aos anos de 2007 e 2008 foram cedidos pela SSPDS. Já os dados sócio-econômicos foram coletados através do projeto Observatório das Metrópoles que observa fenômenos sociais das metrópoles brasileiras. Os dados sócio-econômicos são referentes a Educação, Demograa, Emprego, Renda e Moradia da de 2000. RMF, coletados pelo Censo realizado no ano Já os dados criminais são compostos por crimes realizados na RMF, dentre as variáveis temos o turno e o dia do acontecimento, região demográca e crime cometido. Após a coleta e descrição dos dados terem sido realizados, foi necessário fazer uma exploração inicial com o objetivo de levantar algumas hipóteses iniciais e relações entre os dados. Nesta tarefa identica-se exemplos como valores faltantes ou fora do padrão. Nenhum dos exemplos continha valores faltantes e todos os outlyers (exemplos fora do padrão) identicados eram na maioria exemplos cujo município era diferente de Fortaleza, cuja eliminação foi cancelada devido a esta característica. Após este passo ter sido concluído, foi exibido a distribuição dos níveis criminais do conjunto de dados, sendo o nível muito baixo como a majoritária e a muito alto a minoritária. Como o objetivo técnico se baseou no aprendizado de 5 diferentes conceitos (níveis criminais), sendo assim criamos 5 conjuntos de dados diferentes a partir do conjunto de dados originais. Cada conjunto é composto pelos exemplos que pertecem a aquele 115 determinado nível e aqueles que não pertencem. Utilizamos um cálculo para denir qual o nível criminal o exemplo pertence, utilizando a quantidade máxima e mínima de crimes cometidos. Após estes passos terem sido concluídos, iniciamos o processo de seleção dos melhores atributos. A aplicação de algoritmos de seleção de atributos é utilizada para diminuir a quantidade de atributos, eliminando aqueles que são irrelevantes ou redundantes. Este processo foi necessário para otimizar o processo de aprendizagem do modelo. O conjunto de dados contém um total de 69 atributos, sendo que após a seleção esse número caiu para 36 atributos distintos. Percebemos que foram excluídos atributos pertencentes aos dados criminais como município, turno do dia, mês e ano do acontecimento do crime. Decidimos criar outro conjunto de dados com 40 atributos, 4 novos atributos (atributos excluídos) mais 36 já existentes. Estes novos atributos foram adicionados pois são importantes para o negócio, isto é, para o entendimento da criminalidade. Sendo o município, turno do dia, mês e ano do acontecimento do crime os atributos excluídos. Após denido o nível criminal, separamos dois grupos de 5 conjuntos baseado no conceito que lhe foi denido. Onde o primeiro grupo contém 5 conjuntos contendo 36 atributos e o segundo contendo 40 atributos. Depois de todo o processamento e a formatação realizada nos dados deve-se denir qual algoritmo de aprendizagem será utilizado. O algoritmo de aprendizagem utilizado foram as redes neurais, pois trata-se de um método que produz resultados bastante genéricos e tem uma alta capacidade de aprendizagem. Como o aprendizado se baseou em conceitos, foi criado uma rede neural para cada conjunto de dados, resultando em 5 redes neurais para o primeiro grupo e 5 redes para o segundo grupo. A taxa de acerto foi satisfatória pois atingiu ao limiar denido pela equipe de negócio. A visualização dos resultados foi feita através de grácos que exibem a predição de cada rede e a conança que a rede teve em armar tal resultado. O gráco de linha foi escolhido como veículo de visualização pois exibe os resultados preditivos de forma clara e objetiva. Após os modelos terem sido criados e os resultados terem sido observados, temos que lidar com a avaliação do sistema. A avaliação do sistema é baseada tantos nos resultados do negócio quanto nos resultados técnicos, sendo que os requisitos de negócio e técnico foram denidos na fase de entendimento do negócio. Estas etapas trataram de questões de negócio, como o modo que o resultado deveria ser apresentado, qual a forma de acesso e quais os dados deveriam ser levados em conta. Além dos requisitos de negócio, denimos métricas que deveriam ser obedecidas para validar o modelo. O modelo seria satisfatório caso tivesse uma taxa de acerto superior a 70% e que o tempo de treinamento e execução fosse satisfatório. Todos esse requisitos foram satisfeitos pelos dois preditores construídos, todos tiveram uma forma fácil e rápida de visualizar os resultados e obtiveram uma taxa de acerto superior a 70%. 116 5.5.3 Próximas Ações As próximas ações devem ser planejadas para a correta divulgação dos preditores escolhidos. Baseado na revisão de todo o processo executado, podemos concluir que o projeto deve seguir para a próxima fase, a fase de divulgação. Todas as ações executadas já foram explicadas e as próximas ações serão desenvolvidas no processo de divulgação do projeto. Como trabalhos futuros iremos melhorar a interface de visualização dos resultados, implementando um método de visualização utilizando mapas georeferenciados para facilitar a entrada dos dados e visualização dos níveis criminais das áreas. 5.6 Divulgação O processo de divulgação do modelo preditivo deve ser usável, rápido e legível para os usuários nais. A divulgação dos resultados é feita através de grácos que exibem a predição de cada modelo e a conança que ele tem em armar a predição realizada. Por exemplo a Figura 25 exibe um gráco de predição de uma instância com classe alta. O sistema implementado fornece meios para estudar, prever e simular situações criminais e sócio-econômicas reais ou ctícias. O estudo, predição e simulação de situações é possível por meio da variação de valores nos dados sócio-econômicos. Estas variações permitem que o analista possa criar situações que possam servir como apoio a decisões estratégicas de combate ao crime e de aumento do bem-estar da população. A utilização do sistema permite que se estude comportamentos gerados a partir da variação de valores feitas a partir de uma pergunta ao sistema. A resposta do sis- tema será um gráco, similar ao exibido na Figura 25. Assim, o analista pode vericar as consequências que podem acontecer no aumento ou decréscimo nos valores das variáveis sócio-econômicas. Podendo assim criar estratégias prévias para solucionar possíveis problemas caso os valores reais atinjam os valores dados como entrada ao sistema. Estratégias sócio-educativas também podem ser criadas a partir da utilização do sistema proposto. O poder público pode através do sistema ver as consequências, aumento ou decréscimo do nível criminal, a partir da variação de dados sócio-econômicos. Perguntas como estas poderão ser respondidas com o uso do sistema implementado: Será possível que o nível criminal baixe criando escolas e postos de saúde em determinada região? Será que o nível criminal terá alterações na inserção de um parque industrial na região. Uma interface para facilitar a realização destes estudos está sendo implementada, permitindo assim melhorar a usabilidade dos estudos a serem feitos pelos analistas. 117 5.6.1 Plano de Divulgação O plano de divulgação descrito deverá conter diretrizes para implantação e manuntenção do sistema a ser implantado. Recomendamos que o processo de implantação deve ser realizado em um servidor para o uso de todos os usuários que tem o direito de utilização. Os usuários autorizados poderão utilizar o modelo de forma remota através de protocolos de acesso como VNC ou sistema que controle o acesso. Recomendamos que a manutenção do sistema seja feita semestralmente, onde será feito um novo treinamento utilizando os novos dados produzidos durante o período de uso. Esta atualização deve ser realizada pois a criminalidade é um fenômeno muito dinâmico, necessitando que os novos dados gerados sejam inseridos no conjunto de treinamento do modelo. Além da atualização, semestralmente deverá ser feita uma reunião com o objetivo de avaliar o uso do sistema e os resultados reais alcançados. Esperamos que o preditores desenvolvidos possam auxiliar os gestores na alocação dos recursos policiais e melhora das características sócio-econômicas das áreas mais afetadas pela violência. Métricas devem ser comparadas antes e depois do uso da ferramenta. Deve-se também ser observado se os crimes se movimentaram, isto é, modicaram sua área de atuação devido a intensicação policial nas regiões com alto nível criminal. O relatório nal produzido é um capítulo da dissertação do aluno Marcelo Damasceno. A dissertação trata-se da proposta do processo utilizado no desenvolvimento deste sistema e o capítulo de estudo de caso foi formatado em forma de relatório. A apresentação nal do projeto será realizada na defesa do título de mestre a ser feita pelo aluno. Além da apresentação do processo e da implementação do mesmo, será discutido os fundamentos utilizados no desenvolvimento do projeto. 118 6 Conclusões e Trabalhos Futuros O problema da criminalidade infelizmente está presente no nosso cotidiano. A criminalidade origina diversos problemas, como econômicos, sociais e psicológicos. Combater o avanço da criminalidade é um dever do poder público e deve ser encarado com prioridade. O combate ao crime deve ser feito tanto reativamente quanto preventiva- mente, assim, a organização e o uso de métodos cientícos devem ser desenvolvidos para auxiliar o trabalho policial. Diversos trabalhos vêm sendo desenvolvidos para o combate da criminalidade, dentre eles podemos citar a identicação de criminosos, conexões entre guangues e fraudes, determinação de áreas mais perigosas e previsão de crimes baseado no histórico criminal. Neste trabalho foi proposto um processo de mineração de dados para predição de níveis criminais de áreas geográcas urbanas, utilizando a Região Metropolitana de Fortaleza como estudo de caso. Para realizar as predições foram utilizados dados criminais dos anos de 2007 e 2008 e dados sócio-econômicos da região metropolitana citada. dados sócio-econômicos foram oriundos do censo realizado pelo IBGE Os no ano 2000. O processo construído têm como objetivo servir de guia para o desenvolvimento de novos sistemas utilizados para a previsão de níveis criminais em áreas geográcas. Sua proposta foi devido a diculdade na concepção e no desenvolvimento do estudo de caso e da ausência de literatura especializada nesta área. Além de ser possível aplicá-la em qualquer região demográca, pois os dados necessários podem ser coletados localmente, através de sua secretaria de segurança e do IBGE. Diferenciamos de outras técnicas pre- ditivas presentes na literatura por não usar somente dados criminais, mas também dados sócio-econômicos. Acreditávamos que as características sócio-econômicas de uma região inuenciariam a criminalidade no local, hipóstese provada pelo nosso estudo de caso. Qualquer setor de inteligência pode utilizar o processo proposto para construir um sistema ágil e conável, além de motivador para o conhecimento de diversas características criminais e sócio-econômicas de sua região. O sistema preditivo construído utilizando o processo proposto neste trabalho fornece a possibilidade de estudar, analisar e simular eventos reais ou ctícios. Estes estudos são possíveis devido a possibilidade de variar os valores das variáveis criminais e sócio-econômicas. A possibilidade de predizer o nível criminal de uma situação hipotética a partir da variação de valores permite que o analista possa criar estratégias de combate ao crime e do aumento do bem-estar da população. Com o uso do sistema ele poderá responder questões como: A inserção de uma escola irá alterar o nível criminal? Qual as 119 variáveis mais critícas nesta área para o aumento do nível criminal? A melhora na renda inuenciará o número de crimes? O processo foi separado em fases, baseado no processo de Descoberta de Conhecimento em Banco de Dados (DCBD) e no processo CRISP-DM. Cada fase é composta de sub-fases focadas na resolução de determinadas sub-tarefas que podem utilizar passos anteriores como parte de seu processamento. Ao nal da execução de todo o processo, teremos um sistema preditivo e sua documentação concluída. A documentação tratará de todos os aspectos desenvolvidos no processo, desde a concepção, distribuição e treinamento do sistema. Para vericar a ecácia do processo, utilizamos como estudo de caso a Região Metropolitana de Fortaleza. Para a construção do modelo, utilizamos dados criminais provenientes da Secretaria de Segurança Pública referente aos anos de 2007 e 2008; e dados sócio-econômicos levantandos no censo de 2000. Os dados criminais e sócio-econômicos foram agrupados em regiões demográcas, conhecidas com gráca), denidas pelo AED (Área de Expansão Demo- IBGE. Um sistema preditor foi construído baseado na aprendizagem de conceito, onde os conceitos denidos são relativos ao nível criminal de cada área em diversos crimes: muito baixo, baixo, médio, alto e muito alto. Foi obtido uma precisão superior a 70% e um método diferenciado de se analisar o resultado. Os grácos utilizados como método de visualização permitiu que a interpretação fosse diferente. O resultado da previsão pode ser visto além de uma visão determinística, baseada no conceito, mas também de forma subjetiva. Através dos grácos, podemos identicar uma mudança de conceito, ou seja, uma tendência de aumento ou diminuição do nível criminal. Esta análise é importante para a organização do efetivo policial. A antecipação de um comportamento criminal pode ser crucial para o combate ao crime, livrando a população de diversos males. Ambos preditores tiveram uma boa precisão, todas acima de 70%. A melhor precisão foi de 76.6% e a pior foi de 71.65% para os preditores que predizem o nível criminal muito baixo e muito alto respectivamente, ambos utilizando o segundo conjunto de dados. Deve-se observar que os exemplos de todos os conjuntos de dados estão desbalanceados, isto é, existem mais exemplos de um conceito do que do outro. Os modelos desenvolvidos conseguiram ter uma boa precisão em todos os conceitos, armando e negando a participação de determinado exemplo naquele nível criminal, mesmo com classes desbalanceadas. Como trabalho futuro, foi identicado a aplicação do modelo construído utilizando dados mais recentes, sendo avaliado utilizando os crimes observados no ano de 2009 e 2010. Além da avaliação, sugerimos a integração do modelo construído a um sis- GIS e a uma melhor interface, facilitando o sistema GIS facilitará a interação do usuário com tema seu uso. A interface integrada a um o sistema, facilitando a visuzalização das áreas geográcas e a visualização e edição dos valores dos dados criminais e sócioeconômicos dados como pergunta ao sistema preditor. Novos algoritmos de aprendizagem podem ser utilizados, podendo fornecer resultados superiores aos encontrados. 120 Referências ADDERLEY, R. The Use of Data Mining Techniques in Operational Crime Fighting. Lecture Notes in Computer Science, v. 3073, p. 418425, 2004. ADORNO, S. Crime, justiça penal e igualdade jurídica: os crimes que se contam no tribunal do júri. Revista USP, v. 21, p. 133151, 1994. ADORNO, S. Discriminação racial e justiça criminal. Cebrap, v. 43, p. 4563, 1995. ADORNO, S. Exclusão socioeconômica e violência urbana. Sociologias, v. 8, p. 84135, 2002. ADORNO, S.; CARDIA, N. Dilemas do controle democrático da violência: execuções sumárias e grupos de extermínio. Violências em tempo de globalização, v. 1, p. 6690, 1999. ADORNO, S.; LIMA, R.; BORDINI, E. O jovem e a criminalidade urbana em São Paulo. [S.l.], 1999. AGRAWAL, R.; SRIKANT, R. Fast Algorithms for Mining Association Rules. In: Proceedings of the 20th VLDB Conference. Santiago, Chile: [s.n.], 1994. ALBANESE, J. The prediction and control of organized crime: A risk assessment instrument for targeting law enforcement eorts. Trends in Organized Crime, Springer, v. 6, n. 3, p. 429, 2001. ALLEN, D. Mean square error of prediction as a criterion for selecting variables. Technometrics, JSTOR, p. 469475, 1971. ANAND, S.; BUCHNER, A. Decision Support Using Data Mining. London: Financial Time Management, 1998. ANAND, S. et al. A data mining methodology for cross-sales. Knowledge Based Systems Journal, v. 10, p. 449461, 1998. ARMSTRONG, J. Research needs in forecasting. International Journal of Forecasting, v. 4, p. 449465, 1988. AUSTIN, J.; NARO, W.; FABELO, T. Public Safety, Public Spending. [S.l.]: Pew Charitable Trusts, 2007. AZIMI, A.; DELAVAR, M. Urban crime mapping using spatial data mining. Urban and Regional Data Management UDMS 2007 Annual, CRC, v. 1, p. 465, 2007. BABST, D.; GOTTFREDSON, D.; BALLARD, K. Comparison of multiple regression and congural analysis techniques for developing expectancy tables. J. Res. Crime Delinquence, v. 5, n. 1, p. 7280, 1968. 121 BARATA, R. B.; RIBEIRO, M. C. S. de A. Relação entre homicídios e indicadores econômicos em São Paulo, Brasil, 1996. Revista Panamericana de Salud Pública, v. 7, n. 2, p. 118124, 2000. BARTH, F. J. et al. Recuperação e mineração de informações para a área criminal. In: VI Encontro Nacional de Inteligência Articial. [S.l.: s.n.], 2007. BASSEVILLE, M.; NIKIFOROV, I. V. Detection of Abrupt Changes: Theory and Application. [S.l.]: Prentice Hall, 1993. BEATO, C. C. Determinantes da criminalidade em Minas Gerais. Revista Brasileira de Ciências Sociais, v. 13, p. 7487, 1988. BERK, R. Forecasting methods in crime and justice. Annual Review of Law and Social Science, Annual Reviews, v. 4, p. 219238, 2008. BERK, R.; HE, Y.; SORENSON, S. Developing a practical forecasting screener for domestic violence incidents. Evaluation Review, v. 29, n. 4, p. 358384, 2005. BERK, R.; KRIEGLER, B.; BAEK, J. Forecasting dangerous inmate misconduct: an application of ensemble statistical procedures. Journal of Quantitative Criminology, v. 22, n. 2, p. 131145, 2006. BERK, R. et al. Prisons as self-regulating systems: a comparison of historical patterns in california for male and female oenders. Law Soc. Rev., v. 17, n. 4, p. 547586, 1983. BERRY, M.; LINOFF, G. Data mining techniques: for marketing, sales, and customer support. [S.l.]: John Wiley & Sons, Inc. New York, NY, USA, 1997. BHANDARI, I. et al. Advanced scout: Data mining and knowledge discovery in NBA data. Data Mining and Knowledge Discovery, Springer, v. 1, n. 1, p. 121125, 1997. BISHOP, C. M. Pattern Recognition and Machine Learning. [S.l.]: Springer, 2006. BLUMSTEIN, A.; LARSON, R. Models of a total criminal justice system. Oper. Res., v. 17, n. 2, p. 199232, 1969. BOGGS, S. Urban crime patterns. American Sociological Review, JSTOR, v. 30, n. 6, p. 899908, 1965. BOUCKAERT, R. et al. WEKA Manual for version 3.7.0. Hamilton, New Zealand, 2009. BRANT, V. O trabalho encarcerado. [S.l.]: Forense, 1994. BRANTINGHAM, P.; BRANTINGHAM, P. Patterns in crime. [S.l.]: Macmillan, 1984. BROSSETTE, S. et al. A data mining system for infection control surveillance. Die Medizinische Welt, v. 58, n. 7, p. 315321, 2007. BROWN, D. Data mining to catch criminals: The regional crime analysis system (recap). In: Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics. San Diego, California: [s.n.], 1998. 122 BROWN, D. The Regional Crime Analysis Program (ReCAP): a framework for mining data to catch criminals. In: 1998 IEEE International Conference on Systems, Man, and Cybernetics, 1998. [S.l.: s.n.], 1998. v. 3. BROWN, D.; LIU, H. A New Approach to Spatial-Temporal Criminal Event Prediction. In: The ESRI International User Conference Proceedings. Environmental Systems Research Institute, Inc., CA. [S.l.: s.n.], 1999. BRUHA, I.; FAMILI, A. Postprocessing in machine learning and data mining. ACM SIGKDD Explorations Newsletter, ACM, v. 2, n. 2, p. 114119, 2000. BURGESS, E. Factors determining sucess or failure on parole. In: The Working of the Indeterminant Setence Law and the Parole System in Illinois. [S.l.: s.n.], 1928. CABENA, P. et al. Discovering Data Mining: From Concepts to Implementation. [S.l.]: Prentice Hall, 1998. CAMARGO, E. et al. Mapeamento do risco de homicídio com base na co-krigeagem binomial e simulação: um estudo de caso para São Paulo, Brasil. Cad. Saúde Pública, SciELO Public Health, v. 24, n. 7, p. 14931508, 2008. CANO, I.; SANTOS, W. Violência letal, renda e desigualdade social no Brasil. [S.l.]: 7letras, 2001. CANTER, P. State of the statistical art: Point pattern analysis. In: Workshop on Crime Analysis Through Computer Mapping Proceedings. [S.l.: s.n.], 1993. CARDIA, N. Pesquisa sobre atitudes, normas culturais e valores em relação à violência em dez capitais brasileiras. [S.l.], 1999. CASTRO, M. Assassinatos de crianças e adolescentes no Estado de São Paulo. Revista Crítica de Ciências Sociais, v. 36, p. 81102, 1993. CECCATO, V. Homicide in Sao Paulo, Brazil: Assessing spatial-temporal and weather variations. Journal of Environmental Psychology, Elsevier, v. 25, n. 3, p. 307321, 2005. CHAN, P. K. et al. Distributed data mining in credit card fraud detection. IEEE Intelligent Systems, IEEE Computer Society, Los Alamitos, CA, USA, v. 14, p. 6774, 1999. ISSN 1094-7167. CHAPMAN, P. e. a. CRISP-DM 1.0 Step-by-Step Data Mining Guide. 2000. CHAU, M.; XU, J.; CHEN, H. Extracting meaningful entities from police narrative reports. In: Procedings of the National Conference for Digital Government Research. Los Angeles, California, USA: [s.n.], 2002. CHEN, H. et al. Crime data mining: an overview and case studies. In: DIGITAL GOVERNMENT SOCIETY OF NORTH AMERICA. Proceedings of the 2003 annual national conference on Digital government research. [S.l.], 2003. p. 15. CHEN, H. et al. Crime data mining: A general framework and some examples. Computer, IEEE Computer Society, Los Alamitos, CA, USA, v. 37, n. 4, p. 5056, 2004. ISSN 0018-9162. 123 CIOS, K. et al. Diagnosing myocardial perfusion from PECT bull's-eye maps-a knowledge discovery approach. IEEE Engineering in Medicine and Biology Magazine, v. 19, n. 4, p. 1725, 2000. COELHO, E. A criminalidade urbana violenta. Revista de Ciências Sociais, v. 31, n. 2, p. 145183, 1988. COHEN, J. The geography of crime. The Annals of the American Academy of Political and Social Science, Am Acad Poli Science, v. 217, n. 1, p. 29, 1941. COHEN, J.; GORR, W.; OLLIGSCHLAEGER, A. Modeling Street-Level Illicit Drug Markets. In: III School of Public Policy and Management. [S.l.: s.n.], 1993. COHEN, L.; FELSON, M. Social change and crime rate trends: A routine activity approach. American Sociological Review, v. 44, p. 588607, 1979. COHEN, L.; LAND, K. Age structure and crime: symmetry versus asymmetry and the projection of crime rates through the 1990s. Am, Sociol. Rev., v. 52, p. 170183, 1987. DEROECK, R. Is there a gap between forecasting theory and practice? A personal view. International Journal of Forecasting, v. 6, p. 1719, 1991. DIóGENES, G. Cartograas da cultura e da violência: gangues, galeras e movimento hip hop. [S.l.]: AnnaBlume, 1998. DONZIGER. The real war on crime. [S.l.]: Harpers Collins Publishers, 1996. ESTATISTICA, I. B. de Geograa e. Instituto Brasileiro de Geograa e Estatistica. 2010. Último acesso em Abril de 2010. Disponível em: <http://www.ibge.gov.br>. ETZIONI, O. et al. Unsupervised named-entity extraction from the web: An experimental study. Articial Intelligence, Elsevier, v. 165, n. 1, p. 91134, 2005. FAWCETT, T.; PROVOST, F. J. Combining data mining and machine learning for eective user proling. In: KDD. [S.l.: s.n.], 1996. p. 813. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 3754, 1996. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Knowledge discovery and data mining: towards a unifying framework. In: Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland, OR: [s.n.], 1996. p. 8288. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, ACM, v. 39, n. 11, p. 2734, 1996. FAYYAD, U. et al. Advances in Knowledge Discovery and Data Mining. [S.l.]: AAAI Press, 1996. FELSON, M.; CLARKE, R. Opportunity makes the thief. [S.l.]: Home Oce, Police Research Group, 1998. 124 FELSON, M.; POULSEN, E. Simple indicators of crime by time of day. International Journal of Forecasting, v. 19, p. 595601, 2003. GARLAND, D. The Culture of control: crime and social order in contemporary society. [S.l.]: University of Chicago Press, 2001. GARNER, S. R. Weka: The waikato environment for knowledge analysis. In: In Proc. of the New Zealand Computer Science Research Students Conference. [S.l.: s.n.], 1995. p. 5764. GAWRYSZEWSKI, V. P.; COSTA, L. S. Homicídios e desigualdades sociais no município de São Paulo. Rev. Saúde Pública [online], v. 39, n. 2, p. 191197, 2005. GLASER, D. Prediction tables as accounting devices for judges and parole boards. Crime Delinquence, v. 8, n. 3, p. 239250, 1962. GLUECK, S.; GLUECK, E. 500 Criminal Careers. [S.l.]: Knopf, 1930. GLYMOUR, C. et al. Statistical Inference and Data Mining. Communications of the ACM, v. 39, n. 11, p. 3541, 1996. GOODMAN, L. The use and validity of a prediction instrument. i. a reformulation of the use of a prediction instrument. Am. J. Sociol., v. 58, p. 501510, 1953. GOODMAN, L. The validation of prediction. Am. J. Sociol., v. 58, p. 510512, 1953. GORR, W.; HARRIES, R. Introduction to crime forecasting. International Journal of Forecasting, Elsevier, v. 19, n. 4, p. 551555, 2003. GORR, W.; OLLIGSCHLAEGER, A.; THOMPSON, Y. Short-term forecasting of crime. International Journal of Forecasting, Elsevier, v. 19, n. 4, p. 579594, 2003. GURR, T. Crime trends in modern democracies since 1945. In: International Annals of Criminology. [S.l.: s.n.], 1989. GUYON, I.; ELISSEEFF, A. An introduction to variable and feature selection. The Journal of Machine Learning Research, MIT Press Cambridge, MA, USA, v. 3, p. 11571182, 2003. HAND, D.; MANNILA, H.; SMYTH, P. Principles of Data Mining. [S.l.]: MIT Press, 2001. HAUCK, R. et al. Using coplink to analyze criminal-justice data. IEEE Computer, v. 35, n. 3, p. 3037, 2002. HIPP, J. et al. Crimes of Opportunity or Crimes of Emotion-Testing Two Explanations of Seasonal Change in Crime. Social Forces, HeinOnline, v. 82, p. 13331372, 2003. HODGE, V.; AUSTIN, J. A survey of outlier detection methodologies. Articial Intelligence Review, Springer, v. 22, n. 2, p. 85126, 2004. HORNICK, M. F.; MARCADé, E.; VENKAYALA, S. Java data mining : strategy, standard, and practice : a practical guide for architecture, design, and implementation. [S.l.]: Elsevier, 2007. 125 HOSMER, D.; LEMESHOW, S.; MAY, S. Applied survival analysis: regression modeling of time to event data. 2. ed. [S.l.]: Wiley-Interscience, 2008. IZUMINO, W. O papel do sistema judiciário na solução dos conitos de gênero. Justiça e violência contra a mulher, v. 1, 1998. JENSEN, F. V. An introduction to Bayesian networks. [S.l.]: UCL press London, 1996. JIE, J. et al. Crime data mining: a general framework and some examples. IEEE Computer, Citeseer, v. 37, p. 5056, 2004. JORGE, M. M. Mortalidade por causas violentas no Município de São Paulo. A situação em 1980. Revista de Saúde Pública, v. 16, p. 1941, 1982. JUSTIçA, net. M. Último da. acesso Investimentos em Julho Estaduais. de 2010. 2010. Inter- Disponível em: <http://portal.mj.gov.br/senasp/data/Pages/MJCF2BAE97ITEMID6CB4BC7A517B4668A5F12EF KASABOV, N. Foundations of neural networks, fuzzy systems, and knowledge engineering. [S.l.]: The MIT Press, 1996. KIANMEHR, K.; ALHAJJ, R. Crime Hot-Spots Prediction Using Support Vector Machine. In: Computer Systems and Applications, 2006. IEEE International Conference on. [S.l.: s.n.], 2006. p. 952959. KIM, K.; HAN, I. Genetic algorithms approach to feature discretization in articial neural networks for the prediction of stock price index. Expert Systems with Applications, Elsevier, v. 19, n. 2, p. 125132, 2000. KLEIMAN, M.; OSTROM, B.; CHEEMAN, F. Using risk assessment to inform setencing decisions for non-violent oenders in virginia. Crime Delinquence, v. 53, n. 1, p. 127, 2007. KLOSGEN, W.; ZYTKOW, J. Handbook of Data Mining and Knowledge Discovery. [S.l.]: Oxford University Press, 2002. KOHAVI, R.; JOHN, G. Wrappers for feature subset selection. Articial intelligence, Elsevier, v. 97, n. 1-2, p. 273324, 1997. KULLBACK, S. Information theory and statistics. [S.l.]: Dover publications Mineola, MN, 1997. KULLBACK, S.; LEIBLER, R. On information and suciency. The Annals of Mathematical Statistics, Institute of Mathematical Statistics, p. 7986, 1951. KURGAN, L. A.; MUSILEK, P. A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review, v. 21, p. 124, 2006. LANDAU, S.; FRIDMAN, D. The seasonality of violent crime: The case of robbery and homicide in Israel. Journal of research in crime and delinquency, NCCD, v. 30, n. 2, p. 163, 1993. LEVENBACH, H.; CLEARY, J. The Beginning Forecaster. [S.l.]: Lifetime Learning Publications, 1981. 126 LEVENBACH, H.; CLEARY, J. The Professional Forecaster. [S.l.]: Lifetime Learning Publications, 1982. LEVENBACH, H.; CLEARY, J. The Modern Forecaster: The Forecasting Process Through Analysis. [S.l.]: Lifetime Learning Publications, 1984. LI, S.-T. et al. A knowledge discovery approach to supporting crime prevention. In: JCIS-2006 Proceedings. [S.l.: s.n.], 2006. LING, C.; LI, C. Data mining for direct marketing: Problems and solutions. In: CITESEER. Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining. [S.l.], 1998. p. 7379. LIPPMANN, R. P. An introduction to computing with neural nets. IEEE ASSP Magazine, v. 3, n. 4, p. 422, April 1987. MAHMOUD, E. et al. Bridging the gap between theory and practice in forecasting. International Journal of Forecasting, v. 8, p. 251267, 1992. MAKRIDAKIS, S.; WHEELWRIGHT, S. C.; MCGEE, V. E. Forecasting:Methods and Application. 3 ed. ed. [S.l.]: John Wiley & Sons, 1998. MCCUE, C. Data Mining and Predictive Analytics: Battlespace Awareness for the War on Terrorism. Defense Intelligence Journal, v. 13, p. 4763, 2005. MCCUE, C. Data Mining and Predictive Analytics in Public Safety and Security. IT Professional, v. 8, p. 1218, 2006. MCCULLOCH, W.; PITTS, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology, Springer, v. 5, n. 4, p. 115133, 1943. METRóPOLES, O. das. Observatório das Metrópoles. weka 2010. Internet. Acesso em Abril de 2010. Disponível em: <web.observatoriodasmetropoles.net>. MICHALSKI, R.; CARBONELL, J.; MITCHELL, T. Machine learning: An articial intelligence approach. [S.l.]: Morgan Kaufmann Pub, 1986. MICROSYSTEMS, S. Java. Maio 2010. Internet. Última visita em Maio de 2010. Disponível em: <http://java.sun.com>. MITCHELL, M.; BROWN, D.; CONKLIN, J. A Crime Forecasting Tool for the Web-Based Crime Analysis Toolkit. In: IEEE Systems and Information Engineering Design Symposium, 2007. SIEDS 2007. [S.l.: s.n.], 2007. p. 15. NATH, S. Crime pattern detection using data mining. In: 2006 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology Workshops, 2006. WI-IAT 2006 Workshops. [S.l.: s.n.], 2006. p. 4144. NEWMAN, O. Defensible space - crime prevention through urban design. In: NCJRS. [S.l.: s.n.], 1972. NORDESTE, D. do. Assassinatos aumentam 33%. Agosto 2009. Internet. Último acesso em junho de 2010. Disponível em: <http://diariodonordeste.globo.com/materia.asp?codigo=664708>. 127 OATLEY, G.; ZELEZNIKOW, J.; EWART, B. Matching and predicting crimes. In: SPRINGER VERLAG. Applications and innovations in intelligent systems XII: proceedings of AI-2004, the twenty-fourth SGAI International Conference on Innovative Techniques and Applications of Articial Intelligence. [S.l.], 2005. p. 19. OLLIGSCHLAEGER, A. Articial neural networks and crime mapping. Crime mapping and crime prevention, v. 1, p. 313347, 1997. PEQUENO, O. L. R. B. Como Anda Fortaleza. Rio de Janeiro: Carta Capital, 2009. PEZZIN, L. Criminalidade urbana e crise econômica. [S.l.]: IPE/USP, 1986. QUINLAN, J. C4. 5: programs for machine learning. [S.l.]: Morgan Kaufmann, 1993. QUINLAN, J. Improved use of continuous attributes in C 4. 5. Journal of Articial Intelligence Research, Citeseer, v. 4, n. 1, p. 7790, 1996. REISS, A. The accuracy, eciency, and validity of a prediction instrument. Am. J. Sociol., v. 56, p. 552561, 1951. RIEDMILLER, M.; BRAUN, H. A direct adaptive method for faster backpropagation learning: The RPROP algorithm. In: SAN FRANCISCO: IEEE. Proceedings of the IEEE international conference on neural networks. [S.l.], 1993. v. 1993, p. 586591. ROBERT. Les comptes du crime. [S.l.]: L'Harmattan, 1994. ROSENBLATT, F. The perceptron: A probabilistic model for information storage and organization in the brain. Psychological review, v. 65, n. 6, p. 386408, 1958. SANTOS, J. Tavares dos. A violência na escola: conitualidade social e ações civilizatórias. Revista da Faculdade de Educação da USP, v. 27, p. 105122, 2001. SCHMIDT, P.; WITTE, A. Predicting Recidivism Using Survival Models. [S.l.]: Springer-Verlag, 1988. SHEARER, C. The CRISP-DM model: the new blueprint for data mining. Journal of Data Warehousing, v. 15, n. 4, p. 1319, 2000. SHERMAN, L.; GARTIN, P.; BUERGER, M. Hot spots of predatory crime: Routine activities and the criminology of place. Criminology, v. 27, p. 2755, 1989. SOARES, A. C. L. Pós-Processamento de Regras de Associação com CRISP-DM em Dados de Ocorrências Policias. Disserta (Mestrado) Mestrado Integrado Prossional em Computação Aplicada - UECE/CEFET, 2009. SOARES, G. D. Homicídios no brasil: vários factóides em busca de uma teoria. In: Meeting of Latin American Studies Association - LASA. [S.l.: s.n.], 2000. SOARES, L. Violência e política no Rio de Janeiro. [S.l.]: RelumeDumará, 1996. SORENSER, J.; PILGRIM, R. An acturial risk assessment of violence posed by capital murder defendants. Journal Crime. Law Criminology, v. 90, p. 12511270, 2000. SPAGNOL, A. O desejo marginal. São Paulo, 2001. 128 SPóSITO, M. Um breve balanço da pesquisa sobre violência escolar no brasil. Revista da Faculdade de Educação da USP, v. 27, p. 87103, 2001. SPSS. Modeler. Maio 2010. Internet. Último acesso em Maio de 2010. Disponível em: <http://www.spss.com/>. TANENBAUM, J. B. A Bayesian Framework for Concept Learning. Tese (Doutorado) Massachusetts Institute of Technology, 1999. TEAM, J. Java Object Oriented Neural Engine. Maio 2010. Internet. Último acesso em Maio de 2010. Disponível em: <http://sourceforge.net/projects/joone/>. THONGTAE, P.; SRISUK, S. An Analysis of Data Mining Applications in Crime Domain. In: IEEE 8th International Conference on Computer and Information Technology Workshops, 2008. CIT Workshops 2008. [S.l.: s.n.], 2008. p. 122126. VEL, O. de et al. Mining e-mail content for author identication forensics. SIGMOD Record, v. 30, n. 4, p. 5564, 2001. VIANA, H. Galeras Cariocas. [S.l.]: Editora da UFRJ, 1996. WAIKATO, U. of. Waikato Environment for Knowledge Analysis (WEKA). 2010. Última visita em Maio de 2010. Disponível em: <www.cs.waikato.ac.nz/ml/weka/>. WANG, G.; CHEN, H.; ATABAKHSH, H. Automatically detecting deceptive criminal identities. Communications of the ACM, ACM, New York, NY, USA, v. 47, n. 3, p. 7076, 2004. ISSN 0001-0782. WEISS, S. I.; KULIKOWSKI, C. Computer Systems That Learn: Classication and Prediction Methods from Statistics, Neural Networks, Machine Learning and Expert Systems. [S.l.]: Morgan Kaufmann, 1991. WIDROW, B.; LEHR, M. 30 years of adaptive neural networks: Perceptron, madaline, and backpropagation. Proceedings of the IEEE, Citeseer, v. 78, n. 9, p. 14151442, 1990. WINKLHOFER, H.; DIAMANTOPOULOS, A.; WITT, S. F. Forecasting practice: a review of the empirical literature and an agenda for future research. International Journal of Forecasting, v. 12, p. 193221, 1996. WIRTH, R.; HIPP, J. CRISP-DM: towards a standard process model for data mining. In: Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining. Manchester, UK: [s.n.], 2000. p. 2939. WITTEN, I. H.; FRANK, E. Data Mining: pratical machine learning tools and techniques. 2. ed. [S.l.]: Diane Cerra, 2005. (The Morgan Kaufmann Series in Data Management Systems). ZALUAR, A. Condomínio do diabo. [S.l.]: Revan e UFRJ, 1994. ZHANG, G.; PATUWO, B. E.; HU, M. Y. Forecasting with articial neural networks: The state of the art. International journal of forecasting, Elsevier, v. 14, n. 1, p. 3562, 1998.