UM PROCESSO DE MINERAÇÃO DE DADOS PARA PREDIÇÃO

UNIVERSIDADE ESTADUAL DO CEARÁ
MARCELO DAMASCENO DE MELO
UM PROCESSO DE MINERAÇÃO DE DADOS
PARA PREDIÇÃO DE NÍVEIS CRIMINAIS DE
ÁREAS GEOGRÁFICAS
FORTALEZA - CEARÁ
2010
MARCELO DAMASCENO DE MELO
UM PROCESSO DE MINERAÇÃO DE DADOS PARA
PREDIÇÃO DE NÍVEIS CRIMINAIS DE ÁREAS
GEOGRÁFICAS
Dissertação apresentada no Mestrado Acadêmico de Ciência da Computação da Universidade Estadual do ceará, como requisito
parcial para obtenção do grau de Mestre em
Ciência da Computação.
Orientador: Prof. Dr. Jereson Teixeira de
Souza
Co-Orientadores: Prof.
Dr.
Gustavo Au-
gusto Lima de Campos
FORTALEZA - CEARÁ
2010
M528p
Melo, Marcelo Damasceno.
Um Processo de Mineração de Dados para Predição
de Níveis Criminais de Áreas Geográcas / Marcelo Damasceno de Melo. , 2010.
128p.;il.
Orientador: Prof. Dr. Jereson Teixeira de Souza
Monograa (Mestrado Acadêmico em Ciência da
Computação) - Universidade Estadual do Ceará, Centro de Ciências Cientícas.
1.
Processo de Mineração de Dados
Nível Criminal
3.
2.
Predição de
Redes Neurais Articiais I. Universi-
dade Estadual do Ceará, Centro de Ciências Cientícas.
CDD: 001.6
MARCELO DAMASCENO DE MELO
UM PROCESSO DE MINERAÇÃO DE DADOS
PARA PREDIÇÃO DE NÍVEIS CRIMINAIS DE
ÁREAS GEOGRÁFICAS
Dissertação apresentada no Mestrado Acadêmico de Ciência da Computação da Universidade Estadual do ceará, como requisito
parcial para obtenção do grau de Mestre em
Ciência da Computação.
Aprovada em: __/__/____
BANCA EXAMINADORA
Prof. Dr. Jereson Teixeira de
Souza(Orientador)
Universidade Estadual do Ceará - UECE
Prof. Dr. Gustavo Augusto Lima de
Campos
Universidade Estadual do Ceará - UECE
Co-orientador
Prof. Dr. Marcus Costa Sampaio
Universidade Estadual do Ceará - UECE
Prof. Dr. José Maria da Silva Monteiro
Filho
Universidade Federal do Ceará - UFC
Agradecimentos
Primeiramente a um ser superior, conhecido como Deus, que guiou meus passos e
livrou-me de diversos problemas, presenteando-me com diversos presentes neste período
na
UECE.
A minha primeira e segunda família: Meus pais, meu irmão e minha sogra Aila.
A minha amada "namorida Alia. Pelos momentos juntos, com seu amor e carinho,
dedicação e entendimento pelo trabalho que estava sendo feito. A todos os momentos
que não pude dar atenção e estar devidamente ao seu lado.
A todos os meus companheiros da
UECE,
tanto professores, quanto colegas de turma.
Especialmente ao pessoal do apartamento: Alex, Daladier e Wallace, Vigno, Marçal e
Alyson e aos integrantes do LACONI: Rafael e Fabrício. Pelos diversos momentos bons e
ruins.
Aos meus queridos orientadores: Jereson e Gustavo. Por acreditar no trabalho, com
sua dedicação e incentivo.
Aos meus novos amigos que z no
IFRN,
Valério, colega "computeiro, a Babilônia
Family, Luciana, Michele, Davi, Marcos e Althiere.
E a todos que zeram parte ativamente ou passivamente deste trabalho.
Querer é poder!
Desconhecido
Sumário
Lista de Figuras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lista de Siglas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1
Motivação e Contexto da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.2
Justicativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.3
Objetivos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.4
Objetivos Especícos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.5
Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2 Fundamentação Teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1
Criminalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.2
Previsão Empírica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.3
Previsão de Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.4
Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.4.1
Tarefas de Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.4.2
Exemplos de Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.4.3
Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Seleção de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.4.4.1
Aprendizado Supervionado, Não Supervisionado e Semi-Supervisionado . .
36
2.4.4.2
Aprendizado de Conceito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
2.4.4.3
Redes Neurais Articiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.4.3.1
2.4.4
2.4.5
Pós-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
2.5
Descoberta de Conhecimento em Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.6
CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Entendimento do Negócio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
Plano de Atuação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
Entendimento dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
2.6.2.1
Coleta e Análise dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
2.6.2.2
Exploração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
Preparação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.6.3.1
Transformação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.6.3.2
Integração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.6.3.3
Formatação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.6.4
Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
2.6.5
Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
2.6.5.1
Revisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
2.6.5.2
Próximas Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
2.6.6.1
Plano de Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
2.6.6.2
Relatório Final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
Região Metropolitana de Fortaleza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
2.6.1
2.6.1.1
2.6.2
2.6.3
2.6.6
2.7
3 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1
Clusterização de Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.2
Identicação de Redes de Criminosos e Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.3
Mineração de Relatórios Policiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.4
Associação e Comparação de Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
3.5
Predição de Crimes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
3.6
Recuperação de Informações da Área Criminal . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4 Processo de Mineração de Dados para Predição de Níveis Criminais . . 64
4.1
Estrutura do Processo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.2
Entendimento do Negócio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
4.2.1
Determinação dos Objetivos de Negócio a Serem Alcançados . . . . . . . . . . . . . .
67
4.2.2
Requisitos do Projeto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
4.2.3
Objetivos Técnicos a Serem Alcançados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
4.2.4
Plano de Atuação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
Coleta e Análise dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
4.3.1.1
Dados Sócio-econômicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
4.3.1.2
Dados Criminais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
Exploração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
4.4.1
Transformação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
4.4.2
Integração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
4.4.3
Seleção de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
4.4.4
Limpeza dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
4.4.5
Formatação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
4.5.1
Determinação do Modelo Preditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
4.5.2
Geração do Conjunto de Teste e Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
4.5.3
Aplicação do Algoritmo de Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . .
80
4.5.4
Avaliação Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
4.6.1
Avaliação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
4.6.2
Revisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
4.6.3
Próximas Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
4.7.1
Plano de Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
4.7.2
Relatório e Apresentação Final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
4.3
4.3.1
4.3.2
4.4
4.5
4.6
4.7
5 Estudo De Caso: Predição Criminal na Região Metropolitana de Fortaleza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.1
Entendimento do Negócio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
5.1.1
Determinação dos Objetivos de Negócio a Serem Alcançados . . . . . . . . . . . . . .
86
5.1.2
Requisitos do Projeto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5.1.3
Objetivos Técnicos a Serem Alcançados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
5.1.4
Plano de Atuação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
Coleta e Análise dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
5.2.1
Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
5.2.2
Exploração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
5.3.1
Transformação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
5.3.2
Integração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
5.3.3
Seleção de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
5.3.4
Limpeza dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3.5
Formatação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.2
5.3
5.4
Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4.1
Determinação do Modelo Preditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4.2
Geração do Conjunto de Teste e Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4.3
Aplicação do Algoritmo de Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . . 101
5.4.4
Avaliação Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.5
Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.5.1
Avaliação dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.5.2
Revisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.5.3
Próximas Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.6
5.6.1
Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Plano de Divulgação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6 Conclusões e Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Lista de Figuras
Figura 1
Organização do framework desenvolvido por Winklhofer, Diamantopoulos
e Witt (1996)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 2
Esquema de um Neurônio Articial
...................................
38
Figura 3
Rede Neural Articial
................................................
38
Figura 4
Various edge detection algorithms
....................................
40
Figura 5
Região Metropolitana de Fortaleza
...................................
53
Figura 6
Clusterização de uma área da cidade de Tehran identicando regiões de
baixa, média e alta incidência de crimes.
Figura 7
57
Exibe um exemplo de uma rede de criminosos identicada utilizando algoritmos de aprendizagem de máquina
Figura 8
..............................
................................
58
Exibe um exemplo de identicação dos membros chaves de sub-grupos
criminal e suas relações
...............................................
58
Figura 9
Representação do Processo Proposto
.................................
65
Figura 10
Sub-tarefas da etapa de Modelagem
..................................
79
Figura 11
Gráco utilizado para a visualização dos resultado do modelo preditivo
83
Figura 12
Representação de um histograma
88
Figura 13
Distribuição dos níveis crimais no conjunto de dados
.....................................
. . . . . . . . . . . . . . . . . . 90
Figura 14
Distribuição das classes para o nível muito baixo
.....................
93
Figura 15
Distribuição das classes para o nível baixo
............................
94
Figura 16
Distribuição das classes para o nível médio
...........................
94
Figura 17
Distribuição das classes para o nível alto
Figura 18
Distribuição das classes para o nível muito alto
Figura 19
Predição de uma instância muito baixa positiva do primeiro grupo de
dados
Figura 20
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
.......................
95
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Predição de uma instância muito baixa positiva do segundo grupo de
dados
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Figura 21
Predição de uma instância baixa positiva do primeiro grupo de dados
. 104
Figura 22
Predição de uma instância baixa positiva do segundo grupo de dados
. 104
Figura 23
Predição de uma instância média negativa do primeiro grupo de dados
105
Figura 24
Predição de uma instância média negativa do segundo grupo de dados
106
Figura 25
Predição de uma instância alta negativa do primeiro grupo de dados
. . 106
Figura 26
Predição de uma instância alta negativa do segundo grupo de dados
. . 107
Figura 27
Predição de uma instância muito alta negativa do primeiro grupo de dados
Figura 28
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Predição de uma instância muito alta negativa do segundo grupo de dados
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Lista de Tabelas
Tabela 1
Conjunto de exemplos para o aprendizado do conceito Pratica Esporte
Tabela 2
Comparação dos processos apresentados reproduzido no artigo de Kurgan
e Musilek (2006)
.....................................................
Tabela 3
População de Fortaleza de 1980 a 2001
Tabela 4
Cronograma de Atividades
37
46
...............................
54
...........................................
87
Lista de Siglas
IBGE
Instituto Brasileiro de Geograa e Estatística
SSPDS
Secretaria de Segurança e Defesa Social do Estado do Ceará
RMF
Região Metropolitana de Fortaleza
UECE
Universidade Estadual do Ceará
UFC
Universidade Federal do Ceará
GIS
Geograc Information Systems
SOM
Self-Organization Maps
DCBD
Descoberta de Conhecimento em Banco de Dados
AM
Aprendizagem de Máquina
MD
Mineração de Dados
RN
Redes Neurais
AED
Área de Expansão Demográca
IBGE SSPDS RMF UECE UFC GIS SOM DCBD AM MD RN AED
Resumo
O aumento da violência em todo o mundo está se tornando um grande problema, acarretando vários danos à sociedade: materiais (furtos, assaltos), sociais (medo, diminuição na
qualidade de vida), psicológicos (estupros, ameaças, traumas) e físicos (homicídios, agressões). Atualmente, a violência está tão presente em nosso dia-a-dia, que está se tornando
banal, tanto que várias famílias sofrem todos os dias algum tipo de crime, desde pequenos furtos a homicídios qualicados. O Poder Público necessita de ferramentas ecazes
para combater a criminalidade e para isso, são necessárias ferramentas que o auxiliem na
prevenção do acontecimento de novos crimes, na alocação de seus recursos, no estudo do
comportamento dos criminosos e seus crimes e na visualização de áreas geográcas com
alta concentração de ocorrências.
Este trabalho tem como objetivo propor um processo de mineração de dados para
a predição do nível criminal de áreas geográcas. O processo desenvolvido perpassa todas
as fases da descoberta de conhecimento em banco de dados, fases essas como a de conhecimento do negócio e dos dados, coleta, limpeza e transformação dos dados, aplicação do
algortimo de aprendizagem, avaliação, distribuição e treinamento do modelo desenvolvido.
Todos especícos para o problema de predição de níveis criminais. O processo recomenda
o uso de dados sociais, econômicos e criminais para a modelagem e implementação do
sistema preditivo.
Este processo pode ser seguido por qualquer prossional que queira
predizer o nível criminal de qualquer área geográca, inclusive municípios brasileiros.
O processo proposto foi utilizado no desenvolvimento de um preditor construído
para predizer níveis criminais em áreas geográcas da Região Metropolitana de Fortaleza
(RMF). Foram obtidos resultados interessantes, tanto na questão da engenharia do preditor
desenvolvido, quanto nos resultados técnicos das predições realizadas. O estudo de caso
provou que o processo é útil e ecaz na construção de um preditor de níveis criminais.
Palavras-Chave: Processo de Mineração de Dados, Predição de Nível Criminal, Redes
Neurais Articiais
16
1
Introdução
O avanço da violência ocorrido nos últimos anos tem sido objeto de estudo de
diversos pesquisadores. Os governos e a sociedade em geral sofrem os transtornos causados
por esse fenômeno. Anualmente são gastos milhões de reais no combate à violência, desde
equipamentos, a treinamento e compra de ferramentas que auxiliam o trabalho policial.
Podemos denir crimes como atos ilícitos cometidos por uma ou mais pessoas.
Esta
denição é de grande importância para o contexto do nosso trabalho.
Em cada crime cometido, podemos levantar uma série de dados, como por exemplo: data, hora e local do acontecimento, modus operandi, tipo do crime e dados relativos
à situação sócio-econômica da vítima.
O presente capítulo tem como objetivo descrever a motivação e o contexto da
pesquisa, tal como a relevância, justicativa e os desaos encontrados no trabalho. Além
disso, são levantados os principais problemas encontrados no desenrolar do trabalho, bem
como os objetivos e a metodologia utilizada para chegar às conclusões que serão apresentadas.
1.1 Motivação e Contexto da Pesquisa
A geração de dados está intimamente ligada com o desenvolvimento e uso intenso
de hardware e software. Assim, o surgimento de novos softwares e a difusão cada vez maior
do uso dos computadores pela população, bem como por instituições governamentais e
militares, acarretam a geração de grandes volumes de dados.
As instituições governamentais estão constantemente investindo em equipamentos, softwares e consultorias que possam melhorar o entendimento dos dados armazenados
em suas bases. O conhecimento gerado é essencial para a melhoria de seus serviços, tais
como logística, atendimento ao cidadão e criação de estratégias de desenvolvimento e
combate a crimes (MCCUE, 2006, 2005). Uma base de dados não é vista apenas como um
repositório, e sim como uma fonte de informações valiosas para uma instituição.
Atualmente a criminalidade está sendo um dos principais problemas que a sociedade enfrenta, gerando males tanto sociais quanto governamentais (ADORNO, 2002;
COELHO, 1988; PEZZIN, 1986). O governo sofre com danos econômicos e morais; a socie-
dade sofre transtornos econômicos, sociais, pscicológicos e morais. Os danos econômicos
estão relacionados ao aumento dos custos provenientes da rede de saúde, judiciária e prisi-
17
onal pública. Já os danos morais relacionam-se com a descrença da sociedade em relação
ao trabalho realizado pelo governo.
O governo investe muito no trabalho preventivo e
punitivo para tentar reverter o aumento da violência no nosso país (JUSTIçA, 2010).
As autoridades policiais promovem diversas estratégias para o combate ao crime,
dentre elas as reativas e preventivas. As estratégias reativas são aquelas que são ativadas
após o crime já ter iniciado, quando a polícia já deve ter conhecimento do acontecido; já as
estratégias preventivas são aquelas cujo objetivo é antecipar o acontecimento de crimes. As
ações preventivas são realizadas através de atos sócio-educativos e aproximação da polícia
com a comunidade, como já acontece em diversos estados, a exemplo do Ceará. As ações
reativas são as mais utilizadas, pois este tipo de ação é mais simples de ser implementada
e tem uma visibilidade maior junto à sociedade. A utilização de ações preventivas está
crescendo devido à percepção de sua importância por nossos gestores. Esse crescimento é
percebido por meio da criação de editais de pesquisa e desenvolvimento, por meio do uso
de sistemas computacionais de monitoração e prevenção de crimes, e pela implantação de
projetos sócio-educativos em áreas de risco.
Vários pesquisadores (estatísticos, sociólogos, criminologistas, antropologistas etc)
estudam diversos fatores que tendenciam um indivíduo a cometer um crime. Eles acreditam que o entendimento do ambiente no qual o indivíduo vive pode levantar evidências
que expliquem os motivos que o levam a se tornar um criminoso.
vantados são sociais, econômicos e psicológicos.
Alguns fatores le-
A ocorrência de crimes gera diversas
informações como dados temporais, espaciais, comportamentais e criminais. A Secretaria
de Segurança Pública do Estado do Ceará (SSPDS) tem uma base de dados com diversos
crimes já acontecidos e esses dados são utilizados para o desenvolvimento de estratégias
de combate ao crime. A Secretaria gentilmente forneceu os dados criminais dos anos de
2007 e 2008 para a realização deste trabalho. Os dados contêm informações sobre o local
e sobre a hora do ocorrido, sobre tipo e sub-tipo do crime cometido.
Diversas técnicas são utilizadas para estudar o crime e sua dinâmica.
Técni-
cas estatísticas são utilizadas frequentemente por diversos estudiosos, tendo vantagens e
desvantagens devido a restrições impostas nas informações ou técnicas utilizadas (BERK,
2008). A utilização de algoritmos de aprendizagem de máquina é recomendada no âmbito
criminal por se tratar de uma ferramenta poderosa na análise e construção do conhecimento retido em um banco de dados criminais (MICHALSKI; CARBONELL; MITCHELL,
1986).
A criminalidade é um fenômeno totalmente dinâmico e complexo.
Dinâmico,
devido aos indivíduos estarem em constante diversicação de suas ações e tipos de atos
cometidos; complexo, pois o crime não deve ser tratado apenas como um fenômeno criminal e sim, como consequência de fatores sociais e econômicos desfavoráveis, entre outros.
A maioria dos trabalhos levantados apresentaram uma abordagem de mapeamento de
crimes, correlação e estudos dos fatores que levaram ao crime (CAMARGO et al., 2008;
BARATA; RIBEIRO, 2000; GAWRYSZEWSKI; COSTA, 2005).
A predição de crimes é uma área muito utilizada para prever a dinâmica crimi-
18
nal e obter conhecimento organizacional dos futuros lugares onde os crimes irão acontecer (MITCHELL; BROWN; CONKLIN, 2007; GORR; HARRIES, 2003; MCCUE, 2006). Se o ato
de cometer um crime é um comportamento humano, e se alguns comportamentos humanos são previsíveis, então, concluimos que podemos prever crimes baseados no comportamento criminal. Diversas teorias desenvolvem atividades no estudo do comportamento
criminoso: atividades rotineiras (COHEN; FELSON, 1979), hot spots (grupos espaciais de
crime) (SHERMAN; GARTIN; BUERGER, 1989; KIANMEHR; ALHAJJ, 2006; AZIMI; DELAVAR,
2007) e ecologia do crime (BRANTINGHAM; BRANTINGHAM, 1984).
Diversas técnicas foram utilizadas para a previsão de crimes, dentre elas podemos
citar: superfícies probabilísticas (BROWN; LIU, 1999), máquinas de vetores de suporte (KIANMEHR; ALHAJJ, 2006), raciocínio baseado em casos (OATLEY; ZELEZNIKOW; EWART,
2005), árvores de classicação e regressão (BERK; HE; SORENSON, 2005), métodos probabilísticos e estatísticos (BERK, 2008), redes neurais (ZHANG; PATUWO; HU, 1998), séries
temporais (GORR; OLLIGSCHLAEGER; THOMPSON, 2003) e modelo de escolha discreta
espacial (MITCHELL; BROWN; CONKLIN, 2007).
Gorr, Olligschlaeger e Thompson (2003) concluiram que qualquer método baseado na predição é mais preciso que as técnicas utilizadas pela polícia americana, pois
fornece métodos precisos baseados em características levantadas. Assim, a polícia pode
tomar decisões em ações de combate ao crime utilizando as predições feitas, como a correta distribuição do efetivo nas áreas de maior concentração dos crimes e agendamento
de treinamentos e férias.
Mineração de dados é um processo de descoberta de padrões embutidos nos dados (WITTEN; FRANK, 2005). Minerar dados tem sido importante por se tratar de uma
ferramenta poderosa na extração de informações valiosas encontradas nos dados. Técnicas de mineração de dados têm sido intensamente utilizadas em diversas tarefas do nosso
dia-a-dia. Desta forma, podemos encontrar aplicações em diversas áreas como detecção de
fraudes (CHAN et al., 1999), levantamento de pers (FAWCETT; PROVOST, 1996), marke-
ting (BERRY; LINOFF, 1997; LING; LI, 1998), monitoração (BROSSETTE et al., 2007), jogos
de basquete (BHANDARI et al., 1997) e mercado de ações (KIM; HAN, 2000).
A mineração de dados é uma das etapas de um grande processo conhecido como
Descoberta de Conhecimento em Banco de Dados (DCBD). Este processo é não-trivial e
é composto de diversas tarefas. Um dos grandes problemas na aplicação de técnicas de
mineração de dados é a diculdade teórica e logística para que os analistas consigam
criar um sistema conável e robusto no tempo e custos previsto para o projeto. Denir
um processo de mineração que forneça diretrizes e ferramentas para a construção de um
modelo que utilize mineração de dados é indispensável. Assim, um processo que dena
todos os passos que vão desde a coleta e entendimento dos dados até o treinamento dos
usuários que utilizarão o modelo desenvolvido deve ser descrito de forma minuciosa.
O levantamento bibliográco realizado identicou uma série de problemas vistos
em artigos que tratam da predição de crimes utilizando técnicas computacionais. Aspectos
sócio-econômicos têm uma grande relevância na ocorrência dos crimes e não foram levados
19
em consideração em diversos trabalhos. Também não foi observado nenhum processo de
mineração de dados indicado para uma tarefa criminal, especicamente para o problema
de predição de níveis criminais. Assim, o presente trabalho apresenta um processo para
a predição do nível criminal em áreas geográcas utilizando dados temporais, espaciais,
criminais, sociais e econômicos. O processo proposto é indicado para ser executado em
qualquer município brasileiro, mas o mesmo pode ser facilmente extendido para qualquer
município mundial, desde que tenha os dados necessários e informação necessária para a
integração das diferentes bases. Além de propor o processo, iremos validá-lo construindo
um modelo preditivo utilizando os dados criminais e sócio-econômicos da Região Metropolitana de Fortaleza.
1.2 Justicativa
A complexidade da criminalidade e todos os fatores envolvidos na criação de um
método preditivo criminal foram as principais motivações para a iniciação deste trabalho.
A contribuição social também foi um dos requisitos do trabalho, pois além de um trabalho
teórico, uma ferramenta preditiva funcional poderá ser utilizada no dia-a-dia de uma
inteligência policial.
O processo desenvolvido neste trabalho foi desenvolvido como um facilitador/guia
para a construção de sistemas preditores de níveis criminais, utilizando dados criminais
e sócio-econômicos.
Existem vários processos na literatura, mas o desenvolvido neste
trabalho se diferencia em relação a especicidade. A maioria dos processos presentes na
literatura são muito genéricos, assim quando um analista vai utilizá-lo tem que desenvolver
todos os passos a sua maneira, sem saber se existe uma forma melhor ou funcional para o
seu problema, gerando perda de tempo e dinheiro no desenvolvimento do sistema proposto.
Assim, o analista não tem uma metodologia que possa aplicar que especique cada passo
para a resolução de seu problema, servindo como parâmetro de execução.
O processo desenvolvido fornece tarefas especícas para o problema da criminalidade, fornecendo ao analista métodos já testados na construção de um sistema.
O
processo desenvolvido é extensível e adaptável, onde o analista pode facilmente modicar
as tarefas propostas para a resolução de problemas especícos de sua aplicação.
Outros processos foram observados para aplicação do nosso problemas, mas encontramos diversos problemas devido a alta generalidade dos processos observados e divergência entre etapas e tarefas presentes nos processos observados. As principais vantagens
na utilização de um processo especíco são a ausência de ambiquidade na execução de
tarefas denidas no processo, tarefas simples e diretas especícas para a resolução de diculdades especícas do problema de predição de níveis criminais, liberdade para modicar
tarefas ou ações denidas no processo sem alterar toda a execução do processo ou tarefas
subsequentes. O projeto de predição de níveis criminais pode ser muito bem ser desenvolvido utilizando outros processos, mas com custos monetários e de tempo superiores do
que quando executado seguindo o processo proposto neste trabalho.
20
Métodos preditivos foram abordados de diferentes formas, utilizando diversas
técnicas. Assim, justicar a criação de um novo método para a predição de níveis criminais
utilizando abordagens ainda não apresentadas é uma forma de abordar o problema com
um novo olhar. O presente trabalho difere-se de outros na utilização de variáveis sócioeconômicas envolvidas, fazendo um estudo da problemática criminal.
A construção de
um método útil para a predição dos níveis criminais pode ser caracterizado por uma
ferramenta de fundamental importância para gestores que necessitam de modelos que
apoiem as decisões tomadas, baseando-se em dados criminais e sócio-econômicos.
1.3 Objetivos Gerais
Esta dissertação tem como objetivo geral o desenvolvimento de um novo processo
de predição do nível criminal de áreas geográcas utilizando técnicas de mineração de
dados e dados relativamente distintos e fortemente relacionados. Os dados são distintos
pois pertencem a esferas semânticas inicialmente vistas como distintas e fortemente relacionadas pois dados sociais, econômicas e criminais estão de certo modo relacionados ao
dia-a-dia da sociedade. Os dados utilizados foram criminais, temporais, espaciais, sociais
e econômicos.
O presente trabalho aborda as problemáticas envolvidas no âmbito criminal e
a proposta de um processo de mineração de dados especíco ao problema de predição
de níveis criminais. Este processo permite que outros pesquisadores possam utilizar do
conhecimento construido em seus trabalhos, aprimorando os resultados alcançados ou
extendendo-o para seus interesses.
O processo proposto dará total condição da resolução do problema de predição de
níveis criminais em áreas geográcas utilizando etapas e tarefas denidas especicamente
para o problema em questão. A especicidades traz benefícios de aplicação e facilidade de
aplicação de todas as tarefas denidas no processo, utilizando dados criminais, temporais,
espaciais, sociais e econômicos.
1.4 Objetivos Especícos
O objetivo geral descrito acima pode ser fragmentado nos seguintes objetivos
especícos:

Identicação e documentação de processos de mineração de dados e de aplicações
de técnicas de mineração de dados na área de segurança pública;

Identicação e documentação dos possíveis tipos de dados que possam estar diretamente ou indiretamente relacionados ao acontecimentos de crimes;

Identicação e estudo de ferramentas e metodologias que possam colaborar no desenvolvimento desta dissertação;
21

Denição e modelagem de um processo de mineração de dados que possa ser aplicado
na predição de níveis criminais;

Projeto, desenvolvimento, prototipação e avaliação de um método preditor de níveis
criminais utilizando o processo proposto;

Desenvolvimento de atividades objetivas para a resolução do problema de predição
de níveis criminais;

Recomendação de ações práticas para obtenção das primitivas necessárias para a
execução do processo proposto;
1.5 Organização do Trabalho
O trabalho está organizado em 6 capítulos. O Capítulo 1 corresponde a Introdução. Nele, informamos ao leitor o problema atacado, as motivações e justicativas e alguns
conceitos iniciais necessários ao entendimento do trabalho. O Capítulo 2 aborda de forma
sucinta a fundamentação teórica utilizada em nosso trabalho. Sendo de fundamental importância para o entendimento de um leitor iniciante na área de mineração de dados e
processo de mineração. O Capítulo 3 apresenta e discuti os trabalhos relacionados. Apresentando diversos trabalhos, de diversas áreas que discutem, denem, encontram causas,
desenvolvem e mapeiam atividades relacionadas a criminalidade. No capítulo 4 abordamos o processo de mineração proposto, denindo e explicando cada passo e suas tarefas.
Este processo tem carácter de guia, pois o mesmo está de escrito de forma direta que
qualquer analista de dados pode utilizá-lo para construir seu próprio modelo preditivo. O
Capítulo 5 discute nosso estudo de caso. O estudo de caso utiliza o processo proposto para
a construção de um modelo para a previsão do nível criminal da Região Metropolitana de
Fortaleza. O último capítulo, Capítulo 6, apresenta as conclusões e os trabalhos futuros
para aqueles que desejam seguir nesta linha de pesquisa e aproveitar o presente trabalho
em suas pesquisas.
22
2
Fundamentação Teórica
Este capítulo aborda de forma sucinta a fundamentação teórica utilizada neste
trabalho. Sendo de fundamental importância para o entendimento de um leitor iniciante
na área de mineração de dados e processo de mineração. Além de conceitos relacionados
a mineração de dados, processos de mineração de dados e aprendizagem de máquina,
apresentamos conceitos relacionados ao entendimento das principais ações para combate
e conceitos relacionados ao crescimento e entedimento da criminalidade.
2.1 Criminalidade
A sociedade brasileira passa por quatro tendências de crescimento da violência (COELHO, 1988).
Delinquência urbana:
O crescimento deste tipo de organização está sendo visto prin-
cipalmente em grandes centros urbanos.
Crimes como sequestro, crimes contra o
patrimônio público e assaltos.
Crime Organizado:
O tráco internacional de drogas é um dos principais motivadores
na organização dos criminosos. O poder público tem problemas em atuar devido a
complexidade das relações entre os criminosos e o ambiente em que eles se encontram, principalmente em comunidades carentes.
Direitos humanos:
A situação democrática em que vivemos às vezes é danicada por
episódios em que os direitos humanos são violados. Essa violação gera transtornos
nas vítimas e indignação na sociedade brasileira.
Conitos Pessoais:
Devido a nossa vida moderna, o aumento de discussões e conitos
entre pessoas com um alto grau de intimidade está aumentando. Conitos simples
estão chegando a ter desfechos fatais, como brigas de vizinhos e crimes passionais.
As estatísticas ociais indicam que a violência urbana vem crescendo mundialmente desde a década de 50, ainda que estudos indicam declínio na década de 90, principalmente nos Estados Unidos (ADORNO, 2002). Alguns estudos apontam que o declínio
vivido pelos Estados Unidos é devido ao desenvolvimento econômico, pela redução do desemprego, pela expansão do mercado consumidor e do aumento do bem-estar em conjuto
de políticas de combate ao crime (GARLAND, 2001; DONZIGER, 1996).
23
A sociedade brasileira não está imune a esta tendência mundial, já que o Brasil
encontra-se numa rota mundial de contrabando de armas e tráco de drogas. O contrabando de armas e o tráco de drogas estão dentre os crimes que nanciam outros crimes,
como os sequestros, assaltos e homicídios.
As taxas de criminalidade encontradas no
Brasil, como em São Paulo e Rio de Janeiro são mais altas do que grandes metrópoles
mundiais.
Infelizmente no Brasil não existe uma base de dados única com dados relativos
a criminalidade ocorrida no nosso país.
o número de homicídios.
O único dado que temos em escala nacional é
Para quantizar os homicídios realizados no Brasil é utilizado
a mortalidade por causas externas, dados extraídos dos registros de óbitos. As taxas de
23, 83/100.000 habitantes, já no Estados
2, 43; na Itália, 4, 90; na Bélgica, 4, 11; em Portu-
homicídios levantados no ano de 1995 foram de
Unidos acusou
gal,
8, 22;
na Grã-Bretanha,
3, 99; na França, 4, 11 (Brasil, Datasus, Ministério da Saúde, 1995; França, Ministério
do Interior, 1997; USA, Union Crime Reports, 1996).
Recentes estudos sobre o crescimento de homicídios no Brasil constataram que
o número de homicídios causados por arma de fogo vem aumentando desde 1979 e que
esse número cresceu mais rapidamente do que o crescimento da população. Em Brasília
em 1980, a taxa de homicídios era de
2000). Em torno de
21%
13, 7/100.000;
em 1991 saltou para
36, 3
(SOARES,
dos homicídios registrados no Brasil em 1998 concentra-se no
Rio de Janeiro e em São Paulo. A taxa de homicídio no período de 1980 a 1998 cresceu
262%
nas doze regiões metropolitanas, enquanto em todo o Brasil o crescimento foi de
209%.
As maiores vítimas de homicídios no Brasil são adolescentes e jovens adultos
masculinos pertecentes às camadas populares urbanas (JORGE, 1982).
estimou que
Castro (1993)
2, 7% dos jovens são assassinados no Estado de São Paulo no ano de 1990.
Este
mesmo artigo mostra que as armas de fogo foram a grande maioria das armas utilizadas
para cometer os homicídios.
Tendências de crimes violentos podem ser encontrados em várias capitais brasileiras e suas respectivas regiões metropolitanas. Os crimes violentos são denidos como
os crimes que representam ameaça a integridade física da vítima. No município de São
Paulo, entre 1984 e 1993 a participação de crimes violentos na massa de crimes registrados cresceu 10,1%. Estudos indicam que os crimes violentos, principalmente os homicídios
aumentam o sentimento de medo e insegurança da sociedade brasileira (CARDIA, 1999).
O surgimento de grupos de extermínio, chacinas e linchamentos acontece principalmente devido a ruptura dos padrões sociais principalmente em comunidades de baixa
renda e a descrença no poder público. Crimes como tentativas ou o ato de estupro, roubos ou homicídios levam a comunidade a fazer atos considerados crimes e não vistas pelos
atuadores como sendo legítimas e moralmente corretas. Todas essas características levam
ao surgimento de grupos de extermínio para a execução de suspeitos de crimes. Grupos
formados principalmente por moradores que agem sob ordem ou cumplicidade dos moradores. As vítimas são geralmente moradores do mesmo bairro, considerados delinquentes
24
ou com antecedentes criminais.
Pessoas com antecedentes criminais são consideradas
pessoas mal vistas nestes bairros devido a impunidade da polícia ou o sentimento da população do bairro que o período de recrusão denido foi de forma imprópria (ADORNO;
CARDIA, 1999).
Muitos atos violentos são praticados por tensões nas relações pessoais e não tem
relação nenhuma com a criminalidade cotidiana. As principais causas para que estes atos
sejam cometidos são o enfraquecimento da relação ou o desentedimentos entre pessoas
que têm o mesmo convívio.
Conitos entre companheiros, amigos, parentes, vizinhos,
amigos de trabalho ou até mesmo pessoas que frequentam o mesmo espaço físico.
Os
motivos para que estes conitos aconteçam são considerados como motivos corriqueiros,
tais como amores não correspondidos ou traições, papéis sociais não correspondidos ao
desempenho do papel de pai, mãe, irmão ou lho; desentedimentos relativos a bens ou
a dívidas não pagas. Exitem diversos estudos acerca deste tipo de crime. Violência nas
escolas (SPóSITO, 2001; SANTOS, 2001), a violência de gangues e em bailes funks (VIANA,
1996), a violência doméstica (IZUMINO, 1998), guangues e brigas entre jovens (DIóGENES,
1998) e assassinatos de homossexuais (SPAGNOL, 2001).
Diversos pesquisadores tentam explicar os motivos para que o crime aconteça e
que motivos levaram ao aumento das taxas de violência vividas por nós atualmente (ZALUAR, 1994). Os pesquisadore concentram as explicações em três vertentes:
1. mudanças na sociedade e nos padrões convencionais de delinquência e violência;
2. crise no sistema de justiça criminal;
3. desigualdade social e segregação urbana
Mundanças nos processos econômicos e sociais fazem com que a criminalidade
se diferencie ao longo do tempo. Novas formas de produção industrial e acumulação de
capital; concentração industrial e tecnológicas; mudanças nos processos inerentes à força
de trabalho são possíveis razões para que a criminalidade tenha sofrido modicações.
Anteriormente os padrões tradicionais de crime contra o patrimônio eram cometidos por apenas um deliquente ou no máximo um pequeno bando. Atualmente, observamos
crimes cada vez mais organizados com características empresariais e globalizado. O tráco
de drogas e armas são crimes organizados mais complexos que o poder público enfrenta.
Os crimes organizados inuenciam crimes menores como os homicídios utilizando arma de
fogo, corrupção do poder público, desorganização da atuação do poder militar e criação
de poderes paralelos ao poder instituido na nação.
Já é sabido por toda a população brasileira que a nossa justiça criminal está
com problemas em conter o crime e a violência. O crime cresceu e cou mais complexo,
mudando a suas características, enquanto a justiça criminal ainda continua nos moldes
de 4 décadas atrás.
Podemos perceber a fragilidade do poder aplicado pela justiça no surgimento de
rebeliões organizadas por grupos criminais como o Comando Vermelho ou o Primeiro
25
Comando da Capital (PCC), pelo resgate de presos e pelo surgimento de poderes paralelos
nas comunidades carentes, onde o governo não consegue ter inuência.
Um dos problemas mais visíveis na crise enfrentada pelo sistema criminal é a
impunidade penal. Vários estudos (SOARES, 1996; ADORNO, 1994, 1995; CASTRO, 1993)
mostram que as taxas de impunidade no Brasil são superiores a países como a França (ROBERT, 1994), a Inglaterra, e os Estados Unidos (DONZIGER, 1996; GURR, 1989). No Brasil
as taxas de impunidade são maiores em crimes como os homicídios cometidos pela polícia,
por grupos de segurança privada, por grupos de extermínio e por linchamentos cometidos
pela população. Crimes de colarinho branco cometidos por pessoas de classe média alta
ou classe alta tem números signicativos de impunidade penal.
A consequência para todos esses problemas é a descrença no poder público em
aplicar corretamente suas ferramentas para conter o avanço da violência e combater a
impunidade. A contratação de empresas de segurança privada, especializadas em segurança eletrônica é um dos fortes indícios da descrença da população no sistema criminal.
A população carente que não tem condições nanceiras de contratar segurança particular, ca a cargo da proteção de tracantes, líderes populares ou resolve seus problemas
relacionados a criminalidade por conta própria.
Pesquisa realizada pelo DataFolha revela que o número de brasileiros que consideram a violência o mais grave problema do país duplicou em apenas 2 meses. Em dezembro
de 2001, 10% acreditavam, já em fevereiro de 2002, 21% acreditavam que a violência
era o problema mais grave.
A mesma pesquisa revela que 12% das pessoas vivem em
moradias onde há armas de fogo, sendo muitas delas irregulares. 59% dos entrevistados
armaram que tem mais medo da polícia do que conança. A pesquisa também revelou a
subnoticação de crimes, onde 64% das vítimas de roubo e 71% das vítimas de furto não
apresentaram queixa à polícia (Folha de São Paulo, C-1/4, 10/03/2002).
A desconança na ação da polícia principalmente na represão de atos criminosos
não se traduz na aprovação do estado de insegurança em que vivemos. A sociedade necessita e cobra das autoridades meios para que a criminalidade seja minimizada, chegando a
aprovar mortes de prováveis suspeitos de crime.
Acredita-se que a pobreza tem uma forte inuência na tendência da criminalidade.
Isto devido a maioria dos criminosos que estão nos presídios brasileiros serem de classes
baixas. Estudo de Pezzin (1986) revela correlações positivas entre urbanização, pobreza e
desemprego com a criminalidade patrimonial, no município de São Paulo. Criminalidade
patrimonial são os crimes contra os bens públicos ou privados de um cidadão, tais como
roubo ou furto.
Esse tipo de discurso que o crime é oriundo da pobreza é contestado por muitos
pesquisadores, pois a associação entre pobreza e violência fazia com que emergisse mais
perguntas do que soluções. A carência econômica e social da maioria dos criminosos não
explica o seu envolvimento com o crime, pois a maior parte dos trabalhadores submetidos
ao mesmo ambiente de pobreza e desigualdade social não enveredaram no mundo do
crime. Podemos perceber um poder mais punitivo com os negros e pobres devido a essa
26
associação entre a pobreza e o crime.
Os estudos que armam que existe uma correlação entre a pobreza e o crime são
frequentemente contestadas por diversos pesquisadores (ZALUAR, 1994; COELHO, 1988;
BEATO, 1988). Coelho (1988) observou o declínio nas taxas de homicídio na região metro-
politana do Rio de Janeiro entre os anos de 1980 e 1983. Este período é caracterizado pela
crise econômica enfrentada pelo nosso país e por altas taxas de desemprego. Beato (1988)
observa que os municípios do Estado de Minas Gerais com menores taxas de criminalidade
são os mais pobres e que os municípios com maiores riquezas e circulação de dinheiro tem
maiores concentrações de crimes, principalmente os violentos. Já Cano e Santos (2001)
em seus estudos sobre a relação entre renda, desigualdade social e violência letal armam
não ser possível identicar forte inuência da renda sobre as taxas de homicídio. Diversos
estudos (BRANT, 1994; ADORNO; LIMA; BORDINI, 1999) sobre a relação entre a população
carcerária e o mercado de trabalho indicam proporções elevadas de carcerários procedentes do mercado informal que nunca tiveram uma carteira prossional assinada ou contrato
como forma de trabalho.
Todos os pontos abordados nesta seção mostra o quão complexo é o fenômeno
criminal. Também é percebido que a criminalidade é interdisciplinar, por ter características sociais, econômicas e psicológicas. Um método capaz de fornecer ferramentas para o
entendimento e até o combate da criminalidade é de grande valia para a sociedade. Assim,
o presente trabalho apresenta diversos benefícios no entendimento e seleção de fatores de
destaque e um método ecaz para o entendimento e combate ao crime.
2.2 Previsão Empírica
O sucesso de coorporações, tanto públicas, quanto privadas, dependem de um
planejamento correto das ações a serem tomadas em um determinado horizonte temporal.
O planejamento tem como objetivo antecipar ou almejar condições ou situações futuras
precisamente, de forma que o impacto seja o melhor possível.
Organizações empresariais têm o hábito de realizar planejamentos comerciais,
tais como: qual será a expectativa de vendas em um determinado bimestre, quais serão os
produtos mais vendidos, qual será o capital rotativo, qual será o volume de atendimento,
dentre outros detalhes relacionados. Assim como uma empresa realiza um planejamento,
as organizações governamentais também deveriam realizar, planejando por exemplo a
divisão de seu efetivo policial ou construção de escolas e presídios baseados em variáveis
populacionais.
Toda corporação, tanto empresarial, quanto governamental, planeja suas ações a
partir de dados qualitativos ou quantitativos gerados no dia-a-dia.
Os dados coletados
devem ilustrar as experiências vividas e demonstrar os erros e acertos cometidos diariamente.
O planejamento de ações vem aumentando consideravelmente e sendo usadas
exaustivamente no planejamento corporativo através do uso de sistemas computacionais
e técnicas de análise de dados. Modelos de previsão quantitativos utilizam basicamente
27
dados históricos para detectar padrões de comportamento e estimá-los no futuro.
Tais
modelos empregam técnicas computacionais e estatísticas para representar e executar
ações para os quais foram criados. Assim, a aquisição de ferramentas deste tipo deve ser
encarada como um diferencial organizacional, pois adicionará suporte a decisões a serem
tomadas pelos gestores. Diversas áreas estão utilizando previsão para o suporte de decisões realizadas por seus gestores, por exemplo o uso da previsão de preços de ações no
mercado imobiliário, pontuação de jogos de futebol, tempo previsto para acontecer um
novo ataque cardíaco em um paciente, ataque a uma rede de computadores ou um assalto
a um domicílio residencial.
O ato de prever pode ser denido como a obtenção de uma resposta precisa sobre
determinado assunto que deverá acontecer no futuro, baseado no passado. O futuro citado
deve ser entendido como um cenário ou situação nunca vivida por uma corporação ou algo
que se queira almejar. Assim as previsões devem ser realizadas em variáveis independentes
baseadas totalmente em dados do presente e do passado armazenados em suas bases e na
experiência dos gestores e outros prossionais envolvidos. A previsões a serem obtidas no
trabalho terão um considerável nível de detalhamento para um curto horizonte temporal.
De acordo com Makridakis, Wheelwright e Mcgee (1998), o recente uso de técnicas
de previsão nas organizações é devido:

Ao aumento da complexidade das organizações (número do público alvo e de produtos) e de mercado (mudanças de mercado e estrutura de demanda) : Esta modicação dicultou as decisões dos gestores, levando em conta todos os fatores relacionados ao desenvolvimento futuro da organização;

As organizações passaram a adotar procedimentos decisórios mais sistemáticos, que
envolvem justicativas explícitas para cada ação tomada. Ter uma previsão formal
é uma forma de suportar tais procedimentos.

O desenvolvimento contínuo das técnicas de previsão e suas aplicações, permitindo
que não só analistas especializados como também gerentes e outros tomadores de
decisão entendessem e utilizassem tais técnicas.
Uma questão a ser levada em conta é o espaço de aplicação que poderemos atuar
no desenvolvimento de teorias e a sua correta aplicação. Assim, a aplicação de técnicas
preditivas necessitam geralmente de adaptações na teoria para a correta aplicação, tendo
assim, um trabalho adicional para as devidas modicações. Portanto, muito problemas
devem ser resolvidos antes da aplicação do método preditivo.
Um processo de mineração deve ser acompanhado, pois facilita o desenvolvimento
do sistema e a aplicação das adaptações propostas no processo, minimizando os problemas decorrentes da execução de uma técnica de previsão (ARMSTRONG, 1988; DEROECK,
1991; MAHMOUD et al., 1992). O processo deve conectar a teoria presente na literatura
aos problemas encontrados na aplicação da mesma. Um dos objetivos deste trabalho é
desenvolver um processo para o desenvolvimento de uma aplicação de previsão de níveis criminais que poderá ser aplicada a qualquer município, utilizando algoritmos de
28
aprendizagem de máquina.
O trabalho irá utilizar como estudo de caso a previsão de
níveis criminais de áreas demográcas de uma Região Metropolitana de uma metrópole
brasileira, especicamente a de Fortaleza, utilizando dados criminais e sócio-econômicos.
Winklhofer, Diamantopoulos e Witt (1996) desenvolveram um framework para
lidar com as questões da aplicação de técnicas de previsão. De acordo com as pesquisas
realizadas por ele, poucos autores trataram do levantamento das questões em forma de um
guia, discutindo as questões relacionadas ao desenvolvimento de um sistema de previsão.
Os poucos que trataram foram especícos a técnicas de previsão estatística (LEVENBACH;
CLEARY, 1981, 1982, 1984). A Figura 1 exibe a organização do framework desenvolvido
por Winklhofer, Diamantopoulos e Witt (1996). O framework é dividido em três conjuntos
de questões atreladas a previsão: design, seleção/especicação e avaliação.
Figura 1:
Organização do framework desenvolvido por Winklhofer, Diamantopoulos e
Witt (1996)
29
2.3 Previsão de Crimes
O presente trabalho foca a previsão do nível criminal utilizando dados sócio-econômicos e criminais de áreas geográcas. Previsão e problemas de decisão geralmente
são classicados pelo horizonte de tempo utilizado: curto prazo (desenvolvimento tático),
médio prazo (alocação de recursos) e a longo prazo (planejamento estratégico). O presente
trabalho pode ser classicado como curto e médio prazo, pois ele objetiva tanto o desenvolvimento tático, quanto a alocação de recursos baseado somente no tempo de consulta
que se deseja utilizar. Escolhemos esta janela de tempo pois a polícia brasileira precisa de
uma ferramenta qualitativa que a auxilie na tomada de decisões sobre o desenvolvimento
tático e a correta alocação de seus recursos.
A sazonalidade criminal é um fenômeno que analisa a quantidade de crime em
determinados períodos temporais, tais como meses, anos, quinzenas, feriados nacionais,
natal e eventos pontuais no calendário de uma cidade (COHEN, 1941; LANDAU; FRIDMAN,
1993; CECCATO, 2005; HIPP et al., 2003). Prever crimes em um período de tempo especíco
é desejado e é possível, pois o comportamento humano é previsível.
A quantidade de
roubos e furtos em áreas comerciais aumenta consideravelmente em uma cidade devido
ao grande uxo de pessoas fazendo compras e a quantidade de dinheiro circulando no
comércio. Arrombamentos a casas de veraneio também aumentam em períodos do ano
que não são classicadas como férias ou verão. Geralmente as casas cam isoladas sem
nenhum vigia, ocasionando a cobiça dos marginais, por se tratar de um imóvel vulnerável,
com equipamentos e valores guardados em seu interior. Além de identicar períodos com
um alto número de crimes, a sazonalidade também pode ser usada para o gerenciamento
da força policial.
Treinamentos e férias podem ser agendadas para períodos ou meses
com poucos crimes, enquanto nos meses com um número maior, todo o efetivo deverá
estar trabalhando. Podemos utilizar a sazonalidade criminal como um fator de previsão
criminal. Identicar essa relação criminal com o tempo é essencial no combate ao crime.
A polícia utiliza dados criminais para vericar se houve uma mudança no comportamento criminal. Geralmente, dois tipos de mudanças são analisadas: mudanças no
nível e no padrão criminal. A polícia geralmente utiliza um período anual para vericar
a mudança no nível criminal, isto é, é calculado a diferença entre o mês que se deseja
12
vericiar a mudança e o mesmo período no ano passado. ∆t = At − At−12 , onde At é
a quantidade de crime do mês analisado e
At−12
é quantidade de crime no mesmo mês
do ano anterior. Mudança no padrão criminal corresponde a perguntas como: Nós diminuimos o número de roubos que ocorreram ano passado ou no semestre passado?. Para
obter respostas a esta pergunta a polícia utiliza o valor que eles haviam previsto para o
δ
δ
período de tempo questionado. A polícia utiliza a seguinte fórmula Pt = At − Ft para
δ
saber se houve um aumento ou um decréscimo no número de crimes. Onde Ft é o valor
δ
previsto pela polícia. Através de Pt é possível analizar a mudança no padrão criminal.
Dentro do contexto de oportunidades de se cometer um crime, técnicas como a
routina de atividade, teoria de padrão criminal e a perspectiva da escolha racional (FELSON; CLARKE, 1998) são apresentadas. Teoria de Rotina de Atividade (COHEN; FELSON,
30
1979) arma que as oportunidades criminais estão concentradas no tempo e lugar, com
diferenças espaciais afetando a probabilidade da convergência de três condições (BOGGS,
1965; NEWMAN, 1972; BRANTINGHAM; BRANTINGHAM, 1984):
1. Motivação dos criminosos;
2. Alvos possíveis;
3. Falta de um guardião capaz;
O comportamento humano pode ser previsto, especialmente devido a Teoria de
Rotina de atividades (COHEN; FELSON, 1979).
Nós podemos prever crimes cometidos
devido a previsibilidade do comportamento humano.
O objetivo principal na predição
de crimes está diretamentoe ligado a prevenção de crimes e a correta execução das leis.
Vários estudos estão sendo desenvolvidos na predição de crimes (GORR; HARRIES, 2003;
CAMARGO et al., 2008; LI et al., 2006; MITCHELL; BROWN; CONKLIN, 2007).
Predizer
crimes é uma tarefa complicada devido a enorme variação no acontecimento.
Diversas
causas podem fazer com que crimes possam mudar, tanto em sua natureza ou localização:
mudanças sociais, econômicas, nas leis judiciárias, táticas policiais, etc.
Prever crimes pode ser uma tarefa dispendiosa, mas fornece várias utilidades com
diversas vantagens.
A polícia pode executar ações táticas como determinação de áreas
críticas, distribuição dos contigentes, determinação da força policial, entre prevenção e
reativa, determinação de períodos para treinamento e férias baseado em predições com
boa precisão.
O poder judiciário pode usar a predição de crimes no planejamento de
novas unidades carcerárias, a partir do estudo demográco do crime, predizer impactos
gerados na criminalidade, devido a mudanças de leis, predizer se um prisioneiro com prisão
condicional irá repetir o crime, de acordo com o seu perl.
Atualmente, os softwares que fazem predição utilizam
GIS (Geograc Information
Systems ) para facilitar a visualização dos crimes, tanto espacialmente, quanto de forma
temporal.
GIS
são softwares que utilizam mapas para a vizualização dos dados.
Esses
softwates são interessantes, pois os dados espaciais e temporários podem ser distribuidos
entre regiões demográcas, facilitando o entendimento dos acontecimentos. Mapas personalizados, termômetros de criminalidade e comparação entre mapas podem ser feitos
através de ferramentas
GIS.
Diversos
GIS,
como o Google Maps, são amplamente utiliza-
dos pela sociedade. Para as pessoas comuns, as ferramentas
GIS fornece ferramentas como
identicação de locais, empresas, traçar rotas, visualização de mapas e imagens feitas por
satélite e visualização de ruas como se estivesse passeando por elas.
2.4 Mineração de Dados
Nossa vida, nossas escolhas pessoais e prossionais estão atualmente armanzenadas em banco de dados.
Nossas ações como pesquisas, compras, consultas a site de
31
notícias e desejos estão sendo armazenadas a todo momento. Esse armazenamento causa
a geração de um grande volume de dados interresantes para diversos objetivos.
Lojas,
agências de notícias e publicidade estão interessadas neste dados, pois eles fornecem informações sobre nossos hábitos, para assim, fornecer seus serviços de forma mais direta e
com o mínimo de impacto.
Mineração de Dados (Data Mining ) é um processo de descoberta de conhecimento
útil em grande volumes de dados, onde seu principal objetivo é identicar padrões presente
nos dados (HAND; MANNILA; SMYTH, 2001). A mineração é um dos passos de um processo conhecido como Descoberta de Conhecimento em Base de Dados (DCBD) (FAYYAD;
PIATETSKY-SHAPIRO; SMYTH, 1996c).
O homem vem procurando padrões desde o iní-
cio da vida humana, como a descoberta de informações sobre o clima ou o padrão de
comportamento de uma animal com o objetivo de caçá-lo ou domesticá-lo.
Existe um espaço que separa a capacidade que os computadores tem de armazenar
dados e a capacidade de entendê-los. É estimado que a quantidade de dados armazenado
em banco de dados ao redor do mundo dobra a cada 20 meses (WITTEN; FRANK, 2005)
e para reconhecer padrões importantes nestes dados é necessário técnicas de busca ágeis.
Buscar informações em um grande volume de dados é uma tarefa complexa e dispendiosa,
devido ao grande volume armazenado e ao grande número de variáveis que deve ser levado
em consideração. Assim, minerar estas informações, isto é, descobrir padrões nos dados
é uma tarefa complexa e que deve ser feita de forma automática ou semi-automática.
Os padrões encontrados podem ser visualizados de duas formas: como caixaspretas, onde a estrutura do padrão não é exibida ou a sua representação não tem fácil
entendimento; e de forma estrutural, onde exibem a estrutura da decisão ou padrão,
explicando o padrão ou algo presente nos dados.
2.4.1 Tarefas de Mineração de Dados
Analistas utilizam técnicas de mineração de dados para resolver problemas levantados. A literatura apresenta diversas técnicas de mineração para diferentes propósitos,
dentre eles citamos:
Predição:
O sistema tem como objetivo encontrar padrões para predizer o futuro utili-
zando características de algumas entidades (FAYYAD; PIATETSKY-SHAPIRO; SMYTH,
1996a);
Descrição:
O sistema identica padrões para apresentar de uma forma legível para o
usuário (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996c);
Classicação:
É uma função de que mapeia uma instância em uma das classes pré-
denidas (WEISS; KULIKOWSKI, 1991);
Regressão:
Regressão é um tipo de predição, onde o valor a ser predito é um valor
pertencente ao conjunto dos reais (i
∈ R)
(HOSMER; LEMESHOW; MAY, 2008);
32
Agrupamento:
Uma tarefa descritiva cujo objetivo é encontrar um conjunto nito de
categorias capazes de descrever os dados (CHEN et al., 2003);
Sumarização:
Métodos utilizados para encontrar uma descrição compacta para um sub-
conjunto de dados (AGRAWAL; SRIKANT, 1994);
Modelagem de Dependência:
Consiste em encontrar um modelo que descreva depen-
dências signicativas entre as variáveis presentes nos dados (GLYMOUR et al., 1996);
Detecção de Mudança e Desvio:
Se concentra em descobrir mudanças signicativas
nos dados a partir de medidas ou valores normativos pré-calculados (BASSEVILLE;
NIKIFOROV, 1993);
2.4.2 Exemplos de Treinamento
Uma das primeiras decisões que devemos tomar na
DCBD
é a escolha do tipo dos
exemplos de treinamento. Os exemplos de treinamento podem ser oriundos de uma fonte
única, ou diversas fontes; terem tipos variados; representar dados numéricos, temporais
ou espaciais.
Uma das características é a origem dos exemplos de treinamento. Os exemplos
podem ter origem de um feedback direto ou indireto. O feedback indireto é aquele na qual
os exemplos não representam a melhor escolha ou o modelo a ser escolhido; já o feedback
direto permite que a escolha seja feita. Por exemplo, um conjunto de exemplos em um jogo
de xadrez pode ser do tipo indireto ou direto. O tipo indireto é aquele que temos várias
sequências de movimentos e o resultado do jogo. O direto é composto de exemplos de qual
jogada será feita dependendo da conguração do tabuleiro. O tipo indireto é denominado
desta maneira pois o algoritmo deve inferir qual a melhor jogada a ser tomada tendo o
resultado do jogo, isto é, se o jogo foi perdido ou ganho. Já o tipo direto é mais simples
para o algoritmo, pois o mesmo não precisa inferir nenhuma ação que deverá ser tomada,
podendo tomar ações consideradas ótimas no início do processamento mas acabar tendo
um desempenho ruim devido a ações não ótimas tomadas em um momento futuro.
A distribuição dos exemplos no conjunto é um importante fator a ser levantado.
Os exemplos de treinamento devem ser o maior possível e com qualidade.
Entende-
se por maior possível, a sua capacidade de representar todas as possíveis alternativas
pertecentes ao universo de estudo. Isto é importante, pois a capacidade de aprendizagem
é totalmente dependente dos exemplos de treinamento. Para a medição da performance
de um sistema é necessário um conjunto de exemplos para testes.
Se por acaso este
conjunto tenha uma distribuição dos dados diferentes das utilizadas em seu treinamento,
a performance do sistema será trágico pois o sistema não teve como ter uma boa média
de acertos baseando-se somente nos exemplos de treinamento, que no caso são diferentes
dos utilizados no conjunto de testes.
33
2.4.3 Pré-processamento
Uma das tarefas mais importantes do processo é o pré-processamento dos dados (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996a). Através desta etapa, é possível fazer
a limpeza, transformar e selecionar os dados mais relevantes para a tarefa a ser realizada.
Um bom pré-processamento pode representar o sucesso ou o fracasso de todo o projeto
de mineração de dados.
Um dos papéis da limpeza dos dados é identicar e eliminar dados errôneos.
A presença de exemplos com classicações erradas é comum de acontecer por diversos
motivos, principalmente erros humanos. Dados errôneos podem levar a extração de informações erradas pois alguns algoritmos são sensíveis a erros, isto é, fazem formulações
errôneas baseadas nestes erros.
Assim, a limpeza dos dados é importante pois elimina
exemplos errôneos e otimiza os dados para o processo de aprendizado.
Além de dados
considerados errôneos, o processo de limpar dados também identica e elimina exemplos
que fogem de um padrão presente nos dados, também conhecidos como outlier (HODGE;
AUSTIN, 2004). A limpeza também retira variáveis/atributos não relevantes para o pro-
cesso de aprendizagem.
A obtenção de dados derivados de atributos e alteração do tipo do atributo são
tarefas referentes a transformação dos dados. Estas ações têm como objetivo melhorar
a qualidade dos dados, pois dependendo do objetivo, os dados modicados tem maior
relevância do que os dados mantidos em seu formato original. A mudança de tipagem dos
dados pode ser necessária pois alguns algoritmos de aprendizagem utilizam apenas alguns
tipos de dados, como numérico, nominal, discreto ou contínuo. A mudança de tipagem
será obrigatória caso a escolha do algoritmo a ser utilizado, exija certa característica para
o seu correto funcionamento.
2.4.3.1 Seleção de Atributos
Algoritmos de seleção de atributos são técnicas que buscam encontrar os melhores
atributos presentes em um conjunto de dados (GUYON; ELISSEEFF, 2003). Alguns conjuntos de dados contêm dezenas ou centenas de atributos e a diminuição da quantidade
destes atributos é essencial no processo de aprendizagem. Podemos citar a qualidade da
informação gerada, diminuição do tempo de execução do algoritmos, melhora na performance dos preditores construídos, facilidade da visualização e entendimentos dos dados
e redução de tamanho do conjunto de dados como benefícios que os algoritmos de seleção de atributos nos oferece. Resumindo, algoritmos de seleção de atributos tem como
objetivo selecionar sub-conjuntos de atributos que são úteis na construção de um bom
preditor. Conjunto de dados de áreas como processamento de texto, análise de expressão
gênica e química combinatória são exemplos de áreas que geralmente contêm uma grande
quantidade de atributos que os analistas devem utilizar técnicas de seleção de atributos.
A tarefa dos algoritmos de seleção de atributos é um processo de otimização
composta de duas sub-tarefas. A primeira sub-tarefa consiste em encontrar os atributos
34
mais relevantes, isto é, aqueles que melhoram a qualidade do algoritmo de aprendizagem
de máquina. A segunda é encontrar os atributos redundantes, aqueles cujo conteúdo é
próximo a outro atributo ou não aumenta a performance já que existe outro atributo
similar a ele no conjunto de dados. Os atributos redundantes devem ser excluídos, pois a
sua presença no processo de aprendizagem altera a performance do algoritmo, chegando
a aumentar o tempo de processamento ou prejudicando o entendimento do processo de
aprendizagem.
Métodos de seleção de atributos são divididos em 3 tipos: Filtros, Wrappers e
embutidos.
O método ltro é designado como um método de pré-processamento pois
o mesmo é executado antes da aplicação do algoritmo de aprendizagem e é totalmente
independente do processo de aprendizagem. Os métodos chamados de wrappers utilizam
o algoritmos de aprendizagem para selecionar o melhor sub-conjunto de atributos. Já os
embutidos são aqueles que executam a seleção junto com o processo de aprendizagem.
Dado um conjunto de treinamento T com
com
m
exemplos {xk , yk (k
n atributos xk,i (i = 1, . . . , n) e o atributo de saída (classicação) yk .
= 1, . . . , m)},
Métodos de ran-
king são métodos que ordenam todos os atributos basendo-se em uma função de avaliação
S(i)
S(i)
computada a partir dos exemplos de treinamento (xk , yk ).
A função de avaliação
informa quanto importante o atributo é, sendo assim, métodos de ranking ordenam
de forma decrescente todos os atributos baseado-se no valor da função
S(i).
Métodos
de ranking é classicado como um método ltro, pois é executado antes do processo de
aprendizagem e independe do algoritmo de aprendizagem. Métodos de ranking é computacionalmente eciente, pois requer apenas a ordenação de
função de avaliação
S(i)
n
atributos baseado em uma
e estatisticamente robusto pois evita o overtting, ocasionando
um vício de seleção. Selecionar atributos baseando-se somente em funções de avaliação é
um pouco perigoso pois um sub-conjunto de atributos são mais relevantes para o processo
do que quando são avaliados individualmente. Assim, métodos que avaliem não somente
o atributo, mas sim o sub-conjunto integralmente em relação ao atributo de saída
yk
são
mais recomendados.
Metódos do tipo wrapper utilizam algoritmos de aprendizagem para selecionar
o melhor sub-conjunto de atributos.
Estes métodos não avaliam individualmente cada
atributo, mas o sub-conjunto a ser analisado.
Para a sua utilização devemos denir
alguns parâmetros:
1. Qual método de procura será utilizado;
2. Como avaliar a performance do algoritmo.
Essa informação será necessária para
guiar o processo de procura;
3. Qual algoritmo utilizar;
Na literatura existem várias estratégias de procura, onde podemos citar: Best-First,Bran-
ch-and-Bound, têmpera simulada e algoritmos genéticos (KOHAVI; JOHN, 1997). Métodos
gulosos também são bastante utilizados, tendo duas vertentes:
seleção para frente ou
35
eliminação para trás. Na seleção para frente, as variáveis são adicionadas de forma incremental ao sub-conjunto, enquanto na eliminação para trás o sub-conjunto contém todos os
atributos e a cada passo um atributo é eliminado, cando somente os melhores atributos.
A avaliação da perfomance do método utilizado é realizadp utilizando um conjunto de
avaliação ou validação cruzada.
Os métodos embutidos são executados junto com o processo de aprendizagem.
A procura é guiada pela estimativa de mundanças no valor da função objetivo a partir
da modicação do sub-conjunto de atributos trabalhado. Algumas vantagens no uso de
métodos embutidos são o uso integral de todo o conjunto de dados, já que o conjunto não
é dividido para ser usado para validação e alcançam a uma solução mais rápida pela não
necessidade de retreinar o preditor para cada sub-conjunto avaliado. Árvores de decisão
são estruturas de decisão que utilizam métodos embutidos para selecionar os melhores
atributos. O algoritmo C4.5 (QUINLAN, 1993) utilizado para construir árvores de decisão
utiliza o Information Gain (KULLBACK; LEIBLER, 1951; KULLBACK, 1997) como método
para selecionar os atributos.
2.4.4 Aprendizagem de Máquina
Uma das características mais importantes no ser humano é a sua capacidade
de aprender. O aprendizado no ser humano é feito a partir de ensinamentos ou de sua
vivência através de sua experiência. O mais importante do aprendizado do ser humano é
a capacidade de utilizar o conhecimento adquirido em problemas nunca enfrentados.
Os computadores são máquinas extraordinárias, têm a capacidade de processamento e memórias muito superiores a dos seres humanos. Infelizmente os computadores
têm uma certa deciência, não são capazes de forma independente de tomar as próprias
decisões. Se pudessemos programar os computadores para que eles pudessem aprender,
melhorar sua performance com o passar do tempo seria extraordinário, juntaríamos características humanas e computacionais que possa criar um sistema capaz de aprender
com a perfomance de um computador.
A aprendizagem de máquina (AM) é uma área multidiciplinar que almeja a capacidade dos computadores em aprender (MICHALSKI; CARBONELL; MITCHELL, 1986).
É
multidisciplinar pois utiliza resultados da inteligênia articial, estatística, probabilidade,
teoria da complexidade computacional, teoria da informação, psicologia, losoa, neurobiologia e outros campos. É dito que um computador aprende se o uso de experiências na
resolução de conjunto de tarefas melhora com as experiências apresentadas, isto é, ele tem
a capacidade de melhorar seu desempenho com o uso das experiências. Sendo assim, a
aprendizagem dos computadores acontece quando os mesmos são capazes de formar ações
generalizadas a partir de experiências pré-apresentadas. A experiência é apresentada na
forma de dados e através de algortimos é possível aprender, isto é, construir, identicar
padrões gerais presente nos dados. Os testes feitos para medir a capacidade do computador em aprender são feitos através da observação de uma nova experiência e a comparação
deste resultado com o uso de experiências anteriores.
36
Podemos dividir uma tarefa de aprendizagem de máquina em três elementos:
Tarefa, Performance e Experiência. Iremos exemplicar esta divisão através do exemplo
de reconhecimento de caracteres em imagens.
Tarefa:
Reconhecer caracteres em imagens;
Performance:
Experiência:
Taxa de acerto;
Base de imagens de caracteres com a sua respectiva classicação;
Sendo o conceito um resultado de um processo de aprendizagem, podemos dizer
que a aprendizagem ocorre quando há uma procura por conceitos coerentes com os exemplos de treinamento em um conjunto de conceitos nito.
Um algoritmo de
AM
poderia
enumerar todos os conceitos possíveis no universo de varíaveis/atributos presentes no
conjunto de treinamento e selecionar apenas aqueles que são compatíveis com os exemplos
de treinamento. Infelizmente esta técnica é insatisfatória, pois dependendo do número de
atributos, a procura/comparação iria demorar muito tempo, sendo impraticável.
algoritmos de
AM
Bons
tem como objetivo fazer esta procura em pouco tempo, utilizando as
melhores estratégias.
2.4.4.1 Aprendizado Supervionado, Não Supervisionado e Semi-Supervisionado
A presença de uma classe, ou seja, de uma saída
yk
nem sempre está disponível
no conjunto de treinamento. Entretanto o aprendizado deve se adaptar com a presença
ou a ausência deste importante atributo. O aprendizado que utiliza a sáida
yk
é conhecido
como aprendizado supervisionado. Este aprendizado se dá com a utilização deste atributo
para a correta construção do modelo de aprendizado baseado no conjunto de treinamento
T.
Redes Neurais, Árvores de Decisão, Redes Baysianas são exemplos de algoritmos de
aprendizagem supervisionados.
O aprendizado não supervisionado é processado sem a necessidade do atributo
de classe.
Esses algoritmos são mais utilizados para agrupamento de dados, atribuição
de classes a instâncias que não contém este atributo e detecção de outlyers. Exemplos de
algoritmos não supervisionados são as redes de Kohonen e algoritmos de agrupamento de
dados como k-Nearest Hood.
O aprendizado Semi-Supervisionado utiliza exemplos com classes
com classes
yk
não denidas.
yk
denidas e
Geralmente o aprendizado utiliza um pequeno conjunto
de exemplos rotulados e um grande conjunto de exemplos não rotulados. Os exemplos
rotulados irão auxiliar o algoritmos na denição das classes nos exemplos não rotulados.
Este auxílio tem como objetivo a melhora da precisão do algoritmo nos exemplos que não
contém classe denida.
37
2.4.4.2 Aprendizado de Conceito
Podemos armar que o aprendizado consiste em gerar hipóteses gerais de exemplos de treinamento especícos. O aprendizado humano também é baseado na geração
destas hipóteses, pois podemos classicar, por exemplo, alguns animais como cães dentre
todos os animais existentes. Nós podemos conseguimos identicar cães mesmo sem ter
visto todos os cães ou mesmo todos os animais presentes na Terra.
A aprendizagem de conceito baseia-se nesta idéia, de armar se determinado exemplo é de um tipo observando somente as suas características. Computacionalmente,
escrevemos um algoritmo capaz de armar se determinado exemplo pertence a classe que
ele representa. Isto é, a aprendizagem de conceito aproxima uma função booleana utilizando um conjunto de exemplos de treinamento (MICHALSKI; CARBONELL; MITCHELL,
1986).
Os exemplos pertecentes ao conjunto de treinamento devem ter suas características e um atributo conhecido como conceito alvo que identica se o exemplo pertence
ao conceito que queremos identicar.
O algoritmo é capaz de gerar uma hipótese que
represente o conceito que queremos identicar utilizando um sub-conjunto de características presentes no conjunto de treinamento. Por exemplo, para identicarmos uma gura
geométrica como triângulo podemos utilizar um conjunto de treinamento com a cor, quantidade de lados, tamanho de cada lado, ângulo dos vértices. Todos nós sabemos que uma
gura geométrica é um triângulo se contiver apenas 3 lados, ou seja, um bom algoritmo
de aprendizagem de conceito deve utilizar apenas em sua hipótese o número de lados para
ter uma hipótese verdadeira e genérica (TANENBAUM, 1999).
A Tabela 1 representa um pequeno conjunto de treinamento para a tarefa de
aprendizado de conceito. A tarefa consiste em aprender que características presente em
um dia qualquer faz com que uma pessoa pratique seu esporte favorito.
A prática do
esporte depende de algumas características presentes em sua personalidade ou condições
propícias para o esporte que a tarefa de aprendizagem deseja identicar.
O conjunto
de treinamento é composto de 7 atributos, sendo 6 características dos exemplos: Céu,
Temperatura do Ar, Umidade, Vento, Água, Previsão; e o atributo que representa o
conceito alvo: Pratica Esporte.
Tabela 1: Conjunto de exemplos para o aprendizado do conceito Pratica Esporte
Exemplo
Céu
Temperatura
Umidade
Vento
Água
Previsão
do Ar
Pratica
Esporte
1
Ensolarado
Amena
Normal
Forte
Amena
Mesma
Sim
2
Ensolarado
Amena
Alta
Forte
Amena
Mesma
Sim
3
Chuvoso
Frio
Alta
Forte
Amena
Alterou
Não
4
Ensolarado
Amena
Alta
Forte
Boa
Alterou
Sim
A aprendizagem de conceito terá papel fundamental neste trabalho, pois o mesmo
está fundamentado nestas idéias. Teremos 5 conceitos a serem identicados pelo modelo.
Os conceitos serão traduzidos como níveis criminais e serão denidos e descritos posteri-
38
ormente.
2.4.4.3 Redes Neurais Articiais
Redes Neurais Articiais (RNA) são estruturas computacionais inspiradas nas redes
neurais biológicas. As
RNA são compostas por nós, chamados de neurônios e cada neurônio
é conectado a outro através de conexões. Para cada conexão existe um valor, no qual é
chamado de peso (KASABOV, 1996; OLLIGSCHLAEGER, 1997).
As Redes Neurais são
conhecidas como modelo conexionista devido a estas características. O aprendizado de
uma
RNA
é obtido através de algoritmos cujo objetivo é modicar os pesos para que a
rede possa obter um resultado de acordo com os exemplos de treinamento.
ciência onde se aplica as
RNA
A área da
para o processamento de informações é conhecida como
Neurocomputação. A Figura 3 exibe um modelo genérico de uma
RNA.
Figura 2: Esquema de um Neurônio Articial
Figura 3: Rede Neural Articial
O primeiro neurônio articial, representação matemática, foi denido por McCulloch e Pitts (1943). Através da Figura 2 podemos ver a estrutura de um neuronio articial.
Um neurônio artical é uma estrutura composta por entradas e pesos atribuídos a cada
entrada, uma saída e uma função de ativação.

Para cada entrada
E = x0 , x1 , . . . , xi − 1, xi existe um peso P = w0 , w1 , . . . , wi − 1, wi .
39

A função de entrada
peso
wi
é uma função somatória que agrega cada entrada
u = f (E, P ) =
correspodente.

A função de ativação

A função de saída
valor de
O conjunto
f
E
ϕ
P
i=1,...,n
xi
a cada
xi .wi .
calcula o sinal de ativação do neurônio a=ϕ(u).
yk = s(ϕ(u))
calcula o valor de saída do neurônio. Geralmente o
s=ϕ(u).
de entrada e o valor de saída
yk
podem ser binários 0,1; bivalentes -1,1;
contínuo [0,1]; ou valores discretos.
O perceptron foi criado por Rosenblatt (1958) e é considerada como a rede neural
mais simples. O perceptron é um classicador binário que mapeia um vetor de entrada
X∈R
a uma valor de saída
f (X).
f (X) =
Onde
w
é o vetor de pesos,
vertor de entrada e
b
1,
0,
w.X
se
w.X + b > 0
senão
é o produto interno do vetor de pesos com o
é o vício, um valor constante indepedente do vetor
X.
O perceptron
tem 2 camadas, uma camada de entrada e uma de saída, onde os neurônios da camanda
de entrada são totalmente conectados com os da camada de saída, i.e, para todo neurônio
da camada de entrada
sj .
ni
existe uma conexão
ci j
para cada neurônio da camada de saída
Mais detalhes sobre as camadas serão apresentados.
As funções de ativação mais usadas são:

Sinal: Se o valor
u
ativado (yk
senão o neurônio cará inativo
= 1),
Linear: O valor de ativação
função de entrada
isto é,

da função de entrada for maior que um certo valor o neurônio é
yk = 1;
u.
yk
yk = 0;
Ilustração na Figura 4(a).
aumenta linearmente de acordo com o valor da
Se um certo limite for ultrapassado, a rede cará saturada,
Ilustração na Figura 4(b).
Sigmóide: A função sigmóide é uma função não linear crescente em forma de S. A
imagem é delimitada por dois valores limites, por exemplo [0,1],[-1,1]. A sigmóide
é constante e suave, sendo também diferenciável. Ilustração na Figura 4(c).

Gaussiana: A função gaussiana também conhecida como sino é comumente
utilizada, pois é contínua e diferenciável. Ilustração na Figura 4(d).
As funções descritas podem ser melhor observadas através da Figura 4.
A rede neural observada na Figura 3 tem 1 camada de entrada, 1 camada oculta e
um neurônio de saída. A primeira camada contém 4 neurônios e a camada oculta contém
2 neurônios. Uma rede neural pode conter quantas camadas ocultas forem necessárias.
Esse tipo de rede, na qual existe uma camada de entrada, pelo menos uma camada
40
(a) Função Sinal
(b) Função Linear
(c) Função Sigmóide
(d) Função Gaussiana
Figura 4: Various edge detection algorithms
41
intermediária e uma camada de saída, é chamada de
MLP (Multilayer Perceptron ).
Quando
todo neurônio está conectado a qualquer outro na rede é dito que a rede é totalmente
conectada e as
MLP
são exemplos de redes totalmente conectadas.
A rede é conectada
parcialmente quando é permitida apenas a conexão dos neurônios que estão presentes
entre camadas, isto é, um neurônio da camada
de uma camada
j 6= i.
i
só pode estar conectado a um neurônio
Em cada conexão existe um peso associado onde cada peso é
obtido a partir de um algoritmo de aprendizagem. Um rede é dita treinada quando seus
pesos estão de acordo com os exemplos de treinamento e quando a rede consegue obter
resultados satisfatórios para exemplos nunca vistos.
Depedendo de como as conexões estão organizadas entre os neurônios, podemos
classicar uma rede em feedforward ou feedback. Na arquitetura feedforward não existe
conexões ligando neurônios de camadas mais próximas a camada de saída a neurônios
pertecentes a camadas mais próxima a camada de entrada. Não existe conexões ligando
neurônios da camada
x
a camada
y,
onde
x > y.
Redes com arquitetura feedback contém
conexões entre camadas mais próximas a saída com neurônios pertecentes a camadas mais
próximas da camada de entrada. Essa característica cria laços, possibilitando a criação de
uma memória dos estados anteriores. O estados não dependem somente dos parâmetros
de entrada, mas sim de estados anteriores armazenados nestes laços.
A característica mais atraente presente nas redes neurais é a sua capacidade de
aprender. O aprendizado de uma rede neural se dá pela mudança dos pesos presentes na
conexões. Cada exemplo de treinamento
xi
é dado para a rede no processo de aprendizado
e os pesos são alterados para que a saída da rede seja compatível com
yi
do exemplo
xi .
O processo de aprendizado se dá através da aplicação de todo o conjunto de exemplos de
treinamento
X
e a devida alteração nos pesos, onde a alteração dos pesos fornece a rede
neural a capacidade de generalizar a função aprendida. Para avaliar a precisão da rede
treinada é utilizado exemplos de teste, isto é, exemplos de treinamento que não foram
utilizados pela rede em seu processo de aprendizagem.
As
RNAs aprendem o que lhe proposto a aprender através de algoritmos de apren-
dizagem. Os algoritmos de aprendizagem podem ser classicados como:
1. Aprendizado Supervisionado: A Rede Neural aproxima uma função
partir de exemplos com os atributos
der
yk .
x1 , . . . , x n
f (X) = y
a
e o resultado que se deseja apren-
O aprendizado adquirido ca codicado através dos pesos presentes nas
conexões.
2. Aprendizado Não-Supervisionado: Ao invés de receber o conjunto de atributos
e a saída desejada, a
RNA
recebe apenas os atributos.
As
SOM
X
(Self-Organization
Maps ) é um tipo de rede com aprendizado não supervisionado.
3. Aprendizado com Reforço: Nesse tipo de aprendizado a rede é premiada se a saída
for considerada satisfatória. A premiação causa o aumento no valor dos pesos das
conexões presentes. Caso a saída seja considerada ruim, a rede é penalisada e os
42
pesos das conexões consideradas são diminuidos, i.e., diminuindo o seu fator de
impacto no resultado da rede.
O processo propoe o uso de uma rede neural com arquitetura feedforward, portanto, iremos discutir o algoritmo mais utilizado nesta arquitetura. O algortimo de aprendizagem mais conhecidos para
EDMILLER; BRAUN, 1993).
RNAs com arquitetura feedforward
é o backpropagation (RI-
A regra Delta é a base de cáluclo da atualização dos pesos
utilizado no backpropagation (WIDROW; LEHR, 1990). O objetivo do backpropagation é diP P
p
minuir o máximo o erro global Err =
p
j Errj , onde o erro de um exemplo p pode ser
calculado através por exemplo do Erro Médio Quadrático ou Mean Square Error (MSE):
Errjp = ε2j /2 (ALLEN, 1971). Os pesos das conexões são atualizados a partir da regra
Delta. Os ajustes denidos por esta regra é dada pela seguinte expressão:
wij(t+1)=wij(t) +η∗εj(t) ∗xi
(2.1)
Onde:
i=índice
do sinal de entrada;
j =índice
do neurônio da camada de saída;
t=iteração;
wij(t+1) =valor
wij(t) =valor
η =taxa
εj(t) =
do peso ajustado;
do peso anterior;
de aprendizado;
valor do erro para o neurônio
xi =valor
j,
conforme a expressão 2.2.
de entrada;
εj(t) = dj(t) − yj(t)
(2.2)
Onde:
dj(t) =Saída
desejada para o neurônio
yj(t) =Saída
calculada para o neurônio
j;
j;
No backpropagation existe a denição de epoch ou ciclo de aprendizagem.
O
ciclo é denido como o processo de propagação de um ou mais exemplos de treinamento
e o cálculo do erro de cada exemplo.
aprendizagem:
O algoritmo executa dois passos a cada ciclo de
43
1. Passagem: Os exemplos são apenas fornecidos e propagados até a camada de saída;
2. Passagem Retroativa: Quando o erro de saída é calculado, os pesos são atualizados
de forma retroativa, i.e., as atualizações acontecem primeiro nas conexões mais
próximas a camada de saída.
No processo da passagem retroativa, o erro
Errni
de um neurônio intermediário
ni
Errnj de todos os neurônios nj conectados
pesos wij . Esse processo é repetido até que os
é calculado a partir da multiplicação dos erros
ao neurônio
ni
pelo os seus respectivos
erros de todos os neurônios sejam calculados, lembrando que o cálculo é feito de forma
retroativa. Os erros calculados são utilizados para a atualização dos pesos e a ordenação
de atualização é feita do mesmo modo do cálculo dos erros, ou seja, de forma retroativa. O
treinamento ocorre até todos os ciclos acabarem ou quando o erro
Err for sucientemente
pequeno.
2.4.5 Pós-processamento
Os dados que são processados por algoritmos de aprendizagem de máquina contêm muitos ruídos e são inconsistentes, assim, muitas fases devem ser realizadas antes do processo de extração de conhecimento realmente ocorra.
Alguns passos de pré-
processamento devem ser executados para que os dados sejam limpos, transformados e
organizados para que o algortimo de aprendizagem possa trabalhar corretamente. O resultado do aprendizado pode ser uma árvore de decisão, um conjunto de regras, uma
topologia de uma rede neural. Entretanto, estes modelos podem não ser apropriados para
a visualização dos resultados, pois são de difícil compreensão ou apresentam padrões não
relevantes. Para melhorar o entendimento destes modelos, é necessário executar um pósprocessamento (BRUHA; FAMILI, 2000) nos resultados obtios após a fase de mineração.
Procedimento de pós-processamento inclui rotinas de corte, ltragem de regras ou mesmo
integração e visualização de conhecimento. Todos estes procedimentos têm como objetivo
servir de ltro para erros e conhecimento impreciso gerado pelos modelos.
A fase de pós-processamento é composta de vários procedimentos e métodos que
podem ser categorizadas da seguinte maneira:
Filtro de conhecimento:
Geralmente os algoritmos indutivos como árvores e regras de
decisão geram folhas correspodentes a poucos exemplos presentes no conjunto de
treinamento.
Isto acontece porque os algoritmos tentam ser o mais consistentes
com o conjunto de treinamento. O método para evitar isto, é excluindo as folhas
que exibem este comportamento. Estes métodos são conhecidos como pós-podação
para árvores e truncação para regras de decisão.
Interpretação e explicação:
Após o conhecimento ter sido obtido pelo algoritmos de
aprendizado, é necessário utilizá-lo de forma correta. Infelizmente algumas técnicas
não apresentam uma forma amigável de apresentar seus resultados, inclusive se os
44
mesmos devem ser apresentados ao usuário nal. Para isso, uma das formas de facilitar a legibilidade do conhecimento produzido é a sua documentação, visualização
ou combinação com sistemas já existentes.
Avaliação:
A fase de avaliação deve ser executada após os algoritmos terem produzidos
suas hipóteses baseadas no conjunto de treinamento. Existe geralmente várias medidas para avaliar um processo, onde as mais utilizadas são: precisão na classicação,
legibilidade, complexidade computacional, etc.
Integração de Conhecimento:
Sistemas tradicionais de apoio a decisão utilizam so-
mente um algoritmo de aprendizagem. Entretanto novos métodos vem sendo construídos baseando-se em mais de um modelo de aprendizagem. Estes modelos devem
ser corretamente integrados de forma a não entrar em conito no conhecimento
produzido e conter métodos de visualização ecazes para apresentar os diversos
resultados produzidos.
A fase de pós-processamento deve ser entendida como uma fase importante no
processo de Descoberta de Conhecimento em Banco de Dados. Através de seus métodos
podemos obter resultados melhores a partir do conhecimento obtido.
Assim, podemos
construir sistemas mais amigáveis e legíveis, melhorando a precisão e a intepretação do
usuário nal.
2.5 Descoberta de Conhecimento em Banco de Dados
A mineração de dados é um passo de um grande processo chamado de descoberta
de conhecimento em banco de dados. A tarefa de mineração se preocupa com a aplicação de algoritmos para analisar os dados ou extrair padrões em categorias especícas dos
dados com ou sem a supervisão humana (KLOSGEN; ZYTKOW, 2002). A descoberta de
conhecimento é um processo que procura por informações relevantes presentes nos dados,
sendo a mineração um de seus passos. A descoberta de conhecimento é um processo não
trivial desenvolvido para identicar padrões válidos, novos, potencialmente úteis e entendíveis (FAYYAD et al., 1996). O primeiro processo desenvolvido foi apresentado por Fayyad
et al. (1996) em seu livro, onde o modelo não focava em uma técnica particular, mas provia
um processo genérico para a geração de conhecimento presente nos dados.
Inicialmente, os cientistas não se preocupavam muito no processo utilizado para
a extração de conhecimento, mas na concepção, melhora e aplicação de algoritmos de
mineração de dados.
O foco nos algoritmos trouxe problemas relacionados ao uso das
técnicas por pessoas não especialistas ou com poucos casos de sucesso na indústria. Devido
a estes problemas foi concluído que deveria ser desenvolvido um modelo interativo e
iterativo que forneça ferramentas para a análise de dados.
O processo de descoberta de conhecimento se preocupa com todo o processo de
extração do conhecimento, incluindo, como os dados serão armazenados e acessados, limpos, transformados e selecionados; quais serão os algoritmos utilizados, como a avaliação
45
das informações extraídas deverá ser realizada e quais serão os métodos de visualização.
Resumindo, a principal razão em denir e implementar um processo de mineração de
dados é garantir que o produto nal seja útil para o usuário, atendendo todas as suas
expectativas (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996b).
Um outro fator de motivação para a modelagem de um processo de mineração é o
entendimento do processo em si, do negócio e das informações coletadas. Os analistas necessitam de um processo formal para denição das necessidades dos usuários e quais serão
os objetivos a serem alcançados utilizando uma ferramenta de mineração de dados. Uma
das diculdades que os usuários têm é a diculdade em expressar seus desejos de forma
exata, isto é devido a inexperiência ou o não saber o que se deseja. Outra diculdade é a
grande quantidade de dados a ser analisada e utilizada na tarefa de mineração. O grande
volume pode conter informações para diferentes interesses e a denição e identicação de
informações corretas pode ser uma tarefa árdua e custosa.
O primeiro processo de mineração foi publicado em 1996 por Fayyad et al. (1996) e
contém 9 passos (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996c, 1996a). Este processo cobre tarefas como entendimento do domínio da aplicação ou limpeza e pré-processamento
dos dados, focando-se na academia.
O próximo modelo, publicado por Cabena et al.
(1998) contém 5 passos. Diferente do modelo desenvolvido por Fayyad, Piatetsky-Shapiro
e Smyth (1996c), o processo criado foca a indústria, utilizando problemas reais. O terceiro
processo, contendo 8 passos foi desenvolvido por Anand e Buchner (1998) (ANAND et al.,
1998). O CRISP-DM (CRoss-Industry Standard Process for Data Mining ) é um processo
que inclui 6 passos.
Foi proposto em 1996 por um consórcio de empresas: SPSS (for-
necedora de ferramentas para mineração), NCR (empresa de banco de dados), Daimler
Chrysler (indústria de veículos) e OHRA (empresa de seguros). O modelo foi ocialmente
lançado apenas em 2000 e hoje têm um grande apoio da indústria e da academia (SHEARER, 2000; WIRTH; HIPP, 2000). Finalmente, o processo de 6 passos desenvolvido por Cios
et al. (2000) foi publicado. Este processo utilizou o CRISP-DM como base, modicando
alguns passos para necessidades especícas da academia. As principais colaborações foi
em relação a generalização do processo, descrição dos passos orientados a pesquisa e introdução de mecanismos para comentários e a enfatização que um conhecimento adquirido
a partir de um domínio pode ser aplicado a outros domínios.
Todos os processos aqui
citados contêm etapas semelhantes que podem ser comparadas entre si. Diferenciandose por exemplo em relação a execução ou a forma que as ações foram abordadas.
Os
processos mais novos contêm passos adicionais, sendo estes adicionados devido a novas
características e problemas descobertos na denição do processo de mineração de dados
produzidos anteriormente. A Tabela 2 publicada no artigo de Kurgan e Musilek (2006)
apresenta uma comparação resumida dos processos citados.
A sub-seção seguinte irá tratar do especicamente do CRISP-DM. O CRISP-DM
foi utilizado para a criação do processo formulado neste trabalho, sendo sua base teórica.
O processo proposto neste trabalho pode ser especicado como uma especialização do
CRISP-DM, onde o principal objetivo é servir de guia para a criação de um método
preditivo de níveis criminais.
Diferentemente do CRISP-DM, o processo proposto no
Modelo
Área
Nº de passos
Refs.
Passos
7 Descoberta de Padrões
8 Pós-Processamento
2 Preparação dos Dados
3 Mineração
4 Elicitação do Domínio
de Conhecimento
5 Assimilação do
Conhecimento
2 Criando um
Conjunto Alvo
3 Limpeza e PréProcessamento dos Dados
4 Redução e Projeção
dos Dados
5 Escolhendo a Tarefa de
MD
6 Escolhendo o Algoritmo
de Mineração
7 Mineração
8 Interpretação dos Padrões
Minerados
9 Consolidação do
Conhecimento Decoberto
Anand & Buchner
Academia
8
(ANAND et al., 1998)
1 Identicação de
Recursos Humanos
2 Especicação do
Problema
3 Prospecção dos Dados
4 Elicitação do Domínio
do Conhecimento
5 Identicação da
Metodologia
6 Pré-Processamento
dos Dados
Cabena et al
Indústria
5
(CABENA et al., 1998)
1 Determinação dos Objetivos
de Negócio
4 Modelagem
5 Avaliação
do Conhecimento
6 Divulgação
3 Preparação dos
Dados
2 Entendimento dos
Dados
CRISP-DM
Indústria
6
(SHEARER, 2000)
Entendimento do
Negócio
Tabela 2: Comparação dos processos apresentados reproduzido no artigo de Kurgan e Musilek (2006)
Fayyad et al.
Academia
9
(FAYYAD et al., 1996)
1. Desenvolvimento e
Entendimento do
Domínio da Aplicação
4 Mineração
5 Avaliação do
Conhecimento Adquirido
6 Usando o Conhecimento
Descoberto
3 Preparação dos
Dados
2 Entendimento dos
Dados
Cios et al.
Academia
6
(CIOS et al., 2000)
1 Entendimento do
Problema de Domínio
46
47
trabalho não é genérico, pois recomendamos que certas ações sejam executadas baseadas
na criminalidade e nos dados coletados. Devido a isto, alguns passos foram modicados
para que fossem adequados corretamente ao problema abordado.
2.6 CRISP-DM
O processo CRISP-DM foi concebido no nal de 1996 por prossionais do mercado
de mineração de dados pertecentes a Daimler-Crysler, SPSS e NCR. Depois de dois anos
e meio de desenvolvimento foi alcançado um rascunho de qualidade do processo, que
nalmente poderia ser utilizado. A Daimler-Crysler já utilizava a mineração de dados em
suas operações de negócio, a SPSS fornece ferramentas e serviços baseados em mineração
desde 1990 e a NCR que desejava adicionar algum valor ao grande volume de dados
presente em seus Data Warehouses.
O CRISP-DM foi criado para responder questões presentes no dia-a-dia destas
empresas.
Estamos fazendo o certo? Um novato tem a possibilidade de aprender, sem
ser na tentativa-erro? Podemos demonstrar para os gerentes que a mineração de dados é
uma área madura que pode ser aplicada sem problemas aos negócios da empresa? Assim,
um processo de mineração gratuito e não proprietário poderia ser disponibilizado para
que questões como estas possam ser respondidas.
O CRISP-DM não foi criado de forma teórica, de maneira acadêmica, utilizando
princípios técnicos em seu texto ou foi desenvolvido por gurus da área. Foi criado para ser
utilizado de forma prática e fácil, baseando-se na execução de tarefas que no nal geram
um produto implementado e documentado. O CRISP-DM foi testado em várias aplicações
do mundo real e pode ser considerado um sucesso pela quantidade de pessoas no mundo
que o utiliza no desenvolvimento de projetos de mineração de dados. O processo contém
6 etapas principais: Entendimento do Negócio, Entendimento dos Dados, Preparação dos
Dados, Modelagem, Avaliação e Divulgação.
Trataremos de forma sucinta cada etapa,
maiores detalhes podem ser obtidos através da leitura de Chapman (2000).
As próximas sub-seções irão descrever cada etapa pertecente ao CRISP-DM. Dentro de cada etapa iremos descrever sub-etapas importantes no desenvolvimento do processo
proposto neste trabalho.
2.6.1 Entendimento do Negócio
A etapa inicial foca no entendimento dos objetivos do projeto e requisitos da
perspectiva do negócio. Convertendo o conhecimento adquirido em problemas tratáveis
pela mineração de dados.
Além do entedimento propriamente do negócio, nesta etapa devemos programar
toda a execução do processo de mineração, identicando todos os passos e riscos que
podem atrasar o projeto.
48
2.6.1.1 Plano de Atuação
No plano de atuação devemos planejar cuidadosamente todos os passos a serem
feitos para alcançar os objetivos determinados na fase do Entendimento do Negócio. O
plano de atuação deve conter o número de participantes, quais equipamentos serão utilizados, quais serão as dependências entre tarefas e detalhes sobre as ferramentas que serão
utilizadas.
Deve estar contido no plano de atuação informações como o planejamento de
compra, instalação, conguração e treinamento do software que será utilizado.
O le-
vantamento do software e técnicas que serão abordadas devem ser avaliadas antes de
qualquer execução relacionada aos dados. Os softwares e técnicas levantadas devem ser
vericadas e comparadas levando em conta preço, tempo de aprendizagem, treinamento,
usabilidade, precisão e tempo de resposta. Levando-se em conta o que foi denido na fase
de levantamento dos objetivos técnicos.
A equipe deve construir um plano com todas as informações citadas.
O do-
cumento servirá como documentação estrutural do projeto, identicando os recursos,
requisitos e prioridades.
Poderemos, através dele, avaliar o andamento da concepção,
organização e andamento inicial do projeto.
O plano de atuação irá detalhar todos os
passos necessários para alcançar os resultados denidos nos objetivos do negócio.
2.6.2 Entendimento dos Dados
A fase de entendimento dos dados inicia com um conjuto inicial de dados e continua com tarefas para deixar o analista familiar com os dados, identicando problemas
de qualidade e primeiras impressões dos dados.
2.6.2.1 Coleta e Análise dos Dados
A coleta dos dados é um processo que pode ser custoso e burocrático, podendo
ser realizada de diferentes formas, dependendo da natureza dos dados. Os dados podem
ser colhidos através de pesquisas feitas a população, banco de dados empresariais e/ou
governamentais, logs, observações, etc.
O processo de liberação e uso dos dados devem ser informados e solicitados. A
liberação dos dados pode demorar um certo tempo dependendo da burocracia inerente ao
processo de solicitação. A decisão de que método a ser realizado deve-se levar em conta
os custos e os benefícios do uso do método.
Pesquisas feitas a sociedade são custosas,
pois necessitam de pessoas para a coleta, organização e análise dos dados colhidos, já a
coleta em banco de dados pode ser burocrático devido a liberação dos dados, mas de fácil
aquisição devido as facilidades para acesso aos dados.
49
2.6.2.2 Exploração dos Dados
Esta fase é composta de tarefas que irão consultar, visualizar e reportar características intrínsecas dos dados. Características como a distribuição do atributo de classe,
relações entre pequenos grupos de atributos e agregações. Fornece como saída informações
relevantes para a seleção dos melhores atributos, que irão melhorar o processo de predição,
diminuir o tempo de treinamento e aumentar a precisão das predições realizadas.
2.6.3 Preparação dos Dados
A fase de preparação cobre todas as atividades para contrução do conjunto de
dados nal. Atividades como a limpeza e transformação dos dados e seleção dos atributos
mais relevantes.
2.6.3.1 Transformação dos Dados
A transformação dos dados visa a melhora na qualidade dos dados. A transformação consiste de tarefas como derivação de atributos, inserção de instâncias ou valores
alterados. A transformação dos dados é necessária pois algumas vezes os algoritmos de
aprendizagem trabalham melhor com alguns tipos de dados ou a restrições impostas. Por
exemplo, a normalização de números reais para serem corretamento utilizados em Redes
Neurais.
2.6.3.2 Integração dos Dados
A integração deve combinar diferentes tabelas utilizando atributos comuns a ambas. Caso não exista nenhum atributo relacionado em ambas, deve ser criado um atributo
que possa fazer a correta relação entre todas as instâncias. Esta estratégia de integração
agrupa os dados que estão em diferentes tabelas, gerando apenas uma, simplicando o
entendimento dos dados. Integrar dados adiciona ao projeto vantagens como a eliminação
de dados repetidos, economia de espaço de armazenamento e velocidade no processamento
dos algoritmos.
2.6.3.3 Formatação dos Dados
Modicações sintáticas são necessárias dependendo da forma como a ferramenta
de mineração trabalha.
Modicações sintáticas apenas mudam a forma dos dados sem
modicar seu signicado, seja na transformação de formato dos arquivos de entrada, como
valores separados por vírgula ou formatos proprietários como o formato ar.
50
2.6.4 Modelagem
Nesta fase, vários modelos de mineração são escolhidos e testados e seus parâmetros são denidos para serem os melhores. Existem diversos modelos para o mesmo
problema de mineração de dados, onde alguns impõe certas restrições nos dados. Para
satisfazer estas restrições tarefas adicionais devem ser realizadas na etapa anterior, preparação dos dados.
2.6.5 Avaliação
A etapa de Avaliação contém tarefas para a avaliação do modelo construído. A
etapa de avaliação deve ser executada antes da divulgação do modelo para garantir que o
modelo cobre todos os requisitos identicados na fase de entendimento do negócio. Além
de questões de negócio, questões técnicas também devem ser avaliadas.
O analista deve identicar os resultados e deciências dos modelos. Devem ser
levados em conta os objetivos do negócio, observando-se as métricas técnicas.
Deve-se
escolher o modelo que contém a menor quantidade de deciências, com os melhores resultados técnicos para ser utilizado como o modelo preditivo nal.
Os resultados da
avaliação pode direcionar para novas direções, como a aquisição de informações não previstas, modelos com pouco poder preditivo ou não contemplação de todos os requisitos
denidos.
2.6.5.1 Revisão
Todos os passos para a denição, aplicação e avaliação do modelo preditivo devem ser revisados.
Teremos um modelo preditivo que pode prever o nível criminal de
áreas demográcas urbanas, caso todos os passos tenham sido executados corretamente e
devidamente aprovados.
Agora é necessário realizar um processo de revisão para ter certeza que todos os
detalhes foram levados em conta. Detalhes relacionados a qualidade dos dados, requisitos
técnicos e práticos abordados pelo modelo, estratégias e passos adotados ao longo da
execução da metodologia.
Na revisão é necessário apontar os pontos positivos e negativos do processo e
denir estratégias para solucionar os pontos negativos.
Os pontos negativos devem ser
solucionados executando novamente as tarefas que irão resolver o problema identicado.
Além de apontar os pontos positivos e negativos, o documento deve apontar os passos que
foram esquecidos ou não executados. Os passos devem ser executados e avaliados, para
que o analista perceba se a sua execução obteve uma melhora no modelo já construído.
51
2.6.5.2 Próximas Ações
Um documento com a denição das próximas ações a serem tomadas deve ser
escrito. Estas futuras ações serão denidas a partir dos resultados obtidos no processo de
revisão. O analista deve decidir se o projeto de modelagem, aplicação e avaliação deve
ser nalizado e poderá seguir para a divulgação ou deve recomeçar o processo a partir de
determinada fase.
As ações a serem tomadas serão baseadas em reuniões com o analista e o especialista do negócio. Ambos devem tomar a decisão de concluir o processo ou avaliar pontos
que não foram inteiramente atendidos. O documento deve listar as ações e as decisões
que organizaram a execução das ações planejadas.
2.6.6 Divulgação
Após a etapa de avaliação devemos executar a etapa de divulgação do modelo
construído. A etapa de divulgação trata de tarefas de adequação do conhecimento obtido
pela aplicação do modelo aos usuários, planos de implantação e manutenção do sistema.
Geralmente o conhecimento obtido é embutido em sistema e processos já existentes em
empresas.
O método de visualização e divulgação do modelo construído pode ser experimentado através de relatórios, grácos, sistemas de visualização ou através do uso de
sistemas que o utilizem como conhecimento adquirido no seu funcionamento. Lembrando
que instâncias são caracterizações dos atributos presentes no conjunto de dados, ou seja,
um conjunto nito de valores dos atributos, onde cada atributo pode estar presente no
conjunto uma única vez. Os sistemas de apoio a decisão, sistemas de recomendação de
produtos e documentos, personalização de sites e sistemas são softwares que utilizam um
conhecimento gerado por modelos inteligentes.
2.6.6.1 Plano de Divulgação
O plano de divulgação é um documento que deve ser descrito para servir de guia
de implantação e manuntenção do modelo preditivo. O plano deve conter as estratégias
de divulgação e as ações que devem ser executadas para que o método seja concluído.
Questões como a visualização, detalhes relacionados ao uso, como direitos e deveres e
acesso aos equipamentos utilizados. A visualização do método pode ser feita através de
grácos, relatórios, mapas, regras ou embutidos em sistemas de apoio a decisão. Além
das ações para a divulgação, o plano deve conter questões relacionadas a manutenção do
modelo construído.
52
2.6.6.2 Relatório Final
O relatório deve conter informações sobre ações que deram certas ou erradas, os
resultados alcançados e o que deve ser melhorado. As melhorias levantadas não devem
inteferir positivamente no modelo preditivo, pois elas já deveriam ter sido realizadas na
revisão do processo de construção do modelo. As melhorias apontadas no relatório são
relacionadas a questões como segurança, usabilidade, assessibilidade do modelo e feedback
dos usuários.
O relatório nal será um documento de experiências obtidas ao decorrer de todo
o processo.
O processo metodológico é composto de muitas decisões e ações que leva
a analistas experientes a viver situações nunca vividas. Cada membro deve escrever as
experiências, citando as ações, estratégias, o modo de pensar e agir desenvolvido na tarefa
realizada.
Deve ser marcado uma reunião geral para apresentar o modelo construído. Nesta
reunião deve estar presente todos os envolvidos no projeto e interessados. A apresentação
deve citar os pontos discussados no relatório nal, para que todos os presentes estejam a
parte dos resultados alcançados e de todo o processo vivido na construção do modelo.
As próximas seções irão apresentar alguns conceitos referentes ao entendimento
da Região Metropolitana de Fortaleza (RMF). Os dados desta região foram utilizados para
validar o processo de mineração de dados proposto neste trabalho.
2.7 Região Metropolitana de Fortaleza
A Região Metropolitana de Fortaleza (RMF) foi instituída e denida por força legal
pela Lei Complementar nº 14 de 1973. A institucionalização da região deu-se antes da
manifestação do processo de metropolização. Atualmente a
RMF é composta por 13 muni-
cípios: Fortaleza, Caucaia, Maranquape, Pacatuba, Aquiraz, Eusébio, Guaiúba, Itaitinga,
Maracanaú, Horizonte, Pacajús, Chorozinho e São Gonçalo do Amarante. No início, a
RMF
era constituída pelos municípios de Fortaleza, Caucaia, Maranquape, Pacatuba e Aquiraz. Os municípios de Eusébio, Guaiúba, Itaitinga e Maracanaú foram adicionados a
RMF
devido aos desmembramentos ocorridos apartir da emancipação dos municípios citados.
A Lei 12.989 de 29 de dezembro de 1999, adicionou a
RMF
os municípios de Horizonte,
Pacajús, Choroziho e São Gonçalo do Amarante.
Fortaleza é a quarta maior cidade brasileira em termos de população e comanda a
sexta maior região metropolitana, totalizando uma população de 2.141.402 habitantes no
ano de 2000, 71,74% da população da
RMF
(ESTATISTICA, 2010). A
RMF
concentra 53,4%
da população urbana do Estado do Ceará, sendo Fortaleza responsável por 46,5% deste
total. O crescimento geométrico da
RMF no período intercensitário 1991/2000, foi da ordem
de 2,4% ao ano. A Tabela 3 exibe a evolução populacional de Fortaleza nos anos de 1980
a 2001. Fortaleza registrou uma queda no crescimento populacional comparado a década
passada, passando de 4,3% para 2,15% ao ano.
Já os municípios de Horizonte (7,1%),
53
Figura 5: Região Metropolitana de Fortaleza
Eusébio (4,9%), Caucaia (4,7%), Pacajus (3,7%) e Aquiraz (3%) tiveram crescimento
superior ao da capital. Os município de Maranguape (2,3%) e São Gonçalo do Amarante
(2,2%) obtiveram crescimento aproximado ao da capital.
Tiveram crescimento inferior
ao de Fortaleza, Chorozinho (2,1%), Maracanaú (1,5%) e Guaiúba (1,4%).
Pacatuba
teve um crescimento negativo (-1,7%) devido a emancipação do Distrito de Itaitinga que
anteriormente lhe pertencia.
Alguns pesquisadores atribuem a diminuição no crescimento do município de
Fortaleza a valorização do solo urbano e a especulação imobiliária que afasta a população
de baixa renda aos municípios vizinhos; a criação de conjuntos habitacionais no entorno
do município pelo governo e a realocalização das indústrias na
para novas localidades (PEQUENO, 2009).
RMF que atraiu a população
54
Tabela 3: População de Fortaleza de 1980 a 2001
Anos
População
1890
40.902
1900
48.369
1920
78.536
1940
180.185
1950
270.169
1960
514.813
1970
857.980
1980
1.308.919
1991
1.768.637
1996
1.965.513
2001
2.141.402
55
3
Trabalhos Relacionados
O governo e principalmente a população, estão preocupados com o aumento considerável da violência.
Ferramentas para o combate e prevenção de acontecimentos de
novos crimes são de grande necessidade para a força policial.
A análise do grande volume de dados gerado pelos crimes é de extrema complexidade. Essa complexidade decorre das características dos dados envolvidos, das diversas
fontes a serem analisadas e da identicação das relações relevantes entre os dados. Ferramentas computacionais tem um papel considerável no combate ao crime, pois espera-se
que seja uma ferramenta que facilite o acesso, a análise e a descoberta de conhecimento
presente nos dados criminais (CHEN et al., 2003, 2004; JIE et al., 2004; MCCUE, 2006).
Na literatura podemos encontrar diversas aplicações de ferramentas computacionais no âmbito da criminalidade (THONGTAE; SRISUK, 2008). Aplicações como:

Extração de Entidades: Utilizada principalmente para extrair, automaticamente,
nomes de pessoas, endereços, veículos de relatórios policiais, facilitando a análise
das entidades e fornecimento de dados para outras taredas (CHAU; XU; CHEN, 2002);

Clusterização: Geralmente utilizada para associar diferentes objetos nos registros
criminais, encontrando relações entre os objetos encontrados (HAUCK et al., 2002);

Detecção de Desvio: Vem sendo aplicado em detecção de fraudes, detecção de invasão de redes e outros crimes envolvendo ações anormais;

Classicação: Tem sido usado na identicação de spams (mensagem não solicitada,
enviada em massa) (VEL et al., 2001);

Comparação de Strings:
Vem sendo usado na detecção de informações errôneas
dadas pelos acusados em interrogatório (WANG; CHEN; ATABAKHSH, 2004);

Análise de Redes Sociais: Tem sido utilizada para analisar o comportamento dos
criminosos e associações entre as entidades criminais (CHEN et al., 2003);

Regras de Associação:
Utilizando para encontrar relacionamentos entre crimes e
criminosos (SOARES, 2009);
GIS:
Utilizado como ferramenta de visualização de dados. Fornece meios para ma-
peamento de crimes, ocorrências, facilitando a localização, planejamento e ação das
56
forças policiais e de atendimento médico (CANTER, 1993; COHEN; GORR; OLLIGSCHLAEGER, 1993).
3.1 Clusterização de Crimes
O avanço da violência nos últimos tempos, levou vários pesquisadores a fazerem
diversas perguntas como: Onde o crime ocorre? Porque ele ocorre lá? Quais informações
interessantes podem ser geradas a partir da localização, padrões e tendências? Quais as
áreas e vizinhaças têm o risco maior?
a ecácia no combate ao crime?
Existem ferramentas que facilitem e aumentem
Todas essas perguntas podem ser respondidas com o
uso de técnicas de clusterização de crimes, principalmente crimes com atributos espaciais.
Clusterizar crimes é organizar os crimes em relação a suas semelhanças, onde um grupo
(cluster) com crimes são mais semelhantes entre si do que os crimes pertencentes aos
outros grupos (clusters).
Técnicas de clusterização unidas com os softwares do tipo
GIS
podem gerar in-
formações relevantes utilizando dados espaciais (BROWN, 1998b). Mapas podem ser utilizados para identicas áreas com crimes idênticos, áreas com altos riscos e análise de áreas
com alta concentração de crimes. A marcação de crimes em mapas é importante pois fornece um meio fácil e rápido para analisar cada crime, visualizando seus diversos atributos
e identicando padrões, tendências ou causas para um determinado tipo de crime. O uso
de marcação de crimes em mapas é conhecido como crime mapping.
Azimi e Delavar (2007) aplica um clusterização para a localização de hot spot. Os
autores utilizam uma técnica de diversas camadas (layers ) e medem a distância de cada
objeto a cada crime.
multiespectral.
Depois eles reunem todos as camadas e constroem uma imagem
Com essa imagem, eles fazem uma clusterização utilizando o k-means
com 3 classes (alta, média e baixa incidência). Na gura 6 podemos ver o resultado da
clusterização em uma área da cidade de Tehran no Iran.
A clusterização de crimes também pode ser utilizada para o levantamento de
evidências importantes (NATH, 2006).
Para cada crime pertecente ao mesmo grupo, é
possível levantar alguma evidência crucial, comum a todos os crimes.
Podemos ainda
levantar alguma evidência não encontrada em um outro crime do mesmo grupo.
Esta
evidência pode ser vital para a resolução dos crimes, pois pode ter sido um erro cometido
pelo criminoso. O recolhimento dessas evidências não foram possíveis devido a diversas
cincurstâncias. Nath (2006) utilizou o K-Means modicado para fazer o seu agrupamento.
A modicação feita foi na abordagem da importância de cada atributo. Foram utilizados
pesos, aplicados dinamicamente, para os atributos considerados mais importantes para o
estudo do crime em questão.
57
Figura 6: Clusterização de uma área da cidade de Tehran identicando regiões de baixa,
média e alta incidência de crimes.
3.2 Identicação de Redes de Criminosos e Crimes
Geralmente os criminosos formam grupos, desenvolvendo redes de contatos. Usualmente, cada grupo contém um membro chave que coordena as atividades do grupo,
sendo a peça principal da organização criminosa. Além das relações intra-grupos, também
podemos observar relações entre grupos. Estas relações são estudas, pois através delas,
podemos identicar as propriedades de grupos parecidos e inter-relacionados.
Através
destas relações, podemos identicar a forma que os grupos se comunicam, tipos de negócios e áreas de atuação. Diversos estudos foram, e estão sendo, desenvolvidos para a
identicação de redes de criminosos e atribuição de crimes a determinadas acusados.
Jie et al. (2004) desenvolve uma série de aplicações utilizando algoritmos de
aprendizagem de máquina. Dentre as aplicações discutidas, o autor apresenta uma que
é capaz de identicar sub-grupos e membros chaves nas redes de criminosos analisadas.
O autor usa uma abordagem de espaço de conceito para extrair as relações entre os
criminosos para assim poder montar a rede.
Para cada ligação entre dois criminosos
era atribuído um peso que mede a frequência que ambos aparecem no mesmo incidente.
Além de medir a relações, o autor aplicou agrupamento hieráquico para identicar os subgrupos de criminosos, e uma abordagem baseada na modelagem de blocos para encontrar
padrões de relações entre grupos.
O autor ainda aplica medidas de centralidade para
identicar membros chaves em cada grupo, como líderes de guangues. A Figura 3.2 exibe
um exemplo de uma rede de criminosos e a Figura 8 exibe a identicação de membros
chaves de sub-grupos criminais e sua relações. O tamanho dos círculos vistos na Figura 8
é proporcional ao números de membros daquele sub-grupo.
58
Figura 7: Exibe um exemplo de uma rede de criminosos identicada utilizando algoritmos
de aprendizagem de máquina
Figura 8: Exibe um exemplo de identicação dos membros chaves de sub-grupos criminal
e suas relações
3.3 Mineração de Relatórios Policiais
Analisar dados presentes em base de dados estruturada é uma tarefa mais trivial
do que analisar textos sem estrutura, isso devido aos campos já pré-denidos na estrutura
da base.
Além das muitas informações criminais estarem presentes em base de dados,
59
também estão presentes em relatórios policiais. Extrair informações relevante de dados
não estruturados através de métodos automatizados não é uma tarefa fácil, devido principalmente a erros linguísticos e características da linguagem natural. Erros linguísticos
como palavras escritas em caixa alta, erros gramaticais e de concordância (ETZIONI et al.,
2005).
Além da identicação de redes de criminosos, Jie et al. (2004) utilizou um algoritmo de extração de entidades que usa um processo de três passos para identicar
nomes de pessoas, locais e organizações no relatório policial. O sistema desenvolvido foi
comparado a outros sistemas e em média conseguiu melhor performance. O sistema foi
treinado para identicar nomes de pessoas, endereços, veículos, nomes de narcóticos e
características físicas. O sistema obteve um resultado de 74,1% na identicação de nomes
de pessoas, 85,4% em nomes de narcóticos, 59,6% em endereços e 46,8% em características
pessoais. Nomes de veículos não foram analisados porque os 36 relatórios utilizados para
treinamento tinham apenas 4 referências a veículos.
3.4 Associação e Comparação de Crimes
Um grande número de crimes são realizados em grupo. Geralmente, a maioria dos
grupos têm elementos chaves, e não mais aquela gura central, onde todos os integrantes
obedecem. Uma das grandes questões enfrentadas diariamente pela força policial é saber
se um determinado crime pertence a uma rede de crime organizada ou é apenas um fato
isolado (ADDERLEY, 2004; BROWN, 1998b). Outra questão interessante é saber a seriedade
ou o risco de outras atividades criminais estarem acontecendo na região através de um
determinado crime (ALBANESE, 2001). Albanese (2001) arma que existe três modos de
se obter informações da maioria dos crimes: dos criminosos, das vítimas e das agências
policiais. Através destas três fontes de informações é possível fazer uma ligação entre um
crime isolado e o crime organizado.
As agências policiais utilizam diversas ferramentas para retirar informações sobre
a rede criminal. Geralmente utilizam os próprios acusados, na maioria das vezes não são
fontes conáveis, pois mentem frequentemente. Muitos criminosos tornam-se informantes
da polícia em troca de proteção, diminuição do tempo de reclusão ou ressentimento em
ter causado alguns males a sociedade.
O trabalho dos informantes é essencial para o
desempenho das investigações policiais, pois uma boa informação pode diminuir vários
meses de trabalho policial.
Na área do crime organizado é muito complicado colocar
policiais inltrados, pois demora-se muito tempo para que o policial ganhe a conança
do grupo criminoso. O perigo relacionado a descoberta da identidade do policial também
faz da investigação um grande risco.
Os pesquisadores além de obter informações valiosas dos acusados e vítimas,
podem obtê-las também através dos relatórios policiais.
Relatórios policiais são uma
grande fonte de informações sobre onde, a que horas e, como o crime foi cometido. Alguns
países colocam em seus relatórios campos relacionados a ligação do crime cometido a
60
crimes organizados.
3.5 Predição de Crimes
Gorr e Harries (2003) apresentam um survey de 6 artigos, onde dois falam da problemática em predizer crimes em pequenas áreas (GORR; OLLIGSCHLAEGER; THOMPSON,
2003; FELSON; POULSEN, 2003).
Ambos artigos concluem que quanto menor a área,
maior será o erro da predição. Gorr, Olligschlaeger e Thompson (2003) contrasta o uso de
modelos de predição usando modelos de séries temporais univariadas e métodos usados
pela polícia americana (método Naïve).
Eles obtiveram como resultado que, para um
método ter uma acurácia com 20% de erro, a quantidade de crimes em uma determinada
área deve ser igual ou superior a 30 crimes, e que qualquer método baseado na predição
é mais preciso do que as práticas utilizadas pela polícia.
Análise de sobrevivência já foi usado pra predizer crimes, onde Oatley, Zeleznikow
e Ewart (2005) a utilizou para prever arrobamentos de residência.
A análise de sobre-
vivência calcula o tempo provável de que o crime aconteça, isto é, ele calcula o tempo
de sobrevivência do objeto (HOSMER; LEMESHOW; MAY, 2008).
Para fazer a predição
foram usados dados relativos a uso de força, comportamento de procura na casa, tipo
de residência, lugar de entrada e saída e uso de método falso de entrada. Redes Baysianas (JENSEN, 1996; OATLEY; ZELEZNIKOW; EWART, 2005) foi um outro método utilizado
para a predição da revitimização da residência.
Para este método foi utilizado dados
relativos a: histórico de crimes, concentração dos crimes, objeto roubado e atributos do
modus operandi.
Algoritmos de aprendizagem de máquina como Redes Neurais foram utilizados
no trabalho de Olligschlaeger (1997) para predizer crimes. A visualização da predição é
feita através de superfícies coloridas que signicam a probabilidade de ter um alto número
de chamadas ao 911 (número de chamadas de emergência nos Estados Unidos). Os tipos
de crimes utilizados no artigo foram referentes ao tráco de drogas.
Os riscos de ter um homicídio pode ser inferido a partir de algoritmos Geoestatísticos (CAMARGO et al., 2008). A cada sub-área estudada pelo pesquisador, foi denida
uma variável aleatória que representa a taxa de homicídio
Z,
e a partir de
Z,
podemos
inferir o risco de ser assassinado em determinada sub-área.
O trabalho de Albanese (2001) apresenta uma ferramenta para avaliação de risco
de crimes. Para fazer a avaliação de risco ele utiliza 17 variáveis preditoras: 4 de fatores
econômicos, 3 governamentais, 4 relativos criminalidade, 2 de mudanças sociais e tecnológicas, 3 de habilidades especiais ou do ambiente criminal e 1 de potenciais danos. O autor
acredita que essas seis categorias de fatores são os mais favoráveis para modelar ou afetar
o crime organizado. A aplicação da ferramenta é aconselhável para pequenas juridições
ou pequenas cidades, pois a variação da criminalidade e, principalmente, dos atributos
de explicação variam pouco. Como caso de estudo, ele utilizou o crime organizado que
atua no mercado de contrabando de cigarros. Este crime movimenta milhões de dólares,
61
acontece dentro, e entre vários países, e envolve diferentes grupos criminais. O autor não
fala precisamente como a ferramenta de análise de risco funciona ou quais os resultados
encontrados no uso da sua ferramenta.
Berk (2008) fala da aplicação de métodos probabilísticos e estatíscos na previsão
de crimes.
O artigo também apresenta um tabela com trabalhos, em ordem cronoló-
gica, com a aplicação de técnicas como correlação bivariada (BURGESS, 1928), tabelas de
contigências (GLUECK; GLUECK, 1930), testes de hipóteses (REISS, 1951), agrupamento hierárquico (GLASER, 1962), regressão múltipla (BABST; GOTTFREDSON; BALLARD, 1968),
simulação computacional (BLUMSTEIN; LARSON, 1969), modelos equacionais de estrutura dinâmica (BERK et al., 1983), regressão de séries temporais (COHEN; LAND, 1987),
análise de sobrevivência (SCHMIDT; WITTE, 1988), regressão logística (SORENSER; PILGRIM, 2000), métodos microsimulados (AUSTIN; NARO; FABELO, 2007), aprendizado esta-
tístico (BERK; KRIEGLER; BAEK, 2006) e regressão Cox (KLEIMAN; OSTROM; CHEEMAN,
2007).
Novos métodos também foram propostos utilizando a criminalidade como estudo
de caso. Brown e Liu (1999) apresenta um novo modelo de predição utilizando superfícies
probabilísticas para exibir áreas que terão futuros crimes.
A predição é feita a partir
da teoria dos pontos, onde cada ponto tem atributos, como a presença de força policial,
distância para uma rodovia, presença de casas com altos valores guardados ou casas sem
segurança.
Para descobrir os melhores atributos, foi feito um agrupamento proposto
em Brown (1998a).
Os atributos ltrados pelo método foram a densidade familiar por
bloco, gastos com saúde por família por bloco e a distância a rodovia mais próxima. Para
a visualização da predição, as áreas mais criminosas foram coloridas em tons de cinza
e para a determinação dos tons foi utilizada uma abordagem baseada na estimação de
densidade.
A violência doméstica também já foi estudada por Berk, He e Sorenson (2005)
utilizando métodos preditivos. O autor faz uma discussão dos falsos positivos e negativos
para o contexto da violência doméstica. Ele acaba cocluindo que é melhor termos falsos
positivos do que negativos, pois é mais custoso para o sistema não informar que uma
família vai sofrer uma violência, do que fazer uma predição errada.
Foram utilizados
árvores de classicação e de regressão como algoritmos de predição.
Goodman (1953a, 1953b) emfatiza que se deve medir a ecácia de um método
preditivo não apenas pelos seus resultados, mas também pelos custos sociais causados
pelos erros. Erros causados por ferramentas preditivas podem ser desvantagosas para a
sociedade, pois podem trazer ações errôneas e custos desnecessários. Erros podem fazer
com que o contigente policial esteja em locais que não são tão perigosos, causando a
sensação de desconforto por parte dos moradores. A concentração da força policial em
determinado lugar errôneo faz com que áreas que realmente precisam de reforço estejam
desprotegidas, facilitando a ação dos criminosos.
Novos algoritmos para o estudo da criminalidade estão sendo desenvolvidos a todo
momento. Um modelo híbrido de self-organization maps (SOM) e Fuzzy foi desenvolvido
62
por Li et al. (2006). Este método foi desenvolvido pois o modelo SOM não trabalha muito
bem com variáveis linguísticas. O autor utilizou um conjunto de dados com vários crimes
entre o período dos anos de 2003 a 2004. Como caso de uso, ele mapeou a cidade com áreas
de diversas cores de acordo com a presença da violência. As cores são, vermelho, amarelo,
roxo, verde e azul, que signicam respectivamente: muito ruim, ruim, intermediário,
bom e muito bom. Coloração de mapas também foi usada no trabalho de Mitchell,
Brown e Conklin (2007). O autor implementa uma ferramenta para a previsão de crimes
utilizando um Modelo de Escolha Discreta espacial (DCM) que leva em conta atributos da
localidade e preferências dos criminosos. O autor utilizou dados demográcos, de distância
e criminal. Os dados demográcos incluem detalhes sobre a população como, casa por
milha quadrada ou renda per capita, e os dados de distância foram: a distância a pontos
especícos, como estradas ou pontos de relevância . Os dados criminais foram a latitude
a longitude e o tipo do crime entre Maio e Julho de 2006. Os dados foram agrupados por
tipo de crime, e dentre de cada sub-grupo, foi agrupado por mês. A saída do algoritmo
é exibida através de uma superfície, onde sombras ou coloração exibe a probabilidade de
um futuro crime acontecer na determinada área.
3.6 Recuperação de Informações da Área Criminal
Crimes são objetos de estudo complexos.
Além das características relativas ao
crime, temos características do meio, do autor e vítima, dos meios de divulgação e da
questão sócio-econômica.
Todas as informações que podem ser levantadas podem ser a chave para a resolução de um crime. Entretando, esta tarefa se torna árdua devido ao grande volume de
dados e, principalmente, as diversas fontes de dados distintas. Assim, a investigação de
um crime deve relacionar, identicar e compreender estas relações entre os dados. O sucesso do processo de investigação irá depender, pricinpalmente da identicação dos dados
distintos e suas relações complexas (BARTH et al., 2007).
A investigação criminal deve
buscar identicar elementos associados, relações entre fatos conexos e construir modelos
de informação sintetizada, possibilitando a compreensão da ocorrência como um todo, e
de cada parte.
Barth et al. (2007) criou um protótipo de um sistema para recuperação de informação projetado para processar fontes de informação estruturada e não-estruturadas
públicas ou privadas. Uma consulta é feita nestas fontes, onde os termos da consulta são
confrontados com uma ontologia de domínio. Os documentos recuperados são submetidos
a algoritmos de agrupamento hierárquico, onde é possível identicar entidades nomeadas.
No referido trabalho foi salientado a importância de fazer uma análise qualitativa
e quantitativa do sistema proposto. A análise qualitativa foi feita baseada em:

vericar se o sistema agrega valor ao processo de investigação;

identicar as mudanças a serem feitas no sistema para uma melhor adequação ao
63
processo investigativo;
A análise quantitativa analisou os seguintes pontos:

avaliar o índice de precisão (Número de documentos relevantes recuperados / Número de documentos recuperados);

avaliar o índice de recuperação (Número de documentos relevantes recuperados /
Número de documentos relevantes);

vericar a qualidade do modelo e do algoritmo para identicação de entidades implementado;

mensurar o tempo de cálculo do algoritmo de agrupamento hierárquico;
Todos os trabalhos listados neste capítulo tem suas relevâncias no trabalho desenvolvido. Os trabalhos relacionados foram de grande valia para a concepção e comparação
entre o processo proposto neste trabalho e os conceitos, abordagens presentes nos trabalhos relacionados. O processo proposto faz referências aos diversos trabalhos e apresenta
contribuições a falhas encontradas. Contribuições estas como a proposta de um processo
especíco para a predição de níveis criminais utilizando dados sócio-econômicos e criminais, concepção de um método de visualização das predições feitas, incluindo a detecção
de tendências. Denição de tarefas especícas para o processo de descoberta de informações relevantes em dados sócio-econômicos e criminais com o objetivo de prever qual o
nível criminal a partir de valores presentes nos dados ou dados como entrada pelo usuário.
64
4
Processo de Mineração de Dados para Predição de
Níveis Criminais
Um processo ecaz é composto de tarefas e sub-tarefas importantes para que os
objetivos planejados sejam alcançados com sucesso. A não realização ou imprudência na
execução destas tarefas podem comprometer todo o processo, acarretando em custos e
trabalho adicionais. Podemos citar como tarefas clássicas de um processo de mineração o
pré-processamento, a aplicação do algoritmo de aprendizagem e o pós-processamento dos
resultados alcançados. Tarefas como o entedimento do negócio, coleta e análise dos dados,
avaliação do modelo desenvolvido, visualização das predições e divulgação do método
preditivo serão discutidas no nosso processo.
Este capítulo apresenta um processo de mineração de dados para a construção
de um modelo preditor de níveis criminais de áreas geográcas. A abordagem proposta
servirá como um guia para a construção de um sistema produtor e contém tarefas que
devem ser executadas em uma ordem pré-denida.
O processo propõe que devem ser
utilizados dados sociais, econômicos e criminais, pois a criminalidade é um fenômeno que
tem causas em todos esses âmbitos. A denição destes tipos de dados foi baseada nas características do fenômeno criminal observada na literatura. A abordagem trata de tarefas
de mineração clássicas e outras especícas do processo, como procedimentos especícos
para a predição de crimes utilizando dados brasileiros.
Questões como a visualização
das predições e coleta e análise dos dados serão discutidas com mais atenção pela sua
importância no processo desenvolvido.
Na literatura existem outros processos que podem ser aplicados no problema
da criminalidade atacado pelo nosso trabalho.
Dentre os diversos processos existentes
podemos citar o CRISP-DM (SHEARER, 2000; WIRTH; HIPP, 2000). A desvantagem em
usar o CRISP-DM ou outros processos é que os mesmos são muito generalistas, gerando
assim espaço para dúvidas pelo analista.
Processos generalistas são adequados para qualquer projeto de mineração de dados. Sendo assim contém passos e tarefas abstratas, sem levar em conta problemas especícos do projeto de mineração, problema a ser solucionado ou problemas especícos da
execução do projeto.
O uso do processo proposto neste trabalho fornece os passos necessários para
a execução do projeto do começo ao m, fornecendo tarefas e funções especícas para
o problema atacado.
O processo proposto é uma especialização com modicações do
65
processo CRISP-DM. O processo relatado neste trabalho segue os princípios básicos estipulados no CRISP-DM com modicações necessárias devido a problemática do projeto a
ser executado e ao problema de predição de níveis criminais em áreas geográcas.
A criação de um novo processo preditivo deve ser desenvolvido para facilitar a
tarefa de mineração de dados, especicamente o problema de predição de níveis criminais
de áreas geográcas. O processo será tratado de forma clara e objetiva, explicando todos
os passos de modo a dar agilidade e segurança nos resultados a serem alcançados.
A
Figura 9 exibe as tarefas que devem ser executadas e a sua devida ordem.
Figura 9: Representação do Processo Proposto
4.1 Estrutura do Processo
O processo é composto por 6 fases que deverão ser executadas corretamente para
que o sistema preditivo seja desenvolvido, validado e divulgado. Assim, o produto da execução do processo denido em nosso trabalho será um sistema preditivo usável e conável.
As 6 fases são: Entendimento do Negócio, Coleta e Análise dos Dados, Pré-Processamento,
Modelagem, Avaliação e Divulgação. A execução das fases não é exclusivamente executada de forma sequencial, isto é, é possível retornar a fases já executadas com o objetivo
de melhorar o processo.
A fase de Entendimento do Negócio trata de questões sobre a natureza do problema, caracterizando o negócio e levantando os objetivos e soluções. Já a fase de Coleta
e Análise dos Dados é composta de tarefas para a coleta dos dados identicados para serem utilizados no projeto e a sua devida análise. Análise esta que deve levantar algumas
informações gerais sobre os dados e conrmar algumas hipóteses inicialmente formuladas.
Se porventura a fase de Coleta e Análise dos Dados apresente valores avaliativos inexpres-
66
sivos ou os dados não apresentam informações interessantes, a fase de Entendimento do
Negócio deverá ser revisitada.
O Pré-Processamento consiste de tarefas de otimização dos dados utilizados. Tarefas como a limpeza, transformação e seleção dos dados.
A fase de Modelagem é res-
ponsável pela avaliação e denição do algoritmo de aprendizagem de máquina que deverá
ser utilizado para fornecer as respostas solicitadas na fase de entendimento do negócio.
Caso o algoritmo denido imponha certas restrições nos dados, os mesmos devem ser préprocessados novamente, isto é, a fase de Pré-processamento deverá ser executada quantas
vezes forem necessárias.
A fase de Avaliação contém tarefas que irão informar se os resultados obtidos são
satisfatórios de acordo com as restrições identicadas na fase de Entedimento de Negócio.
Caso os resultados obtidos apresentem informações inexpressivas, todo o processo deve
ser refeito, pois algum problema não foi identicado em alguma das fases anteriores.
A última fase, a fase de Divulgação trata da socialização, treinamento e manutenção da
ferramenta desenvolvida. A Figura 9 apresenta as fases do processo proposto e a sequencia
de execução.
4.2 Entendimento do Negócio
Diversos pesquisadores trabalham com a criminalidade tentando identicar as
causas e tendências. Contudo, os crimes vêm aumentando gradativamente ao longo dos
anos. Este fenômeno tem características sociais (saúde, educação, mobilidade, moradia)
e econômicas, onde o desenvolvimento, denição e construção de ferramentas de combate
ao crime, investimentos em educação, saúde e moradia geram um grande custo aos cofres
públicos.
A construção de ferramentas computacionais que auxiliem no combate ao crime
de forma ecaz trará benefícios sociais, quanto econômicos a sociedade brasileira.
Fer-
ramentas computacionais têm um grande papel na sociedade moderna, na qual existe
ferramentas para otimizar e facilitar tarefas realizadas por seres humanos. O desenvolvimento de ferramentas para o combate ao crime é de grande importância, pois proverá
agilidade no entendimento e combate ao crime.
Para a fase do entendimento do negócio, a criminalidade da região a ser estudada
deve ser cuidadosamente avaliada e compreendida. De acordo com a literatura levantanda
não devem ser apenas consideradas características criminais, mas também características
sociais, demográcas e econômicas.
É essencial levantar pequenos detalhes como data,
hora, local do acontecimento dos crimes e tipo de crime cometido.
Além de levantar
dados relativos aos crimes cometidos, é importante coletar dados sociais da região como
densidade populacional, analfabetismo, índices de qualidade de vida, esporte e cultura,
números de pessoas diferenciados pelo sexo e idade. Dados econômicos como o
PIB
da
região, média de salários, quantidade de pessoas empregadas e número de casas próprias.
Lembramos que os dados sócio-econômicos devem ser coletados e avaliados pois o processo
67
proposto os necessita para o seu correto uso.
4.2.1 Determinação dos Objetivos de Negócio a Serem Alcançados
O processo inicia nos anseios do usuário. As necessidades serão adquiridas através
de entrevistas e reuniões, onde serão transformadas em tarefas que podem ser executadas
por algoritmos de aprendizagem de máquina. O analista deve levantar as necessidades e
os requisitos, escolhendo os fatos mais importantes para a construção do modelo preditivo.
Os objetivos concebidos após o levantamento feito no entendimento do negócio
são (o usuário deve levar em conta que estes objetivos são apenas recomendações e que o
mesmo pode denir outros mais):
1. Predizer a periculosidade de áreas geográcas a partir de dados sociais, econômicos
e criminais;
2. Utilizar o modelo preditivo para melhorar a alocação de recursos policiais;
3. Aumentar as políticas sociais em áreas com periculosidade acima do esperado, baseado nos resultados do projeto;
4. Facilitar a decisão do administrador em segurança em otimizar o policiamento em
áreas especícas;
5. Construir um modelo de fácil uso, que exiba informações de grande relevância no
combate a criminalidade;
4.2.2 Requisitos do Projeto
Todas as especicações relacionadas ao desenvolvimento do projeto devem ser detalhadas nesta etapa. Detalhes relativos ao processo de concepção, criação e divulgação
do modelo preditivo.
Recomendamos que as áreas geográcas utilizadas para delimitar os crimes serão
espaços geográcos conhecidos como
AED. AED
é um acrônimo para Área de Expansão
de Dados, ou seja, áreas de ponderação para denição de amostra baseada na densidade
demográca. As
AEDs
foram denidas pelo
IBGE
e podem ser composta por um ou mais
bairros de um município, pois sua delimitação é baseada pelo número populacional.
As predições obtidas devem ser visualizadas através de grácos, informando a
conança do sistema em armar tal nível da área consultada. O sistema não irá apenas
armar qual o nível ciminal, mas também a conança que ele tem na predição realizada
em determinado exemplo. Exibir a conança do modelo foi necessária pois uma consulta
(instância) pode ter características de mais de um nível, podendo estar no limiar entre
dois níveis criminais.
68
Os níveis criminais de cada

Muito Baixo;

Baixo;

Médio

Alto;

Muito Alto;
AED
devem ser dividida em 5:
Recomendamos que seja avaliados diferentes ferramentas para o desenvolvimento
do projeto, dentre diversas, propomos 3: Weka (WAIKATO, 2010; GARNER, 1995), SPSS
Modeler (SPSS, 2010) e Joone (TEAM, 2010). Waikato Environment for Knowledge Analy-
sis (Weka) é uma suíte de ferramentas open-source para Mineração de Dados desenvolvida
na Universidade de Waikato (Nova Zelândia). A suíte fornece ferramentas para a coleta,
pré-processamento, modelagem e visualização dos resultados dos modelos a serem construídos.
Assim como o Weka, o Modeler desenvolvido pela SPSS é uma suíte para a
resolução de problemas utilizando mineração de dados. O Modeler é um software proprietário, utilizado por diversas empresas para diferentes usos. Já o Joone é um framework
open-source para a modelagem e execução de Redes Neurais. Desenvolvido utilizando a
linguagem de programação Java, totalmente extensível para uso em projetos que queiram
o utilizar. Após avaliar cada ferramenta independetemente, aconselhamos a utilização da
suíte Weka após perceber suas vantagens e desvantagens em comparação a todas as ferramentas analisadas. Todas as ferramentas analisadas são boas, mas o Weka mostrou mais
vantagens entre seus concorrentes por ser open-source, isto é, seu uso é gratuito; e por
disponibilizar diferentes algoritmos de aprendizagem de máquina, além de suprir todos
os requisitos que o processo demanda. Poderemos utilizar a ferramenta dentro da implementação do projeto, guiado pelo processo, pois o mesmo é acessível através de código
Java.
Além de identicar os requisitos de sucesso do projeto, devemos identicar os
riscos que poderão inviabilizar ou atrasá-lo. Os riscos identicados são:

Proibição ou atraso na disponibilização dos dados;

Problemas referentes ao aprendizado e uso da ferramenta de modelagem escolhida
(Treinamento, Documentação, Facilidade no Uso);

Precisão do método abaixo do previsto, taxa de acerto inferior a 70%. Taxa de acerto
recomendada a partir da leitura de outros artigos e do aumento de precisão dado
pelo uso do método do que usando nenhum sistema de predição (ADDERLEY, 2004;
ALBANESE, 2001; THONGTAE; SRISUK, 2008). Nenhum prossional foi consultado
para a denição desta taxa e seu valor foi justicado após a execução do estudo de
caso;

Descoberta de informações irrelevantes;
69
4.2.3 Objetivos Técnicos a Serem Alcançados
Objetivos de negócio são aqueles inerentes a detalhes que o especialista no negócio
pode explanar. Por exemplo: Quantos assassinatos irão ocorrer no próximo mês?, Qual
área sofrerá mais assaltos a veículos?. Esses objetivos devem ser traduzidos para objetivos
técnicos pelo analista de dados. O analista deve identicar cada objetivo e traduzi-los em
um formato que o algoritmo de aprendizagem possa trabalhar. Por exemplo: Realizar
uma regressão numérica na quantidade de assassinatos baseado no local e data nos últimos
2 anos; ou Classicar cada região demográca a partir dos assaltos a veículos nos últimos
2 anos baseados no tempo, características econômicas do veículo e local onde ocorreu o ato
criminoso;. Também devem ser tratadas nesta sub-tarefa questões como a precisão que o
modelo deve conseguir ou a forma que os usuários irão visualizar as predições realizadas.
O processo deve focar na predição do nivel criminal de áreas geográcas de municípios brasileiros. O método a ser construído terá como tarefa a determinação de um
nível criminal para área a ser analisada, ou seja, uma tarefa de classicação ou de aprendizado de conceito. O método deve ter um erro médio de 30%, utilizando os dados limpos,
transformados e pré-selecionados. Este erro é razoável tratando-se da complexidade da
atividade envolvida, a determinação de níveis criminais.
A visualização dos resultados
deverá ser feita através de relatórios, que serão utilizadas como suporte para as decisões
dos gestores em segurança pública. São denidos 5 níveis baseando-se na quantidade de
crimes. Os graus são: muito baixo, baixo, médio, alto, muito alto. Os graus ou níveis são
denidos a partir do histórico de crimes em uma determianda região baseado no tempo e
tipo de crime cometido.
4.2.4 Plano de Atuação
No plano de atuação devemos planejar cuidadosamente todos os passos a serem
feitos para alcançar os objetivos determinados na fase do Entendimento do Negócio.
A equipe deve constuir um plano com todas as informações necessárias para o bom
andamento do projeto. O documento servirá como documentação estrutural, identicando
os recursos, requisitos e prioridades.
Poderemos através dele avaliar o andamento da
concepção, organização e andamento inicial do projeto.
4.3 Coleta e Análise dos Dados
A análise dos dados é necessária para a criação das primeiras impressões sobre os
dados, já podendo identicar algumas relações, problemas na qualidade e sub-conjuntos
de atributos que podem conter informações relevantes.
70
4.3.1 Coleta dos Dados
Os dados a serem utilizados na implementação do método preditivo devem ser
coletados junto aos orgãos que detém as informações desejadas.
Podemos citar como
instituições detentoras destes dados a Secretaria de Segurança Pública, prefeituras,
IBGE
ou junto ao projeto Observatório das Metrópoles presentes em diversas metrópoles brasileiras.
Os dados criminais coletados devem exibir atributos temporais, geográcos e
criminais. Exemplos de dados: data e hora do acontecimento, rua, bairro, coordenadas
ou pontos referenciais, tipo do crime, características do crime e do criminoso. Já os dados
sócio-econômicos devem exibir informações sobre a educação, saúde, moradia, demograa,
emprego e renda
4.3.1.1 Dados Sócio-econômicos
Os dados socio-econômicos a serem levantados devem ser relativos a região demográca alvo. Recomendamos que estas informações sejam colhidas junto ao
IBGE
ou
ao projeto Observatório das Metrópoles.
As informações mais recentes sobre a sociedade e a economia brasileira foram
coletadas através do Censo 2000 organizado pelo
IBGE.
Estas informações são relativas a
moradia, educação, demograa, emprego, renda e mobilidade. Os dados são armazenados
e disponibilizados em várias planinhas
xls.
As informações abaixo descrevem os arquivos
e os dados que serão coletados e utilizados no processo.
Todas as planilhas contém informações sobre o código que representa a entrada
no banco de dados,
AED
e município e serão ocultadas para melhor organização.
Educação
Planilha 1-
Pessoas de 18 anos e mais de idade com 11 anos ou mais de estudo.
X
Total de pessoas que frequentam a escola
X
Pessoas com 11 anos ou mais de estudo
Planilha 2-
Pessoas de 0 a 6 anos de idade que frequentam creche ou escola
X
Total de pessoas de 0 a 6 anos
X
Pessoas de 0 a 6 anos que frequentam a escola
Planilha 3-
Pessoas de 7 a 14 anos de idade que frequentam a escola
X
Total de pessoas de 7 a 14 anos
X
Pessoas de 7 a 14 anos que frequentam a escola
Planilha 4-
Pessoas de 15 a 17 anos de idade que frequentam a escola
71
X
Total de pessoas de 15 a 17 anos
X
Pessoas de 15 a 17 anos que frequentam a escola
Planilha 5-
Pessoas de 18 a 25 anos de idade que frequentam a escola
X
Total de pessoas de 18 a 25 anos
X
Pessoas de 18 a 25 anos que frequentam a escola
Planilha 6-
Educação dos responsáveis pela família
X
Quantidade de responsáveis
X
Responsáveis sem instrução
X
Responsáveis com 11 anos ou mais de estudo
Planilha 7-
Pessoas com 15 anos ou mais sem instrução ou com até 3 anos de estudo
X
Quantidade de pessoas que frequentam a escola
X
Com até 3 anos de estudo
Planilha 8-
Pessoas com 15 anos de idade ou mais sem instrução
X
Quantidade de pessoas que frequentam a escola
X
Quantidade de pessoas que não sabem ler
Demograa
Planilha 1-
População residente, área dos municípios e densidade demográca
X
População
X
Área em kilômetros
X
Densidade
Planilha 2-
Total e participação dos grupos etários no total da população dos municípios
X
População
X
População de 0-14 anos
X
População de 15-64 anos
X
População de 64 anos ou mais
Emprego e Renda
72
Planilha 1-
Número de famílias por faixa de renda familiar per capita
X
Total de Famílias
X
Até 1/2 salário
X
De 1/2 a 1 salário
X
De 1 a 3 salários
X
Acima de 3 salários
Planilha 2-
Número de ocupados com rendimento no trabalho principal
X
Total de ocupados
X
Homens ocupados
X
Mulheres ocupadas
X
Brancos ocupados
X
Não brancos ocupados
X
Menos de 8 anos de estudo
X
Mais de 8 anos de estudo
Planilha 3-
Rendimento médio no trabalho principal em salário mínimo
X
Rendimento médio
X
Homens
X
Mulheres
X
Brancos
X
Não brancos
X
Menos de 8 anos de estudo
X
Mais de 8 anos de estudo
Planilha 4-
População economicamente ativa e taxa de atividade por grupos de idade e
sexo
X
População de 10 a 24 anos em idade ativa
X
População de 25 a 49 anos em idade ativa
X
População com 50 ou mais em idade ativa
X
Homens em idade ativa
X
Mulheres em idade ativa
X
População de 10 a 24 anos economicamente ativa
X
População de 25 a 49 anos economicamente ativa
73
X
População com 50 ou mais economicamente ativa
X
Homens economicamente ativo
X
Mulheres economicamente ativa
Moradia
Planilha 1-
Domicílios segundo o acesso a bens
X
Total de domicílios
X
Acesso a bens de uso difundido
X
Acesso a bens de média difusão
X
Acesso a bens de uso restrito
Planilha 2-
Domicílios segundo as condições de moradia
X
Total de domicílios
X
Em terreno não próprio
X
Sem sanitários
X
Inadequação por adensamento
X
Carência de água
X
Carência de iluminação
X
Carência de instalação sanitária
X
Carência na destinação do lixo urbano
X
Residências com até 3 cômodos
X
Domicílios próprios com propriedade do terreno
X
Domicílios próprios sem propriedade do terreno
X
Domicílios alugados
X
Outros
X
Abastecimento adequado de água
X
Escoamento sanitário adequado
X
Coleta adequada de lixo
4.3.1.2 Dados Criminais
Os dados criminais como dito anteriormente devem ser coletados junto as instituições que os estuda no município que está sendo analisado. Algumas instituições que
controlam estes dados são as secretarias de segurança ou saúde e organizações não governamentais. Após a coleta destes dados, o analista pode os organizar em uma tabela
criminal.
Alguns atributos listados abaixo são derivados de outros presentes na tabela
criminal original. Exemplos de atributos derivados: turno, dia da semana e nível criminal.
74

Turno do dia em que o crime aconteceu. Os turnos são divididos em manhã, tarde,
noite e madrugada;

Dia da Semana em que crime aconteceu;

Mês do acontecimento do crime;

Ano que o crime aconteceu;
AED
onde o crime foi cometido;
AED

Município na qual a

Crime cometido;

Quantidade de crimes agrupado pelos atributos descritos acima;

Nível que caracteriza a periclosidade da
semana, mês, ano,
AED,
pertence;
AED agrupado pelos atributos turno, dia da
Município e Crime;
4.3.2 Exploração dos Dados
Nesta fase o analista deve levantar algumas questões sobre a qualidade dos dados:
vericar se os dados coletados estão coerentes com os objetivos de negócio denidos,
conferir erros ou instâncias fora do padrão (outlyers ) e identicar quais os atributos que
não contém valores.
Denir estratégias para solução destes problemas, como atribuir
valores ou utilizar algoritmos que tratam de atributos com valores faltantes. Técnicas para
a solução destes problemas podem ser encontradas em Witten e Frank (2005), Klosgen e
Zytkow (2002).
Ao nal desta fase o analista terá uma visão geral dos dados coletados e a percepção dos problemas a serem enfrentados.
4.4 Pré-Processamento
O objetivo desta fase é conceber o conjunto de dados nal que será utilizado na
fase da aplicação do algoritmo de aprendizagem. No pré-processamento realizamos tarefas
como a identicação de outlyers, seleção de exemplos e atributos, limpeza e transformação
dos dados.
4.4.1 Transformação dos Dados
Para satisfazer os objetivos do negócio, o analista deve derivar um novo atributo.
Este atributo é a Área de Expansão de Dados (AED), que provavelmente não deve estar
presente nos dados criminais.
Os dados criminais dicilmente estarão organizados em
75
AED. Normalmente os dados são agrupados por bairros,
A AED é importante para a integração das bases sócio-
áreas geográcas delimitadas pelas
regionais ou zonas municipais.
econômicas e criminal, pois com este novo atributo, pode-se integrar as bases baseando-se
em um atributo com mesmo valor semântico.
Um outro atributo a ser criado na base criminal será o rótulo.
Este atributo
irá indicar se determinada instância pertence ao nível de periculosidade que o conjunto
representa. Este novo atributo irá caracterizar a aprendizagem de conceito, pois determinará se tal instância é daquele conceito, ou seja, nosso modelo irá aproximar uma função
booleana que indicará se determinada instância pertence ou não a classe que ele prediz.
4.4.2 Integração de Dados
A utilização dos dados pelos algortimos de aprendizagem é facilitada se as informações estão presentes em uma única base. Devido a isto, a integração deve ser realizada
caso os dados estejam em bases diferentes. Normalmente os dados que serão trabalhados
na predição do nível criminal estarão em diferentes bases: criminais, sociais e econômicas.
A maioria dos dados descritos na seção 4.3.1 serão utilizados na construção do
modelo. Algumas informações já devem ser inicialmente excluídas por apresentarem informações irrelevantes ou de baixa qualidade.
Essa exclusão deve ser feita a partir da
análise prévia do analista.
Supondo que os dados sócio-econômicos foram coletados junto ao
IBGE, os mesmos
serão cedidos através de várias planilhas. Cada planilha representa uma informação levantada no Censo, cabe ao analista escolher quais são as mais interessantes para a predição
que o mesmo deseja. Para facilitar a utilização dos dados, os códigos que representam a
entrada no banco de dados devem ser excluídos. As planilhas devem ser unidas, agrupadas
pela
AED
e município presente nos dados. Sendo assim, todos os atributos descritos nas
planilhas devem estar organizados por
AED
e município.
A junção das planilhas em apenas uma base foi uma prévia integração entre
os elementos de uma mesma esfera, sócio-econômica.
A integração sócio-econômica e
criminal deve ser feita para que os dados sejam corretamente utilizados na próxima fase
do processo.
Para a integração dos dados sócio-econômicos é necessário criar um atributo
AED
a partir do bairro ou região demográca presente na base de dados criminal. Cada bairro
têm um código da
AED
correspondente, assim para cada instância criminal deve ter o có-
AED que o crime foi cometido. O analista deve realizar esta sub-tarefa de relacionar
cada bairro a sua AED correspodente. A integração de todos os dados, sócio-econômicos
e criminais deve ser executado quando o relacionamento bairro AED for nalizado. Lemdigo da
brando que esta tarefa é possível pela presença de um atributo comum a todas as bases,
o atributo
AED.
Recomenda-se que a integração dos dados sócio-econômicos e criminais gere uma
76
base com 69 atributos, incluindo o atributo que indica se determinada instância pertence
ao nível criminal que o modelo prediz. Os 69 atributos recomendados são:
1. Total de pessoas que frequentam a escola
2. Acesso a bens de uso difundido
3. Acesso a bens de média difusão
4. Acesso a bens de uso restrito
5. Pessoas de 15 anos e mais de idade que
6. Densidade demográca
não sabem ler
7. População de 10 a 24 anos em idade ativa
8. População de 25 a 49 anos em idade
ativa
9. População com 50 ou mais em idade
10. Homens em idade ativa
ativa
11. Mulheres em idade ativa
12. População de 10 a 24 anos
economicamente ativa
13. População de 25 a 49 anos
14. População com 50 ou mais
economicamente ativa
economicamente ativa
15. Homens economicamente ativo
16. Mulheres economicamente ativa
17. Pessoas de 0 a 6 anos que
18. Pessoas de 7 a 14 anos que
frequentam a escola
frequentam a escola
19. Pessoas de 15 a 17 anos que
20. Pessoas de 18 a 25 anos que
frequentam a escola
frequentam a escola
21. População de 0-14 anos
22. População de 15-64 anos
23. População de 64 anos ou mais
24. Em terreno não próprio
25. Sem sanitários
26. Inadequação por adensamento
27. Carência de água
28. Carência de iluminação
29. Carência de instalação sanitária
30. Carência na destinação do lixo urbano
31. Residências com até 3 cômodos
32. Domicílios próprios com
propriedade do terreno
33. Domicílios próprios sem
34. Domicílios alugados
propriedade do terreno
35. Outros
36. Abastecimento adequado de água
37. Escoamento sanitário adequado
38. Coleta adequada de lixo
39. Quantidade de famílias cohabitadas
40. Domicílios improvisados
41. Rendimento médio
42. Rendimento médio dos homens
43. Rendimento médio das mulheres
44. Rendimento médio da população
de brancos
45. Rendimento médio da população
46. Rendimento médio da população
não branca
com menos de 8 anos de estudo
47. Rendimento médio da população com
48. Total de famílias
8 ou mais anos de estudo
77
49. Até 1/2 salário
50. De 1/2 a 1 salário
51. De 1 a 3 salários
52. Acima de 3 salários
53. Total de homens ocupados
54. Total de mulheres ocupadas
55. Total de brancos ocupados
56. Total de não brancos ocupados
57. Total de ocupados com menos de
58. Total de ocupados com mais de
8 anos de estudo
8 anos de estudo
59. Responsáveis familiar sem instrução
60. Responsáveis familiar com 11 anos
ou mais de estudo
61. Pessoas com 15 ou mais de idade
62. Turno do dia em que o crime
sem instrução
aconteceu
63. Dia da Semana em que crime aconteceu
64. Mês do acontecimento do crime
65. Ano que o crime aconteceu
66.
67. Município na qual a
AED
pertence
AED
onde o crime foi cometido
68. Crime cometido
69. Rótulo que caracteriza a periclosidade
da
AED
Após a integração ter sido concluída, é necessário a divisão do conjunto de dados
transformado em 5 diferentes conjunto de dados. Como o tipo de aprendizagem realizado
é o de conceito, é necessário construir 5 conjuntos distintos a partir do conjunto original,
pois temos 5 diferentes conceitos a serem aprendidos.
Cada conjunto gerado/separado
representa uma determinada periculosidade, sendo assim, existe um conjunto de dados
para cada nível de periculosidade, composto pelas instâncias que representam determinada
periculosidade e aquelas que não representam. Cada conjunto criado será composto por
todos os atributos do conjunto original, exceto a quantidade de crimes e o nível criminal.
Um novo atributo será adicionado (rótulo), pois identicará se determinada instância
participa ou não do nível criminal que o conjunto representa.
No nal da transformação teremos 5 conjuntos de dados que servirão para treinar
5 diferentes modelos de predição, onde cada modelo irá determinar se um determinado
exemplo pertence ao nível criminal que ele representa.
4.4.3 Seleção de Dados
Nesta etapa determina-se quais atributos serão selecionados para o processo de
aprendizado. Os dados que serão selecionados deverão estar de acordo com os objetivos
técnicos e de negócio. Detalhes de negócio, como as perguntas que devem ser respondidas
pelo processo de aprendizagem e detalhes técnicos como atributos com valores faltosos
ou tipo e volume de dados. Relevância para o processo, qualidade e restrições técnicas
também são detalhes a serem levados em conta no processo de seleção.
A suíte Weka apresenta vários algoritmos de busca e avaliação de atributos. Esses
algoritmos de busca e avaliação são classicados em ltros, Wrappers e embutido. Mais
informações sobre a fundamentação da área de seleção de atributos pode ser lida na
Seção 2.4.3.1.
78
Dentre os algoritmos de busca podemos citar os:
XBest First
XExhaustiveSearch
XRanker
XRank Search
XTabu Search
Já os algoritmos de avaliação podemos citar:
XCfsSubsetEval
XPrincipal Components
XInformation
XGain Ratio
Gain
Recomendamos a utilização do Ranker como algoritmo de busca e Infomation
Gain como o de avaliação.
O Ranker foi escolhido pois ordena todos os atributos de
acordo com a métrica de avaliação, no caso o Information Gain. A métrica Information
Gain é muito utilizada para medir a qualidade do atributo em relação a classe a ser
predita e utilizada no processo de construção de árvores de decisão, utilizando o algoritmo
C.45 (QUINLAN, 1996).
Após os atributos terem sido selecionados é importante avaliar se os selecionados são geradores das informações desejadas nos objetivos do negócio.
Esta análise é
importante pois importantes atributos para o entendimento e objetivos do negócio podem ser excluídos no processo de seleção, impossibilitando a visualização dos detalhes tão
importantes para o negócio.
Deve-se realizar uma etapa de pós-seleção nos 5 conjuntos obtidos, pois geralmente cada conjunto de atributos são distintos entre si. Devido a esta característica, é
necessário construir uma forma de padronizar os atributos pertecentes a cada conjunto.
Uma forma interessante é escolher uma quantidade x dos melhores atributos de cada conjunto, de acordo com a métrica de avaliação do atributo. Assim teremos em cada conjunto
os melhores atributos globais, selecionados pelo algoritmo de seleção.
4.4.4 Limpeza dos Dados
Após a tarefa de seleção de dados ter sido concluída, teremos que limpar os dados.
Isto é, retirar ruídos e dados sem importância. São considerados dados sem importância
dados que contém valores que divergem muito do padrão, atributos sem valores ou com
erros. A presença destes dados no conjunto de dados a ser utilizado por um algoritmo de
aprendizagem irão aumentar a taxa de erro e dicultar a leitura e análise das informações
coletadas. Indicamos tarefas como a inserção de valores padrão, cálculo de valores para os
atributos com valores faltantes e exclusão de dados com baixa qualidade para a resolução
deste problemas (WITTEN; FRANK, 2005).
4.4.5 Formatação dos dados
Recomendamos a criação de um pequeno programa para a extração dos dados
presentes em um banco de dados e inserí-los em um arquivo de texto do tipo ar pois
79
uma das formas de entrada de dados do Weka é feita usando esta opção.
A suíte Weka comumente trabalha com dois tipos de dados: numérico (contínuo)
e nominais (discretos).
Comumente os usuários do Weka transformam todos os dados
numéricos para o tipo numérico e os dados textuais, com características discretas para
nominais. Os dados textuais que não contém características discretas, devem ser transformados em algum atributo numérico que contenha a mesma semântica do dado textual.
Todos os valores numéricos presentes no conjunto de dados coletado deve ser designado
para o tipo numérico. Já os dados nominais, com características discretas devem ser denidos para o tipo nominal, ou seja, deve ser discretizado. Exemplos de atributos nominais
ou discretos: Turno, Dia da Semana, Mês, Ano,
AED,
crime e nível criminal.
4.5 Modelagem
Esta fase é responsável pelas tarefas relacionadas a aplicação do algoritmo de
aprendizagem. É recomendável a aplicação desta fase somente após as fases de Entendimento do Negócio, Coleta de Dados e Pré-processamento terem sido realizadas.
Esta fase é composta de sub-tarefas como:
1. Determinação do Modelo Preditivo;
2. Geração do Conjunto de Teste e Validação;
3. Construção do Modelo;
4. Avaliação Preliminar;
Cada fase deve ser executada na sequencia exibida na Figura 10.
Figura 10: Sub-tarefas da etapa de Modelagem
4.5.1 Determinação do Modelo Preditivo
O modelo a ser denido deve estar de acordo com os objetivos de negócio e com
o formato dos dados coletados.
Recomendamos o uso das Redes Neurais (RNA), pois é
um dos modelos preditivos que se adequa aos objetivos e a natureza dos dados. As
RNAs
tem a capacidade de trabalhar com dados numéricos quanto nominais. A estrutura da
rede neural é modicável para o propósito que ela está sendo modelada, característica
que fazem que as redes seja uma estrutura computacional exível para diversos tipos de
80
problemas. Estas características zeram com que as
RNA fosse recomendada como modelo
preditivo, além da suíte de mineração recomendada pelo processo, a suíte Weka, conter
uma implementação da rede MultiLayer Perceptron utilizando o algoritmo backpropaga-
tion.
4.5.2 Geração do Conjunto de Teste e Validação
O conjunto de dados coletado deve ser utilizado para treinamento, teste e validação. O conjunto pode ser dividido da seguinte forma: 80% para treinamento e 20% para
testes. Caso o analista deseje um conjunto de validação, a divisão do conjunto de dados
pode ser 70% para treinamento, 20% para testes e 10% para validação. Estas proporções
foram recomendadas com o conceito que se deve utilizar a maior parte do conjunto de
dados para treinamento, ou seja, o algoritmo deve ser treinado com a maior parte do conjunto de dados e o restante para testar a qualidade do aprendizado do algoritmo (WITTEN;
FRANK, 2005; KLOSGEN; ZYTKOW, 2002).
Em algumas técnicas de treinamento dos algoritmos não é necessário a denição
de um conjunto de testes e/ou treinamento, pois as técnicas dividem automaticamente o
conjunto de dados e realiza o treinamento e a avaliação do modelo. Hold-out e validação
cruzada (cross validation ) são exemplos destas técnicas.
Inicialmente não recomendamos o uso do método de validação cruzada devido
ao grande tempo de treinamento necessário. Devido a grande quantidade de instâncias
presentes no conjunto de dados, caso o número de instâncias não seja tão grande pode-se
utilizar a validação cruzada.
4.5.3 Aplicação do Algoritmo de Aprendizagem de Máquina
Esta etapa será responsável pela correta aplicação do algoritmo de aprendizagem.
Neste trabalho é recomendado o uso das Redes Neurais devido ao seu alto poder de generalização e a capacidade de aprendizado de funções não lineares (LIPPMANN, 1987). Para
cada conjunto de dados deve-se criar uma rede e a mesma será treinada utilizando o conjunto especíco, ou seja, o conjunto que representa seu nível criminal. Os 5 conjuntos de
dados distintos a serem utilizados foram denidos e construídos na fase de transformação.
Execuções iniciais devem ser realizadas am de perceber o poder preditivo do
modelo e/ou problema nos dados. Após a escolha do algoritmo de aprendizagem, deve-se
trabalhar nas características do funcionamento do algoritmo. Como a
RNA foi o algoritmo
recomendado, devemos nos atentar a questões como a estrutura da rede ou qual algoritmo
de aprendizado utilizar.
A estrutura da rede deve ter 3 camadas de neurônios: a camada de entrada, a
camada intermediária ou oculta e a camada de saída.
Recomendamos uma rede com
3 camadas devido a generalização dela para qualquer problema não linear (LIPPMANN,
1987). A camada de entrada deve ter um neurônio para cada atributo de entrada, e a
81
camada de saída deve conter apenas 2 neurônios. Um que será ativado caso a entrada
seja do nível criminal que a rede representa e o outro que será ativado caso a entrada não
seja do determinado nível.
O número de neurônios da camada oculta foi denido através da fórmula
nOculta =
(LIPPMANN, 1987).
nCamadaEntrada + nCamadaSaida
2
O número de neurônios determinado pela fórmula é interessante
pois o grande número de neurônios na camada oculta acarreta no overtting do conjunto
de treinamento e um alto tempo de processamento; já o baixo número acarreta na alta
generalização da rede, gerando uma baixa precisão nos resultados. Overtting signica
que o algoritmo de aprendizado tem um alto número de acertos nas intâncias no conjunto
de treinamento e baixo acerto nas instâncias do conjunto de testes e em outras instâncias
não vistas pelo algoritmo. Isto é, o algoritmo tem um vício em acertar apenas as instâncias
utilizadas em seu treinamento.
Além de se denir a estrutura da rede, é necessário escolher parâmetros que
serão utilizados na execução do algoritmo de aprendizagem.
Parâmetros como a taxa
de aprendizado e momentum que devem ser selecionados a partir de vários testes.
Os
melhores valores em nossos testes para a taxa de aprendizado e momentum foram 0.5 e
0.3 respectivamente.
4.5.4 Avaliação Preliminar
O analista de mineração deve fazer uma avaliação preliminar após os modelos
terem sido construídos. O processo de avaliação utiliza métodos para averiguar medidas
técnicas como a precisão, conança, taxa de falsos positivos e positivos verdadeiros. Após
o modelo ter sido avaliado tecnicamente pelo analista, é necessário a exibição aos especialistas do negócio, para os mesmos poderem validar o modelo de acordo com os desejos
especicados na fase de Entedimento do Negócio.
Finalmente o analista deve vericar todos os modelos construídos e os ordenar
pelas medidas técnicas. Além de medidas técnicas, é necessário levar em conta os objetivos
do negócio para que a ordenação dos métodos satisfaça os dois universos.
4.6 Avaliação
O modelo deve ser validado de acordo com sua precisão nos dados de teste ou
validação, isto é, os modelos devem predizer com exatidão os dados não trabalhados pelo
modelo na fase de treinamento. Os modelos devem ser avaliados por diversas métricas:
o Coeciente de Correlação, o Erro absoluto Médio, o Erro Quadrático Médio e o Erro
Absoluto Relativo (WITTEN; FRANK, 2005; HORNICK; MARCADé; VENKAYALA, 2007).
82
4.6.1 Avaliação dos Resultados
Esta sub-etapa deve apresentar os resultados técnicos alcançados pelo modelo.
Os resultados devem ser apresentados para cada modelo, ou seja, para cada modelo que
trabalha com cada nível criminal. As métricas recomendadas para apresentação serão:

Quantidade de Instâncias Classicadas Corretamente;

Quantidade de Instâncias Classicadas Incorretamente;

Erro Médio Absoluto;

Erro Médio Quadrático;

Matriz de Confusão;
Recomenda-se que a quantidade de instâncias classicadas incorretamente seja no
máximo de 30% da quantidade total de instâncias, devido a complexidade do problema
atacado (criminalidade).
Este erro é considerado plausível pela natureza da criminali-
dade, ou seja, complexa e dinâmica. O fenômeno criminal apresenta uma alta dinâmica
e o mais importante nesta tarefa não é apenas acertar o nível criminal, mas entender
a problemática, através dos resultados determinísticos (níveis) e subjetivos (conança).
Caso queira, o analista pode diminuir a taxa de erro.
4.6.2 Revisão
Nesta etapa o analista deve revisar todo o processo, identicando os possíveis
erros. Na seção 2.6 encontra-se mais informações sobre esta etapa.
4.6.3 Próximas Ações
Nesta sub-etapa o analista deve listar quais serão as próximas ações a serem
tomadas após a revisão de todo o processo ter sido concluído.
Informações adicionais
podem ser encontradas na seção 2.6.
4.7 Divulgação
A criação de um modelo preciso que atenda todos os objetivos denidos não
garante necessariamente o sucesso do processo como um todo. O método preditivo deve
ser usável, rápido e legível para o usuário comum, ou seja, aquele que irá utilizar o modelo
diariamente.
O processo recomenda que a visualização do resultado seja feita através de um
gráco de linha.
O gráco tem em sua abcissa os níveis criminais e em sua ordenada
83
Figura 11: Gráco utilizado para a visualização dos resultado do modelo preditivo
valores que variam entre 0 e 1. Esses valores são utilizados para medir a conança e o
valor preditivo resultante do modelo. O modelo retorna o valor 1 (um) quando o modelo
prediz que o exemplo é de determinado nível criminal e 0 (zero) caso contrário. Os valores
de conança também são representados pelos valores presentes na ordenada.
A conança é uma medida que pode ser intepretada como a quantidade de certeza
em que o modelo tem em armar tal predição. Para calcular a conança é utilizado os
valores dos neurônios pertecentes a camada de saída, isto é, os valores de ativação dos
neurônios. Estes valores são normalizados para um, dando a distribuição da probabilidade
da rede.
O gráco é composto por duas linhas, uma que representa a predição realizada e
a outra a conança que o modelo tem em arma a sua predição. A Figura 11 representa
um gráco que prediz uma instância qualquer. A linha pontilhada com quadrados (cor
preta) representa as predições realizadas para cada nível criminal.
A linha pontilhada
com quadrados da Figura 11 informa que a determinada instância pode ter nível criminal
alto ou muito alto, pois o valor da predição é igual a 1. Já a linha pontilhada com círculos
(cor cinza) representa a conança que cada modelo tem em armar a sua predição. Na
Figura 11 podemos ver que o modelo previu a instância com nível criminal alto e muito
alto com 70% e 60% de conança respectivamente.
O processo permite a criação de um sistema que fornece meios para estudar, prever
e simular situações criminais e sócio-econômicas reais ou ctícias.
O estudo, predição
e simulação de situações é possível por meio da variação de valores nos dados sócioeconômicos e criminais.
Estas variações permitem que o analista possa criar situações
que possam servir como apoio a decisões estratégicas de combate ao crime e de aumento
do bem-estar da população.
O estudo dos níveis criminais gerados a partir da variação de valores realizados
a partir de uma pergunta ao sistema.
A resposta do sistema será um gráco, similar
ao exibido na Figura 11. Assim, o analista pode vericar as consequências que podem
84
acontecer no aumento ou decréscimo nos valores das variáveis sócio-econômicas. Podendo
assim criar estratégias prévias para solucionar possíveis problemas caso os valores reais
atinjam os valores dados como entrada ao sistema.
Estratégias sócio-educativas também podem ser criadas a partir da utilização do
sistema proposto. O poder público pode através do sistema ver as consequências, aumento
ou decréscimo do nível criminal, a partir da variação de dados sócio-econômicos.
4.7.1 Plano de Divulgação
O plano de divulgação do processo deve descrever passos para a implantação,
treinamento e manutenção do modelo que será implementado.
Maiores detalhes sobre
este documento, visite a sub-seção 2.6.6 do Capítulo 2.
A manutenção do modelo é importante pois garante o correto funcionamento e a
precisão alcançada no momento da construção. A manutenção evita que o modelo que
defasado em relação as mudanças nos dados. As mudanças acontecem pois a criminalidade
está em constante modicação, devido a ação policial ou a características sócio-econômicas
e a inserção diária de iformações no banco de dados, gerando uma grande quantidade de
dados inédito. O uso do mesmo modelo por um longo período de tempo pode levar erros
relacionados a mudança da natureza dos dados, ou seja, mudança na criminalidade do
município estudado.
4.7.2 Relatório e Apresentação Final
Um relatório nal deve ser escrito descrevendo todos os passos executados, os
pontos positivos e negativos. O relatório deve resumir todas as ações executadas através
das fases do processo. O mesmo deve ser apresentado para a diretoria para socialização
do projeto implementado.
85
5
Estudo De Caso: Predição Criminal na Região
Metropolitana de Fortaleza
Para provar que o processo especicado no Capítulo 4 é simples, fácil e útil em
projetos de modelagem, construção e aplicação de métodos preditivos, iremos neste capítulo focar na aplicação do processo especicado no capítulo anterior. Assim poderemos
modelar, construir e aplicar um método para predição de níveis criminais em áreas geográcas urbanas.
Iremos seguir o processo especicado, cumprindo todos as fases e sub-tarefas
propostas. O estudo de caso irá comprovar que o processo proposto é útil, apresentando
as vantagens em seguir um método bem denido, ao invés de suposições do analista de
dados. Dentre as vantagens podemos citar a organização do processo, a documentação
gerada, a execução de todas as tarefas especicadas e garantia que o projeto estará de
acordo com os requisitos de negócio e técnicos estipulados.
5.1 Entendimento do Negócio
Nos últimos anos (2008-2010), o Governo do Estado do Ceará, através da Secretaria de Segurança e Defesa Social (SSPDS) têm investido na diminuição do crime no
Estado. Investimento em equipamentos (viaturas, armas, equipamentos eletrônicos, pesquisas), contratação de pessoal e treinamentos com o objetivo de combater o avanço da
violência. Nosso objeto de estudo foi a Região Metropolitana de Fortaleza (RMF), composta de 13 municípios: Fortaleza, Caucaia, Maranquape, Pacatuba, Aquiraz, Eusébio,
Guaiúba, Itaitinga, Maracanaú, Horizonte, Pacajús, Chorozinho e São Gonçalo do Amarante.
No primeiro semestre de 2009 ocorreram 768 homicídios na
RMF
(NORDESTE,
2009). É percebido que os jovens são a maioria no número de vítimas, cometidos principalmente por acerto de contas provenientes de gangues ou tráco de drogas. Os bairros
nos quais acontecem mais homicídios em Fortaleza são a Grande Messejana, Conjuntos Palmeiras, São Miguel, São Cristovão, Jangurussu, Bom Jardim, Pantanal, Rosalina,
Tancredo Neves, Genibaú, Praia do Futuro e Pajuçara (Maracanaú).
86
5.1.1 Determinação dos Objetivos de Negócio a Serem Alcançados
O principal objetivo do projeto foi sua implementação de acordo com o que foi
previsto na sua aprovação pela FUNCAP através do Edital 05/2008 - Segurança Pública
e o mesmo foi desenvolvido nas dependências do Mestrado Acadêmico em Ciência da
Computação. Um dos objetivos é fornecer um sistema preditivo correto utilizando dados
sócio-econômicos e criminais. Este sistema fornecerá ferramentas para que o analista de
dados e criminal possa prever, estudar e simular situações para que sejam tomadas ações
cabíveis contra o avanço da violência ou do aumento do bem estar da população.
O sistema será aceito caso todos os objetivos determinados forem alcançados e
tenha uma precisão de no mínimo 70%. Chegamos a conclusão de que a precisão ou taxa
de acerto deve ser no mínimo de 70% baseado na complexidade do fenômeno criminal e
em erros (ruídos) presentes nos dados.
5.1.2 Requisitos do Projeto
A
RMF
contém 98 áreas de expansão, sendo 71 pertencentes ao município de For-
taleza, 10 a Caucaia e 5 a Maracanaú. Os municípios de Maranguape e Aquiraz contém 2
AEDs cada um.
Os dados sociais, econômicos e criminais utilizados em nosso estudo serão
delimitados e agregados pelas
AEDs.
O nível criminal de cada
AED
é predita utilizando os
dados sócio-econômicos e criminais.
Os dados sócio-econômicos serão coletados junto ao projeto Observatório das
Metrópoles (METRóPOLES, 2010). Os dados solicitados são referentes as informações le-
IBGE através do Censo acontecido no ano 2000. Já os dados criminais serão
Secretaria de Segurança e Defesa Social (SSPDS). Pretende-se trabalhar com
vantadas pelo
solicitados a
os crimes cometidos nos anos de 2007 e 2008. Os crimes referentes ao ano de 2009 não
serão utilizados pois o ano de 2009 ainda não havia terminado até o momento da solicitação. Todos os dados foram pedidos através de documento formal, explicando quais
resultados desejamos alcançar com o seu uso e como os mesmos serão divulgados a sociedade. Os resultados visados pelo projeto é a construção de um método preditivo de níveis
criminais em áreas geográcas utilizando o processo de mineração proposto neste trabalho. Os resultados servirão para a Secretaria de Segurança e Defesa Social, permitindo o
entendimento e a visualização da criminalidade futura.
O projeto foi desenvolvido utilizando a linguagem Java (MICROSYSTEMS, 2010).
A linguagem Java é uma linguagem poderosa, utilizada para diferentes propósitos, desde
a sistema embarcados a grandes sistemas corporativos. Diversas bibliotecas de mineração
de dados podem ser usufruidas a partir da linguagem.
Sendo assim, a linguagem Java
é indicada para a construção do nosso modelo para predição do nível criminal de áreas
geográcas de regiões metropolitanas brasileiras.
87
O projeto foi desenvolvido nas depedências do Laboratório de Computação Natural e Inteligente pertecente ao Mestrado Acadêmico em Ciência da Computação da
Universidade Estadual do Ceará. O desenvolvimento foi realizado por Marcelo Damasceno
de Melo (Aluno - Mestrado) e pelos Professores Jereson Teixeira de Souza e Gustavo
Augusto Lima de Campos.
O projeto foi desenvolvido em 18 meses, dentro do prazo
proposto de 12 meses, extensível por mais 6. O cronograma representado na Tabela 4 foi
obedecido para que o projeto seja concluído em tempo hábil.
Adquirir dados provenientes de outras instituições é sempre um problema. Dados
são informações cruciais dentro de instituições e contém informações diárias que muitas
vezes não são permitidas divulgação.
Os dados criminais foram solicitados a
SSPDS
e
os sócio-econômicos ao projeto Observatório das Metrópoles. Caso o pedido não tivesse
sido aceito pela
SSPDS,
solicitariamos a outras instituições, como a imprensa cearense,
prefeituras municipais ou
ONGs
que trabalhem com o fenômeno criminal. Caso o projeto
Observatório das Metrópoles recusasse o pedido de liberação, solicitariamos junto ao
IBGE,
que é a instituição brasileira que faz o levantamento sócio-econômico brasileiro.
Um dos riscos inerentes a implementação do projeto são os relativos ao uso de
ferramentas de modelagem e de mineração de dados. Os riscos previstos são contornados
utilizando outras alternativas levantadas, como o Joone (TEAM, 2010) ou SPSS Modeler (SPSS, 2010). O problema da acurácia do preditor deve ser contornado através de novas
execuções de passos da fase de pré-processamento e a execução de outros algoritmos de
aprendizagem que possa aumentar a precisão do modelo. Obter informações irrelevantes
é um risco que deve ser entendido como um problema da distribuição dos dados, ou seja,
os dados utilizados são pouco expressivos.
Já a visualização dos resultados é uma das
restrições que devemos denir com cuidado. O modelo de acesso que o usuário utilizará
poderá ser a chave do sucesso de um sistema computacional.
5.1.3 Objetivos Técnicos a Serem Alcançados
A predição do nível criminal de áreas geográcas utilizando dados sociais, econômicos e criminais deve ser traduzido para uma tarefa de mineração de dados. Assim foi
pensado em traduzir a predição em um problema de aprendizado de conceito. Aprendizado
de conceito é baseado em distinguir eventos, objetos ou classes utilizando os seus atributos.
Exemplo:
Construir um modelo que possa armar se um determinado objeto é uma
Fase / Mês
1
2
3
4
5
6
7
8
9
Entendimento do Negócio
Coleta e Análise dos Dados
Pré-Processamento
Modelagem
Avaliação
Divulgação
Tabela 4: Cronograma de Atividades
10
11
12
88
cadeira através de sua visualização.
A solução foi composta de 5 modelos que predizem o nível criminal de cada
consulta. Cada modelo para cada nível criminal (muito baixo, baixo, médio, alto, muito
alto). Assim temos 5 resultados, proveniente de cada modelo, utilizando a previsão feita
e a conança que cada modelo tem na previsão realizada.
Cada modelo utiliza como entrada uma consulta feita pelo usuário sobre as características criminais e sócio-econômicas da região na qual ele quer predizer o nível criminal.
Após dada a entrada, o sistema preditor utiliza algoritmos de aprendizagem de máquina
para dizer qual o nível criminal aquela entrada pertence e se existe tendência de aumento
ou diminição do nível criminal. A saída da ferramenta é um gráco que informa a predição
e a conança que cada modelo teve em sua resposta.
5.1.4 Plano de Atuação
O equipamento utilizado no desenvolvimento foi um notebook com processador
Athlon XP 1.6 Ghz, 2GB de memória RAM com 120 GB de HD. Como descrito anteriormente, o processo foi executado por 3 pessoas, sendo um aluno do mestrado e dois
professores. Para a execução dos agoritmos de aprendizagem foi utilizado a suíte Weka.
Weka é uma ferramenta open-source, portanto sem a necessidade de custos com a aquisição. No cronograma foi reservado um período de tempo para o treinamento na ferramenta
e o mesmo foi feito através da leitura de manuais, análise de exemplos e tutorais presentes
na Internet.
A coleta dos dados sócio-econômicos foi realizada junto ao projeto Observatório
da Métropoles.
Já os dados criminais forão adquiridos junto a
SSPDS.
Após os dados
terem sido coletados, a etapa de entendimento e análise de dados deve ser realizada.
O entendimento dos dados foi feito a partir da observação de seus atributos. Foi
observado a quantidade, o tipo de cada atributo, os valores máximos, mínimos e médios
de cada atributo. O histograma é o gráco adequado para a visualização de informações
como o valor máximo e mínimo e a frequência dos valores de cada atributo no conjunto
de dados. Podemos observar um exemplo de um histograma na Figura 12.
Figura 12: Representação de um histograma
89
5.2 Coleta e Análise dos Dados
A fase de análise é composta de tarefas para o analista se familiarizar com os dados
colhidos, levantando algumas relações iniciais e informações interessantes nos dados. Além
da possibilidade de identicar dados fora do padrão ou ruídos.
5.2.1 Coleta dos Dados
Os dados criminais foram liberados em forma de arquivo texto estruturado e são
correspondentes as bases
CIOPS
e
SIP
nos anos de 2007 e 2008 de todos os municípios do
Estado do Ceará. Apenas os dados contidos na base
CIOPS foi utilizado no nosso projeto,
CIOPS contém dados temporais, geográcos e criminais dos crimes cometidos.
Infelizmente a base SIP não contém dados geográcos, isto é, o local exato ou aproximado
pois a base
que o crime foi cometido.
Os dados sócio-econômicos cedidos pelo projeto Observatório das Metrópoles com
pólo na
UFC
são correspodentes ao Censo feito no ano 2000. Os dados foram disponibi-
lizados através de planilhas no formato
xls,
produzidos no Microsoft Oce Excel.
Os
dados demoraram cerca de 2 meses para ser colhidos, pois houveram problemas para sincronizar a agenda do Professor Eustógio e do aluno Marcelo. O professor Eustógio é um
dos coordenadores do projeto no pólo Ceará.
Como percebido, os dados colhidos são provenientes de duas bases diferentes. A
integração de ambas deve ser realizado através da identicação ou geração de um atributo
que seja comum a ambas. A base sócio-econômica é agrupada por Áreas de Expansão de
Dados (AED), já a base criminal é agrupada por bairro. Para integramos as duas bases foi
necessária a geração de um atributo na base de dados criminal. O novo atributo gerado
é formado a partir da
AED
correspodente ao bairro presente na base criminal. A geração
do novo atributo permitiu a integração das bases, já que agora temos um valor semântico
comum a ambas.
Os dados foram inseridos em um banco de dados MySQL utilizando um script
MySQL desenvolvido para o carregamento dos dados presentes nos arquivos texto. Tal
script tem a função de ler o arquivo texto e inserir os dados no banco de forma correta,
obedecendo o formato denido no arquivo.
Após a inserção das bases no banco, a integração de ambas as bases deve ser
realizada. O processo explicado foi realizado de forma que ambas as bases possam ser tratadas como apenas uma. A integração é obrigatória pois fornecerá ao modelo informações
sobre todas as esferas (social, econômica e criminal).
90
5.2.2 Exploração dos Dados
Nesta etapa os dados coletados foram explorados para serem obtidas algumas
informações iniciais. Uma das tarefas pertencentes a esta etapa é vericar a distribuição
das classes no conjunto de dados. A Figura 13 representa a distribuição de cada classe do
conjunto de dados, ou seja, cada nível criminal proposto no processo. A primeira, segunda,
terceira, quarta e quinta coluna representam a quantidade de instâncias pertencentes ao
nível muito baixo, baixo, médio, alto e muito alto respectivamente.
Outra informação
interessante no conjunto é que nenhum atributo coletado contém valores faltantes.
A Figura 13 mostra que a maioria das instâncias contém o nível muito baixo
como nível criminal. A soma da quantidade de instâncias dos outros níveis não ultrapassa
o número de instâncias com o nível muito baixo.
A baixa distribuição das instâncias
nos diferentes níveis acarreta em um conceito chamado de desbalanceamento de classes.
Este desbalanceamento acarreta no alto número de acerto no nível criminal com mais
instâncias e baixo número de acertos nos níveis com menores números de instâncias.
Aplicamos técnicas como seleção de exemplos e exclusão de instâncias para solucionar o
problema de desbalanceamento de classes (BISHOP, 2006).
Figura 13: Distribuição dos níveis crimais no conjunto de dados
Todos os dados colhidos foram utilizados na construção do modelo.
Nenhum
atributo foi descartado de primeira vista, sem que os próximos passos sejam executados.
Os dados colhidos estão de acordo com os objetivos do projeto, pois contém informações
necessárias para predizer o nível criminal de áreas geográcas utilizando dados sócioeconômicos e criminais.
Outro objetivo desta sub-fase é encontrar instâncias fora do padrão, que consequentemente podem ser erros, também conhecido como ruído ou outlyer. A suíte Weka
contém um ltro, o Interqualite Range, muito utilizado para identicar exemplos fora do
padrão, conhecidos como outlyers.
O Interqualite Range utiliza o interquatil calculado
a partir do conjunto de dados para identicar os valores extremos e outlyers presente
91
nos dados.
Foi aplicado este ltro mas a maioria dos dados identicados por ele eram
pertencentes a outros municípios que não Fortaleza.
Ele identicou as instâncias cujo
município não era Fortaleza como ruídos, por serem minoria no conjunto de dados e consequentemente serem tratados pelo ltro como valor extremo. Nós decidimos não utilizar
o resultado deste ltro por excluir todas essas instâncias.
5.3 Pré-Processamento
Nesta fase iremos aplicar transformações nos dados, transformações referentes a
geração de novos atributos, normalização e geração de 5 conjuntos de dados distintos
derivados do conjunto de dados original. Cada conjunto de dados deste aglomerado de 5,
representa um nível criminal, ou seja, temos um conjunto de dados para representar as
características de cada nível criminal. Foi aplicado um algoritmo de seleção de atributos
logo após as transformações terem sido concluídas.
O algoritmo de seleção é utilizado
para identicar quais são os melhores atributos para predizer o nível criminal das áreas
geográcas em questão.
5.3.1 Transformação dos Dados
A fase de transformação de dados é composta de tarefas de exclusão, adição e
derivação de novos dados a partir de dados presentes no conjunto.
Os dados criminais que foram coletados são os que irão sofrer mais transformações.
O atributo turno é um exemplo de um atributo derivado, foi derivado do horário que o
crime foi cometido.
Outros exemplos de atributos derivados são o dia da semana, mês
e ano que o crime aconteceu. Estes dados foram derivados pois fornece maior qualidade
preditiva em relação ao atributo gerador pois agrupa informações, diminuindo a variância
dos dados e apresenta melhor qualidade semântica para o projeto. Por exemplo, é muito
difícil que mais de dois crimes da mesma natureza aconteça ao mesmo tempo, gerando
uma alta variância se formos dividir os dados pelo horário. Como temos apenas 4 turnos
para dividir os dados, temos uma baixa variância nos dados em relação ao turno, pois a
probabilidade de acontecer mais de dois crimes em um mesmo turno é muito maior do
que acontecer no mesmo horário.
A exclusão, derivação ou transformação dos dados são atividades pertencentes a
esta fase do processo. Temos como exemplo de exclusão, a eliminação da hora do crime,
ela deve ser excluída pois é uma informação de pouca relevância para a predição, por ter
uma alta variância entre os exemplos. A data era um atributo presente no conjunto de
dados criminal original e também foi excluída pelas mesmas razões que o atributo hora,
pois sua alta variância era devido ao pequeno número de crimes que foram cometidos ao
mesmo tempo. A quantidade de crimes é um outro exemplo de atributo derivado. Para
contabilizar a quantidade de crime cometidos foi necessário somar a quantidade de crimes
de um determinado tipo acontecidos naquele turno, dia da semana, mês, ano e em uma
92
determinada
AED.
Para satisfazer os objetivos do negócio o analista deve derivar um novo atributo.
Este atributo é o nível criminal baseado na quantidade de crimes em uma
calcular o nível criminal da
AED.
Para
AED foi necessário realizar um determinado cálculo, utilizando
o número máximo e mínimo de crimes X cometidos. Com estes dois valores, foi possível
determinar todos os níveis, ou seja, os níveis muito baixo, baixo, médio, alto e muito alto.
O nível muito baixo foi dado a todas as instâncias que continham a quantidade mínima
de crimes cometidos do tipo X. Já o nível muito alto foi dado as instâncias que continham
o valor máximo de infrações do tipo X.
O cálculo dos níveis intermediários (baixo, médio e alto) foram feitos utilizando
o valor mínimo (min) e máximo (max),
inc =
max − min
.
5
Assim, o nível baixo foi determinado para a quantidade de crimes cujo valor está entre
min + inc
e
min + 2 ∗ inc.
O nível médio foi denido para o atributo cuja quantidade de crimes
quant
é
min + 3 ∗ inc > quant ≥ min + 2 ∗ inc
e o nível alto para valores
max > quant ≥ min + 3 ∗ inc.
Sendo o valor mínimo e máximo de crimes observado em um conjunto de dados
foi de 2 e 100 crimes respectivamente. Seja uma instância com 50 crimes, o nível criminal
98
= 19, 6; e a quantidade de crimes da instância
para esta instância é o médio pois, inc =
5
se adequa as inequações:
2 + (3 ∗ 19, 6) > 50 ≥ 2 + (2 ∗ 19, 6);
60, 8 > 50 ≥ 41, 2.
Um outro atributo criado na base criminal foi o rótulo. Este atributo indica se
determinada instância pertence ao nível criminal que o conjunto representa. Este atributo
foi criado devido a necessidade do aprendizado baseado em conceitos, ou seja o atributo
rótulo é o atributo que identica se a instância pertence a determinado conceito.
5.3.2 Integração de Dados
As bases forão integradas utilizando como base o atributo
AED. Após a integração
ter sido concluída temos 69 atributos, descritos na subseção 4.4.2.
Após a nalização da integração, é necessário a divisão do conjunto de dados
transformado em 5 diferentes conjuntos. Onde cada conjunto irá representar cada nível
93
criminal. Como o tipo de aprendizagem realizado é o de conceito, é necessário construir
5 conjuntos distintos a partir do conjunto original, pois são 5 diferentes conceitos (níveis
criminais) a serem aprendidos.
Estes conceitos são os níveis criminais estabelecidos na
fase de entendimento do negócio.
5.3.3 Seleção de Atributos
A etapa de seleção dos melhores atributos é executada após os dados terem sido
integrados. Nesta etapa serão escolhidos os atributos que melhor identicam cada nível
criminal.
Serão excluídos os aributos que nada interferem ou atrapalham a predição
correta.
Além de integrar, a fase de integração também gerou 5 conjuntos distintos. Cada
conjunto representa o conceito para o qual foi denido, ou seja, existe um conjunto de
dados para cada nível, isto é, existe um conjunto para os níveis muito baixo, baixo, médio,
alto e muito alto. Como cada conjunto de dados representa um determinado conceito ou
classe, podemos armar que cada conjunto contém a sua respectiva distribuição de classes.
De agora em diante iremos trabalhar com os conjuntos de dados que representam
somente um nível criminal. Agora os conjuntos de dados são divididos em 2 classes: as
instâncias que são daquele nível e aquelas que não são.
ção das classes sim e não para o nível muito baixo.
A Figura 14 exibe a distribui-
Podemos perceber que o conjunto
referente ao nível muito baixo contém 80262 exemplos, sendo 61947 positivas e 18315
negativas para este nível. Este conjunto de dados é o único a ter mais exemplos positivos
que negativos. Isto signica que na
RMF
existe mais exemplos com áreas com nível crimi-
nal muito baixo que a soma dos exemplos pertencentes aos outros níveis criminais. Esta
característica necessariamente não signica que a maioria das áreas tem o nível muito
baixo, mas que naquela conguração de atributos a maioria das áreas foram classicadas
como muito baixa. Lembrando que a classicação muito baixa foi estabelecida pelo número mínimo de crimes naquela agregação de atributos, não signicando que uma área
pode ter semanticamente o nível muito baixo tendo no mínimo 8 homicídios por semana.
Não zemos esta análise na sub-fase de exploração de dados pois ainda era necessário realizar as transformações e integrações nos dados.
Figura 14: Distribuição das classes para o nível muito baixo
94
A Figura 15 representa a distribuição do conjunto com exemplos positivos e negativos relativos ao nível baixo. Este conjunto contém 79645 exemplos únicos, sendo 68272
negativos e 11373 positivos.
Figura 15: Distribuição das classes para o nível baixo
A Figura 16 exibe a distribuição do conjunto com instâncias positivas e negativas
relativa ao nível médio.
Este conjunto contém 79135 exemplos distintos, sendo 74688
negativos e 4447 positivos.
Figura 16: Distribuição das classes para o nível médio
As Figuras 17 e 18 exibem a distribuição dos exemplos referentes aos nível alto e
muito alto respectivamente. O conjunto que representa o conceito referente ao nível alto
contém 78747 instâncias, onde 77431 são negativas e 1316 positivas. Já o conjunto que
representa o conceito muito alto contém 78802 exemplos distintos, sendo 77466 negativos
e 1336 positivos.
Uma questão a ser levada em conta é a grande diferença entre a quantidade de
exemplos positivos e negativos. No pior caso observamos que a classe majoritária é 58,84
vezes superior que a classe minoritária. Diferença observada no conjunto que representa o
conceito muito alto. Essa grande diferença leva a problemas relacionados ao treinamento
do modelo, levando o mesmo apenas a predizer os valores da classe majoritária. Na subtarefa de seleção de exemplos iremos tratar a questão da grande diferença de proporção
entre os exemplos positivos e negativos.
Após essa análise da distribuição das classes ter sido realizada, foi executada a
fase de seleção de atributos. O algoritmo de busca Ranker com a métrica de avaliação
dos atributos baseada no Information Gain foi a utilizada para a seleção dos atributos. O
95
Figura 17: Distribuição das classes para o nível alto
Figura 18: Distribuição das classes para o nível muito alto
algoritmo Ranker ordena os atributos do melhor ao pior baseado na métrica de avaliação,
onde a escolhida foi a Information Gain. A mesma conguração dos algoritmos de seleção
foram executados para selecionar os melhores atributos em todos os 5 conjuntos de dados.
Abaixo iremos exibir os 15 melhores atributos identicados, ordenados do melhor para o
pior de acordo com o seu valor de information gain (MICHALSKI; CARBONELL; MITCHELL,
1986). Information Gain é uma medida de ecácia de um atributo em classicar o conjunto de treinamento. Quanto maior o information gain de um atributo melhor ele é para
classicar corretamente a classe de qualquer instância pertencente ao conjunto de dados.
1-
Atributos selecionados no conjunto de dados que representa o nível muito baixo;
96
1.
AED
2. População com 50 ou mais
em idade ativa
3. Pessoas de 0 a 6 anos
4. Número de brancos com rendimento
que frequentam a escola
no trabalho principal
5. Pessoas de 15 a 17 anos
6. População de 25 a 49 anos
que frequentam a escola
economicamente ativa
7. Inadequação por adensamento
8. Até 1/2 salário de renda familiar
per capita
9. População de 10 a 24 Anos
10. Pessoas de 15 a 17 anos
em idade ativa
que frequentam a escola
11. Acesso a bens de média difusão
12. Abastecimento adequado de água
13. Rendimento médio em salário
14. Pessoas com 15 ou mais
mínimo dos não brancos
de idade sem instrução
15. População de 25 a 49 anos
em idade ativa
21.
Atributos selecionados no conjunto de dados que representa o nível baixo;
AED
2. Pessoas de 0 a 6 anos
que frequentam a escola
3. Rendimento médio em salário mínimo
4. População com 50 ou mais
da população com menos
em idade ativa
de 8 anos de estudo
5. Coleta adequada de lixo
6. Rendimento médio
em salário mínimo dos brancos
7. População de 25 a 49 anos
8. Número de brancos
economicamente ativa
com rendimento no trabalho
principal
9. Pessoas de 7 a 14 anos
10. Número de domicílios
que frequentam a escola
próprios com propriedade
do terreno
11. População de 64 anos ou mais
12. População de 0-14 anos
13. Abastecimento adequado
14. Renda familiar
de água
per capita com mais
de 1 a 3 salários
15. Pessoas com 15 ou mais de idade
sem instrução
3-
Atributos selecionados no conjunto de dados que representa o nível médio;
97
1.
AED
2. De 1/2 a 1 salário
de renda familiar per capita
3. Residências com até 3 cômodos
4. Pessoas de 15 a 17 anos
que frequentam a escola
5. Rendimento médio no trabalho
6. Domicílios sem sanitários
principal em salário mínimo
7. Pessoas de 0 a 6 anos
8. Quantidade de pessoas
que frequentam a escola
que não sabem ler
9. Rendimento médio
10. População de 10 a 24 anos
em salário mínimo dos homens
em idade ativa
11. Ocupados com menos
12. Responsáveis familiar
de 8 anos de estudo
com 11 anos ou mais de estudo
13. Acesso a bens
14. Domicílios com carência
de média difusão
de água
15. Pessoas com 15 ou mais
de idade sem instrução
41.
Atributos selecionados no conjunto de dados que representa o nível alto;
AED
2. Dia da semana
que o crime foi cometido
3. Quantidade de domicílios alugados
4. Pessoas de 18 a 25 anos
que frequentam a escola
5. Crime cometido
6.População de 0-14 anos
7. Outros tipos de
8. População de 10 a 24 anos
aquisição de moradia
economicamente ativa
9. População de 64 anos ou mais
10. População de 10 a 24
anos em idade ativa
11. Total de não brancos ocupados
12. População de 15-64 anos
13. Carência de iluminação
14. Carência de água
15. Total de famílias com
renda familiar per capita
5-
Atributos selecionados no conjunto de dados que representa o nível muito alto;
98
1.
AED
2. Rendimento médio
em salário mínimo dos brancos
3. Coleta adequada de lixo
4. Acesso a bens de uso restrito
5. Pessoas de 18 a 25 anos
6. Número de mulheres
que frequentam a escola
economicamente ativa
7. Total de mulheres ocupadas
8. Carência na destinação
do lixo urbano
9. Carência de água
10. Número de domicílios alugados
11. Total de famílias
12. Renda familiar per
com renda familiar per capita
capita de 1 a 3 salários
13. Responsáveis familiar
14. Rendimento médio
com 11 anos ou mais de estudo
da população com menos de 8
anos de estudo
15. População de 10 a 24
anos economicamente ativa
Ao m do processo de seleção, o conjunto de atributos selecionados eram diferentes entre si. Foi questionado um modo de padronizar o conjunto de atributos, onde
os atributos pertencentes sejam os melhores em cada conjunto. Recomendamos que seja
selecionado os 7 melhores atributos de cada conjunto, gerando um conjunto de atributos
com 35 atributos mais o rótulo, totalizando 36 atributos.
criminal do exemplo.
O rótulo indica qual o nível
A quantidade de atributos a ser extraída de cada conjunto foi
proposta para ser 7 (sete) pois este valor é a metade da quantidade de atributos de cada
conjunto de dados, ou seja, 7 é a metade inteira de 15. O conjunto nal de atributos é
composto pelos seguintes atributos:
99
1.
AED
2. População com 50 ou mais em
idade ativa
3. Pessoas de 0 a 6 anos
4. Número de brancos com
que frequentam a escola
rendimento no trabalho principal
5. Pessoas de 15 a 17 anos
6. População de 25 a 49
que frequentam a escola
anos economicamente ativa
7. Inadequação por adensamento
8. Rendimento médio em salário mínimo
da população com
menos de 8 anos de estudo
9. Coleta adequada de lixo
10. Rendimento médio
em salário mínimo dos brancos
11. População de 25 a 49
12. Número de domicílios
anos economicamente ativa
próprios com propriedade do terreno
13. População de 64 anos ou mais
14. Pessoas de 7 a 14 anos
que frequentam a escola
15. De 1/2 a 1 salário de renda
16. Residências com até 3 cômodos
familiar per capita
17. Rendimento médio no trabalho
18. Domicílios sem sanitários
principal em salário mínimo
19. Quantidade de pessoas
20. Rendimento médio
que não sabem ler
em salário mínimo dos homens
21. População de 10 a 24
22. Dia da semana
anos em idade ativa
que o crime foi cometido
23. Quantidade de domicílios alugados
24. Pessoas de 18 a 25 anos
que frequentam a escola
25. Crime cometido
26. População de 0-14 anos
27. Outros tipos de aquisição
28. População de 10 a 24
de moradia
anos economicamente ativa
29. Acesso a bens de uso restrito
30. Número de mulheres
economicamente ativa
31. Total de mulheres ocupadas
32. Carência na destinação
do lixo urbano
33. Carência de água
34. Renda familiar per capita
de 1 a 3 salários
35. Responsáveis familiar com
36. Rótulo que caracteriza
11 anos ou mais de estudo
o nível criminal da
AED
Infelizmente o conjunto de atributos selecionados pela tarefa de seleção não continha atributos tão importantes para o negócio como o município, turno do dia, mês e
ano do acontecimento do crime. Pelo resultado do algoritmo conclui-se que os atributos
temporais não são tão importantes pois têm baixa valor deinformation gain e que o município pode ser excluído, pois é possível determinar seu valor a partir da
AED
da instância.
Os atributos temporais (turno do dia, mês e ano) pouco identicam os níveis criminais,
100
pois os valores ao longo do tempo têm baixa variância; o ano não foi selecionado devido
ao baixo número de amostras ao longo dos anos (2007 e 2008).
Outros 5 conjuntos com os atributos já selecionados, mais os excluídos que foram
citados acima foram desenvolvidos, pois os atributos excluídos são importantes para o
negócio, pois fornecem padrões de tempo e localização. Portanto, o nosso modelo preditivo
será treinado com os dois grupos de dados, os com e sem os atributos temporais.
O
treinamento dos 2 grupos de dados servirá para comparar o desempenho e precisão do
modelo. Desempenho tanto técnico, quanto semântico.
5.3.4 Limpeza dos Dados
As tarefas de limpeza de dados não foram aplicadas pois não temos dados com
valores faltosos e a remoção dos outlyers foi ignorada por questões já tratadas na subseção 5.2.2.
5.3.5 Formatação dos dados
Algumas formatações são necessárias devido a restrições impostas pelo algoritmo
de aprendizagem ou mesmo pela ferramenta computacional utilizada.
As formatações
sintáticas alteram a forma do valor, sem alterar sua semântica. Exemplos de formatação
semântica são a modicação da estrutura do arquivo dos dados ou da tipagem do atributo
pertecente ao conjunto.
Como nossos dados estão presentes em um banco de dados, necessitamos de uma
forma de extraí-los, para que os mesmos possam ser utilizado pelo Weka. A extração e
modicação para o arquivo com formato ar é necessária pois a suíte Weka aceita, dentre
as opções de entrada este tipo de arquivo. O formato ar contém a sua própria estrutura,
que pode ser vista com mais detalhes no manual do Weka (BOUCKAERT et al., 2009).
A suíte tem a capacidade de extrair os dados diretamente do banco de dados, mas foi
escolhido utilizar esta forma pois é conhecida pela maioria dos analistas. Um script
SQL
foi desenvolvido para a extração e modicação dos dados. Para a criação do arquivo com
formato ar foi desenvolvido um pequeno programa utilizando os scripts desenvolvidos
para realizar esta tarefa. Além da extração, tarefas como as da sub-fase de transformação
de dados podem ser realizadas utilizando o programa desenvolvido.
5.4 Modelagem
A fase de modelagem consiste de tarefas relacionadas a denição, treinamento e
avaliação preliminar do método preditivo. Esta fase deve ser executada somente após as
tarefas de Entendimento do Negócio, Coleta e Análise de Dados e Pré-Processamento.
101
5.4.1 Determinação do Modelo Preditivo
Iremos utilizar as redes neurais como estrutura computacional para a tarefa de
previsão, como foi proposto pelo processo. A rede utilizada no modelo foi o MultiLayer
Perceptron. Esta rede é um tipo muito utilizado em problemas de classicação, predição e
regressão numérica, onde o algoritmo backpropagation é o mais utilizado no aprendizado,
ou seja, identica as características mais relevantes contida nos dados.
5.4.2 Geração do Conjunto de Teste e Validação
O conjunto de dados utilizado para treinamento e testes foram divididos da forma
que o processo recomendava: 80% para treinamento e 20% para testes. No processo de
treinamento não foi denido nenhum conjunto de validação pois foi decidido usar a maior
parte dos dados para treinamento.
Inicialmente o método de treinamento de validação cruzada foi testado no treinamento, mas o uso do mesmo foi cancelado devido ao grande tempo de treinamento. O
tempo de treinamento foi grande porque o conjunto de dados contém muitas instâncias,
além da validação cruzada ser indicada para conjunto de dados com baixo número de
instâncias.
5.4.3 Aplicação do Algoritmo de Aprendizagem de Máquina
Para cada conjunto de dados foi criado uma rede e a mesma será treinada utilizando o conjunto especicado. Foi denido na fase de transformação de dados dois grupos
com 5 conjuntos de dados distintos. O primeiro grupo é composto pelos conjuntos que
não contém atributos temporais como o turno, mês e ano, excluídos no processo de seleção. Já o segundo grupo é composto pelos dados anteriores, com o diferencial de conter
estes atributos temporais tão importantes para o objetivo do negócio. Os grupos serão
comparados e analisados para obter melhores resultados na precisão e conança.
Execuções iniciais foram realizadas am de perceber o poder preditivo do modelo
ou problema nos dados.
Foi percebido que o uso de atributos discretos prejudicava o
tempo de treinamento, pois o Weka criava um neurônio de entrada para cada valor do
conjunto discreto. Resolveu-se transformar todos os dados discretos em numéricos para
contornar este problema. Assim temos 36 e 40 atributos numéricos no primeiro e segundo
grupo respectivamente.
Para o primeiro grupo de dados a rede foi modelada com 35 neurônios de entrada,
uma camada oculta com 19 neurônios e dois neurônios na camada de saída. Já para o
segundo grupo, a rede contém 40 neurônios na camada de entrada, 20 na camada oculta
e 2 na camada de saída. O número de neurônios da camada oculta foi denido através da
fórmula
nOculta =
nCamadaEntrada
nCamadaSaida
102
(OLLIGSCHLAEGER, 1997).
Este número é interessante pois o grande número de neurônios na camada oculta
acarreta no overtting do conjunto de treinamento e o baixo número acarreta na alta
generalização da rede, gerando uma baixa precisão nos resultados. Além da denição da
estrutura da rede é necessário escolher parâmetros utilizados na execução do algoritmo. Os
parâmetros de taxa de aprendizado e momentum foram selecionados e os melhores valores
foram escolhidos após várias execuções. Os melhores valores para a taxa de aprendizado
e momentum foram 0.5 e 0.3 respectivamente.
A visualização dos resultados deve ser realizada através de grácos, como proposto
pelo processo. Os grácos exibirão a predição feita por cada modelo e a conança que
cada um teve em sua predição.
Para efeitos de comparação iremos exibir alguns resultados da seguinte forma:
um gráco para cada nível criminal em cada grupo de dados (os com e sem os dados
temporais).
Nível Muito Baixo
A instância exibida neste exemplo tem muito baixo como nível criminal. O gráco visto na Figura 19 mostra que todos os modelos predizem a instância como negativa,
mesmo ela tendo muito baixa como nível criminal. A instância testada pertence ao primeiro grupo de dados, o grupo com 36 atributos. As predições são visualizadas através da
linha pontilhada preta com quadrados que está constante no valor 0 e a conança através
da linha pontilhada cinza com círculos. A maior conança foi para a predição feita pelo
modelo que prediz a nível alto e a menor para o modelo que prediz a periculosidade muito
baixa. Podemos intepretar que a predição não foi tão errônea, pois ela errou em relação a
classe, mas a sua conança em armar tal predição para o nível muito baixo foi pequena.
Lembrando que o nível da instância testada é o muito baixo.
A Figura 20 exibe a predição dos modelos utilizando a instância pertecente ao
segundo grupo de dados.
Tal como o resultado anterior, todos os modelos preveram a
instância como negativa para o conceito que representa.
Tal instância contém o nível
criminal muito baixo. A menor conança na armação foi feita pelo modelo que prediz
as instâncias com nível baixo e o maior valor foi para o modelo que prediz as instâncias
com nível alto. Infelizmente o segundo modelo apresentou uma alta conança em negar
o nível muito baixo, ou seja, predição errônea, mas o modelo negou com baixa conança
o nível baixo. A partir dos resultados dos dois preditores pode-se concluir que a classe
do exemplo está no limiar entre a muito baixo e baixo, baseando-se principalmente no
resultado do primeiro preditor.
Nível Baixo
A Figura 21 exibe a predição para a instância com nível baixo, onde todos os
modelos negaram a participação da instância na classe que ele prediz. Lembrando que
esta instância pertence ao primeiro grupo de dados. O modelo que teve menor conança
na sua armação foi o que prediz as instâncias muito baixa, seguido pela baixa. Através
103
Figura 19: Predição de uma instância muito baixa positiva do primeiro grupo de dados
Figura 20: Predição de uma instância muito baixa positiva do segundo grupo de dados
deste resultado podemos concluir que a instância está no limite entre os níveis muito baixo
e baixo.
A Figura 22 exibe a predição do sistema para uma instância com nível baixo.
Esta instância pertence ao segundo grupo, ou seja, o grupo com 40 atributos.
Assim
como o exemplo anterior, todos os modelos predizeram o exemplo como negativo. Onde
a menor conança foi para o modelo que prediz o nível médio.
104
Figura 21: Predição de uma instância baixa positiva do primeiro grupo de dados
Pode-se perceber que as duas predições se complementam, pois a primeira exibe que a instância está entre muito baixa e médio, já a segunda predição exibe que a
instância pode ser média. O resultado para este exemplo pode identicar uma tendência
de crescimento do nível criminal nesta área de muito baixo a médio.
Figura 22: Predição de uma instância baixa positiva do segundo grupo de dados
Nível Médio
Diferente dos exemplos anteriores, não foi utilizado uma instância com o nível
105
criminal verdadeiro para aquele conceito, ou seja, a instância utilizada não pertence ao
conceito que o modelo prediz.
A instância utilizada como exemplo não será uma com nível médio e pertencerá
ao primeiro grupo de dados.
Todos os modelos armaram que a instância é negativa
com maior conança para o modelo que prediz o nível médio, conrmando o que nós já
sabíamos. O modelo armou que ele tem 90% de conança que a instância não tem nível
médio e 60% de conança que não é muito baixa ou alta, indicando possivelmente que
o exemplo é de uma destes níveis. Para tentar armar qual nível esta instância exemplo
pertence, pode-se utilizar o segundo grupo de dados. Esta estratégia será utilizada pois
o modelo preveu com pouca certeza classes tão distintas semanticamente. A Figura 23
exibe os resultados para a instância pertecente ao primeiro grupo de dados.
Figura 23: Predição de uma instância média negativa do primeiro grupo de dados
O segundo preditor arma que a instância exemplo tem nível criminal alto com
70% de conança e que a instância pode ter nível alto e muito alto. Lembrando que esta
instância pertence ao segundo conjunto de dados, ou seja, o conjunto com 40 atributos.
A maior conança exibida foi para a negação da instância para o nível baixo. Assim a
partir da conança vista no preditor anterior pode-se armar que o exemplo é pertecente
a um limiar entre alta e muito alta, já que o preditor anterior disse com 60% de certeza
que a instância tinha nível alto. A Figura 24 exibe o gráco com os resultados para a
instância do segundo grupo que não tem nível médio.
Nível Alto
A instância utilizada para prever o nível alto foi uma instância que não tem
este nível criminal e pertence ao primeiro grupo.
O preditor que utiliza os dados do
primeiro grupo negou a participação para seu nível para todos os modelos, onde teve
maior conança na sua armação para o nível muito alto e o menor para o nível muito
106
Figura 24: Predição de uma instância média negativa do segundo grupo de dados
baixo.
Isto signica que o preditor tem muita conança que o exemplo não tem nível
muito alto e provalvelmente a instância pertença ao nível muito baixo. A Figura 25 exibe
o resultado discutido.
Figura 25: Predição de uma instância alta negativa do primeiro grupo de dados
Assim como o exemplo anterior, o preditor negou a participação da instância
pertencente ao segundo grupo em todos os modelos e teve a menor conança para o nível
muito baixo e a maior para o nível muito alto. Provavelmente assim como o resultado do
107
primeiro preditor a instância tenha o nível muito baixo. A partir de ambos os resultados,
podemos armar que a instância pertence ao nível muito baixo.
Ver a Figura 26 para
visualizar o resultado discutido.
Figura 26: Predição de uma instância alta negativa do segundo grupo de dados
Nível Muito Alto
A instância escolhida foi também uma negativa para a nível muito alto.
Lem-
brando que esta instância pertence ao primeiro grupo de dados. O preditor preveu para
todos os modelos que o exemplo não pertence a nenhum nível. O preditor demonstrou
maior conança na sua armação para o nível alto e muito alto e baixa conança no nível
muito baixo. A Figura 27 exibe estes resultados.
Já o segundo preditor exibiu resultados diferentes do primeiro. Ele também negou
para todos os níveis a participação do exemplo, com uma alta conança no nível alto (95%)
e baixa conança no nível baixo (80%).
Os dois preditores se contradizem em respeito ao nível muito baixo, mas podemos
tirar uma conclusão deste exemplo. Sabe-se que o exemplo é negativo para o nível muito
alto, a conrmação do nível se dará a partir da maior conança, caso o modelo preveja
positivamente ou a menor conança caso contrário. O primeiro preditor exibiu esse resultado, ele forneceu uma baixa conança para o nível muito baixo e uma alta conança para
nível muito alto, informação que já sabíamos. Podemos concluir que a instância pertença
ao nível muito baixo, pois resultou em uma baixa conança no primeiro preditor. Não
utilizamos o resultado do segundo preditor pois as menores conanças de cada modelo
foram consideradas altas e diferentes das encontradas no primeiro preditor. A conança
do nível muito baixo do primeiro preditor apresentou o valor
exibiu o valor
0, 90.
0, 65,
já o segundo preditor
108
Figura 27: Predição de uma instância muito alta negativa do primeiro grupo de dados
Figura 28: Predição de uma instância muito alta negativa do segundo grupo de dados
5.4.4 Avaliação Preliminar
Nesta fase deve-se executar uma avaliação preliminar para que a próxima fase
seja executada. Nesta fase dene-se a execução de tarefas como a vericação dos resultados alcançados, vericando a exatidão e a conablidade do modelo. Garantindo que os
resultados técnicos e semânticos são válidos.
tratadas na próxima seção.
Detalhes sobre as métricas técnicas serão
109
Requisitos de negócio como tempo de treinamento, tempo de resposta, legibilidade e visualização dos resultados foram satisfeitos na construção dos preditores.
O
maior tempo de treinamento levado foi de 1 hora, 3 minutos e 17 segundos e mínimo de
2 minutos e 10 segundos. Lembrando que o treinamento é feito apenas uma vez e que na
execução diária do preditor não será necessário fazer nenhum treinamento adicional. O
tempo de resposta é inferior a 2 segundos e a legibilidade e visualização dos resultados
estão de acordo com o denido pelo analista de negócio. Os grácos conseguiram exibir
os resultados desejados na fase de entendimento do negócio. O gráco é legível pois nele
podemos visualizar a predição e a conança de todos os modelos.
5.5 Avaliação
As métricas de performance foram apresentadas e discutidas na sub-Seção 5.4.4
e as métricas técnicas serão apresentadas na próxima seção.
Anteriormente foi denido que um dos requisitos técnicos para o sistema era que
a taxa de acerto deveria ser acima de 70%.
Todos os modelos construídos e testados
tiveram uma taxa de acerto superior a 70%, chegando a 76.7%.
5.5.1 Avaliação dos Resultados
Esta etapa irá apresentar os resultados técnicos alcançados pelo modelo.
Os
resultados serão apresentados para cada modelo, em cada grupo de dados. As métricas
apresentadas serão:

Quantidade de Instâncias Classicadas Corretamente;

Quantidade de Instâncias Classicadas Incorretamente;

Erro Médio Absoluto;

Erro Médio Quadrático;neural

Matriz de Confusão;
Resultados da aplicação de cada modelo no primero grupo de dados.
Nível Criminal Muito Baixo;
Total de Instâcias do Conjunto de Teste:
14652
Instâncias Classicadas Corretamentes: 11018
75.1979%
Instâncias Classicadas Incorretamentes: 3634
24.8021%
Erro Médio Absoluto:
0.3606
Erro Médio Quadrático:
0.4283
110
Atual
sim
não
11018
0
sim
3634
0
não
Predito
Matriz de Confusão
Nível Criminal Baixo;
Total de Instâcias do Conjunto de Teste:
9098
Instâncias Classicadas Corretamentes: 6815
74.9066 %
Instâncias Classicadas Incorretamentes: 2283
25.0934 %
Erro Médio Absoluto:
0.3607
Erro Médio Quadrático:
0.4266
Atual
sim
não
6815
0
sim
2283
0
não
Predito
Matriz de Confusão
Nível Criminal Médio;
Total de Instâcias do Conjunto de Teste:
3558
Instâncias Classicadas Corretamentes: 2667
74.9578 %
Instâncias Classicadas Incorretamentes: 891
25.0422 %
Erro Médio Absoluto:
0.3407
Erro Médio Quadrático:
0.4299
Atual
sim
não
2657
13
sim
878
10
não
Predito
Matriz de Confusão
Nível Criminal Alto;
Total de Instâcias do Conjunto de Teste:
1053
Instâncias Classicadas Corretamentes: 778
73.8841 %
Instâncias Classicadas Incorretamentes: 275
26.1159 %
Erro Médio Absoluto:
0.3533
Erro Médio Quadrático:
0.4282
111
Atual
sim
não
748
43
sim
232
30
não
Predito
Matriz de Confusão
Nível Criminal Muito Alto;
Resultados do modelo para o nível alto;
Total de Instâcias do Conjunto de Teste:
1069
Instâncias Classicadas Corretamentes: 790
73.9008 %
Instâncias Classicadas Incorretamentes: 279
26.0992 %
Erro Médio Absoluto:
0.3168
Erro Médio Quadrático:
0.4467
Atual
sim
não
761
24
sim
255
29
não
Predito
Matriz de Confusão
Resultados da aplicação de cada modelo no segundo grupo de dados.
Nível Criminal Muito Baixo;
Total de Instâcias do Conjunto de Teste:
16052
Instâncias Classicadas Corretamentes: 12299
76.6197 %
Instâncias Classicadas Incorretamentes: 3753
23.3803 %
Erro Médio Absoluto:
0.3361
Erro Médio Quadrático:
0.4094
Atual
sim
não
11783
629
sim
3124
516
não
Predito
Matriz de Confusão
Nível Criminal Baixo;
112
Total de Instâcias do Conjunto de Teste:
9098
Instâncias Classicadas Corretamentes: 6692
73.5546 %
Instâncias Classicadas Incorretamentes: 2406
26.4454 %
Erro Médio Absoluto:
0.3555
Erro Médio Quadrático:
0.4301
Atual
sim
não
6539
276
sim
2130
153
não
Predito
Matriz de Confusão
Nível Criminal Médio;
Total de Instâcias do Conjunto de Teste:
3558
Instâncias Classicadas Corretamentes: 2632
73.9741 %
Instâncias Classicadas Incorretamentes: 926
26.0259 %
Erro Médio Absoluto:
0.3104
Erro Médio Quadrático:
0.439
Atual
sim
não
2595
75
sim
851
37
não
Predito
Matriz de Confusão
Nível Criminal Alto;
Total de Instâcias do Conjunto de Teste:
1053
Instâncias Classicadas Corretamentes: 782
74.264 %
Instâncias Classicadas Incorretamentes: 271
25.736 %
Erro Médio Absoluto:
0.3032
Erro Médio Quadrático:
0.4442
Atual
sim
não
719
72
sim
199
63
não
Predito
Matriz de Confusão
113
Nível Criminal Muito Alto;
Total de Instâcias do Conjunto de Teste:
1069
Instâncias Classicadas Corretamentes: 766
71.6558 %
Instâncias Classicadas Incorretamentes: 303
28.3442 %
Erro Médio Absoluto:
0.3238
Erro Médio Quadrático:
0.4791
Atual
sim
não
703
82
sim
221
63
não
Predito
Matriz de Confusão
5.5.2 Revisão
Esta subfase faz uma revisão geral de todo o processo de pré-processamento,
treinamento, avaliação e visualização do preditor construído.
É vericado se todos os
passos denidos pelo processo foram realizados e os motivos para que alguns passos não
tenham sido executados.
Entendimento do Negócio
Esta fase foi contemplada através do levantamento da natureza do negócio: a
criminalidade. Foram enumerados os requisitos do negócio que deveriam ser satisfeitos,
tais como:
1. Predizer o nível criminal de áreas geográcas a partir de dados sociais, econômicos
e criminais;
2. Utilizar o modelo para melhorar a alocação de recursos;
3. Aumentar as políticas sociais em áreas com níveis criminais acima do esperado;
4. Facilitar a decisão do administrador em segurança sobre o aumento do policiamento
sobre áreas especícas;
5. Ter um modelo com boa usabilidade, que exiba informações de grande relevância;
Após os requisitos do negócio terem sido denidos foi preciso denir os requisitos
do projeto. Os requisitos do projeto trata do processo de concepção, criação e divulgação
do modelo preditivo.
Questões relacionadas aos dados criminais, sociais, econômicos,
geográcos e temporais foram estabelecidos e discutidos. O modelo prediz níveis criminais
utilizando 5 conceitos: muito baixo, baixo, médio, alto e muito alto. Questões relacionadas
114
a plataforma de programação e ao framework de mineração de dados também foi tratado.
Foi denido que iríamos utilizar a linguaguem de programação Java, com a suíte Weka
para implementar o processo proposto.
Os riscos que poderiam inviabilizar ou atrasar o projeto foram identicados, dentre eles podemos citar a proibição ou atraso na entrega dos dados, precisão do método
abaixo do previsto e descoberta de informações irrelevantes.
Para cada risco identi-
cado foi criado um plano alternativo para ser executado caso a situação de risco venha a
acontecer.
Após os requisitos de negócio e de projeto terem sido denidos, tratamos dos
objetivos e requisitos técnicos. Os objetivos trata da tradução dos objetivos de negócio
para problemas tratáveis por técnicas de mineração de dados e os requisitos técnicos irão
tratar da performance e acurácia do modelo a ser construído. A predição do nível criminal
de áreas geográcas, utilizando dados criminais e sócio-econômicos, foi traduzido em uma
tarefa de aprendizado de conceito.
Cada conceito, nível criminal, foi predito por um
modelo, sendo que cada modelo irá armar se o exemplo é do conceito que ele representa.
Assim o preditor foi composto de 5 modelos, onde cada um irá armar se a instância faz
parte do nível criminal que ele representa. Além de armar a participação da instância
no determinado nível criminal, ele irá armar a conança em sua resposta.
Detalhes sobre como o processo metodológico foi desenvolvido através de um
plano de atuação, que foi dividido em 4 partes importantes: levantamento da ferramenta
de modelagem, coleta e análise dos dados, modelagem e divulgação do método. Todos
esses pontos foram tratados e discutidos para que o processo de construção do preditor
seja alcançado.
Os dados foram coletados de duas bases diferentes. Os dados criminais referentes aos anos de 2007 e 2008 foram cedidos pela
SSPDS.
Já os dados sócio-econômicos
foram coletados através do projeto Observatório das Metrópoles que observa fenômenos
sociais das metrópoles brasileiras. Os dados sócio-econômicos são referentes a Educação,
Demograa, Emprego, Renda e Moradia da
de 2000.
RMF,
coletados pelo Censo realizado no ano
Já os dados criminais são compostos por crimes realizados na
RMF,
dentre as
variáveis temos o turno e o dia do acontecimento, região demográca e crime cometido.
Após a coleta e descrição dos dados terem sido realizados, foi necessário fazer
uma exploração inicial com o objetivo de levantar algumas hipóteses iniciais e relações
entre os dados.
Nesta tarefa identica-se exemplos como valores faltantes ou fora do
padrão. Nenhum dos exemplos continha valores faltantes e todos os outlyers (exemplos
fora do padrão) identicados eram na maioria exemplos cujo município era diferente de
Fortaleza, cuja eliminação foi cancelada devido a esta característica. Após este passo ter
sido concluído, foi exibido a distribuição dos níveis criminais do conjunto de dados, sendo
o nível muito baixo como a majoritária e a muito alto a minoritária.
Como o objetivo técnico se baseou no aprendizado de 5 diferentes conceitos (níveis
criminais), sendo assim criamos 5 conjuntos de dados diferentes a partir do conjunto
de dados originais.
Cada conjunto é composto pelos exemplos que pertecem a aquele
115
determinado nível e aqueles que não pertencem. Utilizamos um cálculo para denir qual
o nível criminal o exemplo pertence, utilizando a quantidade máxima e mínima de crimes
cometidos.
Após estes passos terem sido concluídos, iniciamos o processo de seleção dos
melhores atributos.
A aplicação de algoritmos de seleção de atributos é utilizada para
diminuir a quantidade de atributos, eliminando aqueles que são irrelevantes ou redundantes. Este processo foi necessário para otimizar o processo de aprendizagem do modelo. O
conjunto de dados contém um total de 69 atributos, sendo que após a seleção esse número
caiu para 36 atributos distintos. Percebemos que foram excluídos atributos pertencentes
aos dados criminais como município, turno do dia, mês e ano do acontecimento do crime.
Decidimos criar outro conjunto de dados com 40 atributos, 4 novos atributos (atributos
excluídos) mais 36 já existentes. Estes novos atributos foram adicionados pois são importantes para o negócio, isto é, para o entendimento da criminalidade. Sendo o município,
turno do dia, mês e ano do acontecimento do crime os atributos excluídos. Após denido
o nível criminal, separamos dois grupos de 5 conjuntos baseado no conceito que lhe foi
denido. Onde o primeiro grupo contém 5 conjuntos contendo 36 atributos e o segundo
contendo 40 atributos.
Depois de todo o processamento e a formatação realizada nos dados deve-se denir qual algoritmo de aprendizagem será utilizado. O algoritmo de aprendizagem utilizado
foram as redes neurais, pois trata-se de um método que produz resultados bastante genéricos e tem uma alta capacidade de aprendizagem.
Como o aprendizado se baseou
em conceitos, foi criado uma rede neural para cada conjunto de dados, resultando em 5
redes neurais para o primeiro grupo e 5 redes para o segundo grupo. A taxa de acerto
foi satisfatória pois atingiu ao limiar denido pela equipe de negócio. A visualização dos
resultados foi feita através de grácos que exibem a predição de cada rede e a conança
que a rede teve em armar tal resultado. O gráco de linha foi escolhido como veículo de
visualização pois exibe os resultados preditivos de forma clara e objetiva.
Após os modelos terem sido criados e os resultados terem sido observados, temos
que lidar com a avaliação do sistema.
A avaliação do sistema é baseada tantos nos
resultados do negócio quanto nos resultados técnicos, sendo que os requisitos de negócio
e técnico foram denidos na fase de entendimento do negócio. Estas etapas trataram de
questões de negócio, como o modo que o resultado deveria ser apresentado, qual a forma
de acesso e quais os dados deveriam ser levados em conta. Além dos requisitos de negócio,
denimos métricas que deveriam ser obedecidas para validar o modelo. O modelo seria
satisfatório caso tivesse uma taxa de acerto superior a 70% e que o tempo de treinamento
e execução fosse satisfatório. Todos esse requisitos foram satisfeitos pelos dois preditores
construídos, todos tiveram uma forma fácil e rápida de visualizar os resultados e obtiveram
uma taxa de acerto superior a 70%.
116
5.5.3 Próximas Ações
As próximas ações devem ser planejadas para a correta divulgação dos preditores
escolhidos.
Baseado na revisão de todo o processo executado, podemos concluir que o
projeto deve seguir para a próxima fase, a fase de divulgação.
Todas as ações executadas já foram explicadas e as próximas ações serão desenvolvidas no processo de divulgação do projeto. Como trabalhos futuros iremos melhorar a
interface de visualização dos resultados, implementando um método de visualização utilizando mapas georeferenciados para facilitar a entrada dos dados e visualização dos níveis
criminais das áreas.
5.6 Divulgação
O processo de divulgação do modelo preditivo deve ser usável, rápido e legível
para os usuários nais. A divulgação dos resultados é feita através de grácos que exibem
a predição de cada modelo e a conança que ele tem em armar a predição realizada. Por
exemplo a Figura 25 exibe um gráco de predição de uma instância com classe alta.
O sistema implementado fornece meios para estudar, prever e simular situações
criminais e sócio-econômicas reais ou ctícias. O estudo, predição e simulação de situações
é possível por meio da variação de valores nos dados sócio-econômicos. Estas variações
permitem que o analista possa criar situações que possam servir como apoio a decisões
estratégicas de combate ao crime e de aumento do bem-estar da população.
A utilização do sistema permite que se estude comportamentos gerados a partir
da variação de valores feitas a partir de uma pergunta ao sistema.
A resposta do sis-
tema será um gráco, similar ao exibido na Figura 25. Assim, o analista pode vericar
as consequências que podem acontecer no aumento ou decréscimo nos valores das variáveis sócio-econômicas. Podendo assim criar estratégias prévias para solucionar possíveis
problemas caso os valores reais atinjam os valores dados como entrada ao sistema.
Estratégias sócio-educativas também podem ser criadas a partir da utilização
do sistema proposto.
O poder público pode através do sistema ver as consequências,
aumento ou decréscimo do nível criminal, a partir da variação de dados sócio-econômicos.
Perguntas como estas poderão ser respondidas com o uso do sistema implementado: Será
possível que o nível criminal baixe criando escolas e postos de saúde em determinada
região? Será que o nível criminal terá alterações na inserção de um parque industrial na
região.
Uma interface para facilitar a realização destes estudos está sendo implementada,
permitindo assim melhorar a usabilidade dos estudos a serem feitos pelos analistas.
117
5.6.1 Plano de Divulgação
O plano de divulgação descrito deverá conter diretrizes para implantação e manuntenção do sistema a ser implantado. Recomendamos que o processo de implantação
deve ser realizado em um servidor para o uso de todos os usuários que tem o direito de
utilização. Os usuários autorizados poderão utilizar o modelo de forma remota através de
protocolos de acesso como
VNC
ou sistema que controle o acesso.
Recomendamos que a manutenção do sistema seja feita semestralmente, onde será
feito um novo treinamento utilizando os novos dados produzidos durante o período de uso.
Esta atualização deve ser realizada pois a criminalidade é um fenômeno muito dinâmico,
necessitando que os novos dados gerados sejam inseridos no conjunto de treinamento do
modelo. Além da atualização, semestralmente deverá ser feita uma reunião com o objetivo
de avaliar o uso do sistema e os resultados reais alcançados. Esperamos que o preditores
desenvolvidos possam auxiliar os gestores na alocação dos recursos policiais e melhora das
características sócio-econômicas das áreas mais afetadas pela violência. Métricas devem
ser comparadas antes e depois do uso da ferramenta. Deve-se também ser observado se os
crimes se movimentaram, isto é, modicaram sua área de atuação devido a intensicação
policial nas regiões com alto nível criminal.
O relatório nal produzido é um capítulo da dissertação do aluno Marcelo Damasceno.
A dissertação trata-se da proposta do processo utilizado no desenvolvimento
deste sistema e o capítulo de estudo de caso foi formatado em forma de relatório.
A apresentação nal do projeto será realizada na defesa do título de mestre a ser
feita pelo aluno. Além da apresentação do processo e da implementação do mesmo, será
discutido os fundamentos utilizados no desenvolvimento do projeto.
118
6
Conclusões e Trabalhos Futuros
O problema da criminalidade infelizmente está presente no nosso cotidiano.
A
criminalidade origina diversos problemas, como econômicos, sociais e psicológicos. Combater o avanço da criminalidade é um dever do poder público e deve ser encarado com
prioridade.
O combate ao crime deve ser feito tanto reativamente quanto preventiva-
mente, assim, a organização e o uso de métodos cientícos devem ser desenvolvidos para
auxiliar o trabalho policial. Diversos trabalhos vêm sendo desenvolvidos para o combate
da criminalidade, dentre eles podemos citar a identicação de criminosos, conexões entre
guangues e fraudes, determinação de áreas mais perigosas e previsão de crimes baseado
no histórico criminal.
Neste trabalho foi proposto um processo de mineração de dados para predição
de níveis criminais de áreas geográcas urbanas, utilizando a Região Metropolitana de
Fortaleza como estudo de caso. Para realizar as predições foram utilizados dados criminais
dos anos de 2007 e 2008 e dados sócio-econômicos da região metropolitana citada.
dados sócio-econômicos foram oriundos do censo realizado pelo
IBGE
Os
no ano 2000.
O processo construído têm como objetivo servir de guia para o desenvolvimento
de novos sistemas utilizados para a previsão de níveis criminais em áreas geográcas. Sua
proposta foi devido a diculdade na concepção e no desenvolvimento do estudo de caso
e da ausência de literatura especializada nesta área.
Além de ser possível aplicá-la em
qualquer região demográca, pois os dados necessários podem ser coletados localmente,
através de sua secretaria de segurança e do
IBGE.
Diferenciamos de outras técnicas pre-
ditivas presentes na literatura por não usar somente dados criminais, mas também dados
sócio-econômicos. Acreditávamos que as características sócio-econômicas de uma região
inuenciariam a criminalidade no local, hipóstese provada pelo nosso estudo de caso.
Qualquer setor de inteligência pode utilizar o processo proposto para construir um sistema ágil e conável, além de motivador para o conhecimento de diversas características
criminais e sócio-econômicas de sua região.
O sistema preditivo construído utilizando o processo proposto neste trabalho
fornece a possibilidade de estudar, analisar e simular eventos reais ou ctícios.
Estes
estudos são possíveis devido a possibilidade de variar os valores das variáveis criminais e
sócio-econômicas. A possibilidade de predizer o nível criminal de uma situação hipotética
a partir da variação de valores permite que o analista possa criar estratégias de combate
ao crime e do aumento do bem-estar da população.
Com o uso do sistema ele poderá
responder questões como: A inserção de uma escola irá alterar o nível criminal? Qual as
119
variáveis mais critícas nesta área para o aumento do nível criminal? A melhora na renda
inuenciará o número de crimes?
O processo foi separado em fases, baseado no processo de Descoberta de Conhecimento em Banco de Dados (DCBD) e no processo
CRISP-DM.
Cada fase é composta
de sub-fases focadas na resolução de determinadas sub-tarefas que podem utilizar passos
anteriores como parte de seu processamento. Ao nal da execução de todo o processo,
teremos um sistema preditivo e sua documentação concluída. A documentação tratará de
todos os aspectos desenvolvidos no processo, desde a concepção, distribuição e treinamento
do sistema.
Para vericar a ecácia do processo, utilizamos como estudo de caso a Região
Metropolitana de Fortaleza.
Para a construção do modelo, utilizamos dados criminais
provenientes da Secretaria de Segurança Pública referente aos anos de 2007 e 2008; e dados sócio-econômicos levantandos no censo de 2000. Os dados criminais e sócio-econômicos
foram agrupados em regiões demográcas, conhecidas com
gráca), denidas pelo
AED (Área de Expansão Demo-
IBGE. Um sistema preditor foi construído baseado na aprendizagem
de conceito, onde os conceitos denidos são relativos ao nível criminal de cada área em
diversos crimes: muito baixo, baixo, médio, alto e muito alto. Foi obtido uma precisão
superior a 70% e um método diferenciado de se analisar o resultado. Os grácos utilizados
como método de visualização permitiu que a interpretação fosse diferente. O resultado
da previsão pode ser visto além de uma visão determinística, baseada no conceito, mas
também de forma subjetiva. Através dos grácos, podemos identicar uma mudança de
conceito, ou seja, uma tendência de aumento ou diminuição do nível criminal. Esta análise
é importante para a organização do efetivo policial. A antecipação de um comportamento
criminal pode ser crucial para o combate ao crime, livrando a população de diversos males.
Ambos preditores tiveram uma boa precisão, todas acima de 70%.
A melhor
precisão foi de 76.6% e a pior foi de 71.65% para os preditores que predizem o nível criminal muito baixo e muito alto respectivamente, ambos utilizando o segundo conjunto
de dados. Deve-se observar que os exemplos de todos os conjuntos de dados estão desbalanceados, isto é, existem mais exemplos de um conceito do que do outro. Os modelos
desenvolvidos conseguiram ter uma boa precisão em todos os conceitos, armando e negando a participação de determinado exemplo naquele nível criminal, mesmo com classes
desbalanceadas.
Como trabalho futuro, foi identicado a aplicação do modelo construído utilizando dados mais recentes, sendo avaliado utilizando os crimes observados no ano de
2009 e 2010. Além da avaliação, sugerimos a integração do modelo construído a um sis-
GIS e a uma melhor interface, facilitando o
sistema GIS facilitará a interação do usuário com
tema
seu uso.
A interface integrada a um
o sistema, facilitando a visuzalização
das áreas geográcas e a visualização e edição dos valores dos dados criminais e sócioeconômicos dados como pergunta ao sistema preditor. Novos algoritmos de aprendizagem
podem ser utilizados, podendo fornecer resultados superiores aos encontrados.
120
Referências
ADDERLEY, R. The Use of Data Mining Techniques in Operational Crime Fighting.
Lecture Notes in Computer Science, v. 3073, p. 418425, 2004.
ADORNO, S. Crime, justiça penal e igualdade jurídica: os crimes que se contam no
tribunal do júri. Revista USP, v. 21, p. 133151, 1994.
ADORNO, S. Discriminação racial e justiça criminal. Cebrap, v. 43, p. 4563, 1995.
ADORNO, S. Exclusão socioeconômica e violência urbana. Sociologias, v. 8, p. 84135,
2002.
ADORNO, S.; CARDIA, N. Dilemas do controle democrático da violência: execuções
sumárias e grupos de extermínio. Violências em tempo de globalização, v. 1, p. 6690,
1999.
ADORNO, S.; LIMA, R.; BORDINI, E. O jovem e a criminalidade urbana em São
Paulo. [S.l.], 1999.
AGRAWAL, R.; SRIKANT, R. Fast Algorithms for Mining Association Rules. In:
Proceedings of the 20th VLDB Conference. Santiago, Chile: [s.n.], 1994.
ALBANESE, J. The prediction and control of organized crime: A risk assessment
instrument for targeting law enforcement eorts. Trends in Organized Crime, Springer,
v. 6, n. 3, p. 429, 2001.
ALLEN, D. Mean square error of prediction as a criterion for selecting variables.
Technometrics, JSTOR, p. 469475, 1971.
ANAND, S.; BUCHNER, A. Decision Support Using Data Mining. London: Financial
Time Management, 1998.
ANAND, S. et al. A data mining methodology for cross-sales. Knowledge Based Systems
Journal, v. 10, p. 449461, 1998.
ARMSTRONG, J. Research needs in forecasting. International Journal of Forecasting,
v. 4, p. 449465, 1988.
AUSTIN, J.; NARO, W.; FABELO, T. Public Safety, Public Spending. [S.l.]: Pew
Charitable Trusts, 2007.
AZIMI, A.; DELAVAR, M. Urban crime mapping using spatial data mining. Urban and
Regional Data Management UDMS 2007 Annual, CRC, v. 1, p. 465, 2007.
BABST, D.; GOTTFREDSON, D.; BALLARD, K. Comparison of multiple regression
and congural analysis techniques for developing expectancy tables. J. Res. Crime
Delinquence, v. 5, n. 1, p. 7280, 1968.
121
BARATA, R. B.; RIBEIRO, M. C. S. de A. Relação entre homicídios e indicadores
econômicos em São Paulo, Brasil, 1996. Revista Panamericana de Salud Pública, v. 7,
n. 2, p. 118124, 2000.
BARTH, F. J. et al. Recuperação e mineração de informações para a área criminal. In:
VI Encontro Nacional de Inteligência Articial. [S.l.: s.n.], 2007.
BASSEVILLE, M.; NIKIFOROV, I. V. Detection of Abrupt Changes: Theory and
Application. [S.l.]: Prentice Hall, 1993.
BEATO, C. C. Determinantes da criminalidade em Minas Gerais. Revista Brasileira de
Ciências Sociais, v. 13, p. 7487, 1988.
BERK, R. Forecasting methods in crime and justice. Annual Review of Law and Social
Science, Annual Reviews, v. 4, p. 219238, 2008.
BERK, R.; HE, Y.; SORENSON, S. Developing a practical forecasting screener for
domestic violence incidents. Evaluation Review, v. 29, n. 4, p. 358384, 2005.
BERK, R.; KRIEGLER, B.; BAEK, J. Forecasting dangerous inmate misconduct: an
application of ensemble statistical procedures. Journal of Quantitative Criminology,
v. 22, n. 2, p. 131145, 2006.
BERK, R. et al. Prisons as self-regulating systems: a comparison of historical patterns
in california for male and female oenders. Law Soc. Rev., v. 17, n. 4, p. 547586, 1983.
BERRY, M.; LINOFF, G. Data mining techniques: for marketing, sales, and customer
support. [S.l.]: John Wiley & Sons, Inc. New York, NY, USA, 1997.
BHANDARI, I. et al. Advanced scout: Data mining and knowledge discovery in NBA
data. Data Mining and Knowledge Discovery, Springer, v. 1, n. 1, p. 121125, 1997.
BISHOP, C. M. Pattern Recognition and Machine Learning. [S.l.]: Springer, 2006.
BLUMSTEIN, A.; LARSON, R. Models of a total criminal justice system. Oper. Res.,
v. 17, n. 2, p. 199232, 1969.
BOGGS, S. Urban crime patterns. American Sociological Review, JSTOR, v. 30, n. 6, p.
899908, 1965.
BOUCKAERT, R. et al. WEKA Manual for version 3.7.0. Hamilton, New Zealand,
2009.
BRANT, V. O trabalho encarcerado. [S.l.]: Forense, 1994.
BRANTINGHAM, P.; BRANTINGHAM, P. Patterns in crime. [S.l.]: Macmillan, 1984.
BROSSETTE, S. et al. A data mining system for infection control surveillance. Die
Medizinische Welt, v. 58, n. 7, p. 315321, 2007.
BROWN, D. Data mining to catch criminals: The regional crime analysis system
(recap). In: Proceedings of the IEEE International Conference on Systems, Man, and
Cybernetics. San Diego, California: [s.n.], 1998.
122
BROWN, D. The Regional Crime Analysis Program (ReCAP): a framework for mining
data to catch criminals. In: 1998 IEEE International Conference on Systems, Man, and
Cybernetics, 1998. [S.l.: s.n.], 1998. v. 3.
BROWN, D.; LIU, H. A New Approach to Spatial-Temporal Criminal Event Prediction.
In: The ESRI International User Conference Proceedings. Environmental Systems
Research Institute, Inc., CA. [S.l.: s.n.], 1999.
BRUHA, I.; FAMILI, A. Postprocessing in machine learning and data mining. ACM
SIGKDD Explorations Newsletter, ACM, v. 2, n. 2, p. 114119, 2000.
BURGESS, E. Factors determining sucess or failure on parole. In: The Working of the
Indeterminant Setence Law and the Parole System in Illinois. [S.l.: s.n.], 1928.
CABENA, P. et al. Discovering Data Mining: From Concepts to Implementation. [S.l.]:
Prentice Hall, 1998.
CAMARGO, E. et al. Mapeamento do risco de homicídio com base na co-krigeagem
binomial e simulação: um estudo de caso para São Paulo, Brasil. Cad. Saúde Pública,
SciELO Public Health, v. 24, n. 7, p. 14931508, 2008.
CANO, I.; SANTOS, W. Violência letal, renda e desigualdade social no Brasil. [S.l.]:
7letras, 2001.
CANTER, P. State of the statistical art: Point pattern analysis. In: Workshop on Crime
Analysis Through Computer Mapping Proceedings. [S.l.: s.n.], 1993.
CARDIA, N. Pesquisa sobre atitudes, normas culturais e valores em relação à violência
em dez capitais brasileiras. [S.l.], 1999.
CASTRO, M. Assassinatos de crianças e adolescentes no Estado de São Paulo. Revista
Crítica de Ciências Sociais, v. 36, p. 81102, 1993.
CECCATO, V. Homicide in Sao Paulo, Brazil: Assessing spatial-temporal and weather
variations. Journal of Environmental Psychology, Elsevier, v. 25, n. 3, p. 307321, 2005.
CHAN, P. K. et al. Distributed data mining in credit card fraud detection. IEEE
Intelligent Systems, IEEE Computer Society, Los Alamitos, CA, USA, v. 14, p. 6774,
1999. ISSN 1094-7167.
CHAPMAN, P. e. a. CRISP-DM 1.0 Step-by-Step Data Mining Guide. 2000.
CHAU, M.; XU, J.; CHEN, H. Extracting meaningful entities from police narrative
reports. In: Procedings of the National Conference for Digital Government Research. Los
Angeles, California, USA: [s.n.], 2002.
CHEN, H. et al. Crime data mining: an overview and case studies. In: DIGITAL
GOVERNMENT SOCIETY OF NORTH AMERICA. Proceedings of the 2003 annual
national conference on Digital government research. [S.l.], 2003. p. 15.
CHEN, H. et al. Crime data mining: A general framework and some examples. Computer,
IEEE Computer Society, Los Alamitos, CA, USA, v. 37, n. 4, p. 5056, 2004. ISSN
0018-9162.
123
CIOS, K. et al. Diagnosing myocardial perfusion from PECT bull's-eye maps-a knowledge
discovery approach. IEEE Engineering in Medicine and Biology Magazine, v. 19, n. 4, p.
1725, 2000.
COELHO, E. A criminalidade urbana violenta. Revista de Ciências Sociais, v. 31, n. 2,
p. 145183, 1988.
COHEN, J. The geography of crime. The Annals of the American Academy of Political
and Social Science, Am Acad Poli Science, v. 217, n. 1, p. 29, 1941.
COHEN, J.; GORR, W.; OLLIGSCHLAEGER, A. Modeling Street-Level Illicit Drug
Markets. In: III School of Public Policy and Management. [S.l.: s.n.], 1993.
COHEN, L.; FELSON, M. Social change and crime rate trends: A routine activity
approach. American Sociological Review, v. 44, p. 588607, 1979.
COHEN, L.; LAND, K. Age structure and crime: symmetry versus asymmetry and the
projection of crime rates through the 1990s. Am, Sociol. Rev., v. 52, p. 170183, 1987.
DEROECK, R. Is there a gap between forecasting theory and practice? A personal view.
International Journal of Forecasting, v. 6, p. 1719, 1991.
DIóGENES, G. Cartograas da cultura e da violência: gangues, galeras e movimento hip
hop. [S.l.]: AnnaBlume, 1998.
DONZIGER. The real war on crime. [S.l.]: Harpers Collins Publishers, 1996.
ESTATISTICA, I. B. de Geograa e. Instituto Brasileiro de Geograa e Estatistica. 2010.
Último acesso em Abril de 2010. Disponível em:
<http://www.ibge.gov.br>.
ETZIONI, O. et al. Unsupervised named-entity extraction from the web: An experimental
study. Articial Intelligence, Elsevier, v. 165, n. 1, p. 91134, 2005.
FAWCETT, T.; PROVOST, F. J. Combining data mining and machine learning for
eective user proling. In: KDD. [S.l.: s.n.], 1996. p. 813.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge
discovery in databases. AI magazine, v. 17, n. 3, p. 3754, 1996.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Knowledge discovery and
data mining: towards a unifying framework. In: Proceedings of the 2nd International
Conference on Knowledge Discovery and Data Mining. Portland, OR: [s.n.], 1996. p.
8288.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for extracting
useful knowledge from volumes of data. Communications of the ACM, ACM, v. 39, n. 11,
p. 2734, 1996.
FAYYAD, U. et al. Advances in Knowledge Discovery and Data Mining. [S.l.]: AAAI
Press, 1996.
FELSON, M.; CLARKE, R. Opportunity makes the thief. [S.l.]: Home Oce, Police
Research Group, 1998.
124
FELSON, M.; POULSEN, E. Simple indicators of crime by time of day. International
Journal of Forecasting, v. 19, p. 595601, 2003.
GARLAND, D. The Culture of control: crime and social order in contemporary society.
[S.l.]: University of Chicago Press, 2001.
GARNER, S. R. Weka: The waikato environment for knowledge analysis. In: In Proc. of
the New Zealand Computer Science Research Students Conference. [S.l.: s.n.], 1995. p.
5764.
GAWRYSZEWSKI, V. P.; COSTA, L. S. Homicídios e desigualdades sociais no município
de São Paulo. Rev. Saúde Pública [online], v. 39, n. 2, p. 191197, 2005.
GLASER, D. Prediction tables as accounting devices for judges and parole boards.
Crime Delinquence, v. 8, n. 3, p. 239250, 1962.
GLUECK, S.; GLUECK, E. 500 Criminal Careers. [S.l.]: Knopf, 1930.
GLYMOUR, C. et al. Statistical Inference and Data Mining. Communications of the
ACM, v. 39, n. 11, p. 3541, 1996.
GOODMAN, L. The use and validity of a prediction instrument. i. a reformulation of
the use of a prediction instrument. Am. J. Sociol., v. 58, p. 501510, 1953.
GOODMAN, L. The validation of prediction. Am. J. Sociol., v. 58, p. 510512, 1953.
GORR, W.; HARRIES, R. Introduction to crime forecasting. International Journal of
Forecasting, Elsevier, v. 19, n. 4, p. 551555, 2003.
GORR, W.; OLLIGSCHLAEGER, A.; THOMPSON, Y. Short-term forecasting of crime.
International Journal of Forecasting, Elsevier, v. 19, n. 4, p. 579594, 2003.
GURR, T. Crime trends in modern democracies since 1945. In: International Annals of
Criminology. [S.l.: s.n.], 1989.
GUYON, I.; ELISSEEFF, A. An introduction to variable and feature selection. The
Journal of Machine Learning Research, MIT Press Cambridge, MA, USA, v. 3, p.
11571182, 2003.
HAND, D.; MANNILA, H.; SMYTH, P. Principles of Data Mining. [S.l.]: MIT Press,
2001.
HAUCK, R. et al. Using coplink to analyze criminal-justice data. IEEE Computer, v. 35,
n. 3, p. 3037, 2002.
HIPP, J. et al. Crimes of Opportunity or Crimes of Emotion-Testing Two Explanations
of Seasonal Change in Crime. Social Forces, HeinOnline, v. 82, p. 13331372, 2003.
HODGE, V.; AUSTIN, J. A survey of outlier detection methodologies. Articial
Intelligence Review, Springer, v. 22, n. 2, p. 85126, 2004.
HORNICK, M. F.; MARCADé, E.; VENKAYALA, S. Java data mining : strategy,
standard, and practice : a practical guide for architecture, design, and implementation.
[S.l.]: Elsevier, 2007.
125
HOSMER, D.; LEMESHOW, S.; MAY, S. Applied survival analysis: regression modeling
of time to event data. 2. ed. [S.l.]: Wiley-Interscience, 2008.
IZUMINO, W. O papel do sistema judiciário na solução dos conitos de gênero. Justiça
e violência contra a mulher, v. 1, 1998.
JENSEN, F. V. An introduction to Bayesian networks. [S.l.]: UCL press London, 1996.
JIE, J. et al. Crime data mining: a general framework and some examples. IEEE
Computer, Citeseer, v. 37, p. 5056, 2004.
JORGE, M. M. Mortalidade por causas violentas no Município de São Paulo. A situação
em 1980. Revista de Saúde Pública, v. 16, p. 1941, 1982.
JUSTIçA,
net.
M.
Último
da.
acesso
Investimentos
em
Julho
Estaduais.
de
2010.
2010.
Inter-
Disponível
em:
<http://portal.mj.gov.br/senasp/data/Pages/MJCF2BAE97ITEMID6CB4BC7A517B4668A5F12EF
KASABOV, N. Foundations of neural networks, fuzzy systems, and knowledge
engineering. [S.l.]: The MIT Press, 1996.
KIANMEHR, K.; ALHAJJ, R. Crime Hot-Spots Prediction Using Support Vector
Machine. In: Computer Systems and Applications, 2006. IEEE International Conference
on. [S.l.: s.n.], 2006. p. 952959.
KIM, K.; HAN, I. Genetic algorithms approach to feature discretization in articial
neural networks for the prediction of stock price index. Expert Systems with Applications,
Elsevier, v. 19, n. 2, p. 125132, 2000.
KLEIMAN, M.; OSTROM, B.; CHEEMAN, F. Using risk assessment to inform setencing
decisions for non-violent oenders in virginia. Crime Delinquence, v. 53, n. 1, p. 127,
2007.
KLOSGEN, W.; ZYTKOW, J. Handbook of Data Mining and Knowledge Discovery.
[S.l.]: Oxford University Press, 2002.
KOHAVI, R.; JOHN, G. Wrappers for feature subset selection. Articial intelligence,
Elsevier, v. 97, n. 1-2, p. 273324, 1997.
KULLBACK, S. Information theory and statistics. [S.l.]: Dover publications Mineola,
MN, 1997.
KULLBACK, S.; LEIBLER, R. On information and suciency. The Annals of
Mathematical Statistics, Institute of Mathematical Statistics, p. 7986, 1951.
KURGAN, L. A.; MUSILEK, P. A survey of Knowledge Discovery and Data Mining
process models. The Knowledge Engineering Review, v. 21, p. 124, 2006.
LANDAU, S.; FRIDMAN, D. The seasonality of violent crime: The case of robbery and
homicide in Israel. Journal of research in crime and delinquency, NCCD, v. 30, n. 2,
p. 163, 1993.
LEVENBACH, H.; CLEARY, J. The Beginning Forecaster. [S.l.]: Lifetime Learning
Publications, 1981.
126
LEVENBACH, H.; CLEARY, J. The Professional Forecaster. [S.l.]: Lifetime Learning
Publications, 1982.
LEVENBACH, H.; CLEARY, J. The Modern Forecaster: The Forecasting Process
Through Analysis. [S.l.]: Lifetime Learning Publications, 1984.
LI, S.-T. et al. A knowledge discovery approach to supporting crime prevention. In:
JCIS-2006 Proceedings. [S.l.: s.n.], 2006.
LING, C.; LI, C. Data mining for direct marketing: Problems and solutions. In:
CITESEER. Proceedings of the Fourth International Conference on Knowledge Discovery
and Data Mining. [S.l.], 1998. p. 7379.
LIPPMANN, R. P. An introduction to computing with neural nets. IEEE ASSP
Magazine, v. 3, n. 4, p. 422, April 1987.
MAHMOUD, E. et al. Bridging the gap between theory and practice in forecasting.
International Journal of Forecasting, v. 8, p. 251267, 1992.
MAKRIDAKIS, S.; WHEELWRIGHT, S. C.; MCGEE, V. E. Forecasting:Methods and
Application. 3 ed. ed. [S.l.]: John Wiley & Sons, 1998.
MCCUE, C. Data Mining and Predictive Analytics: Battlespace Awareness for the War
on Terrorism. Defense Intelligence Journal, v. 13, p. 4763, 2005.
MCCUE, C. Data Mining and Predictive Analytics in Public Safety and Security. IT
Professional, v. 8, p. 1218, 2006.
MCCULLOCH, W.; PITTS, W. A logical calculus of the ideas immanent in nervous
activity. Bulletin of Mathematical Biology, Springer, v. 5, n. 4, p. 115133, 1943.
METRóPOLES, O. das. Observatório das Metrópoles. weka 2010. Internet. Acesso em
Abril de 2010. Disponível em:
<web.observatoriodasmetropoles.net>.
MICHALSKI, R.; CARBONELL, J.; MITCHELL, T. Machine learning: An articial
intelligence approach. [S.l.]: Morgan Kaufmann Pub, 1986.
MICROSYSTEMS, S. Java. Maio 2010. Internet. Última visita em Maio de 2010.
Disponível em:
<http://java.sun.com>.
MITCHELL, M.; BROWN, D.; CONKLIN, J. A Crime Forecasting Tool for the
Web-Based Crime Analysis Toolkit. In: IEEE Systems and Information Engineering
Design Symposium, 2007. SIEDS 2007. [S.l.: s.n.], 2007. p. 15.
NATH, S. Crime pattern detection using data mining. In: 2006 IEEE/WIC/ACM
International Conference on Web Intelligence and Intelligent Agent Technology
Workshops, 2006. WI-IAT 2006 Workshops. [S.l.: s.n.], 2006. p. 4144.
NEWMAN, O. Defensible space - crime prevention through urban design. In: NCJRS.
[S.l.: s.n.], 1972.
NORDESTE, D. do. Assassinatos aumentam 33%. Agosto 2009.
Internet.
Último
acesso
em
junho
de
2010.
Disponível
em:
<http://diariodonordeste.globo.com/materia.asp?codigo=664708>.
127
OATLEY, G.; ZELEZNIKOW, J.; EWART, B. Matching and predicting crimes.
In: SPRINGER VERLAG. Applications and innovations in intelligent systems XII:
proceedings of AI-2004, the twenty-fourth SGAI International Conference on Innovative
Techniques and Applications of Articial Intelligence. [S.l.], 2005. p. 19.
OLLIGSCHLAEGER, A. Articial neural networks and crime mapping. Crime mapping
and crime prevention, v. 1, p. 313347, 1997.
PEQUENO, O. L. R. B. Como Anda Fortaleza. Rio de Janeiro: Carta Capital, 2009.
PEZZIN, L. Criminalidade urbana e crise econômica. [S.l.]: IPE/USP, 1986.
QUINLAN, J. C4. 5: programs for machine learning. [S.l.]: Morgan Kaufmann, 1993.
QUINLAN, J. Improved use of continuous attributes in C 4. 5. Journal of Articial
Intelligence Research, Citeseer, v. 4, n. 1, p. 7790, 1996.
REISS, A. The accuracy, eciency, and validity of a prediction instrument. Am. J.
Sociol., v. 56, p. 552561, 1951.
RIEDMILLER, M.; BRAUN, H. A direct adaptive method for faster backpropagation
learning: The RPROP algorithm. In: SAN FRANCISCO: IEEE. Proceedings of the
IEEE international conference on neural networks. [S.l.], 1993. v. 1993, p. 586591.
ROBERT. Les comptes du crime. [S.l.]: L'Harmattan, 1994.
ROSENBLATT, F. The perceptron: A probabilistic model for information storage and
organization in the brain. Psychological review, v. 65, n. 6, p. 386408, 1958.
SANTOS, J. Tavares dos. A violência na escola:
conitualidade social e ações
civilizatórias. Revista da Faculdade de Educação da USP, v. 27, p. 105122, 2001.
SCHMIDT, P.; WITTE, A. Predicting Recidivism Using Survival Models. [S.l.]:
Springer-Verlag, 1988.
SHEARER, C. The CRISP-DM model: the new blueprint for data mining. Journal of
Data Warehousing, v. 15, n. 4, p. 1319, 2000.
SHERMAN, L.; GARTIN, P.; BUERGER, M. Hot spots of predatory crime: Routine
activities and the criminology of place. Criminology, v. 27, p. 2755, 1989.
SOARES, A. C. L. Pós-Processamento de Regras de Associação com CRISP-DM em
Dados de Ocorrências Policias. Disserta (Mestrado) Mestrado Integrado Prossional
em Computação Aplicada - UECE/CEFET, 2009.
SOARES, G. D. Homicídios no brasil: vários factóides em busca de uma teoria. In:
Meeting of Latin American Studies Association - LASA. [S.l.: s.n.], 2000.
SOARES, L. Violência e política no Rio de Janeiro. [S.l.]: RelumeDumará, 1996.
SORENSER, J.; PILGRIM, R. An acturial risk assessment of violence posed by capital
murder defendants. Journal Crime. Law Criminology, v. 90, p. 12511270, 2000.
SPAGNOL, A. O desejo marginal. São Paulo, 2001.
128
SPóSITO, M. Um breve balanço da pesquisa sobre violência escolar no brasil. Revista da
Faculdade de Educação da USP, v. 27, p. 87103, 2001.
SPSS. Modeler. Maio 2010. Internet. Último acesso em Maio de 2010. Disponível em:
<http://www.spss.com/>.
TANENBAUM, J. B. A Bayesian Framework for Concept Learning. Tese (Doutorado)
Massachusetts Institute of Technology, 1999.
TEAM, J. Java Object Oriented Neural Engine. Maio 2010. Internet. Último acesso em
Maio de 2010. Disponível em:
<http://sourceforge.net/projects/joone/>.
THONGTAE, P.; SRISUK, S. An Analysis of Data Mining Applications in Crime
Domain. In: IEEE 8th International Conference on Computer and Information
Technology Workshops, 2008. CIT Workshops 2008. [S.l.: s.n.], 2008. p. 122126.
VEL, O. de et al. Mining e-mail content for author identication forensics. SIGMOD
Record, v. 30, n. 4, p. 5564, 2001.
VIANA, H. Galeras Cariocas. [S.l.]: Editora da UFRJ, 1996.
WAIKATO, U. of. Waikato Environment for Knowledge Analysis (WEKA). 2010. Última
visita em Maio de 2010. Disponível em:
<www.cs.waikato.ac.nz/ml/weka/>.
WANG, G.; CHEN, H.; ATABAKHSH, H. Automatically detecting deceptive criminal
identities. Communications of the ACM, ACM, New York, NY, USA, v. 47, n. 3, p.
7076, 2004. ISSN 0001-0782.
WEISS, S. I.; KULIKOWSKI, C. Computer Systems That Learn: Classication and
Prediction Methods from Statistics, Neural Networks, Machine Learning and Expert
Systems. [S.l.]: Morgan Kaufmann, 1991.
WIDROW, B.; LEHR, M. 30 years of adaptive neural networks: Perceptron, madaline,
and backpropagation. Proceedings of the IEEE, Citeseer, v. 78, n. 9, p. 14151442, 1990.
WINKLHOFER, H.; DIAMANTOPOULOS, A.; WITT, S. F. Forecasting practice:
a review of the empirical literature and an agenda for future research. International
Journal of Forecasting, v. 12, p. 193221, 1996.
WIRTH, R.; HIPP, J. CRISP-DM: towards a standard process model for data mining.
In: Proceedings of the 4th International Conference on the Practical Applications of
Knowledge Discovery and Data Mining. Manchester, UK: [s.n.], 2000. p. 2939.
WITTEN, I. H.; FRANK, E. Data Mining: pratical machine learning tools and
techniques. 2. ed. [S.l.]: Diane Cerra, 2005. (The Morgan Kaufmann Series in Data
Management Systems).
ZALUAR, A. Condomínio do diabo. [S.l.]: Revan e UFRJ, 1994.
ZHANG, G.; PATUWO, B. E.; HU, M. Y. Forecasting with articial neural networks:
The state of the art. International journal of forecasting, Elsevier, v. 14, n. 1, p. 3562,
1998.