Data mining espacial

Propaganda
COPPE/UFRJ
DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS DE SAÚDE
ATRAVÉS DA INTEGRAÇÃO DE MINERAÇÃO DE DADOS GEOGRÁFICOS E
REDES COMPLEXAS
Fátima Ferrão dos Santos
Tese de Doutorado apresentada ao Programa de Pósgraduação
em
Engenharia
Civil,
COPPE,
da
Universidade Federal do Rio de Janeiro, como parte
dos requisitos necessários à obtenção do título de
Doutor em Engenharia Civil.
Orientador: Nelson Francisco Favilla Ebecken
Rio de Janeiro
Dezembro de 2008
DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS DE SAÚDE
ATRAVÉS DA INTEGRAÇÃO DE MINERAÇÃO DE DADOS GEOGRÁFICOS E
REDES COMPLEXAS
Fátima Ferrão dos Santos
TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ
COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) DA
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS
REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM
CIÊNCIAS EM ENGENHARIA CIVIL.
Aprovada por:
______________________________________________________
Prof. Nelson Francisco Favilla Ebecken, D.Sc.
______________________________________________________
Prof. Beatriz de Souza Leite Pires de Lima, D.Sc.
______________________________________________________
Prof. Alexandre Gonçalves Evsukoff, Dr.
______________________________________________________
Prof. Hélio José Côrrea Barbosa, PhD.
______________________________________________________
Prof. Gilberto Carvalho Pereira, D.Sc.
RIO DE JANEIRO, RJ –BRASIL
DEZEMBRO DE 2008
Santos, Fátima Ferrão
Descoberta de Conhecimento em Banco de Dados de Saúde
através da Integração de Mineração de Dados Geográficos e
Redes Complexas/Fátima Ferrão dos Santos. – Rio de Janeiro:
UFRJ/COPPE, 2008.
XXV, 201 p.: il.; 29,7 cm.
Orientador: Nelson Francisco Favilla Ebecken
Tese (doutorado) – UFRJ/ COPPE/ Programa de
Engenharia Civil, 2008.
Referências Bibliográficas: p. 153-163.
1. Descoberta de Conhecimento. 2. Mineração de dados
geográficos. 3. Redes Complexas. I. Ebecken, Nelson Francisco
Favilla. II. Universidade Federal do Rio de Janeiro, COPPE,
Programa de Engenharia Civil. III. Titulo.
iii
Ao Marcos, Camila e Cintia.
iv
AGRADECIMENTOS A
Camila e Cintia, minhas filhas, pela compreensão e pelas inúmeras horas em que estive
ausente;
Minha família, pelo apoio e paciência;
Aristóteles (i.m.) e Léa, meus pais, pelo incentivo;
Márcia Ferlim, minha querida amiga, pelo carinho e incentivo constante.
Luiz Pereira Calôba, pela dedicação em disciplinas de Redes Neurais Artificiais, que
muito me ajudou e motivou, meu agradecimento especial;
Christovam Barcellos, pesquisador da Fiocruz, e Kátia Valente, da Secretaria Municipal
de Saúde DST-AIDS, por disponibilizar o banco de dados;
Thelmo
Fernandes
e
Orlando
Caldas,
pelo
suporte
do
Laboratório
da
COPPE/Engenharia Civil.
Egna, secretária e toda a equipe da secretaria da COPPE/Engenharia Civil, pela ajuda,
sempre que solicitada.
CAPES, pelo suporte financeiro que viabilizou a realização desta tese.
Alexandre Evsukoff e Nelson Francisco Favilla Ebecken, professores da COPPE/UFRJ,
que apresentaram com rigor e entusiasmo as disciplinas necessárias ao desenvolvimento
desta tese;
Este último, Nelson Francisco Favilla Ebecken, meu orientador, um agradecimento
especial pela dedicação e paciência na orientação do trabalho; sempre atencioso, muito
me motivou para que fosse concluído.
v
Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários
para a obtenção do grau de Doutor em Ciências (D.Sc.)
DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS DE SAÚDE
ATRAVÉS DA INTEGRAÇÃO DE MINERAÇÃO DE DADOS GEOGRÁFICOS E
REDES COMPLEXAS
Fátima Ferrão dos Santos
Dezembro/2008
Orientador: Nelson Francisco Favilla Ebecken
Programa: Engenharia Civil
Esta tese se concentra no desenvolvimento de descoberta de conhecimento em
um banco de dados de saúde, exclusivamente da epidemia pelo vírus HIV, por meio da
integração de mineração de dados geográficos e redes complexas. O presente trabalho é
composto de três partes distintas. A primeira parte apresenta uma proposta de medida de
dependência espacial, denominada índice de influência espacial. Dependência espacial é
o impacto que a variação na localização espacial causa na variação dos atributos, ou
seja, é a medida de como os atributos são dependentes do espaço geográfico. A segunda
parte apresenta a aplicação do índice nas tarefas de mineração de dados
geográficos. Com base nos resultados obtidos com as tarefas de mineração de dados, as
fases de evolução da epidemia são identificadas. Essa parte apresenta também a
modelagem espaço-temporal e a predição da evolução da epidemia com óbito.
Finalmente, a terceira parte integra os conhecimentos obtidos usando a abordagem de
redes complexas.
vi
Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Doctor of Science (D.Sc.)
KNOWLEDGE DISCOVERY ON HEALTH DATABASES BASED ON THE
INTEGRATION OF GEOGRAPHIC DATA MINING AND COMPLEX NETWORKS
Fátima Ferrão dos Santos
December/2008
Advisor: Nelson Francisco Favilla Ebecken
Department: Civil Engineering
This thesis focuses the development of knowledge discovery in a health database,
particularly for HIV virus epidemics, through the integration of geographic data mining
and complex networks. The present work comprises three different sections. First, a
proposal for spatial dependence measure called Spatial Influence Index is presented.
Spatial dependence is a measure of the impact caused by a modification in the spatial
localization on attribute modification, thus, it measures how attributes are dependent of
the geographical space. The second section presents the application of the Index to
geographical data mining tasks. The stages of the epidemics evolution are identified
based on the results of those data mining tasks. This section also presents a spatiotemporal modeling and a forecast of the evolution of the epidemics with death. Finally
the obtained knowledge is integrated using the complex network approach.
vii
SUMÁRIO
CAPÍTULO 1 .................................................................................................................. 1
INTRODUÇÃO .............................................................................................................. 1
1.1
Introdução .......................................................................................................... 1
1.2
Motivação .......................................................................................................... 2
1.3
Objetivo ............................................................................................................. 3
1.4
Contribuição....................................................................................................... 3
1.5
Contexto ............................................................................................................. 4
1.6
Organização do Trabalho ................................................................................... 5
CAPÍTULO 2 .................................................................................................................. 8
REVISÃO BIBLIOGRÁFICA ...................................................................................... 8
2.1
Introdução .......................................................................................................... 8
2.2
Descoberta de Conhecimento em Bancos de Dados (KDD) ............................. 8
2.2.1
Mineração de Dados ........................................................................................... 9
2.2.2
Perspectivas do Processo de Descoberta do Conhecimento ............................. 10
2.2.3
KDD: Revisão Bibliográfica ............................................................................ 11
2.3
Sistema de Informações Geográficas (SIG) ..................................................... 13
2.3.1
Espaço Absoluto: Geo-campo e Geo-objeto .................................................... 13
2.3.2
SIG: Revisão Bibliográfica .............................................................................. 15
2.4
Visualizacao Geográfica .................................................................................. 15
2.4.1
Visualização Geográfica: Revisão Bibliográfica ............................................. 16
2.5
Redes Complexas ............................................................................................. 17
2.5.1
Redes Complexas: Revisão Bibliográfica ........................................................ 18
2.6
A Epidemia pelo Vírus HIV ............................................................................ 20
2.6.1
A Epidemia pelo Vírus HIV: Revisão Bibliográfica ........................................ 21
2.7
Resumo ............................................................................................................ 21
CAPÍTULO 3 ................................................................................................................ 22
PROPOSTA DE METODOLOGIA PARA DEFINIÇÃO DE PRIORIDADES .... 22
3.1
Introdução ........................................................................................................ 22
viii
3.2
Objetivo ........................................................................................................... 22
3.3
Conceitos ......................................................................................................... 22
3.3.1
Sistema ............................................................................................................. 22
3.3.2
Sistemas Complexos......................................................................................... 23
3.3.3
Redes Complexas ............................................................................................. 24
3.4
Sistemas, Software e Dados ............................................................................. 24
3.5
Metodologia ..................................................................................................... 26
3.5.1
Nível Conceitual ............................................................................................... 27
3.5.1.1
Definição de Prioridades e Objetivos ................................................ 28
3.5.2
Nível Estrutural ................................................................................................ 32
3.5.3
Nível de Implantação........................................................................................ 34
3.5.4
Nível Ontológico .............................................................................................. 34
3.6
Método para Definição de Variáveis Relevantes ............................................. 34
3.7
Resumo ............................................................................................................ 36
CAPÍTULO 4 ................................................................................................................ 37
PROPOSTA DE ÍNDICE DE INFLUÊNCIA ESPACIAL ...................................... 37
4.1
Introdução ........................................................................................................ 37
4.2
Objetivo ........................................................................................................... 37
4.3
Sistemas, Software e Dados ............................................................................. 38
4.4
Conceitos ......................................................................................................... 38
4.4.1
Matriz de Proximidade ..................................................................................... 38
4.4.2
Índice Global de Autocorrelação Espacial ....................................................... 39
4.5
Proposta de Índice de Influência Espacial ....................................................... 41
4.5.1
Cálculo do Índice de Influência Espacial ......................................................... 42
4.5.2
Índice de Influência Espacial Global................................................................ 45
4.5.3
Análise de Tendência Espacial ......................................................................... 45
4.5.4
Implantação do Índice de Influência Espacial .................................................. 46
4.5.5
Exemplo de Aplicação do IF ............................................................................ 47
ix
4.6
Resumo ............................................................................................................ 50
CAPÍTULO 5 ................................................................................................................ 51
APLICAÇÃO DO ÍNDICE EM TAREFAS DE MINERAÇÃO DE DADOS ........ 51
5.1
Introdução ........................................................................................................ 51
5.2
Objetivo ........................................................................................................... 52
5.3
Sistemas, Software e Dados ............................................................................. 52
5.4
Conceitos ......................................................................................................... 53
5.4.1
Classificação de Redes Neurais Artificiais ...................................................... 53
5.4.2
Mapas Auto-Organizáveis ................................................................................ 53
5.4.3
Avaliação de qualidade do Mapa Auto-Organizável ....................................... 55
5.4.4
Visualização do Mapa Auto-Organizável ........................................................ 55
5.4.5
Definição do número de clusters ...................................................................... 57
5.5
Aplicação do IF em Tarefas de Mineração de Dados ...................................... 59
5.6
Resultados dos Agrupamentos de Dados ......................................................... 59
5.6.1
Taxa de Crescimento da Contaminação ........................................................... 59
5.6.2
Indices Econômico-sociais, Taxa de Contaminação e IF ................................. 61
5.6.3
Categoria de Exposição .................................................................................... 63
5.6.4
Razão de Sexos................................................................................................. 69
5.6.5
Nível de escolaridade ....................................................................................... 71
5.6.6
Resultados Obtidos com o Agrupamento de Dados ......................................... 73
5.7
Resumo ............................................................................................................ 73
CAPÍTULO 6 ................................................................................................................ 75
ANÁLISE DA EPIDEMIA PELO VIRUS HIV ........................................................ 75
6.1
Introdução ........................................................................................................ 75
6.2
Objetivo ........................................................................................................... 75
6.3
Sistemas, Software e Dados ............................................................................. 75
6.4
Conceitos ......................................................................................................... 76
6.4.1
Espaço .............................................................................................................. 76
x
6.4.2
Séries Temporais .............................................................................................. 77
6.5
Primeiro Objetivo: Identificação das Fases da Epidemia ................................ 77
6.5.1
Metodologia...................................................................................................... 77
6.5.2
Proposta de Utilização do IF para Segmentação das Fases da Epidemia ......... 79
6.5.3
Identificação da Direção de Proliferação da Epidemia .................................... 80
6.5.4
Resultados obtidos............................................................................................ 81
6.6
Segundo Objetivo: Predição da Evolução da Doença com Óbito ................... 82
6.6.1
Análise de Séries Temporais ............................................................................ 82
6.6.2
Análise no Domínio do Tempo ........................................................................ 83
6.6.2.1
Autocorrelação de uma Série Temporal ............................................ 83
6.6.2.2
Correlação Cruzada entre Séries Temporais ..................................... 84
6.6.3
Análise no Domínio da Frequência .................................................................. 84
6.6.4
Decomposição Clássica de Séries Temporais .................................................. 85
6.6.5
Resultados obtidos............................................................................................ 85
6.6.5.1
Predição da Série de Óbitos: Primeiro Modelo ................................. 85
6.6.5.2
Predição da Série de Óbitos: Segundo Modelo ................................. 90
6.7
Terceiro Objetivo: Modelagem Espaço-Temporal .......................................... 96
6.8
Resumo ............................................................................................................ 98
CAPÍTULO 7 ................................................................................................................ 99
ANALISE DA EPIDEMIA COM A ABORDAGEM DE REDES COMPLEXAS 99
7.1
Introdução ........................................................................................................ 99
7.2
Objetivo ......................................................................................................... 100
7.3
Sistemas, Software e Dados ........................................................................... 100
7.4
Conceitos ....................................................................................................... 100
7.4.1
Cálculo, Medidas de Estrutura da Rede e Visualização ................................. 100
7.4.2
Redução da Rede ............................................................................................ 101
7.4.2.1
7.4.3
Visão Global .................................................................................... 102
Vetores e Partições ......................................................................................... 103
xi
7.4.4
Medidas de Centralidade ................................................................................ 105
7.4.5
Coesão da Rede, Densidade e Conectividade ................................................ 106
7.4.6
A força das Conexões Fracas ......................................................................... 108
7.4.7
K-Cores .......................................................................................................... 108
7.4.8
Centralidade de uma rede ............................................................................... 108
7.4.8.1
7.4.9
Rede em Estrela ............................................................................... 108
Distância e Caminho ...................................................................................... 110
7.4.9.1
Proximidade da Centralidade .......................................................... 113
7.4.10
Intermediação ................................................................................................. 114
7.4.11
Pontes ............................................................................................................. 115
7.4.12
Rede-ego e Conceito de Restrição.................................................................. 117
7.4.12.1
Rede-ego.......................................................................................... 119
7.5
Objetivo ......................................................................................................... 122
7.5.1
Primeiro Objetivo: Difusão da Epidemia ....................................................... 122
7.5.1.1
Contágio .......................................................................................... 122
7.5.1.2
Exposição e Limiar.......................................................................... 123
7.5.1.3
Relação entre a Densidade e o Tempo de Difusão .......................... 133
7.5.2
Segundo Objetivo: Definição da Massa Crítica ............................................. 134
7.6
Resultados Obtidos ........................................................................................ 136
7.7
Resumo .......................................................................................................... 137
CAPÍTULO 8 .............................................................................................................. 139
PROPOSTA DE MEDIDA DE INTERAÇÃO ESPACIAL ................................... 139
8.1
Introdução ...................................................................................................... 139
8.2
Objetivo ......................................................................................................... 139
8.3
Sistemas, Software e Dados ........................................................................... 140
8.4
Medida de Interação Espacial ........................................................................ 140
8.4.1
Cálculo da Interação Espacial ........................................................................ 141
8.5
Resultados obtidos ......................................................................................... 141
xii
8.6
Resumo .......................................................................................................... 146
CAPÍTULO 9 .............................................................................................................. 148
CONSIDERAÇÕES FINAIS ..................................................................................... 148
9.1
Conclusões ..................................................................................................... 148
9.2
Trabalhos Futuros .......................................................................................... 152
REFERÊNCIAS BIBLIOGRÁFICAS ..................................................................... 153
ANEXO A - Agrupamento de Bairros por Área e Índices Econômico-sociais ..... 164
ANEXO B - Agrupamento de Bairros por Índices Econômico-Sociais ................. 165
ANEXO C - Agrupamento de Bairros por Índices Econômico-Sociais (Parte 2) . 166
ANEXO D - Agrupamento de Bairros por Indices Econômicos-sociais (Parte 3) 167
ANEXO E - Tabelas de Medidas de Centralidade por Bairro ............................... 168
ANEXO F - Algoritmo Cálculo de Tendência Espacial .......................................... 170
ANEXO G - Indicadores Econômico-sociais ........................................................... 173
ANEXO H - Mapa da Estrutura da Rede Complexa de Bairros. .......................... 174
ANEXO I - Mapa de Valores de Grau (número de conexões) da Rede ................. 176
ANEXO J - Mapa de Valores de Centralidade de Bairros ..................................... 177
ANEXO K - Mapa de Valores de Restrição Agregada da Rede de Bairros. ........ 178
ANEXO L - Mapa de Valores de Densidade Egocêntrica da Rede de Bairros ..... 179
ANEXO M - Mapa de Valores de Limiar da Rede de Bairros ............................... 180
ANEXO N - Dicionário de Dados. ............................................................................ .181
xiii
LISTA DE FIGURAS
Figura 2.1a Geo-campo (INPE)
14
Figura 2.1b Geo-objeto: análise da saúde segundo a renda familiar,
14
município do Rio de Janeiro.
Figura 3.1 Infra-estrutura de dados
32
Figura 4.1. Medida de proximidade baseada no compartilhamento do lado do
38
polígono
Figura 4.2 Eixo de coordenadas com origem no centróide de O1 usado no
42
cálculo da direção de O2 em relação a O1
Figura 4.3 Índice de influência espacial
44
Figura 4.4 Mapa temático de taxa de notificações de AIDS por bairro, 1997,
44
município do Rio de Janeiro
Figura 4.5 Linhas imaginárias de direções-padrão a partir do polígono central
45
Figura 4.6 Valores observados e preditos pela RNA com IF na camada de
49
entrada
Figura 4.7 Valores observados e preditos pela RNA sem o IF na camada de
49
entrada
Figura 5.1 Modelo de neurônio j, com entrada xk e saída f (J)
51
Figura 5.2a Imagem fatiada usando estimador de densidade Kernel para o
56
atributo total de ocorrências de aids por setor censitário, visualização software
Spring, 2005, município do Rio de Janeiro.
Figura 5.2b. Estrutura do mapa auto-organizável de notificações de aids por
56
setor censitário, após cem épocas de treinamento da rede SOM bidimensional
20 x 40, desenvolvido no Matlab, 2005, município do Rio de Janeiro.
Figura 5.3. Cálculo dos valores dx, dy e dz da U-matriz, visualização software
xiv
57
Statistica.
Figura 5.4a Índice Calinski-Harabasz calculado para os dados originais.
58
Figura 5.4b Índice Calinski-Harabasz calculado para os vetores resultantes da
58
rede SOM.
Figura 5.5 Resultado do agrupamento de dados de bairros por taxa de
59
crescimento da epidemia, visualização software Statistica, 1982 a 2005,
município do Rio de Janeiro.
Figura 5.6 Taxa de contaminação por bairro, 1982 a 1992, município do Rio
60
de Janeiro.
Figura 5.7 Resultado do agrupamento de bairros com atributo IF, visualização
60
software Spring, 1982 a 2005, município do Rio de Janeiro.
Figura 5.8 Valor do IF por bairro, 1982 a 1999, município do Rio de Janeiro.
61
Figura 5.9 Agrupamentos de bairros (principais agrupamentos) com vetor de
62
características composto pelos atributos IF, taxa de contaminação e índices
econômico-sociais.
Figura 5.10 Agrupamento de bairros com vetor de características composto
63
pelos atributos IF, taxa de contaminação e índices econômico-sociais,
visualização software Spring.
Figura 5.11 Total de casos de aids por categoria de exposição, 1982 a 2005,
64
município do Rio de Janeiro.
Figura 5.12a Notificações de aids em homossexuais, 1982 a 1985, município
65
do Rio de Janeiro.
Figura 5.12b Notificações de aids em heterossexuais, 1982 a 1985, município
66
do Rio de Janeiro.
Figura 5.12c Notificações de aids em homossexuais, 1982 a 1988, município
do Rio de Janeiro.
xv
66
Figura 5.12d Notificações de aids em heterossexuais, 1982 a 1988, município
67
do Rio de Janeiro.
Figura 5.12e Notificações de aids em homossexuais, 1982 a 1999, município
67
do Rio de Janeiro.
Figura 5.12f Notificações de aids em heterossexuais, 1982 a 1999, município
68
do Rio de Janeiro.
Figura 5.13 Percentual de homens e mulheres, 1982 a 2005, município do Rio
69
de Janeiro.
Figura 5.14 Razão de sexos, 1982 a 2005, município do Rio de Janeiro.
69
Figura 5.15a Percentual de homens contaminados vivos por bairro, 2005,
70
município do Rio de Janeiro.
Figura 5.15b Percentual de mulheres contaminadas vivas do bairro, 2005,
71
município do Rio de Janeiro.
Figura 5.16 Anos de estudo de pacientes com notificações de aids, 1982 a
72
1999, município do Rio de Janeiro.
Figura 5.17 Percentual de chefes de família do bairro com renda de até dois
72
salários mínimos, 2005, município do Rio de Janeiro.
Figura 6.1 Valores percentuais em relação ao total de casos e em relação à
76
população do bairro, 1982 a 2005, [ principais bairros ], município do Rio de
Janeiro.
Figura 6.2 Bairros com dez maiores variações do IF, 1982 a 1999, município
77
do Rio de Janeiro.
Figura 6.3 Dendrograma e gráfico de bairros, taxa da população contaminada
78
pelo vírus HIV e IF, por bairro, 1983, município do Rio de Janeiro.
Figura 6.4 Dendrograma e gráfico de bairros, taxa da população contaminada
xvi
79
pelo vírus HIV e IF, 1984, município do Rio de Janeiro.
Figura 6.5a Taxa de contaminação da aids por bairro, 1988, município do Rio
81
de Janeiro e retas na direção 90º e 225º a partir do centróide de Copacabana.
Figura 6.5b Taxa de contaminação da aids por bairro, 1999, município do Rio
81
de Janeiro e retas na direção 90º e 225º a partir do centróide de Copacabana..
Figura 6.6 Prevalência de IFd por fase, município do Rio de Janeiro.
82
Figura 6.7a Série de óbitos normalizada, 1985 a 2005, município do Rio de
86
Janeiro.
Figura 6.7b Série de óbitos normalizada, sem tendência e sem sazonalidade,
86
1985 a 2005, município do Rio de Janeiro.
Figura 6.8 Espectograma da série de óbitos, obtido por intermédio da FFT.
87
Figura 6.9 Espectograma da série de óbitos após a retirada das freqüências
87
dominantes.
Figura 6.10 Série residual sem ciclos senoidais.
88
Figura 6.11 Função de autocorrelação da série residual.
88
Figura 6.12 Função de autocorrelação parcial da série residual.
89
Figura 6.13 Período de teste, série real e previsão.
90
Figura 6.14 Série de óbitos e série de pacientes com escolaridade de um a três
91
anos, após a retirada de tendência e da sazonalidade, 1985 a 2005, município
do Rio de Janeiro.
Figura 6.15 Séries de óbitos e CD+4 inferior a 350 células/mm3, após a
91
retirada de tendência e sazonalizadade, 1985 a 2005, município do Rio de
Janeiro.
Figura 6.16a Correlação cruzada entre a série de óbitos e série de pacientes
com escolaridade de um a três anos, 1985 a 2005, município do Rio de Janeiro
xvii
92
Figura 6.16b Correlação cruzada entre a série de óbitos e série de pacientes na
92
faixa etária de 35 a 39 anos, após a retirada de tendência e da sazonalidade,
1985 a 2005, município do Rio de Janeiro
Figura 6.16c Correlação cruzada entre a série de óbitos e série de pacientes na
93
faixa etária de 30 a 34 anos, após a retirada de tendência e da sazonalidade,
1985 a 2005.
Figura 6.16d Correlação cruzada entre a série de óbitos e série de notificações
93
de aids, após a retirada de tendência e da sazonalidade, 1985 a 2005.
Figura 6.17 Valores observados e previstos, visualização Statistica.
Figura 7.1a Rede reduzida de bairros e unidades, visão global, 1982 a 1999,
96
102
município do Rio de Janeiro.
Figura 7.1b Rede reduzida de bairros e unidades, visão contextual, 1982 a
103
1999, município do Rio de Janeiro.
Figura 7.2a Análise estatística Crame’s V e Rajski entre taxas de
104
contaminação de homossexuais por bairro, software Pajek, 1992 e 1999,
município do Rio de Janeiro.
Figura 7.2b Rede formada por unidades hospitalares utilizadas e bairros de
106
residência dos pacientes contaminados pelo vírus HIV, 1985, município do
Rio de Janeiro, visualização com NetDraw.
Figura 7.3 Distribuição de freqüência de bairros por número de conexões,
107
município do Rio de Janeiro.
Figura 7.4 Valor de k-core por bairro, município do Rio de Janeiro.
109
Figura 7.5 Rede estrela de pacientes que residem no município do Rio de
110
Janeiro e que realizaram diagnóstico de infecção pelo vírus HIV em outro
município, 1982 a 2005.
xviii
Figura 7.6 Cronologia de notificações de aids, 1982 a 1985, município do Rio
112
de Janeiro.
Figura 7.7 Centralidade do bairro, 2005, município do Rio de Janeiro.
114
Figura 7.8 Bi-componentes e vértices-corte, 2005, município do Rio de
116
Janeiro.
Figura 7.9 Tríade incompleta.
117
Figura 7.10 Exemplo de rede.
118
Figura 7.11 Valores de restrição agregada de bairros, município do Rio de
121
Janeiro.
Figura 7.12 Valores de densidade egocêntrica de bairros, município do Rio de
122
Janeiro.
Figura 7.13 Curva de contágio (bairros com notificações), 1982 a 1996,
123
município do Rio de Janeiro.
Figura 7.14 Rede de bairros por ordem de contaminação e valor de exposição,
125
1984, município do Rio de Janeiro.
Figura 7.15 Limiar médio e freqüência acumulada de bairros com o primeira
127
notificação de aids no ano, 1982 a 1993, município do Rio de Janeiro.
Figura 7.16 Rede de bairros com ocorrência da epidemia, 1982 a 1985,
130
município do Rio de Janeiro.
Figura 7.17 Rede de bairros com ocorrência da epidemia, 1982 a 1987,
130
município do Rio de Janeiro.
Figura 7.18 Rede de bairros, 1982 a 1987, município do Rio de Janeiro.
xix
131
Figura 7.19 Medida de intermediação da rede de bairros contaminados
131
representada pelo tamanho do vértice, 1982 a 1985, município do Rio de
Janeiro.
Figura 7.20 Medida de intermediação da rede de bairros contaminados
132
representada pelo tamanho do vértice, 1982 a 1987, município do Rio de
Janeiro.
Figura 7.21 Medida de intermediação da rede de bairros contaminados
132
(tamanho do vértice) e a taxa de contaminação do período seguinte 1992 (cor),
1982 a 1987, município do Rio de Janeiro.
Figura 7.22 Valor de limiar por vértice da rede de bairros, município do Rio de
133
Janeiro.
Figura 8.1 Gráfico Bipartite, de interação entre bairro-unidade, sem considerar
140
o tempo.
Figura 8.2 Total de pares bairro-unidade (eixo y) que compartilham
142
exatamente Pc pacientes (eixo x).
Figura 8.3 Distância média dos pares (eixo y) que compartilham Pc pacientes
142
(eixo x).
Figura 8.4 Medida de Interação Espacial – IE (eixo y) que compartilham Pc
143
pacientes (eixo x).
Figura 8.5a Rede de bairros e unidades hospitalares, 1985, município do Rio
145
de Janeiro, visualização com NetDraw.
Figura 8.5b Rede de bairros e unidades hospitalares, 1988, município do Rio
xx
145
de Janeiro, visualização com NetDraw.
Figura 8.6 Total de interações entre bairros (lista parcial) e respectivas
146
unidades hospitalares de saúde, 1985 a 2005, município do Rio de Janeiro.
Figura 8.7 Unidade de saúde mais utilizada por bairro, a tonalidade cinza
representa uma unidade hospitalar, 1982 a 2005, município do Rio de Janeiro.
xxi
146
LISTA DE TABELAS
Tabela 4.1 Estrutura de árvore com informações de relação espacial por objeto
46
Tabela 4.2. Seleção de polígonos com a relação espacial de direção e distância
47
Tabela 4.3a Resultados da RNA de predição da taxa de contaminação por
48
bairro com IF
Tabela 4.3b Resultados da RNA de predição da taxa de contaminação por
49
bairro sem IF
Tabela 5.1 Atributos econômico-sociais de um dos agrupamentos.
62
Tabela 5.2 Resultado do agrupamento de dados por categoria [somente o
64
agrupamento com os maiores valores], períodos de 1982 até 1985 e 1986 até
1988, município do Rio de Janeiro.
Tabela 5.4 Resultado do agrupamento de bairros por categoria de exposição
68
[somente o agrupamento com os maiores valores], valor máximo por categoria,
1982 a 2005, município do Rio de Janeiro.
Tabela 5.5 Tabela de bairros com maiores reduções da razão de sexos, 1989 e
70
1999.
Tabela 5.6 Bairros com maior percentual de pacientes com escolaridade de 8 a
72
11 anos.
Tabela 6.1 Índice de Influência Espacial por direção-padrão, 1988 e 1999.
80
Tabela 6.2 Espectro cruzado entre as séries de óbitos e de escolaridade de um a
94
três anos.
Tabela 6.3 Espectro cruzado entre as séries de óbitos e de escolaridade de1 a 3
94
anos.
Tabela 6.4 Erros de treinamento e verificação da RNA MLP de 3 camadas.
xxii
95
Tabela 6.5 Resultado parcial da RNA para predição da taxa de contaminação
97
para cinco bairros.
Tabela 7.1 Distribuição de freqüência de distância (total de vértices) entre uma
112
notificação de aids e a anterior, 1982 a 1985, município do Rio de Janeiro.
Tabela 7.2. Tabela comparativa de limiar médio e freqüência acumulada de
127
bairros com o primeira notificação de aids no ano, 1982 a 1992, município do
Rio de Janeiro.
Tabela 7.3 Bairros com os maiores valores de limiar e respectiva taxa de
contaminação no ano da primeira ocorrência de aids.
xxiii
129
LISTA DE SÍMBOLOS
d
dimensão do vetor de características xk
dij
distância entre os neurônios i e j
du
distância calculada a partir dos valores dx, dy e dz
dx
distância entre o vetor de código de um neurônio e o seu vizinho à direita
dy
distância entre o vetor de código de um neurônio e o seu vizinho abaixo
dz
distância entre o vetor de código de um neurônio e o seu vizinho na diagonal
Eq
erro de quantização vetorial
I
espaço de entrada da rede neural SOM
kj
j-ésimo componente do vetor xk, j = 1, ..., d
m
dimensão horizontal da rede neural SOM
n
dimensão vertical da rede neural SOM
O
polígono ou objeto (geo-objeto)
U
espaço de saída da rede neural SOM
W
matriz de proximidade
wij
elementos da matriz de proximidade
wj
vetor de código ou pesos do neurônio j
x, y
coordenadas geodésicas relativas ao centróide do polígono (área)
xk
vetor de características da rede neural SOM k = 1, ..., n
xxiv
LISTA DE SIGLAS E ABREVIATURAS
AIDS
síndrome de imunodeficiência humana adquirida.
BMU
neurônio vencedor na fase competitiva da RNA, do termo em inglês Best
Match Unit.
DALY
anos de vida saudável perdidos por morte prematura, deficiência ou
incapacidade.
EVA
exploratory visual analisys.
FFT
Fast Fourier Transform
GPS
sistema de posicionamento global, do termo em inglês Global
Positioning System.
HIV
vírus da imunodeficiência humana adquirida
IBGE
Instituto Brasileiro de Geografia e Estatística.
IF
índice de influência espacial local.
IFd
índice de influência espacial direção d.
INPE
Instituto Nacional de Pesquisa Espacial.
KDD
descoberta de conhecimento em bases de dados, do termo em inglês,
knowledge discovery in databases.
MLP
rede de múltiplas camadas, do termo em inglês Multi-Layer Perceptron.
OMS
Organização Mundial de Saúde.
PAJEK
software livre de análise exploratória de redes sociais.
RNA
rede neural artificial.
SIG
sistema de informações geográficas.
SOM
mapa auto-organizável do termo em inglês, Self-Organizing Map.
SPRING
software livre de manipulação de banco de dados geográficos
desenvolvido pelo INPE.
SQL
linguagem de manipulação do termo em inglês, Structured Query
Language.
SWOT
análise dos pontos fortes e fracos, das oportunidades e ameaças, do termo
em inglês, strentghs, weakness, opportunities and threats.
UDI
usuário de drogas injetáveis (categoria de exposição)
xxv
CAPÍTULO 1
INTRODUÇÃO
1.1 Introdução
O cálculo infinitesimal funciona tornando visível o que é infinitamente pequeno. Sem
ele, não há como compreender o que mantém o avião no ar. O que faz com que objetos
caiam no chão quando os largamos é a gravidade. Mas são as equações newtonianas do
movimento e da mecânica que nos permitem ver as forças invisíveis, que fazem que
uma maçã caia da árvore até o chão.
A Descoberta de Conhecimento em Bases de Dados torna visível os padrões existentes
em grandes volumes de dados. O desenvolvimento de tecnologias, como a internet e os
sistemas de informação em geral, prescinde do desenvolvimento de ferramentas que
auxiliem o homem na tarefa de analisar, interpretar e relacionar esses dados,
transformando-os em conhecimento útil e viabilizando o desenvolvimento de estratégias
de ação.
Inúmeras pesquisas têm comprovado a importância da informação no fortalecimento da
competitividade e no sucesso de empresas. A habilidade de identificarem-se riscos e
oportunidades de negócio torna-se mais complexa em razão da abundância de dados e,
principalmente, da rapidez do fluxo de informações. Esta pesquisa se posiciona neste
contexto: analisar grandes volumes de dados, sempre com o foco no negócio da
empresa.
Na área de saúde pública o foco deveria ser a redução dos índices de
morbidade e mortalidade da população.
A descoberta de conhecimento em bases de dados é definida como a busca efetiva por
conhecimentos úteis e novos. Esse processo é usualmente denominado KDD, do inglês,
knowledge discovery in databases.
KDD é um processo, de várias etapas, não trivial, interativo e iterativo, para
identificação de padrões compreensíveis, válidos, novos e potencialmente úteis
a partir de grandes conjuntos de dados (FAYYAD et. al., 1996).
1
Esta pesquisa propõe-se a ampliar o conceito de novo. Considerou-se todo o
conhecimento útil, ainda que não necessariamente desconhecido. Consoante com essa
proposta, o conhecimento prévio que foi analisado por uma nova abordagem e que,
como conseqüência, criou suposições ou simplesmente ampliou o conhecimento sobre o
objeto estudado, foi considerado tão importante como o conhecimento novo.
Nesse sentido, a descoberta de conhecimento em bases de dados deve ser conceituada
como a busca por padrões que propiciem o desenvolvimento ou a competitividade de
uma empresa. O aumento da competitividade ocorre devido à informação adquirida que
auxiliará na identificação de riscos e oportunidades e no conhecimento dos pontos fortes
e fracos do negócio. Na área de saúde, a competitividade poderia ser medida por
intermédio da redução das taxas de mortalidade e morbidade.
Buscaram-se relacionar todos os dados ao espaço geográfico, por meio da mineração de
dados espaciais. Segundo AGRAWAL (1994), a principal diferença entre a mineração
de dados convencional e a espacial é que a primeira utiliza números e categorias, e a
segunda, além de números e categorias, utiliza linhas, polígonos e pontos, o que a torna
mais complexa. Além disso, a mineração de dados clássica faz uso de dados explícitos,
e atributos espaciais sempre são implícitos. Finalmente, na mineração de dados clássica,
cada entrada de dados é independente das demais, e padrões espaciais sempre possuem
alta correlação entre atributos de vizinhança e proximidade.
1.2 Motivação
A mineração de dados geográficos integrada a redes complexas introduz novos desafios
e problemas. A principal motivação da pesquisa baseou-se na necessidade crescente de
técnicas de mineração de dados específicas para dados espaciais. Essa necessidade é
explicada pela disponibilidade de dados de satélites e de mapas urbanos digitais de
cidades, além da ampliação da coleta de dados com uso de sistemas GPS (global
positioning systems). O desenvolvimento de tecnologias possibilita armazenar grandes
volumes de dados. No entanto, a capacidade de analisar estes dados, transformando-os
em conhecimento útil é muito inferior à capacidade de produção e armazenamento.
2
1.3 Objetivo
O objetivo principal é realizar a descoberta de conhecimento em uma base de dados de
notificações de contaminação pelo vírus HIV.
Os objetivos mais específicos são:
 Propor uma medida de dependência espacial.
 Aplicar a proposta na análise da epidemia pelo vírus HIV, no município do Rio de
Janeiro.
 Integrar os resultados da mineração de dados geográficos usando redes complexas.
1.4 Contribuição
A principal contribuição desta pesquisa são os resultados da descoberta de
conhecimento em bases de dados propriamente ditas, ou seja, são os resultados obtidos
com as tarefas de mineração de dados na base de dados de notificações da epidemia
pelo vírus HIV.
A descoberta de conhecimento é complexa porque nos obriga a pensar sobre como
objetos e relacionamentos podem ser identificados e representados e como padrões até
então desconhecidos podem ser descobertos em grandes bases de dados. Não há uma
técnica, mas diversas técnicas que, usadas pelo especialista da área, podem resultar em
conhecimento novo e útil.
A proposta de realizar a descoberta de conhecimento, integrando-se tarefas de
mineração de dados geográficos e redes complexas é mais uma contribuição. Ressaltese ainda, o índice de influência espacial proposto e utilizado nas tarefas de mineração
de dados geográficos.
A proposta não possui paralelo na literatura pesquisada.
3
1.5 Contexto
A definição estática da Organização Mundial da Saúde (OMS) que definia a saúde
como o estado de completo bem-estar foi superada. Nas definições atuais, ela é
dependente da dinâmica social e de políticas econômicas e culturais. Assim sendo, os
níveis de padrão sanitário dependem muito mais de políticas econômicas, sociais e de
aspectos culturais do que da intervenção da medicina propriamente dita. A idéia de que
a saúde relaciona-se com as condições ambientais e de vida da população é muito
antiga. Entretanto, somente a partir do desenvolvimento da medicina social, nos séculos
XVIII e XIX, pesquisas sistemáticas deram subsídios a essa tese. Estudos como
Mortalidade Diferencial na França, realizado por Villermé, são citados na reconstituição
da história da saúde pública, mostrando a íntima relação entre a questão social, a
degradação ambiental e os indicadores negativos de saúde.
Em 1986, na conferência de Otawa, foi definido o conceito do que se considera
promoção de saúde. O documento A New Perspective on the Health of Canadians
(LALONDE, 1978), conhecido como Informe Lalonde, posiciona a questão da saúde
com base em uma perspectiva sociopolítica, técnica, econômica e médica por
intermédio dos chamados determinantes da saúde de um povo: condições e estilos de
vida, situação ambiental, desenvolvimento da biologia e organização da assistência à
saúde.
A Lei 8080/1990, que regulamentou o capítulo da Constituição Federal de 1988,
referente à saúde da população brasileira, relaciona, de forma inequívoca, os níveis de
saúde à organização social e econômica do País.
Pelos motivos expostos, observou-se a oportunidade de utilizarem-se representações
computacionais mais adequadas para capturar conhecimento sobre saúde. SIGs
oferecem um conjunto de estruturas de dados e algoritmos capazes de representar a
grande diversidade de concepções do espaço.
4
1.6 Organização do Trabalho
O presente trabalho é composto de três partes distintas. A primeira parte apresenta o
objetivo, os conceitos e uma proposta de medida de dependência espacial, denominada
índice de influência espacial. Dependência espacial é o impacto que a variação na
localização espacial causa na variação dos atributos, ou seja, é a medida de como os
atributos são dependentes do espaço geográfico.
Esta parte é composta por quatro
capítulos.
A segunda parte, composta pelos capítulos cinco e seis, apresenta a aplicação do índice
nas tarefas de mineração de dados geográficos, grande parte delas realizada
intermédio de Mapas Auto-Organizáveis (KOHONEN, 2001).
por
Com base nos
resultados obtidos com as tarefas de mineração de dados geográficos, foram
identificadas as fases de evolução da epidemia. Esta parte inclui dois modelos para
predição da evolução da epidemia com óbito. Apresenta também uma modelagem
espaço-temporal.
Finalmente, a terceira parte integra os conhecimentos obtidos usando a abordagem de
redes complexas, sendo composta pelos capítulos sete, oito e nove.
O presente capítulo apresenta a proposta, o objetivo e a contribuição da pesquisa. Os
conceitos necessários ao entendimento do capítulo, quando houver, são apresentados em
tópico especifico. O tópico Sistemas, Software e Dados assim como o tópico Resumo
são repetidos em cada capítulo.
No segundo capítulo, os principais conceitos sobre KDD, SIG, visualização geográfica e
redes sociais, essenciais para o entendimento deste trabalho, são apresentados de forma
sucinta.
O terceiro capítulo apresenta uma proposta de metodologia para KDD.
Esta
metodologia se propõe a integrar a abordagem tradicional, conforme a proposta por
FAYYAD et. al. (1996) à abordagem estratégica com foco na identificação de riscos e
oportunidades, pontos fortes e fracos, conforme proposto PORTER (1989) e KAPLAN
5
(2004). A metodologia propõe que a descoberta de conhecimento seja executada em
três fases: conceitual, estrutural e de implantação. A metodologia proposta foi aplicada
no presente trabalho.
O quarto capítulo apresenta uma proposta de medida de dependência espacial,
denominada índice de influência espacial. Dependência espacial é a medida de como os
atributos são dependentes do espaço geográfico.
Uma aplicação do índice é
apresentada, por intermédio de uma tarefa de mineração de dados, cujo objetivo é
realizar a predição da taxa de contaminação de um bairro, baseada nas respectivas taxas
dos bairros vizinhos. Demonstrou-se que a consideração do índice proposto nesta
tarefa, reduziu o erro associado à predição.
O quinto capítulo apresenta uma aplicação do índice de influência espacial como
medida de conectividade, com o objetivo de segmentar as fases de evolução da
epidemia. Nessa fase da pesquisa, o objetivo principal foi identificar padrões através
dos agrupamentos de dados. Os resultados comprovaram que a epidemia é o resultado
de elementos tão heterogêneos como condições econômicas, condições sanitárias,
parceiro sexual e nível social, citando somente alguns.
O sexto capítulo apresenta a análise da evolução da epidemia pelo vírus HIV. Apresenta
uma aplicação do índice de influência espacial como medida de conectividade, com o
objetivo de segmentar as fases de evolução da epidemia.
Apresenta ainda, o
desenvolvimento de dois modelos para predição da evolução da aids com fechamento
óbito e uma modelagem espaço-temporal.
No sétimo capítulo, a epidemia é analisada com a abordagem de redes complexas. Os
padrões identificados, resultantes da mineração de dados geográficos, serão analisados
com essa abordagem. O capítulo apresenta a influência da estrutura da rede formada na
difusão da epidemia e o momento da formação da massa critica na evolução da
epidemia.
O oitavo capítulo apresenta uma proposta para analisar o movimento dos pacientes
entre bairros e unidades hospitalares de saúde.
Esse estudo contribuiu para a
compreensão da epidemia. Definiu-se um critério de interação espacial baseado no total
6
de ocorrências comuns ao par formado pelo bairro e unidade hospitalar. A análise
indicou uma forte correlação entre bairro-unidade e espaço geográfico, conforme
esperado. Outras análises e conclusões são apresentadas.
O nono capítulo é a conclusão. Não existe uma explicação puramente técnica ou uma
determinação social que justifique o desenvolvimento da epidemia. O conhecimento
das redes, das relações complexas que as formam e das interações operadas nos levará a
compreender, um pouco mais, a epidemia.
O estudo buscou entender as muitas traduções do desenvolvimento da epidemia pelo
vírus HIV. A mais expressiva tradução, operada pelos atores dessa rede complexa, foi a
necessidade de ações mais ofensivas ao combate, tratando desigualmente os bairros do
município. O estudo tenta provar que ações específicas, com foco nas regiões com as
maiores taxas de contaminação, podem criar condições para melhoria em relação aos
índices atuais de contaminação da população do município do Rio de Janeiro.
7
CAPÍTULO 2
REVISÃO BIBLIOGRÁFICA
2.1 Introdução
O presente capítulo apresenta a revisão bibliográfica das principais áreas abordadas.
Entretanto, não há a pretensão de aprofundar os assuntos. Nesse caso, as referências
apresentadas na revisão bibliográfica de cada tema podem ser úteis. O objetivo do
capítulo é apresentar os principais conceitos e, principalmente, como a pesquisa se
beneficiou dos mesmos.
2.2 Descoberta de Conhecimento em Bancos de Dados (KDD)
O desenvolvimento da descoberta de conhecimento em bases de dados coincide com a
viabilização de grandes bases de dados.
A complexidade do processo KDD está na
dificuldade em perceber e interpretar corretamente inúmeros fatos observáveis e, na
dificuldade em conjugar dinamicamente tais interpretações, tornando-as úteis ao
processo de decisão. KDD refere-se às etapas que produzem conhecimentos a partir de
dados relacionados e sua principal característica é a extração não trivial de informações
implicitamente contidas em uma base de dados.
Os objetivos compreendem as características esperadas do modelo de conhecimento a
ser produzido ao final do processo. Tais objetivos retratam, portanto, restrições e
expectativas dos especialistas acerca do modelo de conhecimento a ser gerado e podem
ser classificados em dois grupos: (1) verificação e (2) descoberta.
A verificação
objetiva comprovar uma hipótese do usuário. Na descoberta, objetiva-se encontrar
novos padrões.
descrição.
A descoberta de padrões, por sua vez, se divide em predição ou
Na predição, os padrões são usados para prever o comportamento de
determinado fenômeno do mundo real. Na descrição, os padrões são usados na tentativa
de descrever esse fenômeno através de um modelo.
8
O processo KDD é interativo e iterativo, envolvendo várias etapas, nas quais algumas
decisões são feitas pelo usuário. Diferentes abordagens para o desenvolvimento do
processo foram apresentadas. FAYYAD et. al. (1996) propôs o desenvolvimento em
nove etapas:
1.
Desenvolvimento do conhecimento sobre o problema e os objetivos do usuário;
2.
Definição dos dados que serão utilizados no processo de
descoberta de
conhecimento;
3.
Limpeza dos dados e pré-processamento;
4.
Redução e transformação dos dados;
5.
Definição da tarefa de mineração de dados;
6.
Escolha do algoritmo de mineração de dados;
7.
Mineração de dados: regras de associação, regressão, agrupamento de dados, etc.
8.
Avaliação dos resultados;
9.
Consolidação do conhecimento descoberto, incorporação desse conhecimento
nos respectivos processos ou sistemas ou, simplesmente, documentar e transmitir esse
conhecimento aos usuários do sistema.
Apesar da proposta de FAYYAD et. al. (1996) aparentemente sugerir um processo
seqüencial, o processo KDD é circular. Ao longo do processo, o modelo é avaliado com
relação ao cumprimento das expectativas definidas.
Os resultados finais obtidos
compreendem fundamentalmente o modelo de conhecimento descoberto. A expressão
modelo de conhecimento indica qualquer abstração de conhecimento, expresso em
alguma linguagem, que descreve algum conjunto de dados (FAYYAD et. al., 1996).
2.2.1 Mineração de Dados
A descoberta de padrões em dados tem recebido diversas denominações incluindo
mineração de dados, extração de conhecimento, processamento de padrões e outras.
Historicamente, o termo mineração de dados tem sido utilizado para a análise
exploratória de dados quando não existe uma hipótese “a priori” a ser validada
(FAYYAD et. al, 1996). Na visão atual, mineração de dados é a denominação de uma
9
das etapas do processo KDD e refere-se à aplicação de algoritmos sobre os dados para a
descoberta de padrões.
O processo KDD evoluiu a partir de áreas de pesquisa como aprendizado de máquina,
reconhecimento de padrões, estatística, inteligência artificial, computação de alto
desempenho e visualização de dados, entre outras. Usualmente KDD utiliza essas
técnicas, em uma etapa do processo denominada mineração de dados. Isso distingue
KDD de áreas de pesquisa a partir das quais ele evoluiu. A escolha da técnica de
mineração de dados a ser utilizado depende da tarefa de descoberta do conhecimento a
ser realizada. Tarefas típicas de mineração de dados são descoberta de associações,
agrupamento de dados, classificação, sumarização e predição.
RAINSFORD e RODDICK (1999) apresentam significativas abordagens sobre
mineração de dados.
2.2.2 Perspectivas do Processo de Descoberta do Conhecimento
Segundo RAMAKRISHMAN e GRAMA (1999) a construção do conhecimento do
processo KDD ocorre em quatro perspectivas: indução, compreensão, consulta e
aproximação.
A indução é a perspectiva mais comum, tendo sua origem na inteligência artificial (IA)
e no conceito de aprendizagem por exemplos (machine learning). HUNT et al. (1996)
foi um dos primeiros pesquisadores a estudar o conceito de aprendizagem por exemplos,
utilizando árvores de decisão para realizar operações de classificação. Recentemente,
CAI et al. (1991): HAN e FU (1995) implementaram algoritmos que utilizam esse
conceito em operações de bancos de dados. Basicamente, um algoritmo de indução
baseia-se na generalização e sumarização dos relacionamentos entre atributos de um
conjunto de dados. O principal objetivo da indução é extrair regras genéricas dos dados
e identificar irregularidades. Vários autores, como HAN et al. (1996) e WANG et al.
(1997) têm pesquisado métodos de indução com objetivo de extrair generalizações de
dados espaciais.
10
A perspectiva da compreensão orienta a seleção de um modelo em mineração de dados.
Um modelo é considerado bom quando utiliza qualquer variável, relacionamento ou
comportamento relevante e ignora os irrelevantes. Um modelo deve capturar a essência
do conhecimento do objeto de estudo buscando a simplicidade.
Na perspectiva denominada consulta, a construção do conhecimento ocorre através de
consultas convencionais às bases de dados. Grande parte dos sistemas gerenciadores de
bancos de dados não é adequada ao processo de descoberta de conhecimento.
Entretanto, vários esforços têm sido realizados para adequar as linguagens de consulta,
como o SQL, às necessidades das tarefas de KDD. Um exemplo é a abordagem que
utiliza regras de semântica para formular uma consulta, como as propostas de HSU e
KNOBLOCK (1996); SHEKKAR et. al. (1993); SIEGEL (1998) e a abordagem FOIL
QUINLAN (1990).
Finalmente, a perspectiva de aproximação baseia-se no conhecimento prévio de um
modelo. A pesquisa do esquema (de dados) de um banco de dados, a fim de encontrar
conhecimento útil e até então desconhecido, é um exemplo. Outro exemplo é a matriz
de aproximação linear utilizada para identificar padrões em textos sem utilizar a busca
por palavras-chave, conhecida por Latent Semantic Indexing e patenteada por Bellcore.
2.2.3 KDD: Revisão Bibliográfica
Pesquisas sobre o processo KDD e mineração de dados são inúmeras, como as
propostas de FAYYAD et. al. (1996) e MATHEUS et. al. (1993), entre outros. Uma
revisão de ferramentas e softwares utilizados no processo KDD e na tarefa de mineração
de dados foi apresentada por GOEBEL e GRUENWALD (1999).
Propostas para a
tarefa de redução dos dados foram apresentadas por REINARTZ (1999).
Uma das principais tarefas de mineração de dados, o agrupamento de dados consiste em
separar os registros de uma base de dados em agrupamentos (usualmente referenciados
pela palavra em inglês cluster) de tal forma que os elementos de um agrupamento
compartilhem de propriedades comuns. Diferente da tarefa de classificação, que utiliza
rótulos predefinidos, o agrupamento de dados precisa automaticamente identificar os
11
grupos de dados (FAYYAD et. al. 1996). A análise de cluster é uma técnica utilizada
para identificar as relações existentes entre um número de variáveis com o objetivo de
explicar um conjunto de fenômenos.
Essa técnica permite retirar uma extraordinária
quantidade de informações e conhecer a existência de certos padrões nos dados.
A análise de cluster estuda os componentes das variáveis, identificando dimensões
abstratas, classificando os dados, unindo-os pelas semelhanças ou pelas diferenças. A
maioria dos métodos de agrupamento utiliza métodos de particionamento, como Kmeans, no qual o usuário define alguns parâmetros e a quantidade de grupos (k-clusters)
nos quais os registros serão distribuídos. Algoritmos apropriados realizam o cálculo de
distâncias entre os elementos de dados, visando identificar o centróide e estabelecer os
limites que formam o agrupamento ao redor do centróide.
A qualidade do resultado do agrupamento também depende da medida utilizada pelo
método para calcular a similaridade, além de sua habilidade de descobrir algum ou
todos os padrões escondidos. Alguns exemplos de agrupamento de dados que utilizam
regras de similaridade são: Clustering Applications based upon randomized Search
(CLARANS) em NG e HAN (1994) e Balanced Iterative Reducing and Clustering
(BIRCH) em ZHANG et. al. (1996). Duas extensões do CLARANS (ESTER et. al.
1995) são Spatial Dominant Algorithm (SD-CLARANS) e Non-spatial Dominant
Algorithm (DSD-CLARANS) para dados espaciais e não espaciais respectivamente.
A classificação examina rótulos ou categorias predefinidas, separando os dados de
acordo com critérios, modelos e regras. Muitos algoritmos de classificação baseiam-se
em métodos estatísticos como distribuição de probabilidade, matrizes de correlação de
coeficientes e formulação de hipóteses para extrair classes de um conjunto de dados.
algoritmos de classificação ID3 e C4.5 foram apresentados por QUILAN (1986) e
(1993) e árvore de classificação e regressão (CART) por BREIMAN et. al. (1984).
A descoberta de regras de associação abrange a identificação de itens que
freqüentemente ocorrem de forma simultânea em transações de bancos de dados. É um
tipo especial de análise de dependência, conforme apresentado por AGRAWAL et. al.
(1996).
12
A generalização consiste em encontrar uma descrição concisa dos dados. O objetivo é
prover múltiplas perspectivas dos dados, permitindo a identificação de características
que existem somente em algum nível conceitual (nível de abstração). A generalização
apresenta características similares à generalização utilizada em cartografia.
Os
sistemas DBMiner (HAN et. al. 1996) e GeoMiner (HAN et. al., 1997) são exemplos de
sistemas de descoberta de conhecimento em bases de dados que realizam a tarefa de
generalização.
2.3 Sistema de Informações Geográficas (SIG)
O termo sistema de informação geográfica (SIG) é aplicado para sistemas que realizam
o tratamento computacional de dados geográficos. A principal diferença de um SIG para
um sistema de informação convencional é sua capacidade de armazenar tanto os
atributos não espaciais como as geometrias dos diferentes tipos de dados geográficos.
Um importante conceito é a distinção entre espaço absoluto e espaço relativo. Espaço
absoluto, também chamado cartesiano, é um conjunto de coisas e eventos, uma estrutura
para localizar pontos, trajetórias e objetos. Espaço relativo é o espaço constituído pelas
relações espaciais entre coisas.
Uma das escolhas básicas que fazemos na modelagem dos fenômenos geográficos é
definir se utilizaremos representações no espaço absoluto ou no espaço relativo. Esta
escolha depende primordialmente do tipo de análise desejada.
Relações de
conectividade como “Qual é a mortalidade por epidemia do vírus HIV de meus
vizinhos?” requerem a representação no espaço relativo.
No presente trabalho, as
relações de conectividade foram consideradas, assim como as questões da álgebra de
mapas, utilizada para responder perguntas como: “Que áreas possuem contaminação
superior a 25% e renda familiar inferior a dois salários mínimos?”, nesse caso,
utilizando-se o espaço absoluto.
2.3.1 Espaço Absoluto: Geo-campo e Geo-objeto
Existem dois modelos formais para entidades geográficos no espaço absoluto: geocampos e geo-objetos. O modelo de geo-campos enxerga o espaço geográfico como
13
uma superfície contínua, sobre a qual variam os fenômenos a serem observados. Por
exemplo, um mapa de vegetação associa a cada ponto do mapa um tipo específico de
cobertura vegetal. O modelo de geo-objetos representa o espaço geográfico como uma
coleção de entidades distintas, onde cada entidade é definida por uma fronteira fechada.
O geo-objeto é uma entidade geográfica singular e indivisível, caracterizada por sua
identidade, suas fronteiras, e seus atributos. Um geo-objeto é uma relação [id, a1,...an,
G], onde id é um identificador único, G é um conjunto de partições 2D conexas e
distintas {R1,...,Rn} do espaço
,, e ai são os valores dos atributos A1,...,An.
2
As Figuras 2.1a e 2.1b representam, respectivamente, um geo-campo (uma imagem da
cidade do Rio de Janeiro) e um conjunto de geo-objetos (os bairros dessa cidade). A
variável associada à imagem da Figura 2.1a é a reflectância do solo, medida pelo sensor
óptico do satélite. Os geo-objetos associados aos bairros do Rio de Janeiro são
apresentados numa gradação de tons de cinza, cuja intensidade é proporcional à renda
familiar na Figura 2.1b (SANTOS, F.F. e EBECKEN, N.F.F, 2006).
Figura 2.1a Geo-campo (INPE)
Figura 2.1b Geo-objeto: análise da saúde segundo
renda familiar, município do Rio de Janeiro.
A diferença essencial entre um geo-campo e um geo-objeto é o papel da fronteira. A
fronteira de um geo-campo é uma divisão arbitrária relacionada apenas com a
capacidade de medição. Na figura acima, os limites da imagem correspondem apenas a
eventuais limitações do instrumento sensor e não do fenômeno medido. Assim, o geocampo pode ser divido em partes e ainda assim manter sua propriedade essencial (que é
14
sua função de atributo). Por outro lado, um geo-objeto é essencialmente definido por
sua fronteira, que o separa do mundo exterior. O geo-objeto não pode ser dividido e
manter suas propriedades essenciais. Dentro da fronteira, todas as propriedades do geoobjeto são constantes. É bastante comum lidarmos com um conjunto de geo-objetos que
representam uma partição consistente do espaço; isto é, os recobrimentos espaciais
destes objetos não se interceptam e eles possuem o mesmo conjunto de atributos. Estas
características fazem com que possamos agrupar estes objetos numa coleção.
Uma coleção de geo-objetos é a relação [id, o1,...on, A1,..., An], onde id é um
identificador único, e o1,...on são geo-objetos que possuem os atributos A1,..., An.
Usualmente, se Ri for a região geográfica associada a oi, temos Ri
Rj = ∅,
i
j
.
Deste modo, uma coleção reúne geo-objetos cujas fronteiras não se interceptam, e têm o
mesmo conjunto de atributos. O uso de coleções de geo-objetos é bastante freqüente em
bancos de dados geográficos, pois é muito conveniente tratar geo-objetos similares de
forma consistente. Na presente pesquisa, utilizaram-se os termos polígono e objeto para
denominar geo-objetos.
2.3.2 SIG: Revisão Bibliográfica
As pesquisas desenvolvidas para integração e análise dos dados aqui denominados geo
referenciados, tem surgido em áreas tradicionais, como métodos estatísticos, assim
como Inteligência Artificial, citando DRUCK et. al. (2004) e CASANOVA et. al.
(2005).
2.4 Visualizacao Geográfica
O termo visualização geográfica refere-se à apresentação de geometrias dos diferentes
tipos de dados geográficos para a exploração de dados, geração de hipóteses, solução de
problemas e descoberta de conhecimento (MacEACHEREN, 2000).
Constitui um
processo de pesquisa e “rastreamento” que envolve o pensamento cognitivo e a
descoberta de conhecimento através da interação homem-máquina. A visualização
geográfica é utilizada em inúmeras disciplinas sendo mais conhecida na cartografia.
15
Os mecanismos de visualização devem oferecer suporte para apreensão cognitiva dos
aspectos relevantes dos dados pesquisados (MacEACHEREN, 2004). A construção de
conhecimento ocorre através da interação com uma ou várias representações visuais.
Toda representação visual influencia a forma como interpretamos e analisamos os dados
e, conseqüentemente, a construção do conhecimento.
Diferentes técnicas de
representação visual possibilitam diferentes formas de construção do conhecimento
através dos diferentes estágios do processo.
Assim sendo, é crucial o uso de
representação visual apropriada à construção do conhecimento.
Cada SIG possui
características que o distingue dos demais. Além disso, os usuários do sistema usam
suas idiossincrasias, experiências, conhecimento e habilidades pessoais na construção
do conhecimento o que torna sua implementação uma tarefa difícil e complexa.
2.4.1 Visualização Geográfica: Revisão Bibliográfica
O uso da visualização geográfica na análise exploratória de dados, análise de dados,
mineração de dados e descoberta de conhecimento tem origem no trabalho pioneiro de
ASIMOV (1985), CHERNOFF (1978), HASLETT et. al. (1990), TUKEY(1977) e
TUFTE (1990), baseada na premissa que “mapas descrevem dados” e em BERTIN
(1985), MACKINLAY (1986), TRIESMAN (1986) que, com outros pesquisadores,
estudaram variáveis visuais, como forma e posição, e como essas variáveis podem ser
usadas na construção de mapas.
O termo Exploratory Visual Analysis (EVA) foi criado por estatísticos para descrever
métodos exploratórios que se baseiam no domínio visual. Recentemente, ferramentas
de visualização que auxiliam as atividades de mineração de dados foram propostas por
(KEIM e KRIEGEL, 1996; LEE e ONG, 1996) que criaram o termo Visual Data
Mining (VDM).
MacEACHREN et. al. (1999) iniciou a pesquisa de métodos de
descoberta de conhecimento baseado em exploração visual. As diferenças entre EVA e
VDM são sutis. EVA tende a ser mais interativo, baseando-se na percepção do usuário,
sem o controle rígido do formato de dados.
De forma contrária, o VDM utiliza
algoritmos específicos para encontrar padrões a partir das características numéricas dos
dados e de teorias estatísticas, reconhecimento de padrões e aprendizagem de máquina.
VDM tende a ser usado em grandes bases de dados. EVA tende a ser mais utilizado em
16
arquivos com grande dimensão de atributos, porém, com pequena quantidade de
instâncias.
RIBARSKY et. al. (1999) integrou as vantagens das duas abordagens para explorar
dados temporais e introduziu o termo Discovery Visualization para enfatizar a
importância da visualização na interação homem-máquina. A visualização geográfica
recebeu diferentes denominações. Na comunidade de banco de dados a denominação
mais utilizada é Visual Datamining (RIBARSKY et. al., 1999), enquanto o termo
Exploratory Visual Analysis ou Exploratory Data Analysis são mais utilizados por
estatísticos como TUKEY (1977), CHERNOFF (1978) ASIMOV(1985). Na geografia,
o termo mais utilizado é Exploratory Spatial Data Analysis.
Ferramentas para auxiliar a mineração de dados baseadas na visualização geográfica
foram desenvolvidas por LEE e ONG (1996) e KEIM e KRIEGEL (1996). Alguns
métodos de visualização geográfica para a descoberta de conhecimento foram propostos
por MacEACHREN et. al. (1999) e HAN et. al. (1999).
Uma visão geral da
geoinformação sob o ponto de vista de sistemas foi apresentada por WORBOYS e
DUCKHAM (2004).
DRUCK et.
al. (2004) apresentou uma discussão sobre as
questões de análise espacial de dados geográficos e CASANOVA et. al. (2005) sobre
banco de dados geográficos.
2.5 Redes Complexas
A pesquisa de Redes Complexas baseia-se na teoria de grafos. Alguns conceitos como
arco e linha de conexão são importantes. Uma linha pode ser direcionada ou não
direcionada. Uma linha direcionada chama-se arco, enquanto uma linha não direcionada
chama-se linha de conexão. Usualmente, em redes complexas, uma escolha é
representada por arcos (com direção), porque uma escolha nem sempre é recíproca.
Como exemplo, na análise da epidemia do vírus HIV, utilizaram-se os conceitos de
redes complexas para identificar a relação entre bairros. Assim sendo, a relação entre
um paciente que assiste em um bairro e freqüenta uma unidade hospitalar de outro
bairro, não implica na existência da conexão em sentido contrário.
17
Um grafo direto ou dígrafo contém um ou mais arcos. Uma relação que não é
direcionada (pacientes com vírus HIV da mesma família) é representada por uma linha
de conexão porque ambos os indivíduos estão igualmente envolvidos na relação. Um
grafo não direcionado não contém arcos: todas suas linhas são linhas de conexão.
Formalmente, um arco é um par de vértices ordenados onde o primeiro vértice é o
emissor (o final do arco) e o segundo o receptor do vínculo (a cabeça do arco). Um arco
aponta de um emissor para um receptor. Em contrapartida, uma linha de conexão, que
não tem direção é representada por um par desordenado. Não tem importância qual
vértice é primeiro ou segundo no par. Deve ser observado, porém, que uma linha de
conexão equivale, geralmente, a um arco bidirecional.
A rede de pacientes e unidades de saúde possui linhas múltiplas porque o mesmo
paciente pode utilizar inúmeras unidades de saúde. Entretanto, quando um grafo é
simples, significa que não possui linhas múltiplas. Além disso, um grafo simples não
direcionado não contém laços (arco para o próprio vértice), enquanto os laços são
permitidos num grafo simples direcionado.
Finalmente, uma rede consiste de um grafo e informações adicionais nos vértices ou
linhas do grafo. Os valores de linha geralmente indicam a força de uma relação. A
informação adicional é irrelevante para a estrutura da rede, porque a estrutura depende
do padrão de vínculos.
2.5.1 Redes Complexas: Revisão Bibliográfica
A teoria das redes tem origem com o matemático Euler, responsável pelas primeiras
pesquisas nessa área e pela teoria dos grafos. O grafo é um conjunto de nós, conectados
por arestas que, em conjunto, formam uma rede. Na sociologia, a teoria dos grafos é
uma das bases do estudo das redes sociais, ancorado na Análise Estrutural, proveniente
das décadas de 60 e 70. A análise das redes sociais parte de duas grandes visões do
objeto de estudo: as redes internas e as redes personalizadas. O primeiro aspecto é
focado na relação estrutural da rede com o grupo social – as redes são assinaturas de
identidade social, o padrão de relações do indivíduo mapeia as preferências e as
18
características dos próprios envolvidos na rede. O segundo aspecto diz que o papel de
um indivíduo poderia ser compreendido não apenas através dos grupos – redes – a que
ele pertence, mas também através das posições que ele tem dentro dessas redes. A
análise estrutural das redes complexas baseia-se na interação como primado
fundamental do estabelecimento das relações entre os agentes humanos, que originarão
as redes complexas.
A partir de Euler, destacaram-se Rényi e Erdös, matemáticos, que foram responsáveis
pelo modelo de grafos randômicos, que pretendia explicar como se formariam as redes
complexas. Nesse modelo de Rényi e Erdös, os nós se conectariam aleatoriamente (por
isso a formação dos grafos seria randômica) e as redes seriam igualitárias, pois todos os
nós que as formavam deveriam ter mais ou menos a mesma quantidade de conexões, e a
mesma chance de receber novas conexões.
MILGRAM (1969) realizou experimento para observar o grau de separação entre as
pessoas: cartas enviadas aleatoriamente a vários indivíduos, solicitando que eles a
enviassem a um alvo específico que, caso não conhecessem, deveria ser acionado
através de outra pessoa. Após a chegada das cartas, concluiu-se que as pessoas estariam
a poucos graus de separação umas das outras. Por isso, a denominação de Mundo
Pequeno. Esse modelo pode ser especialmente aplicado às redes sociais: cada indivíduo
tem amigos e conhecidos em todo o mundo, que por sua vez, conhecem outras pessoas.
Sendo assim, as pessoas estariam conectadas por poucos graus de separação.
GRANOVETTER (1973) apresentou os conceitos de laços fracos e de laços fortes.
Segundo o autor, os laços fracos são mais importantes que os laços fortes na
manutenção da rede, pois conectariam grupos diversos, dando aos grupos características
de rede. As redes complexas apresentam padrões altamente conectados, tendendo a
formar pequenas quantidades de conexões entre cada indivíduo. Modelo semelhante ao
de ERDOS e RÉNYI (1960): laços estabelecidos entre pessoas próximas, além dos
laços estabelecidos aleatoriamente entre alguns nós transformariam a rede num mundo.
Assim sendo, a distância média entre duas pessoas no mundo não ultrapassaria um
número pequeno de pessoas, bastando que existissem entre os grupos alguns laços
aleatórios.
19
Modelo das Redes sem Escalas foi proposto por BARABÁSI (2002), que faz críticas
aos modelos de Erdös e Rényi. O autor discorda da concepção de que, nas redes
complexas, as conexões entre os vértices são estabelecidas de modo aleatório. Segundo
Barabási, há uma ordem na dinâmica de estruturação das redes, sendo alguns nós
altamente conectados, diferentemente dos demais, com poucas conexões. Os nós ricos,
denominados hubs ou conectores tendem a receber sempre mais conexões.
Inúmeras pesquisas sobre redes complexas têm sido desenvolvidas, como os de NOOY
et. al. (2005).
2.6 A Epidemia pelo Vírus HIV
A disseminação do vírus da aids começou há cerca de 100 anos, no antigo Congo Belga,
hoje República Democrática do Congo, na África, conforme relatado na revista Nature
(setembro, 2008), em artigo assinado por pesquisadores da Universidade do Arizona,
nos Estados Unidos. Eles conseguiram determinar quando e de onde partiu o vírus por
meio da comparação genética das duas amostras mais antigas de HIV existentes, dos
anos de 1959 e 1960. A pesquisa concluiu que as amostras se originaram em um
mesmo hospedeiro humano, que teria vivido entre 1884 e 1924. A teoria mais aceita é
a de que o vírus HIV surgiu a partir do vírus SIV, encontrado no sistema imunológico
de chimpanzés e macacos-verdes. O SIV é um vírus altamente mutante que não faz mal
nenhum a esses animais. Entretanto, ao entrar em contato com o organismo humano,
ele sofreu uma mutação e se transformou no HIV.
O mais provável é que essa
contaminação tenha ocorrida através do hábito comum na África, de comer macacos. A
partir do Congo, o vírus atingiu os Estados Unidos por meio de um único infectado, em
1969. Há relatos médicos a partir desse período sobre o aparecimento inexplicável de
doenças como o sarcoma de Karposi, um tipo raro de câncer de pele, e pneumonia,
principalmente entre homossexuais. Em 1981, a aids adquiriu contornos de epidemia e
foi identificada formalmente como doença.
Dois anos depois, o HIV foi isolado.
Calcula-se que existam mais de quarenta milhões de pessoas contaminadas no mundo.
20
2.6.1 A Epidemia pelo Vírus HIV: Revisão Bibliográfica
Inúmeras pesquisas sobre a epidemia da aids foram realizadas, conforme bibliografia
pesquisada.
Entretanto, as pesquisas abordam a análise estatística, como as de
SCWARCWALD et. al. (2000), que analisou a disseminação da epidemia no Brasil,
no período de 1987 a 1996. MATTOS (1999) apresenta uma abordagem sobre as
políticas públicas sobre a aids no Brasil. A pesquisa de MANN e TARANTOLA
(1996) apresenta a análise da aids no mundo.
Não foi encontrada na bibliografia
pesquisada, estudo que utilize a descoberta de conhecimento em bases de dados sobre a
epidemia pelo vírus HIV, assim como sobre qualquer vírus.
2.7 Resumo
O capítulo apresentou brevemente os principais conceitos que são usados na pesquisa.
Entretanto, não faz parte do escopo, abordar complemente os conhecimentos sobre as
distintas áreas que dão suporte à pesquisa. Nesse caso, as referências apresentadas são
suficientes para introduzir o conhecimento sobre os assuntos.
A pesquisa se propõe a realizar a Descoberta de Conhecimento em Bases de Dados
(KDD) em um banco de dados de saúde, mais especificamente sobre a epidemia pelo
vírus HIV no município do Rio de Janeiro. Para atingir esse objetivo, propõe-se realizar
a descoberta de conhecimento em bases de dados através da mineração de dados
geográficos e redes complexas.
Diferentes termos têm sido utilizados nessas áreas de pesquisa. O termo
Geocomputação descreve o uso de técnicas computacionais no auxílio à solução de
problemas em geografia (GAHEGAN, 1999) e como técnicas para revelar padrões
escondidos em grandes bases de dados geográficas. Inclui ainda a análise estatística
espacial, visualização de dados geoespaciais, modelos dinâmicos de interação espacial,
entre outros. Por outro lado, diferentes propostas de Descoberta de Conhecimento em
Base de Dados (KDD) espaço-temporal têm sido apresentadas contemplando desde a
visualização geográfica dos dados até algoritmos completos, conforme bibliografia
apresentada por RODDICK e SPILLIOPOULOU (1999).
21
CAPÍTULO 3
PROPOSTA DE METODOLOGIA PARA DEFINIÇÃO DE PRIORIDADES
3.1 Introdução
Este capítulo apresenta uma proposta de metodologia para definição de prioridades e
objetivos da descoberta de conhecimento em bases de dados. Essa metodologia se
propõe a integrar a abordagem tradicional a uma abordagem estratégica. A metodologia
não se propõe a substituir a proposta de FAYYAD et. al. (1996), mas a complementá-la.
O capítulo divide-se nos seguintes tópicos: 2. Objetivo; 3. Conceito; 4. Sistemas,
Software e Dados; 5. Metodologia; e 6. Resumo.
3.2 Objetivo
Tem-se como objetivo apresentar uma metodologia para definição de prioridades da
descoberta de conhecimento em bases de dados. A metodologia é uma ferramenta
desenvolvida com o objetivo de: (i) ajudar a classificar e apresentar a numerosa
quantidade de informações necessárias para o processo de definição de prioridades; (ii)
identificar as lacunas do conhecimento sobre o assunto pesquisado por intermédio do
processo KDD; e (iii) estabelecer, com a participação dos principais atores, as
prioridades da pesquisa.
3.3 Conceitos
3.3.1 Sistema
Um sistema pode ser definido como um agrupamento coerente de componentes que
operam como um todo e que apresentam uma individualidade, ou seja, distinguem-se de
outras entidades por fronteiras reconhecíveis. Há muitas variedades de sistemas, as
quais podem ser classificadas em três grandes grupos, conforme a interação de seus
componentes. No primeiro, as interações dos componentes são fixas, como em uma
máquina. No segundo, as interações dos componentes são irrestritas, como o gás. E
finalmente, no terceiro, as interações são fixas e variáveis como ocorre em uma célula.
22
Os sistemas com interações fixas e variáveis dependem da natureza e da forma das
interações de seus componentes ao longo de sua existência. Assim, o sistema
apresentará um novo comportamento sempre que componentes forem adicionados,
removidos ou rearranjados, ou então, sempre que houver modificação nas interações.
3.3.2 Sistemas Complexos
Os conceitos de holismo e reducionismo auxiliam o entendimento de sistemas
complexos. O holismo foi proposto por Aristóteles. A frase que o sintetiza é: “O todo é
maior que a soma das partes”. Dessa forma, as propriedades de um sistema complexo
não podem ser determinadas pelo simples conhecimento da propriedade de seus
componentes. O holismo sustenta a teoria da complexidade.
O reducionismo pode ser visto como a visão oposta do holismo. Segundo o
reducionismo, um sistema complexo pode ser explicado pelo processo de redução às
suas partes constituintes fundamentais. Um exemplo é uma figura arbitrária em um
arquivo Metafile poder ser descrita pelos objetos geométricos que a compõem.
Holismo e reducionismo podem assim ser vistos como conceitos complementares e,
portanto, ambos se mostram úteis na formalização do conhecimento sobre sistemas
complexos. A teoria da complexidade procura explicar como as interações das partes
conduzem a um comportamento global emergente. Esse comportamento pode ser
sinergético, no sentido de que o trabalho ou o esforço coordenado de vários subsistemas
é empregado na realização de uma tarefa complexa. Considerando-se a hipótese de
existência de múltiplos componentes que estabeleçam interações variadas, o efeito das
interações impede que o conhecimento dos componentes leve ao conhecimento do
sistema como um todo. Colônia de formigas, sistema econômico, clima e sistema
nervoso são exemplos de sistemas complexos.
23
3.3.3 Redes Complexas
Estas são grafos que apresentam algumas propriedades específicas, como o atendimento
à Lei de Potência, que ocorre quando existem poucos nós na rede muito conectados, e
muitos nós pouco conectados. Outra propriedade é conhecida como a Teoria do Mundo
Pequeno: o comprimento médio do caminho entre quaisquer dois vértices da rede tende
a ser pequeno, ainda que o número de vértices seja muito grande e que a densidade de
conexões entre os vértices da rede seja pequena. Redes sociais, metabólicas, gênicas,
tróficas e a rede mundial de computadores são exemplos de redes complexas.
3.4 Sistemas, Software e Dados
A pesquisa utilizou os dados do Sistema Nacional de Agravos de Notificação (SINAN)
do Ministério da Saúde, disponibilizados pela Secretaria Municipal de Saúde DSTAIDS. Foram considerados todos os casos notificados com 13 anos de idade e superior,
com ano de diagnóstico no período de 1982 a 2005. Visando reduzir o erro introduzido
nas tendências temporais pelo atraso na notificação, os anos de 2006 e 2007 não foram
considerados.
Também foram utilizados os dados de autorizações de internações
hospitalares (AIH) do Sistema de Informações Hospitalares (SIH), disponibilizados pelo
Ministério da Saúde para validar os dados e comparar o total de notificações registradas
no SINAN e de internações para tratamento de aids, do SIH.
Para o cálculo das taxas de incidência, os denominadores foram estimados a partir de
interpolações geométricas das populações dos Censos Demográficos de 1980 (IBGE,
1983), 1991 (IBGE, 1993), bem como da Contagem da População de 1996 (IBGE,
1997). Para o acompanhamento da evolução temporal da epidemia, foram estimadas
taxas médias de incidência para os períodos de 1983-85, 1986-88, 1989-92, agrupandose dessa forma, até o ano de 2005. Posteriormente, após análise das fases de evolução
da epidemia, os períodos foram modificados para 1983-1985, 1986-1988 e assim
sucessivamente. Os períodos foram adequados ao tópico estudado, conforme
apresentado no capítulo específico.
24
Foram notificados e registrados no SINAN da Secretaria do Estado de Saúde do Rio de
Janeiro, 52.431 casos confirmados de aids residentes no estado do Rio de Janeiro,
diagnosticados desde o início da epidemia, em 1982, até dezembro de 2005. A maior
parte dos casos, considerando-se o estado, é de residentes nas regiões Metropolitana 1
(que inclui o município do Rio de Janeiro) e Metropolitana 2, que corresponde a 87% do
total. Entretanto, esta proporção vem se reduzindo ao longo do período, passando de
91.4% na primeira década da epidemia para 76% em 2005, em contrapartida ao
aumento da participação das outras regiões do estado. Do total de estado, foram
notificados 28.918 casos confirmados de aids, acima de 13 anos de idade, no município
do Rio de Janeiro no mesmo período, compondo a base de dados da pesquisa.
Observou-se que a taxa de incidência no município, calculada para 100.000 habitantes,
vem decrescendo desde 1998, quando chegou a 45.4, atingindo o valor de 26.2 em 2003
e 17.3 em 2005. Por outro lado, outras regiões apresentaram aumento em suas taxas,
como a região da Baía da Ilha Grande que, desde 2003, apresenta as maiores taxas do
estado (32.5 casos por 100.000 habitantes em 2003) e a região Fluminense, com taxas
crescentes de 2003 a 2005.
Com relação à distribuição espacial, os bairros com maior percentual, considerando-se o
total de notificações foram Copacabana, Centro, Tijuca, Bangu e Botafogo, nesta
ordem. Entretanto, considerando-se a população média do bairro, as maiores taxas de
contaminação ocorreram, em ordem decrescente, nos bairros de Cidade Nova, Centro,
Santo Cristo, Ramos, Catete e Copacabana.
Em relação ao sexo, os homens ainda são maioria, apesar de os valores se aproximarem
à igualdade nos últimos anos. A razão homem/mulher, desde 2005 é inferior a dois
casos masculinos para cada caso feminino no município (Figura 5.14).
Em relação à mortalidade no município, verifica-se que, para 44% do total de casos
notificados, existe a informação da ocorrência do óbito. A proporção de óbitos é
crescente atingindo 80% para os casos diagnosticados antes de 2000, com decréscimo
progressivo a partir de então.
25
3.5 Metodologia
Na metodologia proposta por FAYYAD et. al. (1996), a descoberta de conhecimento
ocorre em nove etapas.
Na metodologia proposta neste capítulo, todas as etapas
propostas por FAYYAD et. al (1996) são desenvolvidas.
Entretanto,
seu
desenvolvimento é precedido de uma etapa na qual o foco é a definição de prioridades
coadunada com a estratégia da empresa ou do negócio. Consoante com esse objetivo,
essas prioridades são definidas após a análise de riscos e oportunidades, pontos fortes e
pontos fracos, conforme proposto por PORTER (1989).
Nos últimos anos, diversas pesquisas sobre o processo KDD foram desenvolvidas,
conforme apresentadas na revisão bibliográfica. Embora diversas abordagens analisem o
problema com base em diferentes ângulos e com diferentes métodos e metodologias, o
objetivo consensual é identificar padrões novos e úteis em grandes volumes de dados.
Entretanto, não há na literatura pesquisada proposta de um método para definição de
prioridades e objetivos nessa busca por novos padrões. Pelo motivo exposto, o capítulo
apresenta uma metodologia que auxilia a definição de prioridades no processo KDD.
Usualmente, o processo KDD é realizado pelo especialista em inteligência em negócios,
gestão do conhecimento ou áreas similares, ainda que com nomes distintos, que muitas
vezes atua de forma autônoma. Essa proposta auxilia o especialista a coadunar os
interesses do processo KDD com a estratégia da empresa. Dessa forma, a metodologia
proposta não pretende substituir a proposta de FAYYAD et. al. (1996), mas a
complementá-la.
A metodologia é composta por três níveis: conceitual, estrutural e de implantação. No
nível conceitual, as prioridades e os objetivos do processo KDD são definidos. Na fase
estrutural, a infra-estrutura de dados, software e sistemas é definida e, finalmente, a
implantação ocorre na terceira fase.
Na proposta de FAYYAD et. al. (1996), relacionadas a seguir, as duas primeiras etapas
seriam contempladas pelo nível conceitual proposto. As demais tarefas são de
implantação.
26
1.
Desenvolvimento do conhecimento sobre o problema e os objetivos do usuário;
2.
Definição dos dados que serão utilizados no processo de
descoberta de
conhecimento;
3.
Limpeza dos dados e pré-processamento;
4.
Redução e transformação dos dados;
5.
Definição da tarefa de mineração de dados;
6.
Escolha do algoritmo de mineração de dados;
7.
Mineração de dados: regras de associação, regressão, agrupamento de dados, etc.
8.
Avaliação dos resultados;
9.
Consolidação do conhecimento descoberto, incorporação desse conhecimento
nos respectivos processos ou sistemas ou, simplesmente, documentar e transmitir esse
conhecimento aos usuários do sistema.
3.5.1 Nível Conceitual
Dependendo do objetivo definido, as tarefas de mineração de dados serão diferentes. A
definição inadequada do objetivo do processo de descoberta do conhecimento pode
resultar na escolha de método inadequado e de inferências e previsões inúteis. Para
definir as prioridades e os objetivos, definiram-se cinco questões que, uma vez
respondidas pelo especialista, auxiliam a definição de prioridades e objetivos do KDD.
Questão 1: Magnitude.
Questão 2: Fatores de risco, oportunidades, pontos fortes e fracos do processo KDD a
ser realizado.
Questão 3: Conhecimento do assunto.
Questão 4: Custo-efetividade.
Questão 5: Recursos.
O preenchimento das respostas às questões pode ser gradual e, em muitos casos, a
informação pode simplesmente, não existir ou existir parcialmente. Nesse caso, a
utilidade da metodologia é destacar as principais lacunas de informação, cujo
conhecimento é essencial para a tomada de decisão do processo KDD.
27
Na presente pesquisa, as questões foram respondidas de acordo com o tema estudado.
Os exemplos podem ser adaptados para outros temas. Assim sendo, para mensurar a
magnitude do assunto a ser pesquisada pelo processo KDD, os seguintes tópicos foram
utilizados como apoio:
 Tamanho e natureza da carga de doença/epidemia e suas tendências
epidemiológicas.
 Estratégia atual de controle da doença/epidemia.
 Principais problemas e desafios para o controle da doença/epidemia.
 Tipo de pesquisa necessário para enfrentar esses problemas e desafios.
 Pesquisas em andamento sobre o assunto e oportunidades de pesquisa existentes.
Com origem nesses tópicos, as prioridades assim como as lacunas de informação foram
identificadas. As lacunas são descritas no tópico Ação e foram utilizadas posteriormente
para a definição dos objetivos.
3.5.1.1 Definição de Prioridades e Objetivos
As cinco questões propiciam a definição de prioridades do processo KDD.
3.5.1.1.1 Magnitude
 Identificar a magnitude da doença.
 Ação: A magnitude pode ser medida pelo número de óbitos ou pelo
DALY, do inglês disability ajusted life year, que é uma medida do total
de anos de vida saudável perdidos em conseqüência de mortalidade,
morbidade ou deficiência prematura. Considerando-se que o banco de
dados utilizado não possui registro do acompanhamento dos pacientes e
de seu estado de saúde durante a epidemia, o número de óbitos foi
utilizado para medir a magnitude. Considerou-se ainda estudo do Global
Forum for Health Research de 1990 (e ratificado em 1996, 1999 e 2000),
que indicou a epidemia pelo HIV como a segunda maior prioridade de
28
pesquisa em doenças e agravos. A primeira prioridade são as doenças
tropicais como malária, esquistossomose e lepra.
 Tendência epidemiológica e fatores que podem produzir impacto sobre a carga
da doença/epidemia
 Ação: Definir modelo de evolução da epidemia no tempo. Identificar
quais fatores/variáveis relacionam-se com a proliferação da epidemia.
Modelar a evolução da epidemia.
 Estratégia de controle e forma de medir o desempenho: por meio de redução das
taxas de morbidade e mortalidade ou redução da transmissão da doença.
 Ação: Modelar a evolução de óbitos, após definição de variáveis
relevantes.
 Causas da persistência da carga da doença.
 Ação: Identificar possíveis causas como pobreza, sexo, dificuldade de
acesso aos serviços de saúde, por intermédio da modelagem espaçotemporal com base em variáveis sociais e de renda.
3.5.1.1.2 Riscos e Oportunidades, Pontos Fortes e Pontos Fracos
A análise de riscos e oportunidade, pontos fortes e pontos fracos (strentghs, weakness,
opportunities and threats – SWOT), proposta por PORTER (1989), foi realizada com o
objetivo de destacar as principais contribuições da pesquisa, identificando-se a maior
possibilidade de sucesso.
 Riscos/Limitações da pesquisa e da doença.
 Ação: Identificar as limitações da pesquisa. A principal limitação são os
dados. A grande quantidade de dados espúrios pode inviabilizar a
pesquisa. Por outro lado, há a possibilidade/oportunidade de extrair-se
conhecimento útil desses dados. Após pré-análise dos dados, limitou-se o
29
escopo da pesquisa ao município do Rio de Janeiro e à entidade
geográfica bairro, com o objetivo de reduzir esse risco.
 Oportunidades para a pesquisa.
 Ação: Identificarem-se os aspectos da doença que podem beneficiar-se
com essa pesquisa. O maior benefício da pesquisa é identificar regiões e
atores mais vulneráveis, assim como as prováveis causas dessa
vulnerabilidade. Conseqüentemente, ações preventivas nessas regiões
(locais e público alvo) poderiam evitar novas notificações.
 Pontos fortes.
Os pontos fortes são aqueles relacionados à pesquisa. Assim sendo, pontos
fortes como campanhas educacionais sobre o assunto não fazem parte do escopo.
 Métodos estocásticos adequados aos dados disponíveis.
 Mineração de dados geográficos.
 Pesquisa inédita.
 Pontos fracos.
Os pontos fracos, assim como os pontos fortes, são aqueles relacionados ao
estudo.
 Grande volume de dados espúrios.
 Indisponibilidade de dados de relacionamento de pacientes infectados e
respectivo círculo social.
3.5.1.1.3 Conhecimento do assunto
 Identificar o estado da arte de pesquisa em curso e lacunas preenchidas pela
pesquisa. As pesquisas em curso utilizam abordagem estatística. Não foi
identificado na literatura pesquisada estudo de mineração de dados geográficos
ou similar sobre a epidemia pelo vírus HIV no município do Rio de Janeiro.
Além disso, não foi encontrada pesquisa que realize a mineração de dados
geográficos com dados sobre epidemia por qualquer vírus ou outro tipo de
doença.
30
 Definir o tipo de dado espaço-temporal a ser pesquisado: ambiental,
socioeconômico, discreto ou contínuo.
 Definir a entidade espacial do banco de dados geográfico: setor
censitário ou bairro.
 Definir o período a ser considerado: 1982 a 2007 e, após análise dos
dados, 1982 a 2005.
 Definir a unidade de tempo a ser considerada na análise de séries
temporais: mês.
 Definir o resultado esperado do processo conforme os objetivos definidos e
relacionar com tarefas de mineração de dados (descoberta de padrões, geração
de hipóteses, predição, entre outras).
 Identificar a influência do espaço geográfico na proliferação da
epidemia.
 Identificar as regiões mais vulneráveis e as possíveis causas dessa
vulnerabilidade ao vírus.
 Modelar a evolução da epidemia com fechamento óbito.
 Modelar a evolução da epidemia no espaço e no tempo.
 Identificar padrões úteis e novos.
 Identificar os usuários interessados no processo de descoberta do conhecimento.
3.5.1.1.4 Custos e recursos
 Neste tópico uma estimativa de custos e recursos necessários é elaborada. Essa
relação pode indicar a inviabilidade do processo KDD. A definição do
cronograma ocorre nessa fase. Em seguida, na fase estrutural, o ambiente de
desenvolvimento da pesquisa é efetivamente definido com origem nesse
levantamento.
Neste nível, os objetivos são definidos.
31
3.5.2 Nível Estrutural
Neste nível as entidades dos modelos formais são mapeadas para estruturas de dados e
algoritmos necessários para os objetivos definidos.
 Realizar a pré-análise de dados e a limpeza de dados.
 Definir a infra-estrutura de dados: a Figura 3.1 apresenta a infra-estrutura de
dados utilizada. Esta é composta basicamente por: (1) coleção de mapas; (2)
índice de influência espacial; (3) tarefa de mineração de dados; (4) medida de
desempenho da tarefa de mineração de dados geográficos.
Atributos
nãoespaciais
Mapas de
atributos
Geo
DB
Índice de
influência
espacial
Tarefas de
mineração
Medida de
desempenho
Visualização
geográfica dos
padrões descobertos
Figura 3.1 Infra-estrutura de dados.
Além da limpeza e da pré-análise de dados, as seguintes tarefas foram executadas:
 Realizar análise estatística dos dados.
32
 Definir o método de definição de variáveis relevantes: por intermédio do método
do critério da relevância, conforme proposto por SEIXAS et. al. (1995).
 Definir banco de dados geográfico para armazenar dados:
Após testes com Mapinfo e ArcView, citando apenas alguns, optou-se por
utilizar o software Spring. Além da capacidade de processamento e de
atendimento aos requisitos de software definidos, o Spring (CÂMARA, 1996) é
software livre, desenvolvido pelo INPE.
 Desenvolver o algoritmo para implantar medida de influência espacial.
 Definir a estrutura de dados do banco para armazenar as informações de direção
e distância entre polígonos.
 Definir a forma de interação do banco de dados geográfico e software Statistica
e Pajek: A interface não é automática. Os dados são exportados no formato
adequado a ser utilizado pelo software Statistica ou Pajek.
 Definir software para tarefas de mineração de dados. Realizaram-se diversos
testes com Statistica, SOM-PAK, entre outros softwares apropriados às tarefas
de mineração de dados. Optou-se por realizar as tarefas de mineração de dados
por intermédio da definição de RNAs selecionando-se o software Statistica.
Utilizou-se o software Matlab para desenvolvimento de programas para
formatação de dados, cálculo da tendência espacial e implantação de uma RNA
do tipo SOM.
Para análise de redes complexas, optou-se por utilizar o software livre Pajek.
 Definir medidas de desempenho da mineração de dados.
 Definir forma de apresentação e armazenamento dos resultados.
33
3.5.3 Nível de Implantação
O terceiro nível de implantação completa o processo, realizando-se nessa fase as tarefas
de mineração de dados conforme planejado.
3.5.4 Nível Ontológico
Uma sugestão para pesquisa futura é a definição de um nível ontológico, no qual nossas
percepções sejam materializadas em conceitos que descrevam a realidade e definam os
tipos de entidades necessárias para descrever o objeto em estudo. Nesse nível, as
ontologias necessárias para tarefas de mineração de dados geográficos seriam definidas.
Nesse caso, esta seria a primeira fase.
3.6 Método para Definição de Variáveis Relevantes
A identificação das variáveis mais relevantes a serem utilizadas em tarefas de mineração
de dados como agrupamento de dados e classificação é importante para o desempenho
destas tarefas.
A compactação dos dados, utilizando-se somente as variáveis
relevantes, reduz o ruído e a informação desnecessária que, prejudicam a identificação
de padrões e tarefas de mineração de dados em geral.
Diferentes métodos têm sido desenvolvidos para identificar a dimensão dos dados como
análise discriminante, componentes principais, entre outras. Diversos testes foram
realizados com este objetivo utilizando-se o software Weka, entre outros.
Optou-se por utilizar o critério de relevância proposto por SEIXAS et. al. (1995). O
critério consiste basicamente em medir a relevância de cada variável para discriminar o
sistema em estudo. A relevância do componente j é definida por:
2
N
Rx
i 1
xi
N
j
34
xi '
Onde:
xi é o valor do neurônio de saída, após o treinamento da RNA, para cada padrão
apresentado à RNA.
xi ’ é o valor do neurônio de saída, quando o atributo j , apresentado à RNA, é
substituído pelo seu valor médio, calculado para todos os padrões usados no
treinamento da RNA.
N é total de padrões existentes.
No objeto estudado, a saída é a taxa de contaminação de aids no setor censitário e no
bairro (os dois forma considerados em execuções distintas). O segundo termo ( xi ’) é o
mesmo vetor de saída quando o componente j é substituído pela sua média, calculada
considerando-se todo o conjunto utilizado no treinamento da RNA. O resultado é um
mapa de medida de relevância de variáveis, que mede o quanto a resposta da RNA
mudou
quando
um
atributo
foi
substituído
pelo
respectivo
valor
médio.
Conseqüentemente, as variáveis mais importantes apresentam valores de relevância
maiores. Entretanto, esse método pode não ser eficaz para pequenos conjuntos de dados.
Para utilizar o critério, entretanto, foi necessário limpar os dados. Os passos realizados
estão sucintamente descritos:
 Normalizar variáveis estatisticamente, ou seja, por desvio padrão.
 Identificar coeficiente de correlação de atributos econômico-sociais com
a taxa de aids em cada período.
 Identificar as variáveis com correlação significante, ou seja, com módulo
superior a divisão de dois pela raiz do total de padrões (dados) existentes.
 Descorrelacionar as variáveis em relação à variável com maior
correlação.
 Repetir o cálculo do coeficiente de correlação das variáveis com a taxa
de aids.
 Identificar as variáveis mais relevantes por intermédio dos maiores
valores de coeficiente de correlação.
35
3.7 Resumo
A metodologia proposta oferece uma forma prática para compilar informações
relevantes para o processo de priorização do processo KDD. Uma das contribuições da
metodologia é indicar as lacunas de conhecimento existente. O processo de definição
de prioridades é interativo e dinâmico, como o próprio processo KDD e pode ser revisto
durante o processo.
A metodologia não produz prioridades e objetivos, mas possibilita
organizar e apresentar as evidências para definir as prioridades e os objetivos do
processo de descoberta de conhecimento em bases de dados.
36
CAPÍTULO 4
PROPOSTA DE ÍNDICE DE INFLUÊNCIA ESPACIAL
4.1 Introdução
Quando as relações espaciais são medidas, espera-se que as regiões próximas sejam
mais parecidas entre si que as regiões mais distantes (ANSELIN, 2005).
Tal
propriedade é traduzida pela lei conhecida como a Primeira Lei da Geografia de Tobler
(1979):
“Todos os objetos são correlacionados, entretanto, objetos mais próximos são
mais correlacionados que objetos mais distantes”.
A mineração de dados espaciais considera igualmente importante esse conceito.
Algoritmos de mineração de dados espaciais devem considerar a vizinhança dos objetos,
a fim de extrair conhecimento útil.
A mineração de dados espaciais, assim como a análise de dados espaciais, considera a
análise de dados associados a áreas. Essas áreas podem ser irregulares como áreas de
setores censitários ou regulares, como em imagens de sensores. O principal objetivo é
encontrar padrões espaciais até então desconhecidos e potencialmente úteis.
O capítulo está apresentado nos seguintes tópicos: 2. Objetivo, 3. Sistemas, Software e
Dados, 4. Conceitos, 5. Índice de influência espacial e 6. Resumo.
4.2 Objetivo
O presente capítulo apresenta uma proposta de medida de dependência espacial,
denominada índice de influência espacial.
37
4.3 Sistemas, Software e Dados
Utilizou-se o software Spring para definição do banco de dados geográficos.
Os
programas e macros para cálculo de tendência espacial e do índice de influência
espacial foram desenvolvidos no Matlab e Spring, conforme apresentado no Anexo I.
Os dados são originais do Sistema de Informação de Agravos de Notificação (SINAN) e
o Sistema de Informações de Internações Hospitalares (SIH) do Ministério da Saúde e
os censos de demográficos de 1991 e 2000 do IBGE. Os dados foram disponibilizados
pela Secretaria Municipal de Saúde, com todos os casos de notificações de AIDS no
município do Rio de Janeiro, de 1982 a 2005.
4.4 Conceitos
4.4.1 Matriz de Proximidade
No presente trabalho, utilizou-se a matriz de proximidade, amplamente utilizada na
estatística espacial, para medir a relação espacial entre áreas. Na matriz de proximidade
espacial W, cada elemento, wij, representa uma medida de proximidade entre as áreas Ai
e Aj. Os critérios para o cálculo dos valores wij podem basear-se na distância entre os
centróides de duas áreas ou no compartilhamento de fronteiras entre Ai e Aj, ou numa
combinação destes. O critério de fronteira considera wij igual a 1, caso, Aj compartilhe
fronteira com Ai, ou 0 caso contrário. Assim sendo, dado um conjunto de n áreas { Ai,
A2,..., An } , wij =1, se Ai compartilha um lado comum com Aj. Caso contrário, wij = 0,
conforme apresentado na Figura 4.1. (DRUCK et al., 2004).
w14 = 1 P1 faz fronteira com P4
w24 = 0 P2 não faz fronteira com P4
Figura 4.1. Medida de proximidade baseada no compartilhamento do lado do polígono.
38
Existem diversos critérios de proximidade, como a distância inferior a um limite
definido ou a proporção mínima do lado comum em relação ao perímetro total do
polígono. Na presente pesquisa utilizaram-se medidas de proximidade de diferentes
ordens, por faixas de distância, representadas por W1,... Wn, onde W1 indica a
proximidade espacial de primeira ordem (dentro de uma faixa de distância
determinada), W2 indica a proximidade espacial de segunda ordem e assim
sucessivamente.
Uma vez definido o critério de proximidade espacial pode-se determinar a dependência
espacial do conjunto de dados. Uma forma simples de medir a variação da tendência
espacial dos dados é calcular a média dos valores dos vizinhos. Esse cálculo produz
uma primeira aproximação da variabilidade espacial. Apesar de apresentar padrões e
tendências espaciais, a média espacial móvel não mede a dependência espacial, ou seja,
não avalia a variação dos atributos quanto à disposição espacial das áreas ou como os
valores estão correlacionados no espaço. Para avaliar essa correlação, o conceito mais
utilizado é o de autocorrelação espacial, que mede quanto o valor observado de uma
região é dependente dos valores desse mesmo atributo nas localizações vizinhas.
Existem inúmeras técnicas utilizadas para medir a dependência espacial, cada qual com
seus pontos fortes e fracos. As duas medidas mais conhecidas são o índice global de
Moran (I) e o índice de Geary’s (C).
4.4.2 Índice Global de Autocorrelação Espacial
Considerando-se uma determinada matriz de proximidade W, o índice global de
Moran(I) é expresso pela Equação 4.1, onde n é o número de regiões; yi é o valor do
atributo considerado na região i; y é o valor médio do atributo nas regiões
consideradas; wij são os elementos da matriz de proximidade espacial.
39
n
n
n
I
wij yi
i 1 j 1
n
yi
y
y (yj
2
y)
wij
i 1
i j
Equação 4.1. Índice Global de Moran.
A equação de I pode ser simplificada [N(
=0e
2
= 1] e alterarmos W, de forma que
a soma dos elementos de cada linha da matriz de proximidade espacial seja igual a 1,
conforme equação 4.1a.
n
n
wij yi
I
y (yj
y)
i 1 j 1
n
( yi
y)2
i 1
Equação 4.1a. Índice Global de Moran.
O índice de Moran(I) é uma medida de autocorrelação espacial usada para detectar
afastamentos de uma distribuição espacial aleatória. Os desvios com relação à média de
cada atributo são multiplicados pelos desvios da vizinhança, obtidos pela matriz de
proximidade espacial que representa a dependência espacial das áreas envolvidas. O
índice testa se as áreas conectadas apresentam maior semelhança quanto ao indicador
estudado do que o esperado num padrão aleatório. A hipótese nula é a de completa
aleatoriedade espacial. Como um coeficiente de correlação, os valores usualmente
variam de -1 a +1, quantificando o grau de correlação espacial existente. Valores
positivos indicam uma correlação direta e valores negativos, uma correlação inversa.
Valores pequenos indicam regiões pouco correlacionadas e valores altos, indicam
regiões muito correlacionadas.
Os benefícios de modelar a autocorrelação espacial são inúmeros.
Uma maneira
simples de demonstrar esse beneficio é por meio da equação de regressão. Supondo-se
que as variáveis dependentes Yi sejam auto correlacionadas, isto é, Yi = f ( Yj ), para
todo i diferente de j, a equação de regressão deveria ser modificada para:
40
Y=aWy+bX+e
onde W é a matriz de proximidade.
Com a introdução do termo da matriz de proximidade W, o erro residual será menos
influenciado pela autocorrelação espacial, reduzindo, conseqüentemente a diferença
entre os valores reais e os valores previstos.
4.5 Proposta de Índice de Influência Espacial
Os indicadores globais de autocorrelação espacial, como Moran(I), fornecem um único
valor, como medida de associação espacial para todo o conjunto de dados,
caracterizando toda a região de estudo.
Entretanto, usualmente, a análise da
autocorrelação espacial delimitada por determinadas regiões possibilita melhor
entendimento do fenômeno. Por esse motivo, os indicadores locais de associação
espacial são utilizados, definindo um valor específico para cada objeto, permitindo uma
decomposição do índice global de associação espacial.
O índice proposto foi desenvolvido com base no índice de Moran(I).
Entretanto,
introduziu duas características de relacionamento espacial: direção e distância. O índice
mede a modificação regular de um atributo não espacial à medida que se afasta de uma
área e em determinação direção.
Para cumprir esse objetivo, considera a relação de
vizinhança espacial, expressa por faixas de distância e direção, e a análise dos valores
dos atributos não espaciais de uma vizinhança para identificar uma influência espacial.
Dessa forma, a influência espacial é valorada por meio de uma métrica que leva em
consideração as relações de vizinhança no espaço de atributos e no espaço físico.
As características de direção e distância podem ainda ser combinadas por operadores
lógicos para expressar um relacionamento de vizinhança mais complexo e,
conseqüentemente, obter resultados mais específicos nas tarefas de mineração de dados
espaciais.
41
A relação espacial de distância é intuitiva. Considerou-se um critério previamente
definido de distância mínima e/ou máxima.
classificada em uma faixa de distância.
A distância entre os polígonos foi
Assim sendo, a classificação em uma
determinada faixa, considera a distância entre os centróides. As faixas de distância são
mil metros, seguida por seis, dez, vinte e trinta mil metros.
Por outro lado, a relação espacial de direção não é tão simples. Para definir a relação
espacial de direção de um objeto O2 em relação a um objeto O1, considerou-se o um
ponto representativo do objeto O1. Considerou-se o centróide do polígono, como a
origem de um sistema virtual de coordenadas, cujos quadrantes e planos definem as
direções. Para definir a direção de O2, mais da metade dos pontos de O2 deve estar na
respectiva área do plano. Não existe uma única direção entre dois objetos e por isso,
considerou-se a mais exata. Entre a direção sul ou sudeste, optou-se pela sudeste, por
exemplo. A identificação da direção e o cálculo da distância de cada objeto (polígono)
em relação a todos os demais da região pesquisada foram armazenados no banco de
dados, no início da pesquisa. Esses valores são estáticos e raramente são modificados,
como em casos de criação de um novo bairro.
O1
O2
Figura 4.2 Eixo de coordenadas com origem no centróide de O1 usado no cálculo da
direção de O2 em relação a O1.
4.5.1 Cálculo do Índice de Influência Espacial
O índice de influência espacial proposto, identificado por IFd, é uma medida de
associação espacial calculada por objeto. O cálculo do IFd pode ser realizado em
relação a qualquer atributo não espacial, desde que o atributo seja numérico. No cálculo
42
do IFd, considera-se vizinho de um dado objeto O, todo polígono que dista até trinta mil
metros do centróide de O na direção padrão específica. As direções são padronizadas
em zero, quarenta e cinco, noventa, cento e trinta e cinco, cento e oitenta, duzentos e
vinte e cinto, duzentos e setenta e trezentos e quinze graus, sendo os respectivos índices
identificados por IF0, IF45, IF90 até IF315.
Uma variação do índice descrito acima é o índice de influência espacial local,
identificado por IF; que considera em seu cálculo, todos os objetos que distam até dez
mil metros de um dado objeto O, em todas as direções válidas. O índice de influência
espacial local mede a associação espacial entre uma observação e sua vizinhança em
todas as direções. Na Figura 4.4, os polígonos interceptados pela linha imaginária
fechada, são considerados no cálculo do IF de O1.
n
yi
IF
y
Wij y j
y
j 1
n
(yj
y)2
j 1
Equação 4.2 Equação do Índice de Influência Espacial Local
Onde:
yi é o valor do atributo considerado no polígono i;
yj é o valor do atributo considerado no polígono j;
y é o valor médio do atributo;
wij são os polígonos vizinhos ao polígono yi, sendo wij igual a 1, para todo polígono yj
cuja distância ao centróide de Oi seja inferior a dez mil metros, em todas as direções
válidas.
Na Figura 4.3, cada tonalidade da cor cinza, representa o conjunto dos polígonos
considerados no cálculo do IFd, nas respectivas direções, em relação ao objeto O144
(cor verde). O IFd foi calculado considerando-se o atributo taxa de contaminação de
aids do bairro, no ano de 1997. A reta da Figura 4.3 indica os polígonos na direção
noventa graus a partir de um eixo de coordenadas imaginário com coordenadas x e y
(0,0) no centróide de O144, e com distância máxima igual a trinta mil metros, que foram
43
considerados no cálculo do IF90 do objeto O144 (representado pela cor verde). O valor
do IF90 indicou que os polígonos vizinhos ao objeto O144 na direção 90º,
provavelmente influenciaram a sua taxa de contaminação. Confirmou-se, pelo mapa
temático de notificações de aids (Figura 4.4), que essa região apresentou taxas similares
de notificação de aids, em 1997.
O144
Figura 4.3 Índice de influência espacial IF90 de O144, a tonalidade de cinza indica os
polígonos considerados por direção.
Figura 4.4 Mapa temático de taxa de notificações de AIDS por bairro, 1997, município
do Rio de Janeiro.
44
4.5.2 Índice de Influência Espacial Global
O índice de influência espacial global proposto fornece um valor, como medida de
associação espacial, por direção padrão: considera os objetos que interceptam uma
linha imaginária em uma direção padrão e são identificados por IFG0, IFG45, IFG90
até IFG315. Seu uso é mais restrito, tendo como utilidade identificar as direções
relevantes, de um fenômeno estudado, por quadrante. O IFG é calculado pela equação
4.2, com a diferença do critério de vizinhança considerado. Neste caso, os valores de
wij são os elementos da matriz de proximidade espacial, sendo w
ij
igual a 1 para os
objetos oj que interceptam uma linha imaginária na direção padrão específica.
A
direção é definida a partir do eixo de coordenadas com coordenadas (x,y) igual a (0,0)
no centroíde do polígono mais central da região.
Figura 4.5 Linhas imaginárias de direções-padrão a partir do polígono central.
O polígono central no município do Rio de Janeiro é o bairro da Taquara.
4.5.3 Análise de Tendência Espacial
Uma forma de identificar modificações regulares nos atributos não-espaciais é por
intermédio da análise de regressão, onde a variável independente (x) mede a distância
entre o objeto o2 e o1. A variável dependente (y) mede a diferença entre os valores de
um atributo não-espacial para os objetos o2 e o1. Se o valor absoluto do coeficiente de
45
correlação é significativo, há indicação de uma tendência espacial para o atributo
específico a partir do objeto o1.
Utilizou-se a análise de tendência espacial na fase de pré-análise de dados. Considerouse a regressão linear para mapear a relação espacial entre áreas, com base na premissa
que a influência de determinado fenômeno em sua vizinhança é usualmente linear ou
pode ser transformado em um modelo linear, por exemplo, regressão exponencial.
Além disso, a 1ª Lei de Tobler afirma que a similaridade de objetos diminui quando a
distância geográfica entre estes aumenta, caracterizando uma regressão linear.
O cálculo da regressão linear por faixas de distância em direções predefinidas permitiu
identificar correlações entre um atributo e o espaço geográfico, por intermédio da
análise da regressão que satisfaz um coeficiente de correlação mínimo.
O algoritmo de implantação para análise da tendência espacial está apresentando no
Anexo G.
4.5.4 Implantação do Índice de Influência Espacial
Considerando-se que, a direção e distância entre os objetos espaciais, usualmente são
informações estáticas, definiu-se uma estrutura de árvore, para armazenar as
informações de relação espacial conforme apresentada na Tabela 4.1.
Tabela 4.1 Estrutura de árvore com informações de relação espacial por objeto.
Chave_Polígono
Vizinho
Distância
Direção/ângulo
O1
O2
1000.0
0º
...
...
...
...
O1
O3
22500.5
315º
O cálculo do índice de influência espacial baseia-se na definição de vizinhança, definida
através de direção e distância.
46
Considerando-se max-dist e dist números reais e d a direção, definiu-se o conceito de
Vizinhança para um banco de dados geográfico com distância max-dist e direção d
como sendo: V izinhança = { ( o1, o2, dist, d) | o1, o2
DB, o1 dist o2 <= dist-max e o1 d
o2}.
O IF é calculado sobre o conjunto de todos os objetos conectados ao objeto O através da
vizinhança V, que satisfaz ao predicado P. O predicado P é o critério de seleção:
distância e direção. Após a seleção do conjunto de objetos que satisfazem ao predicado
P, calcula-se o valor do índice. O IF mede a associação da vizinhança de O, em relação
ao atributo considerado.
A Tabela 4.2 apresenta um exemplo de seleção de vizinhança
para cálculo do IF do polígono O144. Para o cálculo do IF, considerou-se o predicado
distância de até dez mil metros e todas as direções-padrão.
Tabela 4.2. Seleção de polígonos com a relação espacial de direção e distância.
Chave
Polígono
Vizinho
Faixa
Distância
Distância
Direção/ângulo
O144
O1
10.000
7.123,71
0º
O144
O23
10.000
3.954,16
45º
...
O144
O148
...
10.000
3.104,13
315º
4.5.5 Exemplo de Aplicação do IF
Para demonstrar uma aplicação do IF, objetivou-se realizar a previsão da taxa de
contaminação de um bairro, tendo como informação de entrada a taxa de bairros
vizinhos.
Esse tipo de predição pode ser útil para completar dados faltantes ou
inválidos, como os causados por erro de digitação nos bancos de dados. Nesse caso,
através de rede neural artificial (RNA), as taxas de contaminação de bairros que
usualmente apresentam erro, são definidas.
progressivamente o erro de predição.
47
Com o tempo, a rede diminuiu
Utilizou-se o software Statistica 7.0 para definir duas RNAs do tipo perceptron de
múltiplas camadas, com algoritmo Backpropagation.
Comparou-se o resultado das
duas redes neurais. A primeira RNA, além das taxas de contaminação dos vizinhos,
possui na camada de entrada, a informação do IF local de cada um dos quatro bairros
vizinhos. A segunda RNA não possui a informação do IF, sendo a camada de entrada
formada pelos valores das taxas de contaminação dos vizinhos. Quatro vizinhos por
bairro, ordenados por ordem decrescente de taxa de contaminação foram utilizados na
camada de entrada. Limitou-se a faixa de distância a dez mil metros, em qualquer
direção. A configuracao da primeira RNA foi definida por oito neurônios na camada
de entrada, quinze neurônios na camada intermediária e um neurônio na camada de
saída. A segunda rede com quatro neurônios na camada de entrada, sete neurônios na
camada intermediária e um neurônio na camada de saída.
A camada de saída é
composta pela taxa de contaminação a ser prevista. As Tabelas 4.3a e 4.3b, apresentam
os resultados das RNA com e sem IF, respectivamente.
Conforme esperado, o
desempenho da primeira RNA foi superior. O IF mede a dependência espacial entre os
bairros e o impacto no valor da variável a ser prevista, nesse caso, a taxa de
contaminação.
A rede consegue extrair essa informação durante o treinamento,
obtendo, dessa forma, um melhor desempenho. As Figuras 4.6 e 4.7 apresentam o
resultado dos valores preditos e observados.
Tabela 4.3a Resultados da RNA de predição da taxa de contaminação por bairro com IF
na camada de entrada.
Tx_ano.1
Tx_ano.2
Tx_ano.3
Tx_ano.4
Tx_ano.5
Data Mean
9.391317
9.391317
9.391317
9.391317
9.391317
Data S.D.
6.808094
6.808094
6.808094
6.808094
6.808094
Error Mean
0.018790
0.001765
0.005894
-0.012539
0.004036
Error S.D.
0.185951
0.106722
0.082350
0.081316
0.061593
Abs E. Mean
0.133079
0.065810
0.054958
0.060838
0.039800
S.D. Ratio
0.027313
0.015676
0.012096
0.011944
0.009047
Correlation
0.999633
0.999878
0.999928
0.999929
0.999959
48
Tabela 4.3b Resultados da RNA de predição da taxa de contaminação por bairro sem IF
na camada de entrada.
Tx_ano.6
Tx_ano.7 Tx_ano.8 Tx_ano.9 Tx_ano.10
9.391317 9.391317 9.391317
9.391317 9.391317
6.808094 6.808094 6.808094
6.808094 6.808094
0.357959 0.428495 -0.524329 -0.054062 -0.295187
5.837753 5.810031 5.828004
5.807406 5.767635
5.059816 5.037736 5.182887
5.139639 5.043155
0.857472 0.853400 0.856040
0.853015 0.847173
0.515874 0.521542 0.525920
0.527604 0.531349
Data Mean
Data S.D.
Error Mean
Error S.D.
Abs E. Mean
S.D. Ratio
Correlation
Tx_ano, Observed vs. Tx_ano, Predicted (5 )
28
26
24
22
20
Tx_ano, Predicted
18
16
14
12
10
8
6
4
2
0
-2
-2
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
Model
5
Tx_ano, Observed
Figura 4.6 Valores observados e preditos pela RNA com IF na camada de entrada.
Tx_ano, Observed vs. Tx_ano, Predicted (10 )
15
14
13
12
11
Tx_ano, Predicted
10
9
8
7
6
5
4
3
2
1
0
-1
-2
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
Model
10
Tx_ano, Observed
Figura 4.7 Valores observados e preditos pela RNA sem o IF na camada de entrada.
49
4.6 Resumo
A mineração de dados espaciais prescinde da definição de um critério de proximidade.
Esse conceito é fundamental para a valoração de dependência espacial. Dependência
espacial é o impacto que a variação na localização espacial causa na variação dos
atributos, ou seja, é a medida de como os atributos são dependentes do espaço
geográfico.
Inúmeros trabalhos existem na Análise Estatística de Dados Espaciais,
todavia, todos utilizam índices de valoração de dependência espacial que exigem a
aplicação de métodos estatísticos de validação e adequação dos dados aos modelos
estatísticos.
Nesse capítulo apresentou-se a proposta de um Índice de influência espacial, que cria
um conceito de vizinhança por intermédio das características de relacionamento espacial
de distância e direção entre objetos.
A utilização do índice de influência espacial
proposto em tarefas de mineração de dados será apresentada nos capítulos seguintes.
No exemplo apresentado, a inclusão do IF nas tarefas de mineração de dados espaciais
resultou em melhor desempenho, mensurado através da redução dos erros de teste e
verificação em uma rede neural artificial utilizada para predição de um valor. Essa
melhoria é explicada pela inclusão de características da vizinhança, implicitamente
expressas pelo Índice.
Na análise espacial, a relação topológica baseia-se em fronteiras e limites de objetos
espaciais.
A relação topológica entre os objetos espaciais não foi considerada na
presente pesquisa, que utiliza somente polígonos perfeitamente delimitados e disjuntos
(como bairros). Assim sendo, não foram consideradas relações como A contém B, A está
dentro de B, A intercepta B, entre outras. A inclusão da relação topológica seria
especialmente útil em tarefas de mineração espacial que utilizem polígonos que
contenham e interceptem ruas, escolas, rios e hospitais, sendo uma das sugestões de
continuidade deste trabalho.
50
CAPÍTULO 5
APLICAÇÃO DO ÍNDICE EM TAREFAS DE MINERAÇÃO DE DADOS
5.1 Introdução
As redes neurais artificiais (RNA) são caracterizadas pela arquitetura, pelas
características dos neurônios que as compõem e pela regra de treinamento usada para
absorção do conhecimento. Cada neurônio j possui um vetor de dados de entrada, xk =
[€1, €2, €3,..., €n], uma ativação interna J, uma função ativação f (J) e os pesos
sinápticos, wj = [wj1, ....wjd] T, que conectam os elementos de xk ao neurônio j (Figura
5.1). As RNA são formadas pela combinação dessas unidades básicas com os modelos
de ativação e apresentam como vantagens as características de adaptabilidade,
generalização e tolerância a ruídos, entre outras (HAYKIN, 1999). Essas características
são extremamente importantes quando aplicadas à análise de dados espaciais, dada a
natureza complexa desses dados.
Figura 5.1 Modelo de neurônio j, com entrada xk e saída f (J)
Uma das principais funções do Mapa Auto-Organizável é atuar como um mecanismo
não-supervisionado de mapeamento de dados multivariados numa grade de dimensão
menor, resguardando as propriedades dos dados originais. Na bibliografia pesquisada
não há trabalhos que tratem de todas as tarefas de mineração de dados espaciais usando
RNA desse tipo, desde a descoberta de dados atípicos até a análise da distribuição
espacial. Apesar disso, observou-se crescente interesse por uso da rede SOM na
geociência, como em estudos de (GAHEGAN, 2000).
O capítulo está dividido nos seguintes tópicos: 2. Objetivo; 3. Sistemas, Software e
51
Dados; 4. Conceitos; 5. Aplicação do IF no Mapa Auto-Organizável; e 6. Resumo.
5.2 Objetivo
Utilizou-se a rede SOM para realizar o agrupamento de dados em virtude da boa
adaptação desse tipo de rede aos problemas que tratam da análise de dados espaciais.
Essas áreas podem ser áreas regulares, como imagens sensoriais, ou irregulares, como
setores censitários.
5.3 Sistemas, Software e Dados
Para implementação da rede SOM, testou-se o pacote SOM-PAK (2000), que é
implementado na linguagem C para definição e implantação do Mapa AutoOrganizável. Comparou-se também com o software Statistica e, também com o SOM
ToolBox do Matlab. Optou-se por utilizar o Matlab. O Statistica também foi utilizado
para validar os resultados. Foram testadas várias arquiteturas de SOM, que se
distinguiram pelas dimensões do mapa. Todas as configurações foram definidas com
mapa bidimensionais hexagonais. A função utilizada para o cálculo da vizinhança foi a
função gaussiana.
Os sistemas utilizados foram o sistema de informação de notificação de agravos
(SINAN), do sistema de informações de internações hospitalares (SIH), ambos do
Ministério da Saúde. Os dados foram disponibilizados pela Secretaria Municipal de
Saúde, com todos os casos de notificações de aids, de 1982 a 2005, no município do Rio
de Janeiro.
O dicionário de dados está apresentado no Anexo O. Com relação à
análise espacial, foram utilizadas duas abordagens: a primeira, de acordo com a divisão
tradicional do município em bairros. A segunda, de acordo com o resultado do
agrupamento dos bairros de residência dos pacientes notificados.
Considerou-se
sempre o tamanho da população no cálculo de taxas e índices e comparou-se, sempre
que possível, o resultado com a concentração de pobreza do bairro, medida pela
proporção de chefes de família com renda mensal inferior a dois salários mínimos.
52
5.4 Conceitos
5.4.1 Classificação de Redes Neurais Artificiais
Segundo KOHONEN (2001), as RNA podem ser divididas em três categorias: redes de
transferência de sinal, redes de transferência de estado e redes competitivas. Nas redes
de transferência de sinal a saída da rede depende, única e exclusivamente, do valor de
entrada. Essas redes são usadas para transformação de sinais. São exemplos desse tipo
de rede aquelas denominadas redes alimentadas adiante, redes perceptron de múltiplas
camadas – Multi-Layer Perceptron-MLP e as redes de função de base radial – Radial
Basis Function-RBF. (HAYKIN, 1999). Essas redes são usadas como identificadores de
padrões, controle, entre outras funções.
As redes de transferência de estado têm como base os efeitos de relaxação. A
retroalimentação e a não-linearidade são tais que garantem que o estado de atividade
rapidamente convirja para um de seus valores estáveis. Os valores de entrada acionam o
estado inicial de atividade, e a rede então inicia o processamento até chegar ao estado
final. São exemplos desse tipo de rede as redes de Hopfield e a máquina de Boltzmann
(HAYKIN, 1999), sendo utilizadas principalmente em problemas de otimização, como
função de memória associativa.
As redes de aprendizagem competitiva estão baseadas no processo competitivo de
aprendizagem entre suas unidades, sendo o agrupamento de dados uma das principais
aplicações dessas redes. As redes SOM, sigla do inglês, Self Organizing Map
(KOHONEN, 2001), e ART, de Adaptative Ressonance Theory, são exemplos de redes
adaptativas. A aprendizagem competitiva é um processo no qual os neurônios tornam-se
gradualmente sensíveis a diferentes categorias de entrada e a conjuntos de amostras em
uma vizinhança, ou seja, em um domínio específico do espaço de entrada.
5.4.2 Mapas Auto-Organizáveis
O mapa auto-organizável (SOM) é uma RNA com duas camadas (KOHONEN, 2001): a
camada de entrada I e a de saída U. A entrada da rede corresponde a um vetor no espaço
53
d-dimensional em Rd, representado por xk = [ε1, ..., εd] T , k = 1, ..., n, sendo n o número
de vetores de entrada. Cada neurônio j da camada de saída possui um vetor de código w,
também no espaço Rd, associado ao vetor de entrada xk, wj = [wj1, ...,wjd]T . Os
neurônios da camada de saída estão interconectados por uma relação de vizinhança que
descreve a estrutura do mapa. Existem diferentes topologias para a estruturação de um
mapa auto-organizável, sendo a mais comum a de duas dimensões, pela facilidade de
visualização.
O algoritmo de treinamento da rede SOM é composto por três fases. Na primeira fase,
competitiva, os neurônios de saída competem entre si, segundo algum critério para
definir um neurônio vencedor ou BMU, do termo em inglês best match unit. Na segunda
fase, é definida a vizinhança do neurônio vencedor. Finalmente, na fase adaptativa, os
vetores do neurônio e da vizinhança são ajustados.
O algoritmo de aprendizagem pode ser em lote ou seqüencial, considerando-se a forma
de atualização dos vetores de código. No processo em lote, os vetores de código são
atualizados ao final de cada época. Em cada época, o conjunto de dados é dividido
conforme as regiões de Voronoi dos vetores de código do mapa, segundo o critério
definido para medir a proximidade entre o vetor de código e os dados. Por outro lado,
no algoritmo de aprendizagem seqüencial, as apresentações dos padrões devem ocorrer
de forma aleatória para garantir a apresentação de todos os padrões.
A definição do parâmetro de aprendizagem é empírica, baseada no conhecimento do
assunto. Da mesma forma, a definição do tamanho do mapa também é realizada de
forma empírica, com base no conhecimento do especialista (KOHONEN, 2001).
Nos testes realizados nesta pesquisa, comprovou-se que o tamanho da amostra de
treinamento influencia significativamente o processo de decisão sobre o tamanho do
mapa auto-organizável. Para grandes volumes de dados (setores censitários), mapas
razoavelmente grandes foram necessários. Nesse caso, a definição de mapas pequenos
comprometeu a integridade de formação topológica da rede SOM. Por outro lado, a
normalização dos dados não afetou o resultado. Apesar disso, utilizaram-se os dados
normalizados.
54
5.4.3 Avaliação de qualidade do Mapa Auto-Organizável
Com o objetivo de avaliar a qualidade do mapa gerado, optou-se por utilizar o erro de
quantização vetorial (Eq) (KOHONEN, 2001). Esse erro é a média do erro
correspondente à diferença entre o vetor de características xk e o vetor de código WBMU,
ou seja, o vetor de código vencedor no processo competitivo para o padrão xk.
5.4.4 Visualização do Mapa Auto-Organizável
Para visualizar o resultado do processo de aprendizagem, usualmente, os vetores de
código são definidos como coordenadas no espaço n-dimensional, desde que n seja
inferior a três dimensões.
O resultado do processo de aprendizagem da rede SOM é o mapa de vetores de códigos
gerado, representado pelo vetor wij. O mapa resultante é ordenado topologicamente, ou
seja, a localização espacial de um neurônio no mapa auto-organizável resultante
corresponde ao domínio dos padrões de entrada. O mapa também reflete a densidade
dos pontos de entrada, embora a distribuição das unidades do mapa resultante não seja
exatamente a mesma da distribuição dos dados amostrais, conforme demonstrado nas
Figuras 5.2a e 5.2b. Na região interna à eclipse, localizam-se o maior número de pontos
representativos dos casos de aids.
55
Figura 5.2a Imagem fatiada usando estimador de densidade Kernel para o atributo total
de ocorrências de aids por setor censitário, visualização software Spring, 2005,
município do Rio de Janeiro.
Figura 5.2b. Estrutura do mapa auto-organizável de notificações de aids por setor
censitário, após cem épocas de treinamento da rede SOM bidimensional 20 x
40, desenvolvido no Matlab, 2005, município do Rio de Janeiro.
Outra forma de visualização do resultado da rede SOM utiliza a projeção da matriz de
distância entre os vetores de código, denominada matriz de distância unificada ou UMatriz por ULTSCH (1993) e (1999), que permite observar visualmente as relações
topológicas entre os neurônios (KOHONEN, 2001). O critério de distância usado no
56
treinamento, como a distância euclidiana, é também considerado para calcular a
distância entre os vetores de código e os neurônios adjacentes. O resultado gerado
quando essa matriz é aplicada sobre o mapa é uma imagem em que o nível de correlação
de cada pixel corresponde a uma distância.
A partir de um mapa bidimensional, calculam-se as distâncias dx, dy e dz para cada
neurônio conforme demonstra a Figura 5.3. O valor du da U-matriz é calculado em
função dos valores dos elementos circunvizinhos ao respectivo neurônio, podendo ser o
valor da média, a mediana, o valor máximo, entre outros. Valores altos correspondem a
neurônios vizinhos dissimilares e valores baixos correspondem a neurônios vizinhos
similares. A visualização, por intermédio da U-Matriz, para grandes volumes de dados é
inadequada. Existem outras formas, como o plano de componentes.
Entretanto, não
faz parte do escopo desta pesquisa aprofundar este assunto.
Figura 5.3. Cálculo dos valores dx, dy e dz da U-matriz, visualização software
Statistica.
Considerando-se que, para grandes volumes de dados, a U-Matriz não é apropriada,
pode ser necessário utilizar algoritmos de partição de grafos, com o objetivo de
interpretar o resultado do mapa auto-organizável. Outra solução pode ser a utilização
de um algoritmo, como o k-means, citando somente um exemplo, para auxiliar a
interpretação do resultado da rede SOM.
5.4.5 Definição do número de clusters
A validação do agrupamento de dados possui diversos objetivos. Um deles é determinar
a tendência de agrupamento de um conjunto de dados para identificar se uma estrutura
57
não-aleatória de fato existe nos dados. A maioria dos algoritmos de agrupamento
encontra grupos mesmo em dados aleatórios. Outro objetivo é comparar os diversos
algoritmos de agrupamento ou determinar o valor mais apropriado de número de
agrupamentos.
Na bibliografia pesquisada não foi encontrado estudo para a determinação do tamanho
ideal do mapa auto-organizável. Experimentou-se definir o número de neurônios de
saída igual ao número desejado de agrupamentos, com resultado satisfatório, somente
para pequenos volumes de dados. Os testes mostraram, ainda, que os resultados obtidos
pelo SOM são particularmente sensíveis a variações nas dimensões da grade de saída m
x n.
Com o objetivo de definir o número ideal de agrupamentos, utilizou-se o índice
Calinski-Harabasz (1974). Utilizou-se também o índice Davies-Bouldin (1979) para
validar os resultados obtidos com o primeiro índice. Na Figura 5.4a, o índice CalinskiHarabasz foi calculado para os dados originais. A Figura 5.4b é similar e apresenta o
resultado calculado para os vetores de saída do mapa auto-organizável, demonstrando
que o mapeamento de dados multivariados numa grade de dimensão menor resguardou
as propriedades dos dados originais.
Figura 5.4a Índice Calinski-Harabasz Figura
calculado para os dados originais.
5.4b
Índice
Calinski-Harabasz
calculado para os vetores de código resultantes
da rede SOM.
58
Utilizou-se o índice Calinski-Harabasz para definição do número ideal de agrupamentos
em cada teste realizado.
5.5 Aplicação do IF em Tarefas de Mineração de Dados
Inicialmente, a informação de localização espacial de cada bairro [coordenadas
geográficas (ou planas) (x,y)] foi incluída no vetor de características xk., em conjunto
com outros atributos. Em outro experimento, o valor do IF de cada bairro do município,
calculado para um atributo específico, foi incluído no vetor de características xk,,
também em conjunto com outros atributos a serem considerados no agrupamento de
dados. Diversos agrupamentos e análises foram realizados. Neste caso, o experimento
foi executado não somente usando dados de bairros e de setores censitários, porque o
volume de dados do segundo é maior. Com objetivo de testar a influência do IF no
agrupamento usando a rede SOM, comparou-se o valor do erro de quantização vetorial
nas duas configurações.
Entretanto, nos testes realizados, não houve mudança
significativa com a inclusão do IF.
5.6 Resultados dos Agrupamentos de Dados
5.6.1 Taxa de Crescimento da Contaminação
Figura 5.5 Resultado do agrupamento de dados de bairros por taxa de crescimento da
epidemia, visualização software Statistica, 1982 a 2005, município do Rio de
Janeiro.
59
Por meio do agrupamento de dados, segundo a taxa de crescimento de contaminação,
definiram-se três grandes grupos. O agrupamento um (cluster 1) é formado pelos
bairros de Centro, Saúde, Cidade Nova e Copacabana. A Figura 5.6 apresenta as taxas
de contaminação dos principais bairros. Verificou-se um padrão de crescimento
constante em cada bairro, apesar da variação entre os bairros.
Figura 5.6 Taxa de contaminação por bairro, 1982 a 1992, município do Rio de Janeiro.
Em seguida, com o objetivo de identificar a influência dos bairros nas respectivas
vizinhanças, realizou-se o agrupamento de bairros com o valor do IF no vetor de
características. O agrupamento de bairros (cluster 1) apresentou rápido crescimento
desse índice, indicando uma brusca expansão da contaminação 1985 a 1988, conforme
Figura 5.7.
35
30
25
20
15
10
5
0
-5
-10
IF83
IF85
IF87
IF89
IF91
IF93
IF95
IF97
IF99
Cluster 1
Cluster 2
Cluster 3
Figura 5.7 Resultado do agrupamento de bairros com atributo IF, visualização software
Statistica, 1982 a 2005, município do Rio de Janeiro.
60
O agrupamento de bairros permitiu identificar grupos bem distintos em relação a esse
atributo. Os bairros do Centro e da Saúde apresentaram uma expansão brusca seguida de
ma expansão mais branda e permanente na influência da vizinhança (cluster 1). O
cluster 2, formado por Santo Cristo, Cidade Nova, Flamengo, Glória, Catete e
Copacabana apresentou crescimento similar, entretanto, com valores inferiores de IF,
ao longo do período.
Figura 5.8 Valor do IF por bairro, 1982 a 1999, município do Rio de Janeiro.
5.6.2 Indices Econômico-sociais, Taxa de Contaminação e IF
Em seguida, realizou-se o agrupamento de bairros considerando-se as variáveis taxa de
contaminação da epidemia, IF e índices econômico-sociais. A Tabela 5.1 apresenta os
atributos econômico-sociais considerados: (1) percentual de domicílios alugados; (2)
percentual da população com segundo grau; (3) percentual da população com terceiro
grau; (4) percentual de famílias cujo chefe de família possui renda de até dois salários
mínimos; (5) percentual de famílias cujo chefe de família é mulher.
Estes atributos
foram escolhidos conforme estudo realizado sobre a relevância das variáveis com base
em proposta de SEIXAS et. al. (1995).
61
Tabela 5.1 Atributos econômico-sociais de um dos agrupamentos.
Nome
CENTRO
CIDADE NOVA
GLORIA
COPACABANA
Valor Máx Todos Bairros
Bairro Valor Máx
PDOMALUG
3.14
1.77
2.43
1.21
4.20
Saúde
PEST2G
0.78
-0.39
0.08
-0.84
7.79
Cidade Universitária
PEST3G
0.17
-0.12
1.01
1.43
5.80
Cidade Universitária
PREN02
-0.55
0.78
-1.25
-1.51
2.36
Acari
PCHEFMUL
1.45
0.95
2.11
1.91
5.86
Cidade Universitária
O resultado do agrupamento (principais clusters) está apresentado na Figura 5.9.
A
linha preta separa o resultado do agrupamento por IF. A linha dupla é o resultado do
agrupamento de bairros por atributo econômico-social, que considerou no agrupamento
um, os bairros de Santo Cristo, Cidade Nova, Centro e Saúde, no agrupamento dois, os
bairros do Flamengo, Copacabana, Catete e Glória. A linha tracejada apresenta o
resultado do agrupamento por taxa de contaminação, unindo no mesmo agrupamento os
bairros de Santo Cristo, Cidade Nova, Centro e Saúde. O fundo cinza é o resultado do
agrupamento, considerando-se as três variáveis em conjunto, e está representado na
Figura 5.10 pela cor preta. Nesse caso, o principal agrupamento incluiu os bairros
Cidade Nova, Centro, Saúde, Glória e Copacabana.
SANTO CRISTO
CENTRO
CIDADE NOVA
SAUDE
FLAMENGO
CATETE
GLORIA
COPACABANA
Figura 5.9 Agrupamentos de bairros (principais agrupamentos) com vetor de
características composto pelos atributos IF, taxa de contaminação e índices
econômico-sociais, 2005.
62
Figura 5.10 Agrupamento de bairros com vetor de características composto pelos
atributos IF, taxa de contaminação e índices econômico-sociais, visualização
software Spring, 2005.
5.6.3 Categoria de Exposição
As seguintes categorias foram consideradas: homo/bissexuais, heterossexuais, usuários
de drogas injetáveis, transfusão de sangue e ignorada – composta pelo agrupamento das
categorias simples correspondentes acrescidas das múltiplas, conforme o princípio de
hierarquização da Join United Nations Programme on HIV/aids (UNAIDS, 1999),
conforme hierarquia apresentada a seguir:
Hierarquia de modos presumíveis de transmissão.
1)
Perinatal
2)
Usuário de drogas injetáveis (UDI)
3)
Homo/bissexual masculino
4)
Pessoa que recebeu sangue (transfusão de sangue)/hemoderivados e hemofílicos.
5)
Pessoa que se infectou pela transmissão sexual
6)
Outras modalidades
7)
Ignorado
Em caso de múltiplos riscos, os casos serão atribuídos às categorias acima listadas,
seguindo a ordem hierárquica de modos presumíveis de transmissão. (UNAIDS, 1999)
63
A categoria de exposição classifica a forma de contaminação pelo vírus HIV. A Figura
5.11 apresenta a evolução da contaminação para as principais categorias de exposição.
Figura 5.11 Total de casos de aids por categoria de exposição, 1982 a 2005, município
do Rio de Janeiro.
A categoria homossexual apresentou o maior percentual de participação no total de
casos de aids até 1997, quando foi superada pela categoria heterossexual. Os bairros
foram agrupados, considerando-se o percentual por categoria de exposição do bairro e
variáveis relevantes. O resultado está resumido na Tabela 5.2 [os quadros apresentam
somente o(s) principal(ais) cluster(s) com as maiores participações por categoria de
exposição de cada período]:
Tabela 5.2 Resultado do agrupamento de dados por categoria [somente o agrupamento
com os maiores valores], períodos de 1982 até 1985 e 1982 até 1988, município do Rio
de Janeiro.
BAIRRO_85
COPACABANA
BANGU
FLAMENGO
TIJUCA
BOTAFOGO
GAVEA
LEBLON
SANTA TERESA
total
Homo até 85
0.24
0.06
0.12
0.02
0.04
0.06
0.04
0.06
0.64
BAIRRO_88
COPACABANA
BANGU
CENTRO
TIJUCA
BOTAFOGO
FLAMENGO
IPANEMA
VILA ISABEL
LEBLON
CATETE
SANTA TERESA
LARANJEIRAS
GAVEA
total
64
Homo até 88
0.15
0.09
0.06
0.05
0.05
0.05
0.02
0.02
0.02
0.02
0.01
0.02
0.02
0.57
Durante o
período de 1982 até 1988, a categoria de exposição homossexual foi
predominante em todos os bairros com ocorrências de aids. Cinco bairros da zona sul:
Copacabana, Flamengo, Botafogo, Ipanema e Gávea, em conjunto, foram responsáveis
por mais de cinqüenta por cento de todos os casos de contaminação em homossexuais
neste período. As Figuras 5.12a, 5.12b, 5.12c e 5.12d, apresentam as notificações de
aids das categorias homossexuais e heterossexuais de 1982 a 1988. As Figuras 5.12e e
5.12f apresentam o total de ocorrências, considerando-se o período de 1982 a 1999.
Observou-se o crescimento significativo de contaminação em homossexuais, em bairros
no sentido norte, leste e oeste até 1988. O crescimento na população de heterossexuais
também ocorreu neste mesmo sentido, de forma mais branda. A partir de 1988, o
crescimento ocorreu nos bairros da zona norte. Não foi identificada uma divisão de
bairros por categoria de exposição, conforme resultado do agrupamento de dados. As
notificações estão representadas por figuras geométricas em figuras distintas: círculo
(homossexual) e quadrado (heterossexual). Nestas figuras, os bairros com atributo
proporção de chefes de família com renda de até dois salários mínimos, estão
representados em cinza, com o objetivo de facilitar a comparação da proliferação da
epidemia e a renda das famílias. Observou-se que, a expansão da epidemia ocorreu nos
bairros com renda inferior. Os bairros com fundo cinza foram “preenchidos” pelas
figuras geométricas que representam as notificações de aids, ao longo do tempo.
Figura 5.12a Notificações de aids em homossexuais, 1982 a 1985, município do Rio de
Janeiro.
65
Figura 5.12b Notificações de aids em heterossexuais, 1982 a 1985, município do Rio de
Janeiro.
Figura 5.12c Notificações de aids em homossexuais, 1982 a 1988, município do Rio de
Janeiro.
66
Figura 5.12d Notificações de aids em heterossexuais, 1982 a 1988, município do Rio de
Janeiro.
Figura 5.12e Notificações de aids em homossexuais, 1982 a 1999, município do Rio de
Janeiro.
67
Figura 5.12f Notificações de aids em heterossexuais, 1982 a 1999, município do Rio de
Janeiro.
O agrupamento de bairros considerando-se todo o período, de 1982 a 2005 e o atributo
total de notificações de aids acumulado por categoria, além das variáveis relevantes,
separou em um cluster os bairros com maior percentual de ocorrências em todas as
categorias. Os bairros que compõem este agrupamento estão apresentados na Tabela
5.4.
Tabela 5.4 Resultado do agrupamento de bairros por categoria de exposição [somente o
agrupamento com os maiores valores], valor máximo por categoria, 1982 a 2005,
município do Rio de Janeiro.
Bairro
Homosexual
CENTRO
4.49
COPACABANA
9.95
TIJUCA
2.55
Valor Máx Todos Bairros
9.95
Bairro Valor Máx
Copacabana
Bissexual
4.13
9.19
3.61
9.19
Copacabana
Heterossexual
3.91
6.46
4.09
6.46
Copacabana
UDI Transfusão sangue
Ignorado
4.03
2.07
4.43
9.03
5.34
8.66
2.88
4.41
2.77
9.03
5.34
8.66
Copacabana
Copacabana Copacabana
A categoria de pessoas que realizaram transfusão de sangue apresentou redução superior
a cinqüenta por cento dos casos entre 1990 e 1992.
Após investigação sobre as
possíveis causas, constatou-se que, no ano de 1986 ocorreu a identificação de anticorpos HIV, fato que provavelmente explica esta redução.
68
5.6.4 Razão de Sexos
A variável razão de sexos (proporção de homem/mulher) apresentou o segundo maior
coeficiente de correlação com taxa de contaminação da epidemia. A queda da proporção
entre homens e mulheres contaminados indica o crescimento da contaminação de
mulheres (Figura 5.13 e Figura 5.14). O crescimento da contaminação em mulheres é
de 20% ao ano, representando o maior aumento relativo.
Figura 5.13 Percentual de homens e mulheres, 1982 a 2005, município do Rio de
Janeiro.
Figura 5.14 Razão de sexos, 1982 a 2005, município do Rio de Janeiro.
O agrupamento de bairros pela variável razão de sexos demonstrou que, no início da
epidemia, as maiores reduções na proporção razão de sexos ocorreram nos bairros da
69
zona sul e no Centro. Em 1999, as maiores reduções ocorreram nos bairros da zona
norte e da zona oeste, conforme apresentadas na Tabela 5.5.
O movimento de
crescimento da contaminação em mulheres acompanhou o crescimento da
contaminação na categoria de exposição homo e heterossexuais.
O mapa de renda
comprova que o crescimento das mulheres foi simultâneo ao empobrecimento da
população e ao movimento da epidemia para a zona norte. As Figuras 5.15a e 5.15b
apresentam o percentual de homens e mulheres por bairro, contaminados e vivos no
ano de 2005, nas quais o tom cinza-escuro representa os bairros com maiores taxas de
contaminação. Os homens são maioria nos bairros de Copacabana, Centro e Tijuca.
Esses bairros também apresentam as maiores taxas de contaminação em mulheres.
Entretanto, grande parte das mulheres reside em bairros da zona norte e oeste.
Tabela 5.5 Tabela de bairros com maiores reduções da razão de sexos, 1989 e 1999.
Maiores reduções
(1987-1989)
Copacabana
Anchieta
Rio Comprido
Lins de Vasconcelos
Ramos
Botafogo
Vaz Lobo
Razão de Sexos
-10,50
-8,17
-5,33
-5,00
-3,75
-3,50
-3,00
Maiores reduções
(1997-1999)
Jardim Guanabara
Engenho Novo
Bento Ribeiro
Jacaré
Todos os Santos
Lins de Vasconcelos
Tanque
Razão de Sexos
-25,50
-18,83
-11,40
-11,00
-11,00
-10,00
-8,00
Figura 5.15a Percentual de homens contaminados vivos por bairro, valores altos em tom
cinza-escuro, 2005, município do Rio de Janeiro.
70
Figura 5.15b Percentual de mulheres contaminadas vivas do bairro, valores altos em
tom cinza-escuro, 2005, município do Rio de Janeiro.
5.6.5 Nível de escolaridade
O nível de escolaridade apresentou o terceiro maior coeficiente de correlação com as
taxas de contaminação de bairros. A redução de escolaridade pode ser observada na
Figura 5.16. O empobrecimento da população de soropositivos ao longo do período
estudado, comprovado pela baixa renda das famílias nos bairros da zona da Leopoldina
e da zona norte (IBGE, Censo Demográfico, 1991 e 2000) foi associado à redução do
nível de escolaridade. A Figura 5.17 apresenta o percentual de chefes de família do
bairro com renda de até dois salários mínimos em 2005. O tom cinza-claro representa a
faixa de 2% a 19%, cinza-médio de 20% a 37% e cinza-escuro, de 38% a 56%.
A
Tabela 5.6 apresenta os bairros em ordem decrescente de percentual de pacientes com 8
a 11 anos de estudo. Com os dados disponíveis não foi possível identificar se o
empobrecimento é causa ou conseqüência do crescimento da contaminação em
mulheres.
71
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Ignorado
De 8 a 11 anos
De 3 a 7 anos
De 1 a 3 anos
Nenhuma
1982 1985
1988 1991
1994
1997
Figura 5.16 Anos de estudo de pacientes com notificações de aids, 1982 a 1999,
município do Rio de Janeiro.
Claro para
escuro:
2-19%
20-37%
38-56%
Figura 5.17 Percentual de chefes de família do bairro com renda de até dois salários
mínimos, 2005, município do Rio de Janeiro.
Tabela 5.6 Bairros com maior percentual de pacientes com escolaridade de 8 a 11 anos.
Bairro
%
Copacabana 18.70
Bairro
%
Leblon
3.02
Centro
2.93
Tijuca
6.74
Botafogo
4.92
Vila Isabel 2.49
Flamengo
4.31
Laranjeiras 2.23
Ipanema
4.04
Bangu
72
2.02
5.6.6 Resultados Obtidos com o Agrupamento de Dados
Usualmente, os mecanismos de difusão de epidemias reproduzem a estrutura social da
cidade, pressupondo-se, nesse caso, a interação entre semelhantes. Diferentemente,
identificou-se que a aids teve início com homens pertencentes a grupos com maior
renda e escolaridade, atingindo, em seguida, homens e mulheres de áreas periféricas da
cidade. A taxa de crescimento das mulheres é maior que a dos homens. Entretanto, os
homens ainda são maioria em valores absolutos. Não foi possível identificar uma
divisão de bairros por categoria de exposição, por intermédio de agrupamento de dados.
Por outro lado, o agrupamento dos bairros considerando-se o atributo IF, permitiu
identificar que a contaminação partiu da zona sul para o Centro, Leopoldina e seguiu em
direção à zona norte. A redução do nível de escolaridade e dos índices econômicosociais pode ser associada ao movimento em direção aos bairros das zonas norte e oeste
da cidade, considerando-se os índices econômico-sociais do IBGE. Apesar disso, os
bairros com maior volume de ocorrências, considerando-se todo o período, são Centro,
Copacabana e Tijuca.
O crescimento da contaminação em mulheres coincidiu com a redução do nível de
escolaridade e com o empobrecimento.
Entretanto, com os dados disponíveis não foi
possível identificar se o empobrecimento é causa ou conseqüência do crescimento da
contaminação em mulheres. Não há na bibliografia pesquisada, estudo similar com
dados do município do Rio de Janeiro. Estes padrões identificados foram utilizados nos
próximos capítulos da pesquisa.
5.7 Resumo
As principais características dos mapas auto-organizáveis são a ordenação topológica e
a representação da densidade dos dados de entrada no mapa. O agrupamento de dados
espaciais é uma das principais aplicações dos mapas auto-organizáveis.
O índice Calinski-Harabasz foi utilizado para definir o número ideal de agrupamentos.
A limitação do número de neurônios de saída ao número de agrupamentos é uma das
73
formas de se identificarem os agrupamentos existentes nos dados. Entretanto,
comprovou-se que esse método não é eficaz para grandes volumes de dados. Nesse
caso, pode ser necessário utilizar aumentar o total de neurônios da grade de saída e, em
seguida, utilizar um algoritmo de partição de grafos para interpretar o resultado.
Utilizou-se a informação de coordenadas geográficas dos bairros no vetor de
características, com objetivo de avaliar o impacto de informações sobre o espaço no
agrupamento. Experimentou-se, da mesma forma, a inclusão do índice de influência
espacial no vetor de características. Os resultados foram avaliados pelo índice de erro de
quantização vetorial, que mede a qualidade do mapa gerado. Entretanto, a inclusão do
IF, nos testes realizados não resultou em melhoria significativa, com redução do erro de
quantização vetorial. No presente capítulo, a IF foi utilizado como atributo de entrada
do vetor de características do agrupamento de bairros, com objetivo de expressar,
implicitamente, a dependência de cada bairro em relação à vizinhança no processo de
expansão da epidemia.
74
CAPÍTULO 6
ANÁLISE DA EPIDEMIA PELO VIRUS HIV
6.1 Introdução
Uma modelagem eficaz de qualquer epidemia deve considerar aspectos da geografia,
epidemiologia, estruturas sociais e a dinâmica dos atores envolvidos.
Estudos de
dinâmicas sociais como o de NOWELL e KLEINBERG (2003) e de KEMPE et. al.
(2005) indicam que em uma epidemia, a probabilidade de infecção de um nó da rede é
diretamente proporcional ao contato do nó com outros nós vizinhos infectados. Por
outro lado, os nós dessa rede não são estáticos e movimentam-se no espaço, o que torna
essa modelagem complexa.
O capítulo está dividido nos seguintes tópicos: 2. Objetivo; 3. Sistemas, Software e
Dados; 4. Conceitos; 5. Identificação das Fases da Epidemia; 6. Predição da Evolução
da Doença com Óbito; 7. Modelagem Espaço-Temporal; e 8. Resumo.
6.2 Objetivo
Como em todo sistema complexo, são inúmeros os desafios de identificar novos padrões
da epidemia pelo vírus HIV. No presente capítulo objetivou-se analisar a evolução da
epidemia no tempo. Os objetivos definidos foram: 1) identificar as fases da evolução da
epidemia, 2) realizar a predição da evolução da epidemia com óbito e 3) realizar a
modelagem espaço-temporal. Os objetivos definidos contribuem para o planejamento
de estratégias de ação preventivas ou assistenciais.
6.3 Sistemas, Software e Dados
Utilizou-se o software Statistica para definição das RNA utilizadas para realizar a
predição da evolução de epidemia por intermédio de séries temporais. Os casos são os
descritos no capítulo três.
75
6.4 Conceitos
6.4.1 Espaço
Para realizar a modelagem espaço temporal é necessário definir o conceito do termo
espacial.
Conforme mencionado na introdução, usualmente, em estudos sobre
epidemias, o conceito espacial está diretamente relacionado aos movimentos da
estrutura social envolvida e não só à localização geográfica. Entretanto, o registro sobre
a movimentação das pessoas infectadas (locais que freqüenta), não está disponível no
banco de dados utilizado.
Por esse motivo, o espaço nesse estudo, refere-se à
localização geográfica. Optou-se por utilizar o bairro de residência do paciente. A
Figura 6.1 apresenta os valores percentuais de ocorrências do bairro, em relação ao total
de casos e em relação à população do bairro, no período de 1982 a 2005.
10.00
0.30
9.00
0.25
8.00
7.00
0.20
6.00
5.00
0.15
4.00
0.10
3.00
2.00
0.05
1.00
0.00
0.00
% do total infec
% da pop bairro infec
Figura 6.1 Valores percentuais em relação ao total de casos e em relação à população do
bairro, 1982 a 2005, [ principais bairros ], município do Rio de Janeiro.
76
6.4.2 Séries Temporais
Séries temporais apresentam a evolução de uma ou mais variáveis em um período de
tempo. Para uma variável contínua no tempo, amostras são consideradas em intervalos
de tempo constantes, tornando-se dessa forma, uma série de valores discretos no tempo.
O objetivo da modelagem temporal é prever o valor da variável no instante s (t + k),
onde k > 0.
6.5 Primeiro Objetivo: Identificação das Fases da Epidemia
A segmentação da análise da epidemia objetivou facilitar a identificação de padrões
importantes para a proliferação da doença.
Utilizou-se o IF para medir as mudanças
bruscas da evolução da epidemia. A Figura 6.2 apresenta os bairros onde ocorreram as
dez maiores variações de IF, de 1982 a 1999. A partir de 2000, os valores de IF
sofreram pouca variação e, por isso, não foram considerados.
Figura 6.2 Bairros com dez maiores variações do IF, 1982 a 1999, município do Rio de
Janeiro.
6.5.1 Metodologia
Considerou-se a taxa de contaminação e o respectivo índice de influência espacial (IF)
para cada um dos cento e cinqüenta e três bairros a partir de 1983 até 2005. Durante o
77
ano de 1982, um único caso foi registrado no bairro de Bangú.
agrupamento de dados, utilizou-se o software Statistica 7.0.
Para executar o
Os resultados do
agrupamento de dados foram representados em um dendrograma, uma árvore que
apresenta a ordem de conexão. O corte do dendrograma em diferentes níveis resulta em
divisões da rede em um número menor ou maior de agrupamentos. Para facilitar a
análise inicial, utilizou-se um gráfico de linha com os valores da taxa de contaminação e
IF, com os bairros ordenados em função da posição no dendrograma. Desta forma, o
dendrograma resultante do agrupamento de dados hierárquico aglomerativo pode ser
comparado diretamente com os valores da taxa e do IF, para diferentes divisões da rede.
O dendrograma e o gráfico de linha das Figuras 6.3 e 6.4 facilitaram a análise. No ano
de 1983 o bairro de Sampaio apresentou taxa alta e IF baixo. Isso é explicado porque
nenhum bairro vizinho a Sampaio apresentou caso de AIDS naquele ano. Em 1984, o
bairro de Cidade Nova apresentou a maior taxa de contaminação e maior IF. O valor
alto de IF é justificado porque os vizinhos de Cidade Nova, Centro, Rio Comprido e
Tijuca também já haviam notificado casos de aids.
Figura 6.3 Dendrograma e gráfico de bairros, taxa da população contaminada pelo vírus
HIV e IF, por bairro, 1983, município do Rio de Janeiro.
78
Figura 6.4 Dendrograma e gráfico de bairros, taxa da população contaminada pelo vírus
HIV e IF, 1984, município do Rio de Janeiro.
A análise de dendrograma e do gráfico de linha com os valores da taxa de contaminação
da população do bairro e o valor do IF, em conjunto, facilitou a análise da evolução da
epidemia no espaço (bairro). Entretanto, este tipo de visualização é útil para pequenos
conjuntos de dados. Para identificar as fases da epidemia, considerou-se o IF uma
medida de conectividade da rede.
6.5.2 Proposta de Utilização do IF para Segmentação das Fases da Epidemia
Uma maneira de identificar pontos críticos na evolução de uma epidemia é através de
mudanças bruscas em medidas de conectividade da rede envolvida. Essa é a base da
teoria do Mundo-Pequeno (MILGRAN, 1969), que sugere que mudanças na ordem de
magnitude de medidas de conectividade da rede sejam consideradas para identificar os
pontos críticos da evolução temporal de uma epidemia.
Estudos sobre modelos
dinâmicos de redes sociais como o de NOOY et. al. (2005), afirmam que a
probabilidade de infecção de um nó da rede é função (sempre linear) do contato do nó
com os vizinhos infectados. Com base nestas teorias, utilizou-se o IF para identificar os
pontos críticos de proliferação da epidemia no tempo. Uma mudança brusca no índice
global de influência espacial indica uma mudança brusca na conectividade da rede.
Assim sendo, com base na variação deste índice, segmentou-se a epidemia em quatro
grandes grupos: uma fase inicial até 1988, caracterizada por mudanças bruscas do
79
índice, seguida de uma fase de proliferação da epidemia, de 1989 a 1992. A fase
seguinte, de 1993 a 1999, é caracterizada por uma estabilização do IF em todos os
bairros, exceto no bairro de Saúde. Finalmente, a fase de estabilização em todos os
bairros ocorre no período de 2000 a 2005, sem alteração brusca dos valores do IF, ou
seja, sem expansão geográfica significativa.
6.5.3 Identificação da Direção de Proliferação da Epidemia
Calculou-se o índice de influência espacial por direção-padrão a partir do foco da
epidemia em cada fase. A Tabela 6.1 apresenta os valores de IF90 e IF225 do bairro
Copacabana, ou seja, considerando-se o centróide de Copacabana como o eixo de
coordenadas, para definição de cada direção-padrão. Os valores de IF90 indicam a forte
influência dos bairros ao norte de Copacabana, com relação ao atributo taxa de
contaminação de aids do bairro, conforme apresentado nas Figuras 6.5a e 6.5b, com os
valores das taxas dos anos de 1988 e 1999, respectivamente. Ao contrário, a influência
dos bairros a noroeste de Copacabana (225º) não é expressiva, com valores 0.90 e 0.15
nos anos de 1988 e 1999.
Tabela 6.1 Índice de Influência Espacial por direção de Copacabana, 1988 e 1999.
IF por direção
1988
1999
IF90
6.31
6.90
IF225
0.90
0.15
80
Figura 6.5a Taxa de contaminação da aids por bairro, 1988, município do Rio de Janeiro
e retas na direção 90º e 225º a partir do centróide de Copacabana.
Figura 6.5b Taxa de contaminação da AIDS por bairro, 1999, município do Rio de
Janeiro e retas na direção 90º e 225º a partir do centróide de Copacabana.
6.5.4 Resultados obtidos
Através do cálculo do IFd por direção-padrão do bairro de Copacabana, centro da
epidemia na primeira fase, identificou-se o maior valor de IFd na direção 90º. A partir
da extremidade da reta imaginária que inicia em Copacabana nessa direção, calculou-se
mais uma vez o IFd , identificando-se a direção de 180º e assim sucessivamente
conforme apresentado na Figura 6.6.
A interpretação não é automática. Entretanto, o
cálculo do IFd relevante por fase da epidemia, permitiu identificar o movimento do
fenômeno estudado. As direções que prevaleceram foram no sentido norte, oeste e
norte. Apesar do cálculo do IFd ocorrer após o contágio e difusão da epidemia, ele
contribuiu para o conhecimento sobre o assunto estudado.
81
Legenda
1ª fase: Hotspot Copacabana e Centro
Figura 6.6 Prevalência de IFd por fase, município do Rio de Janeiro.
6.6 Segundo Objetivo: Predição da Evolução da Doença com Óbito
6.6.1 Análise de Séries Temporais
A análise da série temporal foi realizada através da decomposição em outras séries mais
simples. Usualmente, as séries mais simples são funções determinísticas do tempo
(CALOBA, 2002). A diferença (erro) entre a recomposição dessas séries simples e a
série real é uma série residual que, normalmente, inclui duas outras séries: uma série
cujo valor, em cada instante t, depende de forma complexa e não linear, dos valores da
série anteriores a t, e uma série de ruído randômico.
O objetivo da decomposição é identificar uma série residual que seja estacionária no
tempo. Uma série é dita estacionária no tempo se todos seus momentos estatísticos são
invariantes no tempo.
Esta condição é necessária para que os valores anteriores ao
tempo t possam ser usados para caracterizar estatisticamente a série em qualquer tempo.
No presente estudo, como é usual, garantiu-se que somente os dois primeiros
momentos, a média µ e a variância
2
, fossem invariantes no tempo. Neste caso, a
série é considerada fracamente estacionária no tempo.
82
Uma série pode sofrer transformações e decomposições, como a adição, a subtração ou
de outra série, que a torne estacionária no tempo. A decomposição aditiva é a mais
comum e nesse estudo, limitou-se ao seu uso.
A série de notificações de aids com fechamento óbito foi analisada em três domínios:
representação gráfica, correlograma e espectograma.
6.6.2 Análise no Domínio do Tempo
O coeficiente de correlação de Pearson r(x,y) ou simplesmente correlação, é uma
medida de dependência linear entre as variáveis x e y. A correlação varia no intervalo
[-1 , 1] (CALOBA, 2002). Considerando-se duas variáveis x e y independentes e
randômicas, o valor esperado de r será igual a zero. Conseqüentemente, o cálculo da
estatística de r a partir de N pares (x,y), i=1,.. N; resultará em uma distribuição normal
com média nula e desvio padrão igual a
1
N.
Desta forma, com um nível de
confiança de 95%, os valores de r de duas variáveis randômicas, sem correlação, estarão
entre
2
r
2
N e praticamente nenhum valor excederá
3 .
Assim sendo,
considerou-se o nível de confiança usualmente adotado de 95%, e a correlação entre
duas variáveis existente quando r
N.
2
6.6.2.1 Autocorrelação de uma Série Temporal
A autocorrelação de uma série temporal é a correlação da série entre o valor atual da
série s(t) e o valor atrasado de k unidades de tempo, s(t-k). Considerando-se N valores
de uma série estacionária no tempo, i = 1,...,N, e ( N – k ) pares (s(t), s(t+k)), t = 1,...,
N – k (CALOBA, 2002).
r k
1
2
s
1
N k
N k
t 1
s t
83
S
s t k
s
Onde µ é a média e
2
s
é a variância de s(t). O gráfico formado pelos eixos com valores
de s(k) e k é denominado autocorrelograma de s(t) (CHATFIELD 1989).
6.6.2.2 Correlação Cruzada entre Séries Temporais
A correlação cruzada entre duas séries temporais s1(t) e s2(t) estacionárias no tempo mede a
correlação entre a variável s2 no momento atual s2(t) e a variável s1 com atraso de k unidades
de tempo s1(t-k). Desta forma, a autocorrelação:
rs1s2 k
1
s1
onde
s1
,
s2
,
s1
,
s2
s2
1
N k
N k
t 1
s1 t
S1
s2 t k
s2
são as médias e desvios padrões de s1(t) e s2(t) respectivamente. O
gráfico é denominado correlograma entre as séries s1 e s2 (CALOBA, 2002).
Correlações somente são consideradas válidas após a extração da tendência da série.
6.6.3 Análise no Domínio da Frequência
Uma série s(t), t=1,2,...,N pode ser representada por uma soma de senóides.
N
1
2
s t
a0
Ri cos
i 1
Onde Ri2
2
it
N
i
aN
cos t
2
ai2 bi2 é a energia com que a senoide de freqüência f i
a série. O gráfico de Ri2 f i versus f i
i N contribui para
i N é o espectograma da série. Frequências
com contribuições significativamente acima da média indicam formas repetitivas no
tempo, ou sazonalidades.
Espectrogramas somente são calculados após a extração da
tendência da série. A energia contida na tendência altera aspectos importantes do seu
conteúdo.
84
No presente estudo, utilizou-se a Transformada Rápida de Fourier ou FFT, do termo em
inglês Fast Fourier Transform, implementado através do software Statistica 7.0. A
transformada rápida de Fourier (FFT) é um eficiente algoritmo para calcular a
transformada de Fourier discreta (DFT) e sua inversa. Existem muitos algoritmos FFT.
A DFT decompõe uma sequência de valores em componentes de diferentes freqüências.
Apesar de útil, o cálculo da DFT é pouco pratico. O algoritmo FFT é uma maneira de
calcular o mesmo resultado mais rapidamente. O cálculo da de uma DFT de N pontos,
utiliza O (N2) operações aritméticas, enquanto uma FFT pode calcular o mesmo
resultado em apenas O (N log N) operações. As FFT são de grande importância para
uma ampla variedade de aplicações, a partir de processamento digital de sinais e
resolver equações diferenciais parciais a algoritmos para uma rápida multiplicação de
grandes inteiros. A idéia geral de uma FFT foi popularizada por uma publicação de
COOLEY e TUKEY (1965). O desenvolvimento do FFT é descrito por COOLEY et. al.
(1967).
Muitos trabalhos posteriores foram publicados em IEEE Transactions on
Acoustics, Speech and Signal Processing. O desenvolvimento da FFT é apresentado,
entre outros autores, por BLOOMFIELD (1976) e por PRIESLEY (1981).
6.6.4 Decomposição Clássica de Séries Temporais
A decomposição clássica de séries temporais é usualmente realizada extraindo-se a
tendência, a sazonalidade e as componentes senoidais. Além disso, os valores são
normalizados para a faixa [-1,1] antes desta decomposição.
Comportamentos
irregulares, com mudanças bruscas na série foram desconsiderados antes da
decomposição. Um exemplo de mudança brusca ocorreu com a redução de pessoas
contaminadas pelo vírus HIV entre 1990 e 1992.
6.6.5 Resultados obtidos
6.6.5.1 Predição da Série de Óbitos: Primeiro Modelo
A análise de séries temporais foi utilizada com os dados da evolução da doença com
fechamento óbito, no período de 1985 a 2005, para o qual a predição foi realizada. Em
2002, período 204 na Figura 6.7, a série sofreu uma mudança significativa em sua
85
tendência. A Figura 6.7a apresenta a série com valores normalizados e a Figura 6.7b, a
série após a retirada da tendência e da sazonalidade.
Variável total de óbitos normalizada
z(x,M=50.45,S=26.29);
4
3
3
2
2
1
1
0
0
-1
-1
-2
-2
SIT2
4
-3
-20
0
20
40
60
80
100
120
140
160
180
200
220
240
-3
260
SIT2SZ
Figura 6.7a Série de óbitos normalizada, 1985 a 2005, município do Rio de Janeiro.
4
4
3
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-20
0
20
40
60
80
100
120
140
160
180
200
220
240
-3
260
Figura 6.7b Série de óbitos normalizada, sem tendência e sem sazonalidade, 1985 a
2005, município do Rio de Janeiro.
O espectograma obtido por FTT da série de óbitos da Figura 6.7b, está apresentado na
Figura 6.8 e indica freqüências dominantes, que foram extraídas pelo programa de
cálculo da FFT. O resultado está apresentado na Figura 6.9. A série após a retirada dos
ciclos senoidais está apresentada na Figura 6.10.
86
Periodogram Values
5
5
4
4
3
3
2
2
1
1
0
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0
0.50
0.45
Frequency
Periodogram Values
Figura 6.8 Espectograma da série de óbitos, obtido por intermédio da FFT.
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.0
0.50
Frequency
Figura 6.9 Espectograma da série de óbitos após a retirada das freqüências dominantes.
87
sit2_sciclo2
P lot of variable: sit2_sciclo2
2.5
2.5
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.0
-1.5
-20
0
20
40
60
80
100
120
140
160
180
200
220
240
-1.5
260
Figura 6.10 Série residual sem ciclos senoidais.
Em seguida, calculou-se a autocorrelação (Figura 6.11), que é a ferramenta natural para
a análise de um processo estocástico no tempo (CHATFIELD, 1989). A autocorrelação
parcial (Figura 6.13) permite identificar os períodos de tempo (atraso em meses) que
podem ser utilizados como variáveis de entrada do modelo de previsão em uma rede
neural.
Autocorrelation Function
Lag
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
(Standard errors are white-noise estimates)
Corr. S.E.
+.415 .0626
+.150 .0625
+.049 .0624
-.111 .0622
-.209 .0621
-.123 .0620
-.155 .0619
-.089 .0617
-.183 .0616
-.148 .0615
-.071 .0614
+.010 .0612
+.058 .0611
+.120 .0610
+.032 .0608
+.026 .0607
+.005 .0606
+.004 .0605
+.044 .0603
-.017 .0602
+.031 .0601
-.038 .0599
-.084 .0598
-.108 .0597
-.066 .0596
-.139 .0594
-.035 .0593
+.035 .0592
+.061 .0590
+.080 .0589
+.138 .0588
+.026 .0586
-.011 .0585
-.135 .0584
-.101 .0582
-.116 .0581
-.040 .0580
-.047 .0578
-.019 .0577
+.002 .0576
+.095 .0574
+.087 .0573
+.191 .0571
+.203 .0570
+.154 .0569
+.089 .0567
+.036 .0566
-.066 .0565
-.086 .0563
-.126 .0562
0
-1.0
-0.5
0.0
0.5
Q
43.88
49.62
50.25
53.43
64.79
68.76
75.02
77.08
85.92
91.69
93.02
93.04
93.95
97.81
98.09
98.27
98.28
98.28
98.82
98.90
99.17
99.57
101.6
104.8
106.1
111.5
111.8
112.2
113.3
115.1
120.6
120.8
120.9
126.2
129.2
133.2
133.7
134.4
134.5
134.5
137.2
139.5
150.7
163.4
170.7
173.2
173.6
174.9
177.3
182.3
0
p
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
.0000
1.0
Figura 6.11 Função de autocorrelação da série residual.
88
Conf. Limit
Partial Autocorrelation Function
(Standard errors assume AR order of k-1)
Lag
Corr. S.E.
1
+.415 .0630
2
-.027 .0630
3
-.004 .0630
4
-.153 .0630
5
-.132 .0630
6
+.032 .0630
7
-.112 .0630
8
+.016 .0630
9
-.222 .0630
10
-.033 .0630
11
-.015 .0630
12
+.027 .0630
13
+.018 .0630
14
-.002 .0630
15
-.085 .0630
16
-.012 .0630
17
-.006 .0630
18
+.004 .0630
19
+.045 .0630
20
-.107 .0630
21
+.098 .0630
22
-.118 .0630
23
+.010 .0630
24
-.097 .0630
25
-.001 .0630
26
-.140 .0630
27
+.036 .0630
28
+.046 .0630
29
-.013 .0630
30
+.042 .0630
31
+.017 .0630
32
-.072 .0630
33
-.074 .0630
34
-.134 .0630
35
-.027 .0630
36
-.060 .0630
37
+.035 .0630
38
-.062 .0630
39
-.044 .0630
40
+.014 .0630
41
+.063 .0630
42
-.014 .0630
43
+.119 .0630
44
+.028 .0630
45
+.053 .0630
46
+.027 .0630
47
+.037 .0630
48
-.022 .0630
49
-.050 .0630
50
-.036 .0630
0
-1.0
-0.5
0.0
Conf. Limit
0.5
1.0
Figura 6.12 Função de autocorrelação parcial da série residual.
Os resultados da função de autocorrelação e da função de autocorrelação parcial da
série, apresentados nas Figuras 6.11 e 6.12, caracterizam a dependência dessa variável
no tempo. Considerando-se o conjunto de atrasos com correlação significativa, foram
utilizados inicialmente como entradas da RNA, os valores da série com atrasos de cinco,
nove e vinte e seis atrasos. Após os testes, somente as entradas com cinco e nove
atrasos foram consideradas na camada de entrada da RNA.
Experimentalmente,
chegou-se a uma RNA com seis neurônios na camada intermediária para previsão do
valor da série residual. A Figura 6.13 apresenta os resultados obtidos para a saída real e
a prevista desta RNA. As séries são coloridas para permitir a análise. O erro relativo
absoluto médio, para os doze primeiros meses, do conjunto de teste foi de 1.8%.
89
2.5
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.0
-1.5
0
20
40
60
80
100
sit2_sciclo2 (L)
120
140
160
180
200
sit2_sciclo2_predito:
sit2_sciclo2:
2.5
-1.5
220
sit2_sciclo2_predito (R)
Figura 6.13 Período de teste, série real e previsão.
6.6.5.2 Predição da Série de Óbitos: Segundo Modelo
No segundo modelo, as variáveis com correlação significativa com a série de óbitos
foram consideradas como entrada da RNA, com os respectivos atrasos identificados na
análise das séries no domínio do tempo.
Calculou-se a correlação cruzada entre a série de óbitos e a série de notificações de aids.
Da mesma forma, o cálculo foi realizado considerando-se as séries formadas por
sintomas e doenças indicativas de casos de aids, conforme critério adotado pelo
Ministério da Saúde para pessoas com treze anos ou mais. Os critérios considerados
foram critério CDC adaptado e o critério Brasil/Caracas adotados pelo Ministério da
Sáude (2004). Inesperadamente, não foi identificada correlação significativa com as
séries de sintomas.
Por outro lado, o resultado da análise considerando-se os
indicadores econômico-sociais, indicou uma forte correlação entre a série de óbitos e a
série de pacientes com escolaridade de um a três anos de estudo. A Figura 6.14
apresenta as séries após a retirada de tendência e sazonalidade. Verificou-se também
uma significativa correlação com a série de pacientes do sexo masculino. Entretanto,
após a retirada da tendência e sazonalidade, essa correlação decresceu. Observou-se
também uma significativa correlação com todas as faixas etárias, com variação do
atraso por faixa etária.
Finalmente, observou-se uma significativa correlação com a
90
série formada pelo atributo contagem de linfócitos CD+4 inferior a 350 células/mm3. A
4
4
3
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-20
0
20
40
60
80
100
120
ESC2SZ (L)
140
160
180
200
220
240
SIT2SZ:
ESC2SZ:
Figura 6.15 apresentada as séries após a retirada de tendência e sazonalidade.
-3
260
SIT2SZ (R)
Figura 6.14 Série de óbitos e série de pacientes com escolaridade de um a três anos,
após a retirada de tendência e da sazonalidade, 1985 a 2005, município do Rio
de Janeiro.
Figura 6.15 Séries de óbitos e CD+4 inferior a 350 células/mm3, após a retirada de
tendência e sazonalizadade, 1985 a 2005, município do Rio de Janeiro.
A correlação cruzada é a ferramenta natural para a análise da relação entre duas séries
no domínio do tempo.
Para a análise baseada na função de densidade espectral,
denominada análise no domínio da freqüência (CHATFIELD, 1989), calculou-se a
correlação cruzada entre as variáveis, identificando-se as freqüências características dos
91
eventos que influenciam na variabilidade da evolução da epidemia com óbito. Analisouse a coerência entre os picos das séries, verificando-se a correlação linear existente entre
espectro de duas variáveis, no processo denominado Bivariado (CHATFIELD, 1989).
CrossCorrelation Function
First : SIT2SZ
Lagged: ESC2SZ
Lag
-25
-24
-23
-22
-21
-20
-19
-18
-17
-16
-15
-14
-13
-12
-11
-10
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Corr. S.E.
.3583
.3645 .0664
.0662
.3704
.3756 .0661
.0659
.3988
.4369 .0658
.0657
.4497
.0655
.4440
.4714 .0654
.0652
.4804
.4766 .0651
.0650
.5133
.5302 .0648
.0647
.5313
.5354 .0645
.0644
.5442
.0643
.5473
.5768 .0642
.0640
.6055
.6130 .0639
.0638
.6051
.6296 .0636
.0635
.6678
.6888 .0634
.0632
.7513
.0631
.8300
.7454 .0630
.0631
.6940
.6523 .0632
.0634
.6205
.5909 .0635
.0636
.5616
.5187 .0638
.0639
.5042
.0640
.4501
.4330 .0642
.0643
.4478
.4351 .0644
.0645
.4061
.3830 .0647
.0648
.3641
.3518 .0650
.0651
.3261
.0652
.3244
.3076 .0654
.0655
.2835
.2695 .0657
.0658
.2230
.2027 .0659
.0661
.1861
.1714 .0662
.0664
0
-1.0
Conf . Limit
-0.5
0.0
0.5
1.0
Figura 6.16a Correlação cruzada entre a série de óbitos e série de pacientes com
escolaridade de um a três anos, 1985 a 2005, município do Rio de Janeiro.
CrossCorrelation Function
First : SIT2SZ
Lagged: I35-39SZ
Lag
-30
-29
-28
-27
-26
-25
-24
-23
-22
-21
-20
-19
-18
-17
-16
-15
-14
-13
-12
-11
-10
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Corr..0671
S.E.
.1144
.1214
.0670
.1424
.0668
.1390
.0667
.1184
.0665
.1367
.1392 .0664
.0662
.1650
.0661
.2035
.0659
.2258
.0658
.2319
.0657
.2389
.2264 .0655
.0654
.2615
.0652
.2754
.0651
.3061
.0650
.3423
.0648
.3749
.3476 .0647
.0645
.3819
.0644
.3826
.0643
.3938
.0642
.4289
.0640
.4356
.0639
.4377
.0638
.4366
.0636
.4707
.0635
.5292
.0634
.5707
.0632
.6385
.0631
.7512
.0630
.6594
.0631
.5963
.0632
.5969
.0634
.5564
.0635
.5420
.0636
.5701
.0638
.5440
.0639
.5507
.0640
.5083
.0642
.5006
.0643
.5133
.0644
.5196
.0645
.5135
.0647
.5010
.0648
.4700
.0650
.4500
.0651
.4622
.0652
.4611
.0654
.4509
.0655
.4391
.0657
.4326
.4021 .0658
.0659
.3927
.0661
.3721
.0662
.3719
.0664
.3147
.0665
.2916
.2813 .0667
.0668
.2848
.2619 .0670
.0671
0
-1.0
Conf. Limit
-0.5
0.0
0.5
1.0
Figura 6.16b Correlação cruzada entre a série de óbitos e série de pacientes na faixa
etária de 35 a 39 anos, após a retirada de tendência e da sazonalidade, 1985 a
2005, município do Rio de Janeiro.
92
CrossCorrelation Function
First : SIT2SZ
Lagged: I30-34SZ
Lag
-25
-24
-23
-22
-21
-20
-19
-18
-17
-16
-15
-14
-13
-12
-11
-10
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Corr..0664
S.E.
.1384
.1553
.0662
.1691
.0661
.1884
.2338 .0659
.0658
.2409
.0657
.2823
.0655
.3128
.0654
.3032
.0652
.3065
.0651
.3394
.0650
.3403
.0648
.3686
.0647
.3846
.0645
.4208
.0644
.4369
.0643
.4641
.0642
.4764
.5010 .0640
.0639
.5166
.0638
.5696
.0636
.5894
.0635
.6047
.0634
.6088
.0632
.6499
.0631
.7301
.0630
.6827
.0631
.6520
.0632
.6433
.0634
.6203
.0635
.5760
.0636
.5817
.0638
.5669
.0639
.5793
.0640
.5580
.0642
.5493
.0643
.5487
.0644
.5649
.0645
.5764
.0647
.5726
.0648
.5472
.0650
.5373
.0651
.5239
.0652
.5299
.0654
.4987
.0655
.4674
.4682 .0657
.0658
.4668
.0659
.4479
.0661
.4578
.4345 .0662
.0664
0
-1.0
Conf. Limit
-0.5
0.0
0.5
1.0
Figura 6.16c Correlação cruzada entre a série de óbitos e série de pacientes na faixa
etária de 30 a 34 anos, após a retirada de tendência e da sazonalidade, 1985 a
2005.
CrossCorrelation Function
First : SIT2SZ
Lagged: AIDSSZ
Lag
-25
-24
-23
-22
-21
-20
-19
-18
-17
-16
-15
-14
-13
-12
-11
-10
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Corr. S.E.
.2431 .0664
.2387 .0662
.2420 .0661
.2450 .0659
.2475 .0658
.2497 .0657
.2634 .0655
.2655 .0654
.2706 .0652
.2744 .0651
.2851 .0650
.2936 .0648
.2927 .0647
.3027 .0645
.3024 .0644
.2975 .0643
.3016 .0642
.3142 .0640
.3128 .0639
.3243 .0638
.3201 .0636
.3366 .0635
.3523 .0634
.3580 .0632
.3982 .0631
.4659 .0630
.4018 .0631
.3781 .0632
.3584 .0634
.3325 .0635
.3088 .0636
.3110 .0638
.2869 .0639
.2809 .0640
.2579 .0642
.2357 .0643
.2404 .0644
.2501 .0645
.2387 .0647
.2275 .0648
.2094 .0650
.1903 .0651
.1809 .0652
.1641 .0654
.1498 .0655
.1230 .0657
.1214 .0658
.0980 .0659
.0877 .0661
.0753 .0662
.0661 .0664
0
-1.0
Conf. Limit
-0.5
0.0
0.5
1.0
Figura 6.16d Correlação cruzada entre a série de óbitos e série de notificações de aids,
após a retirada de tendência e da sazonalidade, 1985 a 2005.
93
Para a análise no domínio da freqüência, realizou-se a análise do espectro cruzado entre
as séries, no processo denominado bivariado. A série CD+4 inferior a 350 células/mm3
apresentou densidade espectral alta para os períodos de seis, sete, vinte e dois e vinte e
cinco meses, conforme Tabela 6.2. A coerência mede o quadrado da correlação linear
entre os dois componentes do processo bivariado na freqüência considerada e é análogo
ao quadrado do coeficiente de correlação. Através dos valores altos de coerência entre
as séries comprovou-se a correlação linear entre as variáveis para atrasos de seis
períodos, assim como para atrasos de vinte e dois e vinte e cinco meses.
Tabela 6.2 Espectro cruzado entre as séries de óbitos e de escolaridade de um a três
anos.
Frequência
0.163
0.044
0.040
0.131
0.095
Período
6.146
22.909
25.200
7.636
10.500
Densidade
Espectral Amplitude Coerência
1.607
0.611
0.959
2.217
2.234
0.952
2.974
2.976
0.946
1.601
0.611
0.940
0.838
0.908
0.930
Os maiores valores de densidade espectral ocorreram para atrasos de vinte e cinco e
vinte e dois períodos. A maior coerência ocorreu para atrasos de seis períodos. Essas
informações foram consideradas nos testes para definição do modelo de predição.
Os
valores das variáveis com os respectivos atrasos foram considerados como entrada da
RNA.
Tabela 6.3 Espectro cruzado entre as séries de óbitos e de escolaridade 1 - 3 anos.
Frequência
0.142857
0.067460
0.043651
0.039683
0.023810
Período
7.0000
14.8235
22.9091
25.2000
42.0000
Densidade
Espectral Amplitude Coerência
0.99601
0.99992 0.905224
1.74806
1.78372 0.890544
3.50925
3.57700 0.882909
3.95224
4.13331 0.791450
2.50136
2.57758 0.759659
94
Além do atributo CD+4 Considerou-se um atraso de seis períodos para a série de
pacientes com escolaridade de um a três anos. Considerou-se ainda, como entrada da
rede, o total de casos de aids notificados com atraso de um período, com objetivo de
informar à rede o total de ocorrências do período. Após experimentos, a topologia da
RNA foi especificada com a camada de entrada formada por valores do atributo CD+4
com atrasos de seis, vinte e dois e vinte e cinco períodos e o atributo de escolaridade
entre um e três anos com atraso de sete e vinte e dois períodos, e finalmente da série de
notificações de aids com atraso de um período.
Posteriormente, verificou-se que
mantendo-se somente as entradas de CD+4, o desempenho era praticamente o mesmo.
O total de duzentos e cinqüenta e dois pares de entrada e saída, referente aos valores das
séries por mês / ano, referente ao período de 1985 a 2005, foram utilizados. Deste total,
cinqüenta por cento para treinamento, trinta para verificação e vinte para teste da RNA
de múltiplas camadas com algoritmo backpropagation. Apesar de pequena quantidade
de dados para treinamento, o resultado foi satisfatório. Essa arquitetura de RNA
apresentou o melhor desempenho com a configuração de nove neurônios na camada
intermediária e funções de ativação linear para a camada de entrada e saída e função de
ativação tangente hiperbólica para camada intermediária. As predições de óbitos foram
realizadas para seis períodos. A Tabela 6.4 apresenta os resultados obtidos conforme o
número de épocas. O melhor desempenho ocorreu com quinhentas épocas com erros
iguais a 0.0082 e 0.0083 para treinamento e verificação respectivamente. A Figura 6.17
apresenta a relação entre os valores observados e previstos.
Tabela 6.4 Erros de treinamento e verificação da RNA MLP de 3 camadas.
Épocas
100
500
700
Erro de treinamento
0.1021
0.0082
0.0084
95
Erro de verificação
0.1933
0.0083
0.0085
Figura 6.17 Valores observados e previstos, visualização Statistica.
6.7 Terceiro Objetivo: Modelagem Espaço-Temporal
Os atributos utilizados foram selecionados conforme método de relevância de variáveis
proposto por SEIXAS et. al. (1995) e, também, considerando-se o resultado do
agrupamento de bairros realizado no capítulo cinco. A avaliação do modelo, mais uma
vez, foi realizada com vinte anos de epidemia. Dois modelos que combinam diferentes
fatores foram avaliados.
incidência.
Um dos modelos explica parcialmente a variação da
Nenhuma variável relacionada à epidemia foi utilizada. A camada de
entrada da rede foi composta somente por índices econômico-sociais com o objetivo de
realizar a predição da taxa de contaminação do bairro. Nesse teste, o resultado obtido
não foi aceitável. Em seguida, após a inclusão do índice de influencia espacial na
camada de entrada do RNA, o modelo produziu estimativas mais acuradas.
Mais uma vez, para a análise da série no domínio do tempo, calculou-se a correlação
cruzada, que é a ferramenta natural para a análise de correlação entre séries no tempo
(CHATFIELD, 1989). Em seguida, calculou-se o espectro cruzado entre as variáveis,
identificando-se as freqüências características dos eventos que influenciam na
variabilidade da evolução da epidemia. Analisou-se a coerência entre os picos das
séries, verificando-se a correlação linear existente entre espectro de duas variáveis, no
processo denominado Bivariado (CHATFIELD, 1989).
96
Objetivou-se identificar as influências de variáveis relacionadas ao espaço e ao
ambiente na evolução da doença.
As séries de ocorrências da epidemia foram
analisadas juntamente com variáveis consideradas determinantes de saúde, como: (i)
condições e estilos de vida (índice de desenvolvimento social do bairro e proporção de
domicílios alugados, entre outras), grau de instrução (proporção de chefes de família
com terceiro grau e por faixa de anos de estudo, entre outras) e; (ii) situação ambiental,
traduzido pelos índices sanitários do bairro da residência da pessoa infectada. Neste
último conjunto, nenhuma variável mostrou-se relevante. As variáveis consideradas no
modelo foram: proporção de domicílios alugados, proporção de responsáveis pelo
domicílio com rede de até dois salários, proporção de responsáveis pelo domicílio com
terceiro grau, conforme definição de variáveis relevantes apresentado no capítulo 3.
A camada de entrada da RNA de três camadas, recebeu o identificador do bairro, os
valores da taxa de contaminação por mês/ano, de cada um dos cento e cinqüenta e três
bairros, e o valor do índice de influência espacial referente à taxa de contaminação do
bairro no mês/ano, além das variáveis relevantes. O ciclo da série temporal considerado
foi de doze meses. O neurônio da camada de saída é a taxa prevista de contaminação do
bairro para um mês no futuro. Os cinco melhores resultados desta configuração estão
apresentados na Tabela 6.5. O erro absoluto médio foi de 3.8%. Não foi possível
realizar com sucesso a modelagem com a RNA que não recebeu a informação do
atributo índice de influência espacial do bairro na camada de entrada obteve um
resultado muito inferior, invalidando a modelagem.
Tabela 6.5 Resultado parcial da RNA para predição da taxa de contaminação do bairro.
bai.1
Data Mean
Data S.D.
Error Mean
Error S.D.
Abs E. Mean
S.D. Ratio
Correlation
32.59748
34.58198
-0.19715
3.95542
1.26705
0.11438
0.99353
Tx_ano.1
bai.2
Tx_ano.2
bai.3
Tx_ano.3
bai.4
Tx_ano.4
bai.5
Tx_ano.5
6.274476 32.59748 6.274476 32.59748 6.274476 32.59748 6.274476 32.59748 6.274476
5.771567 34.58198 5.771567 34.58198 5.771567 34.58198 5.771567 34.58198 5.771567
-0.010961 -0.06244 0.017757 -0.10471 -0.006256 -0.10745 0.038832 -0.06133 0.025515
1.070499 3.74167 0.988237 3.73755 0.932536 4.01468 1.008170 3.00481 0.948174
0.413338 0.91970 0.345035 0.69735 0.298192 1.04206 0.398266 0.94709 0.285458
0.185478 0.10820 0.171225 0.10808 0.161574 0.11609 0.174679 0.08689 0.164284
0.982684 0.99413 0.985254 0.99415 0.986864 0.99324 0.984681 0.99622 0.986429
97
6.8 Resumo
Em razão das profundas modificações nos estágios evolutivos da infecção pelo HIV, o
exame das tendências da epidemia deve combinar dados provenientes dos casos do
passado, com aqueles derivados da investigação e identificação de novos padrões da
doença. Através da análise integrada das notificações da doença com diferentes períodos
e condições de manifestação, objetivou-se identificar as influências de variáveis
relacionadas ao espaço e ao tempo na evolução da doença. Não foi identificada
correlação significativa com as variáveis relacionas ao meio ambiente como condições
sanitárias, número de banheiros, rede de esgoto, entre as variáveis apresentadas no
Anexo Indicadores Econômico-Sociais.
Por outro lado, a identificação da forte
correlação dos óbitos com algumas variáveis, conforme apresentado no capítulo,
demanda ações de controle e pesquisa. A identificação de pacientes com contagem de
CD+4 acima de 350mm, fortemente correlacionada ao óbito pode efetivamente reduzir
o total de casos com óbito.
A predição da taxa de contaminação por bairro obteve resultado razoável com a
inclusão do índice de influencia espacial na camada de entrada da RNA definida.
98
CAPÍTULO 7
ANALISE DA EPIDEMIA COM A ABORDAGEM DE REDES COMPLEXAS
7.1 Introdução
Os movimentos de indivíduos em locais distintos, assim como o contato entre grupos de
pessoas diferentes são essenciais na modelagem de uma epidemia. Os deslocamentos
diários das pessoas de um local para outro, como entre residência e local de trabalho,
formam uma rede dinâmica de interações espaciais entre pessoas.
O estudo dessas
interações espaciais é complexo por diversos motivos. Inicialmente, há a dificuldade
em obter esse tipo de informação. A segunda dificuldade é a quantidade de variáveis
envolvidas, além do grande volume de dados, o que torna a modelagem desse sistema
uma tarefa bastante complexa.
No presente capítulo, analisou-se a epidemia pelo vírus HIV como um problema de
redes complexas. Os padrões identificados por intermédio das tarefas de mineração de
dados geográficos, na segunda parte da tese, foram analisados com esta abordagem.
As análises consideraram pessoas (pacientes), locais(bairros e unidades hospitalares) e
as relações entre eles. Entretanto, os pacientes que residem em um bairro não são
estáticos e movimentam-se constantemente. Além disso, a infecção pelo vírus HIV
depende de inúmeros fatores, que, inclusive, não estão diretamente relacionadas a essa
movimentação, mas a hábitos e práticas sexuais, entre outras variáveis. Apesar disso, o
presente estudo, propõe-se a analisar a rede como uma entidade estática, baseando-se
nas conexões formadas pela geografia. As tarefas de mineração de dados, assim como a
análise do índice de influência espacial comprovaram a importância da vizinhança na
proliferação da epidemia. Por esse motivo, buscou-se integrar as informações e padrões
identificados às redes complexas, numa tentativa de explicar, por intermédio da
estrutura da rede, o fenômeno estudado.
Os seguintes tópicos são apresentados: 2. Objetivo 3. Sistemas, Software e Dados, 4.
Conceitos, 5. Análise da Difusão da Epidemia, 6. Resultados Obtidos e 7. Resumo.
99
7.2 Objetivo
O capítulo apresenta a influência da estrutura da rede formada na difusão da epidemia e
o momento da formação da massa critica na evolução da epidemia. Na análise de redes
sociais, estuda-se a estrutura da rede, responsável pela transmissão de comportamentos,
atitudes, doenças. Objetivou-se identificar padrões de contágio de difusão da epidemia e
integrar os padrões identificados na primeira parte da tese com a abordagem de redes
sociais.
7.3 Sistemas, Software e Dados
Utilizaram-se o software Pajek e também o Netdraw. Os conceitos apresentados foram
extraídos, principalmente, de NOOY et. al. (2005). Os exemplos são os desenvolvidos
no presente estudo. A base de dados de notificações de aids, de 1982 a 2005, do
Sistema Nacional de Notificação (SINAN), mais uma vez foi utilizada. Em alguns
casos, porém, o período foi segmentado.
7.4 Conceitos
O principal objetivo de uma rede social é identificar e interpretar padrões de conexões
sociais entre os atores da rede. A teoria de redes sociais é originária da teoria dos
grafos. Um grafo representa a estrutura da rede, através dos vértices e de um conjunto
de linhas, que são as conexões entre os vértices.
Os conceitos apresentados são necessários ao entendimento do estudo realizado e da
proposta apresentada. Entretanto, esse tópico não se propõe a apresentar todos os
conceitos relacionados a redes sociais.
7.4.1 Cálculo, Medidas de Estrutura da Rede e Visualização
Na análise de redes sociais, algumas medidas referem-se à rede total, enquanto outras
resumem a posição estrutural de uma sub-rede ou de um único vértice. O cálculo produz
100
um número único no caso de uma característica da rede e uma série de números no caso
de sub-redes e vértices.
A exploração da estrutura de uma rede por medidas é mais precisa do que a inspeção
visual. Entretanto, os índices sobre a estrutura da rede usualmente são abstratos e de
difícil interpretação. Conseqüentemente, ambos, a inspeção visual e o cálculo dos
índices estruturais foram utilizados na análise da estrutura da rede no presente capitulo.
A rede pode ser desenhada de muitas maneiras e cada desenho enfatiza características
estruturais diferentes. Por esse motivo, alguns princípios básicos de desenho de redes
foram observados. O principio mais importante estabelece que a distância entre vértices
deve expressar a força ou o número de seus vínculos. Em um mapa, a distância entre
cidades iguala sua distância geográfica.
Da mesma forma, os vértices conectados
devem ser desenhados mais próximos do que aqueles que não estão relacionados e o
comprimento da linha deve ser proporcional ao valor da linha.
7.4.2 Redução da Rede
Na análise de redes sociais, freqüentemente uma parte significativa da rede é extraída
para análise. As visualizações são mais simples para redes de pequeno (dezenas) ou
médio porte (centenas) do que para redes grandes de milhares de vértices. Alguns
procedimentos analíticos exigem que redes complexas com laços ou linhas múltiplas
sejam primeiramente reduzidas a grafos simples.
A redução da rede é uma
simplificação e utiliza uma partição da rede. No estudo da epidemia pelo vírus HIV,
apesar de existirem diferentes tipos de relações, focou-se em uma única relação, de cada
vez, para executar a redução da rede. Um exemplo de relação: bairros da zona sul da
cidade.
Uma partição da rede é uma classificação ou clustering dos vértices da rede.
Cada vértice é assinalado para exatamente uma classe ou cluster. As partições dividem
os vértices de uma rede num número de subconjuntos mutuamente exclusivos. As
partições dividem uma rede de três formas: extraindo-se uma parte (visão local),
reduzindo-se cada classe de vértices num novo vértice (visão global) ou, selecionandose uma parte e reduzindo-se as classes vizinhas para focar na estrutura interna e posição
global desta classe (visão contextual).
101
7.4.2.1 Visão Global
A maneira mais fácil de reduzir uma rede é escolher uma classe de vértices. Um dos
principais objetivos da análise da terceira parte da tese foi identificar o movimento entre
bairros, assim como a interação entre bairros de residência e unidades hospitalares
utilizadas pelos pacientes. Utilizou-se uma partição para gerar uma sub-rede com a
visão global por região da cidade (zona sul, norte, oeste, entre outras). A visão
contextual obtida após a remoção das conexões entre bairro e unidade hospitalar
inferiores a 1% do total do período considerado, facilitou a identificação das principais
relações entre regiões da cidade e unidades hospitalares. A Figura 7.1a apresenta a
visão global. A Figura 7.1b apresenta a visão contextual.
Figura 7.1a Rede reduzida de bairros e unidades, visão global, 1982 a 1999, município
do Rio de Janeiro.
Esta global representa cada região da cidade por um vértice. A zona norte é a principal
usuária de quatro das cinco principais unidades. A exceção é a unidade identificada por
11312, onde os principais usuários residem na zona sul. A visão contextual permitiu
observar ainda que, considerando-se somente a região do Centro, os principais usuários
da unidade 11312 são os pacientes que residem no bairro do Cajú e no bairro de Santa
102
Teresa. A redução da rede não permitiu identificar um padrão entre bairros e unidades
hospitalares, haja vista que o principal usuário de todas as unidades desloca-se da região
norte. Nesse caso, outro tipo de análise é mais eficaz para a descoberta de padrões.
Figura 7.1b Rede reduzida de bairros e unidades, visão contextual, 1982 a 1999,
município do Rio de Janeiro.
7.4.3 Vetores e Partições
As propriedades dos vértices da rede, que não dependem da estrutura da rede,
constituem os atributos dos vértices.
Vetores armazenam os atributos contínuos
(valores contínuos) dos vértices da rede, atribuindo um valor numérico para cada vértice
103
da rede.
Partições armazenam os valores discretos. Ambos foram amplamente
utilizados na descoberta de padrões desse trabalho.
Considerou-se a categoria de exposição de homossexuais de cada bairro ao longo do
tempo. De acordo com o resultado do agrupamento de dados geográficos realizado com
estes dados no capítulo cinco, classificaram-se os bairros como baixo, médio ou alto, de
acordo com o percentual da população do bairro contaminada. Em seguida, os valores
destes atributos, por período do tempo considerado, foram comparados. A Figura 7.2a
mostra que a classificação mudou drasticamente entre 1982 e 1992. Do total de cento e
trinta e três bairros classificados como baixo no ano de 1988, trinta e quatro tiveram sua
classificação modificada para médio e vinte e dois para alto, em 1999. O índice Rajski
identificado por [C1 –> C2] mede se C2 pode ser previsto por C1. O valor 0.23 indica
a forte mudança ocorrida, ou seja, o índice de 1992 não pode ser previsto pelo de 1988.
Usualmente, o índice Cramer’s V superior a 0.6 indica uma forte correlação entre os
atributos. Entretanto, o cálculo não é totalmente confiável quando a freqüência de uma
célula é igual a zero, conforme aviso na listagem gerada pelo software Pajek.
Crosstabs
|
0
1
2
3|
Total
--------------------------------------------------0|
3
0
0
0|
3
1|
0
77
34
22|
133
2|
0
0
0
8|
8
3|
0
0
0
7|
7
--------------------------------------------------Total|
3
77
34
37|
151
Warning: 13 cells (81.25%) have expected frequencies less than 5!
Chi-Square: 202.0902
Cramer's V: 0.6679
Rajski(C1 -> C2): 0.2302
Figura 7.2a Análise estatística Crame’s V e Rajski entre taxas de contaminação de
homossexuais por bairro, software Pajek, 1992 e 1999, município do Rio de
Janeiro.
104
7.4.4 Medidas de Centralidade
O conceito de centralidade e centralização está baseado na idéia simples de que a
doença (ou informação) pode alcançar mais facilmente, as pessoas que são centrais em
uma rede de contágio (ou comunicação). Invertendo-se o argumento, as pessoas são
centrais se a infecção em uma rede de contágio, ou a informação em uma rede de
comunicação, as alcança facilmente.
Quanto maior o número de fontes accessíveis a
uma pessoa, mais fácil será obter informação.
Neste sentido, os vínculos sociais
constituem um capital social que pode ser utilizado para mobilizar os recursos sociais.
No estudo sobre a epidemia pelo vírus HIV, a unidade hospitalar mais central e
acessível, provavelmente obterá mais recursos financeiros e mais informações sobre a
epidemia. Nesse caso, essa informação pode ser usada na destinação de recursos ou na
implantação de novas estratégias de combate a epidemia.
O indicador mais simples de centralidade é o número de vizinhos do vértice, que é seu
grau numa rede simples não direcionada. Quanto mais alto o grau de um vértice, maior
o total de fontes de contágio, mais rapidamente a epidemia chegará ao vértice, sendo
conseqüentemente, mais central. Em uma rede de comunicação, de forma similar,
quanto mais alto o grau de um vértice, mais rapidamente a informação chegará a ele. Na
Figura 7.2b, a unidade 7323 se comunica com não menos do que quatorze bairros
enquanto a unidade 7943 possui somente um vínculo de comunicação. Neste caso, a
unidade 7323 é mais central do que a 7943. Informação sobre a epidemia chegará mais
rápido na unidade 7323.
105
Figura 7.2b Rede formada por unidades hospitalares utilizadas e bairros de residência
dos pacientes contaminados pelo vírus HIV, 1985, município do Rio de
Janeiro, visualização com NetDraw.
7.4.5 Coesão da Rede, Densidade e Conectividade
O conceito de coesão de uma rede social está ligado aos conceitos de densidade e
conectividade. A coesão de uma rede social pode ser medida pelo total de conexões
existentes na rede. A densidade é definida como o total de conexões de uma rede
simples (sem conexões múltiplas), expressa como uma proporção do número máximo
de conexões possível. Uma rede denominada completa é aquela que possui densidade
máxima.
A medida de densidade depende do tamanho da rede. Por esse motivo, usualmente, a
conectividade de uma rede é mensurada pelo grau médio da rede, que é a média dos
graus dos seus vértices. O grau de um vértice é o número de conexões que possui com
outros vértices. Intuitivamente, quanto maior o grau médio da rede, maior a coesão.
Essa medida independe do tamanho da rede e por isso, pode ser utilizada para comparar
redes sociais. Em uma rede direcionada o grau de entrada e de saída é o total de
conexões que chegam ou que partem do vértice. Na rede não direcionada, não há essa
diferença. Em uma rede não direcionada, o grau de um vértice é igual ao total de
vizinhos.
106
Definiu-se uma rede de bairros, considerando-se a distribuição geográfica. Não foram
considerados os acessos através de ruas e avenidas, mas somente a proximidade
espacial. A rede de bairros está apresentada no Anexo K. O valor mais freqüente de
conexões por bairro é de 4 vizinhos e a distribuição de freqüência varia de 0 a 18
vizinhos, conforme Figura 7.3.
O bairro com maior número de conexões é
Jacarepaguá.
1. All
Degree partition of N4 (153)
-----------------------------------------------------------------------------Dimension: 153
The lowest value: 0
The highest value: 18
Frequency distribution of cluster numbers:
Cluster
Freq
Freq%
CumFreq
CumFreq% Representative
--------------------------------------------------------------0
2
1.3072
2
1.3072 71-ENGENHEIRO LEAL
1
3
2
10
1.9608
5
3.2680 109-RIBEIRA
6.5359
15
3
9.8039 15-URCA
21
13.7255
36
23.5294 17-LEME
4
34
22.2222
70
45.7516 2-GAMBOA
5
27
17.6471
97
63.3987 10-GLORIA
6
26
16.9935
123
80.3922 3-SANTO CRISTO
7
16
10.4575
139
90.8497 1-CENTRO
8
5
3.2680
144
94.1176 14-BOTAFOGO
9
5
3.2680
149
97.3856 31-ALTO DA BOA VISTA
10
2
1.3072
151
98.6928 33-VILA ISABEL
12
1
0.6536
152
18
1
0.6536
153
99.3464 66-IRAJA
100.0000 81-JACAREPAGUA
--------------------------------------------------------------Sum
153
100.0000
Figura 7.3 Distribuição de freqüência de bairros por número de conexões, município do
Rio de Janeiro.
Grande parte dos bairros (63%) possui até cinco vínculos e o crescimento do número de
vínculos não resulta no aumento da taxa de contaminação. A análise do total de
vínculos de forma isolada, não permitiu identificar um padrão de contágio e proliferação
da epidemia.
107
7.4.6 A força das Conexões Fracas
Segundo NOOY et. al. (2005), em redes sociais, pessoas com fortes vínculos tendem a
desenvolver grupos fechados. Um exemplo são os laços familiares: vários ou todos os
membros de uma família mantêm fortes vínculos entre si. Como conseqüência, os
vínculos familiares não são úteis para, por exemplo, encontrar novas oportunidades de
emprego porque todos se relacionam com as mesmas pessoas entre si. De forma
contrária, contatos menos intensos e irregulares tais como colegas antigos ou
conhecidos são melhores fontes de informação em relação a novas oportunidades de
trabalho. Estes vínculos fracos podem agir, mais facilmente, como pontes para redes
distantes de informação. Esse é o conceito da força dos vínculos fracos.
Freqüentemente, vínculos fracos são mais importantes para dispersar informação ou
doenças, que vínculos fortes. Esse conceito foi utilizado na análise de componentes e
no agrupamento dos vértices da rede.
7.4.7 K-Cores
O conceito de k-cores está relacionado ao conceito de agrupamento, onde os
agrupamentos são determinados pelo número mínimo de vizinhos de um vértice. Ao
definir uma partição k-core, todos os vértices que possuem, no mínimo, k vizinhos, são
agrupados. A Figura 7.4 apresenta o valor de k-core de cada vértice.
7.4.8 Centralidade de uma rede
7.4.8.1 Rede em Estrela
A rede em estrela é a estrutura mais eficiente dado um número fixo de conexões. Uma
estrela é uma rede em que um vértice está conectado com todos os outros vértices, mais
estes vértices não estão conectados entre si. Isto conduz à idéia de que uma rede é mais
centralizada se os vértices mudam mais em relação a sua centralidade. Maior variação
na pontuação de centralidade dos vértices gera uma rede mais centralizada.
108
Figura 7.4 Valor de k-core por bairro, município do Rio de Janeiro.
Centralização é a variação no grau dos vértices dividida pela máxima variação em grau
possível dado o número de vértices da rede. Numa rede simples de um tamanho dado, a
rede em estrela tem variação máxima de grau. A divisão pela variação máxima garante
que o grau de centralização varie de zero (sem variação) a 1 (máxima variação), no caso
de uma rede em estrela.
A variação é a soma (absoluta) das diferenças entre a pontuação de centralidade dos
vértices e a máxima pontuação de centralidade entre eles. Na Figura 7.5, a rede em
estrela é formada pelas conexões formadas por pacientes que residem no município do
Rio de Janeiro e que realizaram o diagnóstico em outros municípios do estado. O
município do Rio de Janeiro (vértice central) possui grau vinte e quatro, que é o grau
máximo em uma rede simples não direcionada deste tamanho, porque este vértice está
conectado a todos os outros vinte e quatro vértices. Os outros vértices têm grau mínimo,
igual a 1. Então a variação de grau é quinhentos e setenta e seis, calculado da seguinte
forma: vinte e quatro vértices contribuem com 24 x (25 – 1) conexões e vértice central
contribui com 1 x (24 – 24). Numa rede simples não direcionada desse tamanho, esse é
109
a maior variação de grau. Assim sendo, como 576 é a variação máxima, e dividindo 576
por ele mesmo, obtemos um grau de centralização igual a 1.00.
Numa rede com linhas múltiplas ou laços múltiplos, o grau de um vértice não é igual ao
número de seus vizinhos. Nesse caso, a rede em estrela não tem necessariamente
variação máxima e a pontuação de centralização é superior a 1.00. Por esse motivo, não
é possível comparar a variação numa rede com linhas múltiplas ou laços múltiplos com
a variação numa rede em estrela simples do mesmo tamanho.
Figura 7.5 Rede estrela de pacientes que residem no município do Rio de Janeiro e que
realizaram diagnóstico de infecção pelo vírus HIV em outro município, 1982 a
2005.
7.4.9 Distância e Caminho
Numa rede simples não direcionada, o grau de centralidade é apenas o número de
vizinhos de um vértice. Em alguns casos, essa é a única informação disponível sobre a
posição dos vértices na rede. Entretanto, em uma rede, o contágio (ou a informação)
chegará mais facilmente a uma pessoa quando não é necessário percorrer um longo
caminho. Esse é o conceito de distância em redes, ou seja, o número de passos ou
intermediários necessários para um vértice alcançar outro vértice na rede. Quanto
110
menor a distância entre vértices, maior o risco de contagiar pessoas. Em uma rede de
comunicação, quanto menor o número de passos, mais fácil obter informação.
Caminho é uma seqüência de linhas onde nenhum vértice, entre o primeiro e o último
vértice, aparece mais que uma vez. Um nó da rede é alcançável por outro se existe um
caminho do último para o primeiro. Dois nós são mutuamente alcançáveis se estão
conectados por um caminho numa rede não direcionada. Entretanto, dois caminhos (um
em cada direção) são necessários em uma rede direcionada.
Na rede não direcionada, a distância entre dois vértices é simplesmente o número de
linhas ou passos no caminho mais curto que conecta os vértices. O caminho mais curto é
também chamado geodésico. Na rede direcionada, o geodésico de um vértice ao outro é
diferente do geodésico na direção oposta e as distâncias podem ser diferentes.
Entender os padrões que, de alguma forma, expliquem a proliferação da epidemia é um
dos principais objetivos de qualquer estudo nessa área. Com isso em mente, calculou-se
a distância entre notificações, considerando-se o par formado por uma notificação e a
que a antecede. A Tabela 7.1 apresenta distribuição de freqüência de distância entre
uma notificação e a anterior. A distância média entre uma notificação e a anterior foi
igual a 3.45 vértices, aproximadamente e a moda é igual a 4 vértices.
A Figura 7.6
apresenta a ordem cronológica de contaminação da rede formada pelos bairros com
notificações de contaminação pelo vírus HIV, de 1982 a 1985. O número do vértice
indica a ordem de contaminação.
111
Tabela 7.1 Distribuição de freqüência de distância (total de vértices) entre uma
notificação de aids e a anterior, 1982 a 1985, município do Rio de Janeiro.
Distância
Total
%
0
9
7.62
1
11
9.32
2
20
16.94
3
19
16.10
4
26
22.03
5
12
10.16
6
12
10.16
7
8
6.77
8
1
0.84
total
118
100
Figura 7.6 Cronologia de notificações de aids, 1982 a 1985, município do Rio de
Janeiro.
112
7.4.9.1 Proximidade da Centralidade
Com o conceito de distância, define-se um índice de centralidade, que é chamado
proximidade da centralidade. A proximidade da centralidade de um vértice é baseada na
distância total entre um vértice e todos os outros vértices, onde as distâncias maiores
geram as pontuações menores de centralidade. Quanto mais próximo está um vértice de
todos os outros vértices, mais facilmente a informação chegará a ele, e maior será sua
centralidade.
Tal qual o grau de centralização, a proximidade da centralização pode ser conceituada
como a quantidade de variação nas pontuações de proximidades das centralidades dos
vértices. Da mesma forma, compara-se a variação dos valores de centralidade com a
máxima variação possível, ou seja, com a variação de proximidade da centralidade de
uma rede estrela do mesmo tamanho.
A proximidade da centralidade de um vértice é o total de vértices vizinhos dividido pela
soma de todas as distâncias entre o vértice e os outros. Proximidade da centralização é
a variação na proximidade da centralidade dos vértices dividida pela máxima variação
possível nas pontuações de proximidades de centralidade numa rede do mesmo
tamanho.
Analisou-se, entre outras, a correlação entre a medida de proximidade da centralidade
do bairro e o percentual da população infectada do bairro. A Figura 7.7, representa a
medida de centralidade do bairro pelo tamanho do seu vértice, que aparentemente não
se correlaciona com a taxa de contaminação. Entretanto, essa conclusão é inadequada.
O início da epidemia ocorreu em Copacabana e Centro, e, portanto, não coincidiu com a
região geográfica central do município. Entretanto, ao considerar-se a rede lógica,
formada pelos bairros contaminados ano a ano, a centralidade e a proximidade da
centralidade passaram a apresentar alta correlação com a proliferação da epidemia,
conforme esperado.
113
Figura 7.7 Centralidade do bairro, 2005, município do Rio de Janeiro.
7.4.10 Intermediação
Os conceitos de grau e centralidade estão baseados na acessibilidade do vértice na rede,
ou seja, na forma que a epidemia atinge o vértice. Uma segunda abordagem de
centralidade e centralização baseia-se na idéia de que um vértice é mais central se o
mesmo é mais importante na cadeia de contágio, ou seja, se o vértice é intermediário,
localizando-se entre os demais vértices.
De forma mais simples, esse conceito
relaciona-se com a interrupção da epidemia, caso o vértice não existisse ou
deliberadamente não transmitisse a informação adiante.
Nesse estudo, esse conceito foi denominado intermediação. Nesse caso, a centralidade
do vértice mede o quanto o mesmo é elo da cadeia de contatos da rede, facilitando a
difusão da epidemia. Considerando-se o geodésico como a principal via de contágio
entre os atores de uma rede, o ator que estiver localizado no geodésico de vários pares
de vértices, é, conseqüentemente, importante para o fluxo de disseminação da epidemia
(ou informação) na rede. Esse ator é mais central. A análise do poder de intermediação
de um vértice é importante para ações preventivas de bloqueio ou interrupção da
114
epidemia, especialmente nos casos em que a detecção ocorre no período inicial de
expansão.
Cada par de vértices contribui para a centralidade de intermediação de um vértice. Em
geral, a centralidade de intermediação de um vértice é a proporção de todos os
geodésios de todos os pares da rede, que incluem esse vértice.
A centralização de
intermediação é a variação do valor de intermediação dos vértices dividido pela máxima
variação de intermediação possível em uma rede do mesmo tamanho.
Na rede em estrela, o centro possui o valor máximo, pois todos os geodésios o incluem.
De forma contrária, os demais vértices possuem valor de centralidade de intermediação
mínimo, porque não estão localizados entre os outros vértices da rede.
7.4.11 Pontes
Um conceito importante no estudo da difusão da epidemia é o conceito de ponte. Em
uma rede complexa, existem afunilamentos que são vitais para o fluxo de contágio, que
podem impedir ou dificultar a disseminação do vírus, mediante ações de prevenção.
Na Figura 7.10, a conexão entre A e B é claramente um funil porque é o único canal de
intercambio entre B e os demais. Formalmente este vínculo é uma ponte na rede, porque
sua remoção cria um novo componente, isolado dos outros componentes.
Da mesma
forma, a exclusão de um vértice da rede, também exclui da rede o vértice e todas as
linhas que incidem nesse vértice. O conceito de vértice-corte, do termo em inglês cutvertex, é um vértice que quando excluído, aumenta o número de componentes na rede.
Os vértices que incidem numa ponte podem ou não ser vértices-corte. Na Figura 7.10,
A e B formam uma ponte, entretanto o remoção de B e sua ponte com A não aumenta o
número de componentes.
Utilizou-se o conceito de ponte e vértices-corte na pesquisa, com o objetivo de definir
seções da rede complexa formadas pelos bairros que são praticamente invulneráveis à
remoção (interrupção do contato) ou manipulação de um único vértice, chamadas bicomponentes. Um bi-componente é simplesmente um componente – uma sub-rede com
115
conexão máxima – de tamanho mínimo três sem um vértice-corte. Num bi-componente,
nenhum bairro pode controlar completamente o fluxo do vírus entre outros dois bairros
porque existe sempre um caminho alternativo. Num bi-componente, cada bairro
conecta-se pelo menos com dois outros (numa rede não direcionada).
Em redes
complexas, um bi-componente é mais coesivo do que um componente forte ou fraco
porque existem pelo menos dois caminhos diferentes entre cada par de vértices, ou seja,
dois caminhos que não compartilham um vértice entre o ponto inicial e o final.
Resumindo o conceito, um bi-componente é um componente de tamanho mínimo três
que não contém um vértice-corte.
A Figura 7.8 apresenta a identificação do bi-
componente ao qual o vértice pertence. Há somente três vértices com a característica de
vértice-corte na rede formada por bairros: Cidade Universitária, conectado ao Galeão e
Pedra de Guaratiba.
Isso significa que não há gargalos para a proliferação do vírus,
analisando-se geograficamente.
Figura 7.8 Bi-componentes e vértices-corte, 2005, município do Rio de Janeiro.
116
7.4.12 Rede-ego e Conceito de Restrição
A análise da estrutura da rede é uma abordagem sócio-centralizada. Outra abordagem é
a abordagem ego-centralizada ou rede-ego, em que o foco é na posição de um vértice da
rede e suas oportunidades de agenciar ou intermediar com outros vértices.
Nessa
abordagem utiliza-se a figura de uma tríade, que consiste em um vértice focal (ego), um
vértice alternativo, um terceiro vértice e os vínculos entre eles. A tríade é a menor rede
que contém mais do que dois vértices, destacando as complexidades dos vínculos dentro
de um grupo.
Uma tríade completa reduz o individualismo dos seus membros. Considerando-se o
exemplo de uma rede formada por três pessoas, quando estão completamente
conectadas, elas compartilham normas e informação, criam confiança por retorno, e os
conflitos entre dois membros podem ser resolvidos pela terceira pessoa. Em outras
palavras, as conexões completas entre três pessoas fazem que se comportem como um
grupo no lugar de um conjunto de indivíduos. O conceito pode ser aplicado a outras
redes.
B
C
A
Figura 7.9 Tríade incompleta
Numa tríade não direcionada que está conectada, porém incompleta, como o exemplo da
Figura 7.9, os vértices são consideradas menos ligados pelas normas do grupo. O vértice
A (pessoa A) está numa posição de vantagem em relação às demais porque ela pode
intermediar com as outras duas, fazendo-as competir, o que não seria possível se o
vértice (B) e a terceira pessoa (C) fizessem um acordo entre si. Isto é conhecido como
tertius gaudens (o terceiro que se beneficia) ou a estratégia tertius, que induz e explora
a competição ou rivalidade entre os outros dois, que não se relacionam diretamente. O
buraco estrutural permite que o ego aplique sua estratégia.
117
Uma variante mais maliciosa é conhecida como estratégia divide-e-governa, na qual
uma pessoa cria e explora conflitos entre os outros dois para controlar ambos. Um
exemplo ocorre quando o ego faz intrigas trazendo hostilidade entre os outros dois. Isto
não seria possível se eles pudessem verificar diretamente a informação e descobrir a
estratégia subversiva do ego. Novamente, o buraco estrutural permite que o ego aplique
sua estratégia.
Nas duas estratégias, a vantagem ou o poder de um indivíduo estão baseados no seu
controle sobre a contaminação por um vírus, disseminação da informação, bens ou
serviços que saem da estrutura de sua rede. A intermediação está relacionada com a
ausência de vínculos (i.e. a presença de buracos) entre vizinhos. As oportunidades que
um buraco estrutural oferece numa tríade incompleta têm um lado oposto: elas implicam
restrições numa tríade completa. Uma tríade completa não é apenas uma tríade sem
oportunidades por não ter buracos estruturais. A situação é ainda pior do ponto de vista
da intermediação, porque não é possível se retirar de nenhum desses vínculos pouco
compensadores sem criar um buraco estrutural ao seu redor. Na rede, o ego A é mais ou
menos obrigado a manter os vínculos. Caso contrário, cria-se um buraco estrutural ao
seu redor do ego, do qual o vértice alternativo pode tirar vantagem.
A
0.25
C
B
0.25
5
0.33
E
D
Figura 7.10 Exemplo de rede.
118
7.4.12.1 Rede-ego
A rede-ego é formada por um ego, os vizinhos do ego, e os vínculos entre eles. A redeego de um vértice (Figura 7.10) contém todas as tríades que incluem esse vértice. Para
cada tríade na rede de bairros, analisou-se a posição do vértice (na posição de ego) e o
risco de contaminar os outros bairros, que podem estar ou não conectados diretamente
entre si. Da mesma forma, analisou-se a restrição que é exercida pelos vínculos, como a
que B exerce sobre A na Figura 7.10. Considerando-se que nenhum outro vizinho de A,
está conectado diretamente com B, não existe restrição em A causada por seu vínculo
com B. Uma restrição baixa indica a existência de buracos estruturais, que podem ser
explorados. Essa propriedade foi utilizada na análise de unidades hospitalares.
De forma contrária, a restrição nos vínculos de A com C, D e E é muito alta porque
estes vínculos estão envolvidos em três tríades completas. Quando A se retira de
qualquer destes vínculos, eles podem começar a intermediar sem ele. Quanto maior a
restrição, menor o número de oportunidades para intermediar e maior o perigo de
retirar-se de um vínculo. Esta restrição é conhecida como restrição diádica associada
com um vínculo do ponto de vista do ego. A restrição de um vínculo no ego pode ser
diferente da restrição experimentada pelo vértice alternativo no mesmo vínculo. O
vínculo entre A e C, por exemplo, é mais restrito para C do que para A, porque todas as
tríades da rede-ego de C são completas.
Finalmente, deve ser considerada a importância de um vínculo para um vértice. Se um
vínculo é muito barato em relação a investimento não é um problema ser obrigado a
mantê-lo. Se o vínculo é apenas um entre muitos (baixa exclusividade), o ego não
depende muito deste vínculo. Por outro lado, se o vínculo entre o alternativo e a terceira
parte não é importante para eles, pode funcionar como um vínculo ausente, que,
conseqüentemente pode ser explorado. No presente estudo, esse conceito foi utilizado
para analisar a importância de uma unidade hospitalar em relação aos bairros. Também
foi considerado na análise da rede formada por um bairro em relação aos seus vizinhos.
O bairro é o único elo de um segundo bairro com todos os demais bairros, assume papel
importante na proliferação da epidemia.
A análise de buracos estruturais da rede
também é utilizada na segmentação da rede em componentes ou agrupamentos.
119
Conforme mencionado no início do capítulo, os pacientes que residem em um bairro
não são estáticos e movimentam-se constantemente. Entretanto, o presente estudo,
propõe-se a analisar a rede como uma entidade estática, baseando-se nas conexões
formadas pela geografia. Por esse motivo, buscou-se integrar as informações e padrões
identificados ao estudo de redes complexas, numa tentativa de explicar e entender a
importância da estrutura da rede no fenômeno estudado.
A força proporcional de um vínculo em relação a todos os vínculos de um vértice é um
indicador simples da importância ou exclusividade do vínculo. É computada como o
valor das linhas que representam um vínculo, dividido pela soma dos valores de todas
as linhas incidentes no vértice. Se os valores da linha representam custos (risco de
contaminação, tempo ou energia), a força proporcional de um vínculo é a porção do
gasto total de um ator que é investida nos vínculos com um vértice alternativo. Na
Figura 7.10, o vínculo entre A e B é um entre os quatro vínculos de A (0.25). A força
proporcional de um vínculo deve ser representada por uma rede direcionada. A rede
original pode conter linhas múltiplas, linhas direcionadas e não direcionadas, e valores
de linhas, mas a rede com vínculos de força proporcional é sempre simples, direcionada
e contém somente arcos bi-direcionados.
Na Figura 7.10, a restrição de A sobre E é igual à raiz da soma de: 0.25 (investimento
de A em E), mais 0.25 x 0.33 (vínculo de A para C e de C para E), mais 0.25 x 0.33
(idem para D). Os valores são as forças proporcionais e o valor da restrição de A com E
(assim como C e D) é igual a 0.17 e o com B é igual a 0.0625. A restrição de A em B é
aproximadamente 1/3 de que possui com os demais membros da rede. Há um buraco
estrutural entre A e B. A restrição agregada de um vértice é obtida pela soma de todas
as restrições diádicas de um vértice. Assim sendo, a restrição agregada de A é igual a
0.585. A Figura 7.11 apresenta os valores de restrição agregada dos vértices.
Segundo NOOY et. al. (2005) pesquisas indicam que, organizações e pessoas com
valores de restrição agregada menores apresentam melhor desempenho.
Esse
desempenho é medido por intermédio da comparação do valor da restrição de um ator
da rede com um ou mais indicadores de desempenho, como os econômicos,
exemplo.
120
por
Finalmente, a densidade egocêntrica de um vértice é a densidade de suas conexões, ou
seja, é a proporção de suas conexões em relação ao total de conexões. A Figura 7.12
apresenta os valores de densidade egocêntrica dos bairros. O coeficiente de correlação
entre a densidade egocêntrica e a taxa de contaminação dos bairros é de 0.25.
A restrição diádica no vértice u exercida por um vínculo entre os vértices u e v é a
extensão em que u tem mais e mais fortes vínculos com vizinhos que estão fortemente
conectados com o vértice v.
Figura 7.11 Valores de restrição agregada de bairros, município do Rio de Janeiro.
Em geral, quanto maior o número de conexões diretas com um bairro, maior a restrição
agregada do vértice.
121
Figura 7.12 Valores de densidade egocêntrica de bairros, município do Rio de Janeiro.
Os conceitos apresentados foram utilizados no presente capítulo. Os resultados obtidos
fazem referência a estes conceitos.
7.5 Objetivo
7.5.1 Primeiro Objetivo: Difusão da Epidemia
Conforme mencionado na introdução do capítulo, os vínculos pessoais são relevantes
para a difusão de uma epidemia. Entretanto, dificilmente, esses dados estão disponíveis.
Por esse motivo, objetivou-se estudar a difusão da epidemia baseando-se na estrutura da
rede de bairros.
7.5.1.1 Contágio
Modelos de difusão em rede são baseados no processo de contaminação e, por isso, são
denominados contágio social. O processo de contágio segue um padrão. Normalmente,
poucas pessoas são contaminadas no início do processo, com crescimento vertiginoso
até estabilização da taxa de contaminação da doença. Esse padrão é conhecido como
reação em cadeia, no qual uma pessoa infectada contamina seus contatos e assim,
122
sucessivamente. A curva de contaminação pelo vírus HIV é um exemplo de curva de
difusão, onde o eixo do x representa o momento da contaminação e o eixo y a
prevalência da contaminação, conforme apresentado na Figura 7.13. A prevalência é a
freqüência acumulada, ou seja, é a soma percentual de pessoas contaminadas.
A curva de difusão tem o formato da curva S, característica da curva de reação em
cadeia. Se considerarmos uma rede randômica e um vértice escolhido aleatoriamente
como a origem de uma contaminação, que contamina o vizinho e assim sucessivamente,
o gráfico da difusão formado será o da curva S, similar ao gráfico da evolução da aids
(Figura 7.13).
Quando o contágio é um importante fator na difusão de uma epidemia
(como a aids), a estrutura da rede é importante variável na identificação de padrões.
120.00
100.00
80.00
60.00
40.00
20.00
1995
1994
1993
1992
1991
1990
1989
1988
1987
1986
1985
1984
1983
1982
0.00
freq acum (%)
Figura 7.13 Curva de contágio (bairros com notificações), 1982 a 1996, município do
Rio de Janeiro.
7.5.1.2 Exposição e Limiar
As pessoas não são igualmente susceptíveis ao contágio. Um vizinho infectado não é
suficiente transmitir o vírus, principalmente no caso da aids, com características
distintas das demais epidemias. Na realidade, algumas pessoas são mais receptivas às
medidas de precaução do que outras. Existem duas formas de definir o risco das
pessoas, em relação ao sistema e em relação à suas redes pessoais: categorias de adoção
e categorias limiares. Estas tipologias são muito populares em marketing de produto.
As categorias de adoção classificam as pessoas pelo seu tempo de adoção com relação a
123
todos os outros adotantes. Uma classificação padrão faz distinção entre: 1) os adotantes
iniciais (16% iniciais), 2) a maioria inicial (os próximos 34%), 3) a maioria tardia (os
34% seguintes) e os adotantes tardios ou retardatários (os últimos 16% a adotar). Desta
forma, a classificação das pessoas obedece o critério de tempo de adoção. Da mesma
forma que essa classificação é útil para objetivos de marketing, considerou-se que pode
ser útil também para identificar as características sociais e demográficas dos pacientes
iniciais em caso de uma epidemia.
Na análise de vinte e cinco bairros que correspondem aos dezesseis por cento que
sofreram contágio nos primeiros anos, observou-se que as variáveis econômicas e
sociais apresentaram grande variabilidade. O mesmo ocorreu para os indicadores da
estrutura da rede. O índice de centralidade variou de 0.001 a 0.08, entre esses bairros. O
percentual de chefes de família com quinze anos ou mais de estudo variou de 1.6% a
60%. Por esse motivo, optou-se por utilizar a segunda abordagem para a análise.
A segunda abordagem do contágio, denominada categorias limiares, leva em
consideração a rede dos atores. O modelo de rede de difusão está baseado no contágio:
um ator contamina seus contatos. Assim sendo, a possibilidade de um ator se
contaminar aumenta quando ele está ligado a um número grande de atores que já se
contaminaram, ou seja, quando o ator está exposto a um número grande de
soropositivos, no caso da aids. A quantidade de exposição varia com o tempo e com os
atores, o que explica, pelo menos parcialmente, que alguns bairros sejam atingidos pela
epidemia mais cedo, mesmo não estando próximos às fontes num processo de difusão.
A exposição de um ator expressa-se como uma proporção e pode ser entendida como
uma possibilidade de contágio. A exposição de um vértice da rede num momento
particular é a proporção de seus vizinhos que adotaram antes desse momento.
124
1982
1983
1984 1985
1993
1996
Figura 7.14 Rede de bairros por ordem de contaminação e valor de exposição, 1984,
município do Rio de Janeiro.
A Figura 7.14 mostra a rede de bairros com a exposição dos vértices em 1984, indicada
pelo
tamanho dos vértices e os respectivos valores entre parênteses. Os vértices
invisíveis têm exposição zero, nenhum dos seus vizinhos apresentou caso de aids antes
ou durante 1984. Onze dos quinze bairros que apresentaram casos em 1984 tinham
vizinhos entre os bairros com contaminação em 1983. O bairro da Gávea (código 23)
era o mais exposto com cinqüenta por cento de seus vizinhos com casos de
contaminação (exposição de 0.50) no final de 1984. Porém, nem todos expostos em
1984 apresentaram casos em 1985. Conforme esperado, o modelo de contágio simples,
que pressupõe que a contaminação de um vértice da rede depende da quantidade de
exposição, não explica integralmente a epidemia da aids.
A análise estatística da difusão de dados nem sempre encontra uma relação sistemática
entre exposição e adoção. Conseqüentemente, nem sempre encontra uma relação
sistemática entre exposição e contágio. Isto significa que o contágio apresenta diferentes
níveis de exposição. Esse conhecimento é intuitivo e, conforme mencionado
125
anteriormente, a contaminação pelo vírus HIV depende de inúmeras variáveis, e muito
específicas. Alguns bairros do município, e sua população, apresentaram maior
vulnerabilidade.
No modelo de rede de difusão, a probabilidade de contágio de um bairro (que representa
sua população) é percebida como seu limiar à exposição. O limiar de um indivíduo é o
grau de exposição que ele precisa para ser contaminado. Então, as diferenças entre os
limiares individuais podem explicar as diferenças no tempo de contaminação e porque
alguns não se contaminaram, ainda que expostos. O limiar de um ator é sua exposição
no momento da contaminação.
Na Figura 7.14, no ano de 1982, o bairro de Bangu (código 99) expôs seis vizinhos
(com códigos 97, 98, 100, 101, 102, 104), considerando-se somente aqueles com os
quais ele faz fronteira. Desses seis, nenhum apresentou caso de aids em 1984. Por
outro lado, nove bairros apresentaram casos em 1983. Considerando-se, da mesma
forma, somente os vizinhos com os quais fazem fronteira, eles expuseram quarenta e
oito bairros.
Desse total, somente seis bairros apresentaram casos em 1984, que
representa o percentual de 12.5%. Cada um dos quarenta e dois bairros restantes
apresentou casos de contaminação após 1984, quando sua exposição era maior do que
no final daquele ano.
Esse é o conceito de limiar. No estudo de marketing, sua
exposição não tinha alcançado o limiar necessário para adotar determinado produto
novo. Nesse estudo, utilizou-se o conceito de limiar para transmitir a idéia de limite de
imunidade, de prevalência da resistência à contaminação.
Os limiares individuais são computados numa rede de difusão depois do fato: são
predições com percepção tardia e, por esse motivo não são muito informativos. É
importante reconhecê-los ou validá-los, o que significa que eles devem ser associados
com outros indicadores como tempo de contaminação.
Assim sendo, os limiares
indicam capacidades de resistência. O limiar mais baixo indica uma resistência menor,
e tempo menor de contaminação.
De fato, uma relação positiva entre tempo de contágio e o limiar individual é
questionável na presente pesquisa, o que pode ser explicado pelo pequeno número de
vértices. Os primeiros bairros afetados pela epidemia não foram expostos a outros
126
bairros contaminados anteriormente. Conseqüentemente, seus limiares são iguais a
zero, por definição. Assim sendo, na rede de bairros, é muito provável que os últimos
estejam conectados a muitos bairros contaminados, conduzindo a valores de exposição e
limiares altos no momento da primeira contaminação. Como a medida do tempo de
contágio
está
restrita
a
um
pequeno
número
de
momentos,
produziu-se,
automaticamente, uma relação entre limiares e tempos de contágio do bairro, conforme
demonstrado na Tabela 7.2 e na Figura 7.15.
Tabela 7.2. Tabela comparativa de limiar médio e freqüência acumulada de bairros com
o primeira notificação de aids no ano, 1982 a 1992, município do Rio de Janeiro.
Ano
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
Limiar médio %Freq acum bai
0.00
0.01
0.00
0.07
0.06
0.16
0.25
0.34
0.35
0.53
0.64
0.75
0.79
0.88
0.80
0.95
0.85
0.98
1.00
0.99
1.00
0.99
1.00
1.00
Figura 7.15 Limiar médio e freqüência acumulada de bairros com o primeira notificação
de aids no ano, 1982 a 1993, município do Rio de Janeiro.
127
Apesar disso, o estudo de limiares e da estrutura da rede, mostrou-se útil para a análise
nos primeiros anos da epidemia.
Consoante com objetivo proposto no início do
capítulo, os resultados da mineração de dados geográficos foram analisados sob o ponto
de vista da estrutura da rede. Assim sendo, comparou-se o conjunto de medidas da rede,
com as taxas de contaminação e outros atributos.
A influência da estrutura da rede no contágio foi mensurada por intermédio das
seguintes variáveis: (i) relevância da distância entre um bairro e todos os outros (ii)
comparação com a proposta do índice de influência espacial, (ii) influência do bairro
conforme seu grau de intermediação (iii) influência da proporção de conexões entre os
bairros vizinhos, medida por intermédio da densidade egocêntrica.
Assim sendo, as notificações de aids foram acumuladas por períodos com o objetivo de
estudar a estrutura formada ao longo do tempo, e medir as variáveis de centralidade,
entre outras. Além disso, com objetivo de mensurar a centralidade lógica, ou seja, a
centralidade medida considerando-se a rede lógica formada pela epidemia, ao invés de
considerar a geografia dos bairros, desenvolveu-se uma rede somente com os bairros
que apresentaram notificações de aids.
Estas redes estão apresentadas nas Figuras 7.18a e 7.18b, e partindo-se dessa estrutura
calcularam-se (i) a distância entre os bairros, medida por intermédio da variável
proximidade da centralidade (ii) o grau de intermediação e (iii) a densidade egocêntrica.
Observou-se que, a centralidade e o limiar do bairro, são correlacionados
negativamente, com coeficiente de variação igual a (-0.18) no período de 1982 a 1987.
O coeficiente variou pouco nos demais períodos. Conseqüentemente, concluiu-se que
quanto maior a centralidade de um bairro, ou seja, quanto menor o somatório das
distâncias do bairro a todos os outros bairros, menor o valor do seu limiar. Essa idéia é
intuitiva, sendo a base da teoria do contágio.
Os bairros mais centrais foram
contaminados mais cedo.
Por outro lado, a correlação entre o limiar e a taxa de contaminação do bairro, no ano
da primeira ocorrência é positiva, com coeficiente de correlação igual a 0.48. Para um
limite de confiança de 95%, e com os dados disponíveis e utilizados, o valor mínimo de
128
correlação, para ser considerado relevante é de 0.27. Esta forte correlação indica que o
bairro que resiste à epidemia, apesar de seus vizinhos contaminados, ao ser atingido,
apresenta um percentual maior de soropositivos no ano da primeira ocorrência, quando
comparados com os bairros com limiar inferior. A Tabela 7.3 apresenta a centralidade
dos bairros com maiores valores de limiar e a taxa da população contaminada, no ano da
primeira ocorrência. O valor médio da taxa no primeiro ano de contaminação é de 0.46.
As medidas de centralidade dos bairros, que foram contaminados no período de 1982 a
1985, estão apresentadas no Anexo F.
Tabela 7.3 Bairros com os maiores valores de limiar e respectiva taxa de contaminação
no ano da primeira ocorrência de aids.
Cronologia
48
71
81
86
92
97
103
114
121
122
123
124
131
134
135
136
137
138
139
142
146
148
150
151
152
Bairro
24
21
13
34
116
98
69
152
45
147
122
85
103
15
105
144
27
109
140
48
82
138
143
123
129
Nome
VIDIGAL
LAGOA
COSME_VELHO
ANDARAI
FREGUESIA
PADRE_MIGUEL
QUINTINO
SAUDE
VIGARIO_GERAL
MARIA_DA_GRAÇA
GALEAO
CURICICA
SENADOR_VASCONCELOS
URCA
COSMOS
PEDRA_DE_GUARATIBA
MANGUEIRA
RIBEIRA
COSTA_BARROS
ROCHA
ANIL
ACARI
BARRA_DE_GUARATIBA
CIDADE_UNIVERSITARIA
JOA
Ano 1a ocorr
1985
1986
1987
1987
1987
1987
1987
1987
1988
1988
1988
1988
1988
1989
1989
1989
1989
1989
1989
1989
1990
1990
1991
1992
1993
Limiar
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
Taxa
0.969
1.039
2.437
1.067
0.815
0.157
0.319
3.980
0.289
4.153
0.000
0.779
0.332
5.349
0.809
1.080
0.819
3.544
0.400
2.086
1.554
1.122
2.452
4.068
0.000
As Figuras 7.16 e 7.17 apresentam a rede formada pelos bairros com notificações de
aids, no período de 1982 a 1985 e de 1982 a 1987, respectivamente. As conexões
129
indicam a vizinhança geográfica dos bairros. Entretanto, somente os bairros
com
notificações de aids foram conectados.
Figura 7.16 Rede de bairros com ocorrência da epidemia, 1982 a 1985, município do
Rio de Janeiro.
Figura 7.17 Rede de bairros com ocorrência da epidemia, 1982 a 1987, município do
Rio de Janeiro.
130
A Figura 7.18 indica a relação entre a centralidade dos bairros e a epidemia. Os
vértices vermelhos são os mais centrais e o tamanho do vértice é a taxa de contaminação
pelo vírus HIV. Os bairros com vértice vermelho, ou seja, mais centrais, apresentaram
as maiores taxas no período seguinte.
Figura 7.18 Rede de bairros, 1982 a 1987, município do Rio de Janeiro.
O mapa com os valores de intermediação, ou seja, fazem parte do caminho entre dois
outros vértices, também expressam a importância do atributo na proliferação da rede,
conforme apresentado nas Figuras 7.19 e 7.20.
Figura 7.19 Medida de intermediação da rede de bairros contaminados representada
pelo tamanho do vértice, 1982 a 1985, município do Rio de Janeiro.
131
Figura 7.20 Medida de intermediação da rede de bairros contaminados representada
pelo tamanho do vértice, 1982 a 1987, município do Rio de Janeiro.
Os vértices com maiores valores de intermediação na zona norte da cidade,
apresentaram taxas elevadas no período seguinte analisado, conforme demonstrado na
Figura 7.21. O tamanho do vértice representa a medida de centralidade e a cor do
vértice a taxa de contaminação do bairro em 1992. A cor cinza representa valores
médios. Em 1987, os bairros da zona norte apresentaram taxas no primeiro quartil.
Figura 7.21 Medida de intermediação da rede de bairros contaminados (tamanho do
vértice) e a taxa de contaminação do período seguinte 1992 (cor), 1982 a 1987,
município do Rio de Janeiro.
132
7.5.1.3 Relação entre a Densidade e o Tempo de Difusão
A Figura 7.22 apresenta os valores de limiares por bairro, de 1982 a 1996, ano que o
último bairro foi atingido pela epidemia. Os menores valores são apresentados por
amarelo e os maiores valores por azul.
Figura 7.22 Valor de limiar por vértice da rede de bairros, município do Rio de Janeiro.
Confirmou-se que quando a densidade cresce o limiar diminui na maioria das
ocorrências. O valor de limiar médio dos bairros da zona sul, assim como do centro da
cidade são inferiores ao da zona oeste e de parte da zona norte. Os valores de limiar são
correlacionados positivamente à área do bairro, o que conduz a hipótese que a densidade
geográfica está diretamente relacionada ao tempo de difusão da epidemia.
Os atributos de bairros considerados relevantes e utilizados nas tarefas de mineração de
dados também foram analisados segundo a abordagem de redes complexas. O
coeficiente de correlação entre esses atributos e as medidas da estrutura da rede de
bairros, não indicaram correlação significativa. Há uma pequena correlação negativa
com índices econômico-sociais. A correlação com o atributo categoria de exposição é
negativo em todas as classes (homo, bissexual, etc), na faixa de (-0.28 a -0.38).
Identificou-se uma correlação significativa negativa entre categoria homossexual e
133
limiar no período de 1982 a 1985. Por outro lado, a proporção razão de sexos é
positivamente correlacionada, explicado pela baixa contaminação de mulheres no
período analisada, de 1982 a 1993, primeira década da epidemia.
7.5.2 Segundo Objetivo: Definição da Massa Crítica
Alguns processos de difusão têm sucesso porque quase todos no grupo alvo são
contaminados. No município do Rio de Janeiro, cinqüenta e hum por cento dos bairros
foram contaminados até 1986, ou seja, num período de cinco anos. A disseminação de
uma doença contagiosa tem um limite crítico: uma vez ultrapassado, multiplica-se
rapidamente. A identificação desse limite crítico e importante para a prevenção ou
somente para histórico, no caso de eventos similares no futuro.
Esse limite é denominado massa crítica de um processo de difusão e é definido como o
número mínimo de atores que impedem a erradicação da contaminação. A massa crítica
de um processo de difusão particular é difícil de ser identificada.
Usualmente,
considera-se uma regra prática empírica sobre processos de difusão. A regra afirma que
em um fenômeno particular quando a contaminação atinge vinte por cento de todas as
pessoas (no caso estudado, são os bairros da rede), a aceleração da taxa de
contaminação diminui, embora a taxa de contaminação ainda aumente em números
absolutos. Isto é conhecido como o primeiro ponto de inflexão de segunda ordem da
curva S.
Na rede de bairros, por exemplo, o número de vértices contaminados cresceu de um
bairro para nove de 1982 para 1983. Em 1986 a aceleração caiu para dois porque o
número de novos bairros cresceu somente de vinte seis para vinte e oito; o número de
novos bairros ainda aumentou, entretanto menos agudamente. Verificou-se que o ano
de 1985 apresentou a maior aceleração da taxa de contaminação e que, dezessete por
cento de todos os bairros foram contaminados.
Devido a esta relação empírica entre o primeiro ponto de inflexão de segunda ordem da
curva de difusão e a disseminação final de uma contaminação, os analistas de difusão
afirmam que a massa crítica é atingida quando a curva de difusão alcança este ponto de
inflexão. Segundo essa abordagem, o processo de difusão no qual a taxa de
134
contaminação acelera inicialmente e depois declina é conduzido pela reação em cadeia
característica de modelos de contágio. Presume-se que o contágio toma conta do
processo de difusão neste ponto, e que o processo atingiu sua massa crítica.
Nesse
caso, processo de difusão da aids teria atingido sua massa critica no final de 1985.
Um argumento similar existe para o ponto de inflexão de primeira ordem da curva de
difusão logística, que é o período com a taxa de adoção mais alta, isto é, o maior
aumento absoluto de novos bairros. Habitualmente o ponto de inflexão de primeira
ordem ocorre quando aproximadamente cinqüenta por cento de todos os atores foram
contaminados. Na rede de bairros, a taxa de adoção maior foi onze e foi realizada entre
1985 e 1986 atingindo cinqüenta e um por cento da rede.
Entretanto, essa abordagem pressupõe a relação entre contágio e massa crítica; não
prova que exista a massa crítica, apenas a assume. Todavia, é útil por motivos práticos.
Podemos monitorar o processo de difusão e vigiar para determinar o momento em que
ocorre o primeiro declínio do crescimento da aceleração (os declínios acidentais devem
ser ignorados). Nesse momento, é possível estimar o número final de bairros a serem
contaminados como cerca de cinco a dez vezes o número de bairros no momento de
maior crescimento porque entre 10 e 20 por cento já adotaram. Entretanto, essa é uma
simples regra prática.
Em outra perspectiva, assume-se que um processo de difusão atinge sua massa crítica
quando os vértices mais centrais são contaminados. Uma vez contaminados, tantos
atores na rede passam a ser expostos que muitos limiares individuais são alcançados,
conduzindo a uma avalanche de contaminações. O valor denominado intermediação,
do inglês between-centrality, parece estar associado com a massa crítica. Geralmente a
posição dos primeiros contaminados na rede é relevante para o processo de difusão. Se
os primeiros adotantes são centrais e conectados diretamente, seus vizinhos têm maiores
taxas de exposição e mais risco de contaminação.
A massa crítica traz uma mudança qualitativa do sistema traduzida num decréscimo
repentino dos limiares individuais.
Durante o processo de difusão, os limiares
individuais podem decrescer como uma conseqüência da taxa de contaminação no
135
sistema total (menor resistência geral). Baixos limiares indicam maior vulnerabilidade à
contaminação, de forma que o processo de difusão se fortalece.
Um retardo de limiar é um período no qual um ator não é contaminado ainda que ele
esteja exposto ao mesmo nível em que ele será contaminado mais tarde. A diminuição
dos limiares quando a massa crítica é alcançada no processo de difusão pode explicar a
ocorrência de retardo de limiar, que é um período em que a exposição alcançou o limiar
individual, porém o indivíduo (vértice) não se contaminou. Neste caso, a adoção ocorre
depois de que a massa crítica é alcançada e o limiar do indivíduo decresce.
Esta abordagem de limiares e de retardos de limiar não prova que os vértices da rede
tenham limiares ou retardos de limiar, apenas os define numa forma particular. Numa
rede de difusão empírica, sempre é possível computar a exposição de um ator no
momento da contaminação (limiar) e por quanto tempo este ator precisou estar exposto
a esse nível antes de adotar (retardo de limiar). Segundo NOOY et. al. (2005) isto não
descarta a possibilidade de que o limiar do indivíduo fosse realmente mais baixo e seu
retardo de limiar mais longo.
7.6 Resultados Obtidos
Através da análise da rede, os seguintes resultados foram identificados:
 A aids, assim como as doenças infecciosas, difundem-se numa forma particular
que é representada pela curva em S, curva típica de difusão. No começo, poucos
atores são contaminados e a taxa de contaminação se acelera.
Comprovou-se
essa característica na epidemia pelo vírus HIV.
 Na sub-rede (parte da rede de bairros) mais densa a epidemia ocorreu mais
rapidamente do que na sub-rede que apresenta buracos estruturais.
 Da mesma forma, na sub- rede com poucas conexões, ou seja, com valor de grau
médio baixo, a difusão foi mais lenta.
136
 Quanto maior a vizinhança de um nó da rede, mais rapidamente ele foi
infectado.
 A centralidade geográfica não apresentou correlação significativa com a
proliferação da epidemia. Entretanto, a análise da centralidade considerando-se a
rede formada somente pelos bairros com ocorrências de aids, conforme as fases
de proliferação, evidenciou a forte correlação das medidas de centralidade da
rede com a proliferação.
 Observou-se uma correlação negativa entre a da área do bairro (medida em
quilômetros quadrados) é o tempo de contaminação.
 A Aids atingiu sua massa critica no ano de 1985.
 Confirmou-se que a expansão da epidemia se deu no sentido zona sul, centro e
zona norte, conforme análise da rede formada por bairros por período de tempo.
Confirmou-se uma prevalência de pessoas com vírus HIV pertencentes a classes sociais
com menor poder aquisitivo, confirmadas pelos índices econômico-sociais (IBGE) dos
bairros. Entretanto, unidades hospitalares de saúde pública atendem primordialmente a
esse grupo social. Assim sendo, existem, provavelmente, pacientes soropositivos que,
quando atendidos por hospitais privados, nem sempre registram a notificação
compulsória.
7.7 Resumo
As doenças infecciosas difundem-se numa forma particular que é representada pela
curva em S, curva típica de difusão. No começo, poucos atores são contaminados e a
taxa de contaminação se acelera. Quando dez a vinte por cento dos atores são
contaminados, a aceleração estabiliza-se enquanto o número absoluto de novos casos
está ainda aumentando, ocasionando um aumento brusco do número total de
contaminados. Finalmente o número de casos novos diminui e o processo de difusão
termina, com estabilização das taxas.
137
Este modelo de crescimento é típico de uma reação em cadeia causada por contágio. Os
modelos de rede se aproximam da difusão como um processo de contágio no qual os
vértices da rede expõem seus contatos à contaminação. Uma vez que a exposição atinge
seus limiares, que depende de atributos do vértice e das características da infecção, eles
serão contaminados e começarão a infectar outros. Como conseqüência, a estrutura da
rede e as posições dos primeiros contaminados da rede, influenciam a taxa de
proliferação. Este é um mecanismo muito provável. Entretanto, é difícil provar que a
difusão realmente funciona assim.
Num determinado momento, um processo de difusão bem-sucedido hipoteticamente
alcança uma massa crítica, o que significa que o processo de difusão pode se sustentar.
Mesmo com percepção tardia, é difícil localizar o momento quando se alcança a massa
crítica.
Entretanto, conforme uma regra prática empírica isto acontece quando
a
contaminação atinge dez a vinte por cento dos atores que eventualmente poderão ser
contaminados.
No estudo realizado, concluiu-se que a massa critica foi formada,
principalmente, pelo grupo de homossexuais e bissexuais, em 1985. Este é o primeiro
ponto de inflexão de segunda ordem da curva de difusão em forma de S: o momento no
qual a taxa de contaminação não se acelera mais,
porém a população ainda está
crescendo.
Alternativamente, a massa crítica pode ser associada ao momento em que os atores mais
centrais são contaminados ou quando, relativamente, muitos atores foram contaminados
embora suas exposições não estejam aumentando. No último caso, a teoria é que a
massa crítica ou fatores externos diminuem os limiares individuais. Pesquisas em curso
sobre difusão de contaminação devem esclarecer esta questão. Entretanto, o conceito
oferece algumas ferramentas práticas para monitorar e guiar o processo de difusão.
138
CAPÍTULO 8
PROPOSTA DE MEDIDA DE INTERAÇÃO ESPACIAL
8.1 Introdução
Este capítulo propõe-se a apresentar uma proposta para identificar o movimento dos
pacientes entre bairros, por intermédio de um critério de interação espacial com base no
total de ocorrências comuns ao par formado pelo bairro e pela unidade hospitalar.
O problema de interação espacial que trata de N locais distintos e P pessoas deve
considerar N x N x P interações em um determinado tempo t. Ao considerar-se a
dinâmica das interações na dimensão espaço-tempo, a matriz de interações passa a ter o
tamanho de N x N x P x T, onde T é a unidade de tempo considerada.
No presente
estudo, como é usual, a informação sobre a rotina de deslocamento dos pacientes entre
local de trabalho ou estudo e moradia, entre outros, não estava disponível.
O capítulo divide-se nos seguintes tópicos: 2. Objetivo; 3. Sistemas; Software e Dados;
4. Medida de Interação Espacial; 5. Resultados Obtidos; e 6. Resumo.
8.2 Objetivo
Com o objetivo de tentar identificar padrões de deslocamento, considerou-se a unidade
hospitalar de saúde onde o diagnóstico de aids foi realizado, como elemento de conexão
entre bairros. Usualmente, utiliza-se a unidade hospitalar próxima ao local de trabalho
ou próxima a algum local que faça parte da rotina de deslocamento do paciente. Assim
sendo, analisou-se a interação entre o bairro de residência do paciente e a unidade de
saúde onde o diagnóstico de contaminação foi realizado, como tentativa de identificar
padrões de deslocamento dos pacientes entre bairros.
Os bairros são conectados por
uma unidade de saúde. Para mensurar a interação entre duas localidades, considerou-se
o fluxo de pessoas, ou seja, o valor absoluto das conexões entre o bairro e a unidade de
saúde. Considerou-se também uma medida relativa, que usa os valores percentuais de
pacientes do bairro e da unidade.
139
8.3 Sistemas, Software e Dados
Utilizou-se o software NetDraw (2008) para visualização dos resultados. Mais uma vez,
utilizou-se a base de dados do Sistema Nacional de Notificações (SINAN), de 1982 a
2005.
8.4 Medida de Interação Espacial
Um paciente soropositivo, que reside em um bairro do município, pode realizar teste de
infecção pelo HIV em distintas unidades hospitalares de saúde. O estudo comprovou
que, regra geral, o teste é realizado em uma única unidade hospitalar. Uma unidade
hospitalar, por outro lado, é responsável pelo teste de inúmeros pacientes. Métodos de
análise de relacionamento, usualmente concentram os cálculos na pessoa ou no local,
com objetivo de examinar o grau de distribuição de cada conexão do par formado por
local-pessoa.
O relacionamento entre locais e pessoas é usualmente representado por
gráficos denominados Bipartite, como o da Figura 8.1.
Considerou-se que dois bairros são conectados, quando os mesmos compartilham pelo
menos um diagnóstico realizado por um paciente do respectivo bairro, na mesma
unidade hospitalar, no período de tempo considerado.
Unidade
Bairro
Figura 8.1 Gráfico Bipartite, de interação entre bairro-unidade, sem considerar o tempo.
Dois bairros estão conectados, se possuem pelo menos um diagnóstico realizado em
unidade de saúde comum, na unidade de medida de tempo considerada.
140
8.4.1 Cálculo da Interação Espacial
A força da interação espacial entre dois locais, como bairro e a unidade hospitalar de
saúde, pode ser medida pela quantidade de pacientes compartilhados, pela distância
geográfica ou por outra medida de interação espacial.
Utilizou-se uma medida de
interação espacial (IE), que considera o total de pacientes compartilhados por dois
locais: unidade e bairro ou entre dois bairros. As notificações de aids foram totalizadas
por mês e bairro, obtendo-se o total de ocorrências de cada local, assim como o total
compartilhado por cada par bairro-unidade.
Calculou-se a medida de interação espacial dos pares compostos por bairro e unidade,
considerando-se o total de pacientes compartilhados, ou seja, o total de pacientes que
residem no bairro x com diagnóstico realizado na unidade y, conforme Equação 8.1.
IE
Pc x, y
2
Px Py
Equação 8.1 Medida de interação espacial
Onde:
IE (x,y) medida de interação espacial;
Pc (x,y) quadrado do total de soropositivos que residem no bairro x e com diagnóstico
realizado na unidade y, no período de tempo considerado;
Px total de soropositivos que residem no bairro x, no período de tempo considerado.
Py total de soropositivos que realizaram o diagnóstico na unidade y, no período de
tempo considerado.
8.5 Resultados obtidos
Inicialmente, analisou-se a distribuição dos pares de bairro e unidade, com relação ao
total de pacientes compartilhados, conforme Figura 8.2.
O princípio de potência
constante pode ser observado no gráfico, indicando que a rede de interação espacial
pode ser muito reduzida e simplificada se os pares com pequeno número de pacientes
compartilhados entre bairro e unidade forem desconsiderados. A Figura 8.3 apresenta a
141
relação entre o total de pacientes compartilhados e a distância média entre os locais que
compartilham esses pacientes. Conforme esperado, os pares que compartilham poucos
pacientes são em geral, mais distantes. De forma contrária, os pares que compartilham
muitos pacientes, tendem a ser mais próximos com distância média variando de cinco a
quinze mil metros.
Mais uma vez, observou-se o principio da potência constante,
confirmando-se que o cálculo da interação espacial pode ser baseado no total de
pacientes compartilhados entre bairro e unidade ou entre bairros. Na Figura 8.4, o valor
absoluto do total de pacientes compartilhados, foi substituído pela medida de interação
espacial.
1000
100
10
1
1
10
100
1000
10000
Figura 8.2 Total de pares bairro-unidade (eixo y) que compartilham exatamente Pc
pacientes (eixo x).
15000
10000
5000
0
0
100
200
300
400
500
600
700
800
Figura 8.3 Distância média dos pares (eixo y) que compartilham Pc pacientes (eixo x).
142
0.02
0.01
0
1
10
100
1000
Figura 8.4 Medida de Interação Espacial – IE (eixo y) que compartilham Pc pacientes
(eixo x).
Calculou-se a medida de interação espacial dos pares formados por bairro e unidade
hospitalar, ou seja, o total de pacientes que residem no bairro x com diagnóstico
realizado na unidade y, conforme equação 8.1.
Considerou-se que o bairro x e a unidade y interagem quando os mesmos apresentam
pelo menos um diagnóstico realizado na mesma unidade, no período de um semestre. O
grau de interação depende do total de casos do bairro e da unidade. Desta forma, sendo
P(x) o total de pacientes que residem no bairro x, P(y) o total de pacientes com
diagnóstico realizado na unidade y e Pc (x,y) o total de pacientes compartilhados por x e
y, a interação espacial calcula o percentual de casos comuns, no período de tempo
considerado.
Em seguida, realizou-se o agrupamento dos pares de bairros e unidades, com o objetivo
de identificar padrões.
Métodos de agrupamento de dados baseado em gráficos
poderiam ser utilizados.
Entretanto, no presente estudo, utilizou-se um método mais
simples e com menor custo de processamento. Conforme a análise realizada (Figura
8.2), ao se desconsiderar os pares com pequeno número de pacientes compartilhados,
obteve-se um conjunto muito menor, facilitando a segmentação dos pares utilizados nas
tarefas de mineração de dados.
dados em duas fases.
A partir dessa análise, realizou-se o agrupamento de
Na primeira fase removeu-se o total de pares com valor de
interação espacial inferior a 0.03. O valor foi obtido com análise estatística padrão,
sendo 0.03 o valor da média.
O resultado para os anos de 1985 e 1988 estão
apresentados nas Figuras 8.5a e 8.5b, onde as cores dos nós da rede indicam a região do
município onde o bairro está localizado.
143
Na segunda fase, realizou-se um agrupamento de dados hierárquico com o conjunto
menor de pares, resultantes dessa simplificação.
Para facilitar a identificação de
padrões, as unidades de saúde foram ordenadas de tal forma que os bairros com
maiores valores de IE, em relação à determinada unidade, fossem posicionados mais
próximos, reduzindo-se dessa forma a interseção de curvas na Figura 8.6.
Com as
unidades de saúde posicionadas no eixo vertical e o tempo no eixo horizontal, foi
possível visualizar a variação da interação bairro-unidade no tempo.
Para a análise de epidemias, em que os dados sobre a movimentação das pessoas
infectadas estivessem disponíveis, o gráfico proposto na Figura 8.6 permitiria identificar
os locais visitados e, conseqüentemente, com risco de contaminação. Verificou-se que
a distribuição de bairros entre as unidades de saúde, foi constante no tempo, para a
maioria dos bairros, com pequenas variações sazonais (Figura 8.6). Além disso,
conforme esperado, a distribuição de bairros por unidades prioriza o espaço geográfico,
como pode ser observado na Figura 8.5a. A unidade hospitalar de saúde com o maior
valor de interação espacial por bairro está representada no mapa temático da Figura 8.7.
Cada tonalidade de cinza representa uma unidade de saúde distinta, observando-se desta
forma, a existência de um padrão por região espacial.
Esse conhecimento é novo,
apesar de esperado. Não existe estudo baseado na interação bairro-unidade conforme
proposto. Atualmente, há somente a idéia de distribuição de freqüência em municípios
do estado. Outro conhecimento importante é a formação dos agrupamentos de bairros
unidos pela unidade hospitalar.
Esse conhecimento, uma vez aprofundado, pode
identificar padrões de movimento e de deslocamento, como pares formados por bairro
de residência e bairro de local de trabalho. Através desse estudo, ainda não foi possível
afirmar que existem padrões de deslocamento entre os bairros unidos pela unidade
hospitalar. Entretanto, o conhecimento destes grupos de bairros é de grande utilidade e
deve ser aprofundado.
144
Figura 8.5a Rede de bairros e unidades hospitalares, 1985, município do Rio de Janeiro,
visualização com NetDraw.
Figura 8.5b Rede de
bairros e unidades hospitalares, 1988, município do Rio de
Janeiro, visualização com NetDraw.
145
14000
14000
12000
11738
Unidade de Saúde
12000
10000
7943
8000
7439
10000
7323
FLAMENGO
LARANJEIRAS
6000
4000
8000
GLORIA
CATETE
BOTAFOGO
2000
2005
2003
2001
1999
1997
1995
1993
1991
1989
1987
0
1985
6000
Figura 8.6 Total de interações entre bairros (lista parcial) e respectivas unidades
hospitalares de saúde, 1985 a 2005, município do Rio de Janeiro.
Figura 8.7 Unidade de saúde mais utilizada por bairro, a tonalidade cinza representa
uma unidade hospitalar, 1982 a 2005, município do Rio de Janeiro.
8.6 Resumo
A análise do movimento dos pacientes entre bairros e unidades hospitalares de saúde
contribuiu para a compreensão da epidemia.
Observou-se o princípio de potência
constante na distribuição de casos de aids entre bairros e unidades hospitalares de saúde,
146
deduzindo-se que a rede de interação espacial poderia ser muito reduzida e simplificada
se os pares com pequeno número de pacientes compartilhados entre bairro e unidade
fossem desconsiderados.
Definiu-se o critério de interação baseado no total de ocorrências comuns ao bairro e a
unidade hospitalar, em uma unidade de tempo. A análise indicou uma forte correlação
entre bairro-unidade e espaço geográfico, conforme esperado. O total de pacientes
compartilhados entre bairro e unidade hospitalar correlaciona-se a distância geográfica.
Além disso, observou-se que a unidade hospitalar de saúde mais utilizada por bairro
permaneceu constante nos últimos períodos da epidemia, na maioria dos bairros.
A visualização proposta auxilia a interpretação dos resultados. Essa informação pode ser
útil. Supondo-se que determinado bairro apresente uma redução brusca de casos da
epidemia, indicando uma anomalia ou erro, poder-se-ia pesquisar diretamente a unidade
de saúde que historicamente atende o bairro, em busca de possíveis falhas nos
diagnósticos. O estudo se propõe ainda a auxiliar o redirecionamento de pacientes em
caso de desativação de uma unidade hospitalar.
Na maioria dos casos a relação entre bairro e unidade hospitalar é definida pela
distância entre a unidade e bairro de residência. O mesmo critério pode ser considerado
para relacionar bairros através de outra entidade, diferente da unidade hospitalar.
Outra aplicação do modelo refere-se aos casos de infecção por contágio, nos quais a
informação sobre o deslocamento das pessoas infectadas estivesse disponível. Nesse
caso, os pares de bairros e unidades seriam substituídos por pares de locais visitados
pela pessoa infectada. A análise da Figura 8.6 permitiria identificar rapidamente os
locais visitados pelas pessoas infectadas e, conseqüentemente os locais com maior
probabilidade de contaminação.
Entretanto, conforme já mencionado, dados sobre o deslocamento de pessoas são muito
raros e usualmente são gerados por simulação, para fins de pesquisa. Apesar disso, a
disponibilidade desse tipo de informação cresce a cada dia, através de GPS utilizados
em carros e celulares, levando-nos a supor que esse tipo de estudo será útil, na prática,
no futuro breve.
147
CAPÍTULO 9
CONSIDERAÇÕES FINAIS
9.1 Conclusões
A descoberta de conhecimento em bases de dados deve ser conceituada como a busca
por padrões que propiciem o desenvolvimento ou competitividade de uma empresa. O
aumento da competitividade ocorre devido à informação adquirida que auxiliará na
identificação de riscos e oportunidades e no conhecimento dos pontos fortes e fracos do
negócio. Na área de saúde, a competitividade poderia ser medida através da redução das
taxas de mortalidade e morbidade.
A definição estática da OMS que definia a saúde como o estado de completo bem estar,
foi superada. Nas definições atuais ela é dependente da dinâmica social e de políticas
econômicas e culturais. Assim sendo, os níveis de padrão sanitário dependem muito
mais de políticas econômicas, sociais e de aspectos culturais do que da intervenção da
medicina propriamente dita.
Por esse motivo, buscou-se novas formas de estudar
saúde.
A Mineração de Dados geográficos integrada a Redes Complexas introduz novos
desafios e problemas. A necessidade crescente de técnicas de mineração de dados
específicas para dados espaciais é explicada pela disponibilidade de dados de satélites e
de mapas urbanos digitais de cidades, além da ampliação da coleta de dados com uso de
sistemas GPS (Global Positioning Systems). O desenvolvimento de tecnologias
possibilita armazenar grandes volumes de dados. No entanto, a capacidade de analisar
estes dados, transformando-os em conhecimento útil é muito inferior à capacidade de
produção e armazenamento.
A pesquisa foi dividida em três grandes partes. A primeira composta pela proposta do
Índice de influência espacial. Na segunda parte, o Indice foi utilizado e agrupamentos
de dados usando Mapas Auto-Organizáveis de Kohonen foram realizadas, com o
objetivo de compreender os relacionamentos entre bairros e pacientes e, principalmente,
entender os vetores da epidemia.
Nessa fase, as variáveis relevantes foram
148
identificadas. As informações obtidas foram utilizadas na modelagem espaço-temporal e
na predição de óbitos. Na terceira e última parte, a epidemia foi analisada com a
abordagem de redes sociais, buscando-se padrões na estrutura da rede formada, que
pudessem auxiliar no conhecimento da epidemia.
A mineração de dados espaciais prescinde da definição de um critério de proximidade.
Esse conceito é fundamental para a valoração de dependência espacial. Dependência
espacial é o impacto que a variação na localização espacial causa na variação dos
atributos, ou seja, é a medida de como os atributos são dependentes do espaço
geográfico. Apresentou-se uma proposta de Índice de influência espacial, que cria um
conceito de vizinhança através das características de relacionamento espacial de
distância e direção entre objetos. Com a proposta do IF, a primeira parte da pesquisa foi
concluída.
Na segunda parte, através do agrupamento dos bairros por ano da primeira ocorrência,
identificou-se que a contaminação partiu da zona sul para a Leopoldina e zona norte. A
redução do nível de escolaridade e dos índices econômicos pode ser associada ao
movimento em direção aos bairros da zona norte e oeste da cidade, considerando-se os
índices sócio-econômicos do IBGE. Apesar disso, os bairros mais críticos,
considerando-se todo o período, ainda são os do Centro, Copacabana e Tijuca.
O crescimento da contaminação em mulheres coincidiu com a redução do nível de
escolaridade e com o empobrecimento. Não foi possível identificar uma divisão de
bairros por categoria de exposição (homossexual, bissexual, entre outras categorias).
Entretanto, observou-se, de forma brusca, o crescimento de contaminação em mulheres
e empobrecimento da população.
Esses padrões identificados são novos, pois não há
estudo similar com dados do município do Rio de Janeiro. Esses padrões serviram de
entrada para a terceira parte da pesquisa.
Ainda na segunda parte, identificaram-se as fases distintas da epidemia, usando o índice
de influência espacial proposto com o objetivo de identificar o movimento da epidemia.
Através do cálculo do IF por direção, identificou-se o movimento da disseminação a
partir do Centro na direção norte Essa interpretação não é automática. Entretanto, uma
vez identificado o IFd relevante por período de tempo definido, o movimento do
149
fenômeno estudado pode ser compreendido. Prevaleceram as direções partindo-se de
Copacabana e Centro sentido norte, Leste-Oeste e norte.
A análise de séries temporais da epidemia, com a predição da epidemia no tempo e no
espaço obteve, como melhor resultado, a identificação de padrões que, com em conjunto
com as devidas ações preventivas, podem reduzir o total de óbitos. É o caso da
identificação da forte correlação dos óbitos com os casos identificados pela contagem de
linfócitos CD4 inferior a 350 mm, conforme apresentado no capítulo seis. Nesse ponto
a segunda parte da pesquisa foi concluída.
Em seguida, verificou-se que a epidemia da AIDS apresenta um modelo de crescimento
típico de uma reação em cadeia causada por contágio. Os modelos de rede se
aproximam da difusão como um processo de contágio no qual os vértices da rede
expõem seus contatos à contaminação. No momento que um vértice da rede atinge seu
limiar, que depende de atributos do vértice e das características da infecção, ele será
contaminados e iniciará o processo de contaminação de outros vértices. Como
conseqüência, a estrutura da rede e as posições dos primeiros contaminados da rede,
influenciam a taxa de proliferação. Entretanto, apesar de muito provável, segundo
NOOY et. al (2005) é difícil provar que a difusão realmente funciona assim.
Num determinado momento, um processo de difusão bem-sucedido, hipoteticamente
alcança uma massa crítica, o que significa que o processo de difusão pode se sustentar.
Mesmo com percepção tardia, é difícil localizar o momento quando se alcança a massa
crítica.
Entretanto, conforme uma regra prática empírica isto acontece quando
a
contaminação atinge dez a vinte por cento dos atores que eventualmente poderão ser
contaminados. No estudo realizado, conforme esse critério, concluiu-se que a massa
critica foi formada, principalmente, pelo grupo de homossexuais e bissexuais, em 1985.
Em seguida, com base na informação de agrupamentos de dados que identificou os
grupos de bairros mais relacionados, identificou a necessidade de conhecer a interação
entre bairro e unidade hospitalar. A análise do movimento dos pacientes entre bairros e
unidades hospitalares contribuiu para a compreensão da epidemia. Definiu-se o critério
de interação baseado no total de ocorrências do bairro e da unidade. A análise indicou
uma forte correlação entre bairro-unidade e espaço geográfico, conforme esperado. O
150
total de pacientes compartilhados entre bairro e unidade de saúde, assim como entre
bairros que utilizam a mesma unidade de saúde é diretamente relacionado à distância
geográfica. Além disso, observou-se que a unidade de saúde mais utilizada por bairro é
constante nos últimos períodos da epidemia, na maioria dos bairros.
Usualmente, os mecanismos de difusão de epidemias reproduzem a estrutura social da
cidade, pressupondo-se nesse caso, a interação entre semelhantes. De forma contrária,
identificou-se que a AIDS teve início com homens pertencentes a grupos com maior
renda e escolaridade, atingindo, em seguida, homens e mulheres de áreas periféricas da
cidade. A taxa de crescimento das mulheres é maior que dos homens. Entretanto, os
homens ainda são maioria em valores absolutos.
O cenário da epidemia mudou nos últimos anos. Percebe-se, claramente um binômio
formado por homens da zonal sul e centro e mulheres da zona norte. Não foi possível
explicar como ocorre a formação desse relacionamento. Uma das explicações é que
apesar de ser sexualmente transmissível, a epidemia da aids encontra explicação para
sua expansão nas condições econômico-sociais da população. A redução e erradicação
da epidemia não podem depender do controle de um setor ou tecnologia. Ao tentar
reduzir os números da epidemia, através de campanhas sociais, muitas vezes conforme
padrões dos países mais desenvolvidos, a desigualdade permanece. Não se consegue
superar a condição dos bairros periféricos que, conforme o estudo, são os mais
atingidos.
Mais uma vez, comprovou-se que é necessário preparar condições que
permitam romper a dependência econômica.
Esse estudo buscou entender as muitas traduções do desenvolvimento da epidemia pelo
vírus HIV. A mais expressiva tradução, operada pelos atores dessa rede complexa, foi a
necessidade de ações mais ofensivas ao combate, tratando desigualmente os bairros do
município. O estudo foi uma tentativa de provar que ações específicas com foco nas
regiões com as maiores taxas de contaminação podem criar condições para melhoria em
relação aos índices atuais de contaminação da população do município do Rio de
Janeiro.
151
9.2 Trabalhos Futuros
Uma sugestão para continuação desse trabalho é considerar a relação topológica entre
os objetos espaciais, no cálculo do índice de influência espacial. Nesse caso, além da
distância e direção, a relação topológica também seria considerada no cálculo.
Exemplos de relações topológicas são: A contêm B, A está dentro de B, A intercepta B,
entre outras. A inclusão da relação topológica seria especialmente útil em tarefas de
mineração espacial que utilizam polígonos que contem e interceptam ruas, escolas, rios
e hospitais, sendo uma das sugestões de continuidade desse trabalho. Esse, de fato, era
o objetivo inicial da pesquisa. Entretanto, apesar de inúmeras solicitações dos mapas do
município ao Instituto Pereira Passos, sem sucesso, o objetivo foi modificado.
Outra sugestão é desenvolver uma ferramenta para detecção automática de
agrupamentos resultantes do Mapa Auto-Organizável e a respectiva visualização de
resultados.
Finalmente, a principal sugestão para pesquisa futura é o desenvolvimento de uma
ferramenta que realize tarefas de mineração de dados usando diretamente como entrada
mapas geográficos.
152
REFERÊNCIAS BIBLIOGRÁFICAS
AGRAWAL,R., 1994, “Tutorial on database mining”, Thirteenth ACM Symposium on
Principles of Database Systems. MN: pp. 75-6, Mineapolis.
AGRAWAL, R., MANNILA, H., SRINKANT, R., TOIVONEN, H. e VERKANO, A.
I, 1996, “Fast discovery of association rules”, In: FAYYAD, U.M., PIATETSKYSHAPIRO, G., SMYTH, P. e ULTHURUSAMY, R. (eds), Advances in Knowledge
Discovery and Data Mining. Cambridge, MA: MIT Press, pp. 307-328.
ANSELIN, L., 2005, GeoDa 0.9 User's Guide, Spatial Analysis Laboratory,
Department of Agricultural and Consumer Economics and CSISS, University of
Illinois, Urbana, IL.
ASIMOV, D. 1985, “The grand tour: a tool for viewing multidimensional data”, SIAM
Journal of Science and Statistical Computing 6: pp. 28-143.
BARABÁSI, A. How Everything Is Connected to Everything Else, 2002, ISBN: 0-45228439-2.
BERTIN, J., 1985, Graphical Semiology. Madison, Wisconsin, USA: University of
Wiscosin Press.
BLOOMFIELD, P., 1976, Fourier Analysis of Time Series: An Introduction, New York:
Wiley.
BREIMAN, L., FRIEDMAN, J.H., OLSHEN, R.A e STONE C.J., 1984, Classification
and regression trees. Belmont. CA: Wadsworth.
153
CAI, Y. CERCONE, N. e HAN, J., 1991, “Atribbute-oriented induction in relational
databases”, In: Piatesky-Shapiro, G. E Frawley, W. J. (eds) Knowledge Discovery in
Databases. AAAI Press, pp. 213-8.
CALINSKI, T. e HARABASZ, J., 1974, "A Dendrite Method for Cluster Analysis",
[online], http://www.informaworld.com/, dez/2006.
CALOBA, L. P. , 2002, “Introdução ao Uso de Redes Neurais na Modelagem de
Sistemas Dinâmicos e Séries Temporais”, Livro de Minicursos do XIV Congresso
Brasileiro de Automática, Natal.
CÂMARA, G., 1996, "SPRING: Integrating remote sensing and GIS by object-oriented
data modelling", Garrido J Computers & Graphics, 20: (3) 395-403, May-Jun 1996.
CASANOVA, M.A., CAMARA, G., DAVIS, J., CLODOVEU A., VINHAS L.,
QUEIROZ, G.R., Bancos de Dados Geográficos, Editora MundoGeo, 2005.
CHATFIELD, C., The Analysis of Time Series, Chapman and Hall Ltd, London, 1989.
CHERNOFF, H., 1973, “The use of faces to represent points in k-dimensional space
graphically”, Journal of American Statistical Association, 68: pp. 361-36.
CHERNOFF, H., 1978, “Graphical representations as a discipline”, In: Wang, P.C.C
(ed) Graphical Representations of Multivariate Data, New York, USA: Academic
Press, 1978.
COOLEY, J.W. e TUKEY, J. W., 1965, "An algorithm for the machine calculation of
complex Fourier series," Math. Comput. 19, 297–301.
COOLEY, J.W., LEWIS, P.A.W. e WELCH, P.D., 1967,” Historical notes on the fast
Fourier transform”, IEEE Trans., AU-15,no. 2,76-9.
154
DAVIES, D. L. e BOULDIN, D. W., 1979, “A cluster separation measure”, IEEE
Transactions on Pattern Analysis and Machine Intelligence, v. PAMI-1, p. 224–227.
DRUCK S., CARVALHO, M.S., CÂMARA G., MONTEIRO, A.M.V., Análise
Espacial de Dados Geográficos. Brasília, Embrapa, (ISBN 85-7383-260-6), 2004.
ERDOS, P e RÉNYI, A., 1960, The Evolution of Random Graphs. Magyar Tud. Akad.
Mat. Kutató Int. Közl. 5: 17–61.
ESTER, M., KRIEGEL, H. P. E XU, X., 1995, “Knowledge discobvery in large spatial
databases: focusing techniques for efficient class identification”, Proceedings
Iternational Symposium on Large Databases (SSD’95), Maine.
FAYYAD, U.M., PIATETSKY-SHAPIRO, G., SMYTH, P.G. From Data Mining to
Knowledge Discovery: an overview. In FAYYAD, U.M. et al. (eds) Advances in
Knowledge Discovery and Data Mining. Menlo Park. AAAI Press, 1996/The MIT
Press, pp. 1-34, 1996.
GAHEGAN, M. N., 1996, “Visualization strategies for exploratory spatial analysis”,
Proceedings: Third International Conference on GIS and Environmental Modeling,
Santa Fe.
GAHEGAN, M., 1999, “Four barries to the development of effective exploratory
visualization tools for the geosciences”, International Journal of Geographic
Information Science, 13(4), 289-310.
GAHEGAN, M., 2000, “On the application of inductive machine learning tools to
geographical analysis”, Geographical Analysis, 32(2), 113-39.
GLOBAL FORUM FOR HEALTH RESEARCH, 2006, Principais recomendações
para prioridades de pesquisa em doenças e agravos, Ministério da Saúde, Brasília.
155
GOEBEL, M. e GRUENWALD, L.,1999, “A survey of data mining and knowledge
discovery software tools”, SIGKDD Explorations, 1: pp. 20-33.
GRANGEIRO, A.,1994, “O perfil socio-econômico da AIDS no Brasil”, In: A AIDS no
Brasil (R. Parker, C. Bastos, J. Galvão & S. Pedrosa, eds.), pp. 91-128, Rio de Janeiro:
ABIA/UERJ/Editora Relume-Dumará.
GRANOVETTER, M., 1973, “The strength of weak ties”, American Journal of
Sociology 78, pp. 1360-80.
HAN, J. e FU, Y., 1995, “Discovery of multiple level associations rules from large
databases”, Proceedings of the International Conference on Very Large Databases,
430-1.
HAN, J., FU, U. WANG, W., CHIANG, J. GONG, W., KOPERSKI, , K. D., LU, Y.,
RAJAN, A., STEFANOVIC, N., XIA, B. e ZAIANE, O. R., 1996, “DBMiner: a system
for mining knowledge in large relational databases”, Proceedings of International
Conference on Mining and knowledge Discovery (KDD 96), Oregon.
HAN, J., 1999, Characteristic rules. In: Handbook of Data Mining and Knowledge
Discovery (Ed. Kloegen, W. and Zytkow, J.), Oxford University Press, Oxford, UK (in
press).
HASLETT, J., BRADLEY, R., CRAIG, P., UNWIEN, A. e WILLS, G., 1990,
“Dynamic graphics for exploring spatial data with application to locating global and
local anomalies”, The American Statistician, Vol. 45, No. 3, pp. 234-242.
HAYKIN, S., 1999, Neural Networks: a Comprehensive Foundation. Prentice Hall.
156
HSU, C. N. e KNOBLOCK, C. A., 1996, “Using inductive learning to generate rules for
semantic query optimization”, In: FAYYAD U. M. et al. (eds) Advances in Knowledge
Discovery and Data Mining, AAAI Press/The MIT Press, pp. 425-45.
HUNT, E., MARIN, J. e STONE, P., Experiments in Induction, New York: Academic
Press., 1996.
IBGE,
www.ibge.gov.br/home/estatistica/populacao/tabuadevida/2003/default.shtm,
consulta realizada em 24-01-2007
KAPLAN, R.S. e NORTON, D.P., 2004, Mapas Estratégicos Convertendo ativos
intangíveis em ativos tangíveis, Editora Campus.
KEIM, D., KRIGEL, H., 1996, “Visualization techniques for mining large databases: a
comparison”, IEEE Transactions on Knowledge and Data Engineering (Special Issue
on Dataming).
KEMPE, D., KLEINBERG, J.M. e TARDOS, E., 2005, “Influential nodes in a diffusion
model for social networks”, in ICALP, pp. 1127-1138, Springer Verlag.
KOHONEN, T., 2001, Self Organizing Maps, Springer, 2001.
LALONDE, M., 1978 “A new perspective of the health of Canadians: a work
document”, Otawa Health Conference, Ago.
LEE, H. Y. e ONG, H. L., 1996, “Visualization support for data mining”, IEEE Expert
Intelligent Systems and their Applications, Vol. 11, No. 5, pp. 69-75.
MacEACHREN, A. M., e KRAAK, M. J., 1997, “Exploratory cartographic
visualization: advancing the agenda”, Computers and Geosciences, 23(4): pp. 335-378.
157
MacEACHREN, A. M., WACHOWICS, M., EDSALL, R., HAUG, D. e MASTERS,
R., 1999, “Constructing knowledge from multivariate spatio temporal data: integrating
geographical visualization with knowledge discovery methods”, International Journal
of Geographical Information Science, 13(4): 311-334.
MacEACHREN, A. M, 2000, “An evolving cognitve-semiotic approach to geographic
visualization and knowledge construction”, Information Design Journal.
MacEACHREN, A. M, 2004, How Maps Work: Representation, Visualization,
Principles and Methodology”, 2ed, London: Taylor e Francis.
MACKINLAY, J.D., 1986, “Automating the design of graphical presentations of
relational information”, ACM Transactions and Graphics, 5(2): pp. 110-41.
MANN, J. e TARANTOLA, D., 1996, AIDS in the World II, New York/Oxford: Oxford
University Press.
MAPINFO, http://www.mapinfo.com/, dez/2006.
MATHEUS, C. J., CHAN, P.K. e PIETETSKY-SHAPIRO, G., 1993, “Systems for
knowledge discovery in databases”, IEEE Transactions on knowledge and data
engineering, 5: pp. 903-13.
MATTOS, R., 1999, Sobre os limites e as possibilidades dos estudos acerca dos
impactos das políticas públicas relativas à epidemia de HIV/AIDS. Algumas reflexões
metodológicas feitas a partir do caso brasileiro. In: Saúde, Desenvolvimento e Política:
Respostas frente à AIDS no Brasil (R. Parker, J. Galvão e M.S. Bessa, eds) pp 29-90,
São Paulo: Editora 34.
MATLAB, The Language of Technical Computing Matlab 7.0, The MathWorks, Inc.,
disponível em http://www.mathworks.com/company, dez/2006.
158
MILGRAM, S., 1969, “Interdisciplinary thinking and the small world problem”, In: M.
Sherif & C. W. Sherif (Eds), Interdisciplinary Relationships in the Social Sciences,
Chicago, Aldine, 1969, pp. 103-20.
MINISTÉRIO DA SAÚDE, 2004, Critérios de Definição de Casos de Aids, séries
anuais.
NETDRAW, 2008, www.analytictech.com, set/2008.
NG, R. e HAN, J. 1994, “Efficient and effective clustering method for spatial data
mining”, Proceedings International Conference on Very Large Databases, pp. 144-55.
NOOY, W., MRVAR, A. e BATAGELJ, V., 2005, Exploratory Social Network
Analysis with Pajek, São Paulo, Cambridge University Press.
NOWELL, D e KLEINBERG, J., 2003, “The link prediction problem for social
networks”, in CIKM 03: Proceedings of the twelfth international conference on
Information and knowledge management, pp. 556-559, 2003.
PAJEK, disponível em http://vlado.fmf.uni-lj.si/pub/networks/pajek/, 2008.
PORTER, M. E.,1989, Vantagem Competitiva: técnicas para análise da indústria e da
concorrência, Rio de Janeiro: Editora Campus.
PRIESTLEY, M.B., 1981, Spectral Analysis and Time Series, vols 1 e 2, London:
Academic Press.
QUINLAN, J. R., 1986, “Induction on decision trees”, Machine Learning, 1: pp. 81106.
159
QUINLAN, J. R., 1990, “Learning logical definitions from relations”, Machine
learning, 5: pp. 239-66.
QUINLAN, J. R., 1993, C4.5
Programs for Machine Learning, San Matel, CA:
Morgan, Kaufmann.
RAINSFORD, C. P., e RODDICK, J. F., 1999, “Database issues in knowledge
discovery and data mining”, Australian Journal of Information Systems, Vol. 6, No. 2,
pp. 101-128, 1999.
RAMAKRISHMAN, N. e GRAMA, A. Y., 1999, “ Data Mining: from serendipity to
science”, IEEE Computer, 32(8): pp. 34-7.
REINARTZ, T., 1999, “Focusing Solutions for Data Mining”, Lecture Notes in
Artificial Intelligence, pp. 16-23. Berlin: Springer.
RIBARSKY, W., KATZ, J. e HOLLAND, A., 1999, “Discovery visualization using fast
clustering”, IEEE Computer Graphics and Applications, pp. 32-39, September/October
1999.
RODDICK, J. F. e SPILLIOPOULOU, M., 1999, “A bibliography of temporal, spatial
and spatio-temporal data mining research”, SIGKDD Explorations. Vol. 1, No. 1, (in
press).
SANTOS, F.F, EBECKEN, N.F. F., 2006, “O Ressarcimento ao SUS como instrumento
de informação sobre a Saúde no Brasil”, In: 8º Congresso Brasileiro de Saúde Coletiva
e 11º Congresso Mundial de Saúde Pública, Abrasco e World Federation of Public
Health Associations, WFPHA. pp. 23-35, Rio de Janeiro, Brasil.
160
SANTOS, F.F, EBECKEN, N.F.F., 2007, Knowledge Discovery based on the
integration of KDD and GIS, Statistics for Data Mining, Learning and Knowledge
Extraction, pp 45-47, Aveiro, Portugal.
SCWARCWALD C., BASTOS, F., ESTEVES, M.A. e ANDRADE, C., 2000, “A
disseminação da epidemia da AIDS no Brasil, no período de 1987-1996: uma análise
espacial”, Caderno Saúde Pública, Rio de Janeiro, 16(Sup. 1): 7-19, 2000.
SEIXAS, J.M., CALOBA, L.P. e DELPINO, I., 1995, “Reducing Input Space
Dimension for Real-Time Data Analysis in High-Event Rate Environments”,
International Conference on Applications of Neural Networks, Paris.
SHEKHAR, S. HAMIDZADEH, B., KOHLI, A. e COYLE, M., 1993, “Learning
transformation rules for semantic query optimization: a data driven approach”, IEEE
Transactions on Knowledge and Data Engineering, 5(6): pp. 960-64.
SIEGEL, M. D., 1998, “Automatic rule derivation for semantic query optimizer”,
Proceedings of the International Conference on Expert Systems, pp. 371-85.
SOM-PAK, 2000, “The Self-Organizing Map Program Package”, SOM Programming
Team of the Helsinki University of Technology, Laboratory of Computer and
Information Science, Rakentajanaukio 2 C, SF-02150 Espoo, Finland.
STATISTICA, disponível em http://www.statsoft.com/products/products.htm, 2005.
TOBLER, W.,1979, Cellular Geography, Philosophy in Gegraphy, Gale and Olsson
(eds) Dordrecht, Reidel.
TREISMAN, A., 1986, “Features and objects in visual processing”, Scientific American,
November 1986, 255(5): 114B-25.
161
TUFTE, E. R., 1990, Envisioning Information, Graphics Press, Cheshire, Connecticut,
USA.
TUKEY, J. W., 1977, Exploratory Data Analysis. Reading, MA, USA: AddisonWesley.
ULTSCH, A., 1993, “Knowledge extraction from self-organizing neural networks”, In:
Opitz, O. ed. Information and Classification. Springer, 1993
ULTSCH, A., 1999, “Data Mining and Knowledge Discovery with Emergent SelfOrganizing Feature Maps for Multivariate Time Series”, In: Oja, E.; Kaski, S. ed.
Kohonen Maps, Elsevier, 1999. p. 36–46.
VESANTO J., 1997, “Data Mining Techniques Based on the Self-Organizing Map.”
Dissertação
–
Helsinki
University
of
Technology,
May
1997.
[online],
http://www.cis.hut.fi/projects/monitor/publications/html/mastersJV97/, Jul/2007.
VESANTO, J., 2000, SOM Toolbox for Matlab 5, Helsinki, Finlândia: Helsinki
University of Technology, 2000.
UNAIDS (The Joint United Nations Programme on HIV/AIDS), 1999, UNAIDS 3rd
Meeting of the Latin America and Caribbean Epidemiological Network. Abstracts.
Cuernavaca: UNAIDS.
WANG, W., YANG, J. e MUNTZ, R., 1997, “STINGA: Statistical information grid
approach to spatial data mining”, Proceedings of Very Large Databases, pp. 186-96.
WEKA, disponível em http://www.cs.waikato.ac.nz/ml/weka/index_downloading.html,
2005.
162
WITTEN, I. H. e EIBE F., Data Mining: Practical machine learning tools and
techniques, 2nd Edition, Morgan Kaufmann, San Francisco, 2005.
WORBOYS, M. F., DUCKHAM, M., 2004, GIS: A Computing Perspective (2nd
edition), CRC Press. Boca Raton, Florida, Taylor Francis Ltd., 2004.
ZHANG, T., RAMAKRISHMAN, R. e LINVY, M., 1996, ”BIRCH: an efficient data
clustering method for very large databases”, Proceedings ACM-SIGMOD 1996, Canada.
163
ANEXO A - Agrupamento de Bairros por Área e Índices Econômico-sociais
Agrupamento de bairros por área (km2)
Agrupamento índices econômico-sociais, 2000, município do Rio de Janeiro.
164
ANEXO B - Agrupamento de Bairros por Índices Econômico-Sociais
Claro para
escuro:
0- 32%
33-64%
65-97%
Proporção de apartamentos (%), 2005, município do Rio de Janeiro.
Claro para
escuro:
2- 47%
48-93%
94-100%
Proporção de responsáveis do domicílio com curso superior (%), 2005.
165
ANEXO C - Agrupamento de Bairros por Índices Econômico-Sociais (Parte 2)
Claro para
escuro:
2- 19%
20-37%
38-56%
Proporção de responsáveis do domicílio com renda menor que 2 salários mínimos (%),
2005.
Proporção de responsáveis do domicílio mulheres (%), 2005.
166
ANEXO D - Agrupamento de Bairros por Indices Econômicos-sociais (Parte 3)
Claro para
escuro:
2- 19%
20-37%
38-56%
Proporção de responsáveis pelo domicilio sem escolaridade, 2005.
Proporção de favelas, 2002.
167
ANEXO E - Tabelas de Medidas de Centralidade por Bairro
Limiar, Proximidade da Centralidade, Intermediação, Densidade Egocêntrica e
Taxa de Contaminação no Primeiro Ano, 1982 a 1985.
Bairro
Ano
Limiar
1ª
Prox.
Intermed. Densid.
Central.
Taxa no
ego
1o ano
ocorr
Bangu
1982
0.00
0.15
0.02
0.04
0.06
J Botânico
1983
0.00
0.13
0.00
0.17
0.48
Centro
1983
0.00
0.12
0.00
0.30
0.30
Rio
1983
0.00
0.13
0.00
0.33
0.28
Copacabana
1983
0.00
0.19
0.05
0.10
0.09
Maracanã
1983
0.00
0.13
0.01
0.17
0.39
Tanque
1983
0.00
0.10
0.00
0.00
0.32
Piedade
1983
0.00
0.10
0.00
0.00
0.24
Sampaio
1983
0.00
0.10
0.00
0.00
0.79
Madureira
1983
0.00
0.14
0.01
0.07
0.21
Leblon
1984
0.00
0.15
0.00
0.29
0.28
São Crist
1984
0.17
0.12
0.00
0.00
0.30
Marechal
1984
0.00
0.12
0.00
1.00
0.22
Paciência
1984
0.00
0.12
0.00
1.00
0.15
Barra
1984
0.00
0.12
0.00
1.00
0.15
P Seca
1984
0.20
0.12
0.00
1.00
0.19
S Conrado
1984
0.00
0.12
0.00
0.00
0.99
Flamengo
1984
0.00
0.15
0.01
0.25
0.23
Irajá
1984
0.00
0.14
0.00
0.33
0.11
Tijuca
1984
0.29
0.17
0.02
0.18
0.15
Grajaú
1984
0.00
0.15
0.00
0.33
0.59
B de Pina
1984
0.00
0.12
0.00
0.00
0.18
Méier
1984
0.00
0.11
0.00
0.00
0.20
C Nova
1984
0.14
0.12
0.00
0.00
1.49
Gávea
1984
0.17
0.16
0.01
0.17
0.53
Comprido
168
Bairro
Ano
Limiar
1ª
Prox.
Intermed. Densid.
Central.
Taxa no
ego
1o ano
ocorr
Penha
1985
0.00
0.11
0.00
0.00
0.17
Botafogo
1985
0.25
0.15
0.01
0.18
0.82
Gamboa
1985
0.50
0.12
0.00
0.00
1.93
S Teresa
1985
0.33
0.17
0.01
0.18
0.80
Bangú
1985
0.00
0.15
0.02
0.04
0.38
Pavuna
1985
0.00
0.12
0.00
0.00
0.15
Manguinhos
1985
0.00
0.13
0.00
1.00
0.40
Anchieta
1985
0.00
0.11
0.00
0.00
0.24
Benfica
1985
0.14
0.12
0.00
1.00
0.51
R Miranda
1985
0.25
0.10
0.00
0.00
0.24
Glória
1985
0.40
0.11
0.00
0.00
1.09
Santo Cristo
1985
0.50
0.11
0.00
0.00
0.94
Vila Isabel
1985
0.50
0.14
0.01
0.07
0.57
Eng Leal
1985
0.00
0.11
0.00
0.00
0.00
Leme
1985
0.33
0.12
0.00
1.00
0.75
Sepetiba
1985
0.00
0.12
0.00
0.17
0.67
B Ribeiro
1985
0.20
0.09
0.00
0.00
0.22
Catete
1985
0.25
0.15
0.01
0.20
1.46
Penha Circ
1985
0.25
0.10
0.00
0.00
0.20
Ipanema
1985
0.67
0.12
0.00
1.00
0.27
Todos Santos 1985
0.25
0.10
0.00
0.00
0.43
Olaria
1985
0.00
0.10
0.00
0.00
0.18
Taquara
1985
0.14
0.11
0.00
0.00
0.12
T Coelho
1985
0.17
0.10
0.00
0.00
0.37
Parada Lucas
1985
0.25
0.08
0.00
0.00
0.54
Humaitá
1985
0.29
0.12
0.00
0.00
0.63
Vidigal
1985
1.00
0.12
0.00
1.00
0.97
169
ANEXO F - Algoritmo Cálculo de Tendência Espacial
Nome do pgm: calcindice <parâmetros>
Onde parâmetros são:
calcindice arquivo, objeto, distância, direção, atributo, min-coefcorr, recalc, tipo-calc.
arquivo; nome do arquivo de entrada.
objeto: polígono Oi para o qual os cálculos serão feitos, sendo o default todos.
distância: limitador de distância, sendo o limite inferior da faixa a ser considerada, O
default é calcular para todos as faixas de distância, sendo os seguintes valores válidos:
0, 1.001, 6.001, 10.001 e 20.001.
direção: direções válidos: 0º, 45º , 90º, 135º , 180º , 225º , 270º e 315º .
atributo – é o atributo a ser considerado.
min-coefcorr: valor do coeficiente de correlação mínimo.
recalc: informa se a tabela de direções será regravada.
tipo-calc : cálculo a ser executado’, o default é corrlin.
Passo 1: Ler os dados por polígono.
n= total de polígonos
If objeto <> all then n=1
For each i from 1 to n do
For each j from 1 to n do
Selecionar os polígonos Oj que satisfazem critérios de distância/direção
de Oi
Gravar em tabela temporária Oi_temp
end
end
Passo 2: Validar direções
For each i from 1 to n do
Contar registros de Oi_temp por direção e distância
If
total =>2 then
Armazenar em Oi_calculo_valido
end
170
end do;
Passo 3 : Cálculo da Tendência Espacial
Inicializa/cria listas vazias obj_total
For each i from 1 to n do
If direção/distância in Oi_calc_valido then do
Inicializa media, soma, diferença, desv, dist, array x, k to 0;
Selecionar objetos in Oi_temp que satisfaçam direção/distancia
For each objeto in selecao do
k =k + 1;
armazenar x.k = atributo(objeto)
calcular soma = soma + atributo(objeto)
calcular diferenca = atributo(objeto) – atributo(Oi);
dist = distancia(objeto);
d = faixa_dist(objeto);
inserir a tupla (diferença, dist) em obj_total (obj_total.k)
end do;
// cálculo de IFd
media = (soma + atributo(Oi)) / k;
desv = atributo(Oi) – media;
soma = 0;
for each x from 1 to k do
soma = soma + (desv * (x.k – media))
end do
calcular IFd.i = soma/desv2
// Cálculo da regressão
Calcular regressão tipo_calc de obj_total e armazenar em coefcorr
171
if abs(coefcorr) > = min_coefcorr
then
Oi_ dir_dist_coefcorr = coefcorr
else Oi_ dir_dist_coefcorr = 0
Armazenar Oi_dir_dist_coefcorr
else nop;
end do;
end algoritmo
172
ANEXO G - Indicadores Econômico-sociais
Indicador
Definição
situset
Situação do setor (1- Área urbanizada)
tiposet
Tipo do setor (0-Comum ou não especial, 1- Especial aglomerado)
tdomicpp
Número de domicílios particulares permanentes
pop2000
População total
thom
População masculina
tmul
População feminina
pcasas
Proporção de casas (%)
paptos
Proporção de apartamentos (%)
pdomimp
Proporção de domicílios improvisados (%)
pdomprop
Proporção de domicílios próprios (%)
pdomalug
Proporção de domicílios alugados (%)
paguared
Proporção de domicílios ligados à rede de água (%)
paguapoc
Proporção de domicílios com abastecimento por água de poços e nascentes (%)
paguaout
Proporção de domicílios com outras fontes de água (%)
psbanh
Proporção de domicílios sem banheiro (%)
psredint
Proporção de domicílios sem rede interna de água (%)
psanrede
Proporção de domicílios ligados à rede de esgoto (%)
psanfoss
Proporção de domicílios com esgoto de fossa (%)
psanvala
Proporção de domicílios com esgoto para vala (%)
psanrio
Proporção de domicílios com esgoto para rio ou mar (%)
psaninad
Proporção de domicílios com esgoto inadequado (%)
plixocol
Proporção de domicílios com lixo coletado (%)
plixocac
Proporção de domicílios com lixo coletado por caçamba (%)
plixoent
Proporção de domicílios com lixo enterrado (%)
plixoquei
Proporção de domicílios com lixo queimado (%)
plixojog
Proporção de domicílios com lixo coletado jogado em rio ou terreno (%)
plixoina
Proporção de domicílios com lixo inadequado (%)
nmedpesd
Número médio de pessoas por domicílio
pest2g
Proporção de responsáveis do domicílio com segundo grau (%)
pest3g
Proporção de responsáveis do domicílio com curso superior (%)
173
Indicador
Definição
pren0_2
Proporção de responsáveis do domicílio com renda menor que dois salários minm ários mí
mínimos (%)
pren1_3
Proporção de responsáveis do domicílio com renda entre um e três salários mínmos
mínimos (%)
razhxm
Razão entre população masculina e feminina
pchefmul
Proporção de responsáveis do domicílio que são mulheres (%)
174
ANEXO H- Mapa da rede de bairros, tamanho do vértice proporcional a centralidade, 2005, município do Rio de Janeiro
175
ANEXO I - Mapa de valores de degrau (número de conexões) rede de bairros, do município do Rio de Janeiro
176
ANEXO J - Mapa de Valores de Centralidade de Bairros, município do Rio de Janeiro.
177
ANEXO K – Mapa de Valores de Restrição Agregada da Rede de Bairros, do município do Rio de Janeiro
178
ANEXO L – Mapa de Valores de Densidade Egocêntrica da Rede de Bairros, município do Rio de Janeiro.
179
ANEXO M – Mapa de Valores de Limiar da Rede de Bairros, município do Rio de Janeiro.
180
ANEXO N Dicionário de Dados
BANCO DE DADOS ( DBF )
NOME
No
TIPO
Caracter
TA
M
7
NOME
NU_NOTIFIC
Tipo de notificação
Data da notificação
CATEGORIAS
1. Negativa
2. individual
3. surto
Data
DT_NOTIFIC
mm/dd/aa
181
DESCRIÇÃO
CARACTERISTICAS/
CRÍTICA DE
CONSISTENCIA
Preenchimento obrigatório
É campo-chave para
identificar registros no
sistema
Número da notificação do
caso. A numeração das fichas
de notificação
pode ser
previamente
atribuída
e
impressa nas fichas ou pode ser
definida a critério da Unidade
de Saúde (Ex.: Número do
prontuário).
Define o tipo de notificação a
Não existe campo na
ser realizada
estrutura de banco
As categorias são
utilizadas para seleção da
tela correspondente ao tipo
de notificação.
Data de notificação: Data de
Preenchimento obrigatório
preenchimento da ficha de
É campo-chave para
notificação
identificar registros no
sistema
Caracter
4
NU_ANO
Município de
notificação
Caracter
7
ID_MUNICIP
Unidade de saúde (ou
outra fonte
notificadora)
Caracter
**
**
Caracter
7
2
ID_UNIDAD
E
Código e nome dos
municípios do
cadastro do IBGE
Código e nome do
estabelecimento
segundo tabela
disponibilizada para
cadastramento pelo
usuário
Ano dos primeiros sintomas
para os agravos agudos e ano
do diagnóstico para os casos de
hanseníase, tuberculose e
AIDS
Nome do município onde está
localizada a unidade de saúde
(ou outra fonte notificadora)
que realizou a notificação. O
nome não é uma variável. Está
associado ao código
Digitação do nome do
município ou do código.
Quando digitado o nome,
o código é preenchido
automaticamente e viceversa.
É campo-chave para
identificar registros no
sistema
Nome completo e código da
Digitação do nome da
unidade de saúde (ou outra
unidade de saúde ou do
fonte notificadora) que realizou código. Quando digitado
o atendimento e notificação do o nome, o código é
caso
preenchido
automaticamente e viceversa.
É campo-chave para
identificar registros no
sistema
Recomenda-se a utilização
das tabelas do SIA e SIH SUS
Siglas da unidade federada que notificou
o caso
SG_UF_NO
T
182
Preenchido
automaticamente a partir
da data correspondente
Data do
Diagnóstico
Data
Data do nascimento
Data
Idade
Caracter
-
4
DT_DIAG
mm/dd/aa
Data em que foi realizado o
diagnóstico do caso notificado.
DT_NASC
mm/dd/aa
Data de nascimento do
paciente
NU_IDADE
A composição da
variável obedece o
seguinte critério: 4º
dígito:
ANOS (A), MESES
(M), DIAS (D)
Ex. 09 M – nove
meses, 18 A – dezoito
anos
Idade do paciente por ocasião
da Data do diagnóstico.
183
OBS: quando não há data de
nascimento a idade deve ser
digitada segundo informação
fornecida pelo paciente como
aquela referida por ocasião da
data do diagnóstico e se o
paciente não souber informar
sua idade, anotar a idade
aparente.
Preenchimento
obrigatório.
Data de notificação
Preenchimento
obrigatório, caso a idade
não esteja preenchida no
campo seguinte.
Preenchida
automaticamente, a partir
da diferença entre data do
diagnóstico e data do
nascimento.
Campo de preenchimento
obrigatório caso a data de
nascimento não seja
preenchida
Raça / cor
Caracter
1
CS_RACA
123459-
branca
preta
amarela
parda
indígena
ignorado
184
Considera-se na seleção das
categorias a cor ou raça
declarada pela pessoa.
1- branca
2- preta
3- amarela ( pessoa que se
declarou de raça amarela)
4- parda (pessoa que se
declarou mulata, cabocla,
cafuza, mameluca ou
mestiça de preto com
pessoa de outra cor ou
raça)
5- indígena (pessoa que se
declarou indígena ou índia)
Escolaridade (em
anos de estudos
concluídos)
Caracter
3
CS_ESCOL
AR
1 – nenhuma
2 – De 1 a 3
3 – De 4 a 7
4 – De 8 a 11
5 – De 12 e mais
6 - Não se aplica
9 - Ignorado
UF
Caracter
2
SG_UF
Código
padronizado pelo
IBGE
185
Anos de estudo concluídos. A
classificação é obtida em função
da série e do grau que a pessoa
está freqüentando ou freqüentou
considerando a última série
concluída com aprovação. A
correspondência é feita de forma
que cada série concluída com
aprovação corresponde a um ano
de estudo.
-
Sigla da Unidade Federada de
residência do paciente por
ocasião da notificação
Ao digitar sigla da UF, o
campo 25 (país) é
preenchido
automaticamente com o
nome do país “Brasil”
Se nenhuma UF for
selecionada, o sistema pula
automaticamente para
seleção de outro país que
não o Brasil
-
Categoria padronizada
segundo definição da
RIPSA
Categoria 6- não se
aplica é preenchida
automaticamente
quando caso notificado é
< 7 anos.
Município de
residência
Caracter
7
ID_MN_RES
I
Bairro
Caracter
Zona
Caracter
1
CS_ZONA
Relações sexuais
caracter
1
ANT_REL_SE
9
ID_BAIRRO
Códigos e nomes
padronizados pelo
IBGE -
Digitação do nome do
município ou do código.
Quando digitado o nome, o
código é preenchido
automaticamente e viceversa.
- Campo de
preenchimento
obrigatório quando UF é
digitada
Códigos e nomes Nome e respectivo código do
Digitação do nome ou
padronizados
bairro de residência do paciente preenchimento automático a
segundo
tabela por ocasião da notificação.
partir do código no campo
disponibilizada
Serão exibidos apenas os Bairros seguinte.
pelo
sistema. pertencentes ao Município
Cadastramento
selecionado no campo anterior.
realizado
pelo
usuário.
1-urbana
Zona de residência do paciente
Critérios definidos na
2-rural
por ocasião da notificação
Oficina de trabalho do
3 – urbana/rural
SINAN (set/98)
9- ignorado
1.
2.
3.
só com homens
só com mulheres
com homens e
mulheres
4. não se aplica
9. ignorado
186
Código e nome do município de
residência do caso notificado.
Serão exibidos somente os
Municípios pertencentes à UF
selecionada no campo anterior.
Pratica sexual do paciente
Não pode ser nulo
Quando o paciente for do sexo
feminino e ANT_REL_SEX=2, o
programa deve mostrar uma
mensagem alertando para a
notificação de paciente
HOMOSSEXUAL FEMININO
Relações sexuais com
indivíduo sabidamente
HIV + / AIDS
caracter
1
ANT_REL__1
Classificação das
Categorias de Exposição
Caracter
2
ANT_REL_CA
1. sim
2. não
3. não se aplica
9. ignorado
10 -Homossexual
20- Bissexual
Relações Sexuais com
indivíduo sabidamente
HIV+ /AIDS
Não pode ser nulo
Categoria de Exposição do paciente
- Rotina de classificação
Hierarquizada ;
- Não pode ser nulo.
30- Heterossexual
40-Drogas
50-Hemofilico
60-Transfusão
70- Acidente de Trabalho
80-Perinatal
90-Ignorado
Para todas as categorias:
21- Bi/Drogas
22- Bi/Hemofilico
23- Bi/Transfusão
24- Bi/Droga/Hemof
Paciente com múltiplos
parceiros
caracter
1
ANT_PAC_MU
Parceiro(a) que mantém
relações sexuais só com
homens
Parceiro(a) que mantém
relações sexuais só com
mulheres
Parceiro(a) que mantém
relações sexuais com
homens e mulheres
Parceiro(a) com
múltiplos parceiros
caracter
1
ANT_PARC_H
caracter
1
ANT_ PARC
_M
caracter
1
ANT_ PARC _1
caracter
1
ANT_PARC_3
Parceiro(a) que usa
drogas injetáveis
caracter
1
ANT_PARC_D
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
187
* Campo que não consta da ficha de
notificação e na tela do programa.
Variável interna do sistema
Disponível após exportação para outros
formatos.
Ver Rotina para classificação das
categorias de exposição no final deste
documento.
Paciente com múltiplos parceiros
Aceitar apenas códigos
Listados
Parceiro (a) que mantém
relações sexuais só com
homens
Parceiro (a) que mantém
relações sexuais só com
mulheres
Parceiro (a) que mantém
relações sexuais com homens e mulheres
Aceitar apenas códigos listados
Quando paciente do sexo feminino,
preencher com a categoria 2 (não).
Aceitar apenas códigos listados
Quando paciente do sexo masculino,
preencher com a categoria 2 (não).
Aceitar apenas códigos listados
Parceiro(a) com
múltiplos parceiros
Aceitar apenas códigos listados
Parceiro(a) que usa
drogas injetáveis
Aceitar apenas códigos listados
Parceiro(a) que recebeu
transfusão de
sangue/derivados
Parceiro Hemofílico
caracter
1
ANT_PARC_T
ANT_DT
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
-
caracter
1
ANT_PARC_2
Uso de Droga Injetável
caracter
1
ANT_DROGA
Hemofilia
caracter
1
ANT_HEMOLF
História de Transfusão de
Sangue/Derivados
caracter
1
ANT_TRANSF
No caso de haver Historia
de transfusão,
data da Transfusão
Unidade federada de
Transfusão
date
caracter
2
ANT_UF
Município de Transfusão
caracter
7
Instituição de Transfusão
Após investigação
realizada conforme
algoritmo da CN
DST/AIDS, a transfusão
foi considerada causa da
infecção pelo HIV?
caracter
caracter
7
1
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Parceiro(a) que recebeu
transfusão de sangue/derivados
Aceitar apenas códigos listados
Parceiro Hemofílico
Aceitar apenas códigos listados
Paciente Usuário de Droga Injetável
Aceitar apenas códigos listados
Paciente Hemofílico
Aceitar apenas códigos listados
Quando paciente do sexo feminino,
preencher com a categoria 2 (não).
Aceitar apenas códigos listados
Paciente tem Historia de Transfusão de
Sangue/Derivados
Data da Transfusão
Não pode ser nulo se ANT_TRANSF =
1
-
unidade federada da transfusão do paciente
ANT_MUNICI
-
município da transfusão do paciente
(código IBGE)
Aceitar apenas códigos listados – tabela
de siglas de unidade federada
Não pode ser nulo se ANT_TRANSF =
1
Aceitar apenas códigos listados – tabela
de municípios
Não pode ser nulo se ANT_TRANSF =
1
ANT_INSTIT
ANT_INFECC
1. sim
2. não
3. não se aplica
9. ignorado
Nome da Instituição de Transfusão
Após investigação realizada conforme
algoritmo da CN DST/AIDS, a transfusão
foi considerada causa da infecção pelo HIV
188
Não pode ser nulo se ANT_TRANSF =
1
Crítica para data da transfusão em
relação à data do diagnóstico – não
aceitar se a data da transfusão for
menor que 1 ano da data do
diagnóstico e mostrar mensagem
alertando da inconsistência!
Transmissão vertical
(mãe/filho)
Caracter
1
ANT_TRASMI
1. sim
2. não
3. não se aplica
9. ignorado
Ocorreu transmissão vertical (mãe/filho)
Acidente de trabalho em
profissionais de saúde
com sorologia negativa no
momento do acidente e
soroconversão nos
primeiros 6 meses
Outro
Caracter
1
ANT_ACIDEN
1. sim
2. não
3. não se aplica
9. ignorado
Acidente trabalho em Profissionais de
saúde com sorologia negativa no momento
do acidente e soroconversão nos primeiros
6 meses
Caracter
70
ANT_OUTRO
CRITÉRIO CARACAS
Caracter
1
ANT_SARCO
M
Sarcoma de Kaposi
Pontuação (10)
Aceitar apenas códigos listados.
Tuberculose disseminada
/ extra-pulmonar / não
cavitária
Candidíase Oral ou
leucoplasia pilosa
Caracter
1
ANT_TUBERC
Tuberculose disseminada/extrapulmonar/
não cavitária - Pontuação (10)
Aceitar apenas códigos listados.
Caracter
1
ANT_CANDID
Candidíase Oral ou Leucoplasia Pilosa
Pontuação (5)
Aceitar apenas códigos listados.
Tuberculose pulmonar
cavitária ou não
especificada
Herpes Zoster em
indivíduo menor ou igual
a 60 anos
Disfunção do sistema
nervoso central
Caracter
1
ANT_PULMO
N
Tuberculose pulmonar cavitária ou não
especificada - Pontuação (5)
Aceitar apenas códigos listados.
Caracter
1
ANT_HERPES
1
ANT_DISFUN
Herpes Zoster em indivíduo menor ou igual
a 60 anos
Pontuação (5)
Disfunção do sistema nervoso central
Pontuação (5)
Aceitar apenas códigos listados.
Caracter
Diarréia igual ou maior
que um 1 mês
Caracter
1
ANT_DIARRE
Diarréia igual ou maior que um 1 mês
Pontuação (2)
Aceitar apenas códigos listados.
Febre >= 38ºC por tempo
maior ou igual a 1 mês
Caracter
1
ANT_FEBRE
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
Febre maior ou igual 38º C, por tempo
maior ou igual a 1 mês
Pontuação (2)
Aceitar apenas códigos listados.
Sarcoma de Kaposi
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
189
Aceitar apenas códigos listados.
Incluir mensagem alertando o
digitador que o sistema está
incluindo um caso de aids de
transmissão vertical e se ele tem
certeza!
Aceitar apenas códigos listados.
Incluir mensagem alertando o
digitador que o sistema está
incluindo um caso de aids por
acidente de trabalho e se ele tem
certeza!
Aceitar apenas códigos listados.
Caquexia ou perda de
peso maior que 10%
Caracter
1
ANT_CAQUE
X
Astenia maior ou igual a 1
mês
Caracter
1
ANT_ASTERI
Dermatite persistente
Caracter
1
ANT_DERMA
T
Anemia e/ou linfopenia
e/ou trombocitopenia
Caracter
1
ANT_ANEMIA
Tosse persistente ou
qualquer pneumonia
(exceto tuberculose)
Caracter
1
ANT_TOSSE
Linfadenopatia maior ou
igual a 1 cm, maior ou
igual a 2 sítios
extrainguinais por tempo
> ou = a 1 mês
CRITÉRIO CDC –
Candidíase (esôfago,
traquéia, brônquios,
pulmão)
Citomegalovirose
Caracter
1
ANT_LINFO
Caracter
1
Caracter
Câncer cervical invasivo
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Caquexia ou pedra de peso maior que 10%
Pontuação (2)
Aceitar apenas códigos listados.
Astenia maior ou igual a 1 mês
Pontuação (2)
Aceitar apenas códigos listados.
Astenia maior ou igual a 1 mês
Pontuação (2)
Aceitar apenas códigos listados.
Anemia e/ou linfopenia e/ou
trombocitopenia
Pontuação (2)
Tosse persistente ou qualquer pneumonia
(exceto tuberculose)
Pontuação (2)
Aceitar apenas códigos listados.
1. Sim
2. Não
9. Ignorado
Linfadenopatia maior ou igual a 1 cm,
maior ou igual a 2 sítios extra-inquinais por
tempo maior ou igual a 1 mês
Pontuação (2)
Aceitar apenas códigos listados.
ANT_PULMA
O
1.
2.
9.
Sim
Não
Ignorado
Candidíase (esôfago, traquéia,
brônquios,pulmão)
Aceitar apenas códigos listados.
1
ANT_CITO
Aceitar apenas códigos listados.
1
ANT_CANCER
Câncer cervical invasivo
Criptococose
(Extrapulmonar)
Caracter
1
ANT_CRIPTO
Criptococose (Extra-Pulmonar)
Aceitar apenas códigos listados
Crítica: se sexo=1, preencher com o
código 2.
Aceitar apenas códigos listados
Criptosporidíase
Caracter
1
ANT_CRIP_1
Criptosporidíase
Aceitar apenas códigos listados.
Histoplasmose
disseminada
Caracter
1
ANT_HISTO
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Citomegalovirose
Caracter
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
Histoplasmose disseminada
Aceitar apenas códigos listados.
190
Aceitar apenas códigos listados.
Isosporíase
Caracter
1
ANT_ISOPOR
Herpes Simples (MucoCutâneo > 1 mês,
esôfago, brônquios,
pulmão)
Leucoencefalopatia
Multifocal Progressiva
Caracter
1
ANT_H_SIMP
Caracter
1
ANT_LEUCO
Linfoma não Hodgkin
caracter
1
ANT_LINFOM
Linfoma Primário do
Cérebro
caracter
1
ANT_LINFO_
Micobacteriose
Disseminada
caracter
1
ANT_MICRO
Pneumonia
por P. Carinii
caracter
1
ANT_PNEUM
O
Salmonelose
(Septicemia recorrente)
caracter
1
ANT_SALMO
Toxoplasmose Cerebral
caracter
1
ANT_TOXO
Sorologia para HIV Elisa (1º teste)
caracter
1
LAB_ELISA1
1. Sim
2. Não
9. Ignorado
1. Sim
2. Não
9. Ignorado
Isosporíase
Aceitar apenas códigos listados.
Herpes Simples (Muco-Cutâneo > 1 mês,
esôfago, brônquios, pulmão)
Aceitar apenas códigos listados.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
1.
2.
9.
Leucoencefalopatia Multifocal Progressiva
Aceitar apenas códigos listados.
Linfoma não Hodgkin
Aceitar apenas códigos listados.
Linfoma Primário do Cérebro
Aceitar apenas códigos listados.
Micobacteriose Disseminada
Aceitar apenas códigos listados.
Pneumonia por P. Carinii
Aceitar apenas códigos listados.
1. Sim
2. Não
9. Ignorado
1. Sim
2. Não
9. Ignorado
Salmonelose (Septicemia recorrente)
Aceitar apenas códigos listados
Toxoplasmose Cerebral
Aceitar apenas códigos listados
1.
2.
3.
4.
9.
Diagnóstico de Infecção pelo HIV
Elisa ( 2º teste )
Aceitar apenas códigos listados
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Sim
Não
Ignorado
Positivo
Negativo
Inconclusivo
Não realizado
Ignorado
191
Sorologia para HIV –
Imunofluorescência
caracter
1
LAB_IMUNO
Sorologia para o HIV –
Western Blot
caracter
1
LAB_WEST
PCR
caracter
1
LAB_PCR
Outros
caracter
1
LAB_OUTRO
Outros
Contagem de Linfócitos
CD4+
Data da contagem de
CD4+
caracter
Numérica
60
4
LAB_OUTROS
LAB_CD4
especificar
LAB_DT
Data da contagem do CD4
data
1.
2.
3.
4.
9.
1.
2.
3.
4.
9.
1.
2.
3.
4.
9.
1.
2.
3.
4.
9.
Positivo
Negativo
Inconclusivo
Não realizado
Ignorado
Positivo
Negativo
Inconclusivo
Não realizado
Ignorado
Positivo
Negativo
Inconclusivo
Não realizado
Ignorado
Positivo
Negativo
Inconclusivo
Não realizado
Ignorado
192
Diagnóstico de Infecção pelo HIV
Imunofluorescência
Aceitar apenas códigos listados
Diagnóstico de Infecção pelo HIV
Western Blot
Aceitar apenas códigos listados
Diagnóstico de Infecção pelo HIV
PCR
Aceitar apenas códigos listados
Outros Diagnósticos de Infecção pelo HIV
Aceitar apenas códigos listados
Critério excepcional
CDC – caso sem
diagnóstico laboratorial
da infecção pelo HIV,
excluídas outras causas
de imunodeficiência
(corticoterapia
sistêmica, leucoses e
síndrome de imunodeficiência genética) e
com doença indicativa
de AIDS diagnosticada
por método definitivo
Diagnóstico de AIDS
explicitado na
declaração de óbito
Óbito por causa não
externa em paciente em
acompanhamento e com
ARC
Nome da unidade
federada onde se realiza
o tratamento
Nome do município
onde se realiza o
tratamento
Nome da Unidade de
saúde onde se realiza o
tratamento
Situação Atual
caracter
1
DEF_DEFINI
1. Sim
2. Não
9. Ignorado
No caso de presença de situações clínicas
definidoras, porém sem o diagnóstico
laboratorial da infecção pelo HIV, houve
exclusão das causas de imunodeficiência
listadas na definição de caso de AIDS do
Ministério da Saúde
Aceitar apenas códigos listados
Campo habilitado se o diagnóstico
laboratorial (LAB_ELISA1 &
LAB_ELISA2 & LAB_IMUNO &
LAB_WEST & LAB_PCR &
LAB_OUTRO) >2
caracter
1
DEF_DIAGNO
caracter
1
DEF_CAUSA
1. Sim
2. Não
9. Ignorado
1. Sim
2. Não
9. Ignorado
Diagnóstico de AIDS explicitado na
declaração de óbito, sem nenhum outro
dado
Óbito por causa não externa em paciente
em acompanhamento e com ARC
Aceitar apenas códigos listados
Se EVO_SITUAC=1, então campo
preenchido com código 2)
Aceitar apenas códigos listados
Se EVO_SITUAC=1, então campo
preenchido com código 2)
caracter
7
TRA_UF
-
Nome da unidade federada onde se realiza o
tratamento
caracter
7
TRA_MUNICI
-
Nome do município onde se realiza o
tratamento
caracter
6
TRA_UNIDAD
-
Nome da unidade de saúde onde se realiza
o tratamento
caracter
1
EVO_SITUAC
Situação atual do paciente: vivo, morto ou
ignorado
Aceitar apenas códigos listados
Data do Óbito
data
EVO_DT
1. Vivo
2 . Morto
9 . Ignorado
-
Data do óbito do paciente
Se EVO_SITUAC =1 ativar o botão
SALVAR, caso contrário habilitar os
campos seguintes como obrigatórios.
Nº da declaração de
óbito (D.O)
caracter
EVO_DO
-
Numero da D. O
15
193
No caso de óbito
informar a causa da
morte (exatamente
como a Declaração de
óbito)
No caso de óbito
informar a causa da
morte
No caso de óbito
informar a causa da
morte
No caso de óbito
informar a causa da
morte
Caracter
60
EVO_CAUSA1
-
No caso de óbito informar a causa da morte
(exatamente como na declaração de óbito
Caracter
60
EVO_CAUSA2
-
No caso de óbito informar a causa da morte
(exatamente como na declaração de óbito
Caracter
60
EVO_CAUSA3
-
No caso de óbito informar a causa da morte
(exatamente como na declaração de óbito
Caracter
60
EVO_CAUSA4
-
No caso de óbito informar a causa da morte
(exatamente como na declaração de óbito
* Critério de
confirmação/descarte
caracter
3
CRITERIO
Definição do caso de aids em maiores de 12
anos segundo os critérios adotados pela
Coordenação Nacional de DST/Aids
Variável interna do sistema, preenchida
segundo os critérios descritos abaixo. A
hierarquização dos critérios deve ser
feita na seguinte ordem de importância
(maior para o menor): 123, 120, 130,
140, 200, 100, 300, 500, 600, 400.
* Data da Digitação
data
8
DTDIGIT
100. CDC
200. CDC/Laboratório
300. RJ/Caracas
120. CDC+
CDC/Laboratório
130. CDC+ RJ/Caracas
140. CDC/Laboratório +
RJ/Caracas
123. CDC+
CDC/Laboratório +
RJ/Caracas
400.CDC Excepcional
500. ARC+ Óbito
600. Óbito
900. Descartado
901.HIV+
-
Data da Digitação do caso, preenchido com
a data do dia
da digitação do caso
preenchido com a data da digitação do
caso
* Campo que não consta da ficha de
notificação e da tela do programa.
194
Definição de caso de aids em casos com 13 anos ou mais segundo os critérios adotados pela Coordenação Nacional de DST/Aids
CDC : (LAB_ELISA1=1 AND LAB_ELISA2=1) OR (LAB_IMUNO=1 OR LAB_WEST=1 OR LAB_PCR=1 OR LAB_OUTRO=1) AND (LAB_IMUNO<>2 AND LAB_WEST<>2
AND LAB_PCR<>2 AND LAB_OUTRO<>2) AND (ANT_PULMAO=1 OR ANT_CITO=1 OR ANT_CANCER=1 OR ANT_CRIPTO=1 OR ANT_CRIP_1=1 OR ANT_HISTO=1
OR ANT_ISOPOR=1 OR ANT_H_SIMP=1 OR ANT_LEUCO=1 OR ANT_LINFOM=1 OR ANT_LINFO_ =1 OR ANT_MICRO=1 OR ANT_PNEUMO=1 OR ANT_SALMO=1 OR
ANT_TOXO=1)
CDC/Laboratório: (LAB_ELISA1=1 E LAB_ELISA2=1) OR (LAB_IMUNO=1 OR LAB_WEST=1 OR LAB_PCR=1 OR LAB_ORTRO=1) AND (LAB_IMUNO<>2 AND
LAB_WEST<>2 AND LAB_PCR<>2 AND LAB_OUTROS<>2) AND (LAB_CD4 >0 AND LAB_CD4 <350).
RJ/CARACAS : (LAB_ELISA1=1 AND LAB_ELISA2=1 OR LAB_IMUNO=1 OR LAB_WEST=1 OR LAB_PCR=1 OR LAB_OUTRO=1) AND (LAB_IMUNO<>2 AND
LAB_WEST<>2 AND LAB_PCR<>2 AND LAB_OUTRO<>2) AND (a soma dos campos PS, PT, PC, PP, PH, PD, PR, PF, PQ, PA, PE ,PN,PO,PL totalize 10 ou mais pontos,
segundo as condições abaixo relacionadas):
se ANT_SARCOM=1 então PS=10 ELSE PS=0
se ANT_TUBERC=1 então PT=10 ELSE PT=0
se ANT_CANDID=1 então PC=5 ELSE PC=0
se ANT_PULMON=1 então PP=5 ELSE PP=0
se ANT_HERPES=1 então PH=5 ELSE PH=0
se ANT_DISFUN =1 então PD=5 ELSE PD=0
se ANT_DIARRE=1 então PR=2 ELSE PR=0
se ANT_FEBRE=1 então PF=2 ELSE PF=0
se ANT_CAQUEX=1 então PQ=2 ELSE PQ=0
se ANT_ASTENI=1 então PA=2 ELSE PA=0
se ANT_DERMAT=1 então PE=2 ELSE PE=0
se ANT_ANEMIA=1 então PN=2 ELSE PN=0
se ANT_TOSSE=1 então PO=2 ELSE PO=0
se ANT_LINFOM=1 então PL=2 ELSE PL=0
CDC Excepcional: (LAB_ELISA1>3 AND LAB_ELISA2>3 AND LAB_IMUNO>3 AND LAB_WEST>3 AND LAB_PCR>3 AND LAB_OUTRO>3) AND
(ANT_PULMAO=1 OR ANT_CITO=1 OR ANT_CANCER=1 OR ANT_CRIPTO=1 OR ANT_CRIP_1=1 OR ANT_HISTO=1 OR ANT_ISOPOR=1 OR ANT_H_SIMP=1 OR
ANT_LEUCO=1 OR ANT_LINFOM=1 OR ANT_LINFO_ =1 OR ANT_MICRO=1 OR ANT_PNEUMO=1 OR ANT_SALMO=1 OR ANT_TOXO=1)
ARC + ÓBITO: (LAB_ELISA1=1 E LAB_ELISA2=1) OR (LAB_IMUNO=1 OR LAB_WEST=1 OR LAB_PCR=1 OR LAB_OUTRO=1) AND (LAB_IMUNO<>2 AND
LAB_WEST<>2 AND LAB_PCR<>2 AND LAB_OUTRO<>2) AND (EVO_SITUAC=2 AND DEF_CAUSA=1 AND EVO_DT= DT_DIAG) AND (a soma dos campos PS, PT, PC,
PP, PH, PD, PR, PF, PQ, PA, PE,PN,PO,PL totalize menos de 10 pontos , segundo as condições abaixo relacionadas):
195
A data do óbito deve ser igual a data do diagnostico
se ANT_CANDID=1 então PC=5 ELSE PC=0
se ANT_PULMON=1 então PP=5 ELSE PP=0
se ANT_HERPES=1 então PH=5 ELSE PH=0
se ANT_DISFUN =1 então PD=5 ELSE PD=0
se ANT_DIARRE=1 então PR=2 ELSE PR=0
se ANT_FEBRE=1 então PF=2 ELSE PF=0
se ANT_CAQUEX=1 então PQ=2 ELSE PQ=0
se ANT_ASTENI=1 então PA=2 ELSE PA=0
se ANT_DERMAT=1 então PE=2 ELSE PE=0
se ANT_ANEMIA=1 então PN=2 ELSE PN=0
se ANT_TOSSE=1 então PO=2 ELSE PO=0
se ANT_LINFOM=1 então PL=2 ELSE PL=0
ÓBITO: (LAB_ELIS>2 AND LAB_ELISA2>2 e LAB_IMUNO>2 AND LAB_WEST>2 AND LAB_PCR>2 AND LAB_OUTRO>2) AND ( EVO_DT = DT_DIAG) AND
(EVO_SITUAC=2 AND DEF_DIAGNO=1) AND (EVO_CAUSA1<>´ ´ OR EVO_CAUSA2<>´ ´ OR EVO_CAUSA3<>´ ´ OR EVO_CAUSA4<>´ ´).
A data do óbito deve ser igual a data do diagnostico
Observação: Caso o critério definido, pelo sistema, seja o CDC/Laboratório (categoria 200), a data de diagnóstico deve ser igual à data da contagem do CD4 (LAB_DT).
DESCARTADO: os casos que não atendam as condições acima. O registro é salvo na base de dados, porém não entra no lote de transferência.
Rotina para classificação das categorias de exposição:
10 – Homossexual:
Em casos do sexo masculino:
quando ANT_REL_SE = 1 AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
Em casos do sexo feminino:
quando ANT_REL_SE = 1 AND ANT_REL_1= 1 AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
11 – Homo/Drogas:
Em casos do sexo masculino:
quando ANT_REL_SE = 1 AND ANT_DROGA=1 AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
Em casos do sexo feminino
quando ANT_REL_SE = 1 AND ANT_REL_1= 1 AND ANT_DROGA=1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
12 - Homo/Hemofilico:
Somente nos casos de sexo masculino, quando ANT_REL_SE = 1 AND ANT_HEMOF=1 AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND
ANT_ACIDEN<>1
13 – Homo/ Transfusão:
Manter somente para receber base de dados anterior. Casos novos entram na categoria 62.
14 - Homo/Droga/Hemof:
196
Somente nos casos de sexo masculino, quando ANT_REL_SE = 1 AND ANT_HEMOF=1 AND ANT_DROGA=1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND
ANT_ACIDEN<>1
15 – Homo/Droga/Transfusão:
Manter somente para receber base de dados anterior. Casos novos entram na categoria 64.
20 - Bissexual:
Somente nos casos do sexo masculino, quando ANT_REL_SE = 3 AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND
ANT_ACIDEN<>1
21 - Bi/Drogas:
Somente nos casos do sexo masculino, quando ANT_REL_SE = 3 AND ANT_DROGA=1 AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND
ANT_ACIDEN<>1
22 - Bi/Hemofílico:
Somente nos casos do sexo masculino, quando ANT_REL_SE = 3 AND ANT_HEMOF=1 AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND
ANT_ACIDEN<>1
23- Bi/Transfusão:
Manter somente para receber base de dados anterior. Casos novos entram na categoria 63.
24 - Bi/Droga/Hemofílico :
Somente nos casos do sexo masculino, quando ANT_REL_SE = 3 AND ANT_DROGA=1 AND ANT_HEMOF=1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND
ANT_ACIDEN<>1
25 – Bi/Droga/Transfusão:
Manter somente para receber base de dados anterior. Casos novos entram na categoria 65.
30- Heterossexual:
Em casos do sexo masculino:
quando ANT_REL_SE = 2 AND (ANT_REL_1=1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_ PARC _1=1 OR ANT_PARC_3=1 OR
ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
Em caso do sexo feminino:
quando ANT_REL_SE = 1 AND (ANT_REL_1= 1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_ PARC _1=1 OR ANT_PARC_2=1 OR
ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
quando ANT_REL_SE = 3 AND (ANT_REL_1= 1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_ PARC _1=1 OR ANT_PARC_2=1 OR
ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
31- Hetero/Droga:
Em casos do sexo masculino:
quando ANT_REL_SE = 2 AND ANT_DROGA=1 (ANT_REL_1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_ PARC _1=1 OR ANT_PARC_3=1
OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
Em casos do sexo feminino:
quando ANT_REL_SE = 1 AND ANT_DROGA=1 (ANT_REL_1= 1 AND ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_ PARC _1=1 OR
ANT_PARC_2=1 OR ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND
ANT_ACIDEN<>1
197
quando ANT_REL_SE = 3 AND ANT_DROGA=1 (ANT_REL_1= 1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_ PARC _1=1 OR
ANT_PARC_2=1 OR ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
32 - Hetero/Hemofilico:
Somente nos casos do sexo masculino, quando ANT_REL_SE = 2 AND (ANT_REL_1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_ PARC _1=1
OR ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_HEMOF=1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
33 - Hetero/Transfusão:
Manter somente para receber base de dados anterior. Casos novos entram na categoria 66.
34 - Hetero/Droga/Hemof:
Somente em casos do sexo masculino, quando ANT_REL_SE = 2 AND ANT_DROGA=1 AND ANT_HEMOF=1 AND ANT_REL_1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR
ANT_ PARC _M=1 OR ANT_ PARC _1=1 OR ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND
ANT_ACIDEN<>1
35 – Hetero/Droga/Transfusão:
Manter somente para receber base de dados anterior. Casos novos entram na categoria 67.
36 – Hetero com parceria de risco indefinido:
Em casos do sexo masculino:
quando ANT_REL_SE = 2 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR ANT_ PARC _1<>1 OR ANT_PARC_3<>1 OR
NT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
Em caso do sexo feminino:
quando ANT_REL_SE = 1 AND (ANT_REL_1<> 1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR ANT_ PARC _1<>1 OR ANT_PARC_2=1 <>1
OR ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
quando ANT_REL_SE = 3 AND (ANT_REL_1<> 1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR ANT_ PARC _1<>1 OR ANT_PARC_2=1<>1
OR ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>
40 - Drogas:
Em casos do sexo masculino:
quando (ANT_REL_SE =9 OR ANT_REL_SE = 4) AND ANT_DROGA=1 AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
ou quando ANT_REL_SE = 2 AND ANT_DROGA=1 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR ANT_ PARC _1<>1 OR
ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_INFECC<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
Em casos do sexo feminino:
quando (ANT_REL_SE =9 OR ANT_REL_SE = 4) AND ANT_DROGA=1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
quando ANT_REL_SE = 1 AND ANT_DROGA=1 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR ANT_ PARC _1<>1 OR
ANT_PARC_2=1<>1 OR ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
ou quando ANT_REL_SE = 3 AND ANT_DROGA=1 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR ANT_ PARC _1<>1 OR
ANT_PARC_2=1<>1 OR ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
198
41 -Drogas/Hemofílico:
Somente para o sexo masculino,
quando (ANT_REL_SE =9 OR ANT_REL_SE = 4) AND ANT_DROGA=1 AND ANT_HEMOF=1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
ou quando ANT_REL_SE = 2 AND ANT_DROGA=1 AND ANT_HEMOF=1 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR
ANT_ PARC _1<>1 OR ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
42 -Drogas/ Transfusão:
Manter somente para receber base de dados anterior.
50-Hemofilia:
Somente para o sexo masculino,
quando (ANT_REL_SE =9 OR ANT_REL_SE = 4) ANT_HEMOF=1 AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
ou quando ANT_REL_SE = 2 AND ANT_HEMOF=1 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR ANT_ PARC _1<>1 OR
ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_DROGA<>1 AND ANT_INFECC<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
60-Transfusão:
Em casos do sexo masculino:
quando (ANT_REL_SE =9 OR ANT_REL_SE = 4) AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_DROGA<>1 AND ANT_HEMOF<>1 AND ANT_TRASMI<>1 AND
ANT_ACIDEN<>1
ou quando ANT_REL_SE = 2 AND ANT_INFECC=1 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _1<>1 OR ANT_PARC_3<>1
OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_DROGA<>1 AND ANT_TRASMI<>1 AND ANT_HEMOF<>1 AND ANT_ACIDEN<>1
Em casos do sexo feminino:
quando (ANT_REL_SE =9 OR ANT_REL_SE = 4) AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_DROGA<>1 AND ANT_ACIDEN<>1
quando ANT_REL_SE = 2 AND ANT_REL_1<>1 AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_DROGA<>1 AND ANT_ACIDEN<>1
quando ANT_REL_SE = 1 AND ANT_INFECC=1 AND (ANT_REL_1<> 1 OR ANT_PAC_MU<>1 OR ANT_ PARC _M<>1 OR ANT_ PARC _1<>1 OR ANT_PARC_2=1 <>1 OR
ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_DROGA<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
ou quando ANT_REL_SE = 3 AND ANT_INFECC=1 AND ANT_DROGA=1 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR
ANT_ PARC _1<>1 OR ANT_PARC_2=1 <>1 OR ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
61-Transfusão/Drogas:
Em casos do sexo masculino:
quando (ANT_REL_SE =9 OR ANT_REL_SE = 4) AND ANT_DROGA=1 AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_HEMOF<>1 AND ANT_ACIDEN<>1
ou quando ANT_REL_SE = 2 AND ANT_INFECC=1 AND ANT_DROGA=1 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1
OR ANT_ PARC _1<>1 OR ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_TRASMI<>1 AND ANT_HEMOF<>1 AND ANT_ACIDEN<>1
Em casos do sexo feminino:
quando (ANT_REL_SE =9 OR ANT_REL_SE = 4) AND ANT_INFECC=1 AND ANT_DROGA=1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
quando ANT_REL_SE = 2 AND ANT_REL_1<>1 AND ANT_DROGA=1 AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
quando ANT_REL_SE = 1 AND ANT_INFECC=1 AND ANT_DROGA=1 AND (ANT_REL_1<> 1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR
ANT_ PARC _1<>1 OR ANT_PARC_2=1 <>1 OR ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
199
ou quando ANT_REL_SE = 3 AND ANT_INFECC=1 AND ANT_DROGA=1 AND (ANT_REL_1<>1 OR ANT_PAC_MU<>1 OR ANT_PARC_H<>1 OR ANT_ PARC _M<>1 OR
ANT_ PARC _1<>1 OR ANT_PARC_2=1 <>1 OR ANT_PARC_3<>1 OR ANT_PARC_D<>1 OR ANT_PARC_T<>1) AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
62-Transfusão/Homo:
Em casos do sexo masculino:
quando ANT_REL_SE = 1 AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_DROGA<>1 AND ANT_HEMOF<>1 AND ANT_ACIDEN<>1
Em casos do sexo feminino:
quando ANT_REL_SE = 2 AND ANT_REL_1=1 AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_REL_1= 1 AND ANT_DROGA<>1 AND ANT_ACIDEN<>1
63-Transfusão/Bi:
Somente nos casos do sexo masculino, quando ANT_REL_SE = 3 AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_DROGA<>1 AND ANT_HEMOF<>1 AND
ANT_ACIDEN<>1
64-Transfusão/Droga/Homossexual:
Em casos do sexo masculino:
quando ANT_REL_SE = 1 AND ANT_DROGA=1 AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_HEMOF<>1 AND ANT_ACIDEN<>1
Em casos do sexo feminino:
quando ANT_REL_SE = 2 AND ANT_REL_1= 1 AND ANT_DROGA=1 AND ANT_INFECC=1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
65 -Transfusão/Droga/Bissexual:
Somente nos casos do sexo masculino, quando ANT_REL_SE = 3 AND ANT_DROGA=1 AND ANT_INFECC=1 AND ANT_TRASMI<>1AND ANT_HEMOF<>1 AND
ANT_ACIDEN<>1
66-Transfusão/Hetero:
Em casos do sexo masculino:
quando ANT_REL_SE = 2 AND ANT_INFECC=1 AND (ANT_REL_1=1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _1=1 OR ANT_PARC_3=1 OR
ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_DROGA<>1 AND ANT_TRASMI<>1 AND ANT_HEMOF<>1 AND ANT_ACIDEN<>1
Em caso do sexo feminino:
quando ANT_REL_SE = 1 AND ANT_INFECC=1 AND (ANT_REL_1= 1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_ PARC _1=1 OR
ANT_PARC_2=1 OR ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_DROGA<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
ou quando ANT_REL_SE = 3 AND ANT_INFECC=1 AND (ANT_REL_1= 1 OR ANT_PAC_MU=1 OR ANT_ PARC _M=1 OR ANT_ PARC _1=1 OR ANT_PARC_2=1<>1 OR
ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_DROGA<>1 AND ANT_TRASMI<>1 AND ANT_ACIDEN<>1
67-Transfusão/Droga/Hetero:
Em casos do sexo masculino:
quando ANT_REL_SE = 2 AND ANT_INFECC=1 AND ANT_DROGA=1 AND (ANT_REL_1=1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_
PARC _1=1 OR ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_TRASMI<>1 AND ANT_HEMOF<>1 AND ANT_ACIDEN<>1
Em caso do sexo feminino:
quando ANT_REL_SE = 1 AND ANT_INFECC=1 AND ANT_DROGA=1 AND (ANT_REL_1= 1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_
PARC _1=1 OR ANT_PARC_2=1 OR ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_TRASMI=1AND ANT_ACIDEN<>1
200
quando ANT_REL_SE = 3 AND ANT_INFECC=1 AND ANT_DROGA=1 AND (ANT_REL_1= 1 OR ANT_PAC_MU=1 OR ANT_PARC_H=1 OR ANT_ PARC _M=1 OR ANT_
PARC _1=1 OR ANT_PARC_2=1 OR ANT_PARC_3=1 OR ANT_PARC_D=1 OR ANT_PARC_T=1) AND ANT_TRASMI<>1AND ANT_ACIDEN<>1
70- Acidente de Trabalho: ANT_ACIDEN=1
80-Perinatal: ANT_TRASMI=1
90-Ignorado: Todas as condições acima não atendidas.
201
Download