Hannah de Carvalho - PUC-SP

Propaganda
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
FEA - Faculdade de Economia e Administração
Programa de Estudos Pós-Graduados em Administração
PESQUISA SOCIO-ECONOMICA AO NIVEL MUNICIPAL NO BRASIL
focando principalmente indicadores relacionados a trabalho,
educação, saúde e muito particularmente HABITAÇÃO
MÉTODOS QUANTITATIVOS DA PESQUISA EMPÍRICA
Professor Dr. Arnoldo Jose de Hoyos
Hannah de Carvalho
INTRODUÇÃO
1.1 INTRODUÇÃO
O presente trabalho tem por objetivo efetuar diversas análises dos dados da Pesquisa
Firjan/FGV sobre o Desenvolvimento dos Municípios nos períodos de 2000 e 2010. Iniciamos
com o entendimento dos dados, incluindo a definição dos indivíduos e das variáveis, suas
classificações em variáveis categóricas ou quantitativas, os significados e unidades de medida,
além da apresentação da tabela de dados.
Na seqüência, analisamos cada uma das variáveis separadamente quanto a sua forma de
distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o
auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-plot e
curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão,
variância, intervalo de confiança e teste de normalidade de Anderson-Darling).
Em seguida faremos comparações entre as diversas variáveis analíticas, utilizando técnicas
como relações entre as variáveis, regressões múltiplas, comparações, amostragem dos dados,
análise multivariada, análise de conglomerados, análise discriminante, regressão logística,
análise de correspondência e arvores de classificação.
Não será possível, a partir destes dados, efetuarmos a análise de tendência pois não existem
séries temporais de dados, requisitos para esta técnica.
O software estatístico utilizado é o MINITAB 14. Este trabalho se concentrará nas diversas
variáveis que compõem a pesquisa ISDM.
ANALISE EXPLORATORIO DE DADOS
1.2-
PREPARAÇÃO DOS DADOS
Antes da análise dos dados, é necessário avaliar se não existe alguma inconsistência ou falha
que possa incorrer em algum erro nas análises futura. Neste caso, como se pode notar no item
1.1, coluna (N*), que indica o número de dados faltantes, em diversas variáveis estão faltando
dados, como exemplo: 304 no IFGF e 22 na Emprego e Renda.
1.2.1
Estatística Descritiva - dados originais
1.2.2
Descriptive Statistics: H; H1; H2; H3; H4; H5; H6; ISDM; ...
Variable
H
H1
H2
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
N*
0
0
0
0
0
0
0
0
71
304
0
0
1
0
22
22
304
Mean
4,3854
69,480
96,182
84,293
29,807
77,076
54,319
4,4325
0,64979
0,53228
85,481
56,304
14,260
24,525
0,74156
0,40414
0,57217
Minimum
0,2800
0,000000000
9,530
4,320
0,000000000
26,770
4,740
0,5500
0,36710
0,08000
45,720
6,400
0,000000000
0,0700
0,37460
0,000000000
0,000000000
Q1
3,7000
52,860
96,820
74,345
0,955
70,200
45,035
3,6000
0,57890
0,43000
79,525
41,275
4,293
8,620
0,66320
0,30630
0,19000
Median
4,4400
73,330
99,010
93,750
16,820
77,390
55,300
4,6400
0,65035
0,55000
87,510
57,420
12,580
19,990
0,74650
0,37610
0,69000
Q3
5,1900
89,220
99,710
98,765
56,250
84,430
64,615
5,3500
0,71673
0,65000
92,530
71,380
20,060
39,480
0,82350
0,47130
0,91000
Maximum
6,4800
100,000
100,000
100,000
99,920
97,500
89,330
6,2800
0,94860
0,97000
100,000
94,910
333,330
78,800
1,00000
1,00000
1,00000
1.3 Estatística Descritiva dos dados originais (N*=0)
Como foi observado no tópico anterior que os indicadores IFDM, IFGF, S1_1, Liquidez,
Educação e Emprego & Renda estão faltando (N* - coluna) usaremos o número referente ao
primeiro quartil para as células vazias.
Descriptive Statistics: H; H1; H2; H3; H4; H5; H6; ISDM; ...
Variable
H
H1
H2
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
E2_4
5565
N*
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Mean
4,3854
69,480
96,182
84,293
29,807
77,076
54,319
4,4325
0,64888
0,52670
85,481
56,304
14,259
24,525
0,74125
0,40375
0,55130
85,481
Minimum
Q1
Median
Q3 Maximum
0,2800
3,7000
4,4400
5,1900
6,4800
0,000000000
52,860
73,330
89,220 100,000
9,530
96,820
99,010
99,710 100,000
4,320
74,345
93,750
98,765 100,000
0,000000000
0,955
16,820
56,250
99,920
26,770
70,200
77,390
84,430
97,500
4,740
45,035
55,300
64,615
89,330
0,5500
3,6000
4,6400
5,3500
6,2800
0,36710 0,57890 0,64890 0,71540 0,94860
0,08000 0,43000 0,53000 0,64000 0,97000
45,720
79,525
87,510
92,530 100,000
6,400
41,275
57,420
71,380
94,910
0,000000000
4,293
12,580
20,050 333,330
0,0700
8,620
19,990
39,480
78,800
0,37460 0,66320 0,74600 0,82310 1,00000
0,000000000 0,30630 0,37580 0,47115 1,00000
0,000000000 0,19000 0,66000 0,91000 1,00000
8,881
45,722
79,528
87,510
92,529
1.4 Estatística Descritiva dos dados (adequação dos indicadores à escala 1-0)
Em seguida, para adequar os dados no estudo e possibilitar avaliações comparativas entre
estes, os indicadores, foram transformados em indicadores que variam de 0 à 1, e para tal
adotou-se à seguinte fórmula:
2.2 – AS VARIÁVEIS
As variáveis desta pesquisa incluem os 3 principais índices sintéticos que são ISDM, IFDM e
IFGF, que são médias ponderadas dos dados analíticos globais da pesquisa, e variáveis
analíticas, referente à educação, saúde, renda, emprego e habitação.
Tabela 1. As Variáveis
Variável
Significado
Tipo
UF
Abreviação de Unidade Federativa (ou Unidade da
Variável
Federação) do Brasil. As UF do Brasil são entidades
Categórica
Unidade de
Medida
N/A
autônomas, com governo e constituição próprias, que
em seu conjunto constituem a República Federativa do
Brasil. (IBGE, 2013)
Município
O município é a divisão administrativa autônoma da
Variável
UF. São as unidades de menor hierarquia dentro da
Categórica
N/A
organização político administrativa do Brasil, criadas
através de leis ordinárias das Assembléias Legislativas
de cada Unidade da Federação e sancionadas pelo
Governador. (IBGE, 2013)
UF2
Apresenta a sigla que representa as Unidades
Federativas (ou Unidades da Federação) do Brasil.
H- Habitação
Indicador do ISDM composto por H1, H2, H3, H4, H5,
H6.
H1- Água
Proporção de pessoas que vivem em domicilio com
Encanada
acesso à água canalizada em pelo menos um cômodo.
H2Esgotamento
Sanitário
H3- Coleta de
Lixo
Proporção de pessoas que vivem em domicilio com
Variável
N/A
Categórica
Variável
Percentual
Quantitátiva
Variável
Percentual
Quantitátiva
Variável
Percentual
esgotamento sanitário do tipo rede geral ou esgoto Quantitátiva
pluvial.
Proporção de pessoas que vivem em domicilio
Variável
atendido por coleta de lixo (realizada por serviço de Quantitátiva
Percentual
limpeza, ou cujo lixo é colocado em caçamba de
serviço de limpeza).
H4- Energia
Elétrica
Proporção de pessoas que vivem em domicilio que tem
Variável
Percentual
acesso à energia elétrica provida por companhia Quantitátiva
distribuidora.
H5Domicilio
Proporção de pessoas que vivem em domicilio próprio
de algum morador (Já pago ou ainda pagando).
Variável
Percentual
Quantitátiva
Próprio
H6-
Percentual de pessoas que vivem em domicilio que tem
Variável
Densidade
densidade de moradores por dormitório inferior à dois.
Quantitátiva
Indicador Social de Desenvolvimento dos Municipios,
Variável
Percentual
por
Dormitório
ISDM
Percentual
calculado pelo Centro de Economia Aplicada da Quantitátiva
Fundação Getulio Vargas (C-Micro-FGV)- pretende
contribuir para o debate de políticas publicas brasileira
fornecendo uma medida sintética de bem-estar dos
municípios
que
considere
algumas
de
suas
caracteristicas importantes relacionadas à dimensão de
Renda, Habitação, Educação, Trabalho, Saude e
Segurança.
IFDM
Indice Firjan de Desenvolvimento Municipal é um
Variável
estudo anual que acompanha o desenvolvimento dos Quantitátiva
0-1
Proporção
5565 municipios do Brasil em três áreas: Emprego e
Renda, Educação e Saúde, variando de 0à 1, sendo que
quanto mais próximo de 1, maior é o desenvolvimento
da localidade.
IFGF
Indice Firjan de Gestão Fiscal, para estimular a cultura
de
responsabilidade
administrativa
para Quantitátiva
aperfeiçoamento das decisões quanto à alocação de
recursos públicos afim de contribuir com uma gestão
eficiente e democrática e maior controle social da
gestão fiscal dos municípios. Indicadores: Receita
própria, pessoal, investimentos, liquidez e custo da
divida.
Variável
0-1
Proporção
E2_4
Percentual de crianças de 7 a 14 anos que estão na
Numérico
série correta segundo a idade
Escala
convertida
para
intervalo
entre 0 e 1.
T1_2-
Taxa de formalização entre os empregados
Numérico
Escala
Formalização
convertida
empregados
para
intervalo
entre 0 e 1.
S1_1-
Taxa de sobrevivência infantil no primeiro ano de vida,
Mortalidade
representada pela diferença entre o número de nascidos
Infantil
Numérico
Escala
convertida
vivos e o número de óbitos até um ano de idade.
para
intervalo
entre 0 e 1.
Numérico
R1- Linha de
Escala
convertida
Pobreza
para
intervalo
entre 0 e 1.
Educação
Média ponderada dos indicadores da dimensão
Numérico
Escala
Educação (E1_1, E1_2, E2_1, E2_2, E2_3, E2_4,
convertida
E2_5, E2_6, E3_1, E3_2 e E3_3) padronizada pela
para
intervalo
média do Brasil.
entre 0 e 1.
Emprego e
Renda
Geração, estoque e salários médios dos empregos
Numérico
formais (IFDM).
Escala
convertida
para
intervalo
entre 0 e 1.
Liquidez
Índice de liquidez dos municípios.
Numérico
Escala
convertida
para
intervalo
entre 0 e 1.
3. ANÁLISE DAS VARIÁVEIS
3.1 Variáveis Categóricas ou qualitativas.
Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo
pie chart e barras.
3.1.1 Variável: “UF” e “UF2”
Nossa amostra totaliza 26 unidades federativas e 1 distrito federal. As unidades federativas
estão distribuídas em 5 regiões.
Unidades Federativas x Regiões
Norte
7.8%
Centro-Oeste
8.4%
Nordeste
32.2%
Category
Norte
Centro-Oeste
Sul
Sudeste
Nordeste
Sul
21.5%
Sudeste
30.0%
No que diz respeito a relação regiões e cidades pode-se observar no gráfico acima que as
regiões Nordeste (32,2%), Sudeste (30,0%) e Sul (21,5%) concentram 83, 7% dos municípios
do território nacional, enquanto as demais regiões, Norte (7.8%) e Centro-Oeste (8,4%)
somam apenas 16, 2% dos munícipios. Além da concentração dos municípios brasileiros, as
três regiões tem em comum o fato de serem as três regiões banhadas significativamente pelo
oceano Atlântico. Fato este, que nos ajuda a entender a concentração nestas regiões.
3.1.2 Variável: “Munícipios”
Os gráficos abaixo nos ajudam a entender melhor o comportamento desta variável
Cidades X Estados
Other AC AL
TO
AMAP
BA
SP
CE
SE
ES
GO
SC
MA
RS
RR
RO
MG
RN
RJ
PR
MS
MT
PI
.
PE
PB
PA
C ategory
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
O ther
Cidades X Estados
900
800
700
Cidades
600
500
400
300
200
100
0
I
DF RR AP AC RO AM SE E S MS RJ AL TO MT PA RN CE PE MA PB P GO SC PR BA RS SP MG
UF2
Análise:
- O comportamento dos municipios por Unidades Federativas (UF2) não consiste em
igualdade conforme demonstra os gráficos acima, pois enquanto o estado de Minas Gerais
que contém a maior quantidade de municípios brasileiros tem 851 cidades que correspondem
à 15,3 % , Roraima tem apenas 15 municipios que é correspondente à 0,3%.
Portanto Minas Gerais tem 57 vezes mais municípios que Roraima.
A distância aumenta ao considerarmos o Distrito Federal que tem somente uma cidade.
- O Primeiro e o segundo quartil concentram-se nas regiões Norte e Centro-Oeste, de maneira
que tem somente dois estados no Sudeste: Rio de Janeiro e Espirito Santo e no Nordeste
apenas: Alagoas e Sergipe, exclui-se deste contexto Goiás que corresponde ao quarto quartil
Portanto podemos afirmar que nestas regiões concentram-se os estados com menor quantidade
de municípios que totalizam 1.015, ou seja, as Regiões Norte e Centro-Oeste somadas aos
quatro estados descritos acima correspondem 18% do total de municípios brasileiros.
- No terceiro Quartil os estados possuem a quantidade de municípios entre 167 e 223
concentrados na Região Sul e Sudeste, incluindo a Bahia que pertence à região Nordeste ,
exclui-se deste contexto Rio de Janeiro e Espirito Santo.
Este quartil é composto por 1.198 municipios que correspondem à 22% do total de municípios
brasileiros.
-No ultimo Quartil visualizamos os estados que possuem as maiores quantidades de
municípios, com forte concentração na região Nordeste, excluindo-se destes os estados da
Bahia, Alagoas e Sergipe e incluimos Goias correspondente à região centro-oeste.
Deste total temos 3.352 municipios que correspondem à 60% do total de municípios
brasileiros., portanto a Região Nordeste é composta pelos estados que mais contém
municípios.
3.2 Variáveis Quantitativas
A variável quantitativa quando seus valores forem expressos em números, podendo estar
subdivididas em quantitativa discreta e quantitativa continua,de modo que o primeiro caso
refere-se aos valores contidos em um intervalo razoável e a segunda são aquelas cujo valor só
pode pertencer à um conjunto enumerável.
Usaremos neste caso ferramentas de análise tais como; histogramas, gráficos e as informações
numéricas disponíveis.
3.2.1 Variável: “IFGF”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável IFGF.
Summary for IFGF
A nderson-Darling N ormality Test
Histogra
ma e
Box-Plot
0.12
0.24
0.36
0.48
0.60
0.72
0.84
0.96
A -S quared
P -V alue <
14.16
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0.52670
0.14790
0.02188
-0.220837
-0.400000
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.08000
0.43000
0.53000
0.64000
0.97000
Medidas
Numéri
95% C onfidence Interv al for M ean
0.52281
0.53058
Intervalo
95% C onfidence Interv al for M edian
de
95% C onfidence Interv al for S tDev
0.53000
9 5 % C onfidence Inter vals
0.14521
0.54000
0.15070
Mean
Median
0.525
0.530
0.535
0.540
As principais observações que podemos fazer são:
-
Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois
neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda.
Apresenta um pico decorrente do ajuste feito com informações do primeiro quartil para
preenchimento de valor dos municípios sem dados.
-
Valores Atípicos: Há 5 valores de IFGF atípicos no gráfico. Trata-se de 3 municípios do
Nordeste com valores muito baixos, Ilha Grande/PI (0,08), Buerarema/BA (0,10) e
Conceição/PB (0,11) e dois muito acima Poá/SP (0,96) e Santa Isabel/GO (0,97) conforme
demonstra o Box-plot..
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos munícipios
têm IFGF menor do que 0,53 e metade IFGF maior do que este valor. O IFGF médio do
dos municípios é de 0,5267, e o desvio-padrão (medida de dispersão) é 0,1479. O IFGF
mínimo é de 0,08, e o máximo 0,97, demonstrando uma grande amplitude. A mediana é
de 0,53, estando muito próxima da média.
3.2.2 Variável: “IFDM”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável IFDM.
Summary for IFDM
A nderson-Darling N ormality Test
Histogra
ma e
Box-Plot
0.40
0.48
0.56
0.64
0.72
0.80
0.88
0.96
A -S quared
P -V alue <
6.01
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0.64888
0.09580
0.00918
0.150127
-0.363881
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.36710
0.57890
0.64890
0.71540
0.94860
95% C onfidence Interv al for M ean
0.64637
0.65140
Intervalo
95% C onfidence Interv al for M edian
de
95% C onfidence Interv al for S tDev
0.64450
9 5 % C onfidence Inter vals
0.09405
Mean
Median
0.644
0.646
0.648
0.650
As principais observações que podemos fazer são:
0.652
0.65211
0.09761
Medidas
Numéri
-
Forma: O histograma apresenta uma curva de freqüência simétrica, pois neste caso a
Mediana é igual à Média conforme está descrito no gráfico sumário e ranking acima.
Portanto podemos concluir que existem apenas seis estados com alto desenvolvimento:
22% e por outro lado apenas Alagoas com desenvolvimento regular: 4%, os demais 20
estados que correspondem à 74% tem desenvolvimento regular.
-
Valores Atípicos: Há 4 valores de IFDM atípicos, 2 que apresentam resultados abaixo de
0,37, e 2 que representam dados acima de 0,97, ou seja: Alagoas, Amapá, São Paulo e
Paraná respectivamente conforme demonstra o Box-plot..
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios
tem IFDM menor do que 0,64887. O IFDM médio é de 0,64888, bastante próximo da
média o que nos confirma a simetria. O desvio-padrão (medida de dispersão) é de
0,09580, que implica em uma dispersão grande da população e uma variação grande entre
os diversos municípios do Brasil.
3.2.3 Variável: “ISDM”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável ISDM.
Summary for ISDM
A nderson-D arling N ormality Test
Histogra
A -S quared
P -V alue <
75.79
0.005
ma e
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
4.4325
1.0929
1.1944
-0.541129
-0.522519
5565
Box-Plot
0.8
1.6
2.4
3.2
4.0
4.8
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
5.6
0.5500
3.6000
4.6400
5.3500
6.2800
95% C onfidence Interv al for M ean
4.4037
4.4612
Intervalo
95% C onfidence Interv al for M edian
de
95% C onfidence Interv al for S tD ev
4.5900
9 5 % C onfidence Inter vals
1.0729
Mean
Median
4.40
4.45
4.50
4.55
4.60
Com base neste quadro-resumo, concluímos:
4.65
4.70
4.7000
1.1136
Medidas
Numéri
-
Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois
neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda
demonstrando que muitos municípios possuem um nível médio de desenvolvimento ou
um nível baixo de desenvolvimento e poucas possuem um alto nível de desenvolvimento
Existem duas corcovas no gráfico que nos mostra que existem duas realidades diferentes
dentro dos dados analisados, ou seja, existem tipicamente dois tipos de municípios dentro
do Brasil, e cada tipo está em um estágio diferente de desenvolvimento.
-
Valores Atípicos: Há 3 valores de ISDM atípicos, que apresentam resultados abaixo de
0,8, que são os municípios de Chaves, PA; Amajari, RR e Melgaço, PA, conforme
demonstra o Box-plot..
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios
tem ISDM menor do que 4,64446. O ISDM médio é de 4,4324 , mas o desvio-padrão
(medida de dispersão) é de 1,0929, que implica em uma dispersão grande da população e
uma variação grande entre os diversos municípios do Brasil.
3.2.4 Variável: “H- Habitação”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável
“Habitação”.
Summary for H
A nderson-Darling N ormality Test
Histogra
ma e
Box-Plot
0.9
1.8
2.7
3.6
4.5
5.4
6.3
A -S quared
P -V alue <
20.89
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
4.3854
1.0228
1.0462
-0.441043
-0.208759
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.2800
3.7000
4.4400
5.1900
6.4800
Medidas
Numéri
95% C onfidence Interv al for M ean
4.3585
4.4123
Intervalo
95% C onfidence Interv al for M edian
de
95% C onfidence Interv al for S tD ev
4.4100
9 5 % C onfidence Inter vals
1.0042
4.4700
1.0422
Mean
Median
4.350
4.375
4.400
4.425
4.450
4.475
-
Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois
neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda
demonstrando que muitos municípios possuem um nível médio de desenvolvimento ou
um nível baixo de desenvolvimento e poucas possuem um alto nível de desenvolvimento.
-
Valores Atípicos: Há 4 valores de Habitação atípicos, que apresentam resultados abaixo
de 0,9 que são os municípios de Canaã, PA; Maracanã, PA; Pacaraima RR e Wenceslau,
MG conforme demonstra o Box-plot..
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios
tem o índice de habitação menor do que 4,44. O índice de habitação médio é de 4,3854 ,
mas o desvio-padrão (medida de dispersão) é de 1,0228, que implica em uma dispersão
grande da população e uma variação grande entre os diversos municípios do Brasil.
3.2.5 Variável: “H1- Água Canalizada”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável “H1-Água
canalizada”.
Summary for H1
A nderson-D arling N ormality Test
Histogra
A -S quared
P -V alue <
88.44
0.005
ma e
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
69.480
22.520
507.164
-0.567641
-0.594060
5565
Box-Plot
0
14
28
42
56
70
84
98
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.000
52.860
73.330
89.220
100.000
Medidas
Numéri
95% C onfidence Interv al for M ean
68.888
Intervalo
70.072
95% C onfidence Interv al for M edian
72.409
de
74.381
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
22.110
22.947
Mean
Median
69
70
71
72
73
74
75
-
Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois
neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda
demonstrando que na maior parte dos municípios as pessoas vivem em domicilio com
acesso à água canalizada em pelo menos um cômodo e poucos municípios não possuem
água canalizada, conforme pesquisa realizada em julho de 2008 pela Unesp conclui-se que
72% da população recebe água canalizada, ratificando nossos dados acima:
http://www.unesp.br/aci/jornal/235/agua.php
-
Valores Atípicos: Não há conforme demonstra o Box-plot..
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios
tem o índice de água canalizada menor do que 73.33. O índice de água canalizada médio é
de 69.480 , mas o desvio-padrão (medida de dispersão) é de 22.520, que implica em uma
dispersão grande da população e uma variação grande entre os diversos municípios do
Brasil.
3.2.6 Variável: “H2- Esgotamento Sanitário”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável “H2Esgotamento Sanitário”.
Summary for H2
A nderson-D arling N ormality Test
Histogra
ma e
Box-Plot
14
28
42
56
70
84
98
A -S quared
P -V alue <
958.66
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
96.182
8.190
67.075
-4.3274
23.1906
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
9.530
96.820
99.010
99.710
100.000
Medidas
Numéri
95% C onfidence Interv al for M ean
95.967
96.397
Intervalo
95% C onfidence Interv al for M edian
de
95% C onfidence Interv al for S tDev
98.960
9 5 % C onfidence Inter vals
8.041
99.060
8.345
Mean
Median
96.0
96.5
97.0
97.5
98.0
98.5
99.0
-
Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois
neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda
demonstrando que na maior parte dos municípios as pessoas há uma alta taxa de pessoas
vivem em domicilio com esgotamento Sanitário do tipo rede ou esgoto pluvial, as baixas
taxas demonstram que existem cidades pouco desenvolvidas.
-
Valores Atípicos: Há muitos valores atípicos que apresentam resultados abaixo de 92.18
que são as cidades com esgotamento sanitário do tipo rede ou fluvial, significa portanto
que para estas cidades 6.82 % não são possuem esgotamento do tipo rede ou esgoto
pluvial.
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios
tem o índice de esgotamento sanitário menor do que 99.010. O índice de esgotamento
sanitário médio é de 96.182 , mas o desvio-padrão (medida de dispersão) é de 8.190, que
implica em uma dispersão grande da população e uma variação grande entre os diversos
municípios do Brasil.
3.2.7 Variável: “H3- Coleta de Lixo”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável “H3“Coleta de lixo”.
Summary for H3
A nderson-D arling N ormality Test
Histogra
ma e
Box-Plot
14
28
42
56
70
84
98
A -S quared
P -V alue <
403.83
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
84.293
19.162
367.188
-1.40894
1.29274
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
4.320
74.345
93.750
98.765
100.000
Medidas
Numéri
95% C onfidence Interv al for M ean
83.789
84.796
Intervalo
95% C onfidence Interv al for M edian
de
95% C onfidence Interv al for S tD ev
93.020
9 5 % C onfidence Inter vals
18.813
94.301
19.525
Mean
Median
85.0
87.5
90.0
92.5
95.0
-
Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois
neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda
demonstrando que na maior parte dos municípios as pessoas vivem em domicilio com
Coleta de lixo.
-
Valores Atípicos: Há muitos valores atípicos que apresentam resultados abaixo de 37.67.
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios
tem o índice de coleta de lixo menor do que 93.750. O índice de coleta de lixo médio é de
84.293 , mas o desvio-padrão (medida de dispersão) é de 19.162, que implica em uma
dispersão grande da população e uma variação grande entre os diversos municípios do
Brasil.
3.2.8 Variável: “H4- Energia elétrica”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável “H4Energia Elétrica”.
Summary for H4
A nderson-D arling N ormality Test
Histogra
ma e
Box-Plot
0
14
28
42
56
70
84
98
A -S quared
P -V alue <
339.06
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
29.807
31.679
1003.580
0.682199
-0.989971
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.000
0.955
16.820
56.250
99.920
Medidas
Numéri
95% C onfidence Interv al for M ean
28.975
30.640
Intervalo
95% C onfidence Interv al for M edian
de
95% C onfidence Interv al for S tD ev
14.989
9 5 % C onfidence Inter vals
31.102
18.514
32.279
Mean
Median
15.0
17.5
20.0
22.5
25.0
27.5
30.0
-
Forma: O histograma apresenta uma curva de freqüência com assimetria positiva, pois
neste caso a Mediana é menor que a Média, a cauda é assimétrica à direita.
-
Valores Atípicos: Não há conforme demonstra o Box-plot..
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios
tem o índice de energia elétrica menor do que 16.820. O índice de energia elétrica médio
é de 29.807 , mas o desvio-padrão (medida de dispersão) é de 31.679, que implica em uma
dispersão grande da população e uma variação grande entre os diversos municípios do
Brasil.
3.2.9 Variável: “H5- Domicilio Próprio”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável “H5Domicilio Próprio”.
Summary for H5
A nderson-D arling N ormality Test
Histogra
ma e
Box-Plot
30
40
50
60
70
80
A -S quared
P -V alue <
11.85
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
77.076
9.503
90.311
-0.265859
-0.271570
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
90
26.770
70.200
77.390
84.430
97.500
Medidas
Numéri
95% C onfidence Interv al for M ean
76.826
77.325
Intervalo
95% C onfidence Interv al for M edian
de
95% C onfidence Interv al for S tD ev
77.029
9 5 % C onfidence Inter vals
9.330
77.730
9.683
Mean
Median
76.8
77.0
77.2
77.4
77.6
77.8
-
Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois
neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda
-
Valores Atípicos: Existem muitos valores atípicos que apresentam resultados abaixo de
48.61.
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios
tem o índice de domicilio próprio menor do que 77.390 O índice de domicilio próprio
médio é de 77.076 , mas o desvio-padrão (medida de dispersão) é de 9.53, que implica em
uma dispersão grande da população e uma variação grande entre os diversos municípios
do Brasil.
3.2.10 Variável: “H6- Densidade por dormitório”
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos, informações dos quartis e o
teste de normalidade de Anderson-Darling (A-Squared e P-Value), para a variável “H6Densidade por dormitório”.
Summary for H6
A nderson-D arling N ormality Test
Histogra
ma e
Box-Plot
12
24
36
48
60
72
A -S quared
P -V alue <
15.83
0.005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
54.319
13.553
183.680
-0.400633
-0.053847
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
84
4.740
45.035
55.300
64.615
89.330
Medidas
Numéri
95% C onfidence Interv al for M ean
53.963
54.675
Intervalo
95% C onfidence Interv al for M edian
de
95% C onfidence Interv al for S tD ev
54.879
9 5 % C onfidence Inter vals
13.306
55.794
13.809
Mean
Median
54.0
54.5
55.0
55.5
56.0
-
Forma: O histograma apresenta uma curva de freqüência com assimetria negativa, pois
neste caso a Mediana é maior que a Média, a cauda é assimétrica à esquerda.
-
Valores Atípicos: Existem muitos valores atípicos que apresentam resultados abaixo de
15.09
-
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios
tem o índice de densidade por dormitório menor do que 0.59765. O índice densidade por
dormitório médio é de 0.59610 , mas o desvio-padrão (medida de dispersão) é de 0.16020,
que implica em uma dispersão grande da população e uma variação grande entre os
diversos municípios do Brasil.
3.2.11 VARIÁVEL EDUCAÇÃO
Summary for Educação
A nderson-Darling N ormality Test
0,45
0,54
0,63
0,72
0,81
0,90
0,99
A -S quared
P -V alue <
8,14
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0,74065
0,11324
0,01282
-0,187656
-0,492979
5564
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,37460
0,66200
0,74600
0,82310
1,00000
95% C onfidence Interv al for M ean
0,73767
0,74363
95% C onfidence Interv al for M edian
0,74218
0,75052
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,11118
0,11539
Mean
Median
0,738
0,740
0,742
0,744
0,746
0,748
0,750
As principais observações que podemos fazer são:
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser
simétrica cujo pico concentra-se no centro, o que é comum para variáveis que indiquem
desempenho regular. A curva apresenta várias corcovas, o que indica que temos diversas
realidades sobre a questão da variabilidade sobre Educação nos municípios do Brasil. Os
dados se dispersam muito, não existe um padrão na questão e pode-se concluir que existe
muita diversidade entre os dados.
- Valores Atípicos: Há muitos valores atípicos de Educação, que apresentam resultados
abaixo de 0,07636. O desempenho Educação é considerado médio nos municípios do Brasil.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem
Educação menor do que 0,59467. A Educação média é 0,58679 e o desvio-padrão (medida de
dispersão) é de 0,17984, que implica em uma dispersão média para a questão.
3.2.12 VARIÁVEL EMPREGO E RENDA
Summary for Emprego e Renda
A nderson-Darling N ormality Test
0,00
0,14
0,28
0,42
0,56
0,70
0,84
0,98
A -S quared
P -V alue <
105,67
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0,40375
0,15527
0,02411
0,88830
1,32099
5564
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,00000
0,30560
0,37580
0,47118
1,00000
95% C onfidence Interv al for M ean
0,39966
0,40783
95% C onfidence Interv al for M edian
0,37174
0,37960
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,15243
0,15821
Mean
Median
0,37
0,38
0,39
0,40
0,41
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente
assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem
desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta
conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a
distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores
baixos de EMPREGO E RENDA. Muitas cidades possuem um nível médio de EMPREGO E
RENDA e poucas possuem um nível alto de EMPREGO E RENDA. Existe apenas uma
corcova no gráfico.
- Valores Atípicos: Há alguns valores atípicos de EMPREGO E RENDA atípicos, que
apresentam resultados abaixo de 0,4742, e muitos valores atípicos acima da curva (0,72208).
Esta informação nos diz que existem municípios no Brasil que apresentam Taxas de
EMPREGO E RENDA acima da curva e alguns abaixo da curva.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem
EMPREGO E RENDA menor do que 0.37608. O EMPREGO E RENDA médio é de 0,40414
e o desvio-padrão (medida de dispersão) é de 0,15543, que implica em uma dispersão alta do
índice de EMPREGO E RENDA.
3.2.13 VARIÁVEL LIQUIDEZ
O indicador demonstra se o município possui recursos financeiros suficientes para fazer frente
ao montante de restos a pagar. Se o município apresentar mais restos a pagar do que ativos
financeiros disponíveis a pontuação será zero. Na leitura dos resultados, quanto mais próximo
de 1,00, menos o município está postergando pagamentos para o exercício seguinte sem a
devida cobertura
Summary for Liquidez
A nderson-Darling N ormality Test
0,00
0,14
0,28
0,42
0,56
0,70
0,84
0,98
A -S quared
P -V alue <
257,92
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0,55136
0,37352
0,13952
-0,32322
-1,46949
5564
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,00000
0,19000
0,66000
0,91000
1,00000
95% C onfidence Interv al for M ean
0,54154
0,56118
95% C onfidence Interv al for M edian
0,63000
0,67000
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,36671
0,38059
Mean
Median
0,550
0,575
0,600
0,625
0,650
0,675
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição totalmente
assimétrica tendendo levemente para a direita, o que é comum para variáveis que indiquem
desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta
conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a
distribuição não pode ser considerada uma Normal. Os valores de LIQUIDEZ se espalham
por todo o gráfico, não tendo um pico dos dados.
- Valores Atípicos: Não existem valores atípicos de LIQUIDEZ visto que a variabilidade dos
dados é tão alta que se distribui uniformemente por todo o gráfico. Não existe um padrão
nesta variável.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem
LIQUIDEZ menor do que 0.66000. O LIQUIDEZ médio é de 0,55130 e o desvio-padrão
(medida de dispersão) é de 0,37328, que implica em uma dispersão absoluta do índice de
LIQUIDEZ.
3.2.14 VARIÁVEL R1 - Pessoas com renda domiciliar per capita abaixo da linha de
pobreza (R$ 140,00)
Summary for R1
A nderson-Darling N ormality Test
0
12
24
36
48
60
A -S quared
P -V alue <
154,09
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
24,528
17,698
313,220
0,512476
-0,932091
5564
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
72
0,070
8,630
19,995
39,480
78,800
95% C onfidence Interv al for M ean
24,063
24,993
95% C onfidence Interv al for M edian
19,064
20,990
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
17,375
18,033
Mean
Median
19
20
21
22
23
24
25
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição que tende a ser
levemente assimétrica cujo pico concentra-se à esquerda, o que é comum para variáveis que
indiquem desempenho baixo. A curva apresenta algumas corcovas, sendo duas altamente
acentuadas, a primeira com maior pico e localizada fortemente à esquerda do gráfico. Indica
que o comportamento atípico da variabilidade sobre os dados de R1. Os dados se dispersam
bastante, e podemos afirmar que a variável R1 tem alta dispersão em relação aos municípios
do Brasil.
- Valores Atípicos: Não existem valores atípicos de R1.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem
R1 menor do que 0.25299. O R1 médio é de 0.31059 e o desvio-padrão (medida de dispersão)
é de 0.22480, que implica em uma dispersão alta para R1.
3.2.15 VARIÁVEL T1_2 - Taxa de formalização entre os empregados
Summary for T1_2
A nderson-Darling N ormality Test
12
24
36
48
60
72
84
96
A -S quared
P -V alue <
41,06
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
56,299
18,233
332,425
-0,132243
-0,992998
5564
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
6,400
41,273
57,415
71,380
94,910
95% C onfidence Interv al for M ean
55,820
56,778
95% C onfidence Interv al for M edian
56,580
58,206
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
17,900
18,578
Mean
Median
56,0
56,5
57,0
57,5
58,0
58,5
As principais observações que podemos fazer são:
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição simétrica,
embora o gráfico apresente várias corcovas na sua distribuiçõ. Indica que trata-se de um
desempenho regular. Esta conclusão está comprovada pelo teste de normalidade de AndersonDarling que indica que a distribuição pode ser considerada uma Normal. Muitas cidades
possuem um baixo nível de desenvolvimento, muitas cidades possuem um nível médio de
desenvolvimento e muitas possuem um nível alto de desenvolvimento. Existem várias
corcovas no gráfico que nos mostra que existem N realidades nos dados analisados, ou seja,
existem vários tipos de municípios dentro do Brasil em relação à formalização dos empregos.
- Valores Atípicos: Não existem valores atípicos de T1_2.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem
T1_2 menor do que 0.57642. O T1_2 médio é de 0.56380, e o desvio-padrão (medida de
dispersão) é de 0.20600, que implica em uma dispersão grande da população de T1_2.
3.2.16 VARIÁVEL S1_1 - Taxa de mortalidade infantil, por mil nascidos vivos.
Summary for S1_1
A nderson-Darling N ormality Test
0
45
90
135
180
225
270
315
A -S quared
P -V alue <
160,55
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
14,261
14,283
204,007
4,2572
59,4151
5564
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,000
4,278
12,575
20,080
333,330
95% C onfidence Interv al for M ean
13,885
14,636
95% C onfidence Interv al for M edian
12,294
12,916
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
14,023
14,554
Mean
Median
12,0
12,5
13,0
13,5
14,0
14,5
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente
assimétrica tendendo para a esquerda, o que é comum para variáveis que indiquem
desempenho baixo e menores números dentro de toda a distribuição dos dados. Esta
conclusão está comprovada pelo teste de normalidade de Anderson-Darling que indica que a
distribuição não pode ser considerada uma Normal. A maior parte das cidades possui valores
baixos de S1_1. Pouca cidades possuem um nível médio de S1_1 e quase nenhuma possuem
um nível alto de S1_1. Existem duas corcovas visíveis no gráfico. Como trata-se de nascido
vivos, o número baixo é bom porque a maioria dos nascidos vivos sobrevivem após um ano
de vida.
- Valores Atípicos: Há alguns valores atípicos de S1_1, que apresentam resultados acima de
0,13514. Esta informação nos diz que existem municípios no Brasil que apresentam Taxas de
S1_1 acima da curva, ou seja, que o índice de mortalidade é alto.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem
S1_1 menor do que 0.03774. O S1_1 médio é de 0.04278 e o desvio-padrão (medida de
dispersão) é de 0.04285, que implica em uma dispersão baixa do índice de S1_1.
3.2.17 VARIÁVEL E2_4 – Crianças entre 7 e 14 anos que estudam na série correta
segundo sua idade
Summary for E2_4
A nderson-Darling N ormality Test
48
56
64
72
80
88
A -S quared
P -V alue <
95,36
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
85,480
8,882
78,889
-0,834909
0,263000
5564
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
96
45,720
79,523
87,510
92,530
100,000
95% C onfidence Interv al for M ean
85,246
85,713
95% C onfidence Interv al for M edian
87,164
87,880
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
8,720
9,050
Mean
Median
85,0
85,5
86,0
86,5
87,0
87,5
88,0
- Forma: O Histograma nos permite verificar que trata-se de uma distribuição fortemente
assimétrica tendendo para a direita, o que é comum para variáveis que indiquem desempenho
alto e taxas elevadas. Esta conclusão está comprovada pelo teste de normalidade de
Anderson-Darling que indica que a distribuição não pode ser considerada uma Normal. A
curva apresenta várias corcovas, o que indica que temos diversas realidades sobre a questão
da série correta dos alunos. Os dados se dispersam muito, não existe um padrão na questão e
pode-se concluir que existe muita diversidade entre a questão do grau correto de idade e
escolaridade nos municípios.
- Valores Atípicos: Há muitos valores atípicos de E2_4 atípicos, que apresentam resultados
abaixo de 0,25933 que são as cidades cujas crianças que estão na série correta.
- Centro e Dispersão: A mediana nos indica que aproximadamente metade dos municípios tem
E2_4 menor do que 0.76989. O E2_4 médio é de 0.73250 e o desvio-padrão (medida de
dispersão) é de 0.16363, que implica em uma dispersão grande para a questão.
RELAÇÃO ENTRE AS VARIÁVEIS
4
RELAÇÃO ENTRE VARIÁVEIS: CORRELAÇÃO, REGRESSÃO E TESTE QUIQUADRADO.
4.1
Gráficos de dispersão com LINHAS DE TENDÊNCIAS
Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus
desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua
forma, direção e intensidade.
4.2 GRÁFICOS DE DISPERSÃO entre variáveis Habitação e Emprego e Renda
GRAFH >> SCATTERPLOT >> SIMPLE
A quantidade de dados analisados é muito grande, são 5565 municípios, o que causa uma
“mancha” no gráfico e dificulta a visualização. Uma forma de contornar esta situação seria
selecionar os dados por amostragem, mas neste caso não é aplicado, pois não existem critérios
específicos que garantiriam a fidelidade da amostra em relação à população.
Scatterplot of Emprego e Renda vs H
1,0
Emprego e Renda
0,8
0,6
0,4
0,2
0,0
0,0
0,2
0,4
0,6
H
0,8
1,0
Gráficos de dispersão devem ser inicialmente analisados quanto a seu padrão geral e seus
desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua
forma, direção e intensidade.
Direção: Da análise das correlações acima percebemos que quase todas possuem associações
positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. O
que nos parece é que não há nenhuma associação negativa, ao menos de evidência visual.
Intensidade: O gráfico acima parece indicar a existência de relações lineares, embora no ponto
mais alto do gráfico os pontos tendem a decair, e perde a característica de uma reta.
Forma: O gráfico apresenta conglomerados que sugerem relações lineares, embora
prejudicado pelo excesso de dados da população (5565 linhas).
Valores Atípicos: Todos os gráficos indicam a existência de valores atípicos, ou seja,
indivíduos ou municípios que possuem seus indicadores de Habitação e Emprego e Renda
fora da curva.
4.3 LINHAS DE TENDÊNCIAS entre Habitação e Emprego e Renda
GRAFH >> SCATTERPLOT >> WITH REGRESSION
Scatterplot of H vs Emprego e Renda
1,0
0,8
H
0,6
0,4
0,2
0,0
0,0
0,2
0,4
0,6
Emprego e Renda
0,8
1,0
Para se verificar qual o tipo de relação (linear, quadrática, cúbica, exponencial, etc.) existente
entre as variáveis, adicionamos em cada gráfico de dispersão uma linha de tendência.
O gráfico analisado neste caso contém a variável Habitação em relação Emprego e Renda.
Podemos afirmar que os pontos estão muito próximos da linha e são ascendentes, o que nos
aponta que o tipo de relação entre as variáveis é linear, embora existam valores atípicos
distribuídos por toda a extensão da reta.
4.4 LINHAS DE TENDÊNCIAS entre Educação e H6 (Proporção de pessoas que vivem
em domicílio que tem densidade de moradores por dormitório inferior a 2)
Scatterplot of Educação vs H6
1,0
0,9
Educação
0,8
0,7
0,6
0,5
0,4
0,3
0,0
0,2
0,4
0,6
0,8
1,0
H6
O segundo gráfico compara a tendência entre as variáveis Educação com H6. Se
compararmos com o gráfico anterior, podemos constatar que a “nuvem de pontos” está mais
concentrada na parte superior que o gráfico anterior. As duas linhas são crescentes, e concluíse que quando aumenta o índice de Educação, cresce o Emprego e Renda e melhora a questão
da habitação.
4.5 CORRELAÇÃO LINEAR
A matriz de correlação incluí o teste de significância p-value. Para a correlação foi utilizado o
índice de Pearson. Vale ressaltar que o índice de correlação entre as variáveis não requer que
exista uma relação de causa-efeito entre ambas.
Esta primeira visão exibe a correlação entre todas as variáveis utilizadas no trabalho.
STAT >> BASIC STATISTICS >> CORRELATION
Correlations: H; H1; H2; H3; H4; H5; H6; ISDM;...
H
0,829
0,000
H1
H2
0,829
0,000
1,000
*
H3
0,831
0,000
0,684
0,000
0,684
0,000
H4
0,769
0,000
0,543
0,000
0,543
0,000
0,404
0,000
H5
-0,443
0,000
-0,515
0,000
-0,515
0,000
-0,481
0,000
H6
0,644
0,000
0,384
0,000
0,384
0,000
0,688
0,000
ISDM
0,916
0,000
0,808
0,000
0,808
0,000
0,869
0,000
IFDM
0,723
0,000
0,672
0,000
0,672
0,000
0,673
0,000
IFGF
0,309
0,000
0,284
0,000
0,284
0,000
0,367
0,000
E2_4
0,648
0,000
0,527
0,000
0,527
0,000
0,696
0,000
T1_2
0,672
0,000
0,682
0,000
0,682
0,000
0,642
0,000
S1_1
-0,102
0,000
-0,085
0,000
-0,085
0,000
-0,115
0,000
R1
-0,807
0,000
-0,738
0,000
-0,738
0,000
-0,837
0,000
Educação
0,710
0,000
0,592
0,000
0,592
0,000
0,664
0,000
Emprego e Re
0,475
0,000
0,521
0,000
0,521
0,000
0,385
0,000
Liquidez
0,197
0,000
0,185
0,000
0,185
0,000
0,255
0,000
H4
-0,434
0,000
H5
H6
ISDM
H6
0,209
0,000
-0,205
0,000
ISDM
0,583
0,000
-0,501
0,000
0,695
0,000
IFDM
0,464
0,000
-0,432
0,000
0,522
0,000
0,815
0,000
IFGF
0,104
0,000
-0,127
0,000
0,327
0,000
0,420
0,000
E2_4
0,329
-0,394
0,613
0,764
H1
H5
H2
H3
0,000
0,000
0,000
0,000
T1_2
0,405
0,000
-0,375
0,000
0,449
0,000
0,806
0,000
S1_1
-0,026
0,054
0,040
0,003
-0,115
0,000
-0,147
0,000
R1
-0,431
0,000
0,514
0,000
-0,709
0,000
-0,951
0,000
Educação
0,488
0,000
-0,454
0,000
0,552
0,000
0,782
0,000
Emprego e Re
0,354
0,000
-0,261
0,000
0,211
0,000
0,525
0,000
Liquidez
0,017
0,194
-0,051
0,000
0,260
0,000
0,276
0,000
IFDM
0,446
0,000
IFGF
E2_4
T1_2
E2_4
0,705
0,000
0,420
0,000
T1_2
0,737
0,000
0,429
0,000
0,599
0,000
S1_1
-0,182
0,000
-0,066
0,000
-0,128
0,000
-0,112
0,000
R1
-0,801
0,000
-0,455
0,000
-0,768
0,000
-0,782
0,000
Educação
0,810
0,000
0,386
0,000
0,765
0,000
0,609
0,000
Emprego e Re
0,778
0,000
0,330
0,000
0,363
0,000
0,586
0,000
Liquidez
0,282
0,000
0,766
0,000
0,263
0,000
0,302
0,000
S1_1
0,140
0,000
R1
Educação
-0,122
0,000
-0,753
0,000
Emprego e Re
-0,077
0,000
-0,509
0,000
0,377
0,000
Liquidez
-0,049
0,000
-0,308
0,000
0,234
0,000
IFGF
R1
Cell Contents: Pearson correlation
P-Value
Educação Emprego e Re
0,197
0,000
4.6
Regressão dos mínimos quadrados
A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas variáveis
quantitativas. Se um diagrama de dispersão mostra uma relação linear, é interessante
resumirmos esse padrão geral traçando uma reta no diagrama de dispersão. Uma reta de
regressão resume a relação entre duas variáveis, mas somente em um contexto específico:
quando uma das variáveis ajuda a explicar ou a predizer a outra, ou seja, a regressão descreve
uma relação entre uma variável explanatória e uma variável resposta.
A regressão linear assume sempre a forma de uma equação linear:
Y = a + bx, sendo:
Y= Variável dependente;
a = uma constante, o intercepto;
b = a inclinação na reta;
x = variável independente ou explicativa.
O “b”, ou seja, a declividade é dada pela multiplicação do índice de correlação pela divisão
dos desvios-padrão entre as variáveis x e y. E “a” é dado pela média de “Y” menos a
multiplicação de “b” pela média de “x”. Assim, percebe-se muito claramente que a regressão
depende da correlação entre as variáveis, além de medidas de centro de cada uma das
variáveis.
Segue abaixo o resultado da regressão entre as variáveis R1 e H3.
Regression Analysis: R1 versus H3
The regression equation is
R1 = 1,10 - 0,940 H3
Predictor
Constant
H3
Coef SE Coef
1,09630
0,00707
-0,939997 0,008224
S = 0,122858
R-Sq = 70,1%
T
155,10
-114,30
P
0,000
0,000
R-Sq(adj) = 70,1%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
5563
5564
SS
197,19
83,97
281,16
MS
197,19
0,02
F
13064,11
P
0,000
A tabela acima exibe o resultado da fórmula entre as variáveis R1 e H3(Coleta de Lixo). Se
substituísse o valor de H3 se chegaria ao valor de R1 esperado. A é a expressão numérica da
reta de tendência que vimos nos itens acima. Esta equação tem um poder explicativo de
70,18%, que é o R-Quadrado. O valor da constante 1,10 significa que, se o H3 fosse zero, o
valor da R1 seria 1,10.
4.7
Dendrograma
Dendrogram with Single Linkage and Correlation Coefficient Distance
Similarity
48,71
65,80
82,90
100,00
H
DM
IS
H3
H1
H2
o _2 da H4 _4
DM ã
IF caç T1 Ren
E2
u
d
e
E
o
eg
pr
Em
Variables
z
H6 FGF ide
I
u
q
Li
Gráfico 1 - Dendrograma das 13 variáveis
Cluster Analysis of Variables: H; H1; H2; H3; H4; H5; H6; ISDM;...
Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
Number
of
clusters
16
15
14
13
12
11
Similarity
level
100,000
95,795
93,435
91,442
90,744
90,476
Distance
level
0,00000
0,08409
0,13130
0,17117
0,18512
0,19048
Clusters
joined
2
3
1
8
1
4
1
2
1
9
1
15
New
cluster
2
1
1
1
1
1
Number
of obs.
in new
cluster
2
2
3
5
6
7
H5
R1 1_1
S
7
8
9
10
11
12
13
14
15
16
10
9
8
7
6
5
4
3
2
1
90,318
88,922
88,444
88,304
88,263
84,756
75,721
72,322
57,016
48,707
0,19363
0,22157
0,23113
0,23393
0,23474
0,30487
0,48558
0,55356
0,85969
1,02585
1
1
1
10
1
1
6
1
6
1
12
16
5
17
11
7
14
10
13
6
1
1
1
10
1
1
6
1
6
1
8
9
10
2
11
12
2
14
3
17
ANÁLISE DE REGRESSÃO E STEPWISE
5
REGRESSÕES MULTIPLAS
5.1
Regressão Stepwise
Stepwise Regression: ISDM versus H; H1;...
Alpha-to-Enter: 0,15
Alpha-to-Remove: 0,15
Response is ISDM on 15 predictors, with N = 5565
Step
Constant
R1
T-Value
P-Value
1
0,9282
2
0,5117
3
0,4391
4
0,3839
5
0,3592
6
0,3352
-0,8069
-229,28
0,000
-0,5153
-148,50
0,000
-0,4463
-117,94
0,000
-0,4125
-97,91
0,000
-0,4070
-96,31
0,000
-0,3907
-85,20
0,000
0,4923
104,12
0,000
0,4760
109,57
0,000
0,4707
110,69
0,000
0,4606
105,54
0,000
0,4390
88,21
0,000
0,1098
33,33
0,000
0,1103
34,31
0,000
0,1095
34,30
0,000
0,1124
35,26
0,000
0,0654
16,66
0,000
0,0480
11,04
0,000
0,0415
9,48
0,000
0,0579
9,09
0,000
0,0641
10,07
0,000
H
T-Value
P-Value
T1_2
T-Value
P-Value
E2_4
T-Value
P-Value
Educação
T-Value
P-Value
H3
T-Value
P-Value
S
R-Sq
R-Sq(adj)
Step
Constant
R1
T-Value
P-Value
H
0,0381
8,86
0,000
0,0590
90,43
90,43
0,0344
96,76
96,75
0,0314
97,30
97,29
0,0306
97,42
97,42
0,0304
97,46
97,46
7
0,3387
8
0,3404
9
0,3426
10
0,3410
-0,3891
-85,24
0,000
-0,3902
-85,25
0,000
-0,3912
-85,02
0,000
-0,3898
-83,70
0,000
0,4399
0,4382
0,4399
0,4336
0,0302
97,50
97,49
T-Value
P-Value
88,86
0,000
87,97
0,000
87,13
0,000
72,16
0,000
T1_2
T-Value
P-Value
0,1122
35,39
0,000
0,1133
35,52
0,000
0,1155
34,24
0,000
0,1144
33,41
0,000
E2_4
T-Value
P-Value
0,0408
9,37
0,000
0,0413
9,48
0,000
0,0411
9,45
0,000
0,0421
9,61
0,000
Educação
T-Value
P-Value
0,0631
9,97
0,000
0,0632
10,00
0,000
0,0626
9,89
0,000
0,0630
9,95
0,000
H3
T-Value
P-Value
0,0380
8,88
0,000
0,0386
9,02
0,000
0,0374
8,64
0,000
0,0381
8,78
0,000
S1_1
T-Value
P-Value
-0,0748
-7,87
0,000
-0,0748
-7,88
0,000
-0,0750
-7,90
0,000
-0,0753
-7,94
0,000
-0,0034
-2,96
0,003
-0,0033
-2,89
0,004
-0,0032
-2,82
0,005
-0,0065
-2,00
0,045
-0,0074
-2,24
0,025
Liquidez
T-Value
P-Value
Emprego e Renda
T-Value
P-Value
H2
T-Value
P-Value
S
R-Sq
R-Sq(adj)
5.2
0,0066
1,92
0,055
0,0300
97,52
97,52
0,0300
97,53
97,52
0,0300
97,53
97,53
0,0300
97,53
97,53
Regressão Múltiplas
O Próximo passo é calcular a formula utilizando as variáveis demonstradas pela função
Stepwise como sendo as que mais explicam Habitação.
5.2.1 Regression Analysis: H versus H1; H2;...
H = - 0,128 + 0,239 H1 + 0,245 H3 + 0,228 H4 + 0,157 H5 + 0,216 H6 + 0,131
ISDM
+ 0,0143 E2_4 - 0,0209 T1_2 - 0,00458 S1_1 + 0,0680 R1 + 0,00621
Educação
+ 0,00177 Emprego e Renda - 0,00240 Liquidez
Predictor
Coef
SE Coef
T
P
Constant
H1
H3
H4
H5
H6
ISDM
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
S = 0,0150090
-0,127748
0,239218
0,245164
0,227765
0,156784
0,216409
0,131165
0,014288
-0,020865
-0,004577
0,067980
0,006205
0,001771
-0,0023983
0,004308
0,001751
0,002245
0,001053
0,001991
0,002191
0,006489
0,002233
0,001890
0,004783
0,003603
0,003243
0,001671
0,0005811
R-Sq = 99,2%
-29,65
136,60
109,23
216,34
78,73
98,77
20,21
6,40
-11,04
-0,96
18,87
1,91
1,06
-4,13
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,339
0,000
0,056
0,289
0,000
R-Sq(adj) = 99,2%
5.2.2 Regression Analysis: H versus H1; H2; .
Na Segunda tentativa, expurgando os dados da última análise que não faziam parte dos
indicadores de Habitação, basicamente, mantivemos o mesmo nível explicativo da equação
(99,2%).
The regression equation is
H = - 0,129 + 0,238 H1 + 0,245 H3 + 0,228 H4 + 0,158 H5 + 0,215 H6 + 0,131 ISDM
+ 0,0232 IFDM - 0,0188 IFGF + 0,0154 E2_4 - 0,0217 T1_2 + 0,0674 R1
+ 0,00250 Liquidez
Predictor
Constant
H1
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
R1
Liquidez
Coef
-0,129300
0,237785
0,245424
0,227529
0,157617
0,215249
0,130615
0,023152
-0,018815
0,015373
-0,021663
0,067412
0,0024954
S = 0,0148949
SE Coef
0,004408
0,001726
0,002220
0,001031
0,001967
0,002170
0,006345
0,003921
0,002316
0,002085
0,001849
0,003588
0,0008441
R-Sq = 99,2%
T
-29,33
137,78
110,54
220,67
80,14
99,21
20,59
5,90
-8,12
7,37
-11,71
18,79
2,96
P
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,003
R-Sq(adj) = 99,2%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
12
5552
5564
COMPARAÇÕES
SS
150,194
1,232
151,426
MS
12,516
0,000
F
56415,64
P
0,000
6
COMPARAÇÕES - ANOVA
6.1
Variável ISDM por Região
Boxplot of ISDM by Região
1,0
0,8
ISDM
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sudeste possui o maior ISDM do país, o que indica que esta é a região com melhor
desenvolvimento dos municípios do Brasil, segundo a pesquisa. A região Sul e Centro Oeste
encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e
terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região
Nordeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a
menor e o da região Norte, a maior variabilidade de quando comparo com os dados das
demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O Pvalue = 0 nos indica que a informação é confiável e não existe chance deste valor ser
diferente.
One-way ANOVA: ISDM versus Região
Source
Região
Error
Total
DF
4
5560
5564
SS
127,5665
74,8397
202,4062
MS
31,8916
0,0135
F
2369,30
P
0,000
S = 0,1160
R-Sq = 63,02%
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
N
468
1790
447
1669
1191
Mean
0,7235
0,4993
0,4806
0,8221
0,7988
R-Sq(adj) = 63,00%
StDev
0,0916
0,1245
0,1709
0,1123
0,0875
Individual 95% CIs For Mean Based on
Pooled StDev
---+---------+---------+---------+-----(*)
(*
(*)
*)
(*)
---+---------+---------+---------+-----0,50
0,60
0,70
0,80
Pooled StDev = 0,1160
6.2
Variável H por Região
Boxplot of H by Região
1,0
0,8
H
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sudeste possui o maior Habitação do país, o que indica que esta é a região com
melhor desenvolvimento de Habitação nos municípios do Brasil, segundo a pesquisa. A
região Sul e Centro Oeste encontram-se próxima a região Sudeste, e ocupam, em ordem
decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior
desempenho, pela região Nordeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a
menor e o da região Norte, a maior variabilidade de quando comparo com os dados das
demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-
value = 0 nos indica que a informação é confiável e não existe chance deste valor ser
diferente.
One-way ANOVA: H versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1122
SS
81,4322
69,9939
151,4261
MS
20,3581
0,0126
R-Sq = 53,78%
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
N
468
1790
447
1669
1191
F
1617,15
P
0,000
R-Sq(adj) = 53,74%
Mean
0,6383
0,5501
0,4479
0,8053
0,7198
StDev
0,0938
0,1284
0,1392
0,1058
0,0873
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+---------+--(*)
(*)
(*)
(*
(*)
------+---------+---------+---------+--0,50
0,60
0,70
0,80
Pooled StDev = 0,1122
6.3
Variável H1 por Região
Boxplot of H1 by Região
1,0
0,8
H1
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sudeste possui o maior índice de ÁGUA ENCANADA-H1 do país, o que indica que
esta é a região com melhor no Brasil neste quesito, segundo a pesquisa. A região Sul e Centro
Oeste encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e
terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho, pela região
Nordeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a
menor e o da região Nordeste, a maior variabilidade de quando comparo com os dados das
demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O Pvalue = 0 nos indica que a informação é confiável e não existe chance deste valor ser
diferente.
One-way ANOVA: H1 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1948
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
SS
71,2868
210,8990
282,1858
MS
17,8217
0,0379
R-Sq = 25,26%
N
468
1790
447
1669
1191
Mean
0,7459
0,5624
0,5460
0,8117
0,7657
Pooled StDev = 0,1948
F
469,84
P
0,000
R-Sq(adj) = 25,21%
StDev
0,1560
0,2136
0,1981
0,1793
0,1982
Individual 95% CIs For Mean Based on
Pooled StDev
----+---------+---------+---------+----(-*-)
(*)
(-*--)
(*-)
(-*)
----+---------+---------+---------+----0,560
0,640
0,720
0,800
6.4
Variável H2 por Região
Boxplot of H2 by Região
1,0
0,8
H2
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sudeste possui o maior índice de ESGOTAMENTO SANITÁRIO- H2 do país, o
que indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a
pesquisa. A região Sul e Centro Oeste encontram-se próxima a região Sudeste, e ocupam, em
ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com
o pior desempenho, pela região Nordeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a
menor e o da região Nordeste, a maior variabilidade de quando comparo com os dados das
demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O Pvalue = 0 nos indica que a informação é confiável e não existe chance deste valor ser
diferente.
One-way ANOVA: H2 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1948
Level
SS
71,2868
210,8990
282,1858
MS
17,8217
0,0379
R-Sq = 25,26%
N
Mean
F
469,84
P
0,000
R-Sq(adj) = 25,21%
StDev
Individual 95% CIs For Mean Based on
Pooled StDev
----+---------+---------+---------+-----
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
468
1790
447
1669
1191
0,7459
0,5624
0,5460
0,8117
0,7657
0,1560
0,2136
0,1981
0,1793
0,1982
(-*-)
(*)
(-*--)
(*-)
(-*)
----+---------+---------+---------+----0,560
0,640
0,720
0,800
Pooled StDev = 0,1948
6.5
Variável H3 por Região
Boxplot of H3 by Região
1,0
0,8
H3
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sul possui o maior índice de COLETA DE LIXO- H3do país, o que indica que esta é
a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região
Sudeste e Centro Oeste encontram-se próxima a região Sul, e ocupam, em ordem decrescente,
o segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho,
pela região Nordeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da
região Nordeste, a maior variabilidade de quando comparo com os dados das demais regiões.
A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos
indica que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: H3 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1356
SS
120,9263
102,2424
223,1687
MS
30,2316
0,0184
R-Sq = 54,19%
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
N
468
1790
447
1669
1191
F
1644,01
P
0,000
R-Sq(adj) = 54,15%
Mean
0,9244
0,6664
0,6205
0,9530
0,9724
StDev
0,0877
0,1921
0,2160
0,0757
0,0439
Individual 95% CIs For Mean Based on
Pooled StDev
---------+---------+---------+---------+
(*-)
(*
(*)
*)
(*)
---------+---------+---------+---------+
0,70
0,80
0,90
1,00
Pooled StDev = 0,1356
6.6
Variável H4 por Região
Boxplot of H4 by Região
1,0
0,8
H4
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sudeste possui o maior índice de ENERGIA ELÉTRICA- H4 do país, o que indica
que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A
região Nordeste e Sul encontram-se próxima a região Sudeste, e ocupam, em ordem
decrescente, o segundo e terceiro lugar. Seguidas pela região Centro-Oeste e, por último, com
o pior desempenho, pela região Norte.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Norte possui a menor e o da
região Sudeste, a maior variabilidade de quando comparo com os dados das demais regiões. A
região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica
que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: H4 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,2228
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
SS
283,3035
275,9829
559,2864
MS
70,8259
0,0496
R-Sq = 50,65%
N
468
1790
447
1669
1191
Mean
0,1054
0,1885
0,0357
0,6372
0,1628
F
1426,87
P
0,000
R-Sq(adj) = 50,62%
StDev
0,1862
0,2263
0,0777
0,2572
0,2152
Individual 95% CIs For Mean Based on
Pooled StDev
---------+---------+---------+---------+
(-*)
(*
(*-)
(*
(*)
---------+---------+---------+---------+
0,16
0,32
0,48
0,64
Pooled StDev = 0,2228
6.7
Variável H5 por Região
Boxplot of H5 by Região
1,0
0,8
H5
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Norte possui o maior índice de DOMICILIO PRÓPRIO- H5 do país, o que indica
que esta é a região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A
região Nordeste e Sul encontram-se próxima a região Norte, e ocupam, em ordem
decrescente, o segundo e terceiro lugar. Seguidas pela região Sudeste e, por último, com o
pior desempenho, pela região Centro-Oeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a
menor e o da região Norte, a maior variabilidade de quando comparo com os dados das
demais regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O Pvalue = 0 nos indica que a informação é confiável e não existe chance deste valor ser
diferente.
One-way ANOVA: H5 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1168
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
SS
24,5395
75,9035
100,4431
MS
6,1349
0,0137
R-Sq = 24,43%
N
468
1790
447
1669
1191
Mean
0,5885
0,7744
0,7754
0,6430
0,7360
Pooled StDev = 0,1168
F
449,39
P
0,000
R-Sq(adj) = 24,38%
StDev
0,1122
0,1142
0,1262
0,1209
0,1132
Individual 95% CIs For Mean Based on
Pooled StDev
----+---------+---------+---------+----(-*-)
(*)
(-*-)
(*)
(*)
----+---------+---------+---------+----0,600
0,660
0,720
0,780
6.8
Variável H6 por Região
Boxplot of H6 by Região
1,0
0,8
H6
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sul possui o maior índice de DENSIDADE POR DORMITÓRIO- H6 do país, o que
indica que esta é a região com melhor desempenho no Brasil neste quesito, segundo a
pesquisa. A região Sudeste e Centro-Oeste encontram-se próxima a região Sul, e ocupam, em
ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Nordeste e, por último,
com o pior desempenho, pela região Norte.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Sudeste possui a menor e o
da região Norte, a maior variabilidade de quando comparo com os dados das demais regiões.
A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos
indica que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: H6 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1117
SS
73,4685
69,3587
142,8273
MS
18,3671
0,0125
R-Sq = 51,44%
F
1472,36
P
0,000
R-Sq(adj) = 51,40%
Individual 95% CIs For Mean Based on
Pooled StDev
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
N
468
1790
447
1669
1191
Mean
0,6321
0,4774
0,3725
0,6421
0,7331
StDev
0,1147
0,1044
0,1728
0,1065
0,0983
----+---------+---------+---------+----(*)
(*
(*)
*)
*)
----+---------+---------+---------+----0,40
0,50
0,60
0,70
Pooled StDev = 0,1117
6.9
Variável E2_4 por Região
Boxplot of E2_4 by Região
1,0
0,8
E2_4
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sudeste possui o maior índice de CRIANÇAS NA SÉRIE CORRETA- E2_4 do
país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito,
segundo a pesquisa. A região Sul e Centro-Oeste encontram-se próxima a região Sudeste, e
ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por
último, com o pior desempenho, pela região Nordeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da
região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A
região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica
que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: E2_4 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1139
SS
76,7860
72,1743
148,9604
MS
19,1965
0,0130
R-Sq = 51,55%
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
N
468
1790
447
1669
1191
Mean
0,8011
0,5882
0,5969
0,8245
0,8445
F
1478,82
P
0,000
R-Sq(adj) = 51,51%
StDev
0,0887
0,1298
0,1841
0,1017
0,0711
Individual 95% CIs For Mean Based on
Pooled StDev
-------+---------+---------+---------+-(*-)
(*)
(*-)
(*)
(*)
-------+---------+---------+---------+-0,630
0,700
0,770
0,840
Pooled StDev = 0,1139
6.10 Variável T1_2 por Região
Boxplot of T1_2 by Região
1,0
0,8
T1_2
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sul possui o maior índice de FORMALIZAÇÃO DE EMPREGADOS- T1
_2 do país, o que indica que esta é a região com melhor desempenho no Brasil neste quesito,
segundo a pesquisa. A região Sudeste e Centro-Oeste encontram-se próxima a região Sul, e
ocupam, em ordem decrescente, o segundo e terceiro lugar. Seguidas pela região Norte e, por
último, com o pior desempenho, pela região Nordeste
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Centro-Oeste possui a
menor e o da região Sudeste a maior variabilidade de quando comparo com os dados das
demais regiões. O P-value = 0 nos indica que a informação é confiável e não existe chance
deste valor ser diferente.
One-way ANOVA: T1_2 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1549
SS
102,6914
133,4452
236,1366
MS
25,6729
0,0240
R-Sq = 43,49%
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
N
468
1790
447
1669
1191
Mean
0,5931
0,3929
0,4486
0,6581
0,7204
F
1069,66
P
0,000
R-Sq(adj) = 43,45%
StDev
0,1337
0,1510
0,1542
0,1782
0,1321
Individual 95% CIs For Mean Based on
Pooled StDev
-+---------+---------+---------+-------(*-)
*)
(-*)
(*)
(*)
-+---------+---------+---------+-------0,40
0,50
0,60
0,70
Pooled StDev = 0,1549
6.11 Variável S1_1 por Região
Boxplot of S1_1 by Região
1,0
0,8
S1_1
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A semelhança em todas as regiões dá-se pelo motivo que a saúde é de péssima qualidade em
todo o Brasil, e que a taxa de Mortalidade Infantil é de forma semelhante com uma leve
acentuação na Região Norte e Nordeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Nordeste possui a menor e o
da região Sudeste, a maior variabilidade de quando comparo com os dados das demais
regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0
nos indica que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: S1_1 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,04249
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
SS
0,17433
10,03992
10,21426
MS
0,04358
0,00181
R-Sq = 1,71%
N
468
1790
447
1669
1191
Mean
0,04258
0,04741
0,05346
0,04080
0,03467
Pooled StDev = 0,04249
F
24,14
P
0,000
R-Sq(adj) = 1,64%
StDev
0,05075
0,03271
0,04539
0,04173
0,05104
Individual 95% CIs For Mean Based on
Pooled StDev
----+---------+---------+---------+----(-----*----)
(--*--)
(----*-----)
(--*--)
(---*--)
----+---------+---------+---------+----0,0350
0,0420
0,0490
0,0560
6.12 Variável R1 por Região
Boxplot of R1 by Região
1,0
0,8
R1
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Norte possui o maior índice de LINHA DE POBREZA-R1 do país, o que indica que
esta é a região no Brasil onde existem mais pessoas que ganham renda domiciliar per capita
abaixo de R$140,00o, segundo a pesquisa. A região Nordeste encontra-se próxima a região
Norte, e ocupando o segundo lugar. Seguidas pela região Sudeste , Centro-Oeste e, por
último, com o melhor desempenho, pela região Sul.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da
região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A
região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica
que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: R1 versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1313
Level
SS
185,3335
95,8256
281,1591
MS
46,3334
0,0172
R-Sq = 65,92%
N
Mean
F
2688,36
P
0,000
R-Sq(adj) = 65,89%
StDev
Individual 95% CIs For Mean Based on
Pooled StDev
+---------+---------+---------+---------
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
468
1790
447
1669
1191
0,1926
0,5388
0,5027
0,1778
0,1281
0,1171
0,1346
0,1928
0,1339
0,0940
(*)
(*
(*)
(*
(*
+---------+---------+---------+--------0,12
0,24
0,36
0,48
Pooled StDev = 0,1313
6.13 Variável Educação por Região
Boxplot of Educação by Região
1,0
0,9
Educação
0,8
0,7
0,6
0,5
0,4
0,3
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sudeste possui o maior índice de Educação do país, o que indica que esta é a região
com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Sul e CentroOeste encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o segundo e
terceiro lugar. Seguidas pela região Nordeste e, por último, com o pior desempenho, pela
região Norte.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da
região Sudeste, a maior variabilidade de quando comparo com os dados das demais regiões. A
região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica
que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: Educação versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,07869
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
SS
35,82821
34,42415
70,25236
MS
8,95705
0,00619
R-Sq = 51,00%
N
468
1790
447
1669
1191
Mean
0,75299
0,65090
0,63739
0,83427
0,78106
F
1446,69
P
0,000
R-Sq(adj) = 50,96%
StDev
0,07162
0,08127
0,08599
0,08138
0,07021
Individual 95% CIs For Mean Based on
Pooled StDev
-----+---------+---------+---------+---(*-)
*)
(*)
(*)
(*)
-----+---------+---------+---------+---0,660
0,720
0,780
0,840
Pooled StDev = 0,07869
6.14 Variável Emprego e Renda por Região
Boxplot of Emprego e Renda by Região
1,0
Emprego e Renda
0,8
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sudeste possui o maior índice de Emprego e Renda do país, o que indica que esta é a
região com melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região CentroOeste e Sul encontram-se próxima a região Sudeste, e ocupam, em ordem decrescente, o
segundo e terceiro lugar. Seguidas pela região Norte e, por último, com o pior desempenho,
pela região Nordeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Nordeste possui a menor e o
da região Sudeste, a maior variabilidade de quando comparo com os dados das demais
regiões. A região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0
nos indica que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: Emprego e Renda versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,1446
SS
17,7960
116,2982
134,0942
MS
4,4490
0,0209
R-Sq = 13,27%
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
N
468
1790
447
1669
1191
Mean
0,4173
0,3348
0,3415
0,4490
0,4620
F
212,70
P
0,000
R-Sq(adj) = 13,21%
StDev
0,1389
0,1288
0,1419
0,1681
0,1345
Individual 95% CIs For Mean Based on
Pooled StDev
--------+---------+---------+---------+(--*---)
(-*)
(--*---)
(*-)
(-*--)
--------+---------+---------+---------+0,360
0,400
0,440
0,480
Pooled StDev = 0,1446
6.15 Variável Liquidez por Região
Boxplot of Liquidez by Região
1,0
Liquidez
0,8
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
A região Sul possui o maior índice de Liquidez do país, o que indica que esta é a região com
melhor desempenho no Brasil neste quesito, segundo a pesquisa. A região Centro-oeste e
Norte encontram-se próxima a região Sul, e ocupam, em ordem decrescente, o segundo e
terceiro lugar. Seguidas pela região Sudeste e, por último, com o pior desempenho, pela
região Nordeste.
Pelo tamanho da caixa do BloxPlot podemos visualizar a amplitude da variância, ou seja, a
partir da análise gráfica, podemos afirmar que os dados da região Sul possui a menor e o da
região Norte, a maior variabilidade de quando comparo com os dados das demais regiões. A
região que possui menor variabilidade dos dados é a Centro-Oeste. O P-value = 0 nos indica
que a informação é confiável e não existe chance deste valor ser diferente.
One-way ANOVA: Liquidez versus Região
Source
Região
Error
Total
DF
4
5560
5564
S = 0,3489
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
SS
99,409
676,864
776,273
MS
24,852
0,122
R-Sq = 12,81%
N
468
1790
447
1669
1191
Mean
0,6540
0,3822
0,5408
0,5719
0,7402
F
204,15
P
0,000
R-Sq(adj) = 12,74%
StDev
0,3420
0,3592
0,3850
0,3565
0,3085
Individual 95% CIs For Mean Based on
Pooled StDev
---+---------+---------+---------+-----(--*---)
(*-)
(--*--)
(*-)
(-*-)
---+---------+---------+---------+-----0,40
0,50
0,60
0,70
Pooled StDev = 0,3489
AMOSTRAGEM
7.1 AMOSTRAGEM
Neste estudo, realizou-se uma amostragem aleatória por meio do software Minitab14 de um
universo de 5565 indivíduos, obtendo-se uma amostra de 50 indivíduos e outra de 100
indivíduos. A partir dessas amostras se estabeleceu comparações entre o universo e as
amostras de 50 e 100 para as variáveis T1_2( Formalização entre empregados), Emprego e
Renda e H4(Energia Elétrica). Por meio de duas ferramentas estatísticas: Estatística
Descritiva e Analise de Variância (ANOVA), Observou-se um comportamento muito próximo
tanto nas médias, como nas curvas de distribuição. E, apesar de um “p” médio (entre 4% e
9%) em todos os casos, nota-se que trabalhar com amostragem é viável em todos os casos.
Boxplot of H4; H4 100; H4 50
1,0
0,8
Data
0,6
0,4
0,2
0,0
H4
H4 100
H4 50
One-way ANOVA: H4; H4 100; H4 50
Source
Factor
Error
Total
DF
2
5712
5714
S = 0,3169
Level
H4
H4 100
H4 50
N
5565
100
50
SS
0,025
573,719
573,744
MS
0,013
0,100
R-Sq = 0,00%
F
0,13
Mean
0,2983
0,3057
0,2784
Pooled StDev = 0,3169
P
0,882
StDev
0,3170
0,3044
0,3277
R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
--+---------+---------+---------+------(-*)
(-----------*------------)
(-----------------*----------------)
--+---------+---------+---------+------0,200
0,250
0,300
0,350
Boxplot of T1_2; T1_2 50; T1_100
1,0
0,8
Data
0,6
0,4
0,2
0,0
T1_2
T1_2 50
T1_100
One-way ANOVA: T1_2; T1_2 50; T1_100
Source
Factor
Error
Total
DF
2
5712
5714
S = 0,2058
SS
0,0743
241,9604
242,0347
Level
T1_2
T1_2 50
T1_100
MS
0,0372
0,0424
N
5565
50
100
R-Sq = 0,03%
Mean
0,5638
0,5300
0,5769
Pooled StDev = 0,2058
F
0,88
P
0,416
R-Sq(adj) = 0,00%
StDev
0,2060
0,1810
0,2064
Individual 95% CIs For Mean Based on
Pooled StDev
--+---------+---------+---------+------(*)
(-------------*--------------)
(---------*---------)
--+---------+---------+---------+------0,480
0,520
0,560
0,600
Boxplot of Emprego e Renda; E&R 100; E&R 50
1,0
0,8
Data
0,6
0,4
0,2
0,0
Emprego e Renda
E&R 100
E&R 50
One-way ANOVA: Emprego e Renda; E&R 100; E&R 50
Source
Factor
Error
Total
DF
2
5712
5714
S = 0,1551
SS
0,0019
137,4109
137,4129
MS
0,0010
0,0241
R-Sq = 0,00%
Level
Emprego e Renda
E&R 100
E&R 50
N
5565
100
50
Pooled StDev = 0,1551
F
0,04
P
0,961
R-Sq(adj) = 0,00%
Mean
0,4038
0,3998
0,4008
StDev
0,1552
0,1612
0,1232
Individual 95% CIs For Mean Based on
Pooled StDev
-------+---------+---------+---------+-(-*)
(-----------*-----------)
(----------------*-----------------)
-------+---------+---------+---------+-0,375
0,400
0,425
0,450
7.2 Quadro Resumo: Amostragem H4
Summary for H4
A nderson-Darling N ormality Test
0,00
0,14
0,28
0,42
0,56
0,70
0,84
0,98
A -S quared
P -V alue <
339,06
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0,29831
0,31705
0,10052
0,682199
-0,989971
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,00000
0,00956
0,16833
0,56295
1,00000
95% C onfidence Interv al for M ean
0,28998
0,30664
95% C onfidence Interv al for M edian
0,15001
0,18529
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,31126
0,32305
Mean
Median
0,150
0,175
0,200
0,225
0,250
0,275
0,300
Summary for H4 100
A nderson-D arling N ormality Test
0,0
0,2
0,4
0,6
0,8
A -S quared
P -V alue <
4,82
0,005
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0,30570
0,30436
0,09264
0,584829
-0,995870
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
1,0
0,00000
0,01176
0,24144
0,54591
0,95727
95% C onfidence Interv al for M ean
0,24530
0,36609
95% C onfidence Interv al for M edian
0,07543
0,37922
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
0,26723
0,35357
Mean
Median
0,10
0,15
0,20
0,25
0,30
0,35
0,40
Summary for H4 50
A nderson-Darling N ormality Test
0,0
0,2
0,4
0,6
A -S quared
P -V alue <
4,30
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0,27842
0,32768
0,10738
0,901698
-0,775578
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,8
0,00000
0,01218
0,09828
0,56055
0,93124
95% C onfidence Interv al for M ean
0,18530
0,37155
95% C onfidence Interv al for M edian
0,03075
9 5 % C onfidence Inter vals
0,27372
Mean
Median
0,0
0,1
0,2
0,29070
95% C onfidence Interv al for S tDev
0,3
0,4
0,40833
7.3 Quadro Resumo: Amostragem Emprego e Renda
Summary for Emprego e Renda
A nderson-Darling N ormality Test
0,00
0,14
0,28
0,42
0,56
0,70
0,84
0,98
A -S quared
P -V alue <
105,84
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0,40375
0,15524
0,02410
0,88857
1,32259
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,00000
0,30630
0,37580
0,47115
1,00000
95% C onfidence Interv al for M ean
0,39967
0,40783
95% C onfidence Interv al for M edian
0,37169
0,37960
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,15241
0,15818
Mean
Median
0,37
0,38
0,39
0,40
0,41
Summary for E&R 100
A nderson-Darling N ormality Test
0,0
0,2
0,4
0,6
0,8
A -S quared
P -V alue <
1,96
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0,39983
0,16123
0,02600
0,99362
2,27390
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,00000
0,30178
0,37720
0,47080
0,90170
95% C onfidence Interv al for M ean
0,36784
0,43182
95% C onfidence Interv al for M edian
0,35370
0,41808
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,14156
0,18730
Mean
Median
0,36
0,38
0,40
0,42
0,44
Summary for E&R 50
A nderson-D arling N ormality Test
0,2
0,3
0,4
0,5
0,6
A -S quared
P -V alue
0,28
0,619
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0,40075
0,12315
0,01517
0,260132
-0,107875
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,7
0,12640
0,32158
0,38715
0,49415
0,70630
95% C onfidence Interv al for M ean
0,36575
0,43575
95% C onfidence Interv al for M edian
0,34388
9 5 % C onfidence Inter vals
0,10287
Mean
Median
0,34
0,36
0,38
0,40
0,42996
95% C onfidence Interv al for S tD ev
0,42
0,44
0,15347
7.4 Quadro Resumo: Amostragem T1_2
Summary for T1_2
A nderson-Darling N ormality Test
0,00
0,14
0,28
0,42
0,56
0,70
0,84
0,98
A -S quared
P -V alue <
41,12
0,005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0,56382
0,20601
0,04244
-0,132466
-0,993228
5565
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,00000
0,39402
0,57643
0,73415
1,00000
95% C onfidence Interv al for M ean
0,55841
0,56923
95% C onfidence Interv al for M edian
0,56694
0,58537
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,20225
0,20991
Mean
Median
0,560
0,565
0,570
0,575
0,580
0,585
Summary for T1_100
A nderson-Darling N ormality Test
0,15
0,30
0,45
0,60
0,75
A -S quared
P -V alue
1,11
0,006
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0,57688
0,20641
0,04260
0,01291
-1,11250
100
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,90
0,17297
0,38465
0,54226
0,75051
0,96000
95% C onfidence Interv al for M ean
0,53592
0,61783
95% C onfidence Interv al for M edian
0,50906
0,64668
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
0,18123
0,23978
Mean
Median
0,500
0,525
0,550
0,575
0,600
0,625
0,650
Summary for T1_2 50
A nderson-D arling N ormality Test
0,2
0,4
0,6
A -S quared
P -V alue
0,69
0,067
M ean
S tD ev
V ariance
S kew ness
Kurtosis
N
0,52997
0,18104
0,03278
0,220433
-0,439521
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0,8
0,09694
0,40156
0,49079
0,63939
0,92611
95% C onfidence Interv al for M ean
0,47852
0,58142
95% C onfidence Interv al for M edian
0,42252
0,15123
Mean
Median
0,40
0,45
0,50
0,55
0,60718
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
0,60
0,22560
ANÁLISE MULTIVARIADA – COMPONENTES PRINCIPAIS
8 ANÁLISE MULTIVARIADA – COMPONENTES PRINCIPAIS
Esta parte do estudo efetuará analisa as correlações e os componentes principais (análise
multivariada) dos dados quantitativos Habitação e de Desenvolvimento dos Municípios do
Brasil.
8.1 Dendograma
8.1.1
Cluster Analysis of Variables: H; H1; H2; H3; H4; H5; H6; ISDM; ...
Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Number
of
clusters
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Similarity
level
100,000
95,795
93,435
91,442
90,744
90,476
90,318
88,922
88,444
88,304
88,263
84,756
75,721
72,322
57,016
48,707
Distance
level
0,00000
0,08409
0,13130
0,17117
0,18512
0,19048
0,19363
0,22157
0,23113
0,23393
0,23474
0,30487
0,48558
0,55356
0,85969
1,02585
Clusters
joined
2
3
1
8
1
4
1
2
1
9
1
15
1
12
1
16
1
5
10
17
1
11
1
7
6
14
1
10
6
13
1
6
New
cluster
2
1
1
1
1
1
1
1
1
10
1
1
6
1
6
1
Number
of obs.
in new
cluster
2
2
3
5
6
7
8
9
10
2
11
12
2
14
3
17
Final Partition
Cluster
H H1
Cluster
H5
Cluster
H6
Cluster
IFGF
Cluster
S1_1
Cluster
R1
1
H2
H3
2
3
4
Liquidez
5
6
H4
ISDM
IFDM
E2_4
T1_2
Educação
Emprego e Renda
Dendrogram with Single Linkage and Correlation Coefficient Distance
48,71
Similarity
65,80
82,90
100,00
H
DM
IS
H3
H1
H2
o _2 da
DM ã
IF caç T1 Ren
u
e
Ed
o
eg
r
p
Em
H4 2_4
E
z
H6 FGF ide
I
u
q
Li
H5
R1 1_1
S
Variables
Nota-se Erro! Fonte de referência não encontrada.- que houve uma divisão em dois
grupos, com similaridades muito próximas, em torno de 80%, a saber: Gestão Fiscal (IFGF e
Liquidez) e Habitação e Desenvolvimento dos munícipios (H, ISDM, H3, H1, H2, IFDM,
Educação, T1_2, Emprego e Renda, H4, E2_4 e H6). Os indicadores H5, R1 e S1_1 ficaram
isolados e com um nível de similaridade pouco expressiva.
8.2 Componentes Principais
Principal Component Analysis: H; H1; H2; H3; H4; H5; H6; ISDM; E2_4; T1_2; S1_1
Eigenanalysis of the Correlation Matrix
Eigenvalue
Proportion
Cumulative
8,4477
0,563
0,563
1,3430
0,090
0,653
0,9842
0,066
0,718
0,9695
0,065
0,783
0,7069
0,047
0,830
0,6573
0,044
0,874
0,5914
0,039
0,913
Eigenvalue
Proportion
Cumulative
0,3163
0,021
0,963
0,2254
0,015
0,978
0,1940
0,013
0,991
0,1073
0,007
0,998
0,0200
0,001
1,000
0,0058
0,000
1,000
0,0000
0,000
1,000
Variable
H
H1
H2
H3
H4
H5
H6
ISDM
PC1
0,320
0,296
0,296
0,299
0,210
-0,196
0,229
0,337
PC2
-0,111
-0,263
-0,263
0,139
-0,434
0,288
0,436
0,049
PC3
0,111
-0,142
-0,142
0,155
0,133
-0,196
0,285
0,044
PC4
-0,021
0,042
0,042
-0,067
0,025
-0,005
-0,129
-0,008
PC5
0,183
0,001
0,001
0,005
0,049
0,758
0,237
0,080
PC6
-0,322
0,002
0,002
0,046
-0,606
-0,293
-0,065
-0,012
0,4313
0,029
0,942
PC7
0,058
0,426
0,426
0,216
-0,399
0,072
0,116
0,024
PC8
-0,083
0,220
0,220
-0,215
-0,107
0,356
-0,450
-0,023
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
0,269
0,279
-0,050
-0,322
0,279
0,199
0,104
0,267
0,027
-0,217
-0,145
0,108
-0,159
0,434
0,165
-0,282
-0,057
-0,024
0,174
-0,548
-0,586
-0,060
0,026
-0,964
0,030
-0,033
0,119
-0,156
-0,050
0,111
0,080
0,001
-0,094
0,290
-0,461
0,199
0,210
0,101
-0,160
0,013
0,319
-0,464
-0,304
-0,057
-0,027
-0,037
-0,389
-0,399
0,009
0,368
0,142
0,018
0,074
0,455
-0,375
-0,027
Scree Plot of H; ...; Liquidez
9
8
7
Eigenvalue
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
10
Component Number
11
12
13
14
15
Loading Plot of H; ...; Liquidez
0,6
IFGF
Liquidez
Second Component
0,4
H5
0,2
H6
E2_4
T1_2
IFDM
Educação
H3 Emprego e Renda
ISDM
0,0
H
-0,2
R1
S1_1
H1
H2
H4
-0,4
-0,4
-0,3
-0,2
-0,1
0,0
First Component
0,1
0,2
0,3
8.2.1
3D Scatterplot
3D Scatterplot of CP1 vs CP2 vs CP3
Região
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
10
5
CP1
0
-5
-2
0
CP3
2
4
-4
-2
0
2
CP2
Com base nos gráficos trabalhados neste capítulo é perceptível que os dados podem ser
reduzidos em 3 variáveis, o que facilita o trabalho por gerarem números mais fáceis e
práticos de serem manuseados.
ANÁLISE DE CONGLOMERADOS
9 ANÁLISE DE CONGLOMERADOS (DENDROGRAMA E ANOVA)
O Dendrograma permite uma análise do grau de similaridade dos dados para uma
determinada variável. Neste estudo, gerou-se o Dendrograma da média dos indicadores
de Gestão Fiscal e de Desenvolvimento dos municípios, agrupado por Estado e,
também, do índice de disparidade das mesmas variáveis. Os resultados de ambos
foram ilustrados no mapa do Brasil, cujo objetivo foi representar os agrupamentos por
similaridade.
9.1 Dendrograma das médias por UF (-DF)
O Dendrograma permite uma análise do grau de similaridade dos dados para uma
determinada variável. Em seguida geramos o Dendrograma da média de
desenvolvimento dos municípios, agrupado por Estado.
Cluster Analysis of Observations: Hm; H1m; H2m; H3m; H4m; H5m; H6m;
isdmm; ...
Euclidean Distance, Single Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Number
of
clusters
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Similarity
level
92,6846
92,4590
89,8937
89,5162
88,6488
86,1268
85,7356
84,6869
84,5305
84,3960
84,1926
83,9296
83,9243
82,0200
81,9514
81,9179
81,7714
81,4183
79,7382
79,0678
78,4024
77,6901
77,6526
77,5888
77,5263
Distance
level
0,126996
0,130912
0,175445
0,181999
0,197058
0,240839
0,247630
0,265836
0,268551
0,270885
0,274417
0,278983
0,279074
0,312133
0,313324
0,313905
0,316449
0,322579
0,351746
0,363383
0,374935
0,387299
0,387952
0,389059
0,390143
Clusters
joined
11
12
22
23
8
17
14
15
5
14
1
21
5
6
5
19
1
9
1
16
5
24
8
11
1
13
7
10
8
22
8
20
2
5
2
4
8
26
1
3
2
8
1
2
1
7
18
25
1
18
New
cluster
11
22
8
14
5
1
5
5
1
1
5
8
1
7
8
8
2
2
8
1
2
1
1
18
1
Final Partition
Number of clusters: 5
Cluster1
Cluster2
Cluster3
Cluster4
Cluster5
Number of
observations
6
16
2
1
1
Cluster Centroids
Within
cluster
sum of
squares
0,32401
3,01576
0,04871
0,00000
0,00000
Average
distance
from
centroid
0,226281
0,421869
0,156066
0,000000
0,000000
Maximum
distance
from
centroid
0,326849
0,638243
0,156066
0,000000
0,000000
Number
of obs.
in new
cluster
2
2
2
2
3
2
4
5
3
4
6
4
5
2
6
7
7
8
8
6
16
22
24
2
26
Variable
Hm
H1m
H2m
H3m
H4m
H5m
H6m
isdmm
ifdmm
ifgfm
E2_4m
T1_2m
S1_1m
R1m
Educm
E&Rm
Liqm
Cluster1
0,388488
0,449434
0,449434
0,508402
0,042981
0,839379
0,302965
0,385899
0,542276
0,482672
0,541325
0,390555
0,050421
0,611445
0,612696
0,331846
0,450332
Cluster2
0,606518
0,676830
0,676830
0,800743
0,155823
0,708223
0,543387
0,624078
0,624891
0,510638
0,702107
0,538783
0,045276
0,363646
0,702590
0,387100
0,566419
Cluster3
0,761238
0,733851
0,733851
0,951826
0,516776
0,634427
0,668042
0,768325
0,684604
0,563561
0,785974
0,567280
0,040973
0,222080
0,813836
0,418193
0,628765
Cluster4
0,796897
0,921303
0,921303
0,947466
0,581921
0,657602
0,527920
0,827035
0,715058
0,610326
0,661271
0,699856
0,040763
0,162310
0,784391
0,531726
0,705000
Cluster5
0,854425
0,918161
0,918161
0,979218
0,777565
0,582818
0,606302
0,889343
0,764647
0,596507
0,901396
0,775951
0,037844
0,095891
0,904423
0,522036
0,614930
Cluster4
1,36598
0,73206
0,39851
0,00000
0,38906
Cluster5
1,60748
0,97073
0,51573
0,38906
0,00000
Distances Between Cluster Centroids
Cluster1
Cluster2
Cluster3
Cluster4
Cluster5
Cluster1
0,00000
0,72274
1,18013
1,36598
1,60748
Cluster2
0,722742
0,000000
0,526162
0,732058
0,970733
Cluster3
1,18013
0,52616
0,00000
0,39851
0,51573
Grand
centroid
0,584962
0,647425
0,647425
0,757409
0,197850
0,726043
0,499319
0,598218
0,619262
0,515392
0,677549
0,522085
0,045673
0,391899
0,701312
0,387493
0,551621
Dendrogram with Single Linkage and Euclidean Distance
Similarity
77,53
85,02
92,51
100,00
I
E P
B E E
L
S T S
J P
S
AC RR MA P PA AM A BA P P C RN S A GO PR M M R SC RO T O E MG R S
Observations
9.2 Dendrograma dos índices de variabilidade por UF (-DF)
Cluster Analysis of Observations: Hid; H1id; H2id; H3id; H4id; H5id; H6id; ...
Euclidean Distance, Single Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Number
of
clusters
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Similarity
level
94,9794
94,8957
94,4487
94,1697
93,8431
93,7617
93,5848
93,5312
93,4836
92,9122
92,5035
92,1973
90,9246
90,1791
89,9688
89,3954
89,1940
88,9281
87,2166
86,4019
82,2076
81,4769
79,7045
79,6804
63,5314
Distance
level
0,85447
0,86872
0,94479
0,99227
1,04787
1,06171
1,09183
1,10095
1,10905
1,20629
1,27586
1,32796
1,54457
1,67145
1,70725
1,80484
1,83911
1,88436
2,17565
2,31431
3,02814
3,15251
3,45416
3,45826
6,20672
Clusters
joined
4
21
11
24
1
4
9
16
12
26
3
11
6
19
2
6
1
20
2
12
3
7
14
15
2
14
1
3
1
18
1
2
1
13
1
9
1
8
1
23
1
17
1
5
1
25
1
22
1
10
New
cluster
4
11
1
9
12
3
6
2
1
2
3
14
2
1
1
1
1
1
1
1
1
1
1
1
1
Number
of obs.
in new
cluster
2
2
3
2
2
3
2
3
4
5
4
2
7
8
9
16
17
19
20
21
22
23
24
25
26
Final Partition
Number of clusters: 5
Cluster1
Cluster2
Cluster3
Cluster4
Cluster5
Number of
observations
22
1
1
1
1
Within
cluster
sum of
squares
178,816
0,000
0,000
0,000
0,000
Average
distance
from
centroid
2,58047
0,00000
0,00000
0,00000
0,00000
Maximum
distance
from
centroid
5,87112
0,00000
0,00000
0,00000
0,00000
Cluster Centroids
Variable
Hid
H1id
H2id
H3id
H4id
H5id
H6id
isdmID
ifdmID
ifgfID
E2_4ID
T1_2ID
S1_1ID
Cluster1
1,08287
1,92813
1,92813
1,43034
1,75605
1,12145
0,95114
1,16687
0,67379
1,36604
1,09600
1,49269
0,40308
Cluster2
2,34944
3,97135
3,97135
3,16608
5,21949
2,12978
1,94323
2,26964
1,28988
2,53834
2,47165
3,05444
0,63478
Cluster3
3,4865
5,6676
5,6676
2,8110
7,6694
3,6087
2,6208
3,5939
2,0284
3,5576
2,6468
5,1336
1,3387
Cluster4
1,97810
4,83060
4,83060
0,98280
4,66749
2,02570
2,33558
1,98395
1,40011
2,15384
1,71582
2,94328
1,45400
Cluster5
1,69715
1,98125
1,98125
0,75242
4,72141
2,18001
2,72980
1,51586
1,72150
3,23234
1,33300
2,67145
1,01627
Grand
centroid
1,28209
2,26422
2,26422
1,50692
2,34272
1,33139
1,17517
1,34748
0,81782
1,59750
1,24151
1,79392
0,51198
R1ID
EducID
E&R ID
LiqID
1,33352
0,72089
1,49579
3,72756
2,46886
1,38028
2,61685
7,38057
4,3149
1,8126
4,0689
10,3491
2,06070
1,71907
2,99663
4,80378
1,73252
1,29262
4,25983
9,10798
Cluster4
6,27740
3,92588
8,13891
0,00000
6,23384
Cluster5
7,58415
4,90913
8,14168
6,23384
0,00000
1,53517
0,84862
1,80191
4,37106
Distances Between Cluster Centroids
Cluster1
Cluster2
Cluster3
Cluster4
Cluster5
Cluster1
0,0000
7,1164
13,0078
6,2774
7,5842
Cluster2
7,11638
0,00000
6,20672
3,92588
4,90913
Cluster3
13,0078
6,2067
0,0000
8,1389
8,1417
Indices de Variabilidade
Similarity
63,53
75,69
87,84
100,00
B E
T
S E S J L E
P
AC A RR RO AM M S E R A C RN M TO P P PA MA
Observations
PI GO S C PR BA SP RS MG
Para se chegar ao índice de variabilidade (disparidade), utilizou-se do seguinte cálculo:
ID= Índice de Disparidade
s= Desvio Padrão da Média (do Estado)
n= Número de Indivíduos (Munícipios do Estado)
One-way ANOVA: H4 versus Região
Source
Região
Error
Total
DF
4
5543
5547
S = 0,2229
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
SS
282,4797
275,3817
557,8615
MS
70,6199
0,0497
R-Sq = 50,64%
N
467
1790
431
1669
1191
Mean
0,1040
0,1885
0,0355
0,6372
0,1628
F
1421,47
P
0,000
R-Sq(adj) = 50,60%
StDev
0,1837
0,2263
0,0772
0,2572
0,2152
Individual 95% CIs For Mean Based on
Pooled StDev
---------+---------+---------+---------+
(*-)
(*
(*-)
(*
(*)
---------+---------+---------+---------+
0,16
0,32
0,48
0,64
Pooled StDev = 0,2229
One-way ANOVA: Emprego e Renda versus Região
Source
Região
Error
Total
DF
4
5543
5547
S = 0,1445
Level
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
SS
17,8157
115,7805
133,5962
MS
4,4539
0,0209
R-Sq = 13,34%
N
467
1790
431
1669
1191
Mean
0,4175
0,3348
0,3400
0,4490
0,4620
F
213,23
P
0,000
R-Sq(adj) = 13,27%
StDev
0,1390
0,1288
0,1404
0,1681
0,1345
Individual 95% CIs For Mean Based on
Pooled StDev
--------+---------+---------+---------+(--*---)
(-*)
(--*--)
(*-)
(-*--)
--------+---------+---------+---------+0,360
0,400
0,440
0,480
Pooled StDev = 0,1445
One-way ANOVA: T1_2 versus Região
Source
Região
Error
Total
DF
4
5543
5547
S = 0,1549
Level
Centro-Oeste
Nordeste
Norte
Sudeste
SS
102,8399
133,0327
235,8725
MS
25,7100
0,0240
R-Sq = 43,60%
N
467
1790
431
1669
Mean
0,5925
0,3929
0,4448
0,6581
F
1071,24
P
0,000
R-Sq(adj) = 43,56%
StDev
0,1333
0,1510
0,1544
0,1782
Individual 95% CIs For Mean Based on
Pooled StDev
-+---------+---------+---------+-------(*-)
*)
(*-)
(*)
Sul
1191
0,7204
0,1321
(*)
-+---------+---------+---------+-------0,40
0,50
0,60
0,70
Pooled StDev = 0,1549
One-way ANOVA: H4 versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 0,2033
SS
330,2354
228,8095
559,0449
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
MS
13,2094
0,0413
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
R-Sq = 59,07%
Mean
0,0537
0,1524
0,0582
0,0422
0,2544
0,1596
0,4829
0,1318
0,0184
0,5506
0,1020
0,0568
0,0170
0,2729
0,3921
0,0201
0,1971
0,5819
0,1796
0,0239
0,0905
0,1541
0,1311
0,2035
0,7776
0,0398
StDev
0,1045
0,2105
0,0902
0,0935
0,2559
0,1493
0,2048
0,2167
0,0494
0,2627
0,1459
0,1201
0,0443
0,2197
0,2119
0,0585
0,2489
0,2314
0,2302
0,0700
0,1400
0,2094
0,1640
0,1987
0,1856
0,0808
F
319,71
P
0,000
R-Sq(adj) = 58,89%
Individual 95% CIs For Mean Based on
Pooled StDev
--+---------+---------+---------+------(--*---)
(*-)
(-*-)
(---*---)
(*)
(*-)
(*-)
(*)
(*)
(*)
(-*-)
(*-)
(-*)
(*)
(*)
(*)
(*)
(*-)
(*)
(-*-)
(---*---)
(*)
(*)
(-*-)
(*)
(-*)
--+---------+---------+---------+------0,00
0,25
0,50
0,75
Pooled StDev = 0,2033
One-way ANOVA: Emprego e Renda versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 0,1380
Level
AC
AL
AM
AP
N
22
101
62
16
SS
28,6671
105,4175
134,0847
MS
1,1467
0,0190
R-Sq = 21,38%
Mean
0,3717
0,3174
0,3027
0,3807
StDev
0,1183
0,1295
0,1306
0,1789
F
60,24
P
0,000
R-Sq(adj) = 21,02%
Individual 95% CIs For Mean Based on
Pooled StDev
------+---------+---------+---------+--(------*-------)
(---*--)
(---*---)
(--------*-------)
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
0,3515
0,3189
0,4520
0,4052
0,2890
0,3844
0,4369
0,4284
0,3741
0,3211
0,3862
0,3064
0,4383
0,5317
0,3391
0,3976
0,3471
0,4664
0,4865
0,4251
0,5220
0,2941
0,1283
0,1271
0,1380
0,1432
0,1309
0,1394
0,1334
0,1333
0,1506
0,1101
0,1366
0,1167
0,1268
0,1923
0,1088
0,1289
0,1740
0,1344
0,1398
0,1385
0,1675
0,1188
(-*-)
(--*-)
(--*---)
(-*-)
(-*-)
(*)
(---*--)
(--*-)
(--*--)
(-*-)
(-*--)
(-*--)
(-*)
(--*---)
(-*--)
(----*---)
(-------*--------)
(*-)
(-*-)
(---*---)
(*-)
(--*--)
------+---------+---------+---------+--0,320
0,400
0,480
0,560
Pooled StDev = 0,1380
One-way ANOVA: T1_2 versus UF2
Source
UF2
Error
Total
DF
25
5538
5563
S = 0,1393
Level
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
N
22
101
62
16
416
184
78
247
217
852
78
142
142
222
185
223
399
92
167
52
15
497
295
75
647
138
SS
128,5377
107,5197
236,0573
MS
5,1415
0,0194
R-Sq = 54,45%
Mean
0,4947
0,4900
0,3269
0,5490
0,3797
0,3475
0,5615
0,5624
0,3400
0,5730
0,6569
0,6095
0,3851
0,3801
0,4389
0,3615
0,6756
0,6999
0,4483
0,5845
0,4352
0,7143
0,7910
0,4928
0,7760
0,4998
StDev
0,0864
0,1590
0,1450
0,1099
0,1498
0,1318
0,1688
0,1260
0,1279
0,1759
0,1156
0,1400
0,1499
0,1346
0,1829
0,1112
0,1228
0,1184
0,1350
0,1078
0,1123
0,1320
0,1141
0,1790
0,1050
0,1214
F
264,82
P
0,000
R-Sq(adj) = 54,25%
Individual 95% CIs For Mean Based on
Pooled StDev
-+---------+---------+---------+-------(---*---)
(-*)
(--*-)
(----*---)
(*)
(*-)
(-*-)
(*-)
(-*)
*)
(-*-)
(-*)
(-*)
(*-)
(*-)
(*)
(*)
(-*-)
(-*)
(--*-)
(----*----)
(*
(*)
(-*-)
(*
(*-)
-+---------+---------+---------+--------
0,30
0,45
0,60
Pooled StDev = 0,1393
9.3.1 Resumo dos Boxplot
Boxplot of H4 by Região
1,0
0,8
H4
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
Boxplot of Emprego e Renda by Região
1,0
Emprego e Renda
0,8
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
0,75
Boxplot of T1_2 by Região
1,0
0,8
T1_2
0,6
0,4
0,2
0,0
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
Boxplot of H4 by UF2
1,0
0,8
H4
0,6
0,4
0,2
0,0
R S C E P
B E I R J
S
E S
P
L
A C A A M A BA C E GO M A MG M MT PA P P P P R RN RO R R S S S T O
UF2
Boxplot of Emprego e Renda by UF2
1,0
Emprego e Renda
0,8
0,6
0,4
0,2
0,0
R S C E P
B E I R J
S
E S
P
L
A C A A M A BA C E GO M A MG M MT PA P P P P R RN RO R R S S S T O
UF2
Boxplot of T1_2 by UF2
1,0
0,8
T1_2
0,6
0,4
0,2
0,0
R S C E P
B E I R J
S
E S
P
L
A C A A M A BA C E GO M A MG M MT PA P P P P R RN RO R R S S S T O
UF2
ANÁLISE DISCRIMINANTE LINEAR
10 ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO
Neste estudo avaliaremos a análise discriminante linear em três grupos: primeiro pelas
regiões politicas do Brasil (Norte, Nordeste, Centro-Oeste, Sudeste e Sul), segundo pelo
agrupamento dos estados por similaridades de médias (5 Brasis M) e, por fim, o
agrupamento dos estados por similaridade de variabilidade (5 Brasis Id), como
explicado no tópico anterior.
10.1 Cinco Regiões Brasileiras – Mapa Político
Discriminant Analysis: Região versus H; H1; ...
Linear Method for Response: Região
Predictors: H; H1; H3; H4; H5; H6; ISDM; E2_4; T1_2; S1_1; R1; Educação;
Emprego e Renda; Liquidez
Group
Count
Centro-Oeste
467
Nordeste
1790
Norte
447
Sudeste
1669
Sul
1191
Summary of classification
Put into Group
Centro-Oeste
Nordeste
Norte
Sudeste
Sul
Total N
N correct
Proportion
N = 5564
Centro-Oeste
369
5
26
28
39
467
369
0,790
True Group
Nordeste Norte
39
105
1528
67
138
265
62
2
23
8
1790
447
1528
265
0,854 0,593
N Correct = 4454
Sudeste
103
88
9
1413
56
1669
1413
0,847
Sul
212
3
1
96
879
1191
879
0,738
Proportion Correct = 0,801
Este agrupamento, por regiões politicas, obteve o nível de acerto, 80,10%
Discriminant Analysis: 3 Regioes versus H; H1; ...
Linear Method for Response: 3 Regioes
Predictors: H; H1; H3; H4; H5; H6; ISDM; E2_4; T1_2; S1_1; R1; Educação;
Emprego e Renda; Liquidez
Group
Count
COSS
3327
Nordeste
1790
Norte
447
Summary of classification
Put into Group
COSS
Nordeste
Norte
Total N
N correct
Proportion
True Group
Nordeste Norte
72
86
1582
77
136
284
1790
447
1582
284
0,884 0,635
COSS
3143
121
63
3327
3143
0,945
N = 5564
N Correct = 5009
Proportion Correct = 0,900
Squared Distance Between Groups
COSS
Nordeste
Norte
COSS
0,0000
12,2550
12,8316
Nordeste
12,2550
0,0000
6,9204
Norte
12,8316
6,9204
0,0000
Este agrupamento, por similaridade de médias, obteve o melhor nível de acerto, 90%.
10.2 Brasis – Similaridade nas médias
Discriminant Analysis: 5BrasisM versus H; H1; ...
Linear Method for Response: 5BrasisM
Predictors: H; H1; H3; H4; H5; H6; ISDM; IFDM; IFGF; E2_4; T1_2; S1_1; R1;
Educação; Emprego e Renda; Liquidez
Group
Count
B1
681
B2
3214
B3
930
B4
92
B5
647
Summary of classification
Put into Group
B1
B2
B3
B4
B5
Total N
N correct
Proportion
N = 5564
B1
552
118
3
8
0
681
552
0,811
True Group
B3
B4
13
0
100
3
645
5
63
79
109
5
930
92
645
79
0,694 0,859
B2
295
2472
307
108
32
3214
2472
0,769
N Correct = 4326
B5
0
7
39
23
578
647
578
0,893
Proportion Correct = 0,777
Este agrupamento, por regiões politicas, obteve o nível de acerto: 77,7%
10.3 Brasis – similaridade nos índices de “variabilidade”
Discriminant Analysis: 5BrasisId versus H; H1; ...
Linear Method for Response: 5BrasisId
Predictors: H; H1; H3; H4; H5; H6; ISDM; IFDM; IFGF; E2_4; T1_2; S1_1; R1;
Educação; Emprego e Renda; Liquidez
Group
Count
D1
3152
D2
416
D3
647
D4
497
D5
852
Summary of classification
Put into Group
D1
D2
D3
D4
D5
Total N
N correct
Proportion
N = 5564
D1
2122
278
93
420
239
3152
2122
0,673
True Group
D3
D4
12
29
0
6
601
0
1
441
33
21
647
497
601
441
0,929 0,887
D2
32
355
1
10
18
416
355
0,853
N Correct = 4164
D5
76
17
88
26
645
852
645
0,757
Proportion Correct = 0,748
Este agrupamento, por regiões politicas, obteve o nível de acerto, 74,8%
REGRESSÃO LOGISTICA
11 REGRESSÃO LOGISTICA
11.1Regressão – REGIÃO
Nominal Logistic Regression: Região versus H; H1; ...
Response Information
Variable
Região
Value
Sul
Sudeste
Norte
Nordeste
Centro-Oeste
Total
Count
1191
1669
447
1790
467
5564
(Reference Event)
Logistic Regression Table
Predictor
Logit 1: (Sudeste/Sul)
Constant
H
H1
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
Logit 2: (Norte/Sul)
Constant
H
H1
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
Logit 3: (Nordeste/Sul)
Constant
H
H1
H3
Coef
SE Coef
Z
P
Odds Ratio
6,23744
-56,6839
10,7302
1,20917
19,8233
4,32957
2,80532
26,4816
-48,8047
1,44525
-6,68713
-13,5059
-2,22107
15,2296
41,1244
15,1414
-1,07238
2,82954
19,3761
4,76000
5,17201
4,66108
3,39874
4,09754
3,11088
4,21782
0,974899
1,12462
0,949077
1,70880
1,81540
2,30316
1,54193
0,348725
2,20
-2,93
2,25
0,23
4,25
1,27
0,68
8,51
-11,57
1,48
-5,95
-14,23
-1,30
8,39
17,86
9,82
-3,08
0,027
0,003
0,024
0,815
0,000
0,203
0,494
0,000
0,000
0,138
0,000
0,000
0,194
0,000
0,000
0,000
0,002
0,00
45716,84
3,35
4,06579E+08
75,91
16,53
3,16826E+11
0,00
4,24
0,00
0,00
0,11
4112817,17
7,24572E+17
3765689,25
0,34
35,2315
-63,8405
20,3912
-1,52122
9,20677
2,68083
-4,87956
13,7511
-43,4694
1,12035
-6,31280
-12,3198
-2,00469
8,54337
19,2478
13,6499
-0,142274
3,21122
18,8336
4,67610
5,06297
4,58518
3,39872
4,02644
3,86957
4,89089
1,22374
1,29905
1,11777
2,26631
2,17556
2,72791
1,79141
0,432456
10,97
-3,39
4,36
-0,30
2,01
0,79
-1,21
3,55
-8,89
0,92
-4,86
-11,02
-0,88
3,93
7,06
7,62
-0,33
0,000
0,001
0,000
0,764
0,045
0,430
0,226
0,000
0,000
0,360
0,000
0,000
0,376
0,000
0,000
0,000
0,742
0,00
7,17406E+08
0,22
9964,31
14,60
0,01
937638,25
0,00
3,07
0,00
0,00
0,13
5132,59
2,28672E+08
847371,79
0,87
27,9040
-4,63930
8,75985
-15,6400
3,04977
18,8828
4,67352
5,04756
9,15
-0,25
1,87
-3,10
0,000
0,806
0,061
0,002
0,01
6373,18
0,00
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
Logit 4: (Centro-Oeste/Sul)
Constant
H
H1
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
Predictor
Logit 1: (Sudeste/Sul)
Constant
H
H1
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
Logit 2: (Norte/Sul)
Constant
H
H1
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
5,03137
-5,29891
-6,42545
3,25415
-22,9628
-4,42685
-9,47684
-13,3409
-4,34848
16,7093
15,5491
10,3364
-0,204856
4,53351
3,35067
4,00293
3,57370
4,58376
1,11434
1,21351
1,03242
2,31348
2,03047
2,51270
1,67408
0,392057
1,11
-1,58
-1,61
0,91
-5,01
-3,97
-7,81
-12,92
-1,88
8,23
6,19
6,17
-0,52
0,267
0,114
0,108
0,363
0,000
0,000
0,000
0,000
0,060
0,000
0,000
0,000
0,601
153,14
0,00
0,00
25,90
0,00
0,01
0,00
0,00
0,01
18060985,86
5660934,44
30836,32
0,81
30,0825
-80,1878
23,4449
6,21413
17,2415
0,738412
11,1085
4,01233
-26,7127
-2,35311
-1,53485
-10,3345
-0,192529
0,523419
12,2838
9,65067
0,685106
2,83694
18,5696
4,61022
5,00628
4,47468
3,26462
3,95645
2,89846
4,04762
0,926583
1,15973
0,887599
1,50831
1,73505
2,13439
1,49246
0,329283
10,60
-4,32
5,09
1,24
3,85
0,23
2,81
1,38
-6,60
-2,54
-1,32
-11,64
-0,13
0,30
5,76
6,47
2,08
0,000
0,000
0,000
0,215
0,000
0,821
0,005
0,166
0,000
0,011
0,186
0,000
0,898
0,763
0,000
0,000
0,037
0,00
1,52054E+10
499,76
30753966,38
2,09
66739,04
55,28
0,00
0,10
0,22
0,00
0,82
1,69
216162,73
15532,12
1,98
95% CI
Lower
Upper
0,00
4,06
0,00
43807,70
0,10
0,01
7,12499E+08
0,00
0,63
0,00
0,00
0,00
117176,57
7,93589E+15
183367,88
0,17
0,00
5,15072E+08
84652,61
3,77346E+12
59343,34
50843,58
1,40882E+14
0,00
28,68
0,01
0,00
3,09
1,44357E+08
6,61556E+19
77333148,11
0,68
0,00
75056,73
0,00
1,25
0,02
0,00
476,64
0,00
0,28
0,00
0,00
0,00
72,19
1089355,71
0,00
6,85709E+12
4456,88
79695182,21
11410,75
20,33
1,84450E+09
0,00
33,75
0,02
0,00
11,44
364934,08
4,80016E+10
Emprego e Renda
Liquidez
Logit 3: (Nordeste/Sul)
Constant
H
H1
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
Logit 4: (Centro-Oeste/Sul)
Constant
H
H1
H3
H4
H5
H6
ISDM
IFDM
IFGF
E2_4
T1_2
S1_1
R1
Educação
Emprego e Renda
Liquidez
25304,16
0,37
28376321,26
2,02
0,00
0,67
0,00
0,02
0,00
0,00
0,02
0,00
0,00
0,00
0,00
0,00
337574,43
41118,15
1158,93
0,38
1,14433E+14
60609324,13
0,00
1106864,33
3,56
4,14
28527,15
0,00
0,11
0,00
0,00
1,20
9,66303E+08
7,79368E+08
820476,35
1,76
0,00
1810096,74
0,03
4775,05
0,00
28,61
0,19
0,00
0,02
0,02
0,00
0,04
0,06
3295,75
833,35
1,04
0,00
1,27730E+14
9124207,72
1,98072E+11
1257,73
1,55660E+08
16208,74
0,00
0,58
2,09
0,00
15,86
50,61
14177740,84
289491,71
3,78
Log-Likelihood = -2324,984
Test that all slopes are zero: G = 11669,733, DF = 64, P-Value = 0,000
Goodness-of-Fit Tests
Method
Pearson
Deviance
Chi-Square
138246
4650
DF
22188
22188
P
0,000
1,000
ANÁLISE DE CORRESPONDÊNCIA
12 ANÁLISE DE CORRESPONDÊNCIA DOS ÍNDICES HABITAÇÃO E DE
DESENVOLVIMENTO
Análise de correspondência é uma técnica de análise exploratória de dados adequada
para analisar tabelas de duas entradas ou tabelas de múltiplas entradas, levando em
conta algumas medidas de correspondência entre linhas e colunas. Consiste na
conversão de uma matriz de dados não negativos em um tipo particular de representação
gráfica em que as linhas e colunas da matriz são simultaneamente representadas em
dimensão reduzida, isto é, por pontos no gráfico. Este método permite estudar as
relações e semelhanças existentes entre as categorias de linhas e entre as categorias de
colunas de uma tabela de contingência ou o conjunto de categorias de linhas e o
conjunto categorias de colunas.
A análise de correspondência mostra como as variáveis dispostas em linhas e colunas
estão relacionadas e não somente se a relação existe. Embora seja considerada uma
técnica descritiva e exploratória, esta análise simplifica dados complexos e produz
análises exaustivas de informações que suportam conclusões a respeito das mesmas.
Possui diversos aspectos que a distingue de outras técnicas de análise de dados. A sua
natureza multivariada permite revelar relações que não seriam detectadas em
comparações aos pares das variáveis. É altamente flexível quanto a pressuposições
sobre os dados: o único requisito é o de uma matriz retangular com entradas não
negativas. É possível transformar qualquer característica quantitativa em qualitativa,
realizando-se uma partição de seu domínio de variação em classes. A análise de
correspondência é mais efetiva se a matriz de dados é bastante grande, de modo que a
inspeção visual ou análise estatística simples não consegue revelar sua estrutura.
Nesta análise serão trabalhados os estados e as médias de desenvolvimento por estado.
Na análise de correspondência será gerado um mapa contendo quais estados estão mais
próximos e quais variáveis tem a ver entre si. O comando para gerar o gráfico é:
STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS
12.1 Todas as variáveis do projeto observa-se seu alinhamento no centro dos quadrantes
com tendência para os inferiores , sendo no primeiro composto pelos Estados: SP, MG
RJ, ES e PE bem próximo das variáveis de habitação e desenvolvimento e apesar de
compor o mesmo quadrante distante da variável H4, no segundo quadrante composto
pelos Estados: PB, BA, RN, SE, AL, AC, PA, RR, MA e AM com alta proximidade
com a variável S1_1, H5 e apesar de compor o mesmo quadrante baixa proximidade da
variável R1.
No terceiro quadrante composto pelos Estados: PR, GO, RS, SC, MS e MT é bastante
próximo das variáveis de gestão fiscal: IFGF e Liquidez.
E no ultimo quadrante composto pelos Estados: RO, TO, AP e PI próximo de todas as
demais variáveis de Desenvolvimento e Habitação.
Nota-se que há um distanciamento muito grande de R1 e H4 dos demais pontos e, por
esta razão, optou-se por refazer a análise excluindo estas variáveis.
.
Symmetric Plot
H4
0,50
Component 2
0,25
SP
0,00
PE
PB
MG
BA
RJ
RN
H5
SE CE
RRMA
ES HH2
AL S1_1
PA
AM
H1E&R
Educ
AC
ifdm
PI
AP
isdm
E2_4ifgf
H3
H6T1_2
PR
TO
GO
RS
MS
MTLiq
SC
RO
R1
-0,25
-0,50
-0,75
-0,75
-0,50
-0,25
0,00
0,25
Component 1
0,50
Column Plot
H4
0,50
R1
Component 2
0,25
HH2
H1E&R
Educ
ifdm
isdm
E2_4
H3
H6T1_2 ifgf
0,00
H5
S1_1
Liq
-0,25
-0,50
-0,75
-0,75
-0,50
-0,25
0,00
0,25
Component 1
0,50
Row Plot
0,4
0,3
Component 2
0,2
0,1
PE
SP
PB
BA
RN
SE
MG
RJ
ES
CE
AL
0,0
-0,1
-0,2
AP
PR
GO
RSMSMT
SC
RR MA
PA
AM
AC
PI
TO
RO
-0,3
-0,4
-0,4 -0,3 -0,2 -0,1 0,0 0,1
Component 1
0,2
0,3
0,4
Simple Correspondence Analysis: Hm_1; H1m_1; H2m_1; H3m_1; H4m_1;
H5m_1; H6m_1;
Analysis of Contingency Table
Axis
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Total
Inertia
0,0322
0,0134
0,0036
0,0023
0,0012
0,0008
0,0004
0,0003
0,0002
0,0001
0,0001
0,0000
0,0000
0,0000
0,0000
0,0546
Proportion
0,5895
0,2451
0,0661
0,0425
0,0223
0,0151
0,0065
0,0049
0,0028
0,0021
0,0015
0,0008
0,0005
0,0002
0,0001
Cumulative
0,5895
0,8346
0,9007
0,9433
0,9655
0,9806
0,9871
0,9921
0,9948
0,9970
0,9985
0,9993
0,9997
0,9999
1,0000
Histogram
******************************
************
***
**
*
Row Contributions
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Name
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
Qual
0,851
0,626
0,775
0,502
0,553
0,566
0,861
0,789
0,901
0,939
0,919
0,960
0,857
0,796
0,930
0,809
0,864
0,860
0,295
0,831
0,836
0,922
0,939
0,276
0,951
0,789
Mass
0,032
0,036
0,031
0,035
0,036
0,035
0,045
0,042
0,030
0,044
0,041
0,041
0,030
0,035
0,037
0,032
0,044
0,047
0,037
0,039
0,032
0,046
0,046
0,039
0,050
0,038
Inert
0,041
0,016
0,088
0,034
0,016
0,019
0,042
0,027
0,066
0,054
0,025
0,023
0,043
0,018
0,032
0,043
0,025
0,069
0,013
0,035
0,048
0,033
0,039
0,008
0,127
0,015
Component
Coord
Corr
0,243 0,851
0,118 0,556
0,343 0,768
0,161 0,489
0,040 0,065
0,103 0,371
-0,206 0,826
-0,117 0,386
0,325 0,889
-0,216 0,701
-0,080 0,195
-0,044 0,064
0,256 0,840
0,033 0,038
-0,024 0,012
0,243 0,809
-0,140 0,616
-0,246 0,755
0,031 0,053
0,018 0,006
0,258 0,805
-0,110 0,313
-0,121 0,319
0,034 0,096
-0,329 0,775
0,079 0,281
1
Contr
0,059
0,015
0,114
0,029
0,002
0,012
0,059
0,018
0,099
0,064
0,008
0,002
0,061
0,001
0,001
0,059
0,027
0,088
0,001
0,000
0,066
0,017
0,021
0,001
0,167
0,007
Component
Coord
Corr
0,006 0,001
0,042 0,070
0,031 0,006
-0,026 0,013
0,109 0,488
0,075 0,194
0,042 0,035
-0,119 0,403
0,037 0,012
0,126 0,237
-0,155 0,723
-0,165 0,896
0,037 0,017
0,148 0,758
0,211 0,919
-0,004 0,000
-0,089 0,248
0,092 0,105
0,067 0,242
-0,201 0,825
0,051 0,031
-0,154 0,609
-0,169 0,619
0,046 0,180
0,157 0,176
-0,106 0,508
2
Contr
0,000
0,005
0,002
0,002
0,032
0,015
0,006
0,045
0,003
0,052
0,074
0,083
0,003
0,057
0,121
0,000
0,026
0,030
0,012
0,118
0,006
0,081
0,099
0,006
0,091
0,032
Inert
0,015
0,018
0,018
0,021
0,295
0,095
0,052
0,022
0,003
0,018
0,016
Component
Coord
Corr
-0,093 0,676
-0,058 0,249
-0,058 0,249
-0,084 0,505
-0,614 0,508
0,241 0,892
-0,129 0,326
-0,124 0,845
0,035 0,451
0,059 0,207
-0,006 0,003
1
Contr
0,017
0,007
0,007
0,018
0,254
0,144
0,028
0,031
0,003
0,006
0,000
Component
Coord
Corr
0,033 0,086
0,017 0,021
0,017 0,021
-0,048 0,163
0,589 0,467
0,052 0,042
-0,070 0,097
-0,039 0,084
0,005 0,010
-0,069 0,285
-0,044 0,170
2
Contr
0,005
0,002
0,002
0,014
0,563
0,016
0,020
0,008
0,000
0,020
0,011
Column Contributions
ID
1
2
3
4
5
6
7
8
9
10
11
Name
H
H1
H2
H3
H4
H5
H6
isdm
ifdm
ifgf
E2_4
Qual
0,762
0,270
0,270
0,668
0,974
0,934
0,423
0,929
0,462
0,492
0,173
Mass
0,064
0,071
0,071
0,083
0,022
0,080
0,055
0,066
0,068
0,057
0,075
12
13
14
15
16
17
T1_2
S1_1
R1
Educ
E&R
Liq
0,506
0,695
0,993
0,311
0,003
0,500
0,058
0,005
0,043
0,077
0,043
0,061
0,022
0,007
0,318
0,006
0,007
0,068
-0,065
0,233
0,588
0,032
-0,001
-0,000
0,205
0,685
0,860
0,265
0,000
0,000
0,008
0,008
0,464
0,003
0,000
0,000
-0,079
0,028
0,231
0,013
-0,005
-0,175
0,301
0,010
0,133
0,046
0,003
0,500
0,027
0,000
0,172
0,001
0,000
0,139
12.2 Todas as variáveis do projeto estão bem distribuídas entre os quatro quadrantes,
sendo no primeiro composto pelos Estados: RO,MS, MT, RS, SC, ES e RJ, bem
próximo das variáveis de T1_2, no segundo quadrante composto pelos Estados: TO,
AL, AP, AC, RR e AM com alta proximidade com as variáveis IFGF e Emprego e
Renda e apesar de compor o mesmo quadrante distante da variável de Liquidez, No
terceiro quadrante composto pelos Estados: SP, GO, PR, MG é bastante próximo das
variáveis de Desenvolvimento e Habitação; H6, ISDM, H3, H2, H1 e H. E no ultimo
quadrante composto pelos Estados: RN, PE, PB, BA, CE, SE, PI, PA e MA próximo
das variáveis : IFDM e Educação, somente a variável MA é próxima das variáveis S1_1
e H5, distante de todas as demais como demosntra estudos anteriores.
Symmetric Plot
0,3
Liq
0,2
Component 2
RO
0,1
0,0
ifgf
MSRS
T1_2 TO
SCMT
ES
ACRR
AL
AP
RJ
E2_4
E&R
isdm
GO
S1_1
PRH3
SP
ifdm
MA
Educ
PI
H6
H1
H2
SE
MG
H5
H
PA
BACE
-0,1
-0,2
-0,2
AM
PB
RN
PE
-0,1
0,0
0,1
Component 1
0,2
0,3
Column Plot
0,3
Liq
Component 2
0,2
0,1
ifgf
T1_2
E2_4
E&R
ifdm
Educ
isdmH3
0,0
H6
H1
H2
S1_1
H5
H
-0,1
-0,2
-0,2
-0,1
0,0
0,1
Component 1
0,2
0,3
Row Plot
0,3
0,2
Component 2
RO
0,1
MS
RS
MT
SC
ES
AM
TO
AL
RJ
0,0
GOPR
SP
MG
SE
BA CE
-0,1
ACRR
AP
MA
PI
PA
PB
RN
PE
-0,1
0,0
0,1
Component 1
0,2
0,3
Todas as variáveis do projeto exceto (R1 e H4) ,assim como no anterior, observa-se um
comportamento semelhante quanto a divisão das regiões, em direita e esquerda, porém o
centro da escala da componente 1 não é mais a referência que divide os grupos. No
grupo da esquerda, é distinta a separação das regiões Norte predominantemente no
quadrante inferior e a Nordeste no quadrante superior.
Simple Correspondence Analysis: Hm_1; H1m_1; H2m_1; H3m_1; H5m_1;
H6m_1; isdmm_
Analysis of Contingency Table
Axis
1
2
3
4
5
6
7
8
9
10
11
12
13
Total
Inertia
0,0107
0,0051
0,0030
0,0013
0,0007
0,0004
0,0002
0,0002
0,0001
0,0001
0,0001
0,0000
0,0000
0,0220
Proportion
0,4866
0,2321
0,1380
0,0575
0,0335
0,0192
0,0098
0,0073
0,0054
0,0047
0,0038
0,0016
0,0004
Cumulative
0,4866
0,7186
0,8567
0,9142
0,9477
0,9669
0,9766
0,9839
0,9893
0,9941
0,9979
0,9996
1,0000
Histogram
******************************
**************
********
***
**
*
Row Contributions
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Name
AC
AL
AM
AP
BA
CE
ES
GO
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
RN
RO
RR
RS
SC
SE
SP
TO
Qual
0,816
0,129
0,926
0,277
0,441
0,504
0,772
0,866
0,753
0,820
0,883
0,866
0,837
0,889
0,930
0,487
0,877
0,387
0,888
0,748
0,817
0,718
0,727
0,186
0,683
0,360
Mass
0,031
0,035
0,030
0,035
0,035
0,035
0,045
0,043
0,029
0,043
0,043
0,042
0,030
0,034
0,035
0,032
0,045
0,047
0,037
0,040
0,031
0,048
0,049
0,038
0,049
0,038
Inert
0,055
0,010
0,134
0,056
0,026
0,028
0,029
0,029
0,074
0,026
0,027
0,016
0,048
0,024
0,029
0,045
0,024
0,041
0,030
0,050
0,067
0,025
0,027
0,018
0,048
0,014
Component
Coord
Corr
0,174 0,788
0,024 0,088
0,268 0,732
0,097 0,271
0,014 0,012
0,036 0,070
-0,096 0,658
-0,113 0,857
0,202 0,737
-0,089 0,618
-0,079 0,452
-0,052 0,329
0,151 0,640
0,012 0,009
0,004 0,001
0,119 0,452
-0,100 0,859
-0,085 0,378
-0,007 0,003
-0,020 0,015
0,195 0,793
-0,062 0,333
-0,076 0,469
0,001 0,000
-0,120 0,667
0,014 0,023
1
Contr
0,089
0,002
0,202
0,031
0,001
0,004
0,039
0,052
0,111
0,032
0,025
0,011
0,064
0,000
0,000
0,042
0,042
0,032
0,000
0,002
0,110
0,017
0,026
0,000
0,066
0,001
Component
Coord
Corr
0,033 0,028
0,016 0,041
0,138 0,194
0,014 0,006
-0,084 0,430
-0,089 0,434
0,040 0,114
-0,011 0,008
-0,030 0,016
-0,051 0,201
0,077 0,431
0,067 0,538
-0,084 0,197
-0,118 0,879
-0,130 0,929
-0,033 0,035
-0,014 0,017
0,013 0,009
-0,125 0,885
0,141 0,733
0,034 0,024
0,067 0,384
0,056 0,258
-0,043 0,186
-0,019 0,016
0,052 0,337
2
Contr
0,007
0,002
0,112
0,001
0,048
0,053
0,014
0,001
0,005
0,022
0,050
0,037
0,041
0,091
0,117
0,007
0,002
0,002
0,113
0,158
0,007
0,042
0,030
0,014
0,003
0,021
Inert
0,041
0,046
Component
Coord
Corr
-0,079 0,477
-0,042 0,133
1
Contr
0,040
0,013
Component
Coord
Corr
-0,067 0,344
-0,044 0,148
2
Contr
0,060
0,029
Column Contributions
ID
1
2
Name
H
H1
Qual
0,821
0,280
Mass
0,069
0,076
3
4
5
6
7
8
9
10
11
12
13
14
15
H2
H3
H5
H6
isdm
ifdm
ifgf
E2_4
T1_2
S1_1
Educ
E&R
Liq
0,280
0,700
0,965
0,507
0,908
0,732
0,822
0,009
0,367
0,683
0,560
0,073
0,939
0,076
0,089
0,086
0,059
0,071
0,073
0,061
0,080
0,062
0,005
0,083
0,046
0,065
0,046
0,042
0,291
0,121
0,044
0,016
0,046
0,037
0,044
0,021
0,023
0,019
0,163
-0,042
-0,085
0,263
-0,147
-0,112
0,051
0,081
0,003
-0,046
0,244
0,049
0,025
0,013
0,133
0,697
0,925
0,477
0,905
0,555
0,400
0,001
0,135
0,681
0,388
0,071
0,003
0,013
0,060
0,554
0,119
0,082
0,018
0,037
0,000
0,012
0,030
0,019
0,003
0,001
-0,044
-0,006
-0,055
-0,037
-0,006
-0,029
0,083
0,009
0,060
-0,013
-0,033
-0,004
0,227
0,148
0,003
0,040
0,030
0,003
0,178
0,422
0,008
0,232
0,002
0,172
0,002
0,936
0,029
0,001
0,050
0,016
0,001
0,012
0,083
0,001
0,044
0,000
0,017
0,000
0,656
ÁRVORE DE CLASSIFICAÇÃO
13 ÁRVORE CLASSIFICATÓRIA
13.1. ÁRVORES DE CLASSIFICAÇÃO DAS VARIÁVEIS HABITAÇÃO POR
REGIÃO
Este resultado se refere à variável dependente REGIÃO e as variáveis independente:
ISDM, H, H1, H2, H3, H4, H5, H6,
Resumo do modelo
Método de crescimento
CHAID
Variável dependente
VAR00002
Variáveis independentes
Especificações
Validação
VAR00001, VAR00003, VAR00004, VAR00005,
VAR00006, VAR00007, VAR00008, VAR00009
Nenhum
Profundi00dade de árvore
3
máxima
Casos mínimos em nó pai
2
Casos mínimos em nó filho
1
Variáveis independentes
VAR00003
incluídas
Resultados
Número de nós
7
Número de nós de terminal
6
Profundidade
1
Posto
Observado
Previsto
Centro-Oeste
Nordeste
Norte
Região
Sudeste
Sul
Porcentagem
Correta
0
0
16
0
0
0
0
0.0%
Centro-Oeste
0
3
465
0
0
0
0
0.6%
Nordeste
0
0
1790
0
0
0
0
100.0%
Norte
0
0
426
5
0
0
0
1.2%
Região
0
0
0
0
1
0
0
100.0%
Sudeste
0
0
1669
0
0
0
0
0.0%
Sul
0
0
1187
0
0
0
4
0.3%
0.0%
0.1%
99.8%
0.1%
0.0%
0.0%
0.1%
32.4%
Porcentagem global
Método de crescimento: CHAID
Variável dependente: VAR00002
Risco
Estimativas
Modelo padrão
.676
.006
Método de crescimento: CHAID
Variável dependente: VAR00002
13.2
ÁRVORES DE CLASSIFICAÇÃO DAS VARIÁVEIS HABITAÇÃO
POR 3 BRASIS.
Este resultado se refere à variável dependente 3 BRASIS e as variáveis
independente: ISDM, H, H1, H2, H3, H4, H5, H6,
Resumo do modelo
Método de crescimento
CHAID
Variável dependente
VAR00010
Variáveis independentes
Especificações
Validação
VAR00001, VAR00003, VAR00004, VAR00005,
VAR00006, VAR00007, VAR00008, VAR00009
Nenhum
Profundidade de árvore
3
máxima
Casos mínimos em nó pai
2
Casos mínimos em nó filho
1
Variáveis independentes
VAR00003
incluídas
Resultados
Número de nós
5
Número de nós de terminal
4
Profundidade
1
Risco
Estimativas
Modelo padrão
.483
.007
Método de crescimento: CHAID
Variável dependente: VAR00010
Posto
Observado
Previsto
3 Brasis
Centro-Oeste
Nor
Su
Porcentagem
Correta
0
0
0
0
16
0.0%
3 Brasis
0
1
0
0
0
100.0%
Centro-Oeste
0
0
3
0
465
0.6%
Nor
0
0
0
16
2205
0.7%
Su
0
0
0
0
2860
100.0%
0.0%
0.0%
0.1%
0.3%
99.6%
51.7%
Porcentagem global
Método de crescimento: CHAID
Variável dependente: VAR00010
13.3. ÁRVORES DE CLASSIFICAÇÃO DAS VARIÁVEIS HABITAÇÃO POR 2
BRASIS.
Este resultado se refere à variável dependente 2 BRASIS e as variáveis independente:
ISDM, H, H1, H2, H3, H4, H5, H6,
Resumo do modelo
Método de crescimento
CHAID
Variável dependente
VAR00011
Variáveis independentes
Especificações
Validação
VAR00001, VAR00003, VAR00004, VAR00005,
VAR00006, VAR00007, VAR00008, VAR00009
Nenhum
Profundidade de árvore
3
máxima
Casos mínimos em nó pai
2
Casos mínimos em nó filho
1
Variáveis independentes
VAR00003
incluídas
Resultados
Número de nós
4
Número de nós de terminal
3
Profundidade
1
Posto
Observado
Previsto
2 Brasis
Centro-Oeste
SSNN
Porcentagem
Correta
0
0
0
1
0.0%
2 Brasis
0
1
0
0
100.0%
Centro-Oeste
0
0
3
467
0.6%
SSNN
0
0
0
5094
100.0%
Porcentagem global
0.0%
0.0%
0.1%
99.9%
91.6%
Método de crescimento: CHAID
Variável dependente: VAR00011
Risco
Estimativas
Modelo padrão
.084
.004
Método de crescimento: CHAID
Variável dependente: VAR00011
Conclusão:
Entre as três variáveis categóricas apresentadas, observou-se um índice de
previsibilidade na dos 2 Brasis (Variável 11), que alcançou 91,6 % de acerto, contra 3
Brasis (Variável 10), que alcançou 51,7 e 32,4 % das Regiões (Variável 2).
13.4 ÁRVORES DE CLASSIFICAÇÃO DAS VARIÁVEIS COMPARTILHADAS
POR 3 BRASIS
Resumo do modelo
Método de crescimento
CHAID
Variável dependente
VAR00002
VAR00006, VAR00007, VAR00008, VAR00009,
VAR00010, VAR00011, VAR00012, VAR00013,
Variáveis independentes
VAR00014, VAR00015, VAR00016, VAR00017,
VAR00018, VAR00019, VAR00020, VAR00021,
Especificações
VAR00022
Validação
Nenhum
Profundidade de árvore
3
máxima
Casos mínimos em nó pai
2
Casos mínimos em nó filho
1
Variáveis independentes
VAR00006
incluídas
Resultados
Número de nós
3
Número de nós de terminal
2
Profundidade
1
osto
Observado
Previsto
3 BRASISM
B123
B4
B5
Porcentagem
Correta
3 BRASISM
1
0
0
0
100,0%
B123
0
4825
0
0
100,0%
B4
0
92
0
0
0,0%
B5
0
647
0
0
0,0%
0,0%
100,0%
0,0%
0,0%
86,7%
Porcentagem global
Método de crescimento: CHAID
Variável dependente: VAR00002
Download