PESQUISA E DADOS A todo instante do nosso dia-a

Propaganda
PESQUISA E DADOS
A todo instante do nosso dia-a-dia nos deparamos com dados.
Por exemplo, para decidir pela compra de um eletrodom€stico, um aparelho
eletr•nico ou at€ mesmo na compra de uma caixa de sab‚o em pƒ temos
diferentes op„…es:
● marca: prƒs e contra de cada uma.
● pre„o: € compat‡vel com o que o produto oferece e com o nosso or„amento?
● melhor custo/benef‡cio.
● garantia, assistˆncia t€cnica, acabamento, etc...
Na Pesquisa Científica, no entanto, os dados s‚o um fator preponderante para
que possamos responder ‰s nossas indaga„…es.
Portanto, a observa„‚o e anŠlise dos dados devem ser feitas de maneira
criteriosa e objetiva para que os resultados sejam confiŠveis. (metodologia
cient‡fica)
PESQUISA QUANTITATIVA
Tipo de pesquisa que segue critérios estatísticos r‡gidos, previamente
estabelecidos (baseados em hipƒteses e variŠveis), que servem de par‹metros
para a defini„‚o do universo da pesquisa.
A) Definições:
Problema, objetivo, população alvo
B) Planejamento da pesquisa
Variáveis, plano amostral ou
experimental e técnica de análise
C) Execução da pesquisa.
Coleta de dados
(observação, mensuração)
D) Análise dos dados
Segundo os objetivos traçados e
técnicas apropriadas
E) Resultados com relatório final
F) Conclusões e previsões
Atuação predominantemente da Área de Estudo
Atuação predominantemente da Estatística
Atuação de ambas as áreas
1. CONCEITOS BÁSICOS
Estudo Observacional x Estudo Experimental:
1.1- No Estudo Observacional as observações, ou medidas, de interesse são
coletadas sem nenhuma interferência nas respostas.
exemplos: intenção de votos; no de peças defeituosas num lote produzido; tempo
de atendimento de um caixa bancário; comportamento das baleias em relação às
crias; etc...
CENSO: é o tipo de pesquisa onde a informação é obtida a partir de todos os
indivíduos da população, ou seja, da população completa. Censos são raros, pois
são muito caros. (os censos não serão estudados nesta disciplina)
PESQUISA AMOSTRAL: na pesquisa amostral, a informação é obtida a partir de
uma parcela finita da população ou amostra, por meio de processos probabilísticos,
ou não, que a representa adequadamente.
A amostra deve ser representativa, para que se possa tirar conclusões que sejam
válidas para a população toda.
“Requer um Planejamento Amostral.”
1.1.1- População: conjunto de indivíduos, ou itens, com pelo menos uma
característica em comum.
 Também será denotada por população objetivo, que é sobre a qual desejamos
obter informações e/ou fazer inferências.
 Pode, ainda, ser chamada de Universo.
Será denotada por: U
 u1 ,u 2 ,u3 , ,u N 
ui  unidades elementares, i = 1, 2, . . . , N.
N = no de elementos, ou tamanho, da população.
exemplos:
a) Residentes da cidade de São Carlos;
b) Lote de peças produzido numa linha de produção de uma industria;
c) Cidades das regiões de Ribeirão Preto;
d) Baleias da região do Estreito de Bering, no Alasca
etc, etc, etc ...
1.1.2- Amostra: é um subconjunto, necessariamente finito, de uma população.
 é selecionada de forma que todos os elementos da população tenham a mesma
chance de serem escolhidos.
 A população pode ser infinita, mas a amostra é sempre finita.
1.1.3- Planejamentos Amostrais: são esquemas para coletas de amostras numa
pesquisa amostral. Existem vários tipos de planejamentos dos quais iremos
destacar três:
i) Amostra Aleatória Simples (AAS): na AAS, uma amostra de n elementos é
selecionada ao acaso de uma população de tamanho N.
É mais precisa, porém é o mais cara.
ii) Amostra Aleatória Estratificada (AAE): na AAE, a população original é
dividida em estratos (ou subpopulações) sendo retirada uma amostra de ni
elementos de cada um dos estratos, através de uma AAS, tal que:
n = n1 + n2 + ... + nk, onde k é o número de estratos.
A AAE é indicada quando a população é muito heterogênea, melhorando a
precisão da AAS.
iii) Amostra Aleatória por Conglomerados (AAC): na AAC, a população original
é subdividida em porções (conglomerados) e uma amostra de k conglomerados é
sorteada através de uma AAS, sendo que todos os elementos dentro do
conglomerados são observados.
Exemplos de conglomerados: quarteirões, ruas, vilas, ninhadas, lotes de produção,
prateleiras, canteiros, etc...
A AAC é o menos precisa, porém é a mais barata.
1.2- O Estudo Experimental, consiste na realização de um experimento,
normalmente em laboratório, no qual um tratamento é aplicado deliberadamente
aos indivíduos a fim de observar a sua resposta.
“Requer um Planejamento Experimental.”
exemplos: ensaios para se verificar a dureza de materiais; estudos caso-controle
em epidemiologia; comparação de concentrações de um composto; pesos de
cobaias submetidas à diferentes dietas; etc...
No estudo experimental é muito importante saber determinar o número de
elementos necessários, ou seja, o tamanho da amostra. É importante, também,
planejar adequadamente a amostra de maneira a não interferir nos resultados.
A seguir, apresentaremos alguns casos de planejamentos experimentais.
1.2.1- Uma Amostra: é o caso mais simples de, uma vez que dispomos de apenas
uma amostra a ser colocada em teste.
- Podemos sortear ao acaso n elementos de uma população para participar do
experimento ou produzir uma amostra especificamente para o experimento.
exemplos: sortear uma amostra dentro de um lote de peças e colocar em teste;
escolher um grupo de animais para um experimento.
Todos os elementos escolhidos devem ter as mesmas características.
1.2.2- Duas Amostras: quando dispomos de duas amostras, geralmente queremos
realizar uma comparação entre as mesmas.
1º Caso: amostras independentes.
Duas amostras tal que nenhum elemento da primeira interfere nos da segunda.
i) dois tratamentos: tomar n elementos de uma única população e dividir, por
sorteio, em dois grupos, de preferência de mesmo tamanho.
1
2
3
1
2

n1
 n1 + n2 = n

1
2
n

n2
ii) duas populações: sortear n1 elementos da primeira popula„‚o e n2 da segunda.
1
2






n1
 n1 + n2 = n





1
2

n2
Os dois grupos serão, então, comparados: teste t-Student, teste de Wilcoxon ou
Mann-Whitney.
2Œ Caso: amostras pareadas ou emparelhadas.
Basicamente, temos uma amostra observada em dois instantes diferentes:
(antes/depois), (tempo 1, tempo 2).
1
2
3
t
1
2
3
Fazer as diferen„as:
di = yi2 – yi1


n
n
t1
t2
A anŠlise € feita atrav€s da diferen„a da variŠvel nos dois instantes de observa„‚o:
teste t-Student, teste do sinal.
1.2.3- k amostras: quando temos três ou mais grupos para analisar.
1º Caso com k grupos independentes: Dividir, ao acaso, n elementos em k grupos
tal que n = n1 + n2 + ... + nk.
Análise de variância a um fator e comparações múltiplas
2º Caso Medidas Repetidas: o mesmo grupo é observado em k instantes
diferentes.
Análise de variância para medidas repetidas.
1.2.4- Análise de variância a dois fatores (two-way): análise para comparações
de mais de dois grupos quando existem dois critérios (chamados fatores) para a
divisão dos grupos.
Considerando, pó rexemplo, um critério com três níveis (A1, A2, A3) e um segundo
critério com dois níveis (B1, B2), teremos:
B1
A1 B1
B2
A1 B2
B1
A2 B1
A1
A2
 6 grupos
B2
A2 B2
B1
A3 B1
B2
A3 B2
A3
1.3- Parâmetro Populacional: normalmente denotado por , é uma característica
populacional de interesse, que pode ser expressa através de uma quantidade
numérica. Normalmente é desconhecido e fixo.
exemplos: no de desempregados; salário médio; opinião a respeito de uma dada
atitude; casos de dengue; tempo gasto com filhotes; tamanho da população; tempo
de vida; no de votos para um determinado candidato, produção agrícola, etc...
1.4- Estatística: € uma medida num€rica, S(X), que descreve uma caracter‡stica
da amostra.
Uma Estat‡stica € uma fun„‚o da amostra: S(X) = f(X1, X2, . . . , Xn)
n
n
 Xi
exemplos:
X
s2 
i 1
n
X(1) = mínimo
Nome
M€dia
Vari‹ncia
Correla„‚o
Propor„‚o

 X i  X 
2
i 1
n 1
X(n) = máximo
PARÂMETROS E ESTATÍSTICAS
ESTATÍSTICA (Amostra)
PARÂMETRO (População)

X
s2
2
rX,Y
X,Y
p̂
p


1.5- Estimador: € uma quantidade, obtida a partir de uma amostra, que “estima” o
verdadeiro valor de um par‹metro populacional. SerŠ denotado por T(X).
Todo estimador € uma fun„‚o da amostra e, portanto, € uma estatística, por€m,
nem toda estatística € um estimador

{ T(X) }  { S(X) }.
1.6- As variáveis e a coleta de dados: uma variável é uma característica
desconhecida, que pode variar de um indivíduo para outro da população e que, ao
ser observada ou mensurada, deve gerar uma única resposta.
Tipos de variáveis:
a) Variáveis qualitativas: variáveis cujos possíveis resultados são atributos ou
qualidades. São NÃO NUMÉRICAS.
Podem ser classificadas em ORDINAIS, quando obedecem a uma ordem natural
ou NOMINAIS, quando não obedecem nenhuma ordem.
b) Variáveis quantitativas: variáveis cujos possíveis resultados são valores
NUMÉRICOS resultantes de uma mensuração ou contagem.
Podem ser classificadas em DISCRETAS, quando assumem valores inteiros, ou
CONTÍNUAS, quando assumem valores reais.
ESQUEMATICAMENTE
Representação gráfica para Variáveis Quantitativas:
Gráfico de pontos no MINITAB
Gráfico de pontos para horas de TV
10
0
20
30
horas
Estatísticas descritivas no MINITAB
Descriptive Statistics: horasTV
Variable
horasTV
N
50
Mean
10.780
Median
10.000
TrMean
10.273
Variable
horasTV
Minimum
0.000
Maximum
30.000
Q1
5.000
Q3
14.000
StDev
6.891
SE Mean
0.974
Histograma para variáveis contínuas no MINITAB
Histograma de horas de TV
Freqüência
20
10
0
0
6
12
18
24
30
horas
Outros limites
Histograma de horas de TV
Freqüência
15
10
5
0
0.0
5.5
11.0
16.5
22.0
27.5
33.0
horas
Exemplo:
Tabela de freqüências e histograma para variáveis contínuas, no Excel.
Freqüência
1
6
13
15
7
4
2
2
Bloco
0
4.3
8.6
12.9
17.1
21.4
25.7
Mais
Histograma
16
Freqüência
12
8
Freqüência
4
0
0
4.3
8.6
12.9
17.1
Bloco
21.4
25.7
Mais
Dados discretos:
Uma grande companhia está preocupada com o tempo que
seus equipamentos ficam em manutenção na assistência
técnica. Sendo assim, fez um levantamento do tempo de
manutenção (dias) de 50 equipamentos para um estudo mais
detalhado.
X = dias em manutenção de equipamentos.
15 13 21 9
5
5
9 10 3
4
2 13
4 11 8
6
6 10
2
5
9 14 15 3
5
7
8
3 10 5
10 6
12 16
17 13
6 18
5
4
2
7
9
3
5
2
6
5
4
2
Dados Ordenados:
2
2
2
2
2
3
4
4
4
5
5
5
5
6
6
6
6
6
9
9
9
9 10 10
13 13 13 14 15 15
3
3 3
4
5
5 5
5
7
7 8
8
10 10 11 12
16 17 18 21
Tabela de frequ€ncias:
k = [1 + 3,322*log1050] = [ 6,64 ] = 6 a 7 classes
A = 21 – 2 = 19  h = 19/6 = 3,16  3,2
Com k = 7 classes:
Xi (dias)
2 a 4
5 a 7
8 a 10
11 a 13
14 a 16
17 a 19
20 a 22
Total
ni
13
15
10
5
4
2
1
50
fi
0,26
0,30
0,20
0,10
0,08
0,04
0,02
1,00
Fac
0,26
0,56
0,76
0,86
0,94
0,98
1,00
-
Medidas Descritivas de Posição:
392
i) Média: xi = 392  x 
 7,84 dias
50
ii) Mediana: Md(x) =
x( 25)  x( 26)
iii) Moda: Mo(x) = 5 dias
2

66
 6 dias
2
 aparece 8 vezes na amostra.
Com k = 6 classes:
Xi (dias)
0 a 3
4 a 7
8 a 11
12 a 15
16 a 19
20 a 23
Total
ni
9
19
11
7
3
1
50
fi
0,18
0,38
0,22
0,14
0,06
0,02
1,00
Fac
0,18
0,56
0,78
0,92
0,98
1,00
-
Comandos do R para o histograma:
manuten <-c(15,13,21, 9, 5, 5,10, 6, 2, 2, 9,10,
3, 4, 2,13,12,16, 7, 6, 4,11, 8, 6, 6,10,17,13,
9, 5, 2, 5, 9,14,15, 3, 6,18, 3, 4, 5, 7, 8, 3,
10, 5, 5, 4, 5, 2)
nclass.Sturges(manuten)
hist(manuten, col="bisque")
hist(manuten, breaks="Sturges", col="bisque")
nclass.scott(manuten)
hist(manuten, breaks="Scott", col="bisque")
nclass.FD(manuten)
hist(manuten, breaks="FD", col="bisque")
hist(manuten, breaks=7, col="bisque")
hist(manuten, breaks=8, col="bisque")
# definindo os intervalos
#########################
h1 <- c(0.5,4.5,8.5,12.5,16.5,20.5,24.5)
hist(manuten, breaks=h1, col="bisque")
h2 <- c(1.5,4.5,7.5,10.5,13.5,16.5,18.5,22.5)
hist(manuten, breaks=h2, col="bisque")
Dados Contínuos:
X = notas de avalia•‚o de teste verbal aplicado em 87 alunos.
2,5 2,8 2,8 3,2 3,5 3,6 3,7 3,8 3,9 4,0
4,1 4,1 4,1 4,1 4,2 4,5 4,6 4,7 4,7 4,7
4,7 4,8 4,8 4,9 4,9 5,0 5,0 5,1 5,1 5,1
5,2 5,2 5,2 5,2 5,2 5,3 5,3 5,3 5,3 5,4
5,4 5,4 5,4 5,5 5,5 5,5 5,6 5,7 5,7 5,8
5,9 5,9 5,9 5,9 6,0 6,1 6,1 6,1 6,1 6,2
6,2 6,2 6,3 6,4 6,4 6,4 6,4 6,5 6,5 6,5
6,5 6,5 6,6 6,6 6,7 6,7 6,7 6,7 6,8 6,9
6,9 7,0 7,0 7,1 7,2 7,3 7,5
k = [1 + 3,322*log1087] = [ 7,44 ] = 7 a 8 classes
A = 7,5 – 2,5 = 5  h = 5/7 = 0,714  0,72
Com k = 7 classes:
Xi (nota)
2,50 |--- 3,22
3,22 |--- 3,94
3,94 |--- 4,66
4,66 |--- 5,38
5,38 |--- 6,10
6,10 |--- 6,82
6,82 |--- 7,54
Total
ni
4
5
8
22
16
24
8
87
fi
0,046
0,057
0,092
0,253
0,184
0,276
0,092
1,000
Fac
0,046
0,103
0,195
0,448
0,632
0,908
1,000
-
Medidas Descritivas de Posição:
475,8
i) Média: xi = 475,8  x 
 5,47
87
ii) Mediana: Md ( x)  x( 44)  5,50
iii) Moda: Mo( x)  4,66 
14  0,72
 5,29
(14  2)
Comandos do R para o histograma:
verbal <- c(2.5,2.8,2.8,3.2,3.5,3.6,3.7,3.8,3.9,
4.0,4.1,4.1,4.1,4.1,4.2,4.5,4.6,4.7,4.7,4.7,
4.7,4.8,4.8,4.9,4.9,5.0,5.0,5.1,5.1,5.1,5.2,
5.2,5.2,5.2,5.2,5.3,5.3,5.3,5.3,5.4,5.4,5.4,
5.4,5.5,5.5,5.5,5.6,5.7,5.7,5.8,5.9,5.9,5.9,
5.9,6.0,6.1,6.1,6.1,6.1,6.2,6.2,6.2,6.3,6.4,
6.4,6.4,6.4,6.5,6.5,6.5,6.5,6.5,6.6,6.6,6.7,
6.7,6.7,6.7,6.8,6.9,6.9,7.0,7.0,7.1,7.2,7.3,
7.5)
hist(verbal, col="bisque")
nclass.Sturges(verval)
hist(verbal, breaks="Sturges", col="bisque")
nclass.scott(verbal)
hist(verbal, breaks="Scott", col="bisque")
nclass.FD(verbal)
hist(verbal, breaks="FD", col="bisque")
hist(verbal, breaks=7, col="bisque")
hist(verbal, breaks=8, col="bisque")
# definindo os intervalos
#########################
h <- c(2.50,3.22,3.94,4.66,5.38,6.10,6.82,7.54)
hist(verbal, breaks=h, col="bisque")
boxplot(verbal, col="yellow2", horizontal=FALSE)
boxplot(verbal, col="yellow2")
boxplot(verbal, plot=F)
Média, Moda e Mediana e a Simetria dos dados
O gráfico de pontos é a primeira representação da
amostra, fornecendo um aspecto visual da concentração e
distribuição dos pontos na nossa escala de medidas.
No exemplo abaixo, percebemos o conjunto de dados
concentrado na primeira metade da escala, com uma grande
concentração entre os valores 2,5 e 7,5, e uma dispersão
mais acentuada no lado superior (direito) da distribuição,
com valores chegando a 17,5. Esta dispersão indica uma
forte assimetria na cauda superior da distribuição (assimetria
à direita).
Figura 1: Gráfico de pontos.
Uma forma prática de representação gráfica para dados
quantitativos (em especial dados contínuos) é dada pelo
histograma, no qual, representamos as frequências de uma
tabela por barras adjacentes para cada intervalo de classe.
Histograma com k = 7 classes:
Classe – (Xi)
ni
fi
0,0 |--- 2,5
34
0,136
2.5 |--- 5,0
74
0,296
5,0 |--- 7,5
86
0,344
7,5 |--- 10,0
30
0,120
10,0 |--- 12,5
16
0,064
12,5 |--- 15,0
5
0,020
15,0 |--- 17,5
5
0,020
Total
250
1,000
Figura 2: Histograma(sobre o gráfico de pontos).
O Polígono de Frequências
Marcando o ponto médio de cada retângulo do histograma
na sua na parte superior e ligando esses pontos, teremos
uma figura que chamaremos de Polígono de Frequências
(Figura 3).
Figura 3: Polígono de frequências.
As linhas retas que compõem o polígono de
frequências são uma aproximação rudimentar para uma
curva que representa uma Distribuição de Frequências. Essa
distribuição é descrita por uma função f(x), contínua e
diferenciável, definida num intervalo dos reais, a qual será
denotada por função distribuição de probabilidades ou fdp
(Figura 4).
Figura 4: Função de distribuição de probabilidades
sobre o histograma.
O que podemos dizer acerca desta distribuição de
frequências em relação a sua simetria?
Quando uma distribuição de frequências é simétrica,
teremos que a Média, a Moda e a Mediana serão iguais, ou
seja:
x = Mo(x) = Md(x)
E quanto ao exemplo acima, como podemos classificálo em função da sua falta de simetria?
Quando a distribuição não é simétrica, podemos
distinguir duas situações possíveis (Figura 5):
a) Quando a cauda superior da distribuição for mais
alongada, puxando a distribuição para a direita. Neste
caso, a média é maior do que a moda e a assimetria é
dita à direita ou positiva.
b) Quando a cauda inferior da distribuição for mais
alongada, puxando a distribuição para a esquerda.
Neste caso, a média é menor do que a moda e a
assimetria é dita à esquerda ou negativa.
Figura 5: Assimetrias à direita e à esquerda,
respectivamente.
Relação entre média, moda e mediana
i) A Média é sempre influenciada por valores extremos,
sendo puxada na direção da cauda mais alongada (ver
a seta na Figura 5);
ii) A Moda é o elemento de maior frequência, sendo o
ponto de máximo de f(x);
iii) A Mediana está sempre no meio do conjunto,
dividindo-o em duas partes iguais, ficando entre as
duas medidas anteriores.
Assim, para cada situação, teremos:
a) Quando a simetria é perfeita as três medidas são iguais.
b) Na situação em que ocorre a assimetria à direita,
teremos a moda menor do que a mediana que é menor
do que a média.
c)
E, para a assimetria à esquerda, devemos ter a
média menor do que a mediana que é menor do que a
moda.
Sum€rio dos exemplos:
I – Representação gráfica para Variáveis Quantitativas
II – Histograma para variáveis contínuas no soft MINITAB
III – Tabela de freqüências e histograma para v. contínuas, no Excel
IV – Exemplo Estatísticas Descritivas de dados contínuos
V – Estatísticas Descritivas no soft MINITAB
VI – Estatísticas Descritivas no EXCEL
VII – Exemplos de Dados Agrupados
VIII – Representação gráfica para Variáveis Qualitativas
IX – Histogramas pelo número de observações
I - Representação gráfica para Variáveis Quantitativas:
Gráfico de pontos no MINITAB
Gráfico de pontos para horas de TV
10
0
20
30
horas
Estatísticas descritivas no MINITAB
Descriptive Statistics: horasTV
Variable
horasTV
N
50
Mean
10.780
Median
10.000
TrMean
10.273
Variable
horasTV
Minimum
0.000
Maximum
30.000
Q1
5.000
Q3
14.000
StDev
6.891
SE Mean
0.974
II - Histograma para variáveis contínuas no MINITAB
Histograma de horas de TV
Freqüência
20
10
0
0
6
12
18
24
30
horas
Outros limites
Histograma de horas de TV
Freqüência
15
10
5
0
0.0
5.5
11.0
16.5
22.0
27.5
33.0
horas
III - Tabela de freqüências e histograma para v. contínuas, no Excel.
Freqüência
1
6
13
15
7
4
2
2
Bloco
0
4.3
8.6
12.9
17.1
21.4
25.7
Mais
Histograma
16
Freqüência
12
8
Freqüência
4
0
0
4.3
8.6
12.9
17.1
Bloco
21.4
25.7
Mais
Dados do estudo sobre exposição à violência familiar de crianças
em idade escolar (2 grupos  Expostos à violência e Não
Expostos)
IV - Exemplo Estatísticas Descritivas de dados contínuos:
Variável: Renda PC por grupo (Exposto e Não Exposto)
Grupo
EXP 68 96 100 100 112 112 117 120 120 135
150 160 160 200 260
- Mediana: Md ( x)  x(8)  120 reais
- 1o Quartil: Q1 = x(4) = 100 reais
- 3o Quartil: Q3 = x(12) = 160 reais
x 2010
- Média: x   
 134 reais
n
15
- Variância:
s
2
 x 2  300942
x 2  nx 2 300942  15(134) 2



s2 
(n  1)
(15  1)

300942  269340
14
31602
 2257.286
14
- desvio-padrão: s  s 2  2257.286  47.51 reais
Box-plot renda per capita
50
150
250
Grupo Exposto
8
Freqüência
7
6
5
4
3
2
1
0
35
85
135
185
Grupo Exposto
235
285
Grupo
NEXP 36 50 70 84 108 109 120 120 150 150
180 220 250 260 300
- Mediana: Md ( x)  x(8)  120 reais
- 1o Quartil: Q1 = x(4) = 184 reais
- 3o Quartil: Q3 = x(12) = 220 reais
x 2207
- Média: x   
 147.13 reais
n
15
- Variância:
s
2
 x 2  413997
x 2  nx 2 413997  15(147.13)2 413997  324723.27




s2 
(n  1)
(15  1)
14
89273.73
 6376.695
14
- desvio-padrão: s  s 2  6376.695  79.85 reais
Box-plot renda per capita
0
100
200
300
Grupo Não Exposto
6
Freqüência
5
4
3
2
1
0
0
66
132
198
264
330
Grupo não Exposto
ex <- c(68,96,100,100,112,112,117,120,120,135,150,160,
160,200,260)
nex <- c(36,50,70,84,108,109,120,120,150,150,180,220,
250,260,300)
renda <- c(ex,nex)
gr <- c(rep("ex",length(ex)),rep("nex",length(nex)))
boxplot(renda~gr, col=c("red3","green3"))
V - Estatísticas Descritivas no soft MINITAB
Variável: Renda PC por grupo (Exposto e Não Exposto)
Descriptive Statistics: EXP; NEXP
Variable
EXP
NEXP
N
15
15
Mean Median TrMean StDev SE_Mean
134.0 120.0 129.4 47.5
12.3
147.1 120.0 143.9 79.9
20.6
Variable Minimum Maximum
Q1
Q3
EXP
68.0
260.0 100.0 160.0
NEXP
36.0
300.0
84.0 220.0
VI - Estatísticas Descritivas no EXCEL
Variável: Renda PC por grupo (Exposto e Não Exposto)
Exp
Média
Erro padrão
Mediana
Modo
Desvio padrão
Variância da amostra
Curtose
Assimetria
Intervalo
Mínimo
Máximo
Soma
Contagem
134
12.3
120
160
47.5
2257.286
2.62
1.44
192
68
260
2010
15
Nexp
147.13
20.6
120
150
79.9
6376.695
-0.67
0.54
264
36
300
2207
15
VII – Exemplos com Dados Agrupados
Exemplo 1: dados coletados em entrevistas com 500 pessoas
(a) – vari•vel n‚mero de divƒrcios por indiv„duo
(b) – vari•vel tempo (em anos) at… o primeiro divƒrcio
a) Variável discreta: tabela do n‚mero de divƒrcios por indiv„duo.
Divórcios = xi
1
2
3
4
5
Total
ni
240
125
81
48
6
500
fi
0,480
0,250
0,162
0,096
0,012
1,000
xi fi
0,480
0,500
0,486
0,384
0,060
1,910
Fac
0,480
0,730
0,892
0,988
1,000
-
ni xi2
240
500
729
768
150
2387
M…dia amostral: x   xi f i = 1.91 divƒrcios
Vari†ncia amostral:
s
2
xi2  nx 2 2387  500 (1.910)2 562.95




 1.13
(n  1)
(500  1)
499
s  1,06 divƒrcios
Outra representa‡ˆo:
Divórcios = xi
ni
1
240
2
125
3
81
4
48
5
6
Total
500
fi
0,480
0,250
0,162
0,096
0,012
1,000
xi fi
0,480
0,500
0,486
0,384
0,060
1,910
Fac
0,480
0,730
0,892
0,988
1,000
–
(xi – x ) ni (xi – x )2
-0,910
198,744
0,090
1,013
1,090
96,236
2,090
209,669
3,090
57,2886
–
562,950
M…dia amostral: x   xi f i = 1.91 divƒrcios
2
Vari†ncia amostral: s
2
x  x 
 i
(n  1)

562.95
 1.13
499
b) Variável contínua: tabela do tempo at… o primeiro divƒrcio.
Anos
ponto médio
Casados
xi
0 |----- 6
3
6 |----- 12
9
12 |----- 18
15
18 |----- 24
21
24 |----- 30
27
Total
ni
fi
xi fi
Fac
ni xi2
280
140
60
15
5
500
0,56
0,28
0,12
0,03
0,01
1,00
1,68
2,52
1,80
0,63
0,27
6,90
0,56
0,84
0,96
0,99
1,00
–
2520
11340
13500
6615
3645
37620
M…dia amostral: x   xi f i = 6.90 anos
Vari†ncia amostral:
xi2  nx 2 37620  500 (6.90) 2 13815

2
s 


 27.685
(n  1)
(500  1)
499
s  5.26 anos
Anos = xi
ptos. médios
3
9
15
21
27
Total
ni
fi
xi f i
Fac
280
140
60
15
5
500
0,56
0,28
0,12
0,03
0,01
1,00
1,68
2,52
1,80
0,63
0,27
6,90
0,56
0,84
0,96
0,99
1,00
-
(xi –
x)
ni (xi –
-3,9
2,1
8,1
14,1
20,1
-
M…dia amostral: x   xi f i = 6.90 anos
2
Vari†ncia amostral: s
2
x  x 
 i
(n  1)

13815
 27.685
499
x )2
4258,8
617,4
3936,6
2982,15
2020,05
13815
Exemplo 2: Escores GMAT (Graduate Management Apititude Test)
aplicado num processo seletivo para a escolha de alunos num
programa de graduação.
Escores
300 |-- 350
350 |-- 400
400 |-- 450
450 |-- 500
500 |-- 550
550 |-- 600
600 |-- 650
650 |-- 700
Histograma:
Pto. Médio
xi
325
375
425
475
525
575
625
675
Totais
ni
fi
x i fi
ni xi2
3
7
18
24
15
10
4
4
85
0,035
0,082
0,212
0,282
0,176
0,118
0,047
0,047
1.000
11,5
30,9
90,0
134,1
92,6
67,6
29,4
31,8
488
316875
984375
3251250
5415000
4134375
3306250
1562500
1822500
20793125
Medidas de dispers‚o (variabilidade):
i) Variância amostral:
 xi  x 2
s 
i 1 n  1
2
n
1 n 2
2
s 
x

n
x

n  1 i1 i

2
ii) Quartis (quantis 25% e 75%):
medidas que dividem o conjunto de dados em quatro
partes iguais de 25% cada
25%
25%
25%
25%
------------|------------|------------|-----------Q1
Q2
Q3
Md(x)
Amplitude interquartil
Denotada por AQ, determina o tamanho da região em torno
da mediana que contém 50% das observações:
AQ = Q3 – Q1
iii) O gráfico box-plot
Representação gráfica da dispersão dos dados em torno
da mediana
Valores discrepantes
Q1 – 1.5AQ
Valores discrepantes
Q1
Md(x)
Q3
Q 3 + 1.5AQ
Procedimento para a construção do box-plot
i) Construir a “caixa” ou “box” com os valores dos
quartis Q1 e Q3;
ii) Com uma linha, demarcar a mediana na caixa,
dividindo-a em duas partes;
iii) Calcular os limites inferior (LI) e superior (Ls):
- LI = Q1 – 1.5AQ
- LS = Q3 + 1.5AQ
Obs: valores da amostra menores do que LI ou maiores
do que LS são identificados como “valores discrepantes”
e destacados no box-plot com pontos além desses limites.
iv) Para os “bra‚os” do box-plot, traçar linhas a partir dos
centros das laterais inferior e superior da caixa,
obedecendo ao seguinte critério:
- se min(x) < LI, traçar uma linha da lateral inferior da
caixa até o limite LI e marcar os pontos discrepantes
com símbolos (asteriscos) segundo a escala;
- se min(x)  LI, traçar uma linha da lateral inferior da
caixa até o limite o valor min(x);
- se max(x) > LS, traçar uma linha da lateral inferior da
caixa até o limite LS e marcar os pontos discrepantes
com símbolos (asteriscos) segundo a escala;
- se max(x)  LS, traçar uma linha da lateral inferior da
caixa até o limite o valor max(x);
VIII - Representa‚ƒo gr€fica para Vari€veis Qualitativas:
Exemplo1: Pesquisa PNAD 2004 – Moradores por domic„lio Brasil.
a) Tabela de uma entrada: número de domicílios por região
Região
SE
NE
SE
CO
NE
domicílios
23157114
13090124
8198266
3745500
3561524
51752528
%
44,8
25,3
15,8
7,2
6,9
100,0
b) Tabela de dupla entrada: moradores/dom. por região (dados brutos)
MOR.
1
2
3
4
5
6
7
8 OU +
Total
Brasil
N
NE
5 411 443 292 910 1 190 705
10 062 238 506 597 2 141 312
12 118 894 747 866 2 793 052
12 098 742 791 985 2 936 946
6 449 038 532 447 1 858 876
2 906 091 308 311 991 114
1 311 592 161 696 532 787
1 394 490 219 712 645 332
51 752 528 3 561 524 13 090 124
SE
2 612 431
4 816 793
5 630 782
5 532 907
2 682 387
1 094 518
410 151
377 145
23 157 114
S
CO
890 834 424 563
1 857 904 739 632
2 103 424 843 770
1 888 026 948 878
917 583 457 745
322 794 189 354
131 936
75 022
85 765
66 536
8 198 266 3 745 500
b) Tabela de dupla entrada: moradores/dom. por região (porcentagens)
MOR.
1
2
3
4
5
6
7
8 OU +
Total
Brasil
10,5
19,4
23,4
23,4
12,5
5,6
2,5
2,7
100,0
N
8,2
14,2
21,0
22,2
14,9
8,7
4,5
6,2
100,0
NE
9,1
16,4
21,3
22,4
14,2
7,6
4,1
4,9
100,0
SE
11,3
20,8
24,3
23,9
11,6
4,7
1,8
1,6
100,0
S
10,9
22,7
25,7
23,0
11,2
3,9
1,6
1,0
100,0
CO
11,3
19,7
22,5
25,3
12,2
5,1
2,0
1,8
100,0
Gr•fico de setores (pizza): n‚mero de domic„lios por regiˆo
Região
SE
NE
SE
CO
NE
Domic. (freq)
23157114
13090124
8198266
3745500
3561524
51752528
proporção
0,447
0,253
0,158
0,072
0,069
1
ângulo
161
91
57
26
25
360
- Para achar o †ngulo, deve-se usar a rela‡ˆo: 100% = 360o.
- Portanto, se uma categoria tem propor‡ˆo de 0,447, entˆo, basta multiplicar
0,447 por 360o para encontrar o †ngulo correspondente (regra de três).
Logo: 0,447 • 360o = 161o
0,253 • 360o = 91o
0,158 • 360o = 57o
0,072 • 360o = 26o
0,069 • 360o = 25o
Domicílios por região
7%
7%
SE
NE
16%
45%
S
CO
N
25%
Domicílios por região
45%
SE
7%
NE
S
CO
7%
N
25%
16%
Gráfico de colunas:
Moradores por domicílio - regiões SE e N
25
20
15
N
SE
10
5
0
1
2
3
4
5
6
7
8+
Exemplo2: Notas de Português por grupo de estudantes expostos à
violência familiar (grupos Expostos e Não Expostos).
Nota
Port.
I
S
PS
Expostos
%
33%
54%
13%
ni
5
8
5
ni
3
6
6
ângulo
119o
194o
47 o
Não Expostos
%
ângulo
20%
74o
40%
144o
40%
144o
I = Insatisfatória, S = Satisfatória e PS = Plenamente Satisfatória
a)
Gráfico de colunas:
Notas de Português
0.6
0.5
I
S
PS
0.3
0.2
0.0
Exposto
Não Exposto
Notas de Português
0.6
0.5
Exposto
Não Exposto
0.3
0.2
0.0
I
S
PS
b)
Gráfico de setores (pizza):
Notas de Português - Grupo Exposto
I
33%
S
54%
PS
13%
Notas de Português - Grupo Não Exposto
PS
40%
I
20%
S
40%
Exemplos
A) Dados DISCRETOS n€o agrupados:
X = vari€vel representando o n•mero de vezes que um sistema
travou, por per‚odo de execuƒ„o, na sua carga m€xima de
processamento.
4
4
1
6
3
2
3
3
4
3
4
2
4
5
2
5
1
2
5
4
6
3
1
2
3
Medidas de tend…ncia central mais comuns, no Excel:
a) M†dia aritm†rica ..... =M‡DIA(A1:A25)
b) Mediana .................. =MED(A1:A25)
c) Moda....................... =MODO(A1:A25)
d) M†dia geom†trica.... = M‡DIA.GEOM‡TRICA(A1:A25)
e) M†dia harmˆnica..... = M‡DIA.HARM‰NICA(A1:A25)
Para construir Tabelas de Frequ•ncias no Excel
i) marcar os dados;
ii) selecionar “> Inserir > Tabela Dinƒmica”;
iii) arrastar X para a margem esquerda e centro da tabela;
iv) clicar com o bot„o direito sobre a coluna “Total”, selecionar “>
Resumir Dados por” e marcar a opƒ„o “Contagem”;
v) inserir as colunas e concluir a tabela, atentando para que os
c€lculos sejam feitos corretamente.
Tabela de Frequ…ncias:
X
ni
fi
3
0,12
1
5
0,20
2
3
6
0,24
6
0,24
4
3
0,12
5
2
0,08
6
Total
25
1,00
Fac
0,12
0,32
0,56
0,80
0,92
1,00
Para construir Gr…fico de Frequ•ncia (Histograma) no Excel
i) marcar os dados;
ii) selecionar “> Inserir > Gr…ficos > Colunas”;
iii) acertar as configurações para melhor visualização do gráfico:
- título (tipo de fonte e tamanho);
- eixos (fontes e espaçamentos);
- linhas de grade;
- espaçamento (clicar numa das colunas do gráfico e selecionar
“> Formatar > S†ria de Dados” e definir
“Largura do Espa‡amento” no máximo “Intervalo Grande”.
Para construir Gr…fico de Frequ•ncia Acumulada:
- digitar a tabela de forma a construir um gráfico XY.
B) Dados DISCRETOS agrupados:
X = variável representando o número de dias em manutenção
de equipamentos de uma empresa.
15
4
17
4
13
2
13
5
X
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
21
Total
21
13
9
7
9
12
5
8
ni
5
4
4
8
5
2
2
4
4
1
1
3
1
2
1
1
1
1
50
5
16
2
3

5
7
5
10
10
6
9
5
6
4
14
5
X (dias)
01 a 03
04 a 06
07 a 09
10 a 12
13 a 15
16 a 18
19 a 21
Total
2
11
15
4
ni
9
17
8
6
6
3
1
05
2
8
3
5
9
6
6
2
fi
0,18
0,34
0,16
0,12
0,12
0,06
0,02
1,00
10
6
18
Fac
0,18
0,52
0,68
0,80
0,92
0,98
1,00
3
10
3
Construindo a Tabela de Frequ•ncia e o Histograma no Excel
i) “> Dados > An…lise de Dados > Histograma > OK”;
ii) Marcar as opƒ‹es:
- “Intervalo de entrada” => conjunto de dados para a tabela;
- “Intervalo do bloco” => coluna com os limites das classes da
tabela;
- “Intervalo de saˆda” => local onde a tabela ser€ colocada;
- marcar “Porcentagem cumulativa” para obter a freqŒ…ncia
acumulada Fac;
- marcar “Resultado do gr…fico” para obter o Histograma;
(Ver resultado na planilha)
** Ver a sa‚da da opƒ„o “Estatˆstica Descritiva” e comparar com o
“MINITAB”.
C) Dados CONTÍNUOS:
Exemplo: Em 1798 o cientista Henry Cavendish mediu a densidade
do glogo terrestre em 29 ensaios. Os dados foram obtidos do
Annals os Statistics, 1977.
X = densidade do globo terrestre (g/cm3).
5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65
5,57 5,53 5,62 5,29 5,44 5,34 5,79 5,10 5,27 5,39
5,42 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85
Dados ordenados
4,88 5,07 5,10
5,36 5,39 5,42
5,58 5,61 5,62
 x  157,99
 x 2  862,09
5,26
5,44
5,63
5,27
5,46
5,65
5,29
5,47
5,68
5,29
5,50
5,75
5,30
5,53
5,79
5,34
5,55
5,85
5,34
5,57
Download