- Instituto de Economia

Propaganda
Estatística Descritiva
Prof. Henrique Dantas Neder
Instituto de Economia
Universidade Federal de Uberlândia
– Typeset by FoilTEX –
1
Tópicos introdutórios
• A estatística descritiva trata dos métodos estatísticos empregados para descrever os dados.
• Em geral quando os dados são coletados ou organizados em uma tabela
existe grande dificuldade em observar ou detectar quais são as suas principais
características.
• A estatística descritiva subdivide-se em três importantes seções: 1) os métodos
de apresentação gráfica dos dados e os métodos; 2) métodos de apresentação
tabular de dados e 3) os métodos de construção de indicadores estatísticos.
– Typeset by FoilTEX –
2
• No primeiro grupo são tratados os distintos tipos de gráficos. Entre eles
temos os gráficos gerais, tais como gráficos de barras, gráficos de setor, etc
e os gráficos mais propriamente voltados para a análise estatística tais como
histograma, diagrama Box-Plot, diagrama de dispersão.
• No segundo grupo são tratadas as formas tabulares de apresentação de dados,
indicando os principais tipos de frequencia.
• No terceiro grupo são propostos diversos indicadores de posição, de dispersão
e de forma das distribuições estatísticas.
Iremos tratar incialmente deste último grupo. Os principais indicadores de
posição são a média, a mediana e a moda da distribuição. A média amostral é
indicada pelo símbolo x.
– Typeset by FoilTEX –
3
A fórmula matemática para indicar o cálculo de uma média amostral é:
P
x̄ =
xi
n
(1)
Muitas vezes os dados podem ser apresentados na forma agrupada, tal como:
intervalo
1-50
50-100
100-150
150-200
200-250
250-300
frequência (fi)
20
30
40
50
35
25
A partir destes dados podemos calcular a média da seguinte forma:
– Typeset by FoilTEX –
4
intervalo
1-50
50-100
100-150
150-200
200-250
250-300
soma
frequência (fi)
20
30
40
50
35
25
200
ponto médio da classe (mi)
25
75
125
175
225
275
fi × mi
500
2250
5000
8750
7875
6875
31250
Neste caso, para o caso do cálculo da média da amostra, vamos aplicar a
seguinte expressão:
P
x=
– Typeset by FoilTEX –
fipmi
n
(2)
5
P
x=
fi pmi
20 × 25 + 30 × 75 + 40 × ×125 + 50 × 175 + 35 × 225 + 25 × 275
=
= 156, 25
n
200
Outro indicador importante da estatística descritiva. Neste caso iremos
distinguir entre dois tipos de variância: a variância calculada a partir de uma
amostra e a variância calculada a partir de uma população. As expressões
matemáticas que representam estas duas variâncias são respectivamente:
– Typeset by FoilTEX –
P
(xi − x̄)2
2
s =
n−1
(3)
P
(xi − µ)2
2
σ =
N
(4)
6
Os valores dos desvio-padrões são iguais a raiz quadrada dos valores das
respectivas variâncias. Por exemplo, se tivermos uma sequencia de valores para
uma variável correspondente a uma amostra, digamos:
3, 10, 15, 17, 15, 5, 10, 12
xi
3
10
15
17
15
5
10
12
soma
(xi − x)2
(3 − 10.875)2 = 62.015625
(10 − 10.875)2 = .765625
(15 − 10.875)2 = 17.015625
(17 − 10.875)2 = 37.515625
(15 − 10.875)2 = 17.015625
(5 − 10.875)2 = 34.515625
(10 − 10.875)2 = .765625
(12 − 10.875)2 = 1.265625
170.875
– Typeset by FoilTEX –
7
Como estamos supondo que os dados da primeira coluna da tabela acima
referem-se a uma amostra, então utilizaremos a expressão (3):
2
s =
P
(Xi −X̄)2
n−1
=
170.875
8−1
= 24.4107
√
s = 24.4107 = 4.94072
Fazemos uma demostração deste cálculo através do Stata. Em um primeiro
passo, utilizamos o comando summarize para calcular a média da variável. Observe
que através deste comando já obtemos o valor do desvio padrão amostral que é
4,94072. Depois pedimos através do comando generate para calcular uma variável
igual aos valores dos desvios da primeira variável em relação a média elevados ao
quadrado. Em terceiro lugar, através do comando tabstat, calculamos a soma
destes desvios e o resultado é 170.875 (que é a soma dos quadrados dos desvios).
Finalmente, através do comando display pedimos para o Stata mostrar o resultado
da raiz quadrada da divisão desta soma de desvios ao quadrado pelo valor de n-1.
– Typeset by FoilTEX –
8
. summ var1
variable
var1
obs
8
mean
10.875
Std.dev.
4.94072
min
3
max
17
. gen var2 = (var1 - r(mean))^2
. tabstat var2, s(sum)
variable
var2
sum
170.875
. disp sqrt(170.875/(8-1))
4.94072
O cálculo da variância quando temos os dados apresentados na forma agrupada
em classes de frequencias segue um procedimento semelhante ao adotado para
– Typeset by FoilTEX –
9
a média quando os dados estão neste formato. Vamos usar o mesmo exemplo
anterior para o cálculo da média:
intervalo
frequência (fi)
ponto médio da classe (pmi)
fi(pmi − x̄)2
1-50
50-100
100-150
150-200
200-250
250-300
20
30
40
50
35
25
25
75
125
175
225
275
20.(25-34,72)2
30.(75-34,72)2
40.(125-34,72)2
50.(175-34,72)2
35.(225-34,72)2
25.(275-34,72)2
soma =4071096
2
s =
P
(xi −x̄)2
n−1
=
4071096
199
= 20457.768
Existem também métodos que podem ser empregados para calcular valores
da mediana, quartis, decis e percentis. A mediana é uma medida de posição
– Typeset by FoilTEX –
10
que indica o valor da variável correpondente a um valor de frequencia relativa
acumulada igual a 0.50 (ou 50%). Em outras palavras, a mediana é o valor da
variável que supera 50% dos valores desta variável quando são ordenados do manor
para o maior (ordem crescente). Vejamos um exemplo - a seguinte sequencia de
números já ordenada:
3,4,4,4,7,10,17,17,23,2425,31,33
Como temos um número ímpar (13) de observações, o valor da mediana é
igual ao valor do elemento central na sequencia, ou seja, o sétimo elemento. Por
tanto a mediana é igual a 17.
Se a sequencia incluir mais um elemento:
3,4,4,4,7,10,17,17,23,24,25,31,33,50
A mediana é igual a semi-soma dos dois elementos centrais da sequencia.
– Typeset by FoilTEX –
11
Neste caso a mediana é também igual a 17. Pode-se perceber que a mediana
tem uma caracteristica curiosa que a média não possui: o valor da mediana não é
afetado pelos valores extremos de uma distribuição. Por exemplo, se trocarmos,
na sequência anterior, o valor 50 por 1000, a mediana continuará a ser 17. No
entanto, o valor da média ficará bastante alterado.
O cálculo da mediana para dados agrupados segue uma idéia distinta do
cálculo da média para dados agrupados. Suponhamos o mesmo exemplo do
quadro anterior:
– Typeset by FoilTEX –
12
intervalo
frequencia (fi)
frequencia acumulada (Fi)
frequencia relativa acumulada
1-50
50-100
100-150
150-200
200-250
250-300
20
30
40
45
40
25
20
50
90
135
175
200
0,100
0,250
0,450
0,675
0.875
1.000
Vamos introduzir uma expressão para a determinação aproximada da mediana
para os dados acima:
X.5 = Linf +
(n/2 − Fa)
×a
fi,.5
(5)
onde:
– Typeset by FoilTEX –
13
X.5 é o valor da mediana, Linf é o limite inferior da classe de frequência
que contem a mediana, Fa é a frequência acumulada da classe que contém a
mediana, n é o tamanho da amostra, f i,.5 é a frequencia absoluta da classe que
contem a mediana e a é a amplitude do intervalo de frequência que contém a
mediana. No caso do exemplo anterior:
X.5 = 150 + 100−90
× 50 = 161.111
45
Os valores dos quartis, decis e percentis podem ser determinados através de
um cálculo semelhente utilizando a mesma idéia.
Vamos agora desenvolver algumas expressões referentes ao cálculo da variância
e do desvio padrão. A expressão para o cálculo da variância de uma população
pode ser manipulada da seguinte forma:
σ2 =
P
(Xi −µ)2
N
– Typeset by FoilTEX –
=
P
(Xi2 −2Xi µ+µ2
N
=
P
P
P
Xi2 − 2Xi µ+ X̄ 2
N
=
14
P
P ¯
Xi2 −2µ
Xi +N µ2
N
=
P
Xi2 −2µ×N µ+N µ2
N
σ2 =
=
Xi2
− µ2
N
P
Xi2 −N µ2
N
=
Xi2
N
P
− µ2
P
(6)
Na sequencia de dados de um exemplo anterior - 3, 10, 15, 17, 15, 5, 10, 12,
podemos calcular a variância de duas formas, de acordo com a tabela abaixo:
– Typeset by FoilTEX –
15
Xi
3
10
15
17
15
5
10
12
soma
X2i
9
100
225
289
225
25
100
144
1117
(Xi − µ)
-7,785
-0,875
4,125
6,125
4,125
-5,875
-0,875
1,125
0
(Xi − µ)2
62.015625
0.765625
17.015625
37.515625
17.015625
34.515625
0.765625
1.265625
170.875
A média µé igual a 10,875. A primeira forma de calcular a variância é:
2
σ =
P
(Xi −µ)2
N
=
170,875
8
= 21.359375
A segunda forma é:
– Typeset by FoilTEX –
16
2
σ =
Xi2
N
P
− µ2 =
1117
8
− 10, 8752 = 21.359375
As mesmas relações podem ser deduzidas para a variância amostral e para as
expressões referentes ao cálculo da variância para dados agrupados.Neste último
caso, a variância pode ser calculada de duas formas distintas. Vejamos um
exemplo anterior:
intervalo
frequência(fi)
ponto médio (mi)
fi × mi
fi × m2i
fi × (mi − µ)2
1-50
50-100
100-150
150-200
200-250
250-300
soma
20
30
40
50
35
25
200
25
75
125
175
225
275
500
2250
5000
8750
7875
6875
31250
12500
168750
625000
1531250
1771875
1690625
6000000
344531.25
198046.875
39062.5
17578.125
165429.6875
352539.0625
1117187.5
Cálculo da média:
– Typeset by FoilTEX –
17
µ=
P
Xi
N
=
P
fi ×mi
N
=
31250
200
= 156.25
Primeira forma de calcular a variância:
2
σ =
P
fi ×(mi −µ)2
N
=
1117187.5
200
= 5585.9375
Segunda forma de calcular a variância:
2
σ =
P
fi ×m2i
2
-µ
N
2
= 6000000
−
156.25
= 5585.9375
200
EXERCÍCIOS
Exercicio 1)Em um ensaio para o estudo da distribuição de um atributo
financeiro (X) foram examinados 200 itens de natureza contábil do balanço de
uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna
Classes representa intervalos de valores de X em reais e a coluna P representa
a freqüência relativa acumulada. Não existem observações coincidentes com os
extremos das classes.
– Typeset by FoilTEX –
18
classes
70-90
90-110
110-130
130-150
150-170
170-190
190-210
P(%)
5
45
40
70
85
95
100
Assinale a opção que corresponde à estimativa da freqüência relativa de
observações de X menores ou iguais a 145.
a) 62,5% b) 70,0% c) 50,0% d) 45,0% e) 53,4%
Exercicio 2)Para a solução da próxima questão utilize o enunciado que se
segue. O atributo do tipo contínuo X, observado como um inteiro, numa amostra
– Typeset by FoilTEX –
19
de tamanho 100, obtida de uma população de 1000 indivíduos, produziu a tabela
de freqüências seguinte:
classes
29,5-39,5
39,5-49,5
49,5-59,5
59,5-69,5
69,5-79,5
79,5-89,5
89,5-99,5
frequencia (f)
4
8
14
20
26
18
10
Assinale a opção que corresponde à estimativa do número de indivíduos na
população com valores do atributo X menores ou iguais a 95,5 e maiores do que
50,5.
– Typeset by FoilTEX –
20
a) 700 b) 638 c) 826 d) 995 e) 900
Exercício 3) A média e a variância do conjunto dos salários pagos por uma
empresa eram de $285.000 e 1,1627x1010, respectivamente. O valor da variância
do conjunto dos salários após o corte de três zeros na moeda é:
a) 1,1627x107 b) 1,1627x106 c) 1,1627x105 d) 1,1627x104
Exercício 4) Em certa empresa, o salário médio era de $90.000,00 e o desvio
padrão dos salários era de $10.000,00. Todos os salários receberam um aumento
de 10%. O desvio padrão dos salários passou a ser de:
a) 10.000, b) 10.100, c) 10.500, d)10.900, e) 11.000
Exercício 5) Os dados seguintes, ordenados do menor para o maior, foram
obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada numa bolsa
de valores internacional. A unidade monetária é o dólar americano. 4, 5, 5, 6, 6,
– Typeset by FoilTEX –
21
6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10,
10, 10, 10, 10, 11, 11, 12, 12, 13, 13,14, 15, 15, 15, 16, 16, 18, 23 Os valores
seguintes foram calculados para a amostra:
P
Xi = 490 e
P
Xi2 − (
P
Xi)2/50 = 668
Assinale a opção que corresponde à mediana e à variância amostral, respectivamente (com aproximação de uma casa decimal).
a) (9,0 13,6) b) (9,5 14,0) c) (8,0 15,0) d) (8,0 13,6) e) (9,0 14,0)
Exercício 6) Numa amostra de tamanho 20 de uma população de contas a
receber, representadas genericamente por X, foram determinadas a média amostral
M = 100 e o desvio-padrão S =13 da variável transformada (X-200)/5. Assinale
a opção que dá o coeficiente de variação amostral de X.
– Typeset by FoilTEX –
22
a) 3,0 % b) 9,3% c) 17,0% d)17,3% e) 10,0%
Exercício 7) Um atributo W tem media amostral a6=0 e desvio padrao positivo
b6=1. Considere a transformacao Z=(W-a)/b. Assinale a opcao correta.
a) A media amostral de Z coincide com a de W. b) O coeficiente de variacao
amostral de Z e unitario. c) O coeficiente de variacao amostral de Z nao esta
definido. d) A media de Z e a/b. e) O coeficiente de variacao amostral de W e o
de Z coincidem.
Exercício 8) Os dados seguintes, ordenados do menor para o maior, foram
obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada numa bolsa
de valores internacional. A unidade monetária é o dólar americano.4, 5, 5, 6, 6, 6,
6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10,
10, 10, 11, 11, 12, 12, 13, 13,14, 15, 15, 15, 16, 16, 18, 23 Pode-se afirmar que:
a) a distribuição amostral dos preços tem assimetria negativa. b) a distribuição
– Typeset by FoilTEX –
23
amostral dos preços tem assimetria positiva. c) a distribuição amostral dos preços
é simétrica. d) a distribuição amostral dos preços indica a existência de duas
sub-populações com assimetria negativa. e) nada se pode afirmar quanto à
simetria da distribuição amostral dos preços.
Exercício 9) Assinale a opção correta.
a) Para qualquer distribuição amostral, se a soma dos desvios das observações relativamente à média for negativa, a distribuição amostral terá assimetria
negativa.
b) O coeficiente de variação é uma medida que depende da unidade em que
as observações amostrais são medidas.
c) O coeficiente de variação do atributo obtido pela subtração da média de
cada observação e posterior divisão pelo desvio padrão não está definido.
– Typeset by FoilTEX –
24
d) Para qualquer distribuição amostral pode-se afirmar com certeza que 95%
das observações amostrais estarão compreendidas entre a média menos dois
desvios padrões e a média mais dois desvios padrões.
e) As distribuições amostrais mesocúrticas em geral apresentam cauda pesada
e curtose excessiva.
Exercício 10) Os montantes de venda a um grupo de clientes de um supermercado forneceram os seguintes sumários: média aritmética=$1,20 , mediana=$0,53
e moda=$0,25. Com base nestas informações, assinale a opção correta:
a) A distribuição é assimétrica à direita.
b) A distribuição é assimétrica à esquerda.
c) A distribuição é simétrica.
– Typeset by FoilTEX –
25
d) Entre os três indicadores de posição apresentados, a média aritmética é a
melhor medida de tendência central.
e) O segundo quartil dos dados acima é dado por $0,25.
TEOREMA DE CHEBYSHEV (OU DESIGUALDADE DE CHEBYSHEV)
Enunciando de forma livre (e nem um pouco rigorosa) o enunciado poderia
ser:
“Para qualquer distribuição estatística de uma variável X(tendo esta variável
qualquer forma de distribuição, simétrica ou assimétrica) , pode-se afirmar que:
P (|X − µ| ≥ kσ) ≤
1
k2
ou P (|X − µ| ≤ kσ) ≤ 1 − k12
Vamos exemplificar com o seguinte exercício resolvido:
– Typeset by FoilTEX –
26
Exercício 10) As realizações anuais Xi dos salários anuais de uma firma com
N empregados produziram as estatísticas:
X
P
2 0.5
1
1
Xi = R$14300, 00 e σ = [ N (Xi − X̄) ] = R1200, 00
µ=N
Seja P a proporção de empregados com salários fora do intervalo {R$12.500,00
; R$16.100,00}. Assinale a opção correta:
a) P é no máximo ½
b) P é no máximo 1/1,5
c) P é no mínimo ½
d) P é no máximo 1/2,25
e) P é no máximo 1/20
– Typeset by FoilTEX –
27
Solução: Vemos que o limite inferior 12500 = 14300 - k*1200 e k =
(14300-12500)/1200=1,5
Pela desigualdade de Chebyshev acima podemos afirmar que:
P (|X − 14300| ≥ 1, 5 ∗ 1200) ≤
1
1,52
Exercício 11) Tem-se um conjunto de N mensuracoes X1, ... , XN
com media
P
aritmetica µ e variancia σ 2, onde µ = (X1 + ... + XN )/ N e σ 2 = N1 (Xi −µ)2.
Seja θ a proporcao dessas mensuracoes que diferem de µ, em valor absoluto, por
pelo menos 2σ. Assinale a opção correta.
a) Apenas com o conhecimento de µ e σ nao podemos determinarθ exatamente, mas sabe-se que 0,25 ≥θ.
b) O conhecimento de µe σe suficiente para determinar θexatamente, na
realidade tem-se θ= 5% para qualquer conjunto de dados X1, ... , XN .
– Typeset by FoilTEX –
28
c) O conhecimento de µe σe suficiente para determinar θ exatamente, na
realidade tem-se θ = 95% para qualquer conjunto de dados X1, ... , XN .
d) O conhecimento de µ e σ e suficiente para determinar θ exatamente, na
realidade tem-se θ = 30% para qualquer conjunto de dados X1, ... , XN .
e) O conhecimento de µ e S e suficiente para determinar θexatamente, na
realidade tem-se θ= 15% para qualquer conjunto de dados X1, ... , XN .
Exercício 12) Numa amostra de tamanho 20 de uma população de contas a
receber, representadas genericamente por X, foram determinadas a média amostral
M = 100 e o desvio-padrão S =13 da variável transformada (X-200)/5. Assinale
a opção que dá o coeficiente de variação amostral de X.
a) 3,0 %
b) 9,3%
– Typeset by FoilTEX –
29
c) 17,0%
d)17,3%
e) 10,0%
Exercício 13) Em um ensaio para o estudo da distribuição de um atributo
financeiro (X) foram examinados 200 itens de natureza contábil do balanço de
uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna
Classes representa intervalos de valores de X em reais e a coluna P representa
a freqüência relativa acumulada. Não existem observações coincidentes com os
extremos das classes. A próxima questão refere-se a esses ensaios.
– Typeset by FoilTEX –
30
classes
70-90
90-110
110-130
130-150
150-170
170-190
190-210
P(%)
5
15
40
70
85
95
100
a transformação Z=(X-140)/10. Para o atributo Z encontrou-se
P Considere
Zi2fi = 1680 , onde fi é a freqüência simples da classe i e Zi o ponto médio
de classe transformado. Assinale a opção que dá a variância amostral do atributo
X.
a) 720,00
– Typeset by FoilTEX –
31
b) 840,20
c) 900,10
d) 1200,15
e) 560,30
Exercício 14) Um atributo W tem média amostral a6=0 e desvio padrão positivo
b6=1. Considere a transformação Z=(W-a)/b. Assinale a opção correta.
a) A média amostral de Z coincide com a de W.
b) O coeficiente de variação amostral de Z é unitário.
c) O coeficiente de variação amostral de Z não está definido.
d) A média de Z é a/b.
– Typeset by FoilTEX –
32
e) O coeficiente de variação amostral de W e o de Z coincidem.
Exercício 15) O atributo Z=(X-2)/3 tem média amostral 20 e variância
amostral 2,56. Assinale a opção que corresponde ao coeficiente de variação
amostral de X.
a) 12,9%
b) 50,1%
c) 7,7%
d) 31,2%
e) 10,0%
Exercício 16) A média e variância de uma primeira série de 15 observações
são respectivamente: x̄1 = 30 s21 = 25, e a média e variância de uma segunda
– Typeset by FoilTEX –
33
série de 20 observações são: x̄2 = 40 s22 = 36. Qual a média e a variância do
conjunto das 35 observações?
Exercício 17) Numa série de n = 25 medições obteve-se x̄ = 56 m e s = 2
m. Depois de obtidos estes resultados descobriu-se que tinha sido cometido um
engano numa das medições, que foi registada com o valor 64m. Determine a
média e o desvio padrão, admitindo que a medição incorrecta é omitida.
Exercício 18) A média e o desvio-padrão obtidos num lote de produção de 100
peças mecânicas são respectivamente, 16 Kg e 40g. Uma peça particular do lote
pesa 18Kg. Assinale a opção que dá o valor padronizado do peso dessa peça.
a) –50
b) 0,05
c) 50
– Typeset by FoilTEX –
34
d) –0,05
e) 0,02
– Typeset by FoilTEX –
35
Download