N - sisne.org

Propaganda
Estatística II – Antonio Roque – Aula 3
Distribuição Amostral da Média: Exemplos
Talvez a aplicação mais simples da distribuição amostral da média seja o
cálculo da probabilidade de uma amostra ter média dentro de certa faixa de
valores. Vamos ver alguns exemplos.
1. Suponha que se saiba que para uma grande população de pessoas o
comprimento craniano seja distribuído de uma forma aproximadamente
normal com média igual a 185,6 mm e desvio padrão igual a 12,7 mm.
Qual a probabilidade de que uma amostra aleatória de 10 pessoas da
população tenha comprimento craniano médio acima de 190 mm?
A amostra de 10 pessoas é uma das várias possíveis amostras de tamanho
10 da população, e sua média x é um dos valores que constituem a
distribuição amostral de médias. Sabemos que, como a variável x
(comprimento craniano) da população obedece a uma distribuição
aproximadamente normal, sua distribuição amostral de médias também terá
uma distribuição normal. E também sabemos, pelo T.C.L., que a média da
distribuição amostral de médias é igual a µ x = µ = 185,6 mm e que seu
desvio padrão é igual a σ x = σ
n = 12,7 mm
10 = 4,02 mm . (Estamos
assumindo que a população é muito maior que a amostra, de maneira que
n/N << 0,05). Logo, a distribuição amostral de x é algo como a mostrada
na figura a seguir:
1
Estatística II – Antonio Roque – Aula 3
Como a distribuição de
x
é normal, podemos calcular a probabilidade de
termos um valor acima de 190 mm transformando-a em uma distribuição
normal padrão.
A probabilidade de que uma amostra de 10 pessoas tenha média do
comprimento craniano maior que 190 mm é dada pela área hachureada
abaixo do gráfico da distribuição normal padrão, como mostrado na figura
abaixo.
2
Estatística II – Antonio Roque – Aula 3
Para este caso, a fórmula que transforma a distribuição normal das médias
na distribuição normal padrão é:
Z=
x − µx
x−µ
=
,
σx
σ n
de maneira que x =190 é levado em:
Z∗ =
190 − 185,6 4,4
=
= 1,09 .
4,02
4,02
Consultando a tabela da distribuição normal padrão, dada a seguir, vemos
que a área à direita de 1,09 vale 0,5 – 0,36214 = 0,1379. Portanto, a
probabilidade de que uma amostra de 10 pessoas tenha comprimento
craniano médio maior que 190 mm é igual a 0,1379 (ou 13,79% de chances
de se obter uma amostra de 10 pessoas da população cujo valor médio do
comprimento craniano seja maior que 190 mm).
3
Estatística II – Antonio Roque – Aula 3
Distribuição normal reduzida: N (µ = 0 : σ = 1)
Probabilidades p tais que p = P (0 < Z < Z c )
Parte
inteira
e
Parte
SEGUNDA DECIMAL DE Z c
interira e
1ª decimal
1ª decimal
de Z c
0
1
2
3
4
5
6
7
8
9
de Z c
0,0
00000
00399
00798
01197
01595
01994
02392
02790
03188
03580
0,0
0,1
03983
04380
04776
05172
05567
05962
06356
06749
07142
07536
0,1
0,2
07926
08317
08706
09095
09483
09871
10257
10642
11026
11409
0,2
0,3
11791
12172
12552
12930
13307
13683
14058
14431
14803
15173
0,3
0,4
15542
15910
16276
16640
17003
17364
17724
18082
18439
18793
0,4
0,5
19146
19497
19847
20194
20540
20884
21226
21566
21904
22240
0,5
0,6
22575
22907
23237
23565
23891
24215
24537
24857
25175
25490
0,6
0,7
25804
26115
26424
26730
27036
27337
27637
27935
28230
28524
0,7
0,8
28814
29103
29389
29673
29955
30234
30511
30785
31057
31327
0,8
0,9
31594
31859
32121
32381
32639
32804
33147
33398
33646
33891
0,9
1,0
34134
34375
34614
34850
35083
35314
35543
35769
35993
36214
1,0
1,1
36433
36650
36864
37076
37286
37493
37698
37900
38100
38298
1,1
1,2
38493
38686
38877
39065
39251
39436
39617
39796
39973
40147
1,2
1,3
40320
40490
40658
40824
40988
41149
41309
41466
41621
41774
1,3
1,4
41924
42073
42220
42364
42507
42647
42786
42922
43056
43189
1,4
1,5
43319
43448
43574
43699
43822
43943
44062
44179
44295
44408
1,5
1,6
44520
44630
44738
44845
44950
45053
45154
45254
45352
45449
1,6
1,7
45543
45637
45728
45818
45907
45994
46080
46164
46246
46327
1,7
1,8
46407
46485
46562
46638
46712
46784
46856
46926
46995
47062
1,8
1,9
47128
47193
47257
47320
47381
47441
47500
47558
47615
47670
1,9
2,0
47725
47778
47831
47882
47937
47982
48030
48077
48124
48169
2,0
2,1
48214
48257
48300
48341
48382
48422
48461
48500
48537
48574
2,1
2,2
48610
48645
48679
48713
48745
48778
48809
48840
48870
48899
2,2
2,3
48928
48956
48983
49010
49036
49061
49086
49111
49134
49158
2,3
2,4
49180
49202
49224
49245
49266
49286
49305
49324
49343
49361
2,4
2,5
49379
49396
49413
49430
49446
49461
49477
49492
49506
49520
2,5
2,6
49534
49547
49560
49573
49585
49598
49600
49621
49632
49643
2,6
2,7
49653
49664
49674
49683
49693
49702
49711
49720
49728
49736
2,7
2,8
49744
49752
49760
49767
49774
49781
49788
49795
49801
49807
2,8
2,9
49813
49819
49825
49831
49836
49841
49846
49851
49856
49861
2,9
3,0
49865
49869
49874
49878
49887
49886
49889
49893
49897
49900
3,0
3,1
49903
49906
49910
49913
49916
49918
49921
49924
49926
49929
3,1
3,2
49931
49934
49936
49938
49940
49942
49944
49946
49948
49950
3,2
3,3
49952
49953
49955
49957
49958
49960
49961
49962
49964
49965
3,3
3,4
49966
49968
49969
49970
49971
49972
49973
49974
49975
49976
3,4
3,5
49977
49978
49978
49979
49980
49981
49981
49982
49983
49983
3,5
3,6
49984
49985
49985
49986
49986
49987
49987
49988
49988
49989
3,6
4
Estatística II – Antonio Roque – Aula 3
3,7
49989
49990
49990
49990
49991
49991
49992
49992
49992
49992
3,7
3,8
49993
49993
49993
49994
49994
49994
49994
49995
49995
49995
3,8
3,9
49995
49995
49996
49996
49996
49996
49996
49996
49997
49997
3,9
4,0
49997
49997
49997
49997
49997
49997
49998
49998
49998
49998
4,0
4,5
49999
50000
50000
50000
50000
50000
50000
50000
50000
50000
4,5
Parte
inteira
e
Parte
SEGUNDA E TERCEIRA DECIMAIS DE Z c
interira e
1ª decimal
1ª decimal
de Z c
05
15
25
35
45
55
65
75
85
95
de Z c
0,0
00199
00598
09997
01396
01735
02193
02591
02989
03387
03784
0,0
0,1
04181
04578
04974
05369
05764
06159
06553
06946
07339
07730
0,1
0,2
08121
08512
08901
09290
09677
10064
10450
10834
11218
11600
0,2
0,3
11982
12362
12741
13119
13495
13871
14244
14617
14988
15358
0,3
0,4
15726
16093
16458
16822
17184
17545
17903
18261
18500
18970
0,4
0,5
19322
19677
20021
20368
20712
21055
21396
21735
22073
22408
0,5
0,6
22741
23072
23401
23729
24054
24377
24697
25016
25333
25647
0,6
0,7
25959
26270
26577
26886
27186
27488
27786
28083
28377
28669
0,7
0,8
28959
29246
29531
29814
30094
30371
30648
30921
31192
31461
0,8
0,9
31727
31990
32252
32511
32767
33021
33273
33522
33769
34013
0,9
2. Um levantamento feito em vários supermercados do país revelou que o
valor médio do preço do vidro de 500 ml de azeite importado é R$ 24,5
com um desvio padrão de R$ 5,45. Seleciona-se uma amostra aleatória de
50 vidros de azeite importado de 500 ml retirados de diferentes
supermercados. Qual a probabilidade de que o preço médio dessa amostra
esteja entre R$ 18,00 e R$ 25,00?
Não foi dito qual a forma funcional da distribuição dos preços do vidro de
500 ml de azeite importado, mas como a amostra selecionada é grande (n =
50 > 30), podemos usar o T.C.L. e supor que a distribuição amostral de x
será aproximadamente normal com média µ x = 24,5 e desvio padrão
σ x = 5,45 / 50 = 0,77 . Portanto:
5
Estatística II – Antonio Roque – Aula 3
25 − 24,5 
 18 − 24,5
P (18 ≤ x ≤ 25) = P 
≤Z ≤
 = P (− 8,44 ≤ Z ≤ 0,65) =
0
,
77
0
,
77


= 0,5 + 0,24215 = 0,74215
(74,2%)
E qual a probabilidade de que uma amostra de 50 vidros de 500 ml de
azeite importado escolhidos aleatoriamente de supermercados tenha preço
médio abaixo de R$ 26,00?
26 − 24,5 

P(x < 25) = P Z <
 = P (Z < 1,95) = 0,5 + 0,47441 = 0,97441
0,77 

(97,4%).
Note que, para todos os efeitos, para z > 4,5 a área da curva normal padrão
entre 0 e z é igual a 0,5000.
6
Estatística II – Antonio Roque – Aula 3
Distribuição da diferença entre duas médias amostrais
Há muitas situações importantes em que se está interessado em estudar
duas populações ao invés de uma. Uma coisa que, em geral, se quer saber
quando se estuda duas populações é como as médias da duas populações se
comparam: são elas iguais ou diferentes? Se são diferentes, qual o tamanho
da diferença entre elas?
Um exemplo seria comparar os valores médios da taxa de colesterol de
duas populações, uma de trabalhadores de escritório sedentários e outra de
trabalhadores agrícolas, para ver se há alguma diferença entre eles.
Em situações deste tipo, o resultado teórico usado (dado aqui sem prova) –
análogo ao T.C.L. – para uma população, é:
Sejam duas populações de variáveis cujas distribuições são normais com
2
2
médias µ 1 e µ 2 e variâncias σ 1 e σ 2 , respectivamente. A distribuição
amostral da diferença entre as médias de duas amostras independentes de
tamanhos n1 e n2 das populações, x1 − x 2 , é normal com média µ x1 − x 2 =
µ 1 − µ 2 e variância σ x2 − x = (σ 12 n1 ) + (σ 22 n2 ).
1
2
Quando as variáveis das duas populações não forem normalmente
distribuídas ou tiverem distribuições desconhecidas, o resultado acima
continua válido para amostras n1 e n2 de tamanho grande (acima de 30).
7
Estatística II – Antonio Roque – Aula 3
Antes de ilustrar aplicações deste resultado com exemplos, vamos mostrar
como se constrói uma distribuição amostral da diferença entre as médias de
duas populações.
Suponhamos que a população 1 tenha N1 elementos e que sejam tomadas
amostras de tamanho
n1
dela e que a população 2 tenha N 2 elementos e
que sejam tomadas amostras de tamanho
n 2 dela. Suponhamos que as
amostras sejam tomadas sem reposição, ou seja, os indivíduos retirados da
população não são recolocados nela. Quando se tiram amostras de tamanho
n de uma população de tamanho N sem reposição e ignorando-se a ordem
N
da retirada, o número possível de amostras é dado por Cn =
N!
.
n!( N − n )!
Então, para a população 1 podemos ter CnN possíveis amostras de tamanho
1
1
n1 diferentes e para a população 2 podemos ter C nN possíveis amostras de
2
2
tamanho n 2 diferentes. Cada uma dessas amostras tem um valor médio,
x11 , x12 ,..., x1C N1 para a população 1 e x21 , x22 ,..., x 2C N 2 para a população 2.
n
1
n2
Os valores das médias para as amostras possíveis estão indicados na tabela
abaixo.
8
Estatística II – Antonio Roque – Aula 3
Amostras da
Amostras da
Médias das
Médias das
população 1
população 2
amostras da
amostras da
C nN 1
1
C nN 2
população 1
população 2
n11
n21
x11
x21
n12
n22
x12
x22
n13
n23
x13
x23
...
...
...
...
n
2
n
N
1
1C n 1
x
N2
2
x2 C N 2
N
1
1 Cn 1
2C n
n2
Nota: n11 lê-se amostra nº 1 da população 1, n12 = amostra nº 2 da
população 1, n23 = amostra nº 3 da população 2, n2 C
N2
n2
= amostra nº
CnN2 2
da
população 2, etc...
Os valores das diferenças entre as médias das amostras das duas populações
são:
x11 − x21
x11 − x22
...
x11 − x 2C N 2
x12 − x21
x12 − x 22
...
x12 − x 2C N 2
...
...
...
...
x1C N1 − x 21
x1C N1 − x 22
...
x1C N1 − x 2C N 2
n1
n1
n2
n2
n1
n2
9
Estatística II – Antonio Roque – Aula 3
Exemplo Ilustrativo
1. Suponhamos que temos duas populações de indivíduos, a população 1 e a
população 2. A população 1 é composta por clientes de uma agência de um
banco na região central de uma cidade e a população 2 é composta por
clientes de uma agência do mesmo banco em um bairro periférico da
cidade. Um executivo do banco está desconfiado de que as duas populações
de clientes possuem gastos mensais médios com cartão de crédito
diferentes, sendo que os clientes da agência central gastam mais que os
clientes da agência periférica. O executivo não conhece as distribuições de
gastos mensais com cartão de crédito dos clientes das duas agências, mas
ele tem boas razões para assumir que elas são aproximadamente normais
com desvios padrões idênticos e iguais a R$ 450,00.
O executivo toma duas amostras aleatórias de 15 clientes, uma de cada
população, e calcula as médias mensais de gastos com cartão de crédito
para as duas amostras, obtendo: x1 = 1050 reais e x2 = 920 reais. A
diferença entre as médias de gastos mensais com cartão de crédito das duas
amostras é de x1 − x2 = 1050 − 920 = 130 reais.
Se não houver diferença entre as duas populações quanto aos seus gastos
mensais médios com cartão de crédito, qual seria a probabilidade de que a
diferença ( x1 − x 2 ) entre as médias de duas amostras aleatórias de 15
clientes retirados das duas populações seja maior que R$ 130,00? Ou seja,
P[( x1 − x 2 ) ≥ 130] ?
10
Estatística II – Antonio Roque – Aula 3
Como as distribuições dos gastos mensais com cartão de crédito das duas
populações são aproximadamente normais, a distribuição das diferenças
entre as médias de suas amostras também será normal. Supondo que não há
diferença entre as duas populações, a média da distribuição amostral da
diferença entre as médias será igual a µ x − x = µ1 − µ 2 = 0 e a variância será
1
σ 12 σ 22 (450)
(450) = 27000.
=
+
=
+
n1 n 2
15
15
2
igual a σ
2
x1 − x2
2
2
Para uma distribuição normal com estes parâmetros (µ = 0 e σ2 = 27000), a
probabilidade de que um valor seja maior ou igual a 130 é obtida
calculando-se:
P[( x1 − x2 ) ≥ 130] = P (Z ≥ Z130 ) , onde
Z130 =
130 − 0
130
=
= 0,79 .
27000 164,32
Consultando a tabela, vemos que P (Z ≥ 0,79 ) = 0,2148 .
Portanto, a resposta à pergunta é que se não houver diferença entre as
médias das duas populações, a probabilidade de obtermos, ao acaso, uma
diferença entre médias amostrais maior ou igual a R$ 130,00 vale 0,2148
(≈21,5%). Esta probabilidade não é tão baixa para sugerir que a hipótese
inicial sobre a igualdade das duas populações esteja errada. Desta forma, o
executivo não pode concluir, com base nos dados de suas amostras, que
existe de fato uma diferença quanto aos gastos mensais com cartão de
crédito entre as duas populações de clientes.
11
Estatística II – Antonio Roque – Aula 3
2. Suponha que se saiba que para bebês de até um mês de vida o ganho de
peso médio quando alimentados com uma dieta suplementar é de 311,9 g
com desvio padrão de 142,8 g e o ganho de peso sem a dieta suplementar é
de 212,4 g com desvio padrão de 160,3 g. Selecionam-se aleatoriamente 35
bebês alimentados com dieta suplementar e 40 bebês alimentados sem dieta
suplementar. Qual a probabilidade de que a diferença entre as médias de
ganho de peso para as duas amostras seja maior que 100 g?.
Nada se sabe sobre as formas das distribuições de ganho de peso para as
duas populações, mas como as duas amostras tomadas têm mais de 30
membros, podemos supor que a distribuição amostral da diferença entre as
médias
das
amostras
é
aproximadamente
µ x1 − x2 = µ 1 − µ 2 = 311,9 − 212,4 = 99,5 g
σ x1 − x2
σ 12 σ 22
=
+
=
n1 n 2
(142,8)2 + (160,3)2
35
40
e
normal
com
desvio
média
padrão
= 582,6 + 642,4 = 35,0 g.
Logo, P[( x1 − x2 ) ≥ 100] = P(Z ≥ Z100 ) , onde: Z100 =
100 − 99,5
= 0,01 .
35,0
Segundo a tabela: P(Z ≥ 0,01) = 0,5 − 0,0040 = 0,496 (49,6%). Há 49,6% de
probabilidade de que a diferença as médias de duas amostras aleatórias seja
maior que 100g.
12
Download