População e Amostra

Propaganda
Estatística II – Antonio Roque – Aula 1
População e Amostra
De importância fundamental para toda a análise estatística é a relação entre
amostra e população. Praticamente todas as técnicas a serem discutidas neste
curso consistem de métodos para a obtenção de informação sobre uma
população a partir de informações contidas em uma amostra retirada da
população.
População:
O conjunto de
todas as coisas que se
pretende
estudar.
Representada por tudo o
que está no interior do
desenho.
Amostra: Parte representativa da
população; aquela que
realmente é estudada.
Representada pelas áreas
pintadas no desenho.
Exemplos:
•
Pesquisa de opinião pública: a população é o número total de habitantes de
um país; a amostra é uma parte dessa população.
•
Pesquisa de um novo tratamento para uma certa doença: a população é o
conjunto total de pessoas com a doença ou que venham a ter a doença, um
número que não é conhecido; a amostra é o conjunto de doentes escolhido
para testar o tratamento.
1
Estatística II – Antonio Roque – Aula 1
Porque estudar uma amostra ao invés de toda a população?
• O tamanho de uma população faz com que, em geral, seja impossível ou
impraticável estudá-la na sua totalidade.
• O custo para a realização de observações envolvendo todos os elementos de
uma população pode ser proibitivo.
• Pode ser que nem todos os membros individuais de uma população sejam
observáveis, por limitações técnicas por exemplo.
• A observação pode ser destrutiva.
Uma amostra não tem interesse por si só, mas pelo que ela revela sobre a
população. Por exemplo, um médico seleciona 50 pacientes para estudar a
eficácia de um novo método de tratamento de úlcera gástrica. Do ponto de
vista da pesquisa, os 50 pacientes não constituem a população de interesse. O
médico quer usar os resultados obtidos com os 50 pacientes para fazer
inferências sobre todos os possíveis pacientes, e o que importa é se a amostra
de 50 pacientes pode ser considerada representativa de toda a população.
Quando se calculam medidas descritivas numéricas (por exemplo, média e
desvio padrão) para uma amostra, costuma-se denotá-las por letras do alfabeto
latino: x, y, s etc. Por outro lado, grandezas relativas a toda uma população
são designadas por letras gregas: α, β, γ etc.
2
Estatística II – Antonio Roque – Aula 1
Uma grandeza que se refira aos dados de uma amostra é chamada de
estatística. Uma grandeza que se refira aos dados de uma população é
chamada de parâmetro.
Portanto, a média
x
e o desvio padrão s de uma amostra são estatísticas, pois
seus valores variam de amostra para amostra. Já a população de onde foram
retiradas as amostras tem um único e invariável valor para a sua média, e um
único e invariável valor para o seu desvio padrão. A média µ e o desvio
padrão σ são os parâmetros que caracterizam a população.
3
Estatística II – Antonio Roque – Aula 1
Noções de Amostragem
O objetivo de se selecionar uma amostra é obter informações que sejam
representativas da população como um todo. A maneira mais simples de se
fazer isso é escolher uma amostra aleatória, de maneira que cada membro da
população tenha igual probabilidade de estar em qualquer amostra.
Por exemplo, se quisermos tirar uma amostra de 5 estudantes da população
composta por todos os estudantes da sala, podemos numerar todos os
estudantes de 1 a N e utilizar uma urna contendo N bolinhas iguais numeradas
de 1 a N, de maneira que cada bolinha represente um único estudante.
Na prática, a escolha de uma amostra não é feita com uma urna contendo
bolinhas, mas usando-se uma tabela de números aleatórios. Quando se tem um
computador, pode-se também usar um programa que contenha um gerador de
números aleatórios.
Por exemplo, a lista de números a seguir foi obtida usando-se o gerador de
números aleatórios do programa Microsoft Excel (“ALEATÓRIO()”). Cada
número foi gerado aleatoriamente de dentro do conjunto de números inteiros
no intervalo entre 0 e 9, com probabilidade uniforme igual a 1/10.
4
Estatística II – Antonio Roque – Aula 1
3
4
9
5
1
2
0
4
1
1
4
5
5
2
0
0
3
9
2
9
8
5
3
8
5
2
1
5
2
6
4
8
8
4
9
5
4
9
1
4
5
9
8
3
1
6
1
4
3
5
3
4
4
9
2
7
2
8
7
4
9
1
8
6
6
5
1
9
8
1
3
0
4
3
5
0
8
6
0
9
7
4
8
3
3
1
7
2
3
9
8
8
4
6
6
3
9
7
9
6
0
2
2
0
9
9
3
1
5
5
4
9
4
3
4
2
5
9
4
0
0
8
7
9
5
4
9
6
7
3
9
9
9
3
1
0
0
3
4
5
1
4
0
8
6
4
1
5
9
3
2
8
2
1
8
0
7
0
6
7
4
4
3
9
1
6
4
3
9
8
3
3
9
3
2
2
7
3
5
9
2
3
6
8
1
7
3
1
6
7
7
2
6
6
2
1
6
3
2
3
0
0
7
0
8
9
2
2
2
9
3
1
8
2
1
1
0
8
6
2
0
6
3
4
3
2
4
3
2
8
9
6
5
5
2
4
8
0
0
2
3
3
2
3
7
0
8
8
2
9
7
9
6
2
2
4
4
9
2
2
2
7
1
3
7
7
3
7
5
9
4
8
4
2
3
7
1
9
8
7
8
8
3
0
4
4
2
7
7
7
1
7
7
5
8
9
9
8
3
8
5
Estatística II – Antonio Roque – Aula 1
Vamos agora ilustrar como se usa uma tabela de números aleatórios para se
fazer uma amostragem aleatória sem reposição. Uma amostragem sem
reposição é aquela em que cada elemento selecionado aleatoriamente não
retorna para a população, para evitar que ele seja contado duas vezes.
Considere a tabela a seguir, dando valores de açúcar no sangue (em mg/dl) de
150 pessoas normais em jejum (valores hipotéticos). Queremos colher uma
amostra aleatória de 10 pessoas dessa população para estudos. Usando a tabela
de números aleatórios acima (ou qualquer outra que você encontrar em um
livro), feche os olhos e toque a tabela com o indicador em algum ponto dela.
O número mais próximo do dedo será o número aleatório inicial. Como temos
150 valores, devemos usar números de 3 dígitos indo de 001 a 150. Portanto,
tome o número aleatório inicial e os dois números a sua direita como o
número de partida. Se este número for maior que 150, vá para o quarto
número a partir do número inicial e veja se o número formado pelos três
dígitos a partir dele (inclusive) está entre 001 e 150.
No
1
2
3
4
5
6
7
8
9
Valor
91
94
115
85
89
107
94
105
94
No
31
32
33
34
35
36
37
38
39
Valor
107
94
101
95
80
104
94
102
89
N0
61
62
63
64
65
66
67
68
69
Valor
87
104
109
93
95
107
88
107
113
No
91
92
93
94
95
96
97
98
99
Valor
91
104
109
92
85
108
99
103
81
No
121
122
123
124
125
126
127
128
129
Valor
90
105
100
89
90
106
94
100
92
6
Estatística II – Antonio Roque – Aula 1
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
103
104
105
88
104
90
95
104
93
109
87
92
117
98
89
105
101
81
108
94
104
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
98
106
85
93
103
119
90
82
90
113
104
97
101
90
88
108
95
100
103
108
85
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
95
102
94
99
87
102
105
80
90
108
105
90
115
82
90
102
91
103
107
107
97
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
96
105
91
115
108
102
101
94
93
102
119
96
104
85
108
103
90
105
99
88
103
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
91
87
105
102
101
111
91
92
98
81
117
103
96
101
88
100
100
95
103
101
90
Continue com este processo até chegar a um número entre 001 e 150. Este
será o primeiro dos 10 dados. Continue tabela abaixo, pegando os números
que forem menores que 150. Se você chegar à base da tabela e ainda não tiver
completado os dez números, repita a operação contando os números da direita
para a esquerda e subindo a tabela. Lembre-se de não considerar um mesmo
número 2 vezes, já que supomos que a amostragem é sem reposição.
7
Estatística II – Antonio Roque – Aula 1
Por exemplo, se o seu número sorteado aleatoriamente for o número na sétima
linha e terceira coluna da tabela de números aleatórios (número 1), os seus 10
números serão: 118, 078, 015, 090, 046, 133, 054, 092, 097 e 053. Portanto,
os 10 valores de concentração de açúcar no sangue (em mg/dl) a serem usados
no estudo são: 99, 90, 90, 97, 90, 102, 88, 104, 99 e 90.
Outra técnica de amostragem bastante usada é a chamada amostragem
sistemática, em que se pré-define um sistema de escolha. Por exemplo,
escolhe-se para entrevistar cada 3o cliente que chega em uma agência bancária
ao longo de um dia (o 3o cliente que entrar no banco, o 6o, o 9o etc). No
entanto, este tipo de amostragem pode introduzir tendências externas na
amostra. Por exemplo, uma amostra composta pelos moradores dos
apartamentos de numeração par de um prédio pode estar afetada pelo
posicionamento dos apartamentos pares no prédio (por causa do sol, do tipo
de garagem destinada a cada apartamento ou da proximidade das janelas dos
quartos de casal dos apartamentos pares com um terreno baldio, por exemplo).
O investigador deve estar sempre atento para a possibilidade de ocorrência de
tais efeitos e deve tentar evitá-los sempre que possível. Além disso, qualquer
avaliação crítica de uma pesquisa deve conter uma análise sobre o método de
amostragem utilizado e sobre as possíveis fontes causadoras de tendências
externas nos resultados da pesquisa.
8
Estatística II – Antonio Roque – Aula 1
Ainda uma outra técnica de amostragem é a chamada amostragem
estratificada. Muitas vezes é útil e desejável classificar amostras de acordo
com algum fator, como sexo, idade, nível econômico, etc. Em uma
amostragem estratificada, dentro de cada estrato executa-se uma amostragem
aleatória. É importante que as porcentagens de indivíduos por estrato reflitam
as porcentagens globais da população. Por exemplo, se uma população tem
60% de mulheres e 40% de homens, uma amostra de tamanho 50 deve ter 30
mulheres e 20 homens (veja a regra de três abaixo).
50 − 100%
x1 = 30
x − 60%(40%) x2 = 20
(60%)
(40%)
Uma distribuição de freqüências obtida para os dados de uma amostra é
chamada de distribuição empírica. A distribuição de freqüências para toda a
população é chamada de distribuição teórica. A distribuição teórica depende
da natureza da variável sendo medida: variável discreta ou variável contínua.
Uma vez obtida uma amostra a partir de uma população, podemos usar
algumas características da amostra para estimar alguns parâmetros da
população. Exemplos de tais características são a média x e o desvio padrão s
da amostra.
9
Estatística II – Antonio Roque – Aula 1
Quando se usa uma estatística calculada a partir dos valores de uma amostra
para se estimar um parâmetro da população de onde foi retirada a amostra,
diz-se que está sendo feita uma estimativa por ponto.
Segundo esta terminologia, o valor da média x de uma amostra é um
estimador por ponto da média µ da população; e o valor do desvio padrão s de
uma amostra é um estimador por ponto do desvio padrão σ da população.
Se obtivermos, a partir da população, uma outra amostra de mesmo tamanho,
teremos um novo conjunto de dados e, portanto, uma nova média x e um
novo desvio padrão S . Para cada amostra retirada de uma população teremos,
em princípio, valores diferentes da média e do desvio padrão.
Dá-se abaixo uma outra tabela de números aleatórios para uso durante a
disciplina.
10
Estatística II – Antonio Roque – Aula 1
Tabela de números aleatórios
00000
12345
00001
67890
11111
12345
11112
67890
22222
12345
22223
67890
33333
12345
33334
67890
44444
12345
44445
67890
01
02
03
04
05
85967
07483
96283
49174
97366
73152
51453
01898
12074
39941
14511
11649
61414
98551
21225
85285
86348
83525
37895
93629
36009
76431
04231
93547
19574
95892
81594
13604
24769
71565
36962
95848
75339
09404
33413
67835
36738
11730
76548
56087
63314
25014
85423
05393
40875
50162
15460
60698
96770
13351
06
07
08
09
10
90474
28599
25254
28785
84725
41469
64109
16210
02760
86576
16812
09497
89717
24359
86944
81542
76235
65997
99410
93296
81652
41383
82667
77319
10081
45554
31555
74624
73408
82454
27931
12639
36348
58993
76810
93994
00619
44018
61098
52975
22375
22909
64732
04393
10324
00953
29563
93589
48245
15457
11
12
13
14
15
41059
67434
72766
92079
29187
66456
41045
68816
46784
40350
47679
82830
37643
66125
62533
66810
47617
19959
94932
73603
15941
36932
57550
64451
34075
84602
46728
49620
29275
16451
14493
71183
98480
57669
42885
65515
36345
25640
66658
03448
19251
41404
67257
30818
37390
41642
81110
18671
58353
96328
16
17
18
19
20
74220
03786
75085
09161
75707
17612
02407
55558
33015
48992
65522
06098
15520
19155
64998
80607
92917
27038
11715
87080
19184
40434
25471
00551
39333
64164
60602
76107
24909
00767
66962
82175
90832
31894
45637
82310
04470
10819
37774
12538
18163
78754
56797
37953
67439
63495
90775
33751
78837
94914
21
22
23
24
25
21333
65626
84380
46479
59847
48660
50061
07389
32072
97197
31288
42539
87891
80083
55147
00086
14812
76255
63868
76639
79889
48895
89604
70930
76971
75532
11196
41372
89654
55928
28704
34335
10837
05359
36141
62844
60492
66992
47196
95141
92337
70650
93183
12452
42333
99695
51108
56920
38234
67483
26
27
28
29
30
31416
82066
01850
32315
59388
11231
83436
42782
89276
42703
27904
67914
39202
89582
55198
57383
21465
18582
87138
80380
31852
99605
46214
16165
67067
69137
83114
99228
15984
97155
96667
97885
79541
21466
34160
14315
74440
78298
63830
85019
01007
99622
75404
30475
03527
31929
87912
63648
74729
78140
31
32
33
34
35
58089
61705
18914
11965
85251
27632
57285
98982
94089
48111
50987
30392
60199
34803
80936
91373
23660
99275
48941
81781
07736
75841
41967
69709
93248
20436
21931
35208
16784
67877
96130
04295
30357
44642
16498
73483
00875
76772
89761
31924
85332
09114
92656
66864
51315
24384
32101
62318
62803
79921
36
37
38
39
40
66121
53972
14509
37700
854696
96986
96642
16594
07688
59392
84844
24199
78883
65533
72722
93873
58080
43222
72126
15473
46352
35450
23093
23611
73295
92183
03482
58645
93993
49759
51152
66953
60257
01848
56157
85878
49521
89250
03910
60477
30490
63719
63266
38552
83284
15974
57615
90858
17472
56367
41
42
43
44
45
52969
42744
26140
95589
39113
55863
68315
13336
56319
13217
42312
17514
67726
14563
59999
67842
02878
61876
24071
49952
05673
97291
29971
06916
83021
91878
74851
99294
59555
47709
32738
42725
96664
18195
53105
36563
57894
52817
32280
19295
79540
81434
90039
79357
88318
61935
62041
53211
04224
41626
46
47
48
49
50
41392
54684
89442
36751
98159
17622
53645
61001
16778
02564
18994
79246
36658
54888
21416
98283
70183
57444
15357
74944
07249
87731
95388
68003
53049
52289
19185
36682
43564
88749
24209
08541
38052
90976
02865
91139
33519
46719
58904
25772
30715
07223
09428
40512
89853
06604
97413
94012
07725
88714
11
Download