Distribuições Amostrais

Propaganda
Distribuições
Amostrais
Distribuição de Probabilidades de
Estatísticas Amostrais
Teorema Central do Limite
Na aula passsada, vimos que …
As estatísticas amostrais
são variáveis.
Seus valores variam de
acordo com uma
distribuição de
probabilidade.
As estatísticas
amostrais são
variáveis aleatórias
As propriedades da média amostral X valem
para qualquer população e para qualquer
tamanho de amostra n.
µ X = E[ X ] = µ
σ X = dp[ X ] = σ
n
Quanto à distribuição de probabilidades de X , é
fácil encontrá-la quando a população é pequena.
Mas, e quando a população for grande ??
Para casos gerais, vamos precisar de um
resultado muito importante em Estatística:
o Teorema Central do Limite
Mas, antes, vamos definir o que é uma
Amostra Aleatória da variável aleatória X.
Amostra Aleatória
Uma Amostra Aleatória da variável
aleatória X é um conjunto de n
variáveis aleatórias X1, X2,…, Xn, que
têm
a
mesma
distribuição
de
probabilidade de X.
Teorema Central do Limite
Seja uma amostra aleatória
variável aleatória
X
X 1 , X 2 ,..., X n , de uma
com média µ e desvio padrão σ.
À medida que n cresce, a distribuição de
probabilidade de X aproxima-se de uma Normal com
média µ e desvio padrão σ
X −µ
Ou seja, Z =
σ/ n
n.
aproxima-se de uma Normal (0 ;1).
Entendendo o Teorema Central do Limite
1)
Se pudéssemos retirar várias amostras da
população e, para cada amostra, calculássemos o
valor da média, esperaríamos que a média desses
valores fosse igual à média populacional.
(estimador não tendencioso)
2) Quanto maior for o tamanho da amostra, mais
perto da média populacional estará o valor da
média amostral.
Ilustração do Teorema Central do Limite
Vamos realizar o seguinte experimento:
10000
Considere uma população de indivíduos cuja
caratecterística de interesse tenha distribuição de
probabilidade Normal com média igual a µ=75.0 e
4000
2000
• quantidade de peixe pescado
por embarcação,por mês, em
toneladas.
0
• produção semanal de leite,
por animal, em litros;
Frequência
Exemplos:
6000
8000
desvio-padrão igual a σ=19.7
0
50
100
Valor do indivíduo
150
Ilustração do Teorema Central do Limite
1
2
3
Para vários tamanhos de amostra n, vamos retirar um
número grande de amostras da população, digamos,
10000 amostras de mesmo tamanho n.
Para cada amostra retirada, vamos calcular a média
amostral, X .
Ao final da retirada das 10000 amostras, teremos 10000
valores de X
Para verificar a distribuição desses valores, construiremos
um histograma.
2000
1500
0
6000
0
50
100
150
100
Valor do indivíduo
150
1000
500
50
n =20
0
0
Frequência
2000
1500
4000
Media amostral
0
Frequência
8000
500
10000
População
n =10
1000
Frequência
2500
3000
Histogram of medias
0
50
100
Media amostral
150
2000
1500
6000
0
50
100
1000
Valor do indivíduo
150
500
100
n =50
0
50
Frequência
0
150
Media amostral
1500
4000
2000
0
Frequência
0
8000
500
1000
Frequência
10000
População
n =30
0
50
100
Media amostral
150
Em escalas diferentes ….
60
70
80
90
1500
100
55
60
65
70
75
80
Media amostral
n = 30
n = 50
Frequência
90
0
0 500
85
1000 2000
Media amostral
1500
50
Frequência
500
0
1000
Frequência
2500
n = 20
0
Frequência
n = 10
65
70
75
80
Media amostral
85
65
70
75
80
Media amostral
85
O que podemos observar a partir desta
ilustração do TCL quando a população
segue a distribuição Normal?
1 - O que acontece com a média da distribuição
da média amostral à medida que n cresce?
2 - O que acontece com a variabilidade da
distribuição da média amostral à medida que n cresce?
3 - O que acontece com a forma da distribuição
da média amostral à medida que n cresce?
Teorema Central do Limite
Seja uma amostra aleatória
variável aleatória
X
X 1 , X 2 ,..., X n , de uma
com média µ e desvio padrão σ.
X −µ
Z=
σ/ n
n→∞
~
N (0,1)
Observe que o TCL não fala nada sobre a
distribuição de X, a variável aleatória associada
à população de interesse.
Ilustração do Teorema Central do Limite
Vamos visualizar o que acontece com a
distribuição da média amostral X quando a
população de interesse NÃO tem distribuição
Normal.
Distribuição Uniforme
Distribuição Assimétrica
1500
Frequência
500
1000
400
200
0
0
Frequência
600
2000
2500
800
Histogram of pop.lognormal
40
60
80
100
Valor do indivíduo
120
140
160
20
40
60
80
100
Valor do indivíduo
120
140
160
Ilustração do Teorema Central do Limite
Vamos fazer um experimento igual ao anterior,
mas agora com duas populações diferentes:
Distribuição Uniforme
Distribuição Assimétrica
1500
Frequência
500
1000
400
200
0
0
Frequência
600
2000
2500
800
Histogram of pop.lognormal
40
60
80
100
120
140
160
20
40
60
Valor do indivíduo
µ=100.0
80
100
Valor do indivíduo
µ=56.2
120
140
160
n=5
1500
0
0
500
1000
Frequência
400
200
Frequência
600
800
2000
População
40
60
80
100
120
140
160
40
60
80
Valor do indivíduo
120
140
Media amostral
n=50
0
1000
0
500
500
1000
1500
Frequência
2000
2500
1500
n=25
Frequência
100
40
60
80
100
Media amostral
120
140
160
40
60
80
100
120
Media amostral
140
160
160
1500
500
1000
Frequência
2000
1500
1000
0
0
500
Frequência
n=5
2000
2500
2500
População
20
40
60
80
100
120
20
140
40
100
120
1500
Frequência
1500
0
0
500
500
1000
n = 50
1000
2500
n = 25
2000
80
Media amostral
Valor do indivíduo
Frequência
60
20
40
60
80
Media amostral
100
120
20
40
60
80
Media amostral
100
120
Em escalas diferentes ….
60
80
100 120 140 160
30
40
50
60
70
Media amostral
n=25
n=50
Frequência
0
1000
0
90
1500
Valor do Individuo
80
500
40
2000
20
Frequência
1000 2000
0
Frequência
1000 2000
n=5
0
Frequência
População
50
55
60
Media amostral
65
70
50
55
Media amostral
60
65
O que podemos observar a partir desta
ilustração do TCL quando a população NÃO
segue a distribuição Normal?
1 - O que acontece com a média da distribuição
da média amostral à medida que n cresce?
2 - O que acontece com a variabilidade da
distribuição da média amostral à medida que n cresce?
3 - O que acontece com a forma da distribuição
da média amostral à medida que n cresce?
Teorema Central do Limite
(resumo)
Distribuição de X
N (µ ;σ )
Qualquer
Distribuição de X
N (µ;σ
n)
aproximadamente
N (µ;σ
n)
Tamanho de
amostra
n qualquer
n > 30
(em geral)
Aplicações
O nível de bilirrubina sérico em crianças nascidas com peso
menor que 750g tem distribuição Normal com média
µ=8.5 mg/dl e desvio-padrão σ=3.5 mg/d.
Para uma amostra de tamanho n=16 crianças desta população,
sabemos que X ~ N (8.5 ; 3.5 16)
Qual é a probabilidade de que a média amostral, para uma
amostra de 16 crianças, esteja entre 6.79 e 10.22 mg.dl?
 6.79 − 8.50 X − 8.50 10.22 − 8.50 
P[6.79 < X < 10.22] = P 
<
<

3.50 / 16 
 3.50 / 16 3.50 / 16
*O nível de bilirrubina no sangue é usado para diagnosticar doenças do fígado, entre outras.
Aplicações
−1.71
1.72
<Z<
]
P[6.79 < X < 10.22] = P[
0.88
0.88
= P[ −1.94 < Z < 1.95]
= P[ Z < 1.95] − P[ Z < −1.94]
= 0.9744 - 0.0262 = 0.9482
0.9482 ≈ 0.95
6.79
10.22
A probabilidade de que a média
amostral, para uma amostra de 16
crianças,
esteja entre 6.79 e 10.22
mg/dl é 94.82%
Aplicações (II)
Em uma amostra de 16 crianças nascidas com peso menor
que 750g, a média amostral do nível de bilirrubina sérico
foi igual a 10.5 mg/dl.
Considerando que a população tem distribuição Normal
com média µ=8.5 mg/dl e desvio-padrão σ=3.5 mg/dl,
qual é a probabilidade de obter amostras de 16 crianças
com valores médios de bilirrubina sérico iguais ou mais
extremos do que 10.5 mg/dl?

10.5 − 8.5 
P[ X > 10.5] = P  Z >
 = P[ Z > 2.27]
3.5 16 

= P[ Z < −2.27] = 0.0116
Distribuição Amostral de
uma Proporção
Uma proporção amostral pode ser vista com uma média
amostral
n
número de sucessos
=
pˆ =
n
∑ Xi
i =1
n
onde
se sucesso
1,
Xi = 
0, caso contrário
Exemplo: estimar a proporção de eleitores contrários ao
voto obrigatório.
1,
Xi = 
0,
se é contra o voto obrigatório
se é a favor do voto obrigatório
Distribuição Amostral de
uma Proporção
p̂ é uma média de variáveis aleatórias Xi ~ Binomial (m=1; p).
Assim, µ = E [ X i ] = p e σ = Var[ X i ] =
p (1 − p )
Pelo Teorema Central do Limite, a distribuição amostral
p̂
pode ser aproximada por uma Normal com média p
e desvio-padrão p (1 − p ) quando np ≥ 5 e n(1-p) ≥ 5.
de
Ou seja, Z =
pˆ − p
p(1 − p ) / n
aproximadamente
~
N (0,1)
Ilustração: o que acontece com a distribuição dos
ˆ − 0.50
p
valores de Z =
quando n cresce?
0.50(1 − 0.50) / n
População: X ~ Binomial
nn==50
20
10
3 (m=1 ;p=0.50)
30
4
2
5
100
nn==1000
Aplicações (II)
Um biólogo está estudando a preferência de uma espécie de
aranha (espécie A) quanto ao local de confecção de sua teia em
árvores: perto do tronco ou ao final dos galhos.
Em 40 teias de aranha da espécie A, ele observou que 22 delas
foram tecidas perto do tronco, ou seja, pˆ = 22 / 40 = 0.55 .
Para aranhas de uma espécie B, estudos mostram que a
proporção das que preferem fazer teias perto do tronco é igual a
0.75.
Supondo que a proporção populacional das aranhas da
espécie A que fazem teias perto do tronco também seja
p=0.75, qual é a probabilidade de o resultado amostral ter
ocorrido?
Aplicações (II)
Como a proporção amostral é uma variável aleatória contínua,
já sabemos que o cálculo de P[ pˆ = 0.55] não faz sentido.
Assim, vamos calcular a probabilidade de amostras com
proporções ainda mais extremas do que a obtida. Ou seja,


0.55 − 0.75
pˆ − p
<
P[ pˆ < 0.55] = P 

0.75(1 − 0.75) / 40 
 p (1 − p ) / n
= P [ Z < −2.92]
= 0.0017
0.0017
0.55
0.75
p̂
Aplicações (II)
Conclusão:
Sob a hipótese de que a proporção populacional das
aranhas da espécie A que fazem teias perto do tronco
também seja p=0.75, a amostra coletada é pouco
verossímil (probabilidade de 0.0017).
Sendo assim, a hipótese de que as duas espécies têm a
mesma proporção de aranhas que tecem suas teias perto
do tronco deve ser revista.
Propriedades do Estimador Média Amostral
_
_
PDFs of X and X
f HX L , g HX L
12
12
20
40
120
12
10
10
100
10
15
30
8
8
808
= 1000
1
2
3
4
5
6
7
8
9
10
25
100
X
s = 0.100
X
s = 0.010
0.003
0.100
0.071
0.058
0.050
0.045
0.041
0.038
0.035
0.033
0.032
0.020
X
n
X
6
20
10
6066
4
4044
105
202
_
7.7
8.0
8.3
X , X
O que acontece com a distribuição de probabilidade
de X (em vermelho) quando n cresce?
Para praticar …
Exercícios da Seção 8
Próxima aula:
Exercícios.
Referências Bibliográficas
As ilustrações do “Teorema Central do Limite para o caso da
proporção amostral” e das “propriedades do estimador
média amostral” foram elaboradas a partir dos arquivos
do “Demonstraction Project” do Wolfram Mathematica
(http://demonstrations.wolfram.com/).
Para a primeira ilustração, foi utilizado o arquivo
“SamplingDistributionOfTheSampleMean.nbd”.
Para a segunda ilustração, foi utilizado o arquivo
“IllustratingTheCentralLimitTheoremWithSumsOfBernoulli
RandomV.nbd”
Download