6. Amostragem e estimação pontual

Propaganda
6. Amostragem e estimação pontual
Definição 6.1: População é um conjunto cujos elementos possuem qualquer característica em comum.
Definição 6.2: Amostra é um subconjunto da população.
Exemplo 6.1: Um partido encomenda uma sondagem sobre a intenção
de voto nele nas próximas eleições. Por exemplo, a sondagem poderá
ser baseada numa amostra (aleatória) da população de interesse de dimensão 10000 em 100000 votantes. Note-se que há uma v.a. para cada
eleitor, i.e.,
(
1, se o eleitor i tenciona votar no partido;
Xi =
0, c.c.,
podendo p = P (Xi = 1) = 1 − P (Xi = 0) (desconhecido) ser estimado pelo número de votantes sondados que tencionam votar a favor
do partido.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 96/200
Estatística descritiva e Inferência Estatística.
• Estatística descritiva: Parte da Estatística que visa sumariar e in-
terpretar conjuntos de dados numa análise exploratória.
• Inferência Estatística: Parte da Estatística que visa fazer induções
sobre características de uma população a partir de uma amostra da
mesma.
O estudo de uma população centra-se usualmente em uma ou mais
variáveis aleatórias. Em geral, a distribuição de probabilidade destas
quantidades não é completamente conhecida e, portanto, com base em
uma informação por amostragem, pode-se inferir estatisticamente sobre
os seus aspectos desconhecidos, e.g.,
• Estimação pontual ou intervalar de parâmetros distribucionais.
• Testes de hipóteses sobre o valor de parâmetros ou sobre o próprio
tipo distribucional daquelas variáveis aleatórias.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 97/200
Amostragem aleatória.
Importantes questões relativamente ao processo de amostragem:
• Como recolher a amostra?
• Qual a informação pertinente a retirar da amostra?
• Como se comporta esta informação quando a amostra tende para a
população?
Alguns tipos de amostragem:
• Amostragem aleatória simples: Todos os elementos da população
têm a mesma probabilidade de serem seleccionados.
• Amostragem por conglomerados: A população está dividida em
pequenos grupos (e.g., bairros, quarteirões, etc.), chamados conglomerados, que são amostrados aleatoriamente.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 98/200
• Amostragem estratificada: A população encontra-se dividida em
subpopulações ou estratos (e.g., classes sociais, graus de instrução, etc.), agrupados por alguma característica em comum, de cada
um dos quais se amostra aleatoriamente alguns dos seus elementos.
Estes tipos de amostragem têm em comum a recolha aleatória dos elementos da amostra. Todavia, há outros métodos de amostragem não
aleatórios, e.g., quando os elementos da amostra são voluntários (ensaios clínicos) ou são os únicos disponíveis.
Definição 6.3: Dada uma população a que está associada uma variável
aleatória X com uma certa distribuição de probabilidade, uma amostra aleatória (a.a.) de tamanho n dessa população é uma sequência de
n variáveis aleatórias X1 . . . , Xn independentes e identicamente distribuídas (i.i.d.).
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 99/200
Definição 6.4: Dada uma amostra aleatória (X1 . . . , Xn ) de uma população X com f.m.p. (f.d.p.) fX (x), a distribuição de probabilidade
amostral (f.m.p. ou f.d.p. conjunta) é dada por
f (x1 , . . . , xn ) =
n
Y
fXi (xi ) =
i=1
n
Y
fX (xi ).
i=1
Exemplo 6.1a: Uma a.a. da população de votantes no partido com n
elementos reporta-se a n v.a. X1 . . . , Xn i.i.d., tal que
(
1, se o eleitor i tenciona votar no partido;
Xi =
0, c.c.,
sendo p = P (Xi = 1) = 1 − P (Xi = 0), i = 1, . . . , n. Consequentemente, a respectiva distribuição de probabilidade amostral é dada por
n
Y
P
P
xi
xi
1−xi
n− i xi
i
f (x1 , . . . , xn ) =
p (1 − p)
=p
(1 − p)
.
i=1
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 100/200
Estatísticas.
Definição 6.5: Dada uma amostra (X1 . . . , Xn ) de uma população X,
uma estatística T é uma variável aleatória (vector aleatório) função da
amostra, i.e.,
T = T (X1 , . . . , Xn ).
As estatísticas mais comuns são:
Pn
• Média amostral: X̄ = 1
i=1 Xi .
n
• Variância amostral (corrigida): S 2 =
1
n−1
Pn
i=1 (Xi
• Mínimo amostral: X(1) = min(X1 , . . . , Xn ).
− X̄)2 .
• Máximo amostral: X(n) = max(X1 , . . . , Xn ).
• Amplitude amostral: R = X(n) − X(1) .
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 101/200
Definição 6.6: Um parâmetro é uma medida usada para descrever uma
característica da população.
Notação usual de parâmetros e estatísticas:
Medida
População
média
µ
variância
σ2
número de elementos
N
proporção
p
Amostra
aleatória concreta
X̄
x̄
S2
s2
n
n
X̄
x̄
Se (X1 . . . , Xn ) é uma a.a. de uma população X, então
• média populacional: µ = E(X),
• média amostral: X̄ = (X1 + · · · + Xn )/n.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 102/200
Estimação pontual: estimador e estimativa.
Definição 6.7: Seja (X1 . . . , Xn ) uma amostra aleatória de uma população X indexada pelo parâmetro θ. Um estimador de θ é uma estatística
T = T (X1 , . . . , Xn ) usada para estimar θ.
Definição 6.8: O valor observado de um estimador em cada amostra
concreta t = T (x1 , . . . , xn ) é conhecido por estimativa.
Exemplo 6.1b: Numa amostra aleatória de n = 100000 eleitores,
observaram-se 38900 eleitores com intenção de voto no partido em
causa. Neste cenário, X1 , . . . , Xn são v.a. i.i.d. com distribuição de
Bernoulli (p), onde p é a proporção (populacional) de votantes no partido. O parâmetro p pode ser estimado pela média amostral X̄, i.e., a
proporção amostral de votantes no partido, cujo estimativa é
x̄ = 38900/100000 = 0.389 ou 38.9%.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 103/200
Propriedades dos estimadores.
Exemplo 6.2: A fim de estudar a exactidão e precisão de 4 jogadores
(A,B,C,D) de tiro ao alvo, foram-lhes dadas 6 possibilidades de acertar
ao alvo. O resultado dessa experiência encontra-se a seguir.
'$
A
* *
* t *
* *
&%
'$
C
t*
**
**
*
&%
B
*
* '$
* *
t
&%
*
*
'$
D
t
**
****&%
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 104/200
Um resumo da qualidade (exactidão e precisão) dos jogadores:
• Jogador A: muita exactidão e pouca precisão;
• Jogador B: pouca exactidão e pouca precisão;
• Jogador C: muita exactidão e muita precisão;
• Jogador D: pouca exactidão e muita precisão.
Exactidão = concordância das observações com o valor visado.
Precisão = concordância das observações entre si.
A exactidão (accuracy) está associada aos erros sistemáticos, e.g., deficiências de instrumentos de medição, enquanto a precisão (precision) se
reporta aos erros aleatórios que são responsáveis por pequenas variações
imprevisíveis nas medições realizadas, cujas causas não são completamente conhecidas.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 105/200
Definição 6.9: Seja (X1 . . . , Xn ) uma a.a. de X com distribuição indexada pelo parâmetro θ. O estimador T = T (X1 , . . . , Xn ) é dito ser um
estimador centrado (não enviesado) de θ se E(T ) = θ.
Exemplo 6.3: Seja (X1 . . . , Xn ) uma a.a. de X com E(X) = µ e
P
V ar(X) = σ 2 . Será ni=1 (Xi − X̄)2 um estimador centrado de σ 2 ?
Se X1 , . . . , Xn são v.a. i.i.d. com E(Xi ) = µ e V ar(Xi ) = σ 2 , i =
1, . . . , n, então E(X̄) = µ e V ar(X̄) = σ 2 /n. Logo,
E(
Pn
2
i=1 (Xi − X̄) ) =
=
=
=
∴ Não, mas S 2 =
1
n−1
Pn
P
P
E( i Xi2 − 2X̄ i Xi + nX̄ 2 )
n E(X 2 ) − E(X̄ 2 )
n [(σ 2 + µ2 ) − (σ 2 /n + µ2 )]
(n − 1)σ 2
i=1 (Xi −X̄)
2
é um estimador centrado de σ 2 .
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 106/200
Definição 6.10: Seja T = T (X1 , . . . , Xn ) um estimador do parâmetro θ.
Chama-se viés (enviesamento) de T como estimador de θ à quantidade
E(T ) − θ. Note-se que o viés é nulo se e somente se T é um estimador
centrado de θ.
Definição 6.11: Seja T = T (X1 , . . . , Xn ) um estimador do parâmetro
θ. Uma medida de precisão do estimador T é o erro quadrático médio
(EQM), dado por
EQM (T ) ≡ E((T − θ)2 ) = V ar(T ) + (E(T ) − θ)2 .
Definição 6.12: Sejam T = T (X1 , . . . , Xn ) e U = U (X1 , . . . , Xn ) dois
estimadores do parâmetro θ. Diz-se que T é mais eficiente do que U , se
EQM (T ) ≤ EQM (U ), ∀ θ
com desigualdade estrita para algum θ.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 107/200
Se T e U são estimadores centrados do parâmetro θ, então T é mais
eficiente do que U se V ar(T ) ≤ V ar(U ), ∀ θ com desigualdade estrita
para algum θ.
Exemplo 6.4: Seja (X1 . . . , Xn ) uma a.a. de X ∼ Bernoulli(p). Considere ainda X1 e X̄ como dois estimadores de p. Qual dos dois é o
estimador mais eficiente?
P
Sendo Xi ’s v.a. i.i.d. Bernoulli (p), ni=1 Xi ∼ Binomial (n, p),
• E(X1 ) = p e
P
E(X̄) = n−1 E( ni=1 Xi ) = n−1 n p = p.
∴ X1 e X̄ são estimadores centrados de p.
• V ar(X1 ) = p(1 − p) e
V ar(X̄) = n−2 V ar(
⇒
V ar(X̄)
V ar(X1 )
=
1
n
Pn
i=1
Xi ) = n−1 p (1−p)
< 1, ∀ n > 1.
∴ X̄ é mais eficiente do que X1 na estimação de p.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 108/200
Exemplo 6.3a: Seja (X1 . . . , Xn ) uma a.a. de uma população X
Normal com E(X) = µ e V ar(X) = σ 2 . Será a variância amosP
tral (corrigida) S 2 = (n − 1)−1 ni=1 (Xi − X̄)2 mais eficiente do que
P
σ̂ 2 = n−1 ni=1 (Xi − X̄)2 na estimação de σ 2 ?
Como
• E(
Pn
i=1 (Xi − X̄)
2
) = (n−1)σ 2 ,
σ2.
⇒ E(S 2 ) = σ 2 e E(σ̂ 2 ) = n−1
n
P
• V ar( n (Xi − X̄)2 ) = 2(n−1)σ 4 ,
i=1
• EQM (S 2 ) = V ar(S 2 ) + (E(S 2 ) − σ 2 )2 = 2(n−1)−1 σ 4 ,
• EQM (σ̂ 2 ) = V ar(σ̂ 2 ) + (E(σ̂ 2 ) − σ 2 )2 = (2n−1)n−2 σ 4 ,
⇒
EQM (S 2 )
EQM (σ̂ 2 )
=
2n2
(n−1)(2n−1)
> 1, ∀ n > 1.
∴ σ̂ 2 é mais eficiente do que S 2 (n > 1) na estimação de σ 2 .
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 109/200
Definição 6.13: Seja (X1 . . . , Xn ) uma a.a. de uma população X indexada pelo parâmetro θ. Uma sucessão {Tn } de estimadores de θ é
consistente se lim P (|Tn − θ| > ǫ) = 0, ∀ ǫ > 0, o que é garantido por
n→∞
i) lim E(Tn ) = θ,
n→∞
ii) lim V ar(Tn ) = 0.
n→∞
Exemplo 6.4a: Seja (X1 . . . , Xn ) uma a.a. de X ∼ Bernoulli(p). Será
X̄ um estimador consistente de p?
P
Sendo Xi ’s v.a. i.i.d. Bernoulli (p), ni=1 Xi ∼ Binomial (n, p),
P
• E(X̄) = E( n Xi )/n = p. X̄ é um estimador centrado de p.
i=1
Condição i) logicamente satisfeita.
P
• V ar(X̄) = V ar( n Xi )/n2 = p (1 − p)/n. Por conseguinte,
i=1
limn→∞ V ar(X̄) = limn→∞ p(1−p)
= 0. Condição ii) satisfeita.
n
Portanto, X̄ é um estimador consistente de p.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 110/200
Método da máxima verosimilhança.
Definição 6.14: Dada uma a.a. (X1 . . . , Xn ) de uma população X com
f.m.p. ou f.d.p. fX (x) indexada pelo parâmetro (desconhecido) θ, a
função de verosimilhança de θ relativa à amostra (x1 , . . . , xn ), denotada
por L(θ|x1 , . . . , xn ), é a função de θ que é numericamente idêntica à
distribuição de probabilidade amostral avaliada em (x1 , . . . , xn ), i.e.,
L(θ|x1 , . . . , xn ) ≡ f (x1 , . . . , xn |θ) =
n
Y
i=1
fX (xi |θ).
O método de máxima verosimilhança consiste em maximizar a função
de verosimilhança para obter o valor mais verosímil de θ, denominado
estimativa de máxima verosimilhança de θ.
Ao determinar o valor que maximiza θ, usa-se frequentemente o facto
de que L(θ|x1 , . . . , xn ) e log L(θ|x1 , . . . , xn ) têm o seu máximo no
mesmo valor de θ.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 111/200
Exemplo 6.5: Seja (X1 . . . , Xn ) uma a.a. de uma população X ∼
Poisson(λ). Qual o estimador de máxima verosimilhança (EMV) de
λ?
A função de verosimilhança de λ, dado (x1 , . . . , xn ), é
n
Y
e−λ λxi
L(λ|x1 , . . . , xn ) =
.
x
!
i
i=1
Seja Lλ ≡ log L(λ|x1 , . . . , xn ) = −n λ + log λ
•
dLλ
dλ
Pn
−1
= −n + λ
⇒ λ=
i=1 xi = 0
Pn
2
• d L2λ = −λ−2
i=1 xi < 0, ∀λ.
dλ
n
X
i=1
1
n
n
Y
xi − log xi !.
i=1
Pn
i=1
xi = x̄
∴ x̄ é a estimativa de máxima verosimilhança de λ e o EMV de λ é
n
1X
λ̂ = X̄ =
Xi .
n i=1
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 112/200
Teorema 6.1: Se θ̂ é o estimador de máxima verosimilhança de um
parâmetro θ, então g(θ̂) é o estimador de máxima verosimilhança de
g(θ) (propriedade de invariância).
Exemplo 6.6: Seja (X1 . . . , Xn ) uma a.a. de X ∼ Uniforme(0, θ]. Qual
o EMV de log θ?
A função de verosimilhança de θ, dado x1 , . . . , xn , é
L(θ|x1 , . . . , xn ) =
=
n
Y
1
θ
I(0,θ] (xi )
i=1
1
I
(θ)
θn [x(n) ,∞)
L(θ)
6
1
x(n)
- θ
&
x(n)
⇒ X(n) = max(X1 , . . . , Xn ) é o EMV de θ.
∴ Pela propriedade de invariância dos estimadores de máxima verosimilhança, log X(n) é o EMV de log θ.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 113/200
Momentos da média amostral e de variâncias
amostrais.
Exemplo 6.7: Suponha uma população com v.a. X de distribuição uniforme em {2, 4, 6} da qual se retira (com reposição) uma amostra de
tamanho 2. Qual o valor esperado da média e da variância amostrais?
Como os elementos da população X são equiprováveis,
P
1
• E(X) =
x xfX (x) = 3 (2 + 4 + 6) = 4.
P 2
1
• E(X 2 ) =
x x fX (x) = 3 (4 + 16 + 36) = 56/3
⇒ V ar(X) = E(X 2 ) − (E(X))2 = 56/3 − 16 = 8/3.
Seja Xi o resultado da extracção i, i = 1, . . . , n (n = 2). Recorde-se que
a média amostral e a variância amostral são, respectivamente,
P
P
X̄ = n−1 ni=1 Xi e S 2 = (n−1)−1 ni=1 (Xi − X̄)2 .
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 114/200
A distribuição de probabilidade conjunta de (X1 , X2 ) é dada por
X1 \X2
2
4
6
2
1/9
1/9
1/9
4
1/9
1/9
1/9
6
1/9
1/9
1/9
A distribuição amostral da estatística X̄ = (X1 + X2 )/2 é
X̄
2
P (X̄ = x̄) 1/9
E(X̄) =
X
u
3
2/9
u P (X̄ = u) = 2 ×
4
3/9
5
2/9
6
1/9
1
36
1
+ ··· + 6 × =
=4
9
9
9
⇒ E(X̄) = E(X).
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 115/200
• E(X̄ 2 ) =
P
u
1
9
156
9
u2 P (X̄ = u) = 4 ×
• V ar(X̄) = E(X̄ 2 ) − (E(X̄)2 =
+ · · · + 36 ×
− 16 =
12
9
=
1
9
4
3
=
156
9
⇒ V ar(X̄) = V ar(X)/n.
A distribuição amostral da estatística S 2 =
S2
0
P (S 2 = s2 ) 3/9
E(S 2 ) =
X
v
v P (S 2 = v) = 0 ×
P2
2
4/9
i=1 (Xi
− X̄)2 é
8
2/9
3
4
2
24
8
+2× +8× =
=
9
9
9
9
3
⇒ E(S 2 ) = V ar(X).
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 116/200
Distribuições amostrais da média e variância
numa população normal.
Para melhor avaliar a estimação de um parâmetro θ a partir de uma
estatística T = T (X1 , . . . , Xn ), deve-se conhecer a distribuição de T .
A distribuição da estatística T , conhecida como distribuição amostral
de T , tem em conta todos os valores possíveis da amostra (X1 . . . , Xn ).
Teorema 6.2: Se (X1 . . . , Xn ) é uma a.a. de uma população X com
E(X) = µ e V ar(X) = σ 2 , então o valor esperado e variância da
média amostral X̄ são, respectivamente,
P
−1
• E(X̄) = n−1
n µ = µ;
i E(Xi ) = n
P
−2
• V ar(X̄) = n−2
n σ 2 = σ 2 /n.
i V ar(Xi ) = n
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 117/200
Teorema 6.3: Seja (X1 . . . , Xn ) uma a.a. de uma população X com
E(X) = µ e V ar(X) = σ 2 , 0 < σ 2 < ∞. Pelo Teorema do Limite
Central, a distribuição amostral de X̄ é aproximada pela distribuição
Normal com média µ e variância σ 2 /n, para n suficientemente grande.
Corolário 6.1: Se (X1 . . . , Xn ) é uma a.a. de uma população X ∼
N (µ, σ 2 ), 0 < σ 2 < ∞, então
Z=
X̄ − µ
√ ∼ N (0, 1).
σ/ n
Exemplo 6.8: Seja (X1 . . . , Xn ) uma a.a. de X ∼ Bernoulli(p). Qual a
P
distribuição aproximada da proporção amostral X̄ = n−1 ni=1 Xi ?
Sabendo que E(X) = p e V ar(X) = p(1 − p), pelo Teorema 6.3
p(1 − p)
X̄ − p
a
a
p
∼ N (0, 1) ⇒ X̄ ∼ N p,
.
n
p(1 − p)/n
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 118/200
Distribuição qui-quadrado.
Definição 6.15: Se X1 , . . . , Xk são v.a. i.i.d. com distribuição N (0, 1),
Q = X12 + · · · + Xk2
é dito ter uma distribuição qui-quadrado com k graus de liberdade, denotada por χ2(k) , cuja f.d.p. é dada por
fQ (q) =
onde Γ(a) =
R∞
0
1
k
2
k
2 Γ( k2 )
q
q 2 −1 e− 2 , q > 0,
xa−1 e−x dx, a > 0.
O valor esperado e a variância de uma v.a. Q ∼ χ2(k) são:
• E(Q) = k;
• V ar(Q) = 2 k.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 119/200
0.20
Função Densidade de Probabilidade − Qui−quadrado
0.10
0.00
0.05
f(x)
0.15
k=1
k=5
k=10
0
5
10
15
20
25
30
x
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 120/200
Distribuição t-Student.
Definição 6.16: Se Z e Q são v.a. independentes com Z ∼ N (0, 1) e
Q ∼ χ2(k) , então
Z
T =p
Q/k
é dito ter uma distribuição t-Student com k graus de liberdade, denotada
por t(k) , cuja f.d.p. é dada por
k−1
2
2
)
1 Γ( k−1
t
2
, −∞ < t < ∞.
1
+
fT (t) = √
k
k π Γ( k2 )
O valor esperado e a variância de uma v.a. T ∼ t(k) são:
• E(T ) = 0, k > 1.
• V ar(T ) = k/(k − 2), k > 2.
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 121/200
0.4
Função Densidade de Probabilidade − t−Student
0.2
0.0
0.1
f(x)
0.3
k=1
k=5
k=100
−4
−2
0
2
4
6
x
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 122/200
Teorema 6.4: Se (X1 . . . , Xn ) é uma a.a. de uma população X ∼
N (µ, σ 2 ), então
2
n 2
X
(X
−
µ)
X
−
µ
i
i
i=1
=
∼ χ2(n)
2
σ
σ
i=1
Pn
e
Pn
i=1 (Xi −
σ2
X̄)2
(n − 1)S 2
=
∼ χ2(n−1) .
2
σ
Teorema 6.5: Se (X1 . . . , Xn ) é uma a.a. de uma população X ∼
N (µ, σ 2 ), então
√
X̄ − µ
(X̄ − µ)/(σ/ n)
√ ∼ t(n−1) .
p
=
S/ n
(((n − 1)S 2 )/σ 2 )/(n − 1)
NOTAS DE PROBABILIDADES E ESTATÍSTICA – 123/200
Download