Cap 7 - Distribui‡äes Amostrais e Estima‡Æo de Parƒmetros

Propaganda
Estatística para Cursos de Engenharia e
Informática
Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia
São Paulo: Atlas, 2004
Cap. 7 - Distribuições Amostrais
e Estimação de Parâmetros
APOIO:
Fundação de Apoio à Pesquisa Científica e Tecnológica do Estado de Santa Catarina
(FAPESC)
Departamento de Informática e Estatística – UFSC (INE/CTC/UFSC)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Amostragem e Inferência estatística
Ex.
POPULAÇÃO: todos
os possíveis
consumidores
amostragem
AMOSTRA: um
subconjunto dos
consumidores
inferência
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Conceitos
• Parâmetro: alguma medida descritiva (média, variância, proporção,
etc.) dos valores x1, x2, x3,..., associados à população.
• Amostra aleatória simples: conjunto de n variáveis aleatórias
independentes {X1, X2, ..., Xn}, cada uma com a mesma distribuição
de probabilidades de uma certa variável aleatória X. Esta distribuição
de probabilidades deve corresponder à distribuição de freqüências dos
valores da população (x1, x2, x3, ...).
• Estatística: alguma medida descritiva (média, variância, proporção,
etc.) das variáveis aleatórias X1, X2, ..., Xn, associadas à amostra
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Parâmetros e Estatísticas
População
(x1, x2, x3,..., xN)
Amostra
(X1, X2, ..., Xn)
Parâmetros
Proporção
n o de elementos com o atributo
p=
N
Média
Variância
Estatísticas
1
µ=
N
1
σ =
N
2
N
N
∑ xi
1 n
X = ∑ Xi
n i =1
i =1
∑ (x i − µ )
i =1
n o de elementos com o atributo
ˆ
P=
n
2
1 n
2
(
)
S =
X
−
X
∑ i
n − 1 i =1
2
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplos de parâmetros
• X variável aleatória discreta com função de probabilidade p
k
µ = E( X ) = ∑ x j p j
Média ou valor esperado:
j =1
k
σ = V ( X ) = ∑ (x j − µ)2 p j
Variância:
2
j =1
ou:
2
V ( X ) = E( X ) − µ
2
k
onde: E ( X ) = ∑ x 2j p j
2
j =1
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplos de parâmetros
• X variável aleatória contínua com função de densidade f
Média ou valor esperado:
Variância:
ou:
∞
2
V ( X ) = E( X ) − µ
2
onde: E ( X 2 ) =
∫ x f ( x) dx
−∞
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplos de estatísticas
• (X1, X2,..., Xn): uma amostra aleatória simples da
população caracterizada por X.
Média :
X 1 + X 2 + ... + X n 1 n
X=
= ∑ Xi
n
n i =1
Variância:
n
1
2
(
)
S2 =
X
−
X
∑ i
n − 1 i =1
• Uma estatística é uma variável aleatória e a sua distribuição de
probabilidades é chamada de distribuição amostral.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estatísticas
• (x1, x2,..., xn): amostra efetivamente observada.
Média :
x1 + x2 + ... + xn 1 n
x=
= ∑ xi
n
n i =1
Variância:
1 n
2
(
)
s =
x
−
x
∑ i
n − 1 i =1
ou:
1  n 2

s =
 ∑ xi −nx 2 
n−1  i =1

2
2
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Ex. 7.2
p(x)
• População: {2, 3, 4, 5}
• Parâmetros:
2
1
4
1
4
1
4
3
4
x
5
1
4
µ = E ( X ) = 2 × + 3 × + 4 × + 5 × = 3,5
N
σ = V ( X ) = ∑ ( xi − µ )2 . pi =
2
i =1
1
(2 − 3,5) 2 + (3 − 3,5) 2 + (4 − 3,5) 2 + (5 − 3,5) 2 = 1,25
4
[
]
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição da média amostral (Ex. 7.2)
• Amostragem aleatória simples de tamanho n = 2.
– Construção da distribuição amostral da média:
Amostras possíveis
Probabilidade
X
(2, 2)
(2, 3), (3, 2)
(2, 4), (3, 3), (4, 2)
(2, 5), (3, 4), (4, 3), (5, 2)
(3, 5), (4, 4), (5, 3)
(4, 5), (5, 4)
(5, 5)
2,0
2,5
3,0
3,5
4,0
4,5
5,0
1⁄
16
2⁄
16
3⁄
16
4⁄
16
3⁄
16
2⁄
16
1⁄
16
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição da média amostral (Ex. 7.2)
Distribuição da
população
p(x)
Distribuição da
média amostral
p(x )
2
3
4
E(X) = 3,5
5
x
2
3
4
5
x
E ( X ) = 3,5
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Média e variância da média amostral (Ex. 7.2)
1
 2  3
 4  3
 2 1
E (X ) = 2  + 2,5  + 3  + 3,5  + 4  + 4,5  + 5  = 3,5
 16 
 16   16 
 16   16 
 16   16 
1
2 2
2 1
V ( X ) = (2 − 3,5)
+ (2,5 − 3,5)
+ ... + (5 − 3,5)
= 0,625
16
16
16
2
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição amostral da média
Amostragem
aleatória simples
População: N elementos
X : variável quantitativa
Parâmetros:
µ = E(X), σ2 = V(X)
X pode ser vista como uma variável
aleatória se considerar a distribuição de
freqüências da população como uma
distribuição de probabilidades – a
distribuição da população.
Amostra:
(X1, X2, ..., Xn)
Estatísticas:
1 n
X = ∑ Xi
n i =1
1 n
2
(
S =
Xi − X)
∑
n − 1 i =1
2
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo de motivação
• Lembrando:
X uniforme em [α, β].
 1
, para x ∈ [α , β ]

f ( x) =  β − α
 0,
para x ∉ [α , β ]
• População X uniforme em [0, 1].
f(x)
1
β −α
0
α
E( X ) =
x
β
α+β
2
(
β − α )2
V (X ) =
12
•
E( X ) =
1
2
V (X ) =
1
12
Simular dados numa numa
planilha eletrônica e calcular
estatísticas.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Média e variância da média amostral
• Seja a população com média µ e variância σ2.
E (X ) = µ
V (X ) =
V (X ) =
σ2
se a amostragem for com reposição,
ou N muito grande ou infinito
n
σ2 N −n
n
⋅
N −1
se a amostragem for sem reposição e
N não muito grande, N < 20n
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição da média amostral
• (Teorema do limite central) Se o tamanho da amostra for
razoavelmente grande, então a distribuição amostral da
média pode ser aproximada pela distribuição normal.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição da média amostral
• População
• Amostra
E (X ) = µ
V (X ) = σ
1 n
X = ∑ Xi
n i =1
E (X ) = µ
2
DP ( X ) = σ
V (X ) =
DP ( X ) =
σ2
n
σ
n
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
População de tamanho N
População dos salários dos empregados
de certo setor da economia (N =1.000)
E( X ) = µ
E( X ) = µ
V (X ) = σ
Distribuição de freqüências de médias
de amostras de tamanho n = 100
2
DP ( X ) = σ
V (X ) =
σ2 N −n
DP ( X ) =
⋅
n N −1
σ N −n
n
N −1
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas,
2004
Distribuição amostral da proporção
População:
A
N = NA + NA
elementos
A
Amostra:
(X1, X2, ..., Xn)
Parâmetro:
p = proporção dos elementos
que têm o atributo A
0 ou 1
(0 = sem o atributo;
1 = com o atributo)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição da população (caso de proporção)
x
p(x)
0
1
1–p
p
Média e variância:
µ
=p
σ2 = p(1 – p)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Média e variância da proporção amostral
E ( Pˆ ) = p
p(1 − p)
ˆ
V ( P) =
n
ou:
se a amostragem for com reposição, ou N
muito grande ou infinito
p(1 − p) N − n
ˆ
V ( P) =
⋅
n
N −1
se a amostragem for sem reposição e N
não muito grande, N < 20n
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição da proporção amostral
• Se o tamanho da amostra for razoavelmente grande,
então a distribuição amostral da proporção pode ser
aproximada pela distribuição normal.
• OBS. Se n for pequeno, a distribuição exata é binomial ou
hipergeométrica (dependendo se a amostragem for com
ou sem reposição)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estimação de Parâmetros
universo do estudo (população)
dados observados
O raciocínio indutivo da estimação de parâmetros
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estimação de Parâmetros
POPULAÇÃO
p=?
Observações:
AMOSTRA
X1
X2
X3 ...
p̂
p = p̂ ± erro amostral
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estimação de parâmetros:
intervalo de confiança para proporção
p
pˆ
σ P̂
= proporção na população (parâmetro que se quer estimar)
= proporção na amostra (pode ser calculada com base na
amostra)
= erro-padrão da proporção, que para amostra aleatória simples
com reposição (ou sem reposição, mas com N >> n), pode
ser estimado por:
s Pˆ =
pˆ (1 − pˆ )
n
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estimação de parâmetros:
intervalo de confiança para proporção
Seja uma variável aleatória normal padrão, Z. Vale:
P{− 1,96 ≤ Z ≤ 1,96} = 0,95
Então:
ou:


Pˆ − p
P − 1,96 ≤
≤ 1,96 = 0,95
σ Pˆ


{
sendo: σ Pˆ =
p (1 − p )
n
}
P Pˆ − (1,96)σ Pˆ ≤ p ≤ Pˆ + (1,96)σ Pˆ = 0,95
com probabilidade de 95%:
intervalo de confiança para p,
com nível de confiança de 95%:
Pˆ − p ≤ (1,96)σ Pˆ
IC ( p, 95%) = pˆ ± (1,96)σ Pˆ
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estimação de parâmetros:
intervalo de confiança para proporção
• Com dados de uma amostragem aleatória simples com
reposição (ou sem reposição, mas com N >> n), tem-se um
intervalo de confiança para p, com nível de confiança γ :
IC ( p, γ ) = pˆ ± zγ
pˆ (1 − pˆ )
n
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estimação de parâmetros:
intervalo de confiança para proporção
IC ( p, γ ) = pˆ ± zγ
α
pˆ (1 − pˆ )
n
n ív e l d e
c o n fia n ç a
d e s e ja d o
(γ = 1 - α )
⁄2
- Zγ
0
α
⁄2
Zγ
γ
0,800 0,900 0,950 0,980 0,990 0.995 0,998
zγ
1,282 1,645 1,960 2,326 2,576 2,807 3,090
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Resultados do Exemplo 7.3:
Intervalo de 99% de confiança para p
(60,0 ± 6,3%)
Intervalo de 95% de confiança para p
(60,0 ± 4,8%)
53,7% 55,2%
60,0%
64,8%
66,2%
Estimação de parâmetros:
intervalo de confiança para média
µ
= média na população (parâmetro que se quer estimar)
x
= média na amostra (pode ser calculada com base na amostra)
σX
= erro-padrão da média.
σX =
σ
n
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estimação de parâmetros:
intervalo de confiança para média µ
Seja uma variável aleatória normal padrão, Z. Vale:
P{− 1,96 ≤ Z ≤ 1,96} = 0,95
{
}
P − zγ ≤ Z ≤ zγ = γ
ou:
Então:

σ
σ 
P  X − zγ
≤ µ ≤ X + zγ
=γ
n
n



X −µ


P − z γ ≤
≤ zγ  = γ
σ


n


com probabilidade de 95%:
intervalo de confiança para µ,
com nível de confiança de γ:
IC ( µ , γ ) = x ± z γ
σ
n
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estimação de parâmetros:
intervalo de confiança para média
Caso o desvio padrão (populacional) seja conhecido:
IC ( µ , γ ) = x ± z γ
σ
n
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estimação de parâmetros:
intervalo de confiança para média
Caso o desvio padrão (populacional) não seja conhecido:
uso da distribuição t de Student.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
A distribuição t de Student
• Supondo a população com distribuição normal, a
estatística
X −µ
T=
S
n
tem distribuição de probabilidades conhecida como
distribuição t de Student, com gl = n – 1 graus de
liberdade.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
A distribuição t de Student
f(x)
t com gl = ∞ (normal padrão)
t com gl = 3
t com gl = 1
0
x
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
A distribuição t de Student
Estimação de parâmetros:
intervalo de confiança para média
Caso o desvio padrão (populacional) não seja conhecido:
IC ( µ , γ ) = x ± tγ
s
n
s = desvio padrão calculado na amostra
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como usar a Tabela t (Tab. IV do Apêndice)
•
Ilustração com gl = 9 e nível
de confiança de 95%.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Tamanho de amostra
• Na fase do planejamento da pesquisa, muitas vezes
precisamos calcular o tamanho n da amostra, para
garantir uma certa precisão desejada, a qual é descrita em
termos do erro amostral máximo tolerado (E0,) e do nível
de confiança (γ) a ser adotado no processo de estimação.
• Suponha amostragem aleatória simples
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Tamanho de amostra
• No caso de estimação de µ, podemos exigir
X − µ ≤ E0
ou:
zγ
σ
n
≤ E0
ou:
n ≥
z γ2 σ 2
E0
2
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Tamanho de amostra
• No caso de estimação de p, a população é caracterizada por uma
variável 0-1, portanto:
σ 2 = p (1 - p )
1
2
σ = p.(1 − p) ≤
4
Assim:
n ≥
1
⁄4
zγ2 p (1 − p )
E0
Então,
2
0
2
n =
zγ
4E 0
1
⁄2
1
p
2
Ver discussão no livro.
é suficiente para qualquer p.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Tamanho mínimo de uma amostra aleatória simples
Parâmetro de interesse
Valor inicial do tamanho da amostra
uma média (µ):
n0 =
uma proporção (p):
n0 =
várias proporções (p1, p2, ...):
zγ2 σ 2
E0
2
zγ2 p(1− p )
n0 =
E0
2
zγ2
4E 0
2
Tamanho da amostra
População infinita:
População de tamanho N:
n = n0
(arredondamento para
o inteiro superior)
N. n0
n=
N + n0 − 1
(arredondamento para
o inteiro superior)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Download