Uma amostra x várias amostras

Inferências para uma amostra
• Até agora: ICs e testes de hipótese para uma
amostra X1, X2, …, Xn i.i.d. N(0,1)
• Baseados no fato de que, sob a hipótese nula
(m = m0 ou s2 = s02), determinadas estatísticas
têm distribuições conhecidas.
• Para testar a hipótese nula, basta comparar o
valor dessas estatísticas com os pontos críticos
apropriados de suas distribuições.
Inferências para uma amostra
• Estatísticas de Teste:
Z
T
 
2
 
2
n ( X  m0 )
s
~ N (0,1)
n ( X  m0 )
~ t n1
S
2
 ( Xi  m)
s 02
2
 (Xi  X )
s 02
~  n2
~  n21
(sob a hipótese nula)
Inferências para duas amostras
• X1, …, Xm i.i.d N(m1, s12)
Y1, …, Yn i.i.d N(m2, s22)
com Xi e Yj independentes, para todo i e j
(observações não pareadas)
• Também pode ser considerado o caso em que
as observações são pareadas.
Testes e ICs para as médias
• Baseados nas estatísticas
Z
( X  Y )  ( m1  m 2 )
s
2
1
m

s
2
2
~ N (0,1)
n
(variâncias conhecidas ou grandes amostras)
T
( X  Y )  ( m1  m 2 )
1 1  ( X i  X )   (Yi  Y )

m n
mn2
2
2
~ t m n2
(variâncias desconhecidas, mas iguais)
• No caso geral, é necessário recorrer a um teste
aproximado.
Testes e ICs para variância
• Ho: s12 = s22 vs H1: s12  s22
• Estatística do teste:
 (Xi  X )
m 1
F
~ Fm1,n1
2
 (Yi  Y )
n 1
2
A distribuição F
• Sejam U e V v.a. independentes, com
distribuição m2 e n2, respectivamente. A
distribuição de
U /m
F
V /n
é chamada de distribuição F com (m, n)
graus de liberdade.
Exemplo
Inferência para m amostras
• Análise da Variância (ANOVA) com um único
fator
• m grupos de observações
Xi1, Xi2, …, Xi ni i.i.d. N(mi, si2), i = 1, .., I
• todas as observações independentes entre si.
• em geral, a análise é feita supondo que as
variâncias de todos os grupos são iguais.
Teste para a igualdade das médias
• H0: m1 = m2 = …= mI
H1: nem todas as médias são iguais
• Estatísticas de interesse:
Xi. 
X .. 
 j X ij
ni
, i  1,..., I (médias dos grupos)
i  j X ij
n1  ...  nI
(média geral)
SQT  i  j ( X ij X .. ) 2 (soma dos quadrados total)
SQTr  i  j ( X i.  X .. ) 2  i ni ( X i.  X .. ) 2 (soma dos quadrados dos tratament os)
SQE  i  j ( X ij X i. ) 2 (soma dos quadrados dos erros)
Teste para a igualdade das médias
• Teorema
 SQT = SQTr + SQE
 Sob a hipótese nula, SQTr e SQE são independentes, com
distribuições 2I–1 e 2N–I, respectivamente, onde
N = n1+…+nI é o número total de observações. Logo,
SQTr
QMTr
F
 I  1 ~ FI 1, N  I
SQE
QME
N I
 QME = SQE/(N–I) é um estimador não viciado da
variância s2.
Tabela ANOVA
Fonte de
Variação
Graus de
liberdade
Soma dos
Quadrados
Média dos
Quadrados
F
Tratamentos
(Entre)
I–1
SQTr
QMtr
QMTr/QME
Erros
(Intra)
N–I
SQE
QME
Total
N–1
SQT
Exemplo
Regressão Linear Simples
• Modelo:
Yi = b0 + b1xi + ei, i = 1, …, n, onde
e1, e2, …, en i.i.d. N(0, s2)
• Problemas
– Estimação pontual e intervalar de b0 e b1
– Testes de hipótese (o mais importante: teste de
“relevância do modelo”).
– Predição
Estimação Pontual
• A estimação de máxima verossimilhança de b0 e b1
resulta da minimização de S (Yi – b0 – b1xi)2
 ( X i  X )(Yi  Y ) S xy
ˆ
b1 

2
S xx
 (Xi  X )
bˆ  Y  bˆ X
0
1
Os estimadores acima são os ENVUMV de b0 e b1
• O ENVUMV de s2 é:
SSE  (Yi  Yˆi ) 2  (Yi  bˆ0  bˆ1xi ) 2
S 


n2
n2
n2
2
Exemplo
Xi
1
2
3
Yi
2
3
7
Relevância do Modelo
• Teste de utilidade do modelo
H0: b1 = 0 vs. H1: b1  0
• Pode-se empregar um teste relativo à distribuição de
b1 (teste t) ou um teste ANOVA (generalizável para
regressão múltipla)
• Estatísticas relevantes
SQE   (Yi  Yˆi ) 2   (Yi  bˆ0  bˆ1xi ) 2
SQR   (Yˆi  Y ) 2
SQT   (Yi  Y ) 2
Teste de Relevância do Modelo
• Teorema
 SQT = SQR + SQE
 Sob a hipótese nula, SQR e SQE são independentes, com
distribuições 21 e 2n–2, respectivamente. Logo
SQR
QMR
F  2  1 ~ F1,n2
SQE
S
n2
 A razão R2 = SQR/SQT é chamado de coeficiente de
determinação.
Tabela ANOVA
Fonte de
Variação
Graus de
liberdade
Soma dos
Quadrados
Média dos
Quadrados
F
Regressão
1
SQR
QMR
QMR/S2
Erros
n–2
SQE
S2
Total
n–1
SQT
Inferências relativas aos coeficientes
• Baseadas nas estatísticas abaixo:
bˆ1  b1
~ tn2
S / S xx
bˆ0  b 0
S
x
2
i
/ nS xx
~ tn2
Intervalos de Predição
• Para predizer o valor de Y quando x = x*
• Baseados em
T
Y  ( bˆ0  bˆ1 x*)
1 ( x *  x )2
S 1 
n
S xx
~ t n2