slides - mec.ita.br

Propaganda
Instituto Tecnológico de Aeronáutica
Divisão de Engenharia Mecânica-Aeronáutica
MOQ-14 Projeto e Análise de Experimentos
Profa. Denise Beatriz Ferrari
www.mec.ita.br/∼denise
[email protected]
Regressão Linear Simples
Roteiro
Introdução
Definição Formal do Modelo
O Problema da Estimação
Hipótese de Normalidade
Inferências em Regressão Linear Simples
Análise de Regressão
Análise de Regressão consiste em um conjunto de técnicas estatísticas
que nos permitem representar e estudar as relações entre duas ou mais
variáveis quantitativas (contínuas).
Começaremos pelo estudo de Modelos de Regressão Linear Simples, em
que temos apenas um par de variáveis.
Notação:
X : variável independente, variável explicativa, previsor
Y : variável dependente, resposta
Reta de Melhor Ajuste
Qual das duas retas melhor representa a relação entre as variáveis?
Y (1) = −120, 9 + 109, 6X (tracejada)
Y (2) = −151, 1 + 127, 1X (pontilhada)
Reta de Melhor Ajuste
Notação:
Yi : resposta observada para a unidade experimental i
Xi : valor da variável explicativa para a unidade experimental i
Ŷi : resposta prevista (valor ajustado) para a unidade experimental i
Queremos encontrar a equação da reta que “melhor” representa a relação
entre X e Y . Isto significa encontrar b0 e b1 , tais que os valores
ajustados da resposta, dados por
Ŷi = b0 + b1 Xi
estejam mais “próximos” o possível dos valores observados yi .
Resíduos
A diferença entre o valor observado
Yi e o valor ajustado Ŷi é chamado
de resíduo (ou erro de previsão) e é
dado por:
ei = Yi − Ŷi
Reta de Melhor Ajuste
Interpretação dos Coeficientes
b0 : coeficiente linear
– Valor de Y quando X = 0.
– Só faz sentido se o escopo do modelo (gama de valores de x)
inclui X = 0.
– Caso contrário, não há interpretação
b1 : coeficiente angular
– Valor do incremento esperado na resposta Y para cada aumento
unitário no valor de X .
– b1 > 0: relação positiva
– b1 < 0: relação negativa
Precisamos encontrar os valores de b0 e b1 . Como???
Definição Formal do Modelo
Supomos existir entre duas variáveis X e Y uma relação linear, embora
desconhecida, representada por:
Yi = β0 + β1 Xi + i ,
i = 1, . . . , n
onde:
Yi : valor da resposta para a unidade experimental i
Xi : valor da var. explicativa para a unidade experimental i
(constante conhecida)
β0 , β1 : parâmetros do modelo
i : perturbação estocástica (ou erro aleatório), t.q.
E [i ] = 0
σ 2 [i ] = σ 2 = cte.
σ[i , j ] = 0,
∀i, j; i 6= j
Definição Formal do Modelo II
Características:
Considerando o modelo de regressão:
Yi = β0 + β1 Xi + i ,
i = 1, . . . , n
1. Yi é uma v.a.: Yi ∼ fYi , t.q.
2. Reta de Regressão:
E [Y |Xi ] = β0 + β1 Xi
=⇒ Yi − E [Y |Xi ] = i
3. σ 2 [Yi ] = σ 2 [i ] = σ 2 = cte.
(Demonstração)
4. σ[i , j ] = 0
=⇒
σ[Yi , Yj ] = 0,
∀i, j; i 6= j
Definição Formal do Modelo III
Formulações Alternativas:
1. Yi = β0 X0 + β1 Xi + i , X0 ≡ 1
(Esta versão associa uma var. independente a cada coeficiente)
2. Em função de desvios da média:
Yi = β0 + β1 Xi − β1 X + β1 X + i
= (β0 + β1 X ) + β1 (Xi − X ) + i
= β0? + β1 (Xi − X ) + i ,
β0? = β0 + β1 X
O Problema da Estimação
O Método dos Mínimos Quadrados (OLS – “Ordinary Least Squares”)
Função Perda (“Loss Function”):
Q=
n
X
(Yi − E [Y |Xi ])2
i=1
No entanto, a função de regressão populacional E [Y ] é desconhecida e
precisa ser estimada a partir de uma amostra:
Ŷi = b0 + b1 Xi
Portanto,
Q=
n
X
(Yi − Ŷi )2
i=1
=
n
X
ei2
i=1
n
X
=
(Yi − b0 − b1 Xi )2
i=1
O Problema da Estimação II
O Método dos Mínimos Quadrados (OLS – “Ordinary Least Squares”)
Para que
Q=
n
X
(Yi − b0 − b1 Xi )2
i=1
atinja o mínimo, devemos ter:
P
(Xi − X )(Yi − Y )
b1 =
P
(Xi − X )2
b0 =
(Demonstração)
X
1 X
(
Yi − b1
Xi ) = Y − b1 X
n
O Problema da Estimação
Propriedades dos estimadores de Mínimos Quadrados
Teorema de Gauss-Markov (TGM)
Sob as condições do modelo de regressão linear simples, os estimadores
b0 e b1 são:
B best
L linear
U unbiased
E estimators
isto é,
os estimadores de menor variância, dentre todos os estimadores lineares
não-tendenciosos.
O Problema da Estimação
Resposta Esperada
Dados os estimadores b0 e b1 para os parâmetros da reta de regressão, a
resposta esperada
E [Y ] = β0 + β1 X ,
(ou seja, a média da distribuição de probabilidade Y |X )
é estimada através do estimador pontual
Ŷ = b0 + b1 X
Extendendo o TGM, temos que
Ŷ é BLUE de E [Y ]
O Problema da Estimação
Resíduos × Erros Aleatórios
Lembrando:
resíduo: ei = Yi − Ŷi E []
erro aleatório: i = Yi − E [Yi ]
(conhecido)
(desconhecido)
O Problema da Estimação
Propriedades da Reta de Regressão Estimada (OLS)
Pn
1. Soma dos resíduos é nula:
i=1 ei = 0
(erros de arredondamento podem tornar 6= 0)
ei2 é mínima (critério adotado)
2.
P
3.
Pn
Yi =
4.
Pn
Xi ei = 0
i=1
i=1
5. (1), (4) ⇒
Pn
i=1
Pn
Ŷi
i=1
⇒
1
n
Pn
i=1
Ŷi = Y
Ŷi ei = 0
6. A reta de regressão sempre passa pelo ponto (X , Y )
(Demonstrar propriedades 1 – 6)
O Problema da Estimação
Estimação da Variância dos Erros Aleatórios
Precisamos estimar a variância σ 2 [i ] = σ 2 dos erros aleatórios a fim de
conhecermos a variabilidade das distribuições de probabilidade de Y .
Para uma população:
A variância σ 2 de uma população é estimada a partir da var. amostral:
Pn
(Yi − Y )2
2
s = i=1
n−1
I
s 2 é um estimador não-tendencioso para a variância σ 2 de uma
população infinita
I
O numerador representa a soma de desvios quadráticos
I
O denominador representa o no. de graus de liberdade
(1 g.d.l. é perdido pois temos que estimar a média populacional
desconhecida, µ, usando Y )
O Problema da Estimação
Estimação da Variância dos Erros Aleatórios
Para o modelo de regressão:
Temos: σ 2 [i ] = σ 2 = cte. ⇒
σ 2 [Yi ] = σ 2
Semelhantemente ao caso de uma população, precisamos calcular:
Numerador: Soma de desvios quadráticos, lembrando que cada Yi vem de
uma distribuição de probabilidade com média diferente, que
depende do valor de Xi : Yi ∼ fi (Y |X = Xi )
Cada desvio deve ser calculado com respeito à sua média
estimada Ŷi (resíduos)
Pn
Pn
Yi − Ŷi = ei ⇒ SSE = i=1 (Yi − Y )2 = i=1 ei2
Denominador: Precisamos estimar β0 e β1 para obter Ŷi . Sendo assim,
perdemos 2 g.d.l.
Portanto:
s 2 = MSE =
Pn
e2
SSE
= i=1 i
n−2
n−2
OBS: MSE é um estimador não viesado de σ 2 .
Regressão Linear Simples
Alternativas ao Método de Mínimos Quadrados
LAD (Least Absolute Deviations) ou Norma L1
Q=
n
X
|Yi − Ŷi |
i=1
I
Formulado por Roger Boscovich, 1757
I
Laplace apresentou formulação algébrica para o algoritmo, 1792
I
Fourier (1768–1830) foi o primeiro a resolver o problema utilizando
o que hoje chamamos de Programação Linear:
M in 10 e+ + 10 e−
ei+
s.t.
−
e ,e ≥0
b irrestrito
Yi − Ŷi , seYi − Ŷi > 0
0, c.c.
−(Yi − Ŷi ), seYi − Ŷi ≤ 0
0, c.c.
=
X · b + e+ − e− = Y
+
ei− =
Modelo de Regressão Linear Normal
Hipótese de Normalidade
Modelo Normal
Yi = β0 + β1 Xi + i ,
I
iid
i ∼ N(0, σ 2 ),
Hipótese de correlação nula vira hipótese de independência dos erros:
ind
Yi ∼ N(E [Yi ], σ 2 ),
I
i = 1, . . . , n
E [Yi ] = β0 + β1 Xi
Hipótese de normalidade (TLC): o termo aleatório (i ) representa a
soma das contribuições de todos os fatores que não foram incluídos
no modelo, mas que afetam a resposta, e que não têm relação com
a var. explicativa X .
Notas:
I Independentemente da distribuição dos erros aleatórios, o método OLS fornece
estimadores BLUE
I Precisamos estabelecer uma distribuição para os erros aleatórios a fim de realizar
inferência estatística
* estimar intervalos de confiança
* testar hipóteses
Modelo de Regressão Linear Normal
Estimação pelo Método da Máxima Verossimilhança (ML – “Maximum Likelihood”)
A lógica do Método ML consiste em encontrar estimadores cujos valores
(estimativas) sejam consistentes com os dados da amostra.
Temos:
ind
2
Yi ∼ N(β0 +β1 Xi , σ )
⇒
f Yi
1
2
exp − 2 (Yi − β0 − β1 Xi )
=√
2σ
2πσ 2
1
Modelo de Regressão Linear Normal II
Estimação pelo Método da Máxima Verossimilhança (ML – “Maximum Likelihood”)
Função de Verossimilhança
L(β0 , β1 , σ 2 ) = fY1 ,...,Yn
n
Y
=
f Yi
(indep.)
i=1
#
"
n
1
1 X
(Yi − β0 − β1 Xi )2
=
exp − 2
2σ
(2πσ)n/2
i=1
Queremos:
max L(β0 , β1 , σ 2 )
β0 ,β1 ,σ 2
Encontramos:
β̂0(ML) = b0(OLS) ,
(Demonstração)
β̂1(ML) = b1(OLS) ,
2
σ̂(ML)
P
(Yi − Ŷi )2
=
n
Modelo de Regressão Linear Normal
Propriedades dos Estimadores de Máxima Verossimilhança
Os estimadores ML para β0 e β1
I
Possuem as mesmas propriedades dos estimadores OLS: BLUE
I
Consistentes
σ 2 [β̂0(ML) ]
I
n→∞
−→
0;
σ 2 [β̂1(ML) ]
n→∞
−→
Suficientes
f (Y1 , . . . , Yn |β̂1(ML) ) = f (Y1 , . . . , Yn );
f (Y1 , . . . , Yn |β̂0(ML) ) = f (Y1 , . . . , Yn )
I
BUE (“best unbiased estimators”)
0
Inferências sobre β1
Distribuição Amostral de b1
Estimador pontual:
b1 =
P
(Xi − X )(Yi − Y )
P
(Xi − X )2
Para o modelo de regressão normal:
b1 ∼ N(E [b1 ], σ 2 [b1 ]);
E [b1 ] = β1
σ2
σ 2 [b1 ] = P
(Xi − X )2
Como chegamos nestes resultados?
Inferências sobre β1
Distribuição Amostral de
b1 −β1
s[b1 ]
Temos:
b1 ∼ N(E [b1 ], σ 2 [b1 ]);
E [b1 ] = β1 ;
σ2
σ 2 [b1 ] = P
(Xi − X )2
Padronizando:
b 1 − β1
∼ N(0, 1);
σ[b1 ]
σ̂[b1 ] = s[b1 ]
=⇒
b 1 − β1
∼?
s[b1 ]
Inferências sobre β1 II
Distribuição Amostral de
b1 −β1
s[b1 ]
NOTA:
Sempre que uma estatística é padronizada mas, no lugar do
desvio-padrão real, utilizarmos um desvio-padrão estimado, temos uma
estatística “studentizada”:
t=
estimador − parâmetro
desvio-padrão estimado
Teorema:
Para o modelo de regressão
b 1 − β1
∼ tn−2
s[b1 ]
(Demonstração)
Inferências sobre β1
Intervalo de Confiança para β1
Temos:
b 1 − β1
∼ tn−2
s[b1 ]
Portanto:
(β )
1
IC(1−α)100%
:
(Demonstração)
b1 ± t α2 ;(n−2) s[b1 ]
Inferências sobre β1
Testes envolvendo β1
Tipo de Teste
Bi-caudal
Mono-caudal à direita
Mono-caudal à esquerda
H0
Ha
Regra de Decisão
(Rej. H0 )
β1 = β1∗
β1 ≤ β1∗
β1 ≥ β1∗
β1 6= β1∗
β1 > β1∗
β1 < β1∗
|t| > tα/2,df
t > tα,df
t < tα,df
Estatística do Teste:
t=
b1 − β1∗
s[b1 ]
NOTA:
– Para β1∗ = 0, se o teste rej. H0 , isto é, conclui-se que β1 6= 0, diz-se
que a X e Y possuem associação estatisticamente linear.
Inferências sobre β0
Raramente estamos preocupados com β0 .
– Apenas quando o escopo do modelo inclui X = 0.
Seja o estimador:
b0 = Y − b1 X
Distribuição Amostral de b0 :
"
2
b0 ∼ N(E [b0 ], σ [b0 ]);
E [b0 ] = β0 ;
2
σ [b0 ] = σ
2
2
#
Estimador para σ 2 [b0 ]:
"
1
X
s 2 [b0 ] = MSE
+P
n
(Xi − X )2
2
1
X
+P
n
(Xi − X )2
#
Inferências sobre β0 II
Analogamente ao caso de b1 , temos:
Distribuição Amostral de
b0 −β0
s[b0 ] :
b 0 − β0
∼ tn−2
s[b0 ]
Intervalo de Confiança para β0 :
(β )
0
IC(1−α)100%
:
b0 ± t α2 ;(n−2) s[b0 ]
NOTA:
– Quando o escopo do modelo não inclui X = 0, o IC para b0 não
necessariamente tem significado prático.
Inferências sobre β1 , β0
Desvios da Normalidade:
I
Se Y ∼N
˙
=⇒ b1 , b0 ∼
˙ N:
Podemos utilizar a estatística t para inferências.
I
Caso contrário, b1 , b0 são assintoticamente normais:
b1 , b0 n→∞
N
−→
Para n grande, podemos ainda realizar inferências utilizando a
estatística Z .
Inferências sobre E [Y |Xi ] = E [Yi ]
Distribuição Amostral de Ŷi
Estimador pontual de E [Yi ]:
Ŷi = b0 + b1 Xi
(Xi pode ser um valor observado na amostra ou qualquer outro valor da
variável explicativa no escopo do modelo.)
Para o modelo de regressão normal:
Ŷi ∼ N(E [Ŷi ], σ 2 [Ŷi ]);
E [Ŷi ] = β0 + β1 Xi
(Xi − X )2
1
σ 2 [Ŷi ] = σ 2
+P
: σ 2 desconhecido
n
(Xi − X )2
(Xi − X )2
1
2
⇒ σ̂ [Ŷi ] = MSE
+P
n
(Xi − X )2
OBS:
– A normalidade decorre do fato de que Ŷi é uma combinação linear de de Yi ,
assim como b0 e b1 .
Inferências sobre E [Y |Xi ] = E [Yi ]
Distribuição Amostral de
Ŷi −E [Yi ]
s[Ŷi ]
Temos, para o modelo de regressão:
Ŷi − E [Yi ]
s[Ŷi ]
∼ tn−2 ,
Portanto:
(E [Y ])
i
IC(1−α)100%
:
Ŷi ± t α2 ;(n−2) s[Ŷi ]
(Demonstração)
NOTA:
– A precisão do IC é máxima quando Xi = X .
Previsão de uma nova observação
Queremos prever a resposta Yo de uma nova observação, correspondendo
ao nível Xo da variável explicativa:
– A nova observação é considerada independente das observações nas
quais baseou-se a construção do modelo de regressão.
– Consideramos válido o modelo de regressão já calibrado.
Intervalo de Previsão de Yo
Caso 1: parâmetros do modelo conhecidos
Temos:
β0 = β0∗ ;
β1 = β1∗ ;
σ 2 = (σ ∗ )2
: conhecidos
Portanto, a reta de regressão é conhecida e vale:
E [Y ] = β0∗ + β1∗ X
Assim, para uma nova observação:
E [Yo ] = β0∗ + β1∗ Xo
O intervalo de previsão pode ser construído:
(Y )
o
IP(1−α)100%
: E [Yo ] ± z(α/2)σ
NOTA:
– O intervalo centrado em E [Yo ] é o mais preciso, consistente com a
probabilidade de uma previsão correta.
Intervalo de Previsão de Yo
Caso 2: parâmetros do modelo desconhecidos
β0 ;
β1 ;
σ2
: precisam ser estimados
Portanto, também precisamos estimar:
E [Yo ] −→ Ŷo ;
σ 2 [Yo ] −→ MSE
Podemos, então, apenas substituir os parâmetros desconhecidos pelos
correspondentes estimadores pontuais no IP acima?
Intervalo de Previsão de Yo
Caso 2: parâmetros do modelo desconhecidos
β0 ;
β1 ;
σ2
: precisam ser estimados
Portanto, também precisamos estimar:
E [Yo ] −→ Ŷo ;
σ 2 [Yo ] −→ MSE
Podemos, então, apenas substituir os parâmetros desconhecidos pelos
correspondentes estimadores pontuais no IP acima?
NÃO!!!
Por que?...
(Ilustração)
Intervalo de Previsão de Yo
Caso 2: parâmetros do modelo desconhecidos
Precisamos levar em conta duas incertezas:
(1) Quanto à possível localização da distribuição de Y
(2) Quanto ao valor amostrado da própria distribuição de Y
A resposta da nova observação pode ser escrita da seguinte forma:
Yo = Ŷo + eprev
⇒
eprev = Yo − Ŷo
Podemos construir a seguinte estatística “studentizada”, para o modelo
de regressão:
eprev
Yo − Ŷo
=
∼ tn−2
s[eprev ]
s[eprev ]
em que
1
(Xo − X )2
s [eprev ] = MSE 1 + + P
n
(Xi − X )2
2
(Demonstração)
Intervalo de Previsão de Yo II
Caso 2: parâmetros do modelo desconhecidos
O intervalo de previsão pode ser construído:
(Y )
o
IP(1−α)100%
: Ŷo ± t α2 ;(n−2) s[eprev ]
NOTA:
– O IP é mais largo para valores de Xo mais distantes de X , ou seja, a
estimativa Ŷo é menos precisa.
– Os limites de previsão são sensíveis a desvios da normalidade.
(Ao contrário de IC para a resposta média, E [Yi ])
IC’s para E [Yi ] × IP’s para Yo
Diferenças Conceituais:
IC: Inferência a respeito de um parâmetro
(a média da distribuição de probabilidade de Yi )
– o intervalo contém com certo nível de confiança o valor verdadeiro
do parâmetro
IP: Declaração a respeito de um valor assumido por uma v.a.
(a nova observação, Yo )
Download