p - EPGE/FGV

Propaganda
REGRESSAO MULTIPLA - complementação
Introdução
O modelo linear de regressão múltipla é da forma:
Y = β 0 + β 1X1 + β 2 X 2 +  + β p X p + ε
sendo classificado como modelo de primeira ordem com (p) variáveis independentes.
onde: Y é a variável de estudo (dependente, explicada, resposta ou endógena);
β0 é o coeficiente linear do modelo, isto é, o valor de E(Y) para X = 0; e
βj é o coeficiente angular da ja. variável, ou seja, a variação no componente
determinístico do modelo, E(Y), para 1 unidade de variação na medida de Xj;
Xj é a ja. variável independente, explicativa ou exógena; e
E (Y ) = β 0 + β 1 X 1 + β 2 X 2 +  + β p X p é o componente determinístico do modelo;
ε é a parte probabilística do modelo (erro aleatório) com média 0 e variância
constante σ 2 .
Utilizando a notação matricial, podemos expressar essa relação por meio de:
Y = X.β + ε,
Observação: Se p=1, o modelo se identifica ao modelo de regressão linear simples.
Para se obter estimativas para os parâmetros β k , são realizadas n observações da variável
Y, ou sejam Yi , i = 1,2,...,n, conforme o esquema seguinte:
A variável X k será identificada por Xik e indicará o valor de X k correspondente à
observação Yi , i = 1,2,..,n e k = 1,2,...,p. De um modo geral as n observações serão
denotadas pelas n equações abaixo:
Yi = β 0 + β 1 X i ,1 + β 2 X i , 2 +  + β p X i , p + ε i
Para i = 1,2,...,n , obtemos as n equações seguintes:
Y1 = β 0 + β 1 X 1,1 + β 2 X 1, 2 +  + β p X 1, p + ε 1
Y2 = β 0 + β 1 X 2,1 + β 2 X 2, 2 +  + β p X 2, p + ε
2
.......................................................................
.......................................................................
Yn = β 0 + β 1 X n ,1 + β 2 X n , 2 +  + β p X n , p + ε
n
Apresentação matricial do modelo
Uma forma simples e muito útil para representar o modelo de regressão linear múltipla é
através da representação matricial das equações acima. Para isto consideremos as
definições dos seguintes vetores e matrizes:
 1 X 11
 Y1 

 
 1 X 21
 Y2 
X = 
Y=  




 
1 X
Y 
n1

 n  nX 1
X 1p 

 X 2p 

 

 X np 

nX ( p + 1)
β0
ε1


 
 β1
ε 
β = 
ε =  2 .





 
β 
ε 
 p  ( p + 1) X 1
 n  nX 1
De modo que:
 Y1   1 X 11
  
 Y2   1 X 21
   = 

  
 Y  1 X
n1
 n 
X 1p 

 X 2p 

 

 X np 

 β 0 ε1

  
 β1 ε 2
   +   

  
 β  ε 
 p  n
A representação matricial das equações se torna:
Y = Xβ + ε
As hipóteses básicas para construir o modelo de regressão linear múltipla são:
β é um vetor de parâmetros desconhecidos.
X é uma matriz de valores fixados.
ε é um vetor aleatório com distribuição normal tal que:
2
E(ε) = 0 e E ( ε ε ′ ) = σ I n .
Com respeito à última hipótese, temos que E ( ε i ) = 0 para todo i =1,2,...,n, e, portanto
 ε 1   E ( ε 1 )   0
 ε   E ε   0
 2  ( 2)   r
E .  =  .  =  . = 0
  
  
 .   .   .
 ε n   E ( ε n )   0 


Além disso,
 ε 1ε 1 ε 1ε 2
ε ε ε ε
 2 1 2 2
E( ε ε ′) = E  −
−

−
 −
 ε n ε 1 ε n ε 2
−
−
−
−
−
−
−
−
−
−
ε 1ε n 
ε 2ε n 

− 

− 
ε n ε n 
ou
 Var(ε 1 ) Cov(ε 1ε 2 )
 Cov(ε ε ) Var(ε )
2 1
2

E( ε ε ′) = 
−
−

−
−

 Cov(ε n ε 1 ) Cov(ε n ε 2 )
−
−
−
−
−
−
−
−
−
−
Cov(ε 1ε n ) 
Cov(ε 2 ε n ) 


−

−

Var(ε n ) 
2
Como E ( ε ε ′ ) = σ I n para todo i = 1,2,...,n, a matriz acima se transforma em
σ 2

 0
E( ε ε ′) =  −

 0
 0

0
0
0
σ2
0
0
−
−
−
0
0
0 σ2
0 0
0

0
2
−  = σ In

0
σ 2 
Os termos da diagonal principal mostram que os erros satisfazem a condição de
homocedasticidade, e aqueles fora da diagonal mostram que os erros são não
correlacionados e portanto independentes, pois têm distribuição normal.
Estimadores de mínimos quadrados do vetor de parâmetros β
Analogamente ao processo de estimação estudado em regressão linear simples, o critério
dos mínimos quadrados consiste em minimizar soma dos quadrados dos erros.
Em termos matriciais, escrevemos:
Y = Xβ + ε
e
E ( Y ) = E ( Xβ + ε ) = Xβ + E ( ε ) = Xβ
De maneira que,
ε = Y − Xβ
A soma dos quadrados dos erros pode ser escrita matricialmente, como segue
SQErros =
n
∑ (ε )
i= 1
2
= ( Y − Xβ
) ' (Y −
Xβ
)
ou
SQErros = Y 'Y − β ' X 'Y − Y ' Xβ + β ' X ' Xβ = Y 'Y − β ' X 'Y − β ' X 'Y + β ' X ' Xβ

escalar
Logo,
SQErros = Y 'Y − 2β ' X 'Y + β ' X ' Xβ .
Derivando S em relação a β,
∂ SQ Erros
= − 2 X ' Y + 2 X ' Xβ
∂β
Igualando-se a zero, obtemos
∂ SQ Erros
= − 2 X ' Y + 2 X ' Xβ
∂β
X′ Y = X′ Xβ
−1
βˆ = ( X′ X ) X′ Y
A reta de mínimos quadrados ajustada é dada pelas equações na forma matricial,
Ŷ = Xβˆ
Cálculo da média do estimador βˆ
Substituindo-se Y = Xβ + ε no estimador de βˆ , temos
−1
βˆ = ( X′ X ) X′ [ Xβ + ε ]
−1
−1
βˆ = ( X′ X ) X′ Xβ + ( X′ X ) X′ ε
−1
βˆ = β + ( X′ X ) X′ ε
Calculando a média
E(βˆ ) = β + ( X′ X ) X′ E(ε )
−1
( )
ou E βˆ = β
Assim, o vetor de estimadores de mínimos quadrados é composto por estimadores não
tendenciosos dos parâmetros β k , k = 0,1,2,...,p.
Cálculo da variância do estimador βˆ
( )
Como E βˆ k = β k para k = 0,1,2,...,p, então a variância de βˆ k é calculada por
2
Var(βˆ k ) = E  βˆ k − β k  ,

Por outro lado E  βˆ − β

(
E

(


'

βˆ − β βˆ − β  = E 




)(
′
) ( βˆ − β ) 
para k = 0,1,2,...,p-1.
define a seguinte matriz de covariância.
( βˆ − β )
( βˆ − β )( βˆ − β )
( βˆ − β )( βˆ − β ) ( βˆ − β )
2
0
)
1
(
0
1
0
0
0

βˆ p − β
p
)(
βˆ 0 − β
0
0
1
2
1
) (
1
1

βˆ p − β
p
)(
βˆ 1− β 1
)



( βˆ − β )( βˆ − β )
( βˆ − β )( βˆ − β ) 
0
0
p
p
1
1
p
p
(


ˆ
β p− β p
)
2



Esta matriz contém as variâncias dos estimadores βˆ em sua diagonal principal e as
covariâncias entre os mesmos estimadores nas demais células.
Por outro lado,
−1
βˆ = β + ( X′ X ) X′ ε
−1
βˆ − β = ( X′ X ) X′ ε
Então a variância de βˆ é calculada por

Var(βˆ ) = E  βˆ − β

(
′
) ( βˆ − β )  = E  ( X′X )
−1
−1
X′ ε ε ′ X ( X ′ X ) 

Var(βˆ ) = ( X′ X ) X′ E(ε ε ′ )X ( X′ X )
−1
Var(βˆ ) = σ 2 I n ( X′ X ) (X′ X) ( X′ X )
−1
−1
−1
Finalmente, obtemos a variância do estimador βˆ
Var(βˆ ) = σ 2 ( X′ X )
−1
Estimador da variância σ
2
ˆ , i = 1,2,...,n. Sob a forma matricial
Denotemos o resíduo da regressão por ei = Yi − Y
i
escrevemos
e = Y − Xβˆ
Substituindo-se Y e βˆ por seus respectivos valores, o vetor de resíduos é então:
−1
e = Xβ + ε − X  ( X′ X ) X′ Y 


−1
e = Xβ + ε − X  ( X′ X ) X′ (Xβ + ε ) 


−1
e = Xβ + ε − X  β + ( X′ X ) X′ ε 


e = Xβ + ε − Xβ − X ( X′ X ) X′ ε
−1
Finalmente o vetor de resíduos é escrito sob a forma,
−1
e =  I n − X ( X′ X ) X′  ε


e isto significa que o vetor de resíduos é uma combinação linear dos erros ε.
−1
Seja H = X ( X ' X ) X ' , H é uma matriz quadrada de ordem n .
Então:
SQRe s = Y ' [ I − H ]Y
A matriz H é chamada de matriz chapéu ou de matriz de projeção pois ela transforma Y
em Ŷ .
HY = X ( X ' X ) X 'Y = Xβˆ
−1
Podemos escrever:
e = Y − Yˆ = Y − HY = ( I − H )Y
(
)
Repare que a matriz H exerce um papel importante na análise dos resíduos na busca de
outliers e valores influentes
A matriz H é uma matriz simétrica, pois: H = X ( X ' X ) X ' = H ' = X ( X ' X ) X '
e idempotente,
−1
[
][
H × H = X(X'X) X ' X(X'X)
−1
−1
] = X(X X )
'
−1
(
X 'X X 'X
−1
)
−1
(
X ' = X X 'X
)
−1
X' = H
[
]
Por outro lado, seja a matriz A = I n − X ( X ' X ) X ' da relação
−1
[
(
)
]
−1
e = In − X X ' X X ' ε
e = Aε .
A é simétrica e idempotente, conforme verificaremos a seguir:
A é simétrica pois:
A = I n − X ( X′ X ) X′
−1
A′ = I′n − X ( X′ X ) X′ = I n − X ( X′ X ) X′ = A
−1
−1
A é idempotente pois:
−1
−1
A × A =  I n − X ( X′ X ) X′   I n − X ( X′ X ) X′ 



A 2 = I n − X ( X′ X ) X′ − X ( X′ X ) X′ + X ( X′ X ) X′ .X ( X′ X ) X′
−1
−1
−1
−1
A 2 = I n − 2X ( X′ X ) X′ + X ( X′ X ) X′
−1
−1
A 2 = I n − X ( X′ X ) X′
−1
Então, a soma dos quadrados dos resíduos é obtida por
e ' e = ε ' A ' Aε
e ' e = ε ' Aε
[
(
e 'e = ε ' I n − X X ' X

)
−1
]
X'ε
Agora abriremos um parênteses para exibir alguns resultados matrizes importantes
para finalizar a demonstração:
1. Se M é uma matriz quadrada de dimensão n e se para i = 1,2,...,n , E( ε i ) = 0 e Var( ε i )
= σ 2 In , então
E [ ε ′ Mε ] = σ 2 tr(M) .
Exemplo:

 1 2  ε 1  
2
2
2
E[ ε1 ε 2] 
  ε   = E  ε 1 + 3ε 1ε 2 + 2ε 1ε 2 + 4ε 2  = 5σ
3
4

  2 

2. Se M é uma matriz quadrada, tr(M) = tr( M′ ).
3. Dadas as matrizes quadradas A e B, se AB e BA existem, tr(AB)=tr(BA).
4. Dadas as matrizes quadradas A, B e C, se os produtos entre elas existem, então
tr(ABC)=tr(BCA)=tr(CAB).
5. Dadas duas matrizes quadradas A e B, tr(A-B) = tr(A)-tr(B)

Utilizando os resultados acima calculemos a esperança das soma dos quadrados dos
resíduos
( )
{[
(
E e 'e = E ε ' I n − X X ' X
( )
E e 'e = σ
2
)
−1
]}
[tr( I ) − tr[ X ( X X ) X ]
X X ] = σ [ n − tr [ I ]]
X'ε = σ
[n − tr[( X X )
'
( )
E e'e = σ
−1
2
'
−1
'
n
'
2
p
2
[ n − p]
Desta maneira a média da soma dos quadrados dos resíduos é igual à variância dos erros,
multiplicada pela diferença entre o número de observações e o número de parâmetros a
serem estimados no modelo de regressão linear múltipla.
Logo um estimador não tendencioso para a variância do modelo, é:
1
E (e 'e) = σ 2
n− p
 e'e 
 = σ
E 
 n− p
n
2
σˆ 2 = σˆ ε =
∑
i= 1
ei2
n− p
2
Download