1 Notas de Aulas – Econometria I- EPGE/FGV © Eduardo P. Ribeiro

Propaganda
Notas de Aulas – Econometria I- EPGE/FGV
© Eduardo P. Ribeiro, 2008
*Hipóteses do Modelo Clássico de Regressão Linear
(0) Modelo é linear => yi = α + β1 x1i + .... + βk x ki + εi
Do ponto de vista estatístico, quero que a média do y seja dada pelo modelo linear:
E [y|xi,..,xk] = E [y|X] = α + β1 x1 + .... + βk xk + E[ε|X]
= α + β1 x1i + .... + βk xki
Isto implica em E[ε|X] = 0.
Em outras palavras:
(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).
(3) As variáveis explicativas X1,..,Xk não são combinações lineares entre si.
Outras hipóteses feitas no Modelo Clássico de Regressão Linear
(4) V [εi|X] = σ2, erros têm variância constante.
(5) E [εi εj] = 0, i≠j, erros são independentes entre si.
(6) εi ~ iid N ( 0, σ2)
Todavia, apenas (0) e (3) são importantes para estimação por Mínimos Quadrados.
Já na estimação por Máxima Verossimilhança, (0)-(6) são importantes.
Obs: Pela hipótese dos erros serem independentes entre si, E(εi εj ) = 0 = Cov(εi εj ).
*Como achar os coeficientes do modelo?
Mínimos Quadrados: Para achar α e β, busco errar pouco no desenho da reta de
regressão. Ou seja, tenho de minimizar os erros (ao quadrado):
Min L(α, β, y, x ) <-> Min (yi – α – β1 x1i- ... - βk xki)2
Vejamos as condições de 1a ordem:
(i) ∂L/∂α = Σ 2(yi – a – b1 x1- ... - bkxk)(-1) = 0
(ii) ∂L/∂β = Σ 2(yi – a – b1 x1- ... - bkxk)(-xji) = 0 para j = 1,...,k
Note que (i) implica que Σ ei = 0
Já (ii) implica que, Σ ei xji = 0 para j = 1,...,k. Compare com a hipótese (2), que afirma
que x e ε são ortogonais. Se esta hipótese não é válida, os coeficientes βk não serão bem
estimados.
1
Resolvendo as condições de 1a ordem (escritas em notação matricial):
(i) X´ε = 0
(ii) X´ (Y – X b) = 0
Temos que:
X´Y – X´X b = 0 ->
b = (X´X)-1 X´Y
No caso da constante, em particular, temos a partir da condição de primeira ordem:
n a = Σ yi – b1 Σ xji - ... – bk Σ xki -> a = Y − bX
A hipótese (3) é indispensável ao modelo. Desta forma não há como ter a matriz inversa
(X´X)-1. Se as explicativas são combinações lineares entre si, det(X´X) = 0, e, portanto,
não será possível calcular a inversa da matriz.
Método dos Momentos (MM): Note que podemos encontrar α e β se partimos de (1) e
(2), ajustados para uma amostra.
E[εi] = 0 -> n-1Σei = 0
E [Xi εi] = 0 -> n-1Σ[Xi ei] = 0
que são condições de primeira ordem de mínimos quadrados ordinários (MQO).
Obs: Note que, em regressão simples (k=1), a fórmula do estimador de b, ou seja,
b=Σ(yi – my)xi / Σ(xi – mx)2,
que é equivalente à formula mais conhecida:
b=Σ(yi – my)(xi – mx) / Σ(xi – mx)2,
onde mx = n-1 Σ xi, e my = n-1 Σ yi, ou seja, a média amostral de x e y, respectivamente.
Avaliação da Regressão
Dividindo a variabilidade da variável dependente, a partir da identidade yi ≡ ŷ i + ei e das
condições de primeira ordem do problema de mínimos quadrados:
SQT
=
SQE + SQR
n
n
2
2
2
∑i =1 (yi − m y ) = ∑i =1 (yˆ − m y ) + ∑i=1 ei
n
Pode-se construir o coeficiente de determinação (R2):
R2 = SQE / SQT = 1 – SQR/SQT
Obs: como o próprio nome diz, R2= (Cor(yi ; ŷ i ))2.
2
Testes de Hipóteses
Para testes de hipóteses é necessário identificar quais as propriedades estatísticas do
vetor de coeficientes estimados b, ou seja, sua média, sua variância e sua distribuição:
Propriedades do Estimador de MQO
Y = Xβ + ε
b = (X´X)-1(X´Y)
E[b|X] = E[(X´X)-1X´(Xβ + ε)|X] = E[(X´X)-1X´Xβ |X] + E[(X´X)-1X´ε |X]
= E[β|X] + E[(X´X)-1X´ε |X] = β + (X´X)-1X´ E[ε|X ] = β
Foram utilizadas as seguintes hipóteses sobre o erro:
(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).
V[b|X] = E [(b – E[b])( b – E[b])´ |X]
= E [(β + (X´X)-1X´ε – β) (β + (X´X)-1X´e – β)´|X]
= E [((X´X)-1X´ε)( ε ´X (X´X)-1|X) = (X´X)-1X´E[εε ´|X]X (X´X)-1
= σ2(X´X)-1X´ I X (X´X)-1
= σ2 (X´X)-1
Foram utilizadas as hipóteses sobre o erro:
(1) E [εi] = 0, média do erro é zero.
(2)E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).
(3) V [εi|X] = σ2, erros têm variância constante.
(4) E [εi εj] = 0, i≠j, erros são independentes entre si.
Que em notação matricial podem ser escritas como
⎡ ε 12 ε 1ε 2
⎢
2
⎢ε 2 ε 1 ε 2
E [εε´] = E ⎢ .
⎢
⎢ .
⎢ε ε
⎣ n 1
.
ε 1ε n ⎤ ⎡σ 2
.
⎥ ⎢
⎥ ⎢
⎥ =⎢
⎥ ⎢
⎥ ⎢
2 ⎥
ε n ⎦ ⎢⎣
.
.
0
0
σ
.
.
0
.
2
.
0⎤
⎥
⎥
⎥ = σ2 I
⎥
.
⎥
2⎥
σ ⎦
.
Note que a V(b) é uma matriz (k+1)x(k+1).
Cov(ab1 )
⎡ V (a)
⎢ Cov(b a )
V (b1 )
1
⎢
V(b) = ⎢
.
⎢
.
⎢
⎢⎣Cov(bk a )
.
.
.
.
Cov(abk )⎤
⎥
⎥
⎥
⎥
⎥
V (bk ) ⎥⎦
Na prática, σ2 pode ser estimado por s2 = (n –(k+1))-1Σei2.
3
Por fim, como o estimador de MQO (ou MM) é uma função linear de y, que é uma
função linear de ε, pela hipótese (6) e a propriedade da distribuição Normal,
b|X~N(β, σ2(X´X)-1)
Com isto, podemos ter o resultado a partir das propriedades (se Zj ~ N(0,1), para j =
1,..,p independente, Lembrando que Z12+ Z22 + ...+ Zp2 ~χ2p ),
2
(b –β)´[σ2(X´X)-1]-1(b –β)~χ p.
Para transformações lineares de b, através de uma matriz R,, isto é Rb=r podemos
escrever
2
(Rb-r)´[Rσ2(X´X)-1R´]-1(Rb-r)~χ p
Note que o posto de Rb é dado por p, se R tem tamanho p X (k+1). Para usar o resultado
empiricamente, necessitamos de uma estimativa de σ2, que é dada por s2 como definido
acima. Desta forma, pode-se escrever
F=
(R βˆ -r)´[R(X´X)-1R´]-1(R βˆ -r)/p
SQR /(n-k-1)
~ Fp, n-k-1
Outra forma de escrever a expressão acima, explora a diferença entre SQR de dois
modelos, um restrito (onde a hipótese, ou condição Rb=r é imposta), SQRr, e um
irrestrito SQRi, em que o modelo é estimado livremente. O SQRi nada mais é do que a
soma dos quadrados dos resíduos empregado para calcular a variância dos erros.
F=
(SQRr – SQRi )/p
SQRi /(n-k-1)
~ Fp, n-k-1
Exemplos de Testes de Hipóteses:
a) Rβ = r
B = [ A β1 β2 β3 β4 ]
Ho: β1 = 0
B
R
⎡ A⎤
⎢ β 1⎥
⎢ ⎥
[ 0 1 0 0 0 ] ⎢ β 2 ⎥ = β1 = r = 0
⎢ ⎥
⎢ β 3⎥
⎢⎣ β 4⎥⎦
4
b) Rβ = r
B = [ A β1 β2 β3 β4 ]
Ho: β1 = 0 β2 = 0
B
R
⎡0
⎢0
⎣
⎡ A⎤
⎢ β 1⎥
10 0 0 ⎤ ⎢ ⎥
⎡0 ⎤
⎢ β 2⎥ = ⎢ ⎥
⎥
010 0 ⎦ ⎢ ⎥
⎣0 ⎦
β
3
⎢ ⎥
⎢⎣ β 4⎥⎦
c) Ho: β1 = β2 -> β1 – β2 = 0
⎡ A⎤
⎢ β 1⎥
⎢ ⎥
[ 0 1 -1 0 0] ⎢ β 2⎥ = [ 0 ]
⎢ ⎥
⎢ β 3⎥
⎢⎣ β 4⎥⎦
Teste de Hipóteses:
1) Teste de significância de um coeficiente angular
Ho: βj = 0
βj ≠ 0
T=
bj –0
~tn-(k+1)
(V(bj))1/2
2) Teste ANOVA
Ho: β1 = β2 = ... = βk = 0
Ha: pelo menos um diferente de zero
F=
(SQRr – SQRi)/p ~ Fp, n-k-1
SQRi /(n-k-1)
onde SQRr é baseado em um modelo restrito (sob H0), que neste caso é yi = α + εi, e
SQRi é baseado em um modelo irrestrito (sem imposição de hipótese alguma).
5
Ou
(R2)/p
(1-R2) /(n-k-1)
F=
~ Fp, n-k-1
Resultados em Grandes Amostras
Muitas vezes não temos como avaliar as propriedades dos estimadores usando valor
esperado. Desta forma, o second best passa a ser avaliar as propriedades dos
estimadores em um condição ideal de uma amostra crescente (até o infinito). Para isto
emprega-se o conceito de convergência de estimadores e resultados estatísticos da
forma de Teorema Central do Limite.
Convergência de estimadores: a medida que aumenta n, variância de um estimador cai.
Isso implica queda da margem de erro do estimador e em uma amostra hipoteticamente
infinita, o estimador passa a ter apenas o valor do parâmetro na população.
Teorema Central do Limite: Somas de variáveis aleatórias independentes padronizadas
têm uma distribuição que se aproxima da Normal Padrão, à medida que a amostra
aumenta.
A distribuição da média da população tem distribuição Normal. Estimadores
lineares, como os coeficientes de MQO, têm distribuição Normal. A distribuição da
média tende a ser simétrica.
V (X ) = (σ2x/n)1/2.
Lembrando:
Teste de Hipóteses:
ERRO TIPO 1: rejeito Ho e Ho é verdadeiro (alfa)
ERRO TIPO 2: aceito Ho e Ho é falso
Realidade \ Decisão
Ho verdadeiro
Aceito Ho
(1 – α) nível de confiança
Ho falso
Erro do tipo II (β)
Rejeito Ho
Erro do tipo I (α) (tamanho
do teste / nível de
significância)
(1 – β )(potência/poder do
teste)
6
Como aumentar o poder do teste: aumenta-se o tamanho da amostra e, com isso,
aumenta-se a segurança (vou me aproximar do alfa verdadeiro).
Variáveis Explicativas Binárias (Dummies)
Quando há variáveis qualitativas como explicativas, não devemos incluí-las usando uma
escala numérica qualquer, pois variáveis qualitativas não são cardinais. Desta forma,
para uma variável qualitativa com D categorias deve ser incluída na regressão através de
D-1 variáveis binárias (dummy). Para evitar que a matriz X deixe de ser posto completo
usamos apenas D-1 variáveis explicativas (a chamada dummy trap).
Por exemplo, considere uma regressão rendimentos, com gênero (Masculino e
Feminino) como explicativa yi =α+β(gênero)i+εi . Há duas categorias e escolhemos
uma delas para a dummy (no caso, feminino). Cria-se uma variável Fi ={1 se
gênero=Fem; 0 se gênero=Masc.}. A regressão passa a ser yi =α+βFi+εi.
A questão mais importante é a interpretação dos coeficientes: lembrando, que sob as
hipótese do MCRL a reta de regressão é a média condicional, temos E(y|masc)= α (pois
neste caso, Fi=0) e E(y|fem)= α+β. Com isto, β=E(y|fem) –E(y|masc), ou seja a
diferença de médias entre a categoria analisada e aquela excluída na construção da(s)
dummy(ies).
No caso de mais de uma variável qualitativa, devem ser incluídas variáveis dummies
para cada uma, mantendo a regra de exclusão de uma das categorias de cada uma das
variáveis do grupo de dummies que é incluída na regressão. Em adição, deve-se
considerar a possibilidade de interação entre as dummies das diferentes variáveis
qualitativas. Esta possibilidade pode ser desconsiderada no caso de independência entre
as qualitativas.
Por exemplo yi =α+β(gênero)i+γ(cor)i +εi, onde cor={Branco; Não-Branco}. Criando
Bi ={1 se cor=Branco; 0 se cor=Não-Branco}, temos a regressão múltipla:
yi =α+βFi+γBi +εi
onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ .
e com isto, a interpretação dos coeficientes é
β= E(y|Fem, NBranco) – E(y|Masc, NBranco)
β= E(y|Fem, Branco) – E(y|Masc, Branco)
e
γ= E(y|Masc, Branco) – E(y|Masc, NBranco)
γ= E(y|Fem, Branco) – E(y|Fem, NBranco)
7
Como há duas interpretações de β, pode-se concluir que gênero é independente de cor,
para que as duas expressões de β sejam válidas. Por exemplo, para o caso de gênero, β=
E(y|Masc, NBranco) – E(y|Fem, NBranco)= E(y|Masc) – E(y|Fem).
No caso de interação entre as dummies (não independência), temos o seguinte modelo
yi =α+βFi+γBi + δ FiBi+εi
onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ + δ .
As diferenças passam a ser
β= E(y|Fem, NBranco) – E(y|Masc, NBranco)
γ= E(y|Masc, Branco) – E(y|Masc, Branco)
e
δ= [E(y|Fem, Branco) – E(y|Masc, Branco) ] – [ E(y|Fem, NBranco) –
E(y|Masc, NBranco) ]
Interpretação dos coeficientes de regressão (quando estimadas por MQO)
Matematicamente, não há dúvidas na interpretação de βk no modelo de regressão yi = α
+ β1 x1i + .... + βk xki + εi, pois ∂y/∂xk=βk (efeito da mudança de xk sobre y, mantidos
os outros fatores x e ε constantes). Note que ∂ε/∂xk=0, ou seja, o erro não depende de xk.
Como é a interpretação nas estimativas, visto que as explicativas em geral são
correlacionadas? Considere uma regressão múltipla com k=2 (para simplificar a
exposição, desconsidere a constante)
Y = β1 X1 + β2X2 + ε
Como interpretar b2? Quando b2 é obtido através da fórmula de MQO na regressão
múltipla:
[b1 b2]´= b=(X´X)-1X´Y
Voltando às condições de primeira ordem X´e=0, ou X´(Xb – Y)=0 ou (X´X) b –
(X´Y)=0. Explicitando o conteúdo do vetor b, as duas condições para estimação podem
ser escritas como
(X1´X1) b1 + (X1´X2) b2 – (X1´Y)=0
(X2´X1) b1 + (X2´X2) b2 – (X2´Y)=0
ou
(A11) b1 + (A12) b2 – (X1´Y)=0
(A21) b1 + (A22) b2 – (X2´Y)=0
8
Resolvendo na primeira equação para b2= –A22-1A21b1 + A22-1(X2´Y) e substituindo na
segunda equação
(A12)[ –A22-1A21b1 + A22-1(X2´Y)] + (A11) b1 – (X1´Y)=0
[(A11) – A12A22-1A21]b1 – [– A12 A22-1(X2´Y)+ (X1´Y)]=0
[X1´X1 –(X1´X2) (X2´X2)-1 X2´X1]b1 – [X1 – (X1´X2) (X2´X2)-1X2]´Y=0
[X1´(I – X2(X2´X2)-1X2´)X1]b1 – X1´(I – X2(X2´X2)-1X2´)Y=0
[X1´M2 X1]b1 – (X1´M2Y)=0
b1 =[X1´M2 X1]-1(X1´M2Y).
Mas o que é a matriz M? Tomemos o caso geral:
e=Y–Xb = Y – X(X´X)-1X`Y = (I – X(X´X)-1X`)Y, ou seja, e=MXY
Dois resultados: MM=M (idempotente) e M´=M (simétrica).
Com isto, podemos escrever
b1 =[X1´M2´M2 X1]-1(X1´M2´M2Y).
b2 =[(M2 X1)´(M2 X1)]-1[(M2 X1)´(M2Y)]
onde M2X1= resíduos de uma regressão de X2 em X1, i.e., X1 = δX2 + erro e M2Y=
resíduos de uma regressão simples de Y em X2, i.e., Y = α2X2 + erro. Ou seja, como os
resíduos representam a informação (variabilidade) de X1 não contida em X2 (ou seja X1
“limpo” de qualquer possível relação linear com X2), o coeficiente b1 pode ser
interpretado como o efeito de X1 sobre Y, “limpo” de qualquer efeito direto e indireto de
X2 sobre Y e X1, respectivamente. Em outras palavras, b1 mede o efeito de X1 sobre Y,
mantidos fixos as outras variáveis incluídas na regressão. Note que, por suposição,
como X1 é independente do erro, as variáveis que compõe o erro são consideradas fixas,
em termos de média condicional também.
Para completar a compreensão, vejamos o caso oposto, ou seja, em um modelo de
regressão múltipla, qual o efeito de omitirmos uma variável explicativa relevante (que
faz parte do modelo. De modo simétrico, vamos considerar que a variável X2 será
omitida. O modelo passa a ser Y = β1X1 + erro e com isto o estimador de mínimos
quadrados b*1=(X1`X1)-1(X1´Y).
Seu valor esperado é
E[b*1]= E[(X1`X1)-1(X1´Y)= E[(X1`X1)-1X1´(X1β1 + X2β2 + ε)]
= β1 + (X1`X1)-1X1´ X2 β2 + E[(X1`X1)-1X1´ε] = β1 + (X2`X2)-1X2´X1 β1
= β1 + δ β2
onde δ é o coeficiente da regressão de X1 em X2 (a regressão reversa do ítem anterior),
isto é, X2= γ X1 + erro. Note que o estimador de b*1 neste caso é viesado, exceto no
caso de X1 e X2 serem independentes (pois assim δ=0).
Um modo de interpretar o resultado seria: Se a regressão é múltipla, e estimamos uma
regressão simples, a estimativa obtida é uma mistura do efeito direto e do efeito indireto
da variação de Xk de interesse. Usando o exemplo acima, definimos
E[b*1]=
β1
+
γ β2
Efeito direto
Efeito indireto
9
Ou, por meio de uma figura,
X1
β1
Y
γ
δ
β2
X2
Teste para Quebra Estrutural:
Amostra se divide em dois grupos, onde os grupos possuem modelos de regressão
diferentes:
yi = α1 + β1 Xi + εi
i = 1, ..m
yi = α2 + β2 Xi + εi
Sob Ho: (não há quebra estrutural)
i = m + 1, ..n
Yi = α + β Xi + ei
i = 1, ..n
Ho: α1 = α2 e β1 =β2
Ha: α1 ≠ α2 e β1 ≠ β2
Ou
Ho: α1 – α2 = 0
Ha: α1 – α2 = 0
ou
β1 – β2 ≠ 0
β1 – β2 = 0
Usando variáveis dummies iremos colocar as duas equações em uma só, combinando os
modelos. Defina
di = {0, se i = 1,..., m;
1, se i = m+1..,n}
Colocando no modelo:
yi = γ0 + γ1 Xi + γ2di + γ3(di Xi) + εi
Se a observação pertence à primeira parte dos dados, temos:
10
yi = γ0 + γ1 Xi + εi
i = 1, ..m
Se a observação pertence à segunda parte dos dados, temos:
yi = (γ0 + γ2) + (γ1 + γ3)Xi + εi
Ou seja, α2 = (γ0 + γ2) e γ = (γ1 + γ3). Isto implica que a hipótese nula pode ser reescrita
como Ho: γ2 = 0 e γ3=0 e testada através da estimação dos modelos restritos e irrestrito:
F = (SQRr – (SQR1 + SQR2)) / (SQR1 + SQR2) . (n – 2(k +1))/ (k+1)
Onde SQR1 é a soma dos quadrados dos resíduos do primeiro modelo (i=1,..., m) e
SQR2 é a soma dos quadrados dos resíduos do segundo modelo (i=m+1,..., n). SQRr é a
soma dos quadrados dos resíduos do modelo restrito, onde há igualdade de coeficientes
entre grupos, e =1,..., n.
Obs: quando há poucas observações, pode ser que a conclusão de quebra estrutural seja
contraditório entre um modelo com “dummies de intercepto” e outro com dummies de
intercepto e inclinação. Isto é: Rodando o modelo, o coeficientes γ2 e γ3 não são
significativos, mas estimando um modelo apenas com γ2 ele é significativo e estimando
um modelo apenas com γ3 ele é significativo também.
11
Multicolinearidade
Multicolinearidade Perfeita: violação da hipótese “As variáveis explicativas X1,..,Xk não
são combinações lineares entre si.”. Em outras palavras, o posto da matriz X não é k+1.
Neste caso, não é possível obter estimativas por MQO.
Multicolinearidade: altíssima correlação entre variáveis explicativas.
Isto não gera estimativas viesadas ou altera a forma da matriz de variância-covariância.
Mas “infla” os desvios padrões de cada coeficiente (pela matriz (X´X)-1 ter termos muito
grandes). Este é o problema da multicolinearidade.
Com isto, passa a ser comum ter (pares) de coeficientes com estatísticas t pequenas, mas
com testes F conjuntos de exclusão rejeitados. Este é o sintoma de multicolinearidade.
Outro modo de identificar, seria através do cálculo do FIV(bk)=1/(1 – Rk2), o fator de
inflação da variância de um parâmetro bk e onde Rk2 é o coeficiente de determinação da
regressão de xk em x1, ..., xk-1. Se este for alto, é possível que o problema da
multicolinearidade esteja presente. Diz-se “possível”, pois um alto FIC não é condição
necessária nem suficiente para o problema de multicolinearidade, já que pode-se
demonstrar que V(bk)=σ2/(Skk(1–Rk2)), onde Skk= Σ(xki – mxk)2,
O que ocorre é que há duas variáveis explicativas com o mesmo conteúdo informacional
(variabilidade similar, i.e., altamente correlacionada). Com isto, o método de mínimos
quadrados não consegue distinguir entre os efeitos diretos e indiretos das variáveis.
Embora haja soluções ditas ad-hoc como o método de ridge regression e o uso de
análise fatorial, talvez o mais razoável seja pensarmos no problema e identificarmos
qual variável (dentre aquelas que tem, na prática, a mesma informação) é a mais
importante e/ou a mais representativa.
Heterocedasticidade
Heterocedasticidade: violação da hipótese do MCRL: V [εi|X] = σ2, erros têm variância
constante. Agora, V [εi|X] = σi2 = f(γ0 + γ 1z1i+... + γ pzpi)
Como esta hipótese é importante para demonstrar que V(b)=σ2(X´X)-1, se violarmos a
hipótese de homocedasticidade, os pacotes estatísticos irão errar no cálculo do desvio
padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o problema da
heterocedasticidade. O estimador de MQO ainda irá gerar estimativas não –viesadas.
Na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde Ω é uma matriz diagonal com elemento
da diagonal igual a σi2. Para identificar o problema, é necessário fazer testes de
especificação. Este é o diagnóstico. Os testes mais comuns são os de White e de BreushPagan, que são equivalentes, a grosso modo. O teste busca avaliar a heterocedasticidade,
através de um teste de H0:homocedasticidade; Ha:heterocedasticidade ou
12
H0: γ1=...=γp=0. O teste supõe que f( ) acima é linear, que uma estimativa de σi2 pode
ser dada por ei2. Os testes diferem pela hipótese de z: alguns usam as variáveis x, outros
usam as variáveis x e seus quadrados.
Uma vez identificado o problema de heterocedasticidade, a solução têm duas formas.
Primeiro, o uso de uma matriz de variância-covariância dos coeficientes ajustada para
heterocedasticidade (a chamada Matriz de White) que é uma estimativa de V(b) = (X´X)1
X´ΩX(X´X)-1, implementada no EViews, como uma option em Least Squares na hora de
Estimate Equation. Segundo a transformação das variáveis explicativas e explicadas,
para obter, de modo indireto, estimativas por mínimos quadrados generalizados (MQG
ou GLS em inglês).
O problema de MQG é obter estimativas de β, tal que, dado E(εε´)=Ω ,
MQG: Minβ Σε2t wt
ou
Min (Y - Xβ)´ Ω-1(Y - Xβ)
bGLS = (X´ Ω-1X)-1 (X´ Ω–1Y)
com V(bGLS) = (X´Ω-1X)-1. bGLS pode ser calculado através de transformação das
explicativas e explicadas, tal que bGLS = (X*´X*) -1(X*´Y*), onde X* = PX Y* = PY e
onde P´P = Ω –1. Para o caso de heterocedasticidade, a sugestão é multiplicar cada
observação por (1/si), onde si2 é obtido a partir da estimação do teste de White/BreushPagan, em um processo interativo. Todavia, é possível demonstrar que este método de
MQG factível gera estimativas viesadas, quando temos o caso usual de σi2
desconhecido. O melhor é a estimação por Máxima Verossimilhança, se sabemos a
distribuição dos erros e a forma da heterocedasticidade.
Autocorrelação
Autocorrelação: violação da hipótese: E [εt. εt-s] = 0, para s > 0, como por exemplo, εt
= ρ εt-1 + υt, onde υt é ruído branco). Neste caso E(εε´)=Ω,
Como esta hipótese é importante para demonstrar que V(b)=σ2(X´X)-1, se violarmos a
hipótese de independência dos erros, os pacotes estatísticos irão errar no cálculo do
desvio padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o
problema da autocorrelação. O estimador de MQO ainda irá gerar estimativas não –
viesadas.
Na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde Ω é uma matriz complexa (desenvolvida
abaixo). Para identificar o problema, é necessário fazer testes de especificação. Este é o
diagnóstico. Os testes mais comuns são os de Durbin-Watson e de Breush-Godfey.
Para entender o teste, vamos especificar uma forma de classificação dos erros
autorregressivos. Há o caso geral de
εt = ρ1 εt-1 +ρ2 εt-2 + ... +ρp εt-p + υt
13
chamado de modelo autoregressivo de ordem p (AR(p)). A regressão é sem constante,
pois mantém-se a hipótese de que E[εt]=0).
Para o caso especial de p=1, εt = ρ εt-1 + erro, H0: não há autocorrelação, => Ho: ρ =
0.
O teste de DW tem uma tabela específica, e o teste é calculado por
DW =
∑
T
t =2
(et − et −1 )2
∑t =1 et2
T
~ 2(1 − pˆ )
onde r = ΣTt=2(et - et-1)2/(ΣΤt=2et-12), ou seja, uma regressão do resíduo em função do
resíduo defasado um período. A regra de decisão é :Rejeitamos Ho se DW < D (Lower);
Aceitamos Ho se DW > D (Upper) e Inconclusivo se D (lower) < DW < D (upper),
onde D(upper) e D(lower) são os valores tabulados.
Para o teste de Breusch-Godfrey, estimamos uma regressão do resíduo contra o residuo
defasado p vezes e as explicativas e fazemos um teste F da significância dos
coeficientes angulares dos resíduos defasados. Obs: se as explicativas não incluem a
dependente defasada Yt-1, então o teste pode ser calculado da regressão de et contra et-1
,...., et-p apenas e pode-se usar o F de significância.
Para entender melhor a matriz de variância-covariância, tomemos o caso de um modelo
de regressão com erros AR(1):
Y = X β + ε, com εt = ρ εt-1 + ut, onde ut ~ iid (0,
2
-1
σ ). Temos que b = (X´X) X´Y, como sempre, mas V(b) ≠ σ2 (X´X)-1 e na verdade, V(b)
= (X´X)-1X´ΩX(X´X)-1, onde
⎡ ε 12 ε 1ε 2
⎢
2
⎢ε 2 ε 1 ε 2
Ω = E [εε´] = E ⎢ .
⎢
⎢ .
⎢ε ε
⎣ n 1
⎡ 1
⎢
⎢ ρ
2
2
Ω = σ u/(1- ρ ) ⎢ .
⎢
⎢ .
⎢ ρ T −1
⎣
ρ
.
.
.
.
.
.
1
.
.
ρ
T −2
ρ
ε 1ε n ⎤
⎥
⎥
⎥
⎥
⎥
2 ⎥
εn ⎦
ρ T −1 ⎤
⎥
ρ T −2 ⎥
⎥.
⎥
ρ ⎥
1 ⎥⎦
As soluções para obter boas estimativas de β e estimativas de V(b) corretas são,
primeiro, o uso de um matriz de variância-covariância que acomoda a Autocorrelação
(também chamada matriz de Newey-West, e apresentada como opção no Eviews na
estimação por LS); segundo o uso de MQG, através de transformação das variáveis
explicativas e explicada. Ou seja, como antes, em heterocedasticidade, o problema de
MQ é Min (Y - Xβ)´ Ω-1(Y - Xβ), que gera estimativas bGLS = (X´ Ω -1X) (X´ Ω –1Y), com
14
V(bGLS) = (X´ Ω -1X)-1. Estas podem ser obtidas através de bGLS = (X*´X*) -1(X*´Y*), onde
X* = PX Y* = PY e onde P´P = Ω –1. Para o caso de autocorrelação de primeira
ordem (para regressão simples)
−
⎡ −
⎤
⎢(1 − r ) x − rx ⎥
2
1 ⎥
⎢
⎢
⎥
−
−
(
1
r
)
x
rx
3
2
X* = ⎢
⎥
.
⎢ .
⎥
⎢ .
⎥
.
⎢
⎥
⎢⎣(1 − r ) xT − rxT −1 ⎥⎦
−
⎡
⎤
⎢ y − ry ⎥
1 ⎥
⎢ 2
*
⎢
⎥
Y =
.
⎢
⎥
.
⎢
⎥
⎢⎣ yT − ryT +1 ⎥⎦
Há dois modos alternativos a MQG. O primeiro é o método de Máxima
Verossimilhança. O segundo é uma Transformação do Modelo de regressao. Tomando o
exemplo de regressão simples,
yt = α + β xt+ εt
e
εt = ρ εt-1 + ut
(*)
onde ut ~ iid (0, σ2) e t = 1,..., T
Substituindo εt = yt - α - β xt na segunda equação, temos:
Yt – α – β Xt = ρ (Yt-1 – α – β Xt-1) + ut
Yt = α(1– ρ) + ρ Yt-1 + β Xt – ρ β Xt-1 + ut
(**) Yt = α∗ + ρ Yt-1 + β0 Xt – β1 Xt-1 + ut
O erro do modelo (**) é independente no tempo, i.e., não tem autocorrelação. Por isto,
pode ser estimado por MQO sem problemas.
Note que se β1 = −ρ β0, o modelo (**) pode ser escrito como (*). O modelo (**) é
chamado ADL(1,1) – Autoregressive Distributed Lag de ordem 1 e 1.
Interpretação dos coeficientes:
E [Yt| Yt-1, Xt, Xt-1] = α∗ + ρ Yt-1 + β0 Xt – β1 Xt-1
∂ E [Yt| . ]/∂Xt = β0
(curto prazo)
limT->∞ ∂ E [Yt| . ]/∂Xt = (β0 + β1)/(1 − ρ) (longo prazo), onde |ρ| < 1
Para entender, lembre-se que, no steady-state (longo prazo), yt = yt-1 = .. = y e xt = xt-1
= .. = x
na média da regressão. Substituindo na expressão da média condicional,
Y = α +ρ Y+ β0 X – β1X e Y = α/(1− ρ) + (β0 + β1)X/(1− ρ)
Obs: O caso geral de ADL(p,q) é
15
Yt = α + ρ1 Yt-1 + ... + ρp Yt-p + β1 Xt + … + βq Xt-q + ut
16
MODELOS ARIMA:
Partiremos do caso mais simples:
AR(1) = > Yt = β Yt-1 + εt
ou
Yt = α + β Yt-1 + εt onde εt ~ N(0, σ e2 ).
A idéia é que
E[Yt | It-1] = E [Yt / Yt-1] = α + β Yt-1
No AR(p) a memória é mais longa, no sentido de que Yt-1 não resume perfeitamente a
trajetória de Yt.
Substituindo,
Yt = α + β [α + β Yt-2 + εt-1] + εt
= α + β α + β 2 Yt-2 + εt + β εt-1
= α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1
= α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1+ β 2 εt-2
.
.
.
.
Yt = α (1 + β + β 2..) + β t Yo + Σj=0t βj εt-j
Mas, 1 + β + β 2.. = Σj=0t βj
Assim, Yt depende do que acontece em toda a histótia. Todavia, na modelagem,
olhamos só o Yt-1, pois este sintetiza o passado.
Usando as hipóteses do modelo de regressão, temos:
E[Yt] = E[ α Σj=0t pj ] + E [β t Yo ] + E[Σj=0t pj ε(t-j)]
= α Σj=0t pj + β t Yo + Σj=0t pj E[ε(t-j)]
= α Σj=0t pj + β t Yo
Se T foi grande e | β | < 1:
E [Yt] = α / (1 – β), (PG infinita)
Pois Σj=0t pj = 1/ (1 - β)
Obs: se β = 1 => E [Yt] = α + Yo, pois Σj=0t 1j = T
17
Vejamos agora a variância:
V[Yt] = E [(Yt – E[Yt]2] = E[(Σj=0t pj E[ε(t-1)])]
O quadrado da soma do elemento acima é:
E [(Σj=0t (pj)2 + Σj=0t ε(t-j)2 + Σj=0t Σj≠lt pj pl ε(t-j) ε(t-1)]
= Σj=0t p2jσ2e
Se β = 1, V [Yt] = σ2et
Se | β | < 1 , V [Yt] = σ2e/ 1 - β2, pois a ordem da PG é β2.
Se | β | < 1 e T é grande, os momentos de Yt não dependem do tempo. Em outras
palvras, a variável é estacionária.
E [Yt] = α + β E [Yt-1] + E [εt]
E [Y] = α + β E [Y] + E [ε]
E [Y] (1 - p) = α -> E [Y] = α / (1 - β)
Vejamos agora a covariância:
Cov (Yt, Yt-1) = E [(β Yt-1 + εt – E[Y])( β Y(t-2) + εt-1 – E [Y])]
= β σ e2 / 1 – β 2 = β V[Y]
Generalizando:
Cov (Yt, Y(t-s)) = β S V[Y]
Assim,
Cor (Yt, Yt-1) = β
De onde vem o I de ARIMA?
Yt = Yt-1 + εt
Vem da integração, em que a variável Y tem de ser trabalhada pela soma de Yt e Yt-1.
Zt = Δ Yt = Yt – Yt-1 = ε t, diferenciou-se a série em primeira ordem.
Zt = β1 Zt-1 + …+ βp Z(t-p) + ε t + O1 εt-1 + ...+ Oq ε (t-q)
18
Este é um ARIMA (p, 1, q)
Outra visão de ARIMA(p,1,q): Caso extremo de autocorrelação: Raízes unitárias
Vimos que se o coeficiente autoregressivo for igual a 1, a variável será não-estacionária,
ou dita integrada de ordem 1. É importante testar esta hipótese:
Yt = ρ Yt-1 + εt
Ou ΔYt = (ρ – 1) Yt-1 + εt Ù ΔYt = α + Yt-1 + εt
Ho: ρ = 1
Ha: ρ < 1
−>
Ηo: α = 0
Ηa: α < 0
A tabela para comparara a estatística de teste do coeficiente α não é a Normal (ou t ) e
sim uma tabela específica, chamada Dickey-Fuller. Se a ordem de Yt for
ARIMA(p,d,q), p>1, q>0, usamos o teste ADF, no modelo abaixo:
Raiz Unitária:
ΔYt = a Yt-1 + Σj
ρ
=1βj
ΔYt-j + εt
Ηo: α = 1 - há raiz unitária
Ηa: α < 1 - não há raiz unitária
Modelos Dinâmicos:
Yt = α + ρ Yt-1 + β1 Xt + β0 Xt-1 + ut
Onde ut ~ (0, σ2u)
Este é um modelo ADL (1,1)
ou Autoregressive Distributed Lags (1,1). O caso geral de ADL(p,q) é
Yt = α + ρ1 Yt-1 + ... + ρp Yt-p + β1 Xt + … + βq Xt-q + ut
Transformando o ADL, temos o MCE ou o modelo de correção de erros(vide
laboratório 7).
ΔYt = α + β0 Δ Xt – (1 - ρ) [ Yt-1 - δ Xt-1 ] + εt
onde δ = (β0 + β1)(1 - ρ)−1
19
ΔYt = α + β0 Δ Xt – (1 - ρ)εt-1 + εt
Porque modelo de correção de erros
Digamos que a tendência de longo prazo de ΔYt = ΔY* = 0,02
ΔYt = 0,05 > ΔY* -> εt > 0
ut > 0 -> ΔYt+1 < ΔY* pois – (1 - ρ) ut < 0
----------------------------------------Cointegração:
Vimos que se ρ = 1 em um modelo ADL ou se o coeficiente autoregressivo de erro da
regressão for igual a um não haverá análise de longo prazo. Assim, é importante testar
se as relações econômicas são válidas (estáveis) no longo prazo, isto é, se as variáveis
do modelo são cointegradas.
Lembrando:
Se Yt ~ I(1), Yt é não-estacionária (ou integrada de primeira ordem). Então,
Yt - Yt –1 = ΔYt ~ I(0), ou seja, é estacionária.
No nosso caso temos:
Yt ~ I(1) e Xt ~ I(1).
Se Yt - β Xt = ut ~ I(0). Então ut é estacionário ou cointegrado.
-> Para testar cointegração, fazemos um teste tipo ADF nos resíduos do modelo estático
(teste Engle-Granger).
Yt = α + β Xt + εt
εt = ρ εt-1 + ut
Ho: ρ = 1 não há cointegração
Há: ρ < 1 há cointegração.
VAR:
Yt – β Xt = εt (Estatística)
Yt = β Xt - εt (Economia)
X e ε independentes (Econometria)
Se X e ε não são independentes, não podemos usar MQO (ou MQG) para estimar β.
20
Hipótese alternativa para séries de tempo:
Xt-p e εt independentes (p>0)
Yt-p e εt independentes
Yt = α1 + β11 Yt-1 + β12 Xt-1+ ε1t
Xt = α2 + β21 Yt-1 + β22 Xt-1+ ε1t
⎡ Yt ⎤ ⎡α 1 ⎤ ⎡ β 11
⎢ X ⎥ = ⎢α ⎥ + ⎢ β
⎣ t ⎦ ⎣ 2 ⎦ ⎣ 21
β 12 ⎤ ⎡ Yt −1 ⎤ ⎡ ε 1t ⎤
+
β 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣ε 2t ⎥⎦
VAR(1)
E[ Xt | Xt-1 Yt-1 ] ≠ E[ Xt | Xt-1] -> Causalidade de Granger
Xt = α2 + β21 Yt-1 + ε2t
Xt = α2 + β21 (β Xt-1 + εt) + ε2t (verifica-se correlação entre consumo e renda, mas isto
quer dizer que consumo “causa” renda?)
Xt = α2 + (β21β) Xt-1 + erro (não há causalidade de Granger)
O modelo acima implica que
Xt = α2 + β21 Yt-1 + β22 Xt-1+ εt
β21 = 0 pois Yt-1 é apenas uma proxy de Xt-1
Xt = a + Xt-1 + b Yt + b1 Yt-1 + erro
Yt = a2 + γ11 Yt-1 + γ01 Xt + γ12 Xt-1 + v1t
Xt = a2 + γ21 Xt-1 + γ02 Yt + γ22 Yt-1 + v2t
⎡ 1
⎢− γ
⎣ 02
− γ 01 ⎤ ⎡ Yt ⎤ ⎡ a 1 ⎤ ⎡γ 11 γ 12 ⎤ ⎡ Yt −1 ⎤ ⎡ v1t ⎤
=
+
+
1 ⎥⎦ ⎢⎣ X t ⎥⎦ ⎢⎣a 2 ⎥⎦ ⎢⎣γ 21 γ 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣v 2t ⎥⎦
G0
Zt = A + G1 Zt-1 + Vt
Zt = Cto-1 A + Cto-1 G1 Zt-1 + Cto-1 Vt
Zt = α + β Zt-1 + εt
--------------------------------------------------------------------------------
Δ Yt = β (1,1) Δ Yt-1 + β (1,2) Δ Ct-1 + β (1,3) Δ Yt-2 + β (1,4) Δ Ct-2 + β(1,5)
Δ Yt = β (1,1) Δ Yt-1 + β (1,2) Δ Ct-1 + β (1,3) Δ Yt-2 + β (1,4) Δ Ct-2 + β(2,5)
21
Ho: renda não causa consumo
Ha: renda causa consumo
22
Download