Notas de Aulas – Econometria I- EPGE/FGV © Eduardo P. Ribeiro, 2008 *Hipóteses do Modelo Clássico de Regressão Linear (0) Modelo é linear => yi = α + β1 x1i + .... + βk x ki + εi Do ponto de vista estatístico, quero que a média do y seja dada pelo modelo linear: E [y|xi,..,xk] = E [y|X] = α + β1 x1 + .... + βk xk + E[ε|X] = α + β1 x1i + .... + βk xki Isto implica em E[ε|X] = 0. Em outras palavras: (1) E [εi] = 0, média do erro é zero. (2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k). (3) As variáveis explicativas X1,..,Xk não são combinações lineares entre si. Outras hipóteses feitas no Modelo Clássico de Regressão Linear (4) V [εi|X] = σ2, erros têm variância constante. (5) E [εi εj] = 0, i≠j, erros são independentes entre si. (6) εi ~ iid N ( 0, σ2) Todavia, apenas (0) e (3) são importantes para estimação por Mínimos Quadrados. Já na estimação por Máxima Verossimilhança, (0)-(6) são importantes. Obs: Pela hipótese dos erros serem independentes entre si, E(εi εj ) = 0 = Cov(εi εj ). *Como achar os coeficientes do modelo? Mínimos Quadrados: Para achar α e β, busco errar pouco no desenho da reta de regressão. Ou seja, tenho de minimizar os erros (ao quadrado): Min L(α, β, y, x ) <-> Min (yi – α – β1 x1i- ... - βk xki)2 Vejamos as condições de 1a ordem: (i) ∂L/∂α = Σ 2(yi – a – b1 x1- ... - bkxk)(-1) = 0 (ii) ∂L/∂β = Σ 2(yi – a – b1 x1- ... - bkxk)(-xji) = 0 para j = 1,...,k Note que (i) implica que Σ ei = 0 Já (ii) implica que, Σ ei xji = 0 para j = 1,...,k. Compare com a hipótese (2), que afirma que x e ε são ortogonais. Se esta hipótese não é válida, os coeficientes βk não serão bem estimados. 1 Resolvendo as condições de 1a ordem (escritas em notação matricial): (i) X´ε = 0 (ii) X´ (Y – X b) = 0 Temos que: X´Y – X´X b = 0 -> b = (X´X)-1 X´Y No caso da constante, em particular, temos a partir da condição de primeira ordem: n a = Σ yi – b1 Σ xji - ... – bk Σ xki -> a = Y − bX A hipótese (3) é indispensável ao modelo. Desta forma não há como ter a matriz inversa (X´X)-1. Se as explicativas são combinações lineares entre si, det(X´X) = 0, e, portanto, não será possível calcular a inversa da matriz. Método dos Momentos (MM): Note que podemos encontrar α e β se partimos de (1) e (2), ajustados para uma amostra. E[εi] = 0 -> n-1Σei = 0 E [Xi εi] = 0 -> n-1Σ[Xi ei] = 0 que são condições de primeira ordem de mínimos quadrados ordinários (MQO). Obs: Note que, em regressão simples (k=1), a fórmula do estimador de b, ou seja, b=Σ(yi – my)xi / Σ(xi – mx)2, que é equivalente à formula mais conhecida: b=Σ(yi – my)(xi – mx) / Σ(xi – mx)2, onde mx = n-1 Σ xi, e my = n-1 Σ yi, ou seja, a média amostral de x e y, respectivamente. Avaliação da Regressão Dividindo a variabilidade da variável dependente, a partir da identidade yi ≡ ŷ i + ei e das condições de primeira ordem do problema de mínimos quadrados: SQT = SQE + SQR n n 2 2 2 ∑i =1 (yi − m y ) = ∑i =1 (yˆ − m y ) + ∑i=1 ei n Pode-se construir o coeficiente de determinação (R2): R2 = SQE / SQT = 1 – SQR/SQT Obs: como o próprio nome diz, R2= (Cor(yi ; ŷ i ))2. 2 Testes de Hipóteses Para testes de hipóteses é necessário identificar quais as propriedades estatísticas do vetor de coeficientes estimados b, ou seja, sua média, sua variância e sua distribuição: Propriedades do Estimador de MQO Y = Xβ + ε b = (X´X)-1(X´Y) E[b|X] = E[(X´X)-1X´(Xβ + ε)|X] = E[(X´X)-1X´Xβ |X] + E[(X´X)-1X´ε |X] = E[β|X] + E[(X´X)-1X´ε |X] = β + (X´X)-1X´ E[ε|X ] = β Foram utilizadas as seguintes hipóteses sobre o erro: (1) E [εi] = 0, média do erro é zero. (2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k). V[b|X] = E [(b – E[b])( b – E[b])´ |X] = E [(β + (X´X)-1X´ε – β) (β + (X´X)-1X´e – β)´|X] = E [((X´X)-1X´ε)( ε ´X (X´X)-1|X) = (X´X)-1X´E[εε ´|X]X (X´X)-1 = σ2(X´X)-1X´ I X (X´X)-1 = σ2 (X´X)-1 Foram utilizadas as hipóteses sobre o erro: (1) E [εi] = 0, média do erro é zero. (2)E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k). (3) V [εi|X] = σ2, erros têm variância constante. (4) E [εi εj] = 0, i≠j, erros são independentes entre si. Que em notação matricial podem ser escritas como ⎡ ε 12 ε 1ε 2 ⎢ 2 ⎢ε 2 ε 1 ε 2 E [εε´] = E ⎢ . ⎢ ⎢ . ⎢ε ε ⎣ n 1 . ε 1ε n ⎤ ⎡σ 2 . ⎥ ⎢ ⎥ ⎢ ⎥ =⎢ ⎥ ⎢ ⎥ ⎢ 2 ⎥ ε n ⎦ ⎢⎣ . . 0 0 σ . . 0 . 2 . 0⎤ ⎥ ⎥ ⎥ = σ2 I ⎥ . ⎥ 2⎥ σ ⎦ . Note que a V(b) é uma matriz (k+1)x(k+1). Cov(ab1 ) ⎡ V (a) ⎢ Cov(b a ) V (b1 ) 1 ⎢ V(b) = ⎢ . ⎢ . ⎢ ⎢⎣Cov(bk a ) . . . . Cov(abk )⎤ ⎥ ⎥ ⎥ ⎥ ⎥ V (bk ) ⎥⎦ Na prática, σ2 pode ser estimado por s2 = (n –(k+1))-1Σei2. 3 Por fim, como o estimador de MQO (ou MM) é uma função linear de y, que é uma função linear de ε, pela hipótese (6) e a propriedade da distribuição Normal, b|X~N(β, σ2(X´X)-1) Com isto, podemos ter o resultado a partir das propriedades (se Zj ~ N(0,1), para j = 1,..,p independente, Lembrando que Z12+ Z22 + ...+ Zp2 ~χ2p ), 2 (b –β)´[σ2(X´X)-1]-1(b –β)~χ p. Para transformações lineares de b, através de uma matriz R,, isto é Rb=r podemos escrever 2 (Rb-r)´[Rσ2(X´X)-1R´]-1(Rb-r)~χ p Note que o posto de Rb é dado por p, se R tem tamanho p X (k+1). Para usar o resultado empiricamente, necessitamos de uma estimativa de σ2, que é dada por s2 como definido acima. Desta forma, pode-se escrever F= (R βˆ -r)´[R(X´X)-1R´]-1(R βˆ -r)/p SQR /(n-k-1) ~ Fp, n-k-1 Outra forma de escrever a expressão acima, explora a diferença entre SQR de dois modelos, um restrito (onde a hipótese, ou condição Rb=r é imposta), SQRr, e um irrestrito SQRi, em que o modelo é estimado livremente. O SQRi nada mais é do que a soma dos quadrados dos resíduos empregado para calcular a variância dos erros. F= (SQRr – SQRi )/p SQRi /(n-k-1) ~ Fp, n-k-1 Exemplos de Testes de Hipóteses: a) Rβ = r B = [ A β1 β2 β3 β4 ] Ho: β1 = 0 B R ⎡ A⎤ ⎢ β 1⎥ ⎢ ⎥ [ 0 1 0 0 0 ] ⎢ β 2 ⎥ = β1 = r = 0 ⎢ ⎥ ⎢ β 3⎥ ⎢⎣ β 4⎥⎦ 4 b) Rβ = r B = [ A β1 β2 β3 β4 ] Ho: β1 = 0 β2 = 0 B R ⎡0 ⎢0 ⎣ ⎡ A⎤ ⎢ β 1⎥ 10 0 0 ⎤ ⎢ ⎥ ⎡0 ⎤ ⎢ β 2⎥ = ⎢ ⎥ ⎥ 010 0 ⎦ ⎢ ⎥ ⎣0 ⎦ β 3 ⎢ ⎥ ⎢⎣ β 4⎥⎦ c) Ho: β1 = β2 -> β1 – β2 = 0 ⎡ A⎤ ⎢ β 1⎥ ⎢ ⎥ [ 0 1 -1 0 0] ⎢ β 2⎥ = [ 0 ] ⎢ ⎥ ⎢ β 3⎥ ⎢⎣ β 4⎥⎦ Teste de Hipóteses: 1) Teste de significância de um coeficiente angular Ho: βj = 0 βj ≠ 0 T= bj –0 ~tn-(k+1) (V(bj))1/2 2) Teste ANOVA Ho: β1 = β2 = ... = βk = 0 Ha: pelo menos um diferente de zero F= (SQRr – SQRi)/p ~ Fp, n-k-1 SQRi /(n-k-1) onde SQRr é baseado em um modelo restrito (sob H0), que neste caso é yi = α + εi, e SQRi é baseado em um modelo irrestrito (sem imposição de hipótese alguma). 5 Ou (R2)/p (1-R2) /(n-k-1) F= ~ Fp, n-k-1 Resultados em Grandes Amostras Muitas vezes não temos como avaliar as propriedades dos estimadores usando valor esperado. Desta forma, o second best passa a ser avaliar as propriedades dos estimadores em um condição ideal de uma amostra crescente (até o infinito). Para isto emprega-se o conceito de convergência de estimadores e resultados estatísticos da forma de Teorema Central do Limite. Convergência de estimadores: a medida que aumenta n, variância de um estimador cai. Isso implica queda da margem de erro do estimador e em uma amostra hipoteticamente infinita, o estimador passa a ter apenas o valor do parâmetro na população. Teorema Central do Limite: Somas de variáveis aleatórias independentes padronizadas têm uma distribuição que se aproxima da Normal Padrão, à medida que a amostra aumenta. A distribuição da média da população tem distribuição Normal. Estimadores lineares, como os coeficientes de MQO, têm distribuição Normal. A distribuição da média tende a ser simétrica. V (X ) = (σ2x/n)1/2. Lembrando: Teste de Hipóteses: ERRO TIPO 1: rejeito Ho e Ho é verdadeiro (alfa) ERRO TIPO 2: aceito Ho e Ho é falso Realidade \ Decisão Ho verdadeiro Aceito Ho (1 – α) nível de confiança Ho falso Erro do tipo II (β) Rejeito Ho Erro do tipo I (α) (tamanho do teste / nível de significância) (1 – β )(potência/poder do teste) 6 Como aumentar o poder do teste: aumenta-se o tamanho da amostra e, com isso, aumenta-se a segurança (vou me aproximar do alfa verdadeiro). Variáveis Explicativas Binárias (Dummies) Quando há variáveis qualitativas como explicativas, não devemos incluí-las usando uma escala numérica qualquer, pois variáveis qualitativas não são cardinais. Desta forma, para uma variável qualitativa com D categorias deve ser incluída na regressão através de D-1 variáveis binárias (dummy). Para evitar que a matriz X deixe de ser posto completo usamos apenas D-1 variáveis explicativas (a chamada dummy trap). Por exemplo, considere uma regressão rendimentos, com gênero (Masculino e Feminino) como explicativa yi =α+β(gênero)i+εi . Há duas categorias e escolhemos uma delas para a dummy (no caso, feminino). Cria-se uma variável Fi ={1 se gênero=Fem; 0 se gênero=Masc.}. A regressão passa a ser yi =α+βFi+εi. A questão mais importante é a interpretação dos coeficientes: lembrando, que sob as hipótese do MCRL a reta de regressão é a média condicional, temos E(y|masc)= α (pois neste caso, Fi=0) e E(y|fem)= α+β. Com isto, β=E(y|fem) –E(y|masc), ou seja a diferença de médias entre a categoria analisada e aquela excluída na construção da(s) dummy(ies). No caso de mais de uma variável qualitativa, devem ser incluídas variáveis dummies para cada uma, mantendo a regra de exclusão de uma das categorias de cada uma das variáveis do grupo de dummies que é incluída na regressão. Em adição, deve-se considerar a possibilidade de interação entre as dummies das diferentes variáveis qualitativas. Esta possibilidade pode ser desconsiderada no caso de independência entre as qualitativas. Por exemplo yi =α+β(gênero)i+γ(cor)i +εi, onde cor={Branco; Não-Branco}. Criando Bi ={1 se cor=Branco; 0 se cor=Não-Branco}, temos a regressão múltipla: yi =α+βFi+γBi +εi onde E(y|Masc, NBranco)= α . E(y|Fem, NBranco)= α +β. E(y|Masc, Branco)= α +γ . E(y|Fem, Branco)= α +β +γ . e com isto, a interpretação dos coeficientes é β= E(y|Fem, NBranco) – E(y|Masc, NBranco) β= E(y|Fem, Branco) – E(y|Masc, Branco) e γ= E(y|Masc, Branco) – E(y|Masc, NBranco) γ= E(y|Fem, Branco) – E(y|Fem, NBranco) 7 Como há duas interpretações de β, pode-se concluir que gênero é independente de cor, para que as duas expressões de β sejam válidas. Por exemplo, para o caso de gênero, β= E(y|Masc, NBranco) – E(y|Fem, NBranco)= E(y|Masc) – E(y|Fem). No caso de interação entre as dummies (não independência), temos o seguinte modelo yi =α+βFi+γBi + δ FiBi+εi onde E(y|Masc, NBranco)= α . E(y|Fem, NBranco)= α +β. E(y|Masc, Branco)= α +γ . E(y|Fem, Branco)= α +β +γ + δ . As diferenças passam a ser β= E(y|Fem, NBranco) – E(y|Masc, NBranco) γ= E(y|Masc, Branco) – E(y|Masc, Branco) e δ= [E(y|Fem, Branco) – E(y|Masc, Branco) ] – [ E(y|Fem, NBranco) – E(y|Masc, NBranco) ] Interpretação dos coeficientes de regressão (quando estimadas por MQO) Matematicamente, não há dúvidas na interpretação de βk no modelo de regressão yi = α + β1 x1i + .... + βk xki + εi, pois ∂y/∂xk=βk (efeito da mudança de xk sobre y, mantidos os outros fatores x e ε constantes). Note que ∂ε/∂xk=0, ou seja, o erro não depende de xk. Como é a interpretação nas estimativas, visto que as explicativas em geral são correlacionadas? Considere uma regressão múltipla com k=2 (para simplificar a exposição, desconsidere a constante) Y = β1 X1 + β2X2 + ε Como interpretar b2? Quando b2 é obtido através da fórmula de MQO na regressão múltipla: [b1 b2]´= b=(X´X)-1X´Y Voltando às condições de primeira ordem X´e=0, ou X´(Xb – Y)=0 ou (X´X) b – (X´Y)=0. Explicitando o conteúdo do vetor b, as duas condições para estimação podem ser escritas como (X1´X1) b1 + (X1´X2) b2 – (X1´Y)=0 (X2´X1) b1 + (X2´X2) b2 – (X2´Y)=0 ou (A11) b1 + (A12) b2 – (X1´Y)=0 (A21) b1 + (A22) b2 – (X2´Y)=0 8 Resolvendo na primeira equação para b2= –A22-1A21b1 + A22-1(X2´Y) e substituindo na segunda equação (A12)[ –A22-1A21b1 + A22-1(X2´Y)] + (A11) b1 – (X1´Y)=0 [(A11) – A12A22-1A21]b1 – [– A12 A22-1(X2´Y)+ (X1´Y)]=0 [X1´X1 –(X1´X2) (X2´X2)-1 X2´X1]b1 – [X1 – (X1´X2) (X2´X2)-1X2]´Y=0 [X1´(I – X2(X2´X2)-1X2´)X1]b1 – X1´(I – X2(X2´X2)-1X2´)Y=0 [X1´M2 X1]b1 – (X1´M2Y)=0 b1 =[X1´M2 X1]-1(X1´M2Y). Mas o que é a matriz M? Tomemos o caso geral: e=Y–Xb = Y – X(X´X)-1X`Y = (I – X(X´X)-1X`)Y, ou seja, e=MXY Dois resultados: MM=M (idempotente) e M´=M (simétrica). Com isto, podemos escrever b1 =[X1´M2´M2 X1]-1(X1´M2´M2Y). b2 =[(M2 X1)´(M2 X1)]-1[(M2 X1)´(M2Y)] onde M2X1= resíduos de uma regressão de X2 em X1, i.e., X1 = δX2 + erro e M2Y= resíduos de uma regressão simples de Y em X2, i.e., Y = α2X2 + erro. Ou seja, como os resíduos representam a informação (variabilidade) de X1 não contida em X2 (ou seja X1 “limpo” de qualquer possível relação linear com X2), o coeficiente b1 pode ser interpretado como o efeito de X1 sobre Y, “limpo” de qualquer efeito direto e indireto de X2 sobre Y e X1, respectivamente. Em outras palavras, b1 mede o efeito de X1 sobre Y, mantidos fixos as outras variáveis incluídas na regressão. Note que, por suposição, como X1 é independente do erro, as variáveis que compõe o erro são consideradas fixas, em termos de média condicional também. Para completar a compreensão, vejamos o caso oposto, ou seja, em um modelo de regressão múltipla, qual o efeito de omitirmos uma variável explicativa relevante (que faz parte do modelo. De modo simétrico, vamos considerar que a variável X2 será omitida. O modelo passa a ser Y = β1X1 + erro e com isto o estimador de mínimos quadrados b*1=(X1`X1)-1(X1´Y). Seu valor esperado é E[b*1]= E[(X1`X1)-1(X1´Y)= E[(X1`X1)-1X1´(X1β1 + X2β2 + ε)] = β1 + (X1`X1)-1X1´ X2 β2 + E[(X1`X1)-1X1´ε] = β1 + (X2`X2)-1X2´X1 β1 = β1 + δ β2 onde δ é o coeficiente da regressão de X1 em X2 (a regressão reversa do ítem anterior), isto é, X2= γ X1 + erro. Note que o estimador de b*1 neste caso é viesado, exceto no caso de X1 e X2 serem independentes (pois assim δ=0). Um modo de interpretar o resultado seria: Se a regressão é múltipla, e estimamos uma regressão simples, a estimativa obtida é uma mistura do efeito direto e do efeito indireto da variação de Xk de interesse. Usando o exemplo acima, definimos E[b*1]= β1 + γ β2 Efeito direto Efeito indireto 9 Ou, por meio de uma figura, X1 β1 Y γ δ β2 X2 Teste para Quebra Estrutural: Amostra se divide em dois grupos, onde os grupos possuem modelos de regressão diferentes: yi = α1 + β1 Xi + εi i = 1, ..m yi = α2 + β2 Xi + εi Sob Ho: (não há quebra estrutural) i = m + 1, ..n Yi = α + β Xi + ei i = 1, ..n Ho: α1 = α2 e β1 =β2 Ha: α1 ≠ α2 e β1 ≠ β2 Ou Ho: α1 – α2 = 0 Ha: α1 – α2 = 0 ou β1 – β2 ≠ 0 β1 – β2 = 0 Usando variáveis dummies iremos colocar as duas equações em uma só, combinando os modelos. Defina di = {0, se i = 1,..., m; 1, se i = m+1..,n} Colocando no modelo: yi = γ0 + γ1 Xi + γ2di + γ3(di Xi) + εi Se a observação pertence à primeira parte dos dados, temos: 10 yi = γ0 + γ1 Xi + εi i = 1, ..m Se a observação pertence à segunda parte dos dados, temos: yi = (γ0 + γ2) + (γ1 + γ3)Xi + εi Ou seja, α2 = (γ0 + γ2) e γ = (γ1 + γ3). Isto implica que a hipótese nula pode ser reescrita como Ho: γ2 = 0 e γ3=0 e testada através da estimação dos modelos restritos e irrestrito: F = (SQRr – (SQR1 + SQR2)) / (SQR1 + SQR2) . (n – 2(k +1))/ (k+1) Onde SQR1 é a soma dos quadrados dos resíduos do primeiro modelo (i=1,..., m) e SQR2 é a soma dos quadrados dos resíduos do segundo modelo (i=m+1,..., n). SQRr é a soma dos quadrados dos resíduos do modelo restrito, onde há igualdade de coeficientes entre grupos, e =1,..., n. Obs: quando há poucas observações, pode ser que a conclusão de quebra estrutural seja contraditório entre um modelo com “dummies de intercepto” e outro com dummies de intercepto e inclinação. Isto é: Rodando o modelo, o coeficientes γ2 e γ3 não são significativos, mas estimando um modelo apenas com γ2 ele é significativo e estimando um modelo apenas com γ3 ele é significativo também. 11 Multicolinearidade Multicolinearidade Perfeita: violação da hipótese “As variáveis explicativas X1,..,Xk não são combinações lineares entre si.”. Em outras palavras, o posto da matriz X não é k+1. Neste caso, não é possível obter estimativas por MQO. Multicolinearidade: altíssima correlação entre variáveis explicativas. Isto não gera estimativas viesadas ou altera a forma da matriz de variância-covariância. Mas “infla” os desvios padrões de cada coeficiente (pela matriz (X´X)-1 ter termos muito grandes). Este é o problema da multicolinearidade. Com isto, passa a ser comum ter (pares) de coeficientes com estatísticas t pequenas, mas com testes F conjuntos de exclusão rejeitados. Este é o sintoma de multicolinearidade. Outro modo de identificar, seria através do cálculo do FIV(bk)=1/(1 – Rk2), o fator de inflação da variância de um parâmetro bk e onde Rk2 é o coeficiente de determinação da regressão de xk em x1, ..., xk-1. Se este for alto, é possível que o problema da multicolinearidade esteja presente. Diz-se “possível”, pois um alto FIC não é condição necessária nem suficiente para o problema de multicolinearidade, já que pode-se demonstrar que V(bk)=σ2/(Skk(1–Rk2)), onde Skk= Σ(xki – mxk)2, O que ocorre é que há duas variáveis explicativas com o mesmo conteúdo informacional (variabilidade similar, i.e., altamente correlacionada). Com isto, o método de mínimos quadrados não consegue distinguir entre os efeitos diretos e indiretos das variáveis. Embora haja soluções ditas ad-hoc como o método de ridge regression e o uso de análise fatorial, talvez o mais razoável seja pensarmos no problema e identificarmos qual variável (dentre aquelas que tem, na prática, a mesma informação) é a mais importante e/ou a mais representativa. Heterocedasticidade Heterocedasticidade: violação da hipótese do MCRL: V [εi|X] = σ2, erros têm variância constante. Agora, V [εi|X] = σi2 = f(γ0 + γ 1z1i+... + γ pzpi) Como esta hipótese é importante para demonstrar que V(b)=σ2(X´X)-1, se violarmos a hipótese de homocedasticidade, os pacotes estatísticos irão errar no cálculo do desvio padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o problema da heterocedasticidade. O estimador de MQO ainda irá gerar estimativas não –viesadas. Na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde Ω é uma matriz diagonal com elemento da diagonal igual a σi2. Para identificar o problema, é necessário fazer testes de especificação. Este é o diagnóstico. Os testes mais comuns são os de White e de BreushPagan, que são equivalentes, a grosso modo. O teste busca avaliar a heterocedasticidade, através de um teste de H0:homocedasticidade; Ha:heterocedasticidade ou 12 H0: γ1=...=γp=0. O teste supõe que f( ) acima é linear, que uma estimativa de σi2 pode ser dada por ei2. Os testes diferem pela hipótese de z: alguns usam as variáveis x, outros usam as variáveis x e seus quadrados. Uma vez identificado o problema de heterocedasticidade, a solução têm duas formas. Primeiro, o uso de uma matriz de variância-covariância dos coeficientes ajustada para heterocedasticidade (a chamada Matriz de White) que é uma estimativa de V(b) = (X´X)1 X´ΩX(X´X)-1, implementada no EViews, como uma option em Least Squares na hora de Estimate Equation. Segundo a transformação das variáveis explicativas e explicadas, para obter, de modo indireto, estimativas por mínimos quadrados generalizados (MQG ou GLS em inglês). O problema de MQG é obter estimativas de β, tal que, dado E(εε´)=Ω , MQG: Minβ Σε2t wt ou Min (Y - Xβ)´ Ω-1(Y - Xβ) bGLS = (X´ Ω-1X)-1 (X´ Ω–1Y) com V(bGLS) = (X´Ω-1X)-1. bGLS pode ser calculado através de transformação das explicativas e explicadas, tal que bGLS = (X*´X*) -1(X*´Y*), onde X* = PX Y* = PY e onde P´P = Ω –1. Para o caso de heterocedasticidade, a sugestão é multiplicar cada observação por (1/si), onde si2 é obtido a partir da estimação do teste de White/BreushPagan, em um processo interativo. Todavia, é possível demonstrar que este método de MQG factível gera estimativas viesadas, quando temos o caso usual de σi2 desconhecido. O melhor é a estimação por Máxima Verossimilhança, se sabemos a distribuição dos erros e a forma da heterocedasticidade. Autocorrelação Autocorrelação: violação da hipótese: E [εt. εt-s] = 0, para s > 0, como por exemplo, εt = ρ εt-1 + υt, onde υt é ruído branco). Neste caso E(εε´)=Ω, Como esta hipótese é importante para demonstrar que V(b)=σ2(X´X)-1, se violarmos a hipótese de independência dos erros, os pacotes estatísticos irão errar no cálculo do desvio padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o problema da autocorrelação. O estimador de MQO ainda irá gerar estimativas não – viesadas. Na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde Ω é uma matriz complexa (desenvolvida abaixo). Para identificar o problema, é necessário fazer testes de especificação. Este é o diagnóstico. Os testes mais comuns são os de Durbin-Watson e de Breush-Godfey. Para entender o teste, vamos especificar uma forma de classificação dos erros autorregressivos. Há o caso geral de εt = ρ1 εt-1 +ρ2 εt-2 + ... +ρp εt-p + υt 13 chamado de modelo autoregressivo de ordem p (AR(p)). A regressão é sem constante, pois mantém-se a hipótese de que E[εt]=0). Para o caso especial de p=1, εt = ρ εt-1 + erro, H0: não há autocorrelação, => Ho: ρ = 0. O teste de DW tem uma tabela específica, e o teste é calculado por DW = ∑ T t =2 (et − et −1 )2 ∑t =1 et2 T ~ 2(1 − pˆ ) onde r = ΣTt=2(et - et-1)2/(ΣΤt=2et-12), ou seja, uma regressão do resíduo em função do resíduo defasado um período. A regra de decisão é :Rejeitamos Ho se DW < D (Lower); Aceitamos Ho se DW > D (Upper) e Inconclusivo se D (lower) < DW < D (upper), onde D(upper) e D(lower) são os valores tabulados. Para o teste de Breusch-Godfrey, estimamos uma regressão do resíduo contra o residuo defasado p vezes e as explicativas e fazemos um teste F da significância dos coeficientes angulares dos resíduos defasados. Obs: se as explicativas não incluem a dependente defasada Yt-1, então o teste pode ser calculado da regressão de et contra et-1 ,...., et-p apenas e pode-se usar o F de significância. Para entender melhor a matriz de variância-covariância, tomemos o caso de um modelo de regressão com erros AR(1): Y = X β + ε, com εt = ρ εt-1 + ut, onde ut ~ iid (0, 2 -1 σ ). Temos que b = (X´X) X´Y, como sempre, mas V(b) ≠ σ2 (X´X)-1 e na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde ⎡ ε 12 ε 1ε 2 ⎢ 2 ⎢ε 2 ε 1 ε 2 Ω = E [εε´] = E ⎢ . ⎢ ⎢ . ⎢ε ε ⎣ n 1 ⎡ 1 ⎢ ⎢ ρ 2 2 Ω = σ u/(1- ρ ) ⎢ . ⎢ ⎢ . ⎢ ρ T −1 ⎣ ρ . . . . . . 1 . . ρ T −2 ρ ε 1ε n ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ 2 ⎥ εn ⎦ ρ T −1 ⎤ ⎥ ρ T −2 ⎥ ⎥. ⎥ ρ ⎥ 1 ⎥⎦ As soluções para obter boas estimativas de β e estimativas de V(b) corretas são, primeiro, o uso de um matriz de variância-covariância que acomoda a Autocorrelação (também chamada matriz de Newey-West, e apresentada como opção no Eviews na estimação por LS); segundo o uso de MQG, através de transformação das variáveis explicativas e explicada. Ou seja, como antes, em heterocedasticidade, o problema de MQ é Min (Y - Xβ)´ Ω-1(Y - Xβ), que gera estimativas bGLS = (X´ Ω -1X) (X´ Ω –1Y), com 14 V(bGLS) = (X´ Ω -1X)-1. Estas podem ser obtidas através de bGLS = (X*´X*) -1(X*´Y*), onde X* = PX Y* = PY e onde P´P = Ω –1. Para o caso de autocorrelação de primeira ordem (para regressão simples) − ⎡ − ⎤ ⎢(1 − r ) x − rx ⎥ 2 1 ⎥ ⎢ ⎢ ⎥ − − ( 1 r ) x rx 3 2 X* = ⎢ ⎥ . ⎢ . ⎥ ⎢ . ⎥ . ⎢ ⎥ ⎢⎣(1 − r ) xT − rxT −1 ⎥⎦ − ⎡ ⎤ ⎢ y − ry ⎥ 1 ⎥ ⎢ 2 * ⎢ ⎥ Y = . ⎢ ⎥ . ⎢ ⎥ ⎢⎣ yT − ryT +1 ⎥⎦ Há dois modos alternativos a MQG. O primeiro é o método de Máxima Verossimilhança. O segundo é uma Transformação do Modelo de regressao. Tomando o exemplo de regressão simples, yt = α + β xt+ εt e εt = ρ εt-1 + ut (*) onde ut ~ iid (0, σ2) e t = 1,..., T Substituindo εt = yt - α - β xt na segunda equação, temos: Yt – α – β Xt = ρ (Yt-1 – α – β Xt-1) + ut Yt = α(1– ρ) + ρ Yt-1 + β Xt – ρ β Xt-1 + ut (**) Yt = α∗ + ρ Yt-1 + β0 Xt – β1 Xt-1 + ut O erro do modelo (**) é independente no tempo, i.e., não tem autocorrelação. Por isto, pode ser estimado por MQO sem problemas. Note que se β1 = −ρ β0, o modelo (**) pode ser escrito como (*). O modelo (**) é chamado ADL(1,1) – Autoregressive Distributed Lag de ordem 1 e 1. Interpretação dos coeficientes: E [Yt| Yt-1, Xt, Xt-1] = α∗ + ρ Yt-1 + β0 Xt – β1 Xt-1 ∂ E [Yt| . ]/∂Xt = β0 (curto prazo) limT->∞ ∂ E [Yt| . ]/∂Xt = (β0 + β1)/(1 − ρ) (longo prazo), onde |ρ| < 1 Para entender, lembre-se que, no steady-state (longo prazo), yt = yt-1 = .. = y e xt = xt-1 = .. = x na média da regressão. Substituindo na expressão da média condicional, Y = α +ρ Y+ β0 X – β1X e Y = α/(1− ρ) + (β0 + β1)X/(1− ρ) Obs: O caso geral de ADL(p,q) é 15 Yt = α + ρ1 Yt-1 + ... + ρp Yt-p + β1 Xt + … + βq Xt-q + ut 16 MODELOS ARIMA: Partiremos do caso mais simples: AR(1) = > Yt = β Yt-1 + εt ou Yt = α + β Yt-1 + εt onde εt ~ N(0, σ e2 ). A idéia é que E[Yt | It-1] = E [Yt / Yt-1] = α + β Yt-1 No AR(p) a memória é mais longa, no sentido de que Yt-1 não resume perfeitamente a trajetória de Yt. Substituindo, Yt = α + β [α + β Yt-2 + εt-1] + εt = α + β α + β 2 Yt-2 + εt + β εt-1 = α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1 = α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1+ β 2 εt-2 . . . . Yt = α (1 + β + β 2..) + β t Yo + Σj=0t βj εt-j Mas, 1 + β + β 2.. = Σj=0t βj Assim, Yt depende do que acontece em toda a histótia. Todavia, na modelagem, olhamos só o Yt-1, pois este sintetiza o passado. Usando as hipóteses do modelo de regressão, temos: E[Yt] = E[ α Σj=0t pj ] + E [β t Yo ] + E[Σj=0t pj ε(t-j)] = α Σj=0t pj + β t Yo + Σj=0t pj E[ε(t-j)] = α Σj=0t pj + β t Yo Se T foi grande e | β | < 1: E [Yt] = α / (1 – β), (PG infinita) Pois Σj=0t pj = 1/ (1 - β) Obs: se β = 1 => E [Yt] = α + Yo, pois Σj=0t 1j = T 17 Vejamos agora a variância: V[Yt] = E [(Yt – E[Yt]2] = E[(Σj=0t pj E[ε(t-1)])] O quadrado da soma do elemento acima é: E [(Σj=0t (pj)2 + Σj=0t ε(t-j)2 + Σj=0t Σj≠lt pj pl ε(t-j) ε(t-1)] = Σj=0t p2jσ2e Se β = 1, V [Yt] = σ2et Se | β | < 1 , V [Yt] = σ2e/ 1 - β2, pois a ordem da PG é β2. Se | β | < 1 e T é grande, os momentos de Yt não dependem do tempo. Em outras palvras, a variável é estacionária. E [Yt] = α + β E [Yt-1] + E [εt] E [Y] = α + β E [Y] + E [ε] E [Y] (1 - p) = α -> E [Y] = α / (1 - β) Vejamos agora a covariância: Cov (Yt, Yt-1) = E [(β Yt-1 + εt – E[Y])( β Y(t-2) + εt-1 – E [Y])] = β σ e2 / 1 – β 2 = β V[Y] Generalizando: Cov (Yt, Y(t-s)) = β S V[Y] Assim, Cor (Yt, Yt-1) = β De onde vem o I de ARIMA? Yt = Yt-1 + εt Vem da integração, em que a variável Y tem de ser trabalhada pela soma de Yt e Yt-1. Zt = Δ Yt = Yt – Yt-1 = ε t, diferenciou-se a série em primeira ordem. Zt = β1 Zt-1 + …+ βp Z(t-p) + ε t + O1 εt-1 + ...+ Oq ε (t-q) 18 Este é um ARIMA (p, 1, q) Outra visão de ARIMA(p,1,q): Caso extremo de autocorrelação: Raízes unitárias Vimos que se o coeficiente autoregressivo for igual a 1, a variável será não-estacionária, ou dita integrada de ordem 1. É importante testar esta hipótese: Yt = ρ Yt-1 + εt Ou ΔYt = (ρ – 1) Yt-1 + εt Ù ΔYt = α + Yt-1 + εt Ho: ρ = 1 Ha: ρ < 1 −> Ηo: α = 0 Ηa: α < 0 A tabela para comparara a estatística de teste do coeficiente α não é a Normal (ou t ) e sim uma tabela específica, chamada Dickey-Fuller. Se a ordem de Yt for ARIMA(p,d,q), p>1, q>0, usamos o teste ADF, no modelo abaixo: Raiz Unitária: ΔYt = a Yt-1 + Σj ρ =1βj ΔYt-j + εt Ηo: α = 1 - há raiz unitária Ηa: α < 1 - não há raiz unitária Modelos Dinâmicos: Yt = α + ρ Yt-1 + β1 Xt + β0 Xt-1 + ut Onde ut ~ (0, σ2u) Este é um modelo ADL (1,1) ou Autoregressive Distributed Lags (1,1). O caso geral de ADL(p,q) é Yt = α + ρ1 Yt-1 + ... + ρp Yt-p + β1 Xt + … + βq Xt-q + ut Transformando o ADL, temos o MCE ou o modelo de correção de erros(vide laboratório 7). ΔYt = α + β0 Δ Xt – (1 - ρ) [ Yt-1 - δ Xt-1 ] + εt onde δ = (β0 + β1)(1 - ρ)−1 19 ΔYt = α + β0 Δ Xt – (1 - ρ)εt-1 + εt Porque modelo de correção de erros Digamos que a tendência de longo prazo de ΔYt = ΔY* = 0,02 ΔYt = 0,05 > ΔY* -> εt > 0 ut > 0 -> ΔYt+1 < ΔY* pois – (1 - ρ) ut < 0 ----------------------------------------Cointegração: Vimos que se ρ = 1 em um modelo ADL ou se o coeficiente autoregressivo de erro da regressão for igual a um não haverá análise de longo prazo. Assim, é importante testar se as relações econômicas são válidas (estáveis) no longo prazo, isto é, se as variáveis do modelo são cointegradas. Lembrando: Se Yt ~ I(1), Yt é não-estacionária (ou integrada de primeira ordem). Então, Yt - Yt –1 = ΔYt ~ I(0), ou seja, é estacionária. No nosso caso temos: Yt ~ I(1) e Xt ~ I(1). Se Yt - β Xt = ut ~ I(0). Então ut é estacionário ou cointegrado. -> Para testar cointegração, fazemos um teste tipo ADF nos resíduos do modelo estático (teste Engle-Granger). Yt = α + β Xt + εt εt = ρ εt-1 + ut Ho: ρ = 1 não há cointegração Há: ρ < 1 há cointegração. VAR: Yt – β Xt = εt (Estatística) Yt = β Xt - εt (Economia) X e ε independentes (Econometria) Se X e ε não são independentes, não podemos usar MQO (ou MQG) para estimar β. 20 Hipótese alternativa para séries de tempo: Xt-p e εt independentes (p>0) Yt-p e εt independentes Yt = α1 + β11 Yt-1 + β12 Xt-1+ ε1t Xt = α2 + β21 Yt-1 + β22 Xt-1+ ε1t ⎡ Yt ⎤ ⎡α 1 ⎤ ⎡ β 11 ⎢ X ⎥ = ⎢α ⎥ + ⎢ β ⎣ t ⎦ ⎣ 2 ⎦ ⎣ 21 β 12 ⎤ ⎡ Yt −1 ⎤ ⎡ ε 1t ⎤ + β 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣ε 2t ⎥⎦ VAR(1) E[ Xt | Xt-1 Yt-1 ] ≠ E[ Xt | Xt-1] -> Causalidade de Granger Xt = α2 + β21 Yt-1 + ε2t Xt = α2 + β21 (β Xt-1 + εt) + ε2t (verifica-se correlação entre consumo e renda, mas isto quer dizer que consumo “causa” renda?) Xt = α2 + (β21β) Xt-1 + erro (não há causalidade de Granger) O modelo acima implica que Xt = α2 + β21 Yt-1 + β22 Xt-1+ εt β21 = 0 pois Yt-1 é apenas uma proxy de Xt-1 Xt = a + Xt-1 + b Yt + b1 Yt-1 + erro Yt = a2 + γ11 Yt-1 + γ01 Xt + γ12 Xt-1 + v1t Xt = a2 + γ21 Xt-1 + γ02 Yt + γ22 Yt-1 + v2t ⎡ 1 ⎢− γ ⎣ 02 − γ 01 ⎤ ⎡ Yt ⎤ ⎡ a 1 ⎤ ⎡γ 11 γ 12 ⎤ ⎡ Yt −1 ⎤ ⎡ v1t ⎤ = + + 1 ⎥⎦ ⎢⎣ X t ⎥⎦ ⎢⎣a 2 ⎥⎦ ⎢⎣γ 21 γ 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣v 2t ⎥⎦ G0 Zt = A + G1 Zt-1 + Vt Zt = Cto-1 A + Cto-1 G1 Zt-1 + Cto-1 Vt Zt = α + β Zt-1 + εt -------------------------------------------------------------------------------- Δ Yt = β (1,1) Δ Yt-1 + β (1,2) Δ Ct-1 + β (1,3) Δ Yt-2 + β (1,4) Δ Ct-2 + β(1,5) Δ Yt = β (1,1) Δ Yt-1 + β (1,2) Δ Ct-1 + β (1,3) Δ Yt-2 + β (1,4) Δ Ct-2 + β(2,5) 21 Ho: renda não causa consumo Ha: renda causa consumo 22