material de econometria

Propaganda
PARTE 1
ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL
CAPÍTULO 2
O MODELO DE REGRESSÃO SIMPLES
2.1 – DEFINIÇÃO DO MODELO DE REGRESSÃO SIMPLES
Duas variáveis: y e x
Análise “explicar y em termos de x” ou “estudar como y varia de acordo com x”
Por exemplo: y = produção de soja e x = quantidade de fertilizantes
Y = salário-hora e x = anos de educação
Y = taxa de criminalidade e x = número de policiais
Ao escrever o modelo que “ explicará y em termos de x” temos três questões:
1 - Como nunca há uma relação exata entre duas variáveis, como consideramos outros fatores
que afetam y?
2 – Qual é a relação funcional entre y e x?
3 – Como poderemos estar certos de que estamos capturando uma relação ceteris paribus
entre y e x (se este for o objetivo desejado)?
Resolvendo estas ambiguidades escrevendo uma equação simples que relaciona y e x:
Y = β0 + β1x + u
(2.1)
que supostamente é válida para a população de interesse, define o modelo de regressão
simples ou modelo de regressão linear de duas variáveis ou bivariada
Terminologia para a regressão simples
y
Variável Dependente
Variável Explicada
Variável de Resposta
Variável Prevista
Regressando
X
Variável Independente
Variável Explicativa
Variável de Controle
Variável Previsora
Regressor
A variável u, chamada de termo erro ou perturbação da relação, representa outros fatores,
além de x, que afetam y. Você pode pensar em u como representando o “não-observado”.
A equação (2.1) trata da questão da relação funcional entre x e y. Se os outros fatores em u
são mantidos fixos (constantes), de modo que a variação em u é zero. ∆u = 0, então x tem um
efeito linear sobre y:
∆y = β1 ∆x se ∆u = 0 (2.2)
Assim, a variação em y é, simplesmente β1 multiplicado pela variação em x. Isso significa que β1
é o parâmetro de inclinação da relação entre y e x, mantendo fixos os outros fatores em u; ele
é de interesse fundamental em economia aplicada. O parâmetro β0 também te seus usos,
embora ele raramente seja central para uma análise.
Exemplo 2.1, pg. 21 – Produção de Soja e Fertilizantes
Exemplo 2.2, pg. 22 – Uma Equação Simples de Salário
A linearidade de (2.1) implica de que uma variação de uma unidade de x tem o mesmo efeito
sobre y, independentemente do valor inicial de x sendo irrealista para muitas aplicações
econômicas
A questão mais difícil é saber se o modelo (2.1) realmente nos permite tirar conclusões ceteris
paribus sobre como x afeta y, ou seja, como x afeta y mantendo todos os outros fatores (em u)
fixos.
Como u e x são variáveis aleatórias, podemos definir a distribuição condicional de u, dado
queal valor de x. Em particular, para qualquer x, podemos obter o valor esperado (ou médio)
(esperança, expectância) de u para aquela fatia da população descrita pelo valor de x. A
hipótese crucial é que o valor médio de u não depende do valor de x. Pode ser escrito da
segunte forma:
E(u|x) = E(u) = 0 (2.6)
que é a hipótese de condicional zero
Questão 2.1
Suponha que a nota de um exame final (nota) dependa da frequência às aulas (freq.) e de
fatores não-observados que afetam o desempenho das estudantes (tal como aptidão). Então:
nota = β0 + β1freq + u
Em que situação você esperaria que este modelo satisfaça (2.6)?
A hipótese (2.6) dá a β1 outra interpretação que é, frequentemente útil. Considerando o valor
esperado de (2.1) condicionado a x usando E(u|x) = 0, obtém-se:
E(y|x) = β0 + β1x (2.8)
A equação (2.8) mostra que a função de regressão populacional (FRP), E(y|x), é uma função
linear de x. A linearidade significa que o aumento de uma unidade em x faz com que o valor
esperado de y varie segundo a magnitude de β1 . Para qualquer valor dado de x, a distribuição
de y está centrada ao redor de E(y|x) como ilustrado na Figura 2.1 pg. 24
Quando (2.8) é verdadeira, é útil dividir y em dois componentes. A parte β0 + β1x é algumas
vezes chamada de parte sistemática de y , isto é, a parte de y explicada por x e u é chamada a
parte não-sistemática de y, ou a parte de y não explicada por x.
2.2 - DERIVAÇÃO DAS ESTIMATIVAS DE MÍNIMOS QUADRADOS ORDINÁRIOS (MQO)
Agora que discutimos os ingredientes básicos do modelo de regressão linear, trataremos da
importante questão de como estimar os parâmetros β0 e β1 . Para tanto, necessitamos de
uma amostra da população. Vamos considerar [(xi, yi): i=1, ..., n] como uma amostra aleatória
de tamanho n da população. Visto que estes dados vêm de y = β0 + β1x + u (2.1)
Podemos escrever
yi = β0 + β1xi + ui (2.9)
para cada i. Aqui, ui é o termo erro para a observação i, uma vez que ele contém todos os
fatores, além de xi, que afetam yi.
Exemplo xi poderia ser a renda anual e yi a poupança anual pra a família i durante um
determinado ano. Se coletarmos dados de 15 famílias, então n = 15. Um gráfico de tal conjunto
de dados é dado pela Figura 2.2 (pg.26), juntamente com a função de regressão populacional
(fictícia).
Para obter as estimativas do intercepto β0 e da inclinação β1 na regressão populacional da
poupança sobre a renda.
Usaremos a hipótese: na população, u tem valor esperado médio igual a zero e é nãocorrelacionado com x.
̂
̅
̂
∑
̂
̂̅
(2.16)
̅ - ̂ ̅ (2.17)
̅
(2.18) “ inclinação positiva”
∑
̅
∑
̅
̅
(2.19)
Observar na amostra se x não apresenta os mesmos valores (x não varia na população) para
validar a equação 2.18, conforme a Figura 2.3 (pg.28)
Com isso, chamamos as estimativas dadas nas equações (2.17) e (2.19) de estimativas de
mínimos quadrados ordinários (MQO) de β0 e β1.
̂
̂
̂
(2.20)
O resíduo para a observação i é a diferença entre o valor verdadeiro de yi e seu valor estimado
̂
̂
̂
̂
(2.21)
Os valores estimados e os resíduos estão indicados na Figura 2.4 (pg.29)
Agora suponha que escolhemos ̂ e ̂ com a finalidade de tornar a soma dos resíduos
quadrados tão pequena quanto possível:
∑
̂
̂
∑
̂
(2.22)
Uma vez determinados os estimadores de intercepto e inclinação de MQO, construímos a reta
de regressão de MQO:
̂
̂
̂
(2.23)
Em relação aos dados, dependendo do caso, se for de uma amostra de uma população ou da
população como um todo, existe a função de regressão amostral (FRA), para cada amostra da
população que for analisada terá uma inclinação e um intercepto diferentes e existe a função
de regressão populacional (FRP) que teria uma inclinação e intercepto fixos, quando se possui
todos os dados da população.
Estimativa do coeficiente de inclinação:
̂
̂
(2.24)
2.3 – MECÂNICA DO MÉTODO MQO
Nesta seção, cobriremos algumas propriedades algébricas da reta de regressão de MQO
estimada.
Valores Estimados e Resíduos
Assumimos que as estimativas de intercepto e de inclinação, ̂ e ̂ , foram obtidas de uma
dada amostra de dados.. Dados ̂ e ̂ , podemos e obter o valor estimado de ̂ para cada
observação. Por definição, cada valor estimado de ̂ está sobre a reta de regressão de MQO.
O resíduo de MQO associado a cada observação i, ̂ , é a diferença entre
e seu valor
estimado. Se ̂ é positivo, a reta subestima yi ; se ̂ é negativo, a reta superestima yi. O caso
ideal para a observação i é quando ̂ = 0, mas na maior parte dos casos todos os resíduos são
diferentes de zero. Em outras palavras, nenhum dos pontos dos dados deve, realmente, estar
sobre a reta de MQO.
Propriedades Algébricas das Estatísticas de MQO
Há várias propriedades algébricas úteis das estimativas de MQO e das estatísticas a elas
associadas, as três mais importantes são:
1 – A soma e, portanto a média amostral, dos resíduos de MQO, é zero. Matematicamente,
∑
̂
(2.30)
2 – A covariância amostral entre os regressores e os resíduos de MQO é zero. Isso resulta da
condição de primeira ordem, que pode ser escrita em termos de resíduos como:
∑
̂= 0
(2.31)
A média amostral dos resíduos de MQO é zero, de modo que o lado esquerdo da equação
acima é proporcional à covariância amostral em xi e ̂ .
3 – O ponto ( ̅ , ̅ ) sempre está sobre a reta de regressão de MQO. Usando a média de x na
equação de regressão, encontraremos a média de y.
Soma dos Quadrados Total (SQT):
∑
̅̅̅
(2.33)
̅̅̅
(2.34)
Soma dos Quadrados Explicada (SQE):
∑
̂
Soma dos Quadrados dos Resíduos (SQR):
∑
̂ (2.35)
GRAU DE AJUSTE
- Mensurar o quanto bem a variável explicativa ou independente, x, explica a variável
dependente, y.
- Para isso, calcula-se o R-quadrado da regressão, também chamado de coeficiente de
determinação:
R2 = SQE/SQT = 1 – SQR/SQT
Onde, R2 é a razão entre a variação explicada e a variação total: assim, ele é interpretado com
a fração da variação amostral em y que é explicada por x.
2.4 UNIDADES E MEDIDA E FORMA FUNCIONAL
Duas questões importantes:
1 – entender como, ao mudar as unidades de medida das variáveis dependente e/ou
independente, são afetadas as estimativas de MQO;
2 – saber como incorporar, à análise de regressão, formas funcionais populares usadas em
economia.
Os Efeitos de Mudanças das Unidades de Medida sobre as Estimativas de MQO
- Mudanças nas unidades de medida nas variáveis dependentes:
Se a variável independente é multiplicado/dividido por alguma constante diferente de zero,
então o intercepto e o coeficiente de inclinação de MQO é multiplicado/dividido pela
constante, respectivamente, não afetando o intercepto.
- Mudanças nas unidades de medida nas variáveis independentes:
Se a variável independente é dividida ou multiplicada por alguma constante diferente de zero,
então o coeficiente de inclinação de MQO é multiplicado ou dividido pela constante,
respectivamente, não afetando o intercepto.
Ver exemplos livro pg.40 e 41
Incorporação de Não-Linearidades na Regressão Simples
Um modelo que gera (aproximadamente) um efeito percentual constante (eq. 2.42) em que
log é o logaritmo natural (LN) aplicado na variável dependente
Figura 2.6
Ver o Exemplo 2.10
Outro uso importante do logo natural está em obter um Modelo de Elasticidade Constante,
como aparece no exemplo 2.11
É útil também, observar o que acontece às estimativas de intercepto e de inclinação se
mudarmos as unidades de medida da variável dependente quando ela aparece na forma
logarítmica. Pelo fato de a variação da forma logarítmica aproximar-se de uma variaçãp
proporcional, faz sentido que nada aconteça com a inclinação.
Finalizamos esta subseção resumindo quatro combinações de formas funcionais construídas a
partir da variável original ou de seu logaritmo natural. Observe a Tabela 2.3
2.5 VALORES ESPERADOS E VARIÂNCIAS DOS ESTIMADORES DE MQO
Estudaremos as propriedades estatísticas da estimação de MQO, ou seja, veremos agora β 0 e
β1 estimados como estimadores dos parâmetros β0 e β1 que aparecem no modelo populacional
Significa que estudaremos as propriedades das distribuições de β0 e β1 estimados de diferentes
amostras aleatórias da população.
Inexistência de Viés em MQO
As Hipóteses de Gauss-Markov na Regressão Linear Simples (RLS):
É importante lembrar que somente as RLS.1 até a RLS.4 são necessárias para mostramos que
̂ e ̂ são não viesados. Adicionamos a hipótese de homoscedasticidade, RLS.5, par
obtermos as fórmulas habituais de variância dos MQO
Hipótese RLS.1: Linear em Parâmetros
No modelo populacional, a variável dependente, y, está relacionada com a variável
independente, x, e com o erro (ou perturbação), u, como
y = β0 + β1x+ u
em que β0 e β1 são os parâmetros de intercepto e da inclinação populacionais,
respectivamente.
Hipótese RLS.2: Amostragem Aleatória
Temos uma amostra aleatória de tamanho n, {(xi ,yi): i = 1, 2, ..., n}, seguindo o modelo
populacional da Hipótese RLS.1. Observação, não confundir os ui com os resíduos ,
Yi = β0 + β1xi + ui , i = 1, 2, ..., n
Esta relação pode ser colocada em um gráfico para um registro particular dos dados, como
mostra a Figura 2.7
Hipótese RLS.3: Variação Amostral na Variável Explicativa
Os resultados amostrais na variável x, a saber, {xi , i = 1, ..., n} não são todos de mesmo valor.
Trata-se de uma hipótese muito fraca, mas necessária.
Hipótese RLS.4: Média Condicional Zero
O erro u tem zero como valor esperado, quaisquer que sejam os valores das variáveis. Em
outras palavras,
E(u|x) = 0 (2.6)
Outra questão importante é a possibilidade de que x esteja correlacionado com u é quase
sempre uma preocupação na análise de regressão linear simples com dados não
experimentais. Usar a regressão linear simples quando u contém fatores que afetam y e que
também estão correlacionados com x pode resultar em uma correlação espúria: isto é,
achamos uma relação entre y e x que se deve, em verdade, a outros fatores que afetam y e
que também estão correlacionados com x.
Variâncias dos Estimadores de MQO
Essa hipótese afirma que a variância do termo não observável, u, condicionado a x, é
constante. Ela é conhecida como a hipótese de homoscedasticidade ou de variância
constante.
Hipótese RLS.5: Homoscedasticidade
O erro u tem a mesma variância quaisquer que sejam os valores das variáveis explicativas, ou
seja:
Var(u|x) = Ϭ2
Também podemos dizer que a expectativa condicional de y, dado x, é linear em x, mas a
variância de y, dado x, é constante. Esta situação está ilustrada na Figura 2.8, em que β0 > 0 e
β1 > 0.
Quando a Var(u|x) depende de x, diz-se que o termo de erro apresenta heteroscedasticidade
(ou variância não constante). Como Var (u|x), a heterescedasticidade está presente sempre
que Var (u|x) é uma função de x.
Estimação da Variância do Erro
O cálculo da variância do erro:
̂ =
∑
̂
SQR/ (n-2)
Observação: para se obter o desvio-padrão, basta extrair a raiz quadrada da variância.
2.6 REGRESSÃO ATRAVÉS DA ORIGEM
Em raros casos, desejamos impor a restrição de que, quando x = 0, o valor esperado de y é
zero. Há certas relações para as quais isso é possível. Por exemplo, se a renda (x) for zero,
então o pagamento de imposto de renda (y) também deve ser zero. Além disso, há problemas
quando um modelo que originalmente tem um intercepto diferente de zero é transformado
em um modelo sem intercepto.
Formalmente, nós escolhemos agora um estimador da inclinação, que chamaremos de ̃, e
uma reta da forma
̃
̃
(2.63)
E, portanto, para resolver para ̃:
̃=∑
∑
(2.66)
Desde que nem todos os xi sejam zero – um caso que excluímos.
Download