PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES 2.1 – DEFINIÇÃO DO MODELO DE REGRESSÃO SIMPLES Duas variáveis: y e x Análise “explicar y em termos de x” ou “estudar como y varia de acordo com x” Por exemplo: y = produção de soja e x = quantidade de fertilizantes Y = salário-hora e x = anos de educação Y = taxa de criminalidade e x = número de policiais Ao escrever o modelo que “ explicará y em termos de x” temos três questões: 1 - Como nunca há uma relação exata entre duas variáveis, como consideramos outros fatores que afetam y? 2 – Qual é a relação funcional entre y e x? 3 – Como poderemos estar certos de que estamos capturando uma relação ceteris paribus entre y e x (se este for o objetivo desejado)? Resolvendo estas ambiguidades escrevendo uma equação simples que relaciona y e x: Y = β0 + β1x + u (2.1) que supostamente é válida para a população de interesse, define o modelo de regressão simples ou modelo de regressão linear de duas variáveis ou bivariada Terminologia para a regressão simples y Variável Dependente Variável Explicada Variável de Resposta Variável Prevista Regressando X Variável Independente Variável Explicativa Variável de Controle Variável Previsora Regressor A variável u, chamada de termo erro ou perturbação da relação, representa outros fatores, além de x, que afetam y. Você pode pensar em u como representando o “não-observado”. A equação (2.1) trata da questão da relação funcional entre x e y. Se os outros fatores em u são mantidos fixos (constantes), de modo que a variação em u é zero. ∆u = 0, então x tem um efeito linear sobre y: ∆y = β1 ∆x se ∆u = 0 (2.2) Assim, a variação em y é, simplesmente β1 multiplicado pela variação em x. Isso significa que β1 é o parâmetro de inclinação da relação entre y e x, mantendo fixos os outros fatores em u; ele é de interesse fundamental em economia aplicada. O parâmetro β0 também te seus usos, embora ele raramente seja central para uma análise. Exemplo 2.1, pg. 21 – Produção de Soja e Fertilizantes Exemplo 2.2, pg. 22 – Uma Equação Simples de Salário A linearidade de (2.1) implica de que uma variação de uma unidade de x tem o mesmo efeito sobre y, independentemente do valor inicial de x sendo irrealista para muitas aplicações econômicas A questão mais difícil é saber se o modelo (2.1) realmente nos permite tirar conclusões ceteris paribus sobre como x afeta y, ou seja, como x afeta y mantendo todos os outros fatores (em u) fixos. Como u e x são variáveis aleatórias, podemos definir a distribuição condicional de u, dado queal valor de x. Em particular, para qualquer x, podemos obter o valor esperado (ou médio) (esperança, expectância) de u para aquela fatia da população descrita pelo valor de x. A hipótese crucial é que o valor médio de u não depende do valor de x. Pode ser escrito da segunte forma: E(u|x) = E(u) = 0 (2.6) que é a hipótese de condicional zero Questão 2.1 Suponha que a nota de um exame final (nota) dependa da frequência às aulas (freq.) e de fatores não-observados que afetam o desempenho das estudantes (tal como aptidão). Então: nota = β0 + β1freq + u Em que situação você esperaria que este modelo satisfaça (2.6)? A hipótese (2.6) dá a β1 outra interpretação que é, frequentemente útil. Considerando o valor esperado de (2.1) condicionado a x usando E(u|x) = 0, obtém-se: E(y|x) = β0 + β1x (2.8) A equação (2.8) mostra que a função de regressão populacional (FRP), E(y|x), é uma função linear de x. A linearidade significa que o aumento de uma unidade em x faz com que o valor esperado de y varie segundo a magnitude de β1 . Para qualquer valor dado de x, a distribuição de y está centrada ao redor de E(y|x) como ilustrado na Figura 2.1 pg. 24 Quando (2.8) é verdadeira, é útil dividir y em dois componentes. A parte β0 + β1x é algumas vezes chamada de parte sistemática de y , isto é, a parte de y explicada por x e u é chamada a parte não-sistemática de y, ou a parte de y não explicada por x. 2.2 - DERIVAÇÃO DAS ESTIMATIVAS DE MÍNIMOS QUADRADOS ORDINÁRIOS (MQO) Agora que discutimos os ingredientes básicos do modelo de regressão linear, trataremos da importante questão de como estimar os parâmetros β0 e β1 . Para tanto, necessitamos de uma amostra da população. Vamos considerar [(xi, yi): i=1, ..., n] como uma amostra aleatória de tamanho n da população. Visto que estes dados vêm de y = β0 + β1x + u (2.1) Podemos escrever yi = β0 + β1xi + ui (2.9) para cada i. Aqui, ui é o termo erro para a observação i, uma vez que ele contém todos os fatores, além de xi, que afetam yi. Exemplo xi poderia ser a renda anual e yi a poupança anual pra a família i durante um determinado ano. Se coletarmos dados de 15 famílias, então n = 15. Um gráfico de tal conjunto de dados é dado pela Figura 2.2 (pg.26), juntamente com a função de regressão populacional (fictícia). Para obter as estimativas do intercepto β0 e da inclinação β1 na regressão populacional da poupança sobre a renda. Usaremos a hipótese: na população, u tem valor esperado médio igual a zero e é nãocorrelacionado com x. ̂ ̅ ̂ ∑ ̂ ̂̅ (2.16) ̅ - ̂ ̅ (2.17) ̅ (2.18) “ inclinação positiva” ∑ ̅ ∑ ̅ ̅ (2.19) Observar na amostra se x não apresenta os mesmos valores (x não varia na população) para validar a equação 2.18, conforme a Figura 2.3 (pg.28) Com isso, chamamos as estimativas dadas nas equações (2.17) e (2.19) de estimativas de mínimos quadrados ordinários (MQO) de β0 e β1. ̂ ̂ ̂ (2.20) O resíduo para a observação i é a diferença entre o valor verdadeiro de yi e seu valor estimado ̂ ̂ ̂ ̂ (2.21) Os valores estimados e os resíduos estão indicados na Figura 2.4 (pg.29) Agora suponha que escolhemos ̂ e ̂ com a finalidade de tornar a soma dos resíduos quadrados tão pequena quanto possível: ∑ ̂ ̂ ∑ ̂ (2.22) Uma vez determinados os estimadores de intercepto e inclinação de MQO, construímos a reta de regressão de MQO: ̂ ̂ ̂ (2.23) Em relação aos dados, dependendo do caso, se for de uma amostra de uma população ou da população como um todo, existe a função de regressão amostral (FRA), para cada amostra da população que for analisada terá uma inclinação e um intercepto diferentes e existe a função de regressão populacional (FRP) que teria uma inclinação e intercepto fixos, quando se possui todos os dados da população. Estimativa do coeficiente de inclinação: ̂ ̂ (2.24) 2.3 – MECÂNICA DO MÉTODO MQO Nesta seção, cobriremos algumas propriedades algébricas da reta de regressão de MQO estimada. Valores Estimados e Resíduos Assumimos que as estimativas de intercepto e de inclinação, ̂ e ̂ , foram obtidas de uma dada amostra de dados.. Dados ̂ e ̂ , podemos e obter o valor estimado de ̂ para cada observação. Por definição, cada valor estimado de ̂ está sobre a reta de regressão de MQO. O resíduo de MQO associado a cada observação i, ̂ , é a diferença entre e seu valor estimado. Se ̂ é positivo, a reta subestima yi ; se ̂ é negativo, a reta superestima yi. O caso ideal para a observação i é quando ̂ = 0, mas na maior parte dos casos todos os resíduos são diferentes de zero. Em outras palavras, nenhum dos pontos dos dados deve, realmente, estar sobre a reta de MQO. Propriedades Algébricas das Estatísticas de MQO Há várias propriedades algébricas úteis das estimativas de MQO e das estatísticas a elas associadas, as três mais importantes são: 1 – A soma e, portanto a média amostral, dos resíduos de MQO, é zero. Matematicamente, ∑ ̂ (2.30) 2 – A covariância amostral entre os regressores e os resíduos de MQO é zero. Isso resulta da condição de primeira ordem, que pode ser escrita em termos de resíduos como: ∑ ̂= 0 (2.31) A média amostral dos resíduos de MQO é zero, de modo que o lado esquerdo da equação acima é proporcional à covariância amostral em xi e ̂ . 3 – O ponto ( ̅ , ̅ ) sempre está sobre a reta de regressão de MQO. Usando a média de x na equação de regressão, encontraremos a média de y. Soma dos Quadrados Total (SQT): ∑ ̅̅̅ (2.33) ̅̅̅ (2.34) Soma dos Quadrados Explicada (SQE): ∑ ̂ Soma dos Quadrados dos Resíduos (SQR): ∑ ̂ (2.35) GRAU DE AJUSTE - Mensurar o quanto bem a variável explicativa ou independente, x, explica a variável dependente, y. - Para isso, calcula-se o R-quadrado da regressão, também chamado de coeficiente de determinação: R2 = SQE/SQT = 1 – SQR/SQT Onde, R2 é a razão entre a variação explicada e a variação total: assim, ele é interpretado com a fração da variação amostral em y que é explicada por x. 2.4 UNIDADES E MEDIDA E FORMA FUNCIONAL Duas questões importantes: 1 – entender como, ao mudar as unidades de medida das variáveis dependente e/ou independente, são afetadas as estimativas de MQO; 2 – saber como incorporar, à análise de regressão, formas funcionais populares usadas em economia. Os Efeitos de Mudanças das Unidades de Medida sobre as Estimativas de MQO - Mudanças nas unidades de medida nas variáveis dependentes: Se a variável independente é multiplicado/dividido por alguma constante diferente de zero, então o intercepto e o coeficiente de inclinação de MQO é multiplicado/dividido pela constante, respectivamente, não afetando o intercepto. - Mudanças nas unidades de medida nas variáveis independentes: Se a variável independente é dividida ou multiplicada por alguma constante diferente de zero, então o coeficiente de inclinação de MQO é multiplicado ou dividido pela constante, respectivamente, não afetando o intercepto. Ver exemplos livro pg.40 e 41 Incorporação de Não-Linearidades na Regressão Simples Um modelo que gera (aproximadamente) um efeito percentual constante (eq. 2.42) em que log é o logaritmo natural (LN) aplicado na variável dependente Figura 2.6 Ver o Exemplo 2.10 Outro uso importante do logo natural está em obter um Modelo de Elasticidade Constante, como aparece no exemplo 2.11 É útil também, observar o que acontece às estimativas de intercepto e de inclinação se mudarmos as unidades de medida da variável dependente quando ela aparece na forma logarítmica. Pelo fato de a variação da forma logarítmica aproximar-se de uma variaçãp proporcional, faz sentido que nada aconteça com a inclinação. Finalizamos esta subseção resumindo quatro combinações de formas funcionais construídas a partir da variável original ou de seu logaritmo natural. Observe a Tabela 2.3 2.5 VALORES ESPERADOS E VARIÂNCIAS DOS ESTIMADORES DE MQO Estudaremos as propriedades estatísticas da estimação de MQO, ou seja, veremos agora β 0 e β1 estimados como estimadores dos parâmetros β0 e β1 que aparecem no modelo populacional Significa que estudaremos as propriedades das distribuições de β0 e β1 estimados de diferentes amostras aleatórias da população. Inexistência de Viés em MQO As Hipóteses de Gauss-Markov na Regressão Linear Simples (RLS): É importante lembrar que somente as RLS.1 até a RLS.4 são necessárias para mostramos que ̂ e ̂ são não viesados. Adicionamos a hipótese de homoscedasticidade, RLS.5, par obtermos as fórmulas habituais de variância dos MQO Hipótese RLS.1: Linear em Parâmetros No modelo populacional, a variável dependente, y, está relacionada com a variável independente, x, e com o erro (ou perturbação), u, como y = β0 + β1x+ u em que β0 e β1 são os parâmetros de intercepto e da inclinação populacionais, respectivamente. Hipótese RLS.2: Amostragem Aleatória Temos uma amostra aleatória de tamanho n, {(xi ,yi): i = 1, 2, ..., n}, seguindo o modelo populacional da Hipótese RLS.1. Observação, não confundir os ui com os resíduos , Yi = β0 + β1xi + ui , i = 1, 2, ..., n Esta relação pode ser colocada em um gráfico para um registro particular dos dados, como mostra a Figura 2.7 Hipótese RLS.3: Variação Amostral na Variável Explicativa Os resultados amostrais na variável x, a saber, {xi , i = 1, ..., n} não são todos de mesmo valor. Trata-se de uma hipótese muito fraca, mas necessária. Hipótese RLS.4: Média Condicional Zero O erro u tem zero como valor esperado, quaisquer que sejam os valores das variáveis. Em outras palavras, E(u|x) = 0 (2.6) Outra questão importante é a possibilidade de que x esteja correlacionado com u é quase sempre uma preocupação na análise de regressão linear simples com dados não experimentais. Usar a regressão linear simples quando u contém fatores que afetam y e que também estão correlacionados com x pode resultar em uma correlação espúria: isto é, achamos uma relação entre y e x que se deve, em verdade, a outros fatores que afetam y e que também estão correlacionados com x. Variâncias dos Estimadores de MQO Essa hipótese afirma que a variância do termo não observável, u, condicionado a x, é constante. Ela é conhecida como a hipótese de homoscedasticidade ou de variância constante. Hipótese RLS.5: Homoscedasticidade O erro u tem a mesma variância quaisquer que sejam os valores das variáveis explicativas, ou seja: Var(u|x) = Ϭ2 Também podemos dizer que a expectativa condicional de y, dado x, é linear em x, mas a variância de y, dado x, é constante. Esta situação está ilustrada na Figura 2.8, em que β0 > 0 e β1 > 0. Quando a Var(u|x) depende de x, diz-se que o termo de erro apresenta heteroscedasticidade (ou variância não constante). Como Var (u|x), a heterescedasticidade está presente sempre que Var (u|x) é uma função de x. Estimação da Variância do Erro O cálculo da variância do erro: ̂ = ∑ ̂ SQR/ (n-2) Observação: para se obter o desvio-padrão, basta extrair a raiz quadrada da variância. 2.6 REGRESSÃO ATRAVÉS DA ORIGEM Em raros casos, desejamos impor a restrição de que, quando x = 0, o valor esperado de y é zero. Há certas relações para as quais isso é possível. Por exemplo, se a renda (x) for zero, então o pagamento de imposto de renda (y) também deve ser zero. Além disso, há problemas quando um modelo que originalmente tem um intercepto diferente de zero é transformado em um modelo sem intercepto. Formalmente, nós escolhemos agora um estimador da inclinação, que chamaremos de ̃, e uma reta da forma ̃ ̃ (2.63) E, portanto, para resolver para ̃: ̃=∑ ∑ (2.66) Desde que nem todos os xi sejam zero – um caso que excluímos.