Econometria I Prof. Vanderlei Kleinschmidt 2018 Copyright © UNIASSELVI 2018 Elaboração: Prof. Vanderlei Kleinschmidt Revisão, Diagramação e Produção: Centro Universitário Leonardo da Vinci – UNIASSELVI Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri UNIASSELVI – Indaial. K64e Kleinschmidt, Vanderlei Econometria I. / Vanderlei Kleinschmidt. – Indaial: UNIASSELVI, 2018. 249 p.; il. ISBN 978-85-515-0223-5 1.Econometria. – Brasil. II. Centro Universitário Leonardo Da Vinci. CDD 330.015195 Impresso por: Apresentação Prezado acadêmico! A Ciência Econômica existe há muitos séculos, porém nos últimos 100 anos, ela ganhou um impulso enorme com a formalização da Econometria como braço direito dos economistas. Esse é o elo que nos auxilia na tarefa de testar as teorias econômicas e que torna a economia uma verdadeira ciência. Estudar Econometria é um desafio, por isso tomamos muito cuidado ao elaborar o seu material. As unidades foram estruturadas e preparadas de forma a lhe oferecer um conteúdo moderno, atualizado, em linha com o que as principais universidades do país utilizam. Ao longo dos seus estudos, você perceberá que a Econometria é um conhecimento cumulativo, no sentido de que tudo o que você aprender, desde as primeiras páginas, continuará usando até a última página desse livro. E não só do livro de Econometria I, durante os seus estudos de Econometria II você utilizará recorrentemente os conceitos e as habilidades que irá desenvolver a partir de agora. Na Unidade 1, você terá uma visão geral da Econometria. Verá como ela surgiu, entenderá um pouco da sua importância e aprenderá os primeiros conceitos. Nessa fase, talvez, você sinta um pouco a necessidade de revisar aquilo que você sabe de estatística e matemática. Se isso acontecer, recomendamos que o faça, mas não de forma aprofundada, reveja apenas os conceitos que tiver maior dificuldade, porque ao longo dessa unidade esses conceitos são explicados à luz do processo econométrico. Ao final dessa unidade, você já estará estimando os seus primeiros modelos de regressão simples, com apenas duas variáveis, e fazendo as primeiras análises de resultados. A ideia de conhecimento cumulativo ficará bem clara ao iniciar os estudos da Unidade 2. Nela você retomará os modelos desenvolvidos na Unidade 1, porém ampliando-os com a adição de múltiplas variáveis, e com isso terá que recorrer a novas técnicas para estimar os seus modelos. Estamos falando da álgebra matricial, que alguns autores relutam em apresentar em seus materiais, porém, como poderá constatar, o uso de matrizes torna o estudo e a aplicação da Econometria mais intuitiva. Essa unidade é finalizada com uma das ferramentas mais importantes que os econometristas usam, trata-se das variáveis binárias. Com elas é possível dessazonalizar séries de dados, calcular médias, medir quebras estruturais, estimar diferenças entre categorias, enfim, adicionar o elemento qualitativo aos modelos quantitativos. Finalizamos o livro com a Unidade 3, que aborda os três grandes problemas que enfrentamos ao estimar os modelos econométricos. Nesse caso, o objetivo é apresentar a você, acadêmico, os conceitos relacionados a cada um desses problemas, explicando a sua fonte, as consequências, como III diagnosticar e como superar cada um deles. Você compreenderá que, apesar de usarmos um software para fazer a parte pesada e tornar mais simples o nosso trabalho, estimar um modelo de regressão requer mais do que alguns simples cliques com o mouse. Nós precisamos estar atentos a certos problemas, como a heteroscedasticidade e a autocorrelação, que podem jogar por terra todo o tempo que empregamos na nossa pesquisa. O segredo do sucesso de estudar e aprender Econometria reside na prática. Não adianta de nada você apenas ler o material desenvolvido e assistir aos vídeos. Se não praticar, todo esse tempo dedicado aos estudos terá sido em vão. Recomendamos que você utilize os dados disponibilizados no material e tente reproduzir os resultados que obtivemos. Isso é extremamente importante, porque é impossível aprender Econometria sem praticar! Guarde bem esse material para consultas futuras, utilize a técnica e as habilidades que você irá desenvolver ao longo dos seus estudos, e tente aplicálas no seu trabalho e nos estudos das outras disciplinas do curso de Ciências Econômicas. Dedique-se aos estudos dessa fantástica área do conhecimento econômico e colherá os melhores resultados na sua carreira. Bons estudos! Prof. Vanderlei Kleinschmidt IV NOTA Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novidades em nosso material. Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um formato mais prático, que cabe na bolsa e facilita a leitura. O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagramação no texto, aproveitando ao máximo o espaço da página, o que também contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo. Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade de estudá-lo com versatilidade nas telas do celular, tablet ou computador. Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto em questão. Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar seus estudos com um material de qualidade. Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de Desempenho de Estudantes – ENADE. Bons estudos! UNI Olá acadêmico! Para melhorar a qualidade dos materiais ofertados a você e dinamizar ainda mais os seus estudos, a Uniasselvi disponibiliza materiais que possuem o código QR Code, que é um código que permite que você acesse um conteúdo interativo relacionado ao tema que você está estudando. Para utilizar essa ferramenta, acesse as lojas de aplicativos e baixe um leitor de QR Code. Depois, é só aproveitar mais essa facilidade para aprimorar seus estudos! V VI Sumário UNIDADE 1 – OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO........................................ 1 TÓPICO 1 – INTRODUÇÃO AO ESTUDO ECONOMÉTRICO ................................................... 3 1 INTRODUÇÃO ..................................................................................................................................... 3 2 O QUE É ECONOMETRIA? ............................................................................................................... 3 3 O MÉTODO ECONOMÉTRICO ....................................................................................................... 7 LEITURA COMPLEMENTAR ............................................................................................................... 11 RESUMO DO TÓPICO 1 ....................................................................................................................... 13 AUTOATIVIDADE.................................................................................................................................. 14 TÓPICO 2 – MODELO DE REGRESSÃO LINEAR GERAL ........................................................... 15 1 INTRODUÇÃO ..................................................................................................................................... 15 2 A MODELAGEM ECONÔMICA E A ORIGEM DOS DADOS ECONOMÉTRICOS ........... 15 3 ANÁLISE DE REGRESSÃO ............................................................................................................... 19 4 O MODELO DE REGRESSÃO LINEAR SIMPLES ....................................................................... 23 5 AS HIPÓTESES DO MODELO DE REGRESSÃO LINEAR ........................................................ 24 RESUMO DO TÓPICO 2........................................................................................................................ 29 AUTOATIVIDADE.................................................................................................................................. 30 TÓPICO 3 – MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS .................................. 31 1 INTRODUÇÃO ..................................................................................................................................... 31 2 A FUNÇÃO DE REGRESSÃO AMOSTRAL E SUAS CARACTERÍSTICAS ........................... 32 3 ESTIMATIVA DOS PARÂMETROS POR MÍNIMOS QUADRADOS ORDINÁRIOS ........ 33 4 PROPRIEDADES NUMÉRICAS DOS ESTIMADORES .............................................................. 37 5 TESTES ESTATÍSTICOS ..................................................................................................................... 38 6 O USO DO GRETL PARA ESTIMAÇÃO E ANÁLISE ECONOMÉTRICA: A ANÁLISE DOS RESULTADOS E SUA INTERPRETAÇÃO .................................................... 59 7 OUTROS TÓPICOS RELACIONADOS AO MÉTODO DE MQO ............................................ 73 RESUMO DO TÓPICO 3 ....................................................................................................................... 79 AUTOATIVIDADE ................................................................................................................................. 80 UNIDADE 2 – REGRESSÃO MÚLTIPLA ........................................................................................... 83 TÓPICO 1 – O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL ..................... 85 1 INTRODUÇÃO ..................................................................................................................................... 85 2 O MODELO DE REGRESSÃO LINEAR GERAL EM FORMA MATRICIAL .......................... 87 3 HIPÓTESES DO MODELO ................................................................................................................ 89 RESUMO DO TÓPICO 1 ....................................................................................................................... 94 AUTOATIVIDADE ................................................................................................................................. 95 TÓPICO 2 – ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS .......................................................................................................... 101 1 INTRODUÇÃO ................................................................................................................................... 101 2 ESTIMADORES DE MQO ................................................................................................................ 102 VII 3 ESTIMANDO O MODELO DE REGRESSÃO MÚLTIPLO ...................................................... 109 4 TESTES ADICIONAIS APLICADOS AOS RESULTADOS DOS MODELOS DE REGRESSÃO .......................................................................................................... 117 RESUMO DO TÓPICO 2 ..................................................................................................................... 129 AUTOATIVIDADE ............................................................................................................................... 130 TÓPICO 3 – USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS ................................... 133 1 INTRODUÇÃO ................................................................................................................................... 133 2 ESTIMANDO UM MODELO DE REGRESSÃO COM VARIÁVEIS QUALITATIVAS ...... 134 3 OUTRAS APLICAÇÕES COM VARIÁVEIS QUALITATIVAS ................................................ 138 LEITURA COMPLEMENTAR ............................................................................................................. 154 RESUMO DO TÓPICO 3 ..................................................................................................................... 157 AUTOATIVIDADE ............................................................................................................................... 158 UNIDADE 3 – MODELOS DE REGRESSÃO GENERALIZADOS ............................................. 163 TÓPICO 1 – MULTICOLINEARIDADE ........................................................................................... 165 1 INTRODUÇÃO ................................................................................................................................... 165 2 CONCEITO DE MULTICOLINEARIDADE ................................................................................. 166 3 DETECÇÃO DA MULTICOLINEARIDADE ................................................................................ 169 4 O QUE FAZER NA PRESENÇA DE MULTICOLINEARIDADE? ............................................ 177 LEITURA COMPLEMENTAR ............................................................................................................. 184 RESUMO DO TÓPICO 1 ..................................................................................................................... 186 AUTOATIVIDADE ............................................................................................................................... 187 TÓPICO 2 – HETEROSCEDASTICIDADE ...................................................................................... 189 1 INTRODUÇÃO ................................................................................................................................... 189 2 A NATUREZA DA HETEROSCEDASTICIDADE ....................................................................... 190 3 DETECTANDO O PROBLEMA DA HETEROSCEDASTICIDADE ........................................ 192 4 RESOLVENDO O PROBLEMA DA HETEROSCEDASTICIDADE – O MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS ................................................................ 201 RESUMO DO TÓPICO 2 ..................................................................................................................... 211 AUTOATIVIDADE ............................................................................................................................... 212 TÓPICO 3 – AUTOCORRELAÇÃO ................................................................................................... 213 1 INTRODUÇÃO ................................................................................................................................... 213 2 A NATUREZA DA CORRELAÇÃO SERIAL ................................................................................ 214 3 DETECTANDO O PROBLEMA DA CORRELAÇÃO SERIAL ................................................. 217 4 RESOLVENDO O PROBLEMA DA CORRELAÇÃO SERIAL – MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS ................................................................ 230 RESUMO DO TÓPICO 3 ..................................................................................................................... 235 AUTOATIVIDADE ............................................................................................................................... 236 REFERÊNCIAS ....................................................................................................................................... 239 VIII UNIDADE 1 OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO OBJETIVOS DE APRENDIZAGEM A partir do estudo desta unidade, você será capaz de: • definir o conceito e os objetivos da econometria, identificando os passos que envolvem o processo de pesquisa e as ferramentas utilizadas para este fim; • explicar os conceitos básicos da econometria, tais como regressão, variável dependente e explanatória, os tipos de dados e suas fontes; • aplicar o conhecimento desenvolvido para construir um modelo econométrico simples; • estimar o modelo construído utilizando dados econômicos, analisar os resultados obtidos e com base nas inferências estatísticas, validar ou refutar as hipóteses propostas inicialmente. PLANO DE ESTUDOS Esta unidade está dividida em três tópicos. No decorrer da unidade você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado. TÓPICO 1 – INTRODUÇÃO AO ESTUDO ECONOMÉTRICO TÓPICO 2 – MODELO DE REGRESSÃO LINEAR GERAL TÓPICO 3 – MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS 1 2 TÓPICO 1 UNIDADE 1 INTRODUÇÃO AO ESTUDO ECONOMÉTRICO 1 INTRODUÇÃO Prezado acadêmico, seja bem-vindo ao maravilhoso mundo da econometria. Esperamos que você esteja pronto para a nossa jornada, mas, se não tiver certeza disso, não se preocupe, juntos construiremos os fundamentos necessários para que você possa usar essa importante ferramenta na sua vida acadêmica e profissional. Até agora você aprendeu os principais conceitos econômicos, estudou os seus fundamentos matemáticos e estatísticos, viu a separação dos aspectos microeconômicos dos macroeconômicos e foi apresentado a diversas teorias e modelos. A partir de agora, estudando econometria, você terá a oportunidade de colocar em prática e testar a maior parte das teorias aprendidas e as que aprenderá até o final do seu curso. Além disso, poderá incorporar aos seus trabalhos acadêmicos todas as ferramentas aprendidas neste livro de estudos. Para isso, veremos, de forma gradual e seguindo uma sequência lógica e organizada, um conjunto de técnicas que, além de modernas, refletem o que as grandes universidades ao redor do mundo estão ensinando aos seus graduandos em economia. A disciplina de econometria, apesar de não ser exclusividade dos cursos de ciências econômicas, é, sem sombra de dúvidas, o nosso grande diferencial como economistas. Por esse motivo, dominar a técnica econométrica poderá ser o seu diferencial nesse mercado cada vez mais competitivo. Para ajudá-lo nessa empreitada, o primeiro tópico desse livro buscará entender o significado de econometria, um pouco da sua história, como ela se insere dentro da economia como ciência e como torná-la uma aliada para os seus estudos. 2 O QUE É ECONOMETRIA? Se tivéssemos que traduzir a palavra econometria de forma literal, diríamos que é uma medida econômica ou mensuração econômica, mas a tradução literal é muito fria e em nada reflete a dinâmica dessa disciplina. Na prática, pouco adianta saber a etimologia da palavra se você não entender o que ela significa de fato e não puder compreender a sua importância. 3 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Para saber o real significado da econometria é necessário recordarmos o que aprendemos até agora sobre a economia e uma das coisas mais importantes, na própria definição de economia, é entender que ela é uma ciência social. Por seu aspecto científico, a economia “[...] mais do que outras disciplinas – exige uma combinação de aptidões verbais e quantitativas” (TAYLOR, 2007, p. 69). Embora alguns pensem o contrário, a economia não é exclusivamente para quem gosta de cálculo, nem tampouco está voltada apenas para entender o funcionamento do mercado financeiro. Conseguir explicar a dinâmica das relações econômicas faz do economista um profissional diferenciado. Nesse quesito, muito mais do que conseguir efetuar um cálculo, é necessário ter a capacidade de síntese no sentido de poder interpretar os resultados obtidos. É aí que entra a parte não quantitativa da economia, aquela que descrevemos com o uso de palavras. Devemos ter em mente que o homem, nas suas relações interpessoais, tem certas necessidades as quais busca satisfazer. Esse agente econômico, que pode ser uma pessoa, o governo ou uma empresa, dispõe de certa quantidade de recursos para atender as suas escolhas. Ocorre que esses recursos nem sempre são suficientes. As necessidades, na maioria das vezes são ilimitadas, e aquilo que você quer, as suas escolhas, envolvem determinados custos. Assim, como bem sintetiza Krugman e Wells (2007, p. 5), “as escolhas individuais estão no cerne da economia”. Ou ainda, como nos ensina Marshall (1996, p. 77), “Economia Política ou Economia é um estudo da Humanidade nas atividades correntes da vida; examina a ação individual e social em seus aspectos mais estreitamente ligados à obtenção e ao uso dos elementos materiais do bem-estar”. Isso nos traz grandes desafios. Como medimos essas relações? Como sabemos em que grau as trocas ocorrem? As escolhas, feitas por um indivíduo, afetam a decisão de outros? Caso a resposta seja positiva, em que medida? De que maneira podemos descrever essas relações e mensurá-las? Uma importante ferramenta de análise é a economia matemática. Com ela podemos formular melhor a economia, ou seja, traduzir aquelas palavras que usamos para descrever certas relações através de equações. Por exemplo, sabemos que a demanda de um determinado bem, de maneira bem simplificada, pode ser expressa em função do seu preço, como: Q = f ( P) d 4 TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO Em que: Qd é a quantidade demandada (unidades, quilos, metros etc.), e P é o preço desse bem. Nessa relação, esperamos que se o preço for muito alto, as pessoas demandem menos unidades do que quando o preço for menor. Exceções a esta regra podem ser vistas na microeconomia, mas, como um bom estudante de economia, deixaremos para você verificar! A equação anterior não nos conta a história toda. Para avançarmos em nossa análise, precisaremos coletar informações na quantidade e qualidade suficientes, e assim teremos condições de averiguar se o comportamento descrito condiz com a realidade prática. Na ciência econômica, nós usamos técnicas estatísticas para resolver esses problemas econômicos, formulados pela matemática, de forma empírica (HOFFMANN, 2002, p. 2). E quanto à econometria? Onde ela se encaixa nessa história toda? Se você juntar a teoria econômica com a economia matemática e a estatística econômica, você terá aquilo que chamamos de econometria. Ela nada mais é do que a junção, ou a soma, ou ainda, como diz Gujarati e Porter (2011, p. 26), “[...] econometria é um amálgama de teoria econômica, economia matemática, estatística econômica e estatística matemática”. A palavra econometria foi utilizada pela primeira vez em 1933, quando saiu a edição de número um da revista Econométrica. Sua definição formal está no documento de constituição da Econometric Society, que em uma tradução livre diz que é uma sociedade internacional para o avanço da teoria econômica e sua relação com a estatística e a matemática (ROOS, 1933, p. 106). Desde o seu início, a econometria vem evoluindo dia após dia. Atualmente não podemos entender essa disciplina ou ramo da ciência econômica apenas analisando os seus aspectos matemáticos. Da mesma forma, apesar de toda a sua força e utilidade, a estatística é uma ferramenta empregada no processo econométrico, mas não se pode confundi-las como sendo a mesma coisa. Além disso, aquilo que entendemos como teoria econômica é ponto de partida para a econometria, dando sentido a sua análise, mas não é a econometria em si. Fica claro que a junção dessas três áreas críticas torna a econometria uma ferramenta poderosa para os economistas desenvolverem o seu trabalho com qualidade e assertividade. Porém, há um elemento-chave no processo econométrico que não pode ser desprezado, a tecnologia, que vem dando um impulso sem precedentes ao desenvolvimento tanto da econometria teórica quanto da econometria aplicada. 5 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Você consegue imaginar os economistas, nos anos 1930, fazendo análises estatísticas, coletando dados, tabulando e extraindo conclusões, sem um microcomputador? Nós que estamos acostumados ao uso dos meios eletrônicos temos dificuldade para imaginar um mundo assim. Pense em um matemático calculando derivadas, usando logaritmos, ou obtendo ângulos de figuras geométricas com o uso de tabelas específicas criadas para esse fim! Apesar de ser possível fazer tudo isso, temos que compreender que a tecnologia tem um papel central em todas as áreas de estudo e pesquisa, e na econometria ela é indissociável. Como veremos adiante, temos programas de computador tradicionais, como o SAS ou o Eviews, que têm um custo significativo, porém, para quem os usa no campo da pesquisa, o seu retorno compensa o investimento. Por outro lado, graças ao GNU e ao Free Software Foundation, temos hoje uma série de opções que, além de serem gratuitas, são poderosas ferramentas e acessíveis a todos, inclusive a nós, que usaremos muita técnica e tecnologia ao longo deste curso. Toda pesquisa começa por um problema, algo que intriga o pesquisador, que precisa de uma resposta. Assim, o objetivo principal da econometria é auxiliar o economista a responder aos seus problemas de pesquisa. Em uma investigação sobre um determinado evento ou fenômeno, nos deparamos com uma série de questões, que muitas vezes começam com a palavra “quanto?”. Esses problemas de pesquisa, ou essas questões que precisam ser resolvidas, encontram abrigo nas chamadas hipóteses ou pressupostos, que nada mais são que respostas prévias às perguntas formuladas anteriormente, as quais precisam ser medidas e testadas. Precisamos nos assegurar de que aquilo que entendemos como verdadeiro realmente é verdadeiro. Não basta afirmar, tem que comprovar! São exemplos de perguntas, ou problemas, com que nos deparamos em nossas pesquisas e para as quais a econometria é nossa grande aliada: IIIIIIIV- Quanto irá variar o consumo se houver um aumento real no salário mínimo? Quantos carros serão vendidos se o IPI for reduzido a zero? Quanto uma mudança em uma determinada variável afeta a outra? Haverá alguma variação no PIB caso o COPOM decida reduzir a meta da SELIC? V- Qual deve ser o nível de inadimplência caso o país passe por um período de recessão? VI- É possível determinar se houve discricionariedade na condução da política monetária por parte do Banco Central entre dois governos distintos? A resposta a essas e muitas outras questões que surgem durante um trabalho de pesquisa é obtida através do emprego de certas técnicas, dentre as quais, no caso da ciência econômica, a econometria é, sem sombra de dúvidas, a peça-chave. 6 TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO A seguir, veremos os passos que envolvem o processo econométrico através de um exemplo clássico, a teoria keynesiana do consumo. Veremos que existe uma sequência lógica que precisa ser respeitada para se obter resultados que sejam coerentes com a realidade. Ao longo de todo este livro desenvolveremos e refinaremos as técnicas apresentadas nesta primeira unidade, e com o tempo nos prepararemos para aprender modelos ainda mais robustos e cujas aplicações estão em linha com o que se vem empregando no mundo acadêmico e dos negócios. 3 O MÉTODO ECONOMÉTRICO Grande parte dos livros de econometria descreve o método econométrico com um exemplo prático. Não faremos diferente, até mesmo porque é preciso que você já comece a se familiarizar com o método e a visualizar as opções para aplicar essas poderosas ferramentas na sua vida acadêmica e profissional. O exemplo clássico que usaremos é a função consumo keynesiana, que nos dá algo a ser investigado ou medido, a propensão marginal a consumir. Utilizando a sequência proposta por Gujarati e Porter (2011), Greene (2012) e Wooldridge (2016), vamos ver o que Keynes (1996, p. 118) falou sobre a relação consumo versus renda: A lei psicológica fundamental em que podemos basear-nos com inteira confiança, tanto a priori, partindo do nosso conhecimento da natureza humana, como a partir dos detalhes dos ensinamentos da experiência, consiste em que os homens estão dispostos, de modo geral e em média, a aumentar o seu consumo à medida que a sua renda cresce, embora não em quantia igual ao aumento de sua renda. Toda pesquisa começa com algo que desperte a atenção do pesquisador e que lhe suscite perguntas. Por exemplo, no excerto da obra de Keynes citada, seria interessante considerar a possibilidade de se medir essa proporção do aumento na renda repassada ao consumo das famílias. O nosso problema de pesquisa já está bem claro e delineado, mas essa é apenas a primeira parte do processo econométrico e ainda está na fase da teoria econômica. Agora usaremos a matemática e a estatística como auxiliares no desenvolvimento da nossa pesquisa, e depois, quando tudo estiver bem claro, a tecnologia será o nosso “workhorse”, ou numa tradução livre, nosso “cavalo de batalha” nessa grande empreitada, e que nos conduzirá, de alguma forma, à vitória. Usando a matemática para refinar nossa intuição, devemos nomear as variáveis e estabelecer as relações em uma forma funcional que seja capaz de resumir a hipótese a ser testada. O formato dessa função matemática pode ter como fonte a própria teoria subjacente, porém, no nosso caso específico, a exposição de Keynes não nos dá uma pista sobre qual seria a relação funcional existente entre consumo e renda. 7 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Por simplificação, podemos supor que exista uma relação linear. Como veremos mais adiante, a linearidade é essencial para as análises que serão propostas e torna o nosso trabalho mais fácil. Por enquanto, vamos propor que a relação tenha a seguinte forma: Consumo = β1 + β2 Renda 1.2 A equação acima parece perfeita para aquilo que estamos propondo, porém teremos que testá-la na prática para ver se realmente serve para o nosso trabalho. Podemos supor que a propensão marginal a consumir, ou seja, quanto varia o consumo dada uma variação na renda, seja menor do que um. Leia novamente o excerto de Keynes e você verá isso bem claro. Se for verdade que apenas parte do aumento na renda é transferida para o consumo, podemos esperar que 0 < β2 < 1. Acho que você já deve ter percebido que a equação 1.2 é uma velha conhecida nossa. É a equação linear mais elementar, a qual costumamos escrever nas aulas de matemática com o formato Y = a + bX, em que a é o intercepto, ou o ponto onde a reta formada pela equação toca o eixo vertical do plano cartesiano e b é o coeficiente angular, ou, a inclinação dessa reta. O problema de se usar a equação 1.2 é que ela estabelece uma relação exata entre duas variáveis. Na vida real sabemos que isso nem sempre acontece de fato. Você é capaz de imaginar uma gama de outras coisas que podem afetar o consumo? Uma delas é o consumo no período anterior. Se você faz uma compra grande no início do mês e não consome tudo o que comprou, o que sobra diminui a quantidade adquirida na próxima compra. Alguns fatores são puramente subjetivos, outros são bem objetivos e quantificáveis, mas no geral todos são capazes de influenciar o consumo, o que nos faz concluir que na prática a relação entre consumo e renda não é exata ou determinística como em 1.2. Portanto, precisamos de uma variável que seja capaz de capturar a influência de todas essas variáveis, as quais de alguma forma afetam o consumo, mas que estamos deixando de fora dessa equação matemática por razões que ainda estudaremos neste livro. Chamaremos essa variável de termo de perturbação estocástica e representaremos pela letra u. Chamamos de perturbação porque ela é capaz de perturbar o comportamento da nossa variável consumo e é dita estocástica porque não segue um comportamento previsível, é totalmente aleatório, porém, como veremos mais adiante, com distribuições de probabilidade conhecidas. 8 TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO Vamos alterar o modelo 1.2 incluindo esse termo estocástico, o que fará com que ele se torne um modelo econométrico: Consumo = β1 + β2 Consumo + u 1.3 Temos uma teoria para ser testada, temos o modelo econométrico que derivou de uma função matemática, agora podemos obter os dados e empregar a estatística para prepará-los para a estimação ou solução de 1.3. Existem diversas fontes de dados, o que você precisa ter em mente é que nem sempre eles são confiáveis, por isso precisam de uma análise criteriosa, porque, em algum momento, alguém irá ler o resultado da nossa pesquisa e poderá se basear nela para implementar alguma política governamental, por exemplo. Por este motivo é importante que você se habitue a ser muito cuidadoso e crítico em tudo o que você faz. Como o excerto da teoria keynesiana não define claramente as variáveis, empregaremos uma aproximação, uma “proxy” para cada variável. Veremos ao longo do livro que a correta definição das variáveis que entram no modelo econométrico é muito importante, pois mitiga o risco de especificarmos um modelo de forma incorreta, ou, como é chamado, viés de especificação. Depois de coletar os dados e montar a nossa base, entra em ação um aliado importantíssimo do econometrista, a tecnologia. Estimaremos o modelo econométrico, ou seja, resolver a equação 1.3, com o emprego dos dados coletados, empregando um software econométrico. Como dissemos anteriormente, hoje em dia há uma variedade grande deles à disposição no mercado. Alguns são pagos e outros até gratuitos. Greene (2012) relaciona os seguintes programas e seus respectivos endereços na internet, os quais reproduzimos no quadro a seguir: QUADRO 1 – RELAÇÃO DE ALGUNS SOFTWARES ECONOMÉTRICOS DISPONÍVEIS NO MERCADO Software Endereço eletrônico Fornecedor/desenvolvedor EViews <www.eviews.com> QMS, Irvine, CA Gauss <www.aptech.com> Aptech Systems, Kent, WA LIMDEP <www.limdep.com> Econometric Software, Plainview, NY MATLAB <www.mathworks.com> Mathworks, Natick, MA NLOGIT <www.nlogit.com> Econometric Software, Plainview, NY R <www.r-project.org> The R Project for Statistical Computing RATS <www.estima.com> Estima, Evanston, IL SAS <www.sas.com> SAS, Cary, NC Shazam <www.econometrics.com> Northwest Econometrics Ltd., Gibsons, Canada Stata <www.stata.com> Stata, College Station, TX TSP <www.tspintl.com> TSP International, Stanford, CA FONTE: Greene (2012, p. 37) 9 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Da listagem fornecida por Greene (2012), é comum as grandes empresas, os centros de pesquisa de universidades, os profissionais do mercado financeiro, entre outros, escolherem dois ou até mais deles para suas atividades diárias. Todos eles são muito bons, mas não há um programa que faça exatamente tudo o que precisamos. Muitas vezes, o programa tem rotinas prontas que resolvem o nosso problema com alguns cliques do mouse. Mas, em aplicações mais avançadas, precisamos dominar a linguagem que está por trás do programa e escrever as linhas, as rotinas ou o algoritmo que será empregado. Evidentemente que no nosso livro de estudos não faremos algo assim tão avançado, até mesmo porque isso fugiria do escopo do que está sendo proposto nesse material. Porém, fica como advertência que, agora que você está entrando nesse mundo fantástico da econometria, mais cedo ou mais tarde você sentirá a necessidade e o desejo de avançar ainda mais nos seus estudos e buscar esse conhecimento. Vamos deixar você escolher o programa que melhor se adapte ao seu gosto, ao seu bolso, e ao domínio que você tem da língua inglesa, caso queira pagar pela licença de uso de um deles. Ao longo de todo o curso de Econometria I, usaremos o Gretl, que não foi relacionado por Greene (2012) e, portanto, não está na listagem. Gretl é a abreviatura ou acrônimo de Gnu Regression, Econometrics and Time-series Library. É um software livre e de código aberto, feito para análise estatística e econométrica de dados. Trata-se de uma importante ferramenta a serviço dos econometristas, especialmente dos graduandos! Ele traz como vantagens o fato de ser totalmente gratuito, possuir interface em diversas línguas, inclusive o português, e ser multiplataforma, o que permite que seja instalado praticamente em todos os computadores vendidos atualmente. Para obter uma cópia deste programa você deve ir até <http://gretl. sourceforge.net/pt.html>, clicar na opção “Download” e selecionar o arquivo de instalação de acordo com o seu sistema operacional. Como usamos o Windows 10, da Microsoft, as telas apresentadas a seguir foram produzidas a partir deste sistema operacional. DICAS Os procedimentos de instalação são intuitivos e os manuais disponíveis no site o ajudarão nessa tarefa, caso tenha alguma dificuldade. Mesmo assim, sugerimos que você leia o material produzido por Carlos Henrique Coelho de Andrade, da UFRGS. Ele elaborou um manual introdutório ao Gretl, com o “objetivo [de] apresentar, de forma simplificada, algumas das funcionalidades presentes no Gretl de forma a auxiliar seu aprendizado tanto por aqueles que nunca utilizaram pacotes econométricos quanto aqueles que já possuem certa experiência com esse tipo de programa” (ANDRADE, 2013, p. 2). Esse manual está disponível para ser baixado em <https://www. ufrgs.br/ppge/wp-content/themes/PPGE/page/textos-para-discussao/pcientifica/2013_12.pdf>. 10 TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO Após estimar a regressão dada pela equação 1.3, fazemos uma série de verificações a fim de garantir que o modelo tenha a especificação adequada e os resultados sejam consistentes. Com o modelo devidamente validado, fazemos os testes de hipótese, as inferências estatísticas ou usamos o modelo para fins de previsão econômica. Se concluirmos que o modelo não é adequado, reiniciamos todo o trabalho, alterando a definição das variáveis, coletando mais dados, modificando a estrutura deles ou até mesmo redefinindo a forma funcional do modelo de regressão, como veremos na prática ao longo dos nossos estudos. LEITURA COMPLEMENTAR O nascimento da econometria e sua contribuição para a sociedade Samy Dana Lousas rabiscadas de equações matemáticas, barulhos de calculadoras e cheiro de giz permeiam o ambiente. Para quem não frequenta as aulas de econometria, tal cenário pode parecer uma bolha matemática muito distante da realidade. Engana-se quem pensa assim. Um dos maiores interesses de um economista é ver se o que foi proposto pela teoria se aplica na realidade. Isso, porém, sempre representou um dos maiores desafios da Economia. Diferentemente das ciências naturais, o economista raramente consegue realizar experimentos controlados, por isso os dados coletados em Economia são resultados de muitas relações de interdependência, o que torna difícil inferir relações de causa e consequência. Para tentar resolver este problema foi desenvolvida a Econometria: braço da Economia responsável por, justamente, estimar e testar as relações apresentadas pelos modelos teóricos usando dados da realidade. Até a metade do século passado faltava aos pesquisadores um sistema comum para formular, analisar e resolver os problemas de teste e estimação. Por causa disso, grandes economistas, como John Keynes, rejeitavam o uso dos métodos adotados, pois acreditava que isso limitava muito a extensão da teoria para o mundo real. Nesse cenário limitado, surge o trabalho de Trygve Haavelmo. O economista foi responsável por introduzir de forma consistente o uso dos métodos probabilísticos no campo da Econometria e, por consequência, por uma grande evolução na Ciência Econômica. Haavelmo nasceu em Oslo, na Noruega, em 1911. Graduou-se em economia pela Universidade de Oslo no ano de 1933. Entrou no Instituto de Economia como assistente de Ragnar Frisch, grande econometrista da época e laureado com o Nobel em Ciências Econômicas anos depois. O economista também estudou estatística no University College London. Em 1941, recebeu o título de Ph.D. pelo trabalho “The Probability Approach in Econometrics” (Abordagem Probabilística em Econometria, tradução livre), sendo essa a base que, seguida por outros de seus trabalhos, serviu para mostrar de forma convincente que o uso de probabilidade na formulação e teste das teorias econômicas poderia resolver grande parte dos problemas enfrentados pela Econometria da época. 11 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO O uso da abordagem probabilística é tão importante porque permite a aplicação de métodos de inferência capazes de apontar conclusões confiáveis sobre as relações previstas pela teoria. De maneira mais simples, a abordagem probabilística possibilita que, com dados da realidade, o pesquisador diga algo confiável sobre o todo, algo previsto pela teoria e confirmado pelas evidências práticas. Por exemplo, pode-se pegar os dados sobre programas do governo e entender se eles funcionam de acordo com o que foi planejado, desse modo há possibilidade de aperfeiçoamento do programa. Ao mostrar a necessidade do uso da teoria de probabilidade, ele também provou a sensatez por trás do novo método. Afinal, acreditar que é possível prever tudo sem incorrer em erros no cenário econômico complexo enfrentado pelos economistas seria absurdo. O ponto forte da probabilidade é o fato de ela ter erros e imprecisões, mas ser viável medir os erros e trabalhar para minimizar as imprecisões. O norueguês também contribui para a análise de problemas com interdependência nas relações econômicas. Basicamente, o problema é que um acontecimento econômico, como aumento de preço da gasolina, impacta muitos outros preços de várias formas. A gasolina mais cara aumenta o custo da entrega de pizza, mas a pizza ficou mais cara também porque a entrega da farinha ficou mais custosa. Por isso, é difícil entender o resultado pontual do preço da gasolina. Haavelmo explicou que se fosse utilizado um conjunto de relações autônomas, algo como relações entre custo da farinha e da pizza, custo da entrega e da pizza, e assim por diante, seriam explicadas de uma forma melhor. É do interesse do governo e das instituições que atuam na economia entender a inflação - como os preços vão aumentar -, a fim de fazer um planejamento mais adequado para o futuro. Imagine o seguinte exemplo: uma indústria está interessada em comprar uma máquina que custa R$ 1 milhão. Para isso, ela precisa saber qual será o melhor momento para efetuar a compra da máquina. Se em um ano a máquina custar R$ 1,1 milhão (inflação de 10%) e em dois anos a mesma máquina custar R$ 1,5 milhão (inflação de 50%), a empresa optará por efetuar a compra em um ano, pois pagará por um preço menor se tiver caixa. E a empresa só conseguirá tomar a melhor decisão se conseguir projetar bem a inflação. Antes de Haavelmo, isso não seria possível, já que os economistas não acreditavam na possibilidade de prever esses dados, afinal, não existia um processo preciso e bem estruturado. Depois de seus trabalhos, tais previsões são realizadas com grande frequência. São elas que permitem um melhor processo de decisão pelas empresas e pelo governo. Graças a Trygve Haavelmo, o giz que rabisca as equações na lousa das aulas de econometria se tornou capaz de desenhar soluções para problemas reais da sociedade. FONTE: <http://g1.globo.com/economia/blog/samy-dana/post/o-nascimento-da-econometria-esua-contribuicao-para-sociedade.html>. Acesso em: 25 ago. 2018. 12 RESUMO DO TÓPICO 1 Neste tópico, você aprendeu que: • A econometria utiliza a teoria econômica, a matemática, a estatística e a computação para, de forma empírica, testar teorias, formular e avaliar políticas econômicas e auxiliar as empresas na tomada de decisão. • O método econométrico segue alguns passos, a saber: a identificação de um problema de pesquisa, ou hipótese a ser testada, o refinamento com o uso da matemática, a especificação das variáveis, coleta e o tratamento adequado dos dados com o auxílio da estatística, a estimação dos parâmetros do modelo econométrico com o uso de um software e a análise dos resultados. • Neste livro de estudos usamos o Gretl, que é um software livre de código aberto, muito útil por ter uma interface amigável, em língua portuguesa e de utilização intuitiva. 13 AUTOATIVIDADE Para fechar este tópico, queremos propor uma atividade para você. Como você está iniciando na econometria, vamos começar com calma, sem preocupação com o acertar, mas queremos que você se esforce para fazer o melhor possível. Ao longo do livro você aprenderá uma série de técnicas que lhe permitirá voltar a esse exercício no momento que desejar e testar cada uma das ferramentas econométricas que aprender. Questão única – Com base no conhecimento que você adquiriu até agora ao longo do curso de Ciências Econômicas, procure lembrar de alguma teoria ou de algum aspecto que lhe chamou atenção e tente, a partir disso, elaborar um problema de pesquisa. Ao elaborar o problema, tente propor uma resposta para ele, mas não se preocupe se estiver certo ou errado, apenas faça a proposição de forma que você consiga identificar uma relação entre duas variáveis apenas. Procure defini-las adequadamente e baixe os dados da internet, salvando em uma planilha eletrônica que você consiga manipular. Com os dados em mãos, monte um gráfico de dispersão, colocando no eixo y a variável que você entende que depende da outra variável, a qual você colocará no eixo x. Olhando para esse gráfico e tendo em mente o que você já sabe sobre economia, procure analisar a sua hipótese e diga se é capaz de confirmá-la ou se terá que refutá-la. A que conclusões gerais você chegou com esse exercício? Procure escrever isso na forma de relatório, e na medida do possível, limite o conteúdo de forma a caber em apenas uma página. 14 TÓPICO 2 UNIDADE 2 1 MODELO DE REGRESSÃO LINEAR GERAL 1 INTRODUÇÃO Neste tópico, aprenderemos os conceitos básicos da econometria, os quais nos acompanharão enquanto estivermos estudando ou trabalhando na área econômica. São conceitos universais essenciais para compreender o funcionamento e a importância da econometria e sua aplicação prática. Por isso, vamos começar devagar, apresentando a análise de regressão, o modelo de regressão linear simples para finalmente entrarmos no método dos mínimos quadrados ordinários. Antes de vermos cada um desses pontos, devemos nos lembrar de que a ciência econômica é repleta de teorias, as quais são sintetizadas em modelos econômicos, sendo eles mais ou menos complexos, dependendo da sua aplicabilidade. Mas o que é um modelo, afinal de contas? É o que veremos a partir de agora. 2 A MODELAGEM ECONÔMICA E A ORIGEM DOS DADOS ECONOMÉTRICOS Como bem define Maddala (2003, p. 3), “um modelo é uma representação simplificada do mundo real.” A ideia de simplificar as relações torna mais fácil compreender o resultado das interações. Por exemplo, se estamos interessados em entender o motivo pelo qual o Comitê de Política Monetária do Banco Central (COPOM) altera a meta para a taxa básica de juros, podemos começar nossa análise dizendo que a sua decisão está baseada na expectativa que os agentes econômicos têm sobre o comportamento futuro dos preços. O problema é que estimar uma função resposta do Banco Central com base apenas no comportamento dos preços torna esse nosso modelo simplista demais. Para resolver essa questão poderíamos supor que, mantendo inalteradas todas as demais variáveis que afetam a decisão do Bacen, a taxa básica de juros da economia brasileira será alterada de acordo com as mudanças nas expectativas em relação à inflação futura. Assim, aplicando a condição ceteris paribus, ou seja, fixando as demais variáveis, podemos nos concentrar naquilo que realmente nos interessa, que é compreender quanto de aumento ou diminuição nos juros nós teremos quando a inflação aumenta ou diminui. 15 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Poderíamos imaginar também que a safra agrícola brasileira dependerá, dentre outros fatores, da quantidade de fertilizantes utilizados nas lavouras. Claro que a maioria de nós gosta de consumir produtos naturais, ou seja, sem a adição de elementos químicos para alterar sua composição e assim produzir além do que produziria em um processo natural. Quando elaboramos um modelo capaz de explicar a safra agrícola, usando como explicação a quantidade de fertilizantes, estamos estabelecendo uma relação ceteris paribus para as demais variáveis que, de alguma forma, impactam na safra. Como estudante de economia, você já deve ter feito o exercício de tentar enxergar todas as variáveis que afetam ou explicam um determinado fenômeno. No caso da safra agrícola, podemos pensar na quantidade de chuva durante o ano, medida em milímetros cúbicos, até mesmo na quantidade de sol, pensando em horas de luz por dia, no fato de a acidez do solo ter sido corrigida ou não, no método de plantio e até mesmo na época do ano em que o agricultor começou a plantação. E no caso do Banco Central, você consegue enumerar quais são as variáveis que afetam a decisão do COPOM ao tomar sua decisão em relação a elevar, manter ou reduzir a taxa básica de juros? DICAS Sugerimos que você dê uma lida na ata da última reunião do COPOM, disponível em <https://www.bcb.gov.br/?ATACOPOM>, e veja tudo o que é analisado pelo comitê para se chegar a um consenso sobre a decisão a ser tomada. Você perceberá que eles falam em cenários, e esses cenários são definidos com o uso de modelos econométricos que estudaremos na disciplina de Econometria II. O Bacen usa modelos complexos, mas a ideia de impor restrições ao modelo ajuda a torná-lo simples, porém alguns pressupostos podem ser tão restritivos que os tornam irrealistas. Por isso, podemos começar com um modelo simples e ir adicionando outras variáveis até termos certeza de que temos o suficiente para representarmos a realidade (MADDALA, 2003, p. 4). Uma forma de construir modelos é começando com uma proposição como aquela de Keynes sobre o consumo e a renda, apresentada no Tópico 1. Podemos falar em comportamento conjunto, dizer que uma variável provoca alterações em outra, ou é causada por outra, ou ainda varia em função de outra variável (GREENE, 2012, p. 51). Costumamos definir a variável que provoca as alterações como “explicativa” enquanto a que sofre a mudança é a “explicada”. O termo “explicativa”, em econometria, é sinônimo de explanatória, independente, exógena, previsor ou 16 TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL regressor. Por outro lado, “explicada” é sinônimo de dependente, alvo, endógena, de efeito, variável de controle ou regressando. As variáveis são construídas a partir de dados coletados geralmente na internet, em sites oficiais do governo ou de entidades privadas e de pesquisa onde as informações são divulgadas, tais como IBGE, Banco Central, IPEADATA, FMI, CNI, entre outros. Eles também podem ser coletados por meio de pesquisa de campo, ou seja, monta-se um questionário e o pesquisador vai a campo para aplicar e, posteriormente, tabular as informações coletadas. Há ainda outras formas de se obter os dados, tais como em experimentos controlados em laboratório, o que dificilmente conseguiremos fazer em economia, porém é comum em outras áreas da ciência, como a Biologia, a Física, ou até mesmo em fábricas, quando querem testar algo novo. Esses dados podem ser de três tipos: séries temporais, dados de corte e painel de dados. Um conjunto de dados é dito de séries temporais quando temos mudanças ao longo do tempo. Nós os representamos nos nossos modelos pelo subscrito “t”, por exemplo, Yt. Dessa forma, quando falamos na inflação anual do período compreendido entre 1994 e 2016, estamos relacionando o acumulado de cada ano em uma sequência. Da mesma forma, a variação percentual trimestral do Produto Interno Bruto ao longo do ano de 2016 também representa uma série temporal. Esses dados podem ser coletados com frequência intradiária (séries financeiras como preço de ações, câmbio etc.), diária, mensal, bimestral, trimestral, semestral, anual e assim por diante. Dizemos que esse conjunto de dados faz parte da Macroeconometria, porque está relacionado a temas estudados na Macroeconomia, tais como: a) Qual o efeito causado por mudanças na taxa básica de juros da economia brasileira sobre a inflação? Quando esse efeito começa e por quanto tempo ele dura? b) Longos períodos de recessão costumam ter como custo social altas taxas de desemprego. Quais os efeitos da baixa produção e do desemprego sobre o nível de preços da economia? Os dados de corte são aqueles obtidos em um determinado momento no tempo e representamos com o subscrito “i”, por exemplo, Yi. Esse subscrito indica que estamos tratando de indivíduos, que podem ser pessoas, estados, países, firmas etc. Ao longo da série de dados não há alterações temporais. Esses dados de corte são objeto de estudo da Microeconometria e nos ajudam a responder questões, como: a) Qual a relação entre gastos de campanha e número de votos na eleição presidencial de 2014? 17 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO b) A quantidade de alunos em sala de aula, na rede pública de ensino em 2017, é capaz de explicar o seu desempenho no ENEM? c) Profissionais com menos idade, mas com o domínio de mais idiomas estrangeiros ganham mais do que profissionais mais velhos que dominam apenas um idioma estrangeiro? Finalmente, o painel de dados, que também está relacionado à Microeconometria, junta tanto os dados de séries temporais quanto os dados de corte e suas séries são representadas pelos subscritos “i” e “t”, como em Yit. Isso significa que estamos nos referindo ao indivíduo “i” no período “t”. Em termos práticos, falamos na arrecadação tributária dos estados do Paraná (“i”) em 2014 (“t”), 2015 e 2016, estado de Santa Catarina em 2014, 2015 e 2016 e Rio Grande do Sul em 2014, 2015 e 2016. Aqui os indivíduos “i” são os estados, enquanto o período “t” são os anos de 2014 até 2016. A tabela a seguir apresenta um exemplo de painel de dados. Como você pode perceber, nesse caso nós empilhamos as informações individuais ao longo do tempo, a fim de construir a base de dados e conseguir estimar os modelos econométricos: TABELA 1 – PAINEL DE DADOS Observação Ano País PIB (bilhões de US$) Desemprego (%) Inflação (% ao ano) 1 2013 Argentina 716,419 7,2 9,77 2 2014 Argentina 743,121 7,2 10,04 3 2015 Argentina 777,945 7,3 10,62 4 2013 Bolívia 50,904 5,8 9,88 5 2014 Bolívia 55,229 5,4 4,52 6 2015 Bolívia 59,195 3,2 5,73 7 2013 Brasil 2.294,243 6,0 6,64 8 2014 Brasil 2.355,586 5,5 5,40 9 2015 Brasil 2.423,306 6,6 6,20 10 2013 Chile 299,632 6,1 3,34 11 2014 Chile 320,54 6,4 3,00 12 2015 Chile 334,76 5,9 1,79 13 2013 Colômbia 471,964 10,9 3,42 14 2014 Colômbia 502,874 10,4 3,17 15 2015 Colômbia 527,565 10,5 2,02 FONTE: <www.imf.org>. Acesso em: 26 ago. 2018. Empregamos painel de dados quando o número de dados de corte e de séries de tempo são insuficientes para fazermos o nosso estudo com qualidade. Com eles, podemos responder a perguntas do tipo: 18 TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL a) Como o estoque de capital das cinquenta maiores empresas do Brasil impactaram nos seus investimentos brutos nos últimos três anos? b) De que forma a estrutura de mercado impacta na decisão de inovar das indústrias brasileiras? c) Qual o impacto dos grandes eventos esportivos (olimpíadas e copa do mundo), sobre o crescimento econômico dos países sede, após a crise de 2008? O termo regressão e o significado de análise de regressão são assuntos a serem discutidos com mais detalhe na sequência. Ao desenvolvermos o modelo de regressão linear geral, iniciaremos a parte técnica dos nossos estudos, o que irá demandar bastante atenção de sua parte. Sugerimos que você leia mais de uma vez o conteúdo e faça todas as aplicações práticas usando o software econométrico que você escolheu. 3 ANÁLISE DE REGRESSÃO Em 1886, Francis Galton publicou um artigo em que estudou as semelhanças familiares em estatura, explicando que a estatura média familiar gradualmente diminui ou regride à altura média da população como um todo (GALTON, 1886, p. 42). Isso ficou conhecido como regressão à mediocridade. A ideia por trás dessa expressão é bem simples e se resume a algumas questões que Galton (1886) tentou responder: 1. Por que filhos de pais altos tendem a ser altos também, mas não tão altos quanto seus pais? 2. Por que filhos de pais baixos tendem a ser baixos também, mas não tão baixos quanto seus pais? 3. Por que pais de filhos altos tendem a ser altos, mas não tão altos quanto os seus filhos? 4. Por que pais de filhos baixos tendem a ser baixos, mas não tão baixos quanto os seus filhos? Essas questões levantadas por Galton e que deram origem à expressão “regressão à mediocridade”, também podem ser observadas em outras áreas. Por que um atleta de alto nível tem um bom desempenho em uma temporada, mas na temporada seguinte seu rendimento cai? Por que um time de futebol brasileiro, ao disputar a final do mundial de clubes no fim da temporada, não tem o mesmo desempenho físico do início do ano? Essa ideia de regressão é a que está na origem do termo que usamos hoje em dia, porém com um significado um pouco diferente. De um ponto de vista mais moderno, Maddala (2003, p. 32) diz que a “análise de regressão refere-se à descrição e à quantificação da relação entre uma dada variável (em geral chamada de variável explicada ou dependente) e uma outra ou mais outras variáveis (em geral chamadas de variáveis explicativas ou independentes)”. 19 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Geralmente denotamos por Yi a variável dependente e por Xi a variável explicativa e podemos, com o auxílio da matemática, formular essa relação da seguinte maneira: Yi = f (Xi) 2.1 Em que f (Xi) é uma função de Xi, que estabelece a relação existente entre a variável explicativa e a explicada, e assume qualquer formato. Ela pode ser um polinômio de segundo grau, ou de terceiro, pode ser uma função recíproca, logarítmica, enfim, terá o formato que se ajusta melhor aos dados coletados relativos às variáveis. Como nem sempre sabemos qual a especificação exata da função 2.1, recorremos à teoria econômica que na maioria das vezes nos dá uma pista para seguirmos. Outras vezes recorremos aos próprios dados, plotando um gráfico de dispersão e observamos o formato da distribuição dos dados. Dependendo da figura formada ou do caminho seguido pelas informações, podemos chegar à conclusão sobre qual a melhor equação a ser usada. No caso da função consumo keynesiana, podemos esperar que a relação entre consumo e renda se dê de forma linear. Assim, representamos a função da seguinte forma: f (Xi) = b + mXi 2.2 Substituindo 2.2 em 2.1, temos a expressão: Yi = b + mXi 2.3 A função linear em 2.3 nada mais é do que um polinômio de grau zero. Ela tem como características uma variável dependente Yi, explicada por uma constante b, e um coeficiente angular m, que é multiplicado pela variável explicativa Xi. Note, também, que estamos supondo uma relação de causalidade direta, matemática ou determinística entre as variáveis Yi e Xi. Em 2.3, b geralmente não tem um significado econômico relevante. Algumas vezes até tem, mas isso veremos com o tempo ao longo desse livro. O que chama a atenção é que, quando o coeficiente angular m é igual a zero, Yi assume o valor de b. Por outro lado, m é de extrema importância e é nesse parâmetro que geralmente concentramos toda a nossa atenção. A leitura que fazemos dele é 20 TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL direta, ou seja, se Xi variar uma unidade, Yi irá variar exatamente m. Expresso de outra forma, podemos entender essa variação como ∆Yi/∆Xi = m. Supondo que Yi, na equação 2.3, represente a altura dos filhos e Xi, a altura dos pais, ambos em centímetros, e suponha que a constante b e o coeficiente angular m assumam os seguintes valores: Yi = 85,6742 + 0,516Xi 2.4 Em 2.4, para um pai que tenha 180 cm de altura, podemos esperar que o filho tenha 178,55 cm (Y180 cm = 85,6742 + 0,516 x 180 = 178,55 cm). Porém, sabemos que essa relação de altura entre pais e filhos, na prática, não pode ser determinada com exatidão por nenhuma fórmula matemática, pois há outros fatores que podem afetar o crescimento. Por exemplo, há medicamentos específicos usados em determinados tratamentos médicos que prejudicam o crescimento, a quantidade de exercícios físicos, o tempo de exposição ao sol, a genética, entre outros, que influenciam diretamente no crescimento das crianças. Se trabalharmos com o conceito de probabilidade, podemos melhorar nossa capacidade de prever a altura dos filhos. Vamos reescrever a equação 2.4 para incluir o termo comportamental u, que terá valor de ± 6 cm, com probabilidade de 50%: Yi = b + mXi + ui □ = 85,6742 + 0,516Xi ± 6 2.5 Substituindo Xi por 180 cm, teremos Y180cm = 184,55 cm, com probabilidade de 50% e Y180cm = 172,55 cm com probabilidade de 50% (faça esse cálculo para confirmar). O problema dessa variável ui é que normalmente só conhecemos a sua distribuição de probabilidade. Podemos supor que ui tenha distribuição normal padrão, com média igual a zero e variância constante igual a 1. Se for este o caso, Yi, ou a altura dos filhos, poderá assumir qualquer valor e assim teremos que nos indagar sobre a relevância da equação 2.5 em termos práticos. Se tivéssemos a nossa disposição os dados da altura de todos os pais do mundo inteiro, saberíamos que alguns pais com 185 cm de altura têm filhos com estatura ligeiramente acima dessa marca ou ligeiramente abaixo dela. Alguns até superam em muitos centímetros para mais ou para menos. Assim, a relevância da equação 2.5 é permitir que estimemos a altura média dos filhos de pais com 185 cm de estatura, ou ainda, nos dar a ideia de quanto um filho deverá ter de altura, em média, se os pais tiverem altura em torno de Xi. Devemos ter em mente que o valor exato da altura dependerá de outros fatores e que geralmente teremos uma ótima estimativa, mas acertar o valor correto é outra história. 21 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Essa é uma maneira de regredir à altura média da população, como definiu Galton (1886), e por isso chamamos a função 2.5 de Função de Regressão Populacional. O termo populacional é empregado porque estamos supondo que temos acesso a toda a população de dados. Imagine você medindo a altura de todos os pais e filhos de todos os 7,6 bilhões de pessoas que vivem no mundo. Obviamente é inviável, por isso na prática estimamos uma Função de Regressão Amostral e inferimos estatisticamente os resultados, a fim de tentar prever da melhor forma possível os verdadeiros b e m da população. Ao tentar explicar a altura dos filhos a partir da altura dos pais, se fixarmos esta última variável em categorias e obtivermos amostras da primeira, poderemos ilustrar melhor esse comportamento, como fizemos no Gráfico 1 a seguir: GRÁFICO 1 – DISPERSÃO DA ALTURA DOS FILHOS E DOS PAIS EM CM 200 195 Altura dos filhos em cm 190 185 180 175 170 165 160 160 165 170 175 180 185 190 195 Altura dos pais em cm FONTE: O autor No eixo vertical está a nossa variável dependente, enquanto no eixo horizontal encontra-se a variável que a explica. Esse exemplo é hipotético e tem como objetivo apenas ilustrar e consolidar alguns conceitos importantes. Por exemplo, ao se fixar os dados da variável explicativa, pode-se obter diversas amostras da variável dependente e distribuir esses valores, criando as subpopulações amostrais. Se tirarmos uma média dessas subpopulações amostrais e traçarmos uma reta ligando esses pontos médios, teremos aquilo que chamamos de reta de regressão ou curva de regressão. “Em termos geométricos, uma curva de 22 TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL regressão populacional é apenas o local geométrico das médias condicionais da variável dependente para os valores fixados da(s) variável(is) explanatória(s)” (GUJARATI; PORTER, 2011, p. 61). Isso deixa claro que essa reta conecta os valores médios condicionais E(Y|Xi) da variável dependente, e que essa média condicional aumenta conforme aumentam os valores da variável explicativa, demonstrando que há uma relação positiva entre as variáveis como haveria de se esperar. Apenas para lembrar, o valor médio esperado “E” ou esperança matemática pode ser definida como: = = E(X) X1 P(X1 ) + X2 P(X2 ) + ... + Xn P(X ) n Σ n i =1 2.6 Xi P(Xi ) Em que Xi é a observação i da variável X, P(Xi)é a função de probabilidade de X. Como exemplo, suponha que X = (3,5,7,9), assim, 1 1 1 1 a E(X) E(X)=3 +5 +7 +9 , o que equivale= 4 4 4 4 Σ 4 = X 6. i =1 i 1 4 4 O MODELO DE REGRESSÃO LINEAR SIMPLES Um modelo de regressão linear simples tem um formato parecido com a equação 2.5, em que uma variável Y é explicada em termos de outra variável, a qual representamos por X. Esse modelo é usado para responder questões acerca da população, porém como o acesso a toda a população é muito custoso em termos de tempo e recursos financeiros, via de regra procuramos obter uma estimativa dos parâmetros e a partir daí fazemos inferências sobre a população. Vamos voltar à equação 2.5 para reescrevê-la da seguinte forma: Yi = β1 + β2Xi + ui 2.7 A equação 2.7 é conhecida como modelo de regressão linear simples e vamos nos dedicar a entender melhor a sua funcionalidade. Como você pôde perceber, as variáveis dependente e explicativa são exatamente as mesmas usadas anteriormente, enquanto os coeficientes mudaram, para que possamos começar a usar a terminologia padrão ou universal da econometria. Aqui queremos chamar a sua atenção para uma variável em especial, o termo de erro ou perturbação estocástica ui. Além de ela perturbar uma relação estável entre as demais variáveis, também tem papel central na análise de 23 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO regressão. A sua função básica é representar todas as demais variáveis que de alguma forma possam afetar a variável dependente, mas que, por certas razões, não estamos considerando no estudo. Por que precisamos incluir esse termo de erro na nossa equação? São diversos os motivos que nos levam a fazer isso. Um deles é o fato de que nem sempre conseguimos capturar todas as relações existentes com o modelo que escolhemos. Isso ocorre porque a teoria subjacente pode deixar algo em aberto, ou não ser precisa quanto às especificações. Talvez até sejamos capazes de relacionar todas as variáveis que explicam um determinado fenômeno, mas obter os dados necessários para estudar essas relações nem sempre é possível. Outras vezes algumas das variáveis relacionadas não são relevantes ao ponto de serem utilizadas no estudo. Assim, capturamos o seu efeito através desse termo de erro estocástico. Há ainda os erros de mensuração, uma vez que é mais fácil definir quais variáveis entram no modelo do que definir como são medidas ou obtidas. Um modelo que busca explicar o consumo das famílias em função da renda e da sua riqueza tornará difícil a tarefa de determinar ou medir a riqueza, que tem um caráter bem subjetivo e pouco preciso. Assim, em 2.7 temos uma parte que é determinística, formada por β1 + β2Xi, e outra que é totalmente aleatória, ui, e usamos esse modelo para estimar os parâmetros desconhecidos, β1 e β2, e com base nesses resultados somos capazes até mesmo de fazer previsões sobre o comportamento esperado da nossa variávelalvo: Yi. Em geral, se ∆ui = 0, então ∆Yi = β2∆Xi, e com isso as mudanças na variável dependente são explicadas por β2 multiplicada pelas variações em Xi, ou seja, a inclinação da reta de regressão formada a partir da equação 2.7. 5 AS HIPÓTESES DO MODELO DE REGRESSÃO LINEAR Os manuais de econometria apresentam um conjunto de hipóteses que explica como o modelo de regressão linear é capaz de capturar as relações entre as diversas variáveis que entram no modelo. Se o nosso objetivo é apenas calcular os parâmetros do modelo, ou seja, os βs em 2.7, basta coletar os dados e estimar aqueles parâmetros usando um bom software econométrico. Porém, se o nosso objetivo for ir além da estimativa pura, e sempre queremos ir além, precisaremos estabelecer algumas regras, ou hipóteses que carregaremos conosco enquanto estudarmos e aplicarmos na prática o método econométrico. A seguir, enumeramos essas hipóteses. Chamamos a sua atenção para o fato de usarmos o subscrito i, indicando que essa variável assume valores diferentes para cada indivíduo ao longo da sequência de dados. 24 TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL a) Hipótese 1 O modelo de regressão especifica uma relação linear entre a variável dependente e a explicativa. Essa linearidade se dá nos parâmetros como em Yi = β1 + β2Xi + ui. Uma função é dita linear nas variáveis quando essas não são divididas por outras variáveis ou quando não são elevadas à potência diferente de 1. Neste X β1 β 2 i + ui são exemplos de modelos que não são caso, Yi = β1 + β2Xi2 + ui e Yi =+ Zi lineares nas variáveis, porque elas são elevadas à potência diferente de 1, como no primeiro caso, ou são divididas por outra variável, como no segundo caso. No entanto, esse tipo de função, que não é linear nas variáveis, não viola a hipótese 1 do modelo de regressão linear. Isso decorre do fato de que a linearidade que nos interessa é nos parâmetros. Com isso, modelos do tipo Yi = β1 + βi2Xi + ui ou do tipo Yi =+ β1 β2 X + u violam a hipótese 1, no sentido de que o parâmetro β2 β1 i i no primeiro exemplo é elevado à potência diferente de 1 e no segundo exemplo, ele é dividido pelo parâmetro 1. Gujarati e Porter (2011, p. 63) resumem bem a relação entre linearidade nos parâmetros versus linearidade nas variáveis. Podemos ter um modelo de regressão que seja linear nos parâmetros, mas não necessariamente linear nas variáveis. Por outro lado, podemos ter um modelo de regressão que não seja linear nos parâmetros, e ele pode ser linear nas variáveis ou não. Em síntese, o que nos interessa são os modelos de regressão que são lineares nos parâmetros, e não nos importamos se são ou não lineares nas variáveis, pelo menos não neste momento. b) Hipótese 2 A variável X é não estocástica e seus valores são fixos em amostras repetidas. Isso significa que conhecemos os valores de X, que não são gerados ao acaso. Por exemplo, pais com 180 cm de altura geram filhos mais altos ou mais baixos do que eles. Para sabermos a probabilidade de os filhos serem maiores ou menores, tomamos várias amostras de filhos cujos pais têm a altura de 180 cm. Em outras palavras, repetimos a amostra várias vezes, mas condicionamos ou fixamos a altura dos pais para podermos coletar os dados. No entanto, apesar de fixarmos os valores nas amostras repetidas, os valores individuais de X devem variar, pois se cada valor de Xi for igual ao outro, a sua média X será igual aos Xi individuais, e com isso não conseguiremos calcular o coeficiente β2, como veremos adiante. 25 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO c) Hipótese 3 A média condicional do termo de erro é igual a zero. Em termos algébricos, estamos dizendo que E(ui|Xi) = 0. Podemos ilustrar essa hipótese por meio da figura a seguir: FIGURA 1 – DISTRIBUIÇÃO CONDICIONAL DOS TERMOS DE ERRO Y FRP: Yi = β1 + β2Xi +ui -ui X1 X2 X3 X4 X FONTE: Gujarati e Porter (2011, p. 85) Para que a média condicional do termo de erro seja zero, precisamos retomar à equação 2.7: Yi = β1 + β2Xi + ui temos: 2.8 A reta de regressão é dada por E(Y|Xi) = β1 + β2Xi. Substituindo em 2.7, Resolvendo a equação para ui, temos: Yi = Yi – E(Y|Xi) 2.9 26 TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL Volte novamente à Figura 1. Veja que para qualquer valor de Xi há diversos pontos acima e abaixo do valor médio, o qual se situa sobre a reta de regressão, expressa por Yi = β1 + β2Xi, que, já sabemos, equivale a E(Y|Xi). A distância entre os diversos valores de Y e o valor médio é chamado de termo de erro e aqui representamos por E(ui|Xi). Perceba, ainda, que os valores de ui acima da reta de regressão são positivos, pois neste caso Yi – E(Y|Xi) > 0. Por outro lado, os valores de ui abaixo da reta de regressão são negativos, pois Yi – E(Y|Xi) < 0. Podemos finalmente concluir que, se tirarmos a média dos diversos ui obteremos o valor zero, pois os valores positivos encontrados anulam os valores negativos. Você pode verificar isso com um exemplo simples. Seja Y = (3, 5, 7, 9), como vimos anteriormente, E(Y) = 6, e se fizermos Y – E(Y) teremos Y – E(Y) = [(3 – 6) + (5 – 6) + (7 – 6) + (9 – 6)] = 0. d) Hipótese 4 Os erros ui são homoscedásticos e não apresentam autocorrelação. A homoscedasticidade tem um sentido de espalhamento simétrico da dispersão em torno do valor médio. Isso significa que, para cada Xi, corresponde um conjunto de valores observados de Y. Sabemos que o termo de erro é medido pela distância entre o valor médio de Yi relativo a cada Xi. Ter erros homoscedásticos significa que não importa o valor de Xi, a distribuição de probabilidade dos erros é simétrica e constante, como em uma curva de Gauss, ou “curva de sino”, se você preferir, visto na Figura 1. Como sabemos, a média dos erros é igual a zero, ou seja, E(ui|Xi) = 0, a hipótese de homoscedasticidade implica que a variância condicional do termo de erro deve ser constante: var(ui|Xi) = E[ui – E(ui|Xi)]2 2.10 Sabemos que E(ui|Xi) = E(ui2|Xi), isso nos leva a: var(ui|Xi) = E(ui2|Xi) 2.11 Também sabemos que o quadrado de um número negativo tem por resultado um valor positivo. Dessa forma, a variância condicional do termo de erro é um número positivo e constante. Em termos algébricos, temos: 27 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO var(ui|Xi) = o2 2.12 E se a variância não for constante? Neste caso teremos o problema da heteroscedasticidade, que será objeto de estudo mais adiante, na Unidade 3. O outro ponto dessa hipótese diz respeito à ausência de autocorrelação entre os termos de erro. Isso significa que a convariância condicional entre os termos deve ser nula: cov(ui, uj|Xi, Xj) = E{[ui – E(ui)]|Xi}{[uj – E(uj)]|Xj} 2.13 Já sabemos que E(ui|Xj) = 0, e isso também é válido para E(uj|Xj) = 0. Com isso, temos: cov (ui, uj|Xi, Xj) = E(ui|Xi(uj|Xj) 2.14 cov (ui, uj|Xi, Xj) = 0 2.15 Em termos práticos, a covariância condicional igual a zero significa que um termo de erro condicionado a Xi não pode influenciar o outro termo de erro condicionado a Xj. Devido a sua complexidade, exploraremos mais esse conceito adiante, na Unidade 3. Gujarati e Porter (2011) apresentam ainda outras hipóteses, tais como a ausência de covariância entre ui e Xi, ou seja, E(ui Xi), a necessidade de a nossa amostra ser grande o suficiente para que o número de observações seja maior do que a quantidade de parâmetros a serem estimados e a necessidade de o modelo estar corretamente especificado. As hipóteses que enumeramos são suficientes, por enquanto, para avançarmos em nossos estudos. Em breve apresentaremos outras hipóteses, à medida que necessitarmos de técnicas mais apuradas na solução dos nossos problemas. Por exemplo, quando estivermos analisando um modelo de regressão múltiplo, precisaremos que as variáveis X não sejam colineares. Mas isso ficará para outro momento, primeiro precisamos saber como estimar os parâmetros do modelo de regressão, e para isso aplicaremos o método de mínimos quadrados ordinários. 28 RESUMO DO TÓPICO 2 Nesse tópico, você aprendeu que: • Existem os conceitos básicos da econometria, tais como variável dependente e explicativa, os tipos de dados usados no processo econométrico (dados de corte, séries temporais e painel de dados). • O termo “regressão”, cunhado por Francis Galton em 1886, tinha um sentido de regressão à mediocridade. Atualmente tem um sentido de análise da relação quantitativa existente entre duas variáveis, a dependente e a explicativa. • Estudamos o modelo de regressão linear simples, que diferentemente do modelo matemático determinístico apresenta uma forma estocástica com a inclusão do termo de erro, uma variável aleatória que captura o sentido ceteris paribus na econometria. • As hipóteses do modelo clássico de regressão linear devem ser observadas se quisermos ir além da estimação pontual dos parâmetros do modelo de regressão. 29 AUTOATIVIDADE 1 Sobre os principais conceitos da econometria, relacione a coluna da direita com a da esquerda: (A) Variável dependente ( ) Tem a capacidade de influenciar outras variáveis. (B) Variável explicativa ( ) A arrecadação tributária do Paraná, Santa Catarina e Rio Grande do Sul em 2004, 2008 e 2012. (C) Séries temporais ( ) O IDH de todos os municípios brasileiros em 2010. (D) Dados de corte ( ) Aquela que é explicada por outras variáveis. (E) Painel de dados ( ) O rendimento da poupança nos últimos 24 meses. 2 Suponha que estimamos uma regressão cujo resultado é Yi = 1.200 + 0,73Xi, em que Yi representa o consumo de um determinado grupo de famílias e Xi a renda recebida por essas famílias: a) Qual deve ser o consumo estimado para uma família sem renda? b) Qual deve ser a renda de uma família que tem um consumo de $ 5.000? 3 Uma das hipóteses do modelo de regressão linear é que a linearidade deve ocorrer nos parâmetros. Sendo assim, responda “V” quando se tratar de uma função linear nos parâmetros e “F” quando a função não for linear nos parâmetros: a) ( ) Yi = β1 + β2Xi + ui b) ( ) Yi = β1 + β2X5 + ui c) ( ) Yi = β1 + (β1 X β2) Xi + ui 1 + ui Xi 4 Considerando as seguintes sequências de eventos aleatórios: Y = {3, 7, 12, 17} e X = {5, 9, 15, 19}, calcule: d) ( ) Yi =+ β1 β 2 1 a) A média de Y, representada por Y = 4 1 4 x . por X = 4 i =1 i Σ Σ 4 i =1 i Y e a média de X, representada b) A soma dos desvios de Y e X em relação a sua média: 4 u = Xi − X . i =1 X i Σ 1 Var(Y) c) A variância de Y, dada por= 4 1 4 Var(X) (Xi − X)2 . por= i =1 4 Σ Σ 30 4 i =1 Σ u = Yi − Y e 4 i =1 Y i (Yi − Y)2 e a variância de X, dada TÓPICO 3 UNIDADE 1 MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS 1 INTRODUÇÃO No tópico anterior, estudamos o modelo clássico de regressão linear. Aprendemos alguns conceitos e vimos as hipóteses relevantes que estão por trás de praticamente toda análise de regressão. O único problema é que o que vimos anteriormente se refere a uma situação em que o pesquisador tem acesso aos dados de toda a população de dados, ou dizendo em linguagem matemática, é como se tivéssemos a nossa disposição o conjunto universo dos dados. Na prática existe um custo elevado para você acessar toda a população de dados. Aqui não estamos falando apenas em termos monetários, mas em termos de tempo dispendido ou de mão de obra empregada na pesquisa. Imagine que você queira investigar se a estatura do pai é capaz de influenciar a altura dos filhos. Como você levantaria as informações necessárias, ou melhor dizendo, como você faria para saber qual é a altura de cada indivíduo? Provavelmente você precisaria entrevistar as pessoas e medi-las. Uma coisa é você medir a altura de 100 pais e, digamos, 200 filhos (supondo dois filhos em média por pai), outra coisa é medir a altura de mais de 100 milhões de pais e outros duzentos milhões de filhos. É por isso que empregamos a técnica da amostragem a fim de responder aos nossos problemas de pesquisa. Primeiro identificamos a população que tem as características que iremos estudar, por exemplo, os pais e os filhos. A partir daí, extraímos uma amostra representativa e montamos o nosso estudo. A grande pergunta é: Como estimar essa relação entre variável dependente e explicativa com base em amostragem e ter certeza que temos em mãos resultados precisos? Para isso recorremos a um ferramental técnico-matemático e estatístico que nos permite não apenas chegar aos resultados buscados, mas ter certeza de que eles não são espúrios. Este, que é o último tópico da Unidade 1, é também o mais extenso e o que envolve mais questões práticas. É aqui que começamos a sujar as mãos de verdade para aprender a econometria. Tenha em mente que essa disciplina envolve muita prática e que é indispensável que você faça todas as atividades propostas e vá além, pesquisando informações e lendo os estudos que outros pesquisadores fizeram. Isso o ajudará a conciliar a teoria com a prática e permitirá que você tenha uma perspectiva clara em relação ao tipo de economista que pretende ser. 31 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO 2 A FUNÇÃO DE REGRESSÃO AMOSTRAL E SUAS CARACTERÍSTICAS O objetivo da análise de regressão é estimar os parâmetros do modelo econométrico derivado da teoria subjacente, de forma mais precisa e confiável possível. Como não temos acesso à população de dados ou ao conjunto universo, recorremos a um subconjunto ou à amostragem cujas técnicas são discutidas nos livros de estatística que compõem as referências bibliográficas desse livro de estudos. Estimar parâmetros significa calcular os βs da Função de Regressão Populacional 3.1, de forma a obter os resultados expressos em 3.2, que é a nossa Função de Regressão Amostral: FRP Yi = β1 + β2Xi + ui 3.1 βˆ 1 + βˆ 2 Xi + ûi FRA Yˆ i = 3.2 Esse chapéu (^) que vemos na equação 3.2 significa que estamos diante dos estimadores, ou seja, de valores que esperamos serem o mais próximo possível dos verdadeiros valores encontrados na população, caso tivéssemos acesso a � nada mais é do que uma estimativa todas as informações existentes. Assim, Y i de E(Y|Xi), enquanto β̂1 e β̂ 2 são estimativas de β1 e β2 e o resíduo (por se tratar de uma amostra) ˆ é o estimador do termo de erro estocástico (que se refere à população) ui. Em termos práticos, raramente teremos acesso aos verdadeiros parâmetros populacionais, mas temos condições de obter a melhor estimativa possível se empregarmos a técnica correta e tomarmos os cuidados necessários, como veremos adiante. Com isso esperamos que, usando as estimativas da Função de Regressão Amostral, sejamos capazes de determinar: Yi = βˆ 1 + βˆ 2 Xi + uˆ i 3.3 A relação entre FRP e FRA pode ser vista na Figura 2, em que você deve perceber que a nossa FRA não tem o mesmo desenho da FRP (inclinação e interceptos diferentes). Isso acontece pelos motivos que já conversamos e porque o máximo que conseguimos a partir da FRA é uma estimativa dos parâmetros da FRP. Se tomarmos outra amostra é bem possível que a curva de regressão da nossa FRA tenha outros parâmetros, e assim sucessivamente, à medida que formos obtendo novas amostras e fazendo novas estimativas. Porém, se repetirmos muitas vezes a amostragem, veremos que em média os valores dos parâmetros de 3.3 tendem a convergir aos valores dos parâmetros de 3.1. 32 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS FIGURA 2 – REPRESENTAÇÃO DAS LINHAS DE REGRESSÃO Verdadeiro Y da poulação Y �i = β � +β � X FRA → Y 1 2 i Yi Yi Resíduo Desvio �i = β � +β � X FRA → Y 1 2 i FRP E(Y|Xi)= u i Obtido pela ui �i = β � +β � X FRA → Y 1 2 i FRP → E(Y|Xi) = β 1 + β 2X i E(Y|Xi) À esquerda do ponto "A", a FRA subestima a verdadeira FRP, enquanto que à direita de "A", a FRA superestima a verdadeira FRP. A Xi X FONTE: Adaptado de Gujarati e Porter (2011, p. 69) No gráfico fica muito clara a definição de desvio, que é a diferença entre o verdadeiro valor de Yi e o seu valor médio da população E(Y|Xi). Também fica clara a definição de resíduo, ou seja, a distância entre o verdadeiro valor de Yi e o seu valor estimado pela equação 3.2. Também podemos ver que, como não conhecemos os verdadeiros valores dos parâmetros populacionais, os βs, a nossa linha de regressão em alguns momentos subestimará a verdadeira reta de regressão e, em outros, ela superestimará aquela reta. No fim das contas, o grande segredo está na obtenção de estimadores precisos, como mencionamos, e para fazer isso existe um grande número de técnicas de estimação, porém a mais popular é a de Mínimos Quadrados Ordinários, e também é a mais eficiente, como veremos a seguir. 3 ESTIMATIVA DOS PARÂMETROS POR MÍNIMOS QUADRADOS ORDINÁRIOS Se voltarmos nossa atenção novamente à FRP e à Figura 2, veremos que existe uma diferença entre o valor médio condicionado de Y, dado por E(Y|Xi) e o verdadeiro valor obtido na população. Essa diferença chamamos de termo de erro estocástico ou desvio e a representamos por ui: 33 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Yi = β1 + β2Xi + ui 3.4 Ao obtermos a estimativa dos parâmetros de 3.4, usando a FRA, temos: Yi = βˆ 1 + βˆ 2 Xi + uˆ i 3.5 A equação 3.5 pode ser reescrita como: � + u Y= Y i i i 3.6 Assim, para sabermos o valor do verdadeiro Yi da população, precisamos estimar um valor para E(Y|Xi), o qual é representado por Ŷi , e a esse valor somamos o resíduo da função ûi, como pode ser visto em 3.5 e na Figura 2. O segredo, portanto, é obter uma estimativa precisa errando o mínimo possível. Para minimizar os desvios, primeiro resolvemos 3.6 para ûi conforme 3.7: ˆ= u Yi − Ŷi i 3.7 Σ n Sabemos que a soma dos resíduos é zero, ou seja, u i = 0 , por isso i =1 tentar minimizar a soma dos desvios não é possível. Uma saída possível poderia ser minimizar a soma em módulo dos desvios, porém alguns valores são maiores do que os outros e, se fizermos assim, estaremos atribuindo o mesmo peso a todos eles. A melhor opção é minimizar a soma dos quadrados, como em 3.8: = u Σ Σ n 2 n i i 1 =i 1= � )2 (Yi − Y i 3.8 Dessa forma penalizamos os resíduos maiores e conseguimos obter n � )2 implica em uma estimativa mais precisa dos parâmetros. Como (Yi − Y i i =1 n 2 �1 −β � 2 X ) , em última análise, a soma dos quadrados dos resíduos é (Yi − β i i =1 uma função dos parâmetros que pretendemos estimar, o que significa que basta � e β� cuja soma dos fazer diversas simulações para os parâmetros e escolher β 1 2 quadrados seja a menor dentre todas. Σ Σ Obviamente essa tarefa é muito custosa, mas felizmente aprendemos em matemática que, para minimizar uma função escolhendo um parâmetro, a técnica de diferenciação é a que deve ser empregada. 34 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS Para diferenciarmos, especificamos a função e as restrições como: ( min ∑ ûi2 = ∑ Yi − βˆ 1 − βˆ 2 Xi ˆ ˆ β1 , β 2 ) 2 3.9 Diferenciando 3.9 em relação a ∂ ∑ uˆ i2 − 2 ∑ Yi − βˆ 1 − βˆ 2 Xi ˆ ∂β ( 1 ) β̂1 obtemos: 2 3.10 Após alguns algebrismos cansativos, cuja demonstração pode ser encontrada com facilidade nas obras de referência, obtemos a nossa estimativa para β1: βˆ 1= Y − βˆ 2 X 3.11 O mesmo procedimento é aplicado em 3.9 para obter o β̂ 2 : ∂ ∑ uˆ i2 − 2 ∑ Yi − βˆ 1 − βˆ 2 Xi Xi ∂βˆ ( 2 ) 3.12 Resolvendo para β̂ 2 e após algumas manipulações, obtemos: βˆ 2 = ∑ ( Xi − X ) ( Yi − Y ) ∑ ( Xi − X ) 3.13 2 xi Por simplificação, podemos fazer = βˆ 2 = ∑ xi y i (X i − X) e = yi (Y − Y ) e assim obter: i 3.14 ∑ xi2 No Quadro 2 temos dados aleatórios referentes à altura dos filhos em cm, representada por Y, e a altura dos pais em cm, representada por X. Com base nas equações 3.11 e 3.14 estimaremos os valores de β̂1 e β̂ 2 . 35 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO O primeiro passo é obter os valores de yi, xi, xiyi e xi2, o que não é muito difícil de fazer quando você tem poucas observações como no Quadro 2, porém, para uma base de dados muito grande, fazer esses cálculos manualmente se torna uma tarefa complicada e um simples erro pode gerar resultados questionáveis. QUADRO 2 – ALTURA DOS PAIS E FILHOS EM CM (a) (b) (c) (d) (e) (f) Obs. Y X yi = Yi = Y xi = Xi = X xiyi xi2 1 166 165 -13,2 -13,5 178,2 182,25 2 168 168 -11,2 -10,5 117,6 110,25 3 169 171 -10,2 -7,5 76,5 56,25 4 176 174 -3,2 -4,5 14,4 20,25 5 180 177 0,8 -1,5 -1,2 2,25 6 179 180 -0,2 1,5 -0,3 2,25 7 185 183 5,8 4,5 26,1 20,25 8 186 186 6,8 7,5 51 56,25 9 188 189 8,8 10,5 92,4 110,25 10 195 192 15,8 13,5 213,3 182,25 Soma 1792 1785 0 0 768 742,5 Média 179,2 178,5 0 0 76,8 74,25 FONTE: O autor Após obter as séries de yi, xi, xiyi e xi2 apresentadas nas colunas c até f no quadro, aplicamos esses resultados na equação 3.14 e obtemos: ∑ xi yi 768 = βˆ 2 = = 1, 0343 2 742 , 5 ∑ xi 3.15 Substituindo o resultado de 3.15 na equação 3.11 teremos: βˆ 1 = Y − βˆ 2 X = 179 , 2 − 1, 0343 * 178 , 5 = −5 , 43 3.16 Concluímos a nossa estimação formando a FRA da seguinte forma: Ŷi = −5 , 43 + 1, 0343Xi 3.17 36 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS Em 3.17 podemos ver um intercepto β̂1 negativo, porém sem um significado prático evidente. Imagine você, que por se tratar do intercepto em uma equação linear, ele representa o valor de Yi quando Xi é zero. Neste caso, não podemos pensar em um pai sem altura alguma (caso em que Xi seria zero). Por outro lado, β̂ 2 , ao representar o coeficiente angular da função linear, indica o quanto da altura do pai que se transfere para o filho de forma hereditária. Claro que estamos diante de uma relação puramente matemática ou estatística, ou seja, não podemos falar aqui de relação de causalidade, como alertam Gujarati e Porter (2011, p. 43). Como vimos, a ideia aqui é minimizar a soma dos quadrados dos resíduos, o que nos garante que estamos diante dos melhores estimadores possíveis. A seguir, veremos que esses estimadores possuem propriedades importantes e daremos sequência aos nossos estudos, porque, afinal de contas, não basta calcular os valores, é preciso ter certeza de que eles são confiáveis. 4 PROPRIEDADES NUMÉRICAS DOS ESTIMADORES Anteriormente vimos as hipóteses do modelo clássico de regressão linear, agora veremos as propriedades numéricas dos estimadores de MQO, as quais se mantêm, independentemente da forma como os dados foram gerados (GUJARATI; PORTER, 2011, p. 81): 1. Σ n i =1 u i = 0 : os resíduos gerados pelo método de mínimos quadrados ordinários têm soma zero. Essa regra também se aplica à média dos resíduos, ou seja, E ( ûi ) = 0 . 2. Σ n u i Xi = 0 : isso equivale a dizer que não existe covariância entre os resíduos e os regressores. Poderíamos representar essa propriedade como E ( ûi Xi ) = 0 , ˆ i Xi ) = 0. Em termos práticos ela indica que a distribuição de ûi ou ainda cov ( u i =1 não depende de Xi. 3. � = 0 : da mesma forma que a propriedade 2, nesta vemos que não há u Y Σ covariância entre os resíduos e o valor estimado de Y . Isso quer dizer que os n i =1 i i i resíduos são independentes tanto de Xi quanto de Ŷi. 4. Os valores médios de X e Y sempre estarão sobre a reta de regressão. Dito de outra forma, se pegarmos o resultado da regressão em 3.17 e substituirmos o valor de Xi pela sua média, 178,5, o resultado deverá ser a média de Yi, ou seja, 179,2. Vamos deixar para você o desafio de verificar essa afirmação na prática. A demonstração dessas propriedades pode ser vista no Quadro 3. A questão que fica agora é: Quão precisas são essas estimativas? Além disso, se empregássemos outro método para obter os estimadores, será que ainda assim escolheríamos aqueles obtidos por MQO? 37 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Ainda estamos no início da nossa jornada e é natural surgirem essas dúvidas e muitas outras. Por isso, precisamos agora nos concentrar em aferir o nosso modelo e usaremos o ferramental estatístico de que dispomos para fazer diversos testes a fim de nos certificarmos de que estamos diante de estimativas confiáveis. QUADRO 3 – ALTURA DOS PAIS E FILHOS EM CM, COM VALORES ESTIMADOS Obs. Y X �= Y β� 1 + β� 2 Xi i � u i = Yi - Y i ûi X i ûi Ŷi 1 166 165 165,2364 0,7636 126 126,1805 2 168 168 168,3394 -0,3394 -57,0182 -57,1334 3 169 171 171,4424 -2,4424 -417,6545 -418,7351 4 176 174 174,5455 1,4545 253,0909 253,8843 5 180 177 177,6485 2,3515 416,2182 417,7431 6 179 180 180,7515 -1,7515 -315,2727 -316,5890 7 185 183 183,8545 1,1455 209,6182 210,5970 8 186 186 186,9576 -0,9576 -178,1091 -179,0260 9 188 189 190,0606 -2,0606 -389,4545 -391,6400 10 195 192 193,1636 1,8364 352,5818 354,7187 Soma 1792 1785 1.792 0,0000 0,0000 0,0000 Média 179,2 178,5 0,00 0,0000 0,0000 0,0000 FONTE: O autor ATENCAO ^ No Quadro 3, a coluna que contém os valores de Yi foi obtida usando os parâmetros calculados em 3.17, ou seja, Yi = –5,43 + 1,0343Xi. 5 TESTES ESTATÍSTICOS Depois de calcular os estimadores dos parâmetros do nosso modelo, precisamos saber quais características esperamos encontrar neles. Obviamente queremos estimadores precisos, não tendenciosos e eficientes. Iniciamos nossa análise com uma medida de precisão, o desvio padrão. Sabemos da estatística que o desvio padrão de uma variável aleatória nada mais é do que a raiz quadrada da variância. Essas duas medidas nos dizem quão disperso um valor obtido através de uma estimativa está do valor esperado. 38 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS As medidas de dispersão nos indicarão se nossas estimativas estão centradas em torno dos verdadeiros valores dos parâmetros, os quais só saberíamos se tivéssemos acesso a todas as informações disponíveis da população. Com isso, supondo que os desvios são homoscedásticos, ou seja, var(ui|Xi) = o2 – um número constante e positivo –, obtemos a variância dos estimadores de mínimos quadrados dos parâmetros, como: ( ) var βˆ 1 = ∑ Xi2 n ∑ ( Xi − X ) ( ) var βˆ 2 = 2 3.18 σ2 σ2 ∑ ( Xi − X ) 3.19 2 Em que n é o tamanho da amostra. A partir das equações 3.18 e 3.19, obtemos facilmente o erro padrão ou desvio padrão: ( ) ep βˆ 1 = ∑ Xi2 n ∑ ( Xi − X ) ( ) ep βˆ 2 = 2 σ 3.20 σ ∑ ( Xi − X ) 3.21 2 O problema das equações acima é que não sabemos qual o valor da variância dos desvios o2, pois se trata de um parâmetro populacional e, por razões já discutidas, nós só dispomos de uma amostra. O desvio agora é obter um estimador para o2. Para uma estimativa da variância, usaremos a equação 3.22: σˆ 2 = ∑ ûi2 n−2 3.22 Obviamente, o desvio padrão é obtido da seguinte forma: 39 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO ∑ ûi2 σˆ = n−2 3.23 O denominador das equações 3.22 e 3.23 é n – 2, porque, ao calcular a variância, e consequentemente o desvio padrão, perdemos dois graus de liberdade. Os graus de liberdade são o tamanho da amostra e as perdas se devem em função dos parâmetros estimados, ou seja, β� 1 e β� 2. Isso garante que, com o aumento do tamanho da amostra, a precisão dos estimadores também aumente, pois vamos nos aproximando cada vez mais do número de observações existente na população e com isso a dispersão em torno do valor médio diminui. Agora podemos reescrever as equações 3.18 até 3.21 e assim obter os estimadores da variância e dos desvios padrão dos nossos βs: ( ) var βˆ 1 = ( ) var βˆ 2 = ( ) ep βˆ 1 = ( ) ep βˆ 2 = ∑ Xi2 n ∑ ( Xi − X ) 2 σˆ 2 3.24 σ̂ 2 ∑ ( Xi − X ) ∑ Xi2 n ∑ ( Xi − X ) 2 3.25 2 σˆ 3.26 σ̂ 2 ∑ ( Xi − X ) 3.27 2 Para avançarmos em nosso estudo e podermos trabalhar com os testes estatísticos, que validarão o nosso modelo econométrico estimado, o termo de erro deve ter distribuição normal. Essa condição de normalidade é indispensável para a inferência estatística, e as razões teóricas nas quais nos baseamos para usá-la são a Lei dos Grandes Números e o Teorema do Limite Central. A Lei dos Grandes Números tem a ver com o tamanho da amostra e por isso tem um sentido de assimptótico, ou seja, de aumento indefinido. De uma forma simples e prática, significa que, à medida que a amostra cresce tendendo ao infinito, a média amostral converge para a média populacional (SARTORIS, 2013). 40 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS Por sua vez, o Teorema do Limite Central diz que se a variável for distribuída de forma independente e identicamente, e a amostra for suficientemente grande, a média amostral da variável em questão terá distribuição normal, ou seja, converge em distribuição para normal (SARTORIS, 2013). Dessa forma, dizemos que ui tem distribuição normal com média E(ui) = 0, variância E(ui2) = o2 e covariância E(ui,uj) = 0, para todo i ≠ j, e representamos como: ui~N(0,o2) 3.28 Em que ~ deve ser lido como “é distribuído como”, N indica o tipo de distribuição de probabilidade, que neste caso é o normal. O primeiro termo entre parênteses indica a média, e já vimos que é igual a zero e o segundo termo é a variância (um número constante e finito). Além da distribuição normal dos erros, há outras propriedades desejáveis em um estimador, tais como não tendenciosidade, variância mínima (eficiência) e consistência (convergem para os verdadeiros valores da população). Essas propriedades são encontradas nos estimadores de mínimos quadrados ordinários. Se as hipóteses do modelo clássico de regressão linear se mantiverem e o termo de erro tiver distribuição normal, o teorema de Gauss-Markov pode ser aplicado. Esse teorema nos diz que, dentre todos os estimadores lineares não tendenciosos existentes, os que são gerados pelo método de mínimos quadrados ordinários são os que têm variância mínima. Isso garante que estamos diante dos melhores estimadores lineares não tendenciosos, que em inglês é representado pela sigla BLUE (Best Linear Unbiased Estimator). Para entender melhor o que acabamos de discutir, lembre-se de que os estimadores que calculamos em 3.17 foram obtidos com base em uma única amostra. Portanto, tratam-se de estimadores pontuais. Se tirarmos outra amostra da população, é provável que os resultados estimados sejam diferentes. Assim, se fizermos 100 amostras diferentes, obteremos 100 estimadores também diferentes. No entanto, se tirarmos a média desses estimadores, seus valores se aproximarão em muito dos verdadeiros valores populacionais. Em outras palavras, o E(β1) = β1 e E(β2) = β2 , ou seja, essa convergência é o que garante a eficiência desses estimadores. Para uma verificação prática dessa propriedade, suponha um parâmetro estimado, digamos ө, com média 5 e variância 2. Suponha ainda que tenhamos outros dois estimadores com exatamente a mesma média, só que com variância 4 e 6, respectivamente. Dentre esses três estimadores, qual é o mais eficiente? passos: A resposta você mesmo pode obter abrindo o Gretl e seguindo os seguintes 41 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO 1. Vá no menu “Ferramentas” e escolha “Gráficos de distribuições” (Figura 3): FIGURA 3 – GRÁFICOS DE DISTRIBUIÇÕES FONTE: Adaptado de Gretl (2018) 2. Na tela seguinte, altere os parâmetros da média para 5 e do desvio padrão para 2 e pressione o botão ok para confirmar (Figura 4): FIGURA 4 – DISTRIBUIÇÃO NORMAL DO PRIMEIRO PARÂMETRO FONTE: Adaptado de Gretl (2018) 3. O passo anterior gerará um gráfico de distribuição normal, com média cinco e variância igual a quatro. Clique com o botão direito do seu mouse sobre o gráfico e escolha “Acrescentar outra curva...” (Figura 5): 42 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS FIGURA 5 – ACRESCENTAR OUTRA CURVA FONTE: Adaptado de Gretl (2018) 4. Na janela que abrir, você deve alterar apenas o desvio padrão para 4 e posteriormente para 6. O resultado será idêntico ao do Gráfico 2: GRÁFICO 2 – EFICIÊNCIA DE UM ESTIMADOR 0,2 N(5 4) 0,15 0,1 N(5 16) 0,05 N(5 36) 0 -30 -20 -10 0 10 FONTE: Adaptado de Gretl (2018) 43 20 30 40 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Com base nos resultados apresentados no Gráfico 2 é possível perceber que o estimador mais eficiente é o primeiro, que apresenta a menor variância, representada pela curva N (5,4). Via de regra, sempre escolheremos o estimador com menor variância, porque é ele que tem a maior probabilidade de estar próximo do verdadeiro parâmetro populacional. Para calcular a variância e o desvio padrão dos coeficientes estimados, usamos as equações precedentes, como descrito no quadro a seguir: QUADRO 4 – CÁLCULO DA VARIÂNCIA E DESVIO PADRÃO DOS COEFICIENTES ESTIMADOS Parâmetro Equação σ̂ 2 σˆ 2 = ∑ û n−2 σ̂ σˆ = ∑ ûi2 n−2 ( ) ( ) var βˆ 1 = ( ) ep βˆ 1 = var β̂1 ep β̂1 ( ) ( ) 27 , 2242 = 1, 8447 10 − 2 ( ) ∑ Xi2 σˆ = ep βˆ 1 2 n ∑ Xi − X ( ) ep βˆ 2 = ( ) = σˆ 319.365 σˆ 2 = = 3 , 4030 146 , 3702 var βˆ 1 2 10 * 742 , 5 n ∑ ( Xi − X ) ( ) ep β̂ 2 27 , 2242 = 3 , 4030 10 − 2 = σˆ 2 ∑ Xi2 var βˆ 2 = var β̂ 2 Cálculo 2 i ( ) ( ) σ̂ 2 ( ∑ Xi − X ) ( ) var = β̂ 2 3 , 4030 = 0 , 0046 742 , 5 ( ) 3 , 4030 = 0 , 0677 742 , 5 ( ) 2 σ̂ 2 ∑ Xi − X 319.365 = * 1, 8447 12 , 0982 10 * 742 , 5 = ep β̂ 2 2 FONTE: O autor Como você pôde perceber no Quadro 4, deixamos para você a tarefa de calcular algumas das variáveis que entram nas equações. Porém, como você deve ter percebido, ter a capacidade de fazer esses cálculos conseguindo ler as fórmulas matemáticas é indispensável no estudo econômico. A ideia até aqui era permitir que você tivesse acesso a uma base de dados e, ao se deparar com fórmulas matemáticas, fosse capaz de ler e interpretar o seu significado. Entender a engenharia por trás dos resultados é fundamental para compreender o seu significado. Os coeficientes estimados, as variâncias dos parâmetros e seus respectivos desvios padrão, por si só, não são suficientes para responder a todas as perguntas relevantes que fazemos quando decidimos testar uma teoria econômica. Lembrando que essas estimativas são pontuais, o que significa dizer que não carregam informações suficientes para aquilo ao qual nos propomos a fazer. 44 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS Uma das alternativas possíveis para essa deficiência é estimar um intervalo de confiança, que consiste em uma faixa de valores dentro da qual há certa probabilidade de os verdadeiros parâmetros populacionais estarem contidos. Sabemos através de 3.28 que os erros ui têm distribuição normal, por isso os seus estimadores de mínimos quadrados β̂1 e β̂ 2 também têm. Representamos essa distribuição da seguinte forma: ∑ Xi2 σˆ 2 2 3.29 σˆ 2 ∑ ( Xi − X ) 3.30 βˆ 1 ~ N , β1 , βˆ 2 ~ N β 2 , n ∑ ( Xi − X ) 2 O procedimento descrito a seguir foi obtido de Hill, Griffiths e Judge (2010). Dadas as hipóteses do modelo de regressão linear e as equações 3.29 e 3.30, podemos escrever de modo geral que: t= βˆ k − β k ( ) ep βˆ k ~ t( n − 2 ) 3.31 Em que n é o tamanho da amostra e k é igual a 1 e 2, sendo 1 o β̂1 e 2 para β̂ o 2, o que significa que se tivéssemos mais parâmetros estimados teríamos um k ainda maior. Como estamos estimando um modelo de regressão simples, com uma variável dependente sendo explicada por uma variável explicativa, e incluímos βˆ 1 + βˆ 2 Xi + uˆ i, perdemos dois graus de uma constante no modelo de regressão Yi = liberdade ao estimar a regressão (um grau para cada parâmetro beta). O intervalo de confiança é obtido a partir de 3.31, porque não conhecemos o verdadeiro valor de σ 2, mas conhecemos a sua estimativa σ̂ 2, e o erro padrão dos coeficientes de mínimos quadrados é dado por 3.26 e 3.27. Essa variável t apresenta distribuição t de Student, com n – 2 graus de liberdade pelas razões discutidas. Segundo Hill, Griffiths e Judge (2010, p. 108), a construção do intervalo de confiança requer a consulta a uma tabela de valores críticos da estatística t. Porém, podemos usar o Gretl, como veremos adiante. Em ambos os casos, encontraremos valores críticos tc, que satisfazem: 45 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO P(t > tc) = P(t < tc) = a/2 3.32 Reorganizando, temos: P(–tc < t < tc) = 1 – a 3.33 Substituindo 3.31 em 3.33, obtemos: βˆ k − β k ≤ tc = 1 − α P −tc ≤ ep βˆ k 3.34 ( ) Simplificando, temos: ( ) ( ) P βˆ k − tc ep βˆ k ≤ β k ≤ βˆ k + tc ep βˆ k =1 − α 3.35 Em que tc é o valor crítico da estatística t, e c = α/2 é obtido em tabelas próprias disponíveis na internet ou nos apêndices de livros de estatística e econometria, mas que não precisaremos recorrer a elas porque estamos usando o software Gretl como apoio e ele já tem essa e outras tabelas no menu “Ferramentas” e “Tabelas Estatísticas”. O parâmetro α é um valor de probabilidade, digamos 1%, 5% ou 10% na maioria das aplicações práticas, chamado de nível de significância. Para entender o seu funcionamento na prática, vamos voltar aos resultados dos parâmetros estimados e seus respectivos erros padrão. Começaremos com β̂1 e depois faremos o mesmo procedimento para o β̂ 2. De 3.17, sabemos que βˆ 1 = −5 , 43 , e de 3.26 e do Quadro 4, sabemos que ˆ ep β1 = 12 , 0982. Usando 3.35 estabelecemos um nível de significância α = 5% ou 0,05, e construímos um intervalo de confiança de 100(1 – α)%, ou 95%, para β1 com 10 – 2 = 8 graus de liberdade: ( ) ( ) ( ) P βˆ 1 − t0 ,05 / 2 ep βˆ 1 ≤ β1 ≤ βˆ 1 + t0 ,05 / 2 ep βˆ 1 =1 − 0 , 05 ( ) ( ) P −5 , 43 − 2 , 306 ep βˆ 1 ≤ β1 ≤ −5 , 43 + 2 , 306 ep βˆ 1 = 0 , 95 46 3.36 3.37 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS O erro padrão de β̂1 é 12,0982, com isso podemos construir um intervalo de confiança para β1 em que: ( ) βˆ 1 ± t0 ,05 / 2 ep βˆ 1 = −5 , 43 ± 2 , 306 ( 12 , 0982 ) = −33 , 3284 ; 22 , 4684 3.38 Ou, – 33,3284 < β1 < 22,4684. Vamos analisar melhor as equações acima para podermos dar uma interpretação a esse resultado. Primeiramente você precisa saber de onde surgiu esse valor de 2,306. Algumas tabelas de distribuição da estatística t são monocaudais, enquanto outras são bicaudais. Observe o Gráfico 3, ela apresenta o gráfico de distribuição da estatística t, com 8 graus de liberdade. A área cinza sob a curva é o valor t α/2, obtido em uma tabela de distribuição t: GRÁFICO 3 – GRÁFICO DE DISTRIBUIÇÃO DE t, COM 8 GRAUS DE LIBERDADE 0,5 T(8) 0,4 0,3 0,2 0,1 1–α 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 FONTE: Adaptado de Gretl (2018) A curva de distribuição de t é semelhante à da distribuição normal, porém com poucos graus de liberdade, ela é mais magra do que a normal padrão. À medida que o número de graus de liberdade aumenta, a distribuição t tende à distribuição normal. 47 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO A Figura 6 apresenta a estatística de teste gerada pelo Gretl. Para gerar esses valores, basta escolher o menu “Ferramentas” e em seguida “Tabelas estatísticas”. Ao abrir a janela com as estatísticas de distribuição, você deve escolher “t”, e em seguida informar os graus de liberdade, n – 2 → 10 – 2 = 8, ou seja, o tamanho da amostra, 10, menos o número de parâmetros estimados, 2. Na parte de baixo você informa a probabilidade da cauda à direita, que é α/2 → 0,05/2 = 0,025. Observação importante: use ponto para separar os decimais no Gretl em vez de usar vírgula, ou seja, use 0.025 em vez de 0,025. FIGURA 6 – VALORES CRÍTICOS DE t PARA 8 GRAUS DE LIBERDADE FONTE: Adaptado de Gretl (2018) O Quadro 5 apresenta uma parte da tabela de distribuição de t. Os números da primeira coluna à esquerda são os graus de liberdade, enquanto as colunas à direita são os níveis de significância α. Note que, para 8 graus de liberdade e significância monocaudal de 0,025, o valor crítico é t0,05/2 = 2,306. QUADRO 5 – DISTRIBUIÇÃO DA ESTATÍSTICA t Probabilidade: Graus de liberdade 0,005 Bicaudal α 0,10 0,05 0,010 1 6,314 12,706 63,657 2 2,920 4,303 9,925 3 2,353 3,182 5,841 4 ... 2,132 2,776 4,604 1,860 2,306 3,355 ... 8 ... 0,025 ... 0,05 ... Monocaudal α/2 FONTE: Adaptado de Gujarati (2011 p. 876) 48 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS Agora que sabemos de onde vêm as informações que usamos, podemos interpretar o resultado obtido. A leitura é bem simples, direta e seu significado diz respeito à obtenção de um grande número de amostras repetidas. Neste caso específico, como estabelecemos que α = 5% ou 0,05, se fizéssemos várias amostras, 95 em cada 100 delas o valor de β1 estaria dentro do intervalo – 33,3284 < β1 < 22,4684. Porém, aqui fica um alerta, isso não significa que a probabilidade de o intervalo – 33,3284 < β1 < 22,4684 conter o verdadeiro β1 é de 1 – α → 1 – 5% = 95%. Isso ocorre porque após estimar o parâmetro e especificar o intervalo, nós o fixamos. Neste caso, a probabilidade de esse intervalo específico conter o verdadeiro β1 é 0 ou 1. Como o valor estimado é -5,43, podemos dizer que o nosso modelo estimou um β1 que está dentro do intervalo de confiança de 95%. Vamos repetir o procedimento e calcular o intervalo de confiança para o β2. ( ) ( ) P βˆ 2 − t0 ,05 / 2 ep βˆ 2 ≤ β 2 ≤ βˆ 2 + t0 ,05 / 2 ep βˆ 2 =1 − 0 , 05 ( ) ( ) P 1, 0343 − 2 , 306 ep βˆ 2 ≤ β 2 ≤ 1, 0343 + 2 , 306 ep βˆ 2 = 0 , 95 ( ) 3.39 3.40 0 , 8782 ; 1,1904 βˆ 2 ± t0 ,05 / 2 ep βˆ 2 = 1, 0343 ± 2 , 306 ( 0 , 0677 ) = 3.41 0 , 8782 ≤ β 2 ≤ 1,1904 3.42 Como no caso do β̂1, o coeficiente β̂ 2 também está dentro do intervalo especificado. Se fizéssemos várias amostras repetidas e estimássemos dezenas ou centenas de vezes o coeficiente β̂ 2, 95 de cada 100 intervalos como 0,8782 < β2 < 1,1904 conteriam o verdadeiro β2, com 95% de confiança. Podemos aproveitar esses intervalos calculados para fazer testes de hipótese sobre os coeficientes estimados. A hipótese que será testada é chamada de hipótese nula e é representada por H0, enquanto a alternativa geralmente é representada por H1. Vamos analisar o parâmetro β̂ 2 e imaginar que existem razões teóricas muito fortes para crermos que o seu verdadeiro valor é 0,516, ou seja, β2 = 0,516. Montamos o nosso conjunto de hipóteses como: 49 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO H 0 : β 2 = 0 , 516 H1 : β 2 ≠ 0 , 516 Além das hipóteses estabelecidas acima, precisamos de um intervalo de confiança de 95%, e assim, podemos usar 3.42. Caso o valor de β2 sob a hipótese nula esteja dentro desse intervalo, não poderemos rejeitar a hipótese nula. Caso o valor de β2 sob a hipótese nula esteja fora desse intervalo, nós a rejeitamos em favor da hipótese alternativa, ou seja, o verdadeiro valor de β2 é um número diferente de 0,516, com 95% de confiança. A Figura 7 ilustra a regra de decisão: FIGURA 7 – REGRA DE DECISÃO PARA OS TESTES DE HIPÓTESE Caso o valor de β2 sob H0 cair dentro desse intervalo, não rejeitamos a hipótese nula. β� k − tc ep( β� k ) β� k + tc ep( β� k ) FONTE: Adaptado de Gujarati e Porter (2011, p. 134) Se rejeitarmos a hipótese nula, automaticamente estamos aceitando a hipótese alternativa. Neste caso, como a hipótese nula diz que β2 = 0,516 e a alternativa diz que o verdadeiro valor é diferente disso, mas não diz se é maior ou menor, rejeitar a hipótese nula implica aceitar que o verdadeiro β2 pode ser qualquer valor maior ou menor do que aquele estabelecido na hipótese nula. A Figura 8 (com base no intervalo de confiança obtido em 3.42) mostra o resultado do nosso teste de hipótese. Perceba que, com 95% de confiança, o β2 de H0 caiu fora da região de aceitação da hipótese nula. Com isso, a rejeitamos em favor da hipótese alternativa, H1, de que o verdadeiro β2 não é 0,516, mas sim um número diferente, seja ele qual for. FIGURA 8 – TESTE DE HIPÓTESE PARA β2 Região de rejeição da H0 e a aceitação da H1. 0,516 Região de aceitação da H0. 0,8782 Região de rejeição da H0 e aceitação da H1. 1,1904 FONTE: O autor Caso aceitássemos a hipótese nula, diríamos que os resultados obtidos com a amostra são compatíveis com a hipótese de que o β2 = 0,516. 50 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS Além do teste intervalar, podemos implementar o teste t para verificar a significância estatística dos nossos coeficientes estimados. Na prática, esse tipo de teste é mais empregado do que o de intervalo de confiança, por ser intuitivamente mais claro de se entender do que o anterior. Os passos para implementar o teste de hipóteses estão no quadro a seguir: QUADRO 6 – FORMATO DO TESTE DE HIPÓTESES Passo Especificação 1 Determine as hipóteses nula, H0, e alternativa, H1. 2 Especifique a estatística de teste e sua distribuição se a hipótese nula é verdadeira. 3 Escolha α e determine a região de rejeição. 4 Calcule o valor amostral da estatística de teste. 5 Formule sua conclusão. FONTE: Adaptado de Hill, Judge e Griffiths (2010, p. 117) Vamos verificar a implementação desses procedimentos com o nosso exemplo prático. Começamos recordando que o resultado estimado pelo nosso modelo econométrico, dado por 3.17, é: Ŷi = −5 , 43 + 1, 0343Xi 3.17 Agora devemos determinar as hipóteses nula e alternativa. A hipótese nula é aquela que expressa uma crença que temos em relação àquele parâmetro estimado pelo modelo. Ela pode emergir da própria teoria econômica, ou pode ser formulada para testar algo que acreditamos, quer seja por questões técnicas, quer seja por nossa suposição. Normalmente testamos a hipótese de que os coeficientes estimados são iguais a zero. Isso faz sentido em relação a β̂1, porque, como estamos diante de uma equação linear, esse coeficiente parte de algum ponto situado sobre o eixo vertical do nosso gráfico cartesiano. Se ele for igual a zero, isso significa que podemos eliminá-lo do nosso resultado e a reta de regressão partirá do ponto (0,0), ou seja, da origem. O outro coeficiente, β̂ 2, se for igual a zero significa que Xi não é capaz de explicar as variações em Yi, ou seja, quer dizer que a inclinação da reta de regressão é nula e, portanto, a reta é horizontal em relação a Xi, indicando que mudanças em sua trajetória não influenciam a trajetória de Yi. Vamos construir as nossas hipóteses da seguinte forma: 51 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO H 0 : β1 = 0 H1 : β1 ≠ 0 O segundo passo diz que devemos especificar a estatística de teste e sua distribuição de probabilidade. Por definição, vimos em 3.31 que: t= βˆ k − β k ( ) ep βˆ k ~ t( n − 2 ) 3.31 Isso significa que aceitar H0 é aceitar a distribuição de 3.31, enquanto rejeitar H0 em favor de H1 quer dizer que 3.31 não tem distribuição tn – 2. Antes de explicar o que significa a escolha de α, precisamos entender o que acontece quando rejeitamos uma hipótese nula e ela é verdadeira, ou quando aceitamos uma hipótese nula e ela é falsa. Em estatística podemos cometer dois tipos de erro: o erro tipo I e o erro tipo II. Um erro do tipo I ocorre quando rejeitamos a hipótese nula e ela é verdadeira. Assim, se rejeitarmos a H0:β1 = 0, aceitando que ele tem qualquer valor diferente de zero, mas na verdade ele é zero, estaremos cometendo um erro do tipo I. Por outro lado, o erro do tipo II ocorre quando aceitamos H0, mas na realidade ela é falsa, ou seja, aceitamos que H0:β1 = 0, fazemos nossa análise com uma linha de regressão que passa pela origem, quando na verdade β1 não é zero, é um número qualquer diferente de zero. Assim, aceitar ou rejeitar uma hipótese consiste em um jogo em que estamos sujeitos a cometer um determinado erro, porém há uma certa probabilidade envolvida nessa escolha. O que nos leva a tomar a decisão é a minimização da probabilidade de se cometer um erro do tipo I. E é exatamente aqui que entra a escolha do nível de significância α. Escolher α significa responder à questão: Quão rigoroso eu sou ou pretendo ser em relação ao meu resultado? Ou ainda: Qual a probabilidade de se cometer o erro do tipo I que eu estou disposto a aceitar? Se escolhermos um α = 0,10, quer dizer que estou disposto a rejeitar a hipótese nula em favor da hipótese alternativa, com 10% de probabilidade de se cometer o erro do tipo I. Como padrão, os pesquisadores costumam aceitar 5% de probabilidade de se cometer um erro do tipo I, ou seja, escolhem um α = 0,05. Outros, que buscam resultados mais precisos, estabelecem α = 0,01, ou 1% de probabilidade de se rejeitar a hipótese nula quando ela é verdadeira. 52 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS Em relação ao erro do tipo II, podemos dizer que sua probabilidade é dada por θ (teta). Assim, podemos definir o poder do teste como 1 – θ, que é a probabilidade de se rejeitar H0 quando ela realmente é falsa. Com isso, dizemos que se a probabilidade de se cometer o erro do tipo II é de 10%, o poder do teste é de 90%, ou seja, θ = 0,10 → 1 – θ = 0,90. Para o nosso exemplo, vamos escolher o α = 0,05, e aceitar a probabilidade de se rejeitar a H0:β1 = 0 quando ele é diferente de zero em 5%. Com isso podemos partir para o próximo passo que consiste em calcular a estatística de teste, dada por 3.31 cujo resultado está em 3.43: t= β̂1 − β1 ( ) ep βˆ 1 = −5 , 43 − 0 = −0 , 4488 12 , 0982 3.43 O resultado em 3.43 deve ser comparado à tabela de distribuição de t, com n – 2 graus de liberdade, em que n é o tamanho da amostra. No nosso caso, n – 2 → 10 – 2 = 8 graus de liberdade. Já sabemos como obter o valor crítico da distribuição t8gl a partir de uma tabela estatística e a partir do Gretl. Vamos usar a segunda opção por ser mais prática. Só precisamos lembrar de que essa informação está em “Ferramentas” e “Tabelas estatísticas”, e depois selecionamos a aba que contém a distribuição de t. No campo gl informamos 8 e no campo probabilidade da cauda direita, temos que informar 0.025 (ponto ao invés de vírgula). Por que informamos 0.025 ao invés de 0.05, se escolhemos o α = 0,05? Porque no Gretl ele pede a probabilidade da cauda direita e, como vimos, a distribuição t é simétrica, semelhante à distribuição normal. Por isso, basta indicar a probabilidade de uma das caudas que o programa calcula a da outra. O resultado obtido é t8gl = 2,306, o qual é maior do que o valor obtido no cálculo da estatística de teste, ou seja, t = – 0,4488. Aqui devemos estabelecer a seguinte regra: se o valor de tcalculado > ttabela, rejeitamos a hipótese nula no nível de significância estabelecido. No caso do nosso exemplo, como – 0,4488 < 2,306, ou seja, o t calculado é bem menor do que o t da tabela, com nível de significância de 5% (0,05) e 8 graus de liberdade. Nesse caso não podemos rejeitar a hipótese nula de que o β1 = 0 e, portanto, a linha de regressão, para este exemplo, deve passar pela origem. 53 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO GRÁFICO 4 – TESTE DE HIPÓTESE PARA O β1 0,5 T(8) 0,4 0,3 0,2 Região de rejeição da H0. Região de rejeição da H0. Região de aceitação da H0. 0,1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 FONTE: Adaptado de Gretl (2018) Em termos gráficos, o Gráfico 4 apresenta uma análise intuitiva dos resultados obtidos. A região de aceitação da hipótese nula está demarcada no gráfico de distribuição de t8gl. A área cinza em ambos os lados indica a região de rejeição da hipótese nula. O demarcador de cada região é o valor de tc, ou seja, do valor da estatística de t encontrado na tabela de distribuição de probabilidade. Como o valor calculado de t, dado por 3.43 está dentro da região de aceitação da hipótese nula, essa hipótese não pode ser descartada. Com isso, a indicação é que a regressão não deveria ter intercepto e seu gráfico ficaria como o do Gráfico 5. A pergunta que fica é: Nós podemos realmente fazer isso? Na prática, uma regressão que passa pela origem é válida? Por ora basta sabermos que, apesar de o nosso teste de significância nos dizer que o β1 é estatisticamente igual a zero, somente iremos retirá-lo da nossa regressão se houver argumentos teóricos e técnicos muito convincentes. Alguns modelos de regressão realmente não dispõem de constante β1, por exemplo, o modelo CAPM (de formação de preços de ativos financeiros). Porém, via de regra, não devemos omitir o intercepto do nosso modelo de regressão. 54 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS GRÁFICO 5 – REGRESSÃO QUE PASSA PELA ORIGEM Y �i = FRA → Y β� 2 Xi X 0 FONTE: O autor Mais adiante voltaremos ao β1 não significativo em termos estatísticos, quando interpretarmos o resultado da regressão como um todo. Agora vamos fazer um novo teste de hipótese, só que para o β2, e por coerência, manteremos os mesmos critérios, ou seja, nível de significância estatística de 5% ou α = 0,05. H0 : β 2 = 0 H1 : β 2 ≠ 0 A estatística de teste calculada é: t = βˆ2 − β 2 = ep βˆ2 ( ) 1,0343 − 0 = 15,2777 0,0677 3.44 Sabemos que o valor da tabela é de tc = 2,306, que é menor que 15,2777. Dessa forma, como o valor calculado da estatística de t é maior do que o valor da tabela, rejeitamos a hipótese nula em favor da hipótese alternativa que diz que o β2 é estatisticamente diferente de zero. Esse resultado nos dá um alento, afinal, o intercepto foi considerado não significante do ponto de vista estatístico. Caso o coeficiente angular β2 também fosse estatisticamente igual a zero, teríamos um sério problema. Isso significaria que nosso modelo não é válido, como já discutimos. 55 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Vamos recapitular o que vimos até agora. Após estimarmos o nosso modelo econométrico, obtivemos estimativas pontuais para os β1 e β2, calculamos a variância do termo de erro e os desvios padrão dos coeficientes estimados de mínimos quadrados. Estimamos um intervalo com 1 – α de confiança, com α = 0,05 ou 95%, e percebemos que as nossas estimativas estão dentro desses intervalos especificados. Porém, o intercepto não é estatisticamente significativo em nível de 5% de significância estatística. Vamos deixar para você testar novamente o intercepto, considerando um nível de significância de 10%. Será que se formos menos rigorosos o nosso intercepto será estatisticamente significativo? Você deverá repetir o teste para o β2, só que com um nível de significância menor, de 1%. Neste caso, sendo ainda mais rigoroso, continuamos rejeitando a hipótese nula para o β2? Falta ainda um passo para terminarmos nossa análise estatística, antes de fazermos a interpretação dos resultados. O que queremos saber agora é se o modelo se ajusta bem aos dados, e para isso calcularemos o coeficiente de determinação r2, que nos dará uma medida da qualidade do ajustamento do nosso modelo aos dados. Dito de outra forma, saberemos quantos por cento das −5,43 + 1,0343Xi . variações de Y são explicadas por Yˆi = A estimação dos parâmetros da regressão se dá através da minimização da soma dos quadrados dos desvios, por isso se chama de método dos mínimos quadrados ordinários. Ocorre que essa soma dos quadrados dos desvios, ou soma total dos quadrados (SQT), pode ser dividida em dois componentes. Um deles é a soma dos quadrados dos resíduos (SQR) e o outro a soma dos quadrados explicados pela regressão (SQE). Para facilitar a compreensão, vamos dar uma olhada na Figura 9. Ela apresenta a decomposição da variação dos erros. Dito de outra forma, nela encontramos o valor médio de Y, representado por Y , traçamos uma linha da função de regressão amostral e indicamos onde estão localizados, no gráfico, o verdadeiro valor de Y e o seu valor estimado pela regressão Ŷ . Assim fica claro entender que, quando falamos na soma total dos quadrados, estamos nos referindo à soma das variações de Y em torno do seu valor médio amostral, que é dado por: SQT = ∑ (Y − Y ) i 2 3.45 Por sua vez, a soma dos quadrados da variação residual de Y, SQR, é obtido por: = SQE ∑ (Y − Y� ) i i 3.46 2 56 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS Finalmente, a soma dos quadrados da variação explicada de Y, SQE, é: ( SQR = ∑ Yˆi − Y ) 2 3.47 Da relação entre as equações anteriores, podemos escrever: SQT = SQR + SQE 3.48 Dividindo ambos os lados de 3.48 por SQT, teremos: = 1 SQR SQE + SQT SQT 3.49 Que equivale a: 1 = como: ( ∑ Yi − Yˆi ) ∑ ( Yi − Y ) 2 2 + ( ) 2 ∑ ( Yi − Y ) 2 ∑ Yˆi − Y 3.50 ( ) 2 2 ∑ Yi − Yˆi , então, podemos reescrever 3.50 De 3.8, sabemos que ∑ uˆ i = 1 = ∑ uˆ i2 ∑ ( Yi − Y ) + 2 ( ) 2 ∑ ( Yi − Y ) 2 ∑ Yˆi − Y 3.51 Agora, podemos definir o coeficiente de determinação r2, que mede quanto da variação de Y é explicada pelo modelo de regressão. Algebricamente escrevemos: r2 = ( ∑ Yˆi − Y ) 2 SQE = SQT ∑ ( Y − Y )2 i 3.52 ∑ uˆ 2 i 1− Ou, alternativamente, r 2 = ∑ ( Yi − Y ) 57 2 SQR 1− = . SQT UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO FIGURA 9 – DECOMPOSIÇÃO DA VARIAÇÃO DOS ERROS Y � =β � +β � X FRA → Y 1 2 i i � Total = (Yi − Y i ) Devido aos resíduos = u i � ) � Total =Total (= Yi − (Y Yii − Y i ) � − Y) Devido à regressão = (Yi Y X Xi FONTE: Adaptado de Gujarati e Porter (2011, p. 96) Vamos pôr em prática o que vimos calculando o coeficiente de determinação para o modelo econométrico que está servindo de exemplo para os nossos estudos: QUADRO 7 – ALTURA DOS PAIS E FILHOS EM CM, COM VALORES ESTIMADOS E RESÍDUOS (Y − Y ) 2 uˆ= Yi − Yˆi i uˆ i2 165,2364 0,7636 0,5831 168,3394 -0,3394 0,1152 104,04 171,4424 -2,4424 5,9654 -3,2 10,24 174,5455 1,4545 2,1157 177 0,8 0,64 177,6485 2,3515 5,5296 180 -0,2 0,04 180,7515 -1,7515 3,0678 185 183 5,8 33,64 183,8545 1,1455 1,3121 8 186 186 6,8 46,24 186,9576 -0,9576 0,9170 9 188 189 8,8 77,44 190,0606 -2,0606 4,2461 Obs. Y X y= Yi − Y i 1 166 165 -13,2 174,24 2 168 168 -11,2 125,44 3 169 171 -10,2 4 176 174 5 180 6 179 7 2 y= i i Yi = β1 + β2Xi 10 195 192 15,8 249,64 193,1636 1,8364 3,3722 Soma 1792 1785 0 821,6 1.792 0,0000 27,2242 Média 179,2 178,5 0 82,16 0,00 0,0000 2,7224 FONTE: O autor 58 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS O Quadro 7, que é uma síntese dos quadros 2 e 3, apresenta as informações que precisamos. Vamos usar a seguinte equação: r2= 1 − ∑ uˆ i2 ∑ ( Yi − Y ) 3.53 2 27,2242 1− 0,9669 r2 = = 821,6 3.54 Isso significa que 96,69% das variações em Y são explicadas pelo nosso modelo de regressão. Podemos dizer que é um ótimo resultado! O coeficiente de determinação é uma estatística cujo resultado deve ficar entre 0 < r2 < 1. Se for igual a zero, dizemos que nosso modelo de regressão não é capaz de explicar as variações de Y. O outro extremo, isso é, r2 = 1,00, significa que 100% das variações em Y são explicadas pelo nosso modelo. O caso extremo é raro de acontecer, normalmente teremos valores intermediários. 6 O USO DO GRETL PARA ESTIMAÇÃO E ANÁLISE ECONOMÉTRICA: A ANÁLISE DOS RESULTADOS E SUA INTERPRETAÇÃO Depois de todo esse esforço braçal que fizemos para estimar o modelo de regressão, calcular os intervalos de confiança, testar as hipóteses e verificar a qualidade do ajustamento do nosso modelo, é hora de darmos passos mais largos e avançarmos de forma mais rápida e sermos mais eficientes no nosso trabalho. A tecnologia é grande aliada dos economistas e, especialmente, dos econometristas. Fazer todos esses cálculos que fizemos até agora na mão é muito importante para você entender de onde vêm as coisas e valorizar os resultados obtidos, mas, do ponto de vista prático, é um tempo precioso que gastamos e que poderia ser investido em outras coisas, por exemplo, analisar e interpretar os resultados ou trabalhar melhor o nosso banco de dados. A ideia de agora em diante é gastar o menor tempo possível fazendo cálculos manuais e aproveitar o máximo possível o tempo analisando e interpretando os resultados. Para isso, vamos propor o mesmo experimento feito anteriormente. Vamos investigar se a altura dos pais é passada para os filhos, ou seja, vamos testar o grau de hereditariedade na altura. O Quadro 8 traz dados simulados da altura dos filhos e dos pais, em cm: 59 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO QUADRO 8 – ALTURA DOS FILHOS E DOS PAIS EM CM Obs. Y X 1 166 165 2 168 168 3 169 171 4 176 174 5 180 177 6 179 180 7 185 183 8 186 186 9 188 189 10 195 192 Soma 1792 1785 Média 179,2 178,5 FONTE: O autor Os quadros 2 e 8 são os mesmos, só que agora sem os cálculos que apresentamos naquela oportunidade. A primeira coisa que precisamos fazer é abrir o nosso software econométrico, o Gretl, e colocar essa tabela dentro dele. Para isso, na tela inicial escolha “Arquivo” e “Novo conjunto de dados”. Na janela seguinte ele pede o número de observações, escolha 10, porque é essa a quantidade de dados presentes no Quadro 8. Ao pedir qual é a estrutura de dados, ele apresenta três opções: são dados de corte (aqueles que são dispostos por indivíduo e não variam no tempo), série temporal (dados de um indivíduo que variam no tempo) e painel (que junta dados de corte e série temporal). Neste caso você escolherá dados de corte e clicará em “Avançar”, e depois, quando ele pedir para confirmar a estrutura de dados, escolha “Aplicar”. O Gretl criará uma variável índice que contém uma sequência de números que vão de 1 a 10. Essa variável não tem nenhuma aplicação prática para nós nesse momento. Para acrescentar os dados do Quadro 8, você deve selecionar o menu “Acrescentar” e depois “Definir nova variável”. Quando abrir a janela, você informará a fórmula da nova variável ou o seu nome. Informe Y e clique em “ok”. Automaticamente o Gretl abrirá uma tabela para você entrar com as informações de Y. Basta digitá-las, linha por linha, e no final você deve clicar no botão de que aparece na parte superior direita da tabela, como mostra a Figura 10. Ao repousar o mouse sobre o botão, ele apresentará a legenda “acrescentar”, como pode ser visto na figura. Abrirá um menu de opções e você selecionará “Acrescentar variável” e posteriormente informará o nome da próxima variável que é X. 60 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS FIGURA 10 – ENTRANDO COM OS DADOS NO GRETL MANUALMENTE FONTE: Adaptado de Gretl (2018) A partir daí é só entrar com as informações da variável X e clicar no botão aplicar para concluir a importação dos dados. Ao retornar à tela inicial do Gretl, você visualizará uma constante com indicador 0 , a variável índice com indicador 1, a variável Y com indicador 2 e a variável X com indicador 3. Há outra opção que consiste em importar os dados diretamente de uma planilha do Excel. O processo de importação de dados é bastante simples, bastando selecionar a opção Arquivo → Abrir dados → Arquivo do usuário, e em seguida escolher a pasta onde está o arquivo e o formato desejado, como na Figura 11. Na tela seguinte você deve informar em qual planilha, coluna e linha estão os dados, sendo a “Coluna 1” do Gretl o equivalente à coluna “A” do Excel, e a “Linha 1” do Gretl é onde tem o rótulo dos dados no Excel (ver Figura 12). 61 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO FIGURA 11 – IMPORTANDO OS DADOS PARA O GRETL A PARTIR DO EXCEL FONTE: Adaptado de Gretl (2018) O Gretl apresenta uma mensagem, informando que foram encontradas “x” planilhas, “y” variáveis e “z” observações. Como a única opção apresentada é “Fechar”, basta escolhê-la para que seja apresentada a segunda mensagem, que diz respeito ao tipo de dados que se está trabalhando. No caso de dados de corte, nosso caso, basta dar um “Não”. FIGURA 12 – IMPORTAÇÃO DOS DADOS PASSO A PASSO 62 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS FONTE: Adaptado de Gretl (2018) Você poderá clicar com o botão direito do mouse sobre cada uma das variáveis e escolher “Editar as características” para acrescentar informações que julgue relevantes, tais como descrição, por exemplo. Essa atividade de personalizar a apresentação da sua estrutura de dados ficará como desafio. Assim, você poderá explorar as funcionalidades do software e aprender coisas novas. Lembre-se, é sujando as mãos que se aprende econometria! É costume entre os econometristas rodar um gráfico de dispersão antes de estabelecer qual modelo econométrico será estimado. Com isso espera-se obter alguma informação sobre a equação matemática que servirá de base para o modelo de regressão. Para fazer isso, na borda inferior do Gretl, selecione o botão que tem uma figura de gráfico . Na janela que abrir, você deve indicar a variável X para o eixo X, e obviamente a variável Y para o eixo Y. O Gráfico 6 apresenta o gráfico de dispersão que geramos a partir do Gretl: 63 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO GRÁFICO 6 – GRÁFICO DE DISPERSÃO DA ALTURA DOS FILHOS EM RELAÇÃO À ALTURA DOS PAIS COM LINHA DE REGRESSÃO Y versus X (com ajustamento por mínimos quadrados) 195 Y= −5,43 + 1,03X 190 + + 185 Y + 180 170 160 + + 175 165 + + + + 165 170 175 180 185 190 X FONTE: Adaptado de Gretl (2018) Um fato importante em relação ao gráfico de dispersão apresentado é que o Gretl já mostra a linha de regressão, mesmo sem termos solicitado. Para removêla, basta você clicar sobre o gráfico com o botão direito e escolher “Editar”. Na aba principal da janela que se abrirá, você escolhe “Linha de ajustamento” e seleciona “Nenhum”, clicando em “ok” na sequência. O Gráfico 7 mostra o gráfico sem a linha de regressão: 64 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS GRÁFICO 7 – GRÁFICO DE DISPERSÃO DA ALTURA DOS FILHOS EM RELAÇÃO À ALTURA DOS PAIS SEM LINHA DE REGRESSÃO 195 190 + + 180 170 160 + + 175 165 + + 185 + + + 165 170 175 180 185 190 FONTE: Adaptado de Gretl (2018) O procedimento anterior também é útil para testar outras formas funcionais, bastando selecionar qualquer uma das opções, quadrática, cúbica, inversa, entre outras, como mostra a figura: FIGURA 13 – SELEÇÃO DE LINHAS DE AJUSTAMENTO FONTE: Adaptado de Gretl (2018) 65 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Voltando ao Gráfico 7 é possível perceber que há uma correlação positiva entre as variáveis. Isso fica evidente na medida em que os pontos estão dispersos da esquerda para a direita de forma ascendente. Com isso, e dado que a distribuição parece seguir uma linha mais ou menos reta, podemos escolher uma equação linear e esperar que o coeficiente angular seja positivo, afinal de contas, a correlação aparentemente é positiva. Estabelecemos o seguinte modelo de regressão a ser estimado: Yi = β1 + β2Xi + ui 3.55 O procedimento de estimação no Gretl é bem intuitivo. No menu principal do Gretl você deve selecionar “Modelo”, e em seguida “Mínimos Quadrados Ordinários”. Na variável dependente você informa Y, clicando sobre a variável e na seta correspondente, e para o campo “regressor”, já temos a constante como padrão, bastando selecionar X. Depois é só clicar em “ok” para visualizar os resultados, que são apresentados no Quadro 9. Perceba a quantidade enorme de informações apresentada pelo Gretl. Vamos ler a maior parte delas agora e individualmente para entender o que temos em mãos. Na equação 3.17 vimos o resultado da estimação manual dos coeficientes de mínimos quadrados. Agora podemos compará-los à saída do Gretl e ver se o nosso cálculo estava correto. Os parâmetros calculados manualmente e os calculados pelo Gretl são exatamente os mesmos, diferindo ligeiramente por questão do arredondamento usado nos cálculos manuais. Este é mais um motivo pelo qual não devemos fazer esses cálculos à mão. A precisão do programa de computador é muito maior do que a nossa capacidade de calcular e arredondar os resultados. QUADRO 9 – SAÍDA DO GRETL PARA A ESTIMAÇÃO DO MODELO DE REGRESSÃO 3.55 Modelo 1: MQO, usando as observações 1-10 Variável dependente: Y coeficiente erro padrão razão-t p-valor --------------------------------------------------------const −5,43030 12,0984 −0,4488 0,6655 X 1,03434 0,0676994 15,28 3,34e-07 *** Média var. dependente 179,2000 Soma resíd. quadrados 27,22424 R-quadrado 0,966864 F(1, 8) 233,4319 Log da verossimilhança −19,19700 Critério de Schwarz 42,99917 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn FONTE: Adaptado de Gretl (2018) 66 9,554522 1,844730 0,962722 3,34e-07 42,39400 41,73013 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS O Quadro 9 apresenta também, nas linhas iniciais, ao lado dos coeficientes estimados, o erro padrão e a razão t. Comparem esses resultados com os que obtivemos no Quadro 4 e nas equações 3.43 e 3.44. Novamente a diferença está no arredondamento. Por padrão, a razão t apresentada pelo Gretl trabalha com a H0 de que o coeficiente estimado é estatisticamente igual a zero. Neste caso, sabemos por 3.31 que basta dividir o coeficiente pelo desvio padrão e assim obter o valor de t. Ao lado da estatística t está o p-valor, que mede o nível exato da probabilidade de se cometer o erro do tipo I, ou seja, o menor nível de significância ao qual rejeitamos a hipótese nula (GUJARATI; PORTER, 2011, p. 142). Para o β̂1 , que é representado no Quadro 9 como constante, a probabilidade de se cometer o erro do tipo I é de 66,55%, caso decidirmos rejeitar a hipótese nula de que o β1 é zero, quando ela é verdadeira. Por isso não podemos rejeitar a H0. Por outro lado, vemos que o p-valor do β̂ 2 é muito baixo, 3,34e-07. Esse número científico pode ser traduzido para 0,000000334. Ou seja, “e-07” quer dizer que há 6 zeros após a vírgula e a partir da sétima casa decimal aparecem os números 334. Podemos concluir que a probabilidade de se cometer um erro do tipo I ao se rejeitar H0 : β2 = 0 é muito pequena. Por isso podemos rejeitá-la sem medo. Podemos adotar como regra geral para a rejeição da hipótese nula: quando o p-valor do teste de hipótese é menor do que o valor escolhido de α, rejeitamos a hipótese nula. Assim, se α = 0,05 e o p-valor é 0,0000, podemos rejeitar a hipótese nula de que o coeficiente estimado é estatisticamente igual a zero, com 0,00% de probabilidade de se cometer um erro do tipo 𝐼. Outro detalhe são os três asteriscos que aparecem ao lado do p-valor. O Gretl está nos informando que esse parâmetro é estatisticamente significativo ao nível de 1%. Ele usa como padrão três asteriscos para 1%, dois asteriscos para 5% e um asterisco para 10% de significância estatística. Quando não aparecem os asteriscos quer dizer que o coeficiente estimado não é estatisticamente significativo ou estatisticamente diferente de zero. Em 3.54 calculamos o grau de ajustamento do modelo, representado pelo r2. Naquela ocasião chegamos ao valor de r2 = 0,9669. Compare esse resultado com o Quadro 9 e perceba novamente que a diferença entre os resultados está no arredondamento. Para padronizar a sua apresentação e os seus cálculos, procure usar sempre quatro casas após a vírgula. Como o resultado dos programas econométricos apresentam um excesso de informação, no momento de apresentar o seu resultado em um artigo científico ou em um trabalho acadêmico, você deve selecionar apenas algumas dessas informações. Não existe uma apresentação padrão, por isso sugerimos o seguinte: 67 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Yˆ i r 2 = −5 , 4303 + 1, 0343Xi (12 , 0984 ) ( 0 , 0677 ) * * * = 3.56 0 , 9669 Em 3.56 apresentamos entre parênteses os erros padrão. Assim, quem ler o seu resultado poderá fazer um teste de hipóteses rapidamente, calculando a razão t e verificando se os coeficientes estimados são estatisticamente significativos. Outra forma de apresentar é substituir os valores dos desvios padrão pelas razões t. Você pode ainda optar por colocar asteriscos ao lado da estatística para que o leitor saiba se as estimativas são significativas ou não e em qual nível: Yˆ i = −5 , 4303 + 1, 0343Xi (12 , 0984 ) ( 0 , 0677 ) * * * r2 = 3.57 0 , 9669 Para interpretar o resultado da regressão precisamos recorrer ao nosso conhecimento prévio, à teoria econômica por trás do modelo, ao problema proposto e às hipóteses levantadas. Com isso em mente, verificamos se os resultados alcançados fazem sentido. Também buscamos em estudos semelhantes ao nosso por resultados que estão em linha ou que discordam daquele que alcançamos. Como o estudo proposto dizia respeito à hereditariedade, ou seja, à capacidade dos pais transferirem aos filhos a sua estatura, o nosso modelo estimado está bem coerente com o que se esperava. Em primeiro lugar porque o sinal do coeficiente estimado β̂ 2 é positivo, indicando que em média a altura dos pais influencia a estatura dos filhos de forma positiva, ou seja, quanto maiores os pais, maiores também serão os filhos. Além disso, o coeficiente estimado β̂ 2 é estatisticamente significativo, mesmo considerando um nível de significância estatística de 1% (α = 0,01). Por outro lado, o intercepto β̂1 não é estatisticamente significativo. Em geral, esse coeficiente não tem muito sentido econômico e, como vimos, a menos que se tenha uma razão teórica muito forte, o fato de o intercepto não ser significativo não quer dizer que deva ser eliminado da nossa regressão. Faz mais sentido mantê-lo, até mesmo para se evitar um erro de especificação, como será visto ao longo desse curso. O coeficiente de determinação r2 é de 0,9669, o que significa que 96,69% das variações na altura dos filhos nessa amostra é explicado pelo nosso modelo 68 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS econométrico. Isso é muito bom porque significa que o nosso modelo se ajusta muito bem aos dados. Porém, aqui vai um alerta importante. Todos esses resultados foram obtidos com uma amostra contendo apenas 10 observações. Acontece que esse tamanho é muito pequeno e pode causar alguns problemas estatísticos, como a micronumerosidade. Além disso, praticamente todos os testes estatísticos são testes assintóticos, ou seja, construídos para que funcionem bem em amostras grandes. Sempre que trabalharmos com a estimação de regressões por mínimos quadrados, precisamos de amostras que contenham no mínimo 20 graus de liberdade, independentemente de quantos estimadores ou variáveis explicativas tenham o nosso modelo. Os graus de liberdade são estabelecidos a partir do tamanho da amostra, no nosso exemplo são 10, menos os parâmetros estimados, ou seja, a constante β̂1 e o coeficiente β̂ 2. Assim, perdemos 2 graus de liberdade e, com isso, em vez de dez, temos apenas oito graus de liberdade, o que é consideravelmente pouco para um experimento confiável. Essa regra sobre graus de liberdade pode ser somada à regra que diz que, sob a hipótese nula de que o parâmetro estimado é estatisticamente igual a zero, se tivermos pelo menos 20 graus de liberdade, e com um nível de significância de 5%, o valor da estatística t deve ser maior do que 2 em módulo, ou seja, |t| > 2. Se você procurar em uma tabela estatística os valores críticos de t, com 20 graus de liberdade, e α = 0,05, encontrará um valor próximo de 2, ou, para sermos mais precisos, de 2,08596. Com isso, e sabendo que se o valor de tcalculado > ttabela, a um nível de 5% de significância estatística, podemos rejeitar a hipótese nula a favor da hipótese alternativa de que o coeficiente é estatisticamente diferente de zero. Devemos nos lembrar de que estamos supondo que os termos de erro têm distribuição normal, sem a qual as estatísticas não têm o menor valor. O teste de normalidade de Jarque-Bera (JB) pode ser facilmente implementado com o auxílio do Gretl. Basicamente ele consiste na estimação da equação 3.58, e tem como H 0 : uˆ i ~ Normal, e usa uma tabela qui-quadrado com dois graus de liberdade: S2 ( K − 3 )2 = JB n + 6 24 3.58 Em que n é o tamanho da amostra, S é o coeficiente de assimetria, que deve ser igual a zero, e K é o coeficiente de curtose, que deve ser igual a 3. Graficamente falando, a curva será uniformemente distribuída em ambos os lados da média. O teste é implementado a partir do modelo de regressão estimado pelo Gretl, na janela da estimativa, no menu “Testes” e “Normalidade dos resíduos”. Os resultados são apresentados no Gráfico 8, e os resultados do teste, também apresentados pelo Gretl, estão no Quadro 10. 69 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Grifamos o resultado do teste para você compreender melhor o seu significado. Perceba que o Gretl apresenta a hipótese nula de que os resíduos têm distribuição normal. Apresenta o valor do qui-quadrado com dois graus de liberdade e o p-valor, de 0,36133. Sabemos que o p-valor é a probabilidade exata de se cometer um erro do tipo I, ou seja, rejeitar a hipótese nula quando ela é verdadeira. Nesse caso, a probabilidade de rejeitarmos a hipótese nula e ela ser verdadeira é de 36,13%. Por este motivo, nós não rejeitamos a hipótese nula e chegamos à conclusão de que os resíduos têm distribuição normal. QUADRO 10 – DISTRIBUIÇÃO DE FREQUÊNCIA PARA TESTE DE JARQUE-BERA Distribuição de frequência para uhat1, observações 1-10 número de classes = 5, média = 5,68434e-015, desvio padrão = 1,84473 intervalo < -1,8432 -1,8432 - -0,64470 -0,64470 - 0,55379 0,55379 - 1,7523 >= 1,7523 pt. médio -2,4424 -1,2439 -0,045455 1,1530 2,3515 frequência 2 2 1 3 2 rel. 20,00% 20,00% 10,00% 30,00% 20,00% acum. 20,00% ******* 40,00% ******* 50,00% *** 80,00% ********** 100,00% ******* Teste para a hipótese nula de distribuição normal: Qui-quadrado(2) = 2,036 com p-valor 0,36133 FONTE: Adaptado de Gretl (2018) Você deve estar se perguntando: Devo testar a hipótese nula em todas as minhas regressões? Não necessariamente. Apesar de ser uma hipótese importante, ela deve ser testada de fato para amostras com menos de 100 observações (GUJARATI; PORTER, 2011, p. 120). Como a distribuição normal é assintótica, pelo Teorema do Limite Central, à medida que a amostra aumenta indefinidamente, a distribuição de um estimador tende a se aproximar da distribuição normal (GUJARATI; PORTER, 2011, p. 827). 70 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS GRÁFICO 8 – TESTE DE NORMALIDADE DOS RESÍDUOS 0,3 Estatística de teste para normalidade: Qui-quadrado(2) = 2,036 [0,3613] uhat1 N(5,6843e-0,15 1,8447) 0,25 Densidade 0,2 0,15 0,1 0,05 0 -6 -4 -2 0 2 uhat1 FONTE: Adaptado de Gretl (2018) 4 6 Consideramos ainda que os estimadores de mínimos quadrados convergem para os valores verdadeiros, os quais seriam obtidos se tivéssemos acesso a todas as observações da população. Mas, como estamos trabalhando com amostras, dizemos que em amostras repetidas, em média, os parâmetros devem convergir para as médias populacionais. Isso significa que os coeficientes estimados por mínimos quadrados são não tendenciosos. Podemos testar essa afirmação usando os chamados experimentos de Monte Carlo e verificar se, em média, os valores de β̂ 2 convergem em média ao valor que estimamos. Para fazer isso, ainda dentro do arquivo que você usou para rodar a regressão, abra o console do Gretl, clicando no botão no menu - “abrir o menu console” – na parte inferior do programa. Na janela aberta, digite a sequência de comandos do Quadro 11, lembrando de substituir a vírgula por ponto. O primeiro passo é criar uma série de Yˆi, o qual é obtido com o comando “series Ys”. Na sequência é definida a quantidade de estimações repetidas que serão feitas, e neste caso são 1.000 estimações. Como Yˆi + ui, e definimos essa variável Yˆi no primeiro passo, devemos sabemos que Y= i supor que os ui~N(0,1) . Com isso obtemos o valor de Yi. Agora é só rodar a regressão por mínimos quadrados ordinários de Yi contra Xi, através do comando “ols” (de ordinary least square) e salvar os 71 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO parâmetros estimados obtidos em cada uma das 1.000 estimativas. Depois disso, ao dar o comando “endloop”, o programa encerra o experimento informando os resultados das estimativas de mínimos quadrados de Yi contra Xi, com os valores médios dos parâmetros estimados. A sequência de comandos que vem depois serve para mostrar as demais estatísticas desses parâmetros estimados, o que nos permite verificar se os resultados após 1.000 estimativas são convergentes. QUADRO 11 – EXPERIMENTO DE MONTE CARLO series Ys = -5.4303 + 1.0343*X loop 1000 --progressive --quiet Y = Ys + normal(0,1) ols Y const X scalar b1 = $coeff(const) scalar b2 = $coeff(X) scalar sig2 = $sigma^2 print b1 b2 sig2 store "@workdir\coef.gdt" b1 b2 sig2 endloop open "@workdir\coef.gdt" summary freq b2 --normal FONTE: Adaptado de Gretl (2018) O resultado do experimento pode ser sintetizado no Gráfico 9. Se os coeficientes estimados são de fato não tendenciosos, então, tomando como exemplo o β̂ 2, vamos esperar que, após 1.000 simulações, ou seja, 1.000 estimações diferentes, teremos alguns valores maiores e outros menores do que os que estimamos no nosso modelo original. Porém, em média, os valores devem convergir para 1,0343 , como pode ser visto no resultado do nosso experimento. 72 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS GRÁFICO 9 – RESULTADO DO EXPERIMENTO DE MONTE CARLO 12 Estatística de teste para normalidade: Qui-quadrado(2) = 1,024 [0,5992] b2 N(1,0343 0,036394) 10 Densidade 8 6 4 2 0 0,95 1 1,05 b2 FONTE: Adaptado de Gretl (2018) 1,1 1,15 7 OUTROS TÓPICOS RELACIONADOS AO MÉTODO DE MQO Nesta última seção da Unidade 1, conversaremos sobre banco de dados, formas funcionais e faremos uma aplicação prática para conversarmos um pouco sobre a utilização dos modelos econométricos na previsão do comportamento das variáveis explicadas. Um dos pontos mais sensíveis na análise de regressão é a base de dados. Muitos trabalhos de pesquisa alcançaram sucesso em função de ter uma boa base de dados, com variáveis bem definidas e fontes confiáveis. Da mesma forma, alguns trabalhos fracassam porque a sua base de dados é ruim, prejudicando a análise e interpretação à luz da teoria econômica subjacente. Por utilizar informações do mundo real, a economia nem sempre nos fornece aquilo de que precisamos para os nossos estudos na quantidade e na qualidade adequadas. Muitas vezes precisamos adaptar algumas variáveis, criando uma aproximação, ou proxy. Para um exemplo de variável proxy, podemos analisar a função consumo keynesiana, supondo que o consumo seja uma função da renda e da riqueza da pessoa. Como fazemos para medir a riqueza? Essa é uma variável para a qual não há uma definição de consenso na literatura econômica. Podemos medir, por exemplo, 73 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO pelo volume de dinheiro aplicado no mercado financeiro. Outra forma seria pela conta de luz, supondo que quanto mais rica for uma família, mais energia elétrica ela irá consumir, tendo em vista que terá em sua residência uma quantidade maior de aparelhos elétricos e eletrônicos em comparação com pessoas menos ricas. Essas maneiras diferentes de medir a riqueza são aquilo que chamamos de variáveis proxy. Não é a riqueza em si, mas algo plausível e próximo o suficiente da verdadeira variável a ponto de conseguirmos extrair um resultado confiável do nosso modelo econométrico. Aqui fica um alerta em relação às variáveis proxy, que serve também para as demais. Se você não especificar corretamente as variáveis que entram no modelo de regressão, poderá gerar um viés de especificação. Com isso, os estimadores de mínimos quadrados perdem algumas das suas características, tais como a ausência de viés e a consistência, pois geram resíduos correlacionados ou com a variável dependente, ou com a explicativa. Em um estudo sobre o endividamento das famílias e a sua renda, que requeira a aplicação de um questionário, pode ter alguns entrevistados que se recusem a fornecer determinadas informações. Isso gera um problema de ausência ou omissão de informação. A solução para esse tipo de problema envolve a aplicação de certas técnicas estatísticas. Por exemplo, em uma situação com uma amostra contendo 40 observações, em que temos duas variáveis, Y e X, sendo que para Y, a variável dependente, temos apenas as 38 observações, enquanto para X temos todas as 40 observações. Há três possibilidades de solução nesse caso hipotético. Como você tem uma base de dados consideravelmente grande, com mais de 20 graus de liberdade, seria possível eliminar as duas observações de X que não formam par com as de Y, resolvendo assim o nosso problema. Claro que com isso você tem a perda de dois graus de liberdade por reduzir o tamanho da amostra, mas mesmo assim, o custo é compensado pela possiblidade de se chegar a resultados consistentes. A segunda alternativa é preencher essa lacuna com uma previsão para os valores faltantes. Nesse caso, você estima a regressão para as 38 observações que estão completas e emprega o modelo de regressão estimado para prever os dois dados faltantes. Esse é outro procedimento simples de se empregar e garante um resultado confiável, além de manter os graus de liberdade que você perderia ao eliminar duas observações. A terceira consiste na imputação de valores através da média das observações anteriores de Y. Porém, essa técnica seria melhor empregada se os dados ausentes não forem contíguos. Dessa forma, temos condições de gerar estimadores não tendenciosos dos parâmetros de regressão. 74 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS Algumas vezes não temos dificuldade em especificar as nossas variáveis. Elas são muito claras e até a coleta de dados é bem tranquila no sentido de serem facilmente encontradas. Você faz a coleta, monta a sua regressão, mas descobre que uma ou algumas poucas observações destoam das demais. Em um gráfico, nós visualizaríamos como aquele ponto que destoa ou que é discrepante em relação aos demais, como na Figura 14. Perceba que o volume de câmbio contratado vinha em uma trajetória mais ou menos bem-comportada. Ele passa de US$ 2.018 milhões em março/2013 para US$ 6.672 milhões em abril/2013, e mais do que dobra em maio, com US$ 14.098 milhões. O termo técnico para isso é outlier, e no nosso dia a dia estamos acostumados a ouvir a expressão “ponto fora da curva”. É exatamente isso que significa, ou seja, ele destoa dos demais pontos por motivos que precisam ser bem estudados, pois apresentam uma discrepância em relação ao comportamento dos demais dados da série. Neste caso, precisamos entender o motivo pelo qual houve essa mudança brusca no valor. Precisamos verificar estatisticamente se esse dado precisa ser suavizado, através de médias móveis ou a aplicação de algum filtro estatístico, ou ainda se é necessário excluí-lo da amostra. FIGURA 14 – CÂMBIO COMERCIAL CONTRATADO EM US$ (MILHÕES) FONTE: <www.ipeadata.gov.br>. Acesso em: 22 ago. 2018. Essa atitude extrema, de excluir essa informação da amostra, poderá causar um problema maior do que se a mantivermos na nossa base de dados. Talvez essa seja uma grande oportunidade que se revela durante um estudo empírico. O pesquisador vem preparado para investigar um fenômeno e acaba esbarrando, quase sem querer, em outro que requer a máxima atenção. Há outras possiblidades, que dependem de qual é a variável em estudo e de como ela foi obtida. Talvez o método empregado em sua coleta ou na sua transformação apresenta falhas, bastando apenas corrigir esses erros e continuar o trabalho. Enfim, tudo dependerá da natureza desse fenômeno e de sua capacidade em influenciar os parâmetros do nosso modelo de regressão. 75 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Outra questão que requer a nossa atenção diz respeito às formas funcionais dos modelos de regressão. A primeira hipótese do modelo clássico de regressão linear estabelece uma relação linear entre a variável dependente e a explicativa. Mas de que tipo de linearidade estamos falando? Quando falamos em linearidade nos modelos de regressão, nos referimos sempre aos parâmetros e não às variáveis. Isso significa que um modelo como o da equação 3.59 é linear no sentido que buscamos e que atende às hipóteses do modelo clássico: Yi = β1 + β2Xi + β3Xi2 + ui 3.59 Por outro lado, um modelo com o formato da equação 3.60 ou 3.61 não é considerado linear: β 2 X +u β Y =+ 1 β i i i 3 3.60 Yi = β1 + β22Xi + ui 3.61 Isso nos permite formular o seguinte conceito relativo à linearidade: um modelo de regressão é considerado linear nos parâmetros e, portanto, atende às exigências do modelo clássico de regressão linear, se nenhum dos seus parâmetros estiver sendo multiplicado por outro parâmetro ou estiver sendo elevado a uma potência diferente de 1. Assim, uma equação que contenha variáveis elevadas a determinada potenciação, divididas ou ainda multiplicadas por outra variável, ainda assim pode ser considerada linear (nos parâmetros) se os coeficientes não forem elevados a potência diferente de 1, não estiverem sendo multiplicadas ou divididas por outros coeficientes. Os gráficos 10 e 11 trazem a representação de duas funções que, apesar da aparência, são lineares nos parâmetros, apesar de não o serem nas variáveis: 76 TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS GRÁFICO 10 – EXEMPLO DE FUNÇÃO QUADRÁTICA COM Y = α + bX + cX2 FONTE: O autor Note que no Gráfico 10 os dados se ajustam perfeitamente ao desenho dessa função. É por esse motivo que o primeiro passo em um estudo empírico deve passar obrigatoriamente pela plotagem do gráfico de dispersão, com o objetivo de verificar qual o desenho que lhe é apresentado. Somente depois disso é que você elabora o modelo matemático que melhor se ajusta aos dados e, posteriormente, o seu modelo de regressão. O mesmo vale para o Gráfico 11: GRÁFICO 11 – EXEMPLO DE FUNÇÃO CÚBICA COM Y = a + bX + cX2 + dX3 FONTE: O autor Isso nos faz lembrar que não precisamos nos prender ao tradicional Y = a + bX + u para rodarmos um estudo econométrico. Outras formas, por exemplo, uma função de produção do tipo Cobb-Douglas, podem ser usadas. Neste caso é preciso transformar o modelo a fim de torná-lo linear, como mostram as equações 3.62 e 3.63: 77 UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO Yi = β1 X2βi2 X3βi3 e ui 3.62 A equação 3.62 não é linear, por isso precisa ser transformada. Essa transformação ocorre quando empregamos logaritmos: LnYi = β1 + β 2 LnX2 i + β 3 LnX3 i + ui 3.63 Em que β1 = Lnβ1. Agora obtemos a linearidade nos parâmetros e mesmo que as variáveis não sejam lineares, ainda assim é possível empregar o método de mínimos quadrados ordinários. Os logaritmos são um artifício amplamente utilizado em análise de regressão, como teremos a oportunidade de estudar mais adiante neste manual. Entre as vantagens está o fato de que ele comprime os dados e, como veremos, nos ajuda a melhorar a estimação do nosso modelo econométrico. Outra vantagem é que no caso do modelo 3.63, o parâmetro estimado β̂ 2 nos dá a elasticidade de Y em relação a X, o que é muito útil em estudos de microeconomia e economia monetária. Há ainda outros casos específicos em que os modelos precisam ter logaritmos. Além da análise de elasticidade, podemos precisar obter variações percentuais ou estimativas de crescimento entre outras aplicações. DICAS Ao longo de todo o nosso estudo teremos a oportunidade de voltar a esse assunto, mas se você quiser se aprofundar, sugerimos a leitura do Capítulo 6 do livro: • GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. 78 RESUMO DO TÓPICO 3 Neste tópico, você aprendeu que: • Utilizando técnicas de amostragem é possível inferir sobre uma determinada população de dados através da estimação de uma função de regressão amostral. • A estimação da função de regressão amostral é feita através do método dos mínimos quadrados ordinários, que busca a minimização da soma dos quadrados dos resíduos através da escolha dos parâmetros beta que melhor se ajustam aos dados obtidos para as variáveis. • Os testes estatísticos são suportados pela hipótese de que os erros têm distribuição normal, e devido ao teorema de Gauss-Markov é possível verificar que os estimadores de mínimos quadrados, dentre a classe dos estimadores não tendenciosos, são os melhores estimadores para os parâmetros da regressão. • Usando a estatística t, nós podemos construir intervalos de confiança e testar hipóteses acerca dos coeficientes estimados. • Podemos construir testes de hipótese e buscar minimizar a probabilidade de cometer o erro do tipo I, que consiste em rejeitar uma hipótese nula quando ela é verdadeira. • Podemos usar o Gretl para estimar a regressão, aplicar os testes estatísticos e interpretar os resultados obtidos. • A base de dados de uma pesquisa está estritamente relacionada ao sucesso ou ao fracasso de uma investigação empírica. 79 AUTOATIVIDADE Foram coletados dados mensais do retorno de algumas ações selecionadas do índice da bolsa BM&F Bovespa. A variável VALE se refere ao retorno do papel Vale3, da empresa Vale S.A., BBAS se refere ao papel BBAS3, do Banco do Brasil S.A., PETR representa o papel PETR4, da Petrobras S.A. e IBOV o índice de ações da BM&F Bovespa. Os dados são mensais, referentes ao período de janeiro de 2016 a dezembro de 2017, totalizando 24 meses e obtidos acessando o site <https://br.financas.yahoo.com/>. Lembre-se de que, por se tratar de séries temporais, você deve dar o devido tratamento no Gretl. Em outras palavras, ao importar os dados, você deve informar que se trata de dados de série temporal, com frequência mensal iniciando em janeiro de 2016. QUADRO 12 – RETORNO DA VALE E DO IBOV Período 2016 VALE BBAS PETR IBOV janeiro -0,2540 -0,0604 -0,1914 -0,0679 fevereiro 0,2150 -0,0224 0,0606 0,0591 março 0,2828 0,4601 0,4463 0,1697 abril 0,2997 0,1184 0,2484 0,0770 maio -0,2778 -0,2551 -0,2329 -0,1009 junho 0,1442 0,0431 0,1306 0,0630 julho 0,1371 0,2253 0,2172 0,1122 agosto -0,0843 0,1026 0,0521 0,0103 setembro 0,0514 -0,0177 0,0271 0,0080 outubro 0,2398 0,2846 0,2312 0,1124 novembro 0,2708 -0,0270 -0,0091 -0,0465 dezembro -0,0848 -0,0144 -0,0828 -0,0271 Período 2017 VALE BBAS PETR IBOV janeiro 0,2531 0,1075 -0,0443 0,0738 fevereiro 0,0168 0,0640 -0,0142 0,0308 março -0,0895 0,0202 -0,0508 -0,0252 abril -0,0779 -0,0272 -0,0521 0,0064 maio -0,0109 -0,1373 -0,0515 -0,0412 junho 0,0674 -0,0543 -0,0308 0,0030 julho 0,0793 0,0709 0,0455 0,0480 agosto 0,1208 0,0697 0,0123 0,0746 setembro -0,0915 0,1368 0,1317 0,0488 outubro 0,0072 -0,0132 0,1018 0,0002 novembro 0,0947 -0,1310 -0,0844 -0,0242 dezembro 0,1457 0,0631 0,0602 0,0536 FONTE: Adaptado de <https://br.financas.yahoo.com/>. Acesso em: 22 ago. 2018. 80 Com base nos dados do quadro, responda ao que se pede: 1 Estime os seguintes modelos de regressão, preenchendo o quadro abaixo com quatro casas decimais. Ao lado do p-valor indique: *, ** e *** para os parâmetros que são estatisticamente significativos ao nível de 10%, 5% e 1%, respectivamente. Caso o parâmetro não seja estatisticamente significativo, deixe sem asteriscos: Modelo 1 → Valet = β1 + β2Ibovt + ut Modelo 2 → BBASt = β1 + β2Ibovt + ut Modelo 3 → PETRt = β1 + β2Ibovt + ut Parâmetro Modelo 1 Modelo 2 Modelo 3 β1 Razão t p – valor β2 Razão t p – valor r2 2 Com relação aos modelos estimados na Questão 1, qual deles explica melhor a variável dependente? Justifique a sua resposta. 3 Analisando os parâmetros β̂ 2 de cada modelo, qual papel é mais sensível a mudanças no índice Ibov? Justifique a sua resposta. 4 No Gretl, selecione, a partir do menu “Ver”, a opção “Gráfico das variáveis”. Na sequência, escolha a opção “Série temporal”. Selecione todas as variáveis para gerar um gráfico e reproduza-o fazendo comentários sobre o resultado dos modelos estimados e o gráfico gerado. 81 UNIDADE 2 | 82 TÓPICO 1 | UNIDADE 2 REGRESSÃO MÚLTIPLA OBJETIVOS DE APRENDIZAGEM A partir do estudo desta unidade, você deverá ser capaz de: • redefinir o modelo econométrico desenvolvido na Unidade 1, com a inclusão de múltiplas variáveis explicativas; • estimar o modelo e analisar os resultados comparando-os com o que foi obtido nos modelos de regressão simples; • resumir os resultados de ambos os modelos, avaliar, criticar e escolher qual modelo deve ser utilizado para fins de controle e previsão; • incorporar aos modelos de regressão as variáveis que não podem ser mensuradas quantitativamente, como sexo, religião, localização geográfica, classe social etc., conhecidas como variáveis qualitativas ou binárias; • categorizar estas novas variáveis distinguindo a sua aplicabilidade prática. PLANO DE ESTUDOS Esta unidade está dividida em três tópicos. No decorrer da unidade, você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado. TÓPICO 1 – O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL TÓPICO 2 – ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS TÓPICO 3 – USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS 83 UNIDADE 2 | REGRESSÃO MÚLTIPLA 84 TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL TÓPICO 1 UNIDADE 2 O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL 1 INTRODUÇÃO Na Unidade 1, fomos apresentados à análise de regressão através do modelo linear simples. Na Unidade 2, veremos que esse tipo de modelo, com apenas uma variável explicativa, nem sempre consegue explicar de forma completa as alterações na variável dependente, porque não estamos considerando outros fatores que são igualmente importantes. Dito de outra forma, tornamos nosso modelo tão simples que acabamos ignorando a influência de certas variáveis que são imprescindíveis na explicação do fenômeno em estudo. Para entender melhor a necessidade e a vantagem de se usar modelos de regressão múltiplos, considere um exemplo hipotético sobre a formação de preços da gasolina por parte de uma determinada refinaria. Qual é a variável que afeta o preço escolhido pela petrolífera? forma: Poderíamos montar uma função para explicar essa decisão da seguinte P = f(E) + ε 1.1 Em que P é o preço da gasolina na refinaria, E é a taxa de câmbio definida como a quantidade de R$ necessário para comprar US$ 1,00, e ε o termo de erro. Note que esse modelo consegue explicar de alguma forma as oscilações no preço da gasolina e, pensando bem, como a gasolina é derivada do petróleo, que é um tipo de bem que tem cotação em dólar, faz sentido alterar o seu preço em razão da flutuação no mercado de câmbio. A dúvida que fica é se essa variável é suficiente para determinar o comportamento do preço desse combustível. Podemos pensar em uma série de outras variáveis capazes de exercer essa influência, tais como o preço de bens substitutos (álcool, por exemplo), o preço de carros novos ou de carros usados, e ainda a cotação do barril do petróleo no mercado externo. Se modificássemos o modelo para incluir essa última variável, teríamos: 85 UNIDADE 2 | REGRESSÃO MÚLTIPLA P = f(E,B) + ε 1.2 As variáveis permanecem as mesmas do modelo 1.1, tendo apenas a inclusão de β, a cotação internacional do barril do petróleo. Se trabalhássemos em uma transportadora e estivéssemos elaborando o planejamento da empresa para o próximo ano, certamente o preço da gasolina seria determinante para o nosso direcionamento estratégico. Qual dos dois modelos você considera que poderia fornecer uma estimativa mais próxima ou mais assertiva do preço da gasolina? Certamente o modelo 1.2 é o mais completo, porque agrega mais variáveis explicativas do que o modelo 1.1, mas como veremos mais adiante, nem sempre acrescentar novas variáveis torna o modelo melhor. Há que se cuidar com o viés da especificação do modelo ou, como se diz na gastronomia, às vezes “menos é mais”! Mesmo assim, o fato de termos mais variáveis relevantes melhora a nossa capacidade de explicar a variável dependente, ou a nossa capacidade de previsão, o que nos leva a aceitar essa justificativa para a utilização de modelos com múltiplas variáveis exógenas. Para avançarmos em nosso estudo, precisaremos recorrer a uma ferramenta matemática que tornará nosso entendimento mais intuitivo. Trata-se da álgebra matricial, que além de facilitar a compreensão da parte econométrica, tem como argumento a seu favor o fato de que é a linguagem universal empregada pelos econometristas modernos no desenvolvimento e apresentação dos resultados das suas pesquisas empíricas. Por isso, o estudo das unidades 2 e 3, em sua maior parte, se dará com o uso de matrizes e todas as técnicas inerentes a elas, mas não se preocupe se você não domina a álgebra matricial, na verdade você deve apenas estar familiarizado com os conceitos importantes, tais como multiplicação de matrizes, determinantes, inversão, entre outros. O fato de conhecer esses conceitos facilitará a sua compreensão e, caso tenha dificuldade em lembrar, sugerimos começar pela autoatividade desse tópico, pois lá consta uma ligeira revisão daqueles pontos que são mais importantes e dos quais você deve ter um certo conhecimento antes de avançar nesse conteúdo. 86 TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL DICAS Além da autoatividade, se preferir, você pode fazer uma leitura rápida nos apêndices dos manuais de econometria, de Gujarati e Porter (2011), ou no material extra do Wooldridge (2016), disponível gratuitamente na internet, porém, se você se sente seguro para ir adiante, pode dispensar essa rápida revisão. • GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. – Edição do Kindle. • WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. 6. ed. São Paulo: Cengage Learning, 2016. 848 p. 2 O MODELO DE REGRESSÃO LINEAR GERAL EM FORMA MATRICIAL O modelo de regressão linear com múltiplas variáveis explicativas parte do princípio de que existe uma relação entre uma variável dependente, representada por Yi, e diversas outras variáveis que são capazes de explicá-la, as quais representamos por Xi. Em que i = 1, 2, ..., k, o que significa que temos X1, X2, ..., Xk variáveis explicativas. Poderíamos desenvolver toda a análise usando a álgebra tradicional. Ela se encaixaria facilmente para duas variáveis explicativas, ou seja, X1 e X2, mas quanto mais variáveis X fôssemos acrescentando, o entendimento deixaria de ser intuitivo e passaria a ser cada vez mais complexo. O emprego de álgebra matricial nos permite analisar tanto os modelos simples, como vimos na Unidade 1, quanto os modelos complexos, com 10 regressores, por exemplo, ou mais. Vamos começar supondo que você está trabalhando no estudo sobre a remuneração de um grupo específico de profissionais, em que diversos fatores são considerados para estabelecer o salário no momento da contratação. A equação 1.3 nos dá uma dessas possiblidades: Salárioi = β1 + β2 Educaçãoi + εi 1.3 Em que Salárioi é a remuneração recebida pelas pessoas em uma amostra, Educaçãoi é o tempo de educação formal que o profissional teve em sua vida e ε1 é o termo de erro, usado para capturar as demais variáveis que influenciam na remuneração, mas que não estamos considerando nesse modelo por acreditarmos que sua influência conjunta seja muito pequena. 87 UNIDADE 2 | REGRESSÃO MÚLTIPLA Sabemos que a educação é importante na composição dos salários, que quanto maior o nível de instrução de uma pessoa, maior tenderá a ser a sua remuneração. Porém, há diversos fatores que não podem ser desprezados sob o risco de cometermos um erro crucial. Trata-se da omissão de variáveis explicativas. Neste caso, sabemos que o tempo de experiência profissional também entra na composição do salário. Esperamos que profissionais experientes tenham uma remuneração maior do que os que estão entrando agora no mercado de trabalho. Afinal, a experiência profissional deve valer de alguma coisa, não é mesmo? A fluência em outras línguas também ajuda a melhorar a renda e esperamos que um profissional que fale várias línguas estrangeiras tenha um salário maior do que aquele que fala apenas o português. Vamos reescrever 1.3 da seguinte forma: Salárioi = β1 + β2Educaçãoi + β3Experiênciai + β4Idiomasi + εi 1.4 Agora temos uma variável dependente sendo explicada por três variáveis exógenas. A dúvida é: Como estimamos os coeficientes em um modelo como esse? Nos modelos 1.3 e 1.4 usamos o subscrito i para indicar que se tratam de indivíduos, ou seja, o salário de João, Paulo, Marcia etc., é explicado pelo tempo de estudos de João, Paulo, Marcia etc., mais o tempo que João, Paulo, Marcia etc. atuam no mercado, e mais ainda, quantos idiomas cada um deles fala. Podemos montar uma equação para cada indivíduo da seguinte forma: SalárioJoão = β1 + β2EducaçãoJoão + β3ExperiênciaJoão + β4IdiomasJoão + εJoão SalárioPaulo = β1 + β2EducaçãoPaulo + β3ExperiênciaPaulo + β4IdiomasPaulo + εPaulo SalárioMarcia = β1 + β2EducaçãoMarcia + β3ExperiênciaMarcia + β4IdiomasMarcia + εMarcia ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... Salárioi = β1 + β2Educaçãoi + β3Experiênciai + β4Idiomasi + εi 1.5 Podemos resumir 1.5 como: Yi = β1 + β2X2i + β3X3i + β4X4i + ... BkXki + εi 1.6 O formato desse modelo 1.6, nós já conhecemos. Estamos habituados a ele e nos sentimos muito confortáveis ao fazer a sua leitura. Há, no entanto, outra forma de escrever 1.6, mas para isso teremos que ampliar a nossa zona de conforto e pensar em empilhar os dados, colocando um embaixo do outro. Isso pode ser visto em 1.7: 88 TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL Y1 Y2 Y3 Y n y n×1 1 1 1 1 X21 X22 X23 X2 n X31 X32 X33 X3 n … … … … Xk 1 Xk 2 Xk 3 X kn X n× k β1 ε 1 β2 ε 2 β 3 + ε 3 β ε k n β ε + k ×1 n×1 1.7 Em que y é um vetor coluna n x 1 de observações da variável dependente, X é a matriz n x k de variáveis explicativas, ou seja, X21 se refere aos anos de educação formal de João, X31 se refere ao tempo de experiência de João, X22 é o tempo de educação formal de Paulo, X23 o tempo de experiência de Paulo, e assim sucessivamente. β representa o vetor coluna k x 1 dos parâmetros do modelo e ε é o vetor coluna n x 1 dos termos de erro. Acadêmico, duas coisas serão destacadas. Primeiro é que a amostra vai até n observações, e segundo, a primeira coluna de X é composta por números 1 porque é a partir dela que se calcula o intercepto da regressão, ou seja, o β1. Com isso, as colunas representam vetores de n observações de cada variável explicativa. De forma compacta, reescrevemos 1.7 como: y = Xβ + ε 1.8 Em que X tem posto de coluna = (k), que é menor do que o número de observações n, e ε é idêntica e individualmente distribuído com média 0 e variância σ2I , ou seja, ε~iid(0, σ2I) , como veremos mais adiante. Uma matriz com posto de coluna = (k), em que k é o número de colunas da matriz, significa que essas colunas são independentes, no sentido de que uma não é exatamente colinear a outra. Em econometria, como veremos nas hipóteses do modelo, é chamado de full rank. 3 HIPÓTESES DO MODELO Da mesma forma que no modelo de regressão linear simples, o modelo de regressão múltiplo se sustenta sob determinadas hipóteses, que veremos agora, baseado em Greene (2012), e que é uma extensão do que foi visto na Unidade 1. 89 UNIDADE 2 | REGRESSÃO MÚLTIPLA a) Hipótese 1 O modelo de regressão é linear nos parâmetros – considere um modelo econométrico com k variáveis explicativas e n observações. Usaremos as letras minúsculas em negrito para representar cada coluna ou linha de uma matriz de variáveis e as letras maiúsculas em negrito para representar as respectivas matrizes ou vetores. Assim, a Hipótese 1 afirma que existe uma relação linear entre cada variável dependente yi e as variáveis explicativas x1, x2, ..., Xk, de modo que: y = x1β1 + x2β2 + ... + xkβk + ε 1.9 Em que ε representa o termo de erro, e de forma convencional, representamos 1.9 como: y = Xβ + ε 1.10 Em um modelo de regressão simples, com apenas uma variável explicativa, a matriz X é formada por apenas duas colunas, sendo a primeira formada por 1, representando o intercepto β1, e a segunda coluna representa a variável explicativa. Em um modelo de regressão múltiplo, ela tem a forma apresentada em 1.7. a) Hipótese 2 A média condicional do termo de erro é zero – essa hipótese implica que as variáveis independentes são exógenas: E[εi|xj1, xj2, ..., xjk] = 0 1.11 Pode ser escrita de forma geral como E[ε|X] = 0, o que significa que as variáveis independentes X não são capazes de prever o termo de erro ε. Há três implicações para essa hipótese: 1. A média incondicional do termo de erro é zero: E[εi] = 0 . 2. A covariância entre o termo de erro e a variável independente é zero: Cov[εi,xi] = 0. 3. A média condicional de y é dada por: E[y|X] = Xβ . 90 TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL a) Hipótese 3 Não há correlação ou colinearidade perfeita entre as variáveis explicativas X – essa hipótese implica que a matriz X, de variáveis explicativas, tem posto de coluna completo (full rank) ou, dito de outra forma, as colunas da matriz X são independentes. Veremos adiante que para obtermos os estimadores de mínimos quadrados ordinários, haverá uma multiplicação entre a matriz X e sua transposta X'. Essa multiplicação é importante para obtermos os estimadores dos parâmetros, e para isso, o resultado X'X tem que ser inversível. Para invertermos uma matriz é necessário obter o determinante, e se a matriz X não tiver posto completo, ou seja, se matriz n x k não tiver posto k, não será possível calcular esse determinante e, consequentemente, obter as estimativas dos coeficientes de mínimos quadrados. Greene (2012, p. 59) apresenta no exemplo 2.5 de seu livro um caso em que o posto de coluna não é completo. Para isso ele descreve uma função consumo como: C = β1 + β2outrasrendas + β3salário + β4rendatotal + ε 1.12 Não é difícil perceber que a renda total é formada pela soma do salário e de outras rendas. Neste caso, há uma correlação perfeita ou colinearidade perfeita entre as variáveis explicativas. Outro ponto que deve ser ressaltado é que o número de observações deve ser maior do que o número de coeficientes a serem estimados na regressão. Se tivermos uma amostra com 10 observações, por exemplo, e 11 coeficientes a serem estimados, logicamente a matriz X, n x k, terá posto < k, violando a Hipótese 3. a) Hipótese 4 Os erros são homoscedásticos e não são correlacionados – algumas vezes ouviremos a expressão “disturbâncias esféricas” para essa hipótese. Para compreender melhor, considere que: Var[εi|X] = σ2 1.13 Cov[εi, εj|X] = 0 1.14 Para todo i = 1, 2, ..., n e i ≠ j. 91 UNIDADE 2 | REGRESSÃO MÚLTIPLA Pela equação 1.13 a distribuição de probabilidade de cada termo de erro é um número constante, e por 1.14, que é válido no caso dados de séries temporais, vemos que os termos não são correlacionados, ou seja, não há correlação serial dos resíduos. Na Unidade 3, teremos um tópico específico para analisar a Hipótese 3, e dois tópicos para entendermos as implicações da violação da Hipótese 4, ou seja, a heteroscedasticidade e a autocorrelação. Em síntese, buscamos modelos capazes de gerar resíduos homoscedásticos, ou seja, com a mesma distribuição de probabilidade dos termos de erro e não correlacionados. Isso pode ser visto através da matriz de variância-covariância: E ε 1ε 1 |X E ε 1ε 2 |X E ε ε |X E ε 2ε 2 |X E εε ′|X = 2 1 E ε nε 1 |X E ε nε 2 |X E εε ′|X E ε 1ε n |X … E ε 2ε n |X E ε nε n |X Var ε 1 |X Cov ε 1ε 2 |X Cov ε 1ε n |X Cov ε 2ε 1 |X Var ε 2ε 2 |X … Cov ε 2ε n |X = Cov ε nε 1 |X cov ε nε 2 |X Var ε nε n |X 1.15 σ 2 0 2 0 σ 0 0 0 … 0 1.16 σ 2 O termo σ2 é um escalar, ou seja, uma constante, e pelas propriedades da multiplicação de matrizes, podemos representar 1.16 como: E[εε'|X] = σ2I 1.17 Em 1.16 notamos que em função de 1.13 a diagonal principal representa a variância do erro, que é igual a σ2 para cada termo, ou seja, um valor constante. Podemos ver ainda que nas demais posições temos 1.14, ou a covariância entre os termos de erro distintos, que por definição é zero, demonstrando ausência de autocorrelação. a) Hipótese 5 A matriz X é não estocástica – em amostras repetidas, os valores de X são fixados. Obviamente não estamos dizendo que os valores de X não se alteram ao longo de uma amostra. O que queremos dizer é que se tirarmos 100 amostras, teremos em todas os mesmos valores de X, os quais são diferentes uns dos outros dentro da amostra. 92 TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL Essa variabilidade é crucial para podermos estimar os coeficientes por mínimos quadrados ordinários. b) Hipótese 6 O vetor de erros ε tem distribuição normal, com média zero e variância constante: ε|X~N[0, σ2I] 1.18 Vale dizer ainda que se a intenção é apenas uma estimativa pontual dos coeficientes, as hipóteses de 1 a 5 são suficientes. No entanto, como precisamos aferir o modelo aplicando a inferência estatística, a hipótese 6 é fundamental. Como vimos na Unidade 1, a hipótese de normalidade é o pressuposto básico para podermos calcular intervalos de confiança, fazer testes de hipótese, utilizar o modelo para previsão, entre outras aplicações. 93 RESUMO DO TÓPICO 1 Neste tópico, você aprendeu que: • O modelo de regressão apresentado na Unidade 1, contendo apenas uma variável explicativa, pode ser reescrito de forma a conter múltiplos regressores. • Devido às complicações algébricas para se apresentar um modelo de regressão múltiplo da forma tradicional, ao apresentar esse modelo na forma matricial, podemos visualizar de forma mais intuitiva a relação entre as variáveis. • As hipóteses do modelo de regressão múltiplo na forma matricial são expressas como: a) Hipótese 1 – O modelo de regressão y = Xβ + ε é linear nos parâmetros. b) Hipótese 2 – A média condicional do termo de erro é zero. c) Hipótese 3 – Não há correlação ou colinearidade perfeita entre as variáveis explicativas X. d) Hipótese 4 – Os erros são homoscedásticos e não são correlacionados. e) Hipótese 5 – A matriz X é não estocástica; em amostras repetidas, os valores de X são fixados. f) Hipótese 6 – O vetor de erros ε tem distribuição normal, com média zero e variância constante ε|X~N[0, σ2I]. 94 AUTOATIVIDADE Como introduzimos o modelo de regressão na forma matricial, talvez você não esteja bem à vontade com essa linguagem. Antes de mais nada, é importante lembrar que não esperamos que você tenha domínio total e completo de todas as particularidades envolvendo operações matriciais. O mais importante neste momento é que você tenha uma noção e que isso lhe permita entender de forma intuitiva a análise de regressão, na forma como está aprendendo nesse livro de estudos, e na forma como os modernos econometristas usam. Por esse motivo, as autoatividades a seguir têm por objetivo fazer uma revisão de matrizes e álgebra matricial, nas quais você poderá exercitar alguns dos conceitos mais importantes. 1 Sabemos que uma matriz nada mais é do que um arranjo retangular de números distribuídos em n linhas e k colunas. Assim, uma matriz A, de ordem n x k, pode ser representada por: a11 a A = 21 an1 a12 a22 an 2 a1k a2 k ank aij ( i =1, 2 ,… ,n; j =1, 2 ,… ,k ) são elementos de A, m x n é a dimensão da matriz. As matrizes de modo geral têm algumas características importantes. Por exemplo, uma matriz n x 1 é chamada de vetor coluna e uma matriz 1 x k é chamada de vetor linha. Se o número de linhas é igual ao número de colunas, temos uma matriz quadrada. Quando todos os elementos fora da diagonal principal de uma matriz quadrada forem iguais a zero, temos a chamada matriz diagonal. Ela é semelhante à matriz identidade, também conhecida como matriz unitária, cujos elementos da diagonal principal são todos iguais a 1 e os elementos fora dessa diagonal são iguais a zero. Considere as seguintes matrizes a seguir, relacionando-as com as respectivas definições: 95 3 5 A= 7 9 B = 10 20 30 40 ( ( ( ( ( 5 6 C= 9 12 1 0 0 D = 0 5 0 0 0 6 ) Matriz Quadrada ) Matriz Identidade ) Vetor Coluna ) Matriz Diagonal ) Vetor Linha 1 0 0 E = 0 1 0 0 0 1 2 A soma de duas matrizes se dá elemento a elemento, ou seja, A + B = [aij + bij]. Assim, em uma matriz quadrada de ordem 2 x 2, temos: a = A + B 11 a21 a12 b11 b12 a11 + b11 + = a22 b21 b22 a21 + b21 a12 + b12 a22 + b22 1 3 2 4 Considere a matriz A = e a matriz B = . Determine A + B. 6 8 5 7 3 Na linguagem matricial, dizemos que um escalar é um número, uma constante. Uma constante multiplicada por uma matriz resulta em uma nova matriz, cujos elementos são o resultado da multiplicação do escalar por cada elemento da matriz original: δA = [δaij]. Por outro lado, se tivermos duas matrizes, só poderemos multiplicá-las se o número de colunas da primeira for igual ao número de linhas da segunda. Dito de outra forma, uma matriz n x k só pode ser multiplicada por outra matriz de ordem k x m. O resultado dessa multiplicação é uma matriz de ordem n x m, ou seja, terá o número de linhas da primeira matriz e o número de colunas da segunda matriz. A multiplicação, por sua vez, se dá na forma AB = ∑ n a b . Assim, seja k =1 ik kj 1 3 2 4 9 A= e B = 5 7 , determine C = AB. Depois, sendo δ = 2, um escalar, 6 8 0 8 0 obtenha D = δC. 96 4 A transposição de uma matriz é outro elemento importante na análise de regressão para a determinação dos parâmetros β. Transpor uma matriz qualquer nada mais é do que trocar as linhas por colunas e vice e versa. 5 10 Assim, se A = [aij], A' = [aij] . Considere a seguinte matriz A = 15 20 e 25 30 obtenha a transposta de A. 5 O determinante de uma matriz A, representado por det A, ou |A|, é um número ou escalar, que é obtido de uma matriz quadrada. São várias as técnicas para se obter o determinante de uma matriz, como por exemplo o método de Sarrus para matrizes de ordem até 3 x 3, o teorema de Laplace para matrizes de ordem superior a 3 x 3 , mas que pode ser empregado em matrizes quadradas de qualquer ordem. Há ainda o teorema de Leibniz, cálculo por triangulação entre outras técnicas. O importante é que você empregue a técnica que melhor se adapte ao seu estilo. Aqui faremos a demonstração do teorema de Laplace, calculando o determinante da matriz 2 4 6 A = 8 10 1 . Começamos obtendo o menor dos elementos da primeira 3 5 7 linha, denotado por |Mij|, dado pelo determinante da submatriz resultante da eliminação da i – ésima linha e da j – ésima coluna. Assim, na primeira linha temos: M11 = 8 1 8 10 10 1 , M12 = , M13 = . O determinante é 3 7 3 5 5 7 ∑ aij ( −1) calculado por det A = det A = 2 × ( −1) 1+ 1 i+ j M ij : 10 1 1 10 1+ 2 8 1+ 3 8 + 4 × ( −1) + 6 × ( −1) 5 7 3 7 3 5 det A = 2 × ( 70 − 5 ) − 4 × ( 56 − 3 ) + 6 × ( 40 − 30 ) det A = 130 − 212 + 60 det A = −22 0 1 2 Como exercício, obtenha o determinante de B = 3 6 0 . 1 4 1 6 O último conceito que precisamos revisitar é o de inversão de matrizes, que só é possível no caso de uma matriz quadrada não singular, ou seja, cujo determinante é diferente de zero. Matrizes singulares, ou com determinante igual a zero, não são passíveis de inversão. Para inverter uma matriz, devemos começar obtendo o menor dos elementos aij, como na questão 5, 97 mas nela nós obtivemos apenas para a primeira linha. Agora teremos que 2 4 6 obter para todas as linhas da matriz A = 8 10 1 . 3 5 7 Assim, na primeira linha temos: M11 = Na segunda linha temos: M 21 = Na terceira linha temos: M 31 = 8 10 10 1 8 1 , M12 = , M13 = . 3 5 5 7 3 7 2 6 2 4 4 6 , M 22 = , M 23 = . 3 7 3 5 5 7 2 4 4 6 2 6 , M 32 = , M 33 = . 10 1 8 10 8 1 Com esses resultados devemos construir uma matriz de Cofatores, dada por cij = (–1)i+j|Mij|. Dito de outra forma, trata-se de uma matriz composta por menores com sinal trocado quando i + j é ímpar: ( −1)1+1 M 11 c11 c12 c13 2 1 + Cof A = M 21 −1 c21 c22 c23 = ( ) 3 +1 c31 c32 c33 −1 M 31 ( ) 2 10 ( −1) 5 3 4 ( −1) Cof A = 5 −1 4 4 ( ) 10 1 7 ( −1) 3 6 7 ( −1) 4 6 1 ( −1) 5 8 1 3 7 2 6 3 7 2 6 8 1 ( −1) ( −1) ( −1) 1+ 2 M12 2+2 M 22 3+ 2 M 32 ( −1) ( −1) ( −1) 1+ 3 2+3 3+ 3 M13 M 23 M 33 8 10 3 5 4 5 2 ( −1) 3 5 4 6 2 ( −1) 8 10 ( −1) 4 70 − 5 − ( 56 − 3 ) 40 − 30 65 −53 10 −4 2 Cof A = − ( 28 − 30 ) 14 − 18 − ( 10 − 12 ) = 2 4 − 60 − ( 2 − 48 ) 20 − 32 −56 46 −12 65 −53 10 −4 2 Cof A = 2 −56 46 −12 98 A transposta da matriz de Cofatores é chamada de matriz Adjunta e é dada por (Cof A)': 65 2 −56 Adj A = −53 −4 46 10 2 −12 A Inversa de A é dada por: A−1 = 1 ( Adj A ) A Como o determinante de A = – 22, a sua inversa é: 65 2 −56 1 −53 −4 46 A = −22 10 2 −12 −1 65 − 22 1 53 −1 A = −22 22 10 − 22 2 22 4 22 2 − 22 − 56 22 46 − . 22 12 22 0 2 Como exercício, obtenha a inversa de D = . 5 4 99 100 TÓPICO 2 UNIDADE 2 ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS 1 INTRODUÇÃO Vimos no tópico anterior uma breve introdução ao modelo de regressão com múltiplas variáveis explicativas. Como você deve ter notado, representar o modelo na forma matricial, além de intuitivo, nos proporciona ganhos em termos de generalização, permitindo que tenhamos tantas variáveis explicativas quantas forem necessárias para descrever o comportamento da nossa variável dependente. Na Unidade 1, vimos como obter uma estimativa dos parâmetros do modelo de regressão linear simples, empregando o método de mínimos quadrados ordinários em que, em síntese, minimizávamos a soma dos quadrados dos resíduos a fim de obter estimativas para os coeficientes populacionais que fossem consistentes e eficientes. Naquela oportunidade demonstramos como obter os estimadores de um modelo com apenas uma variável explicativa. Mas, e se tivermos duas ou mais variáveis explicando a variável dependente? Neste caso, o cálculo tradicional torna-se complexo e cansativo, motivo pelo qual o emprego de matrizes para obtenção desses parâmetros é o mais indicado. Além de estimar um modelo de regressão mais completo e complexo, teremos acesso a uma série de estatísticas de teste que nos permitirão deixar os resultados obtidos ainda mais robustos e a nossa análise ainda mais rica em detalhes. A análise de regressão vai muito além da simples estimativa de parâmetros. Os modelos estimados podem ser empregados para fins de tomada de decisão no planejamento estratégico de uma empresa, ou como análise de impactos de uma política econômica. Por esses motivos, ter certeza de que temos em mãos resultados confiáveis é extremamente importante. Imagine uma empresa em que boa parte dos insumos usados na produção de sua fábrica é importada do exterior. Você é escalado para construir um modelo de regressão capaz de prever o comportamento da taxa de câmbio no curto e médio prazos. Com base no modelo de regressão que você estimar, a empresa decidirá se e quando deverá contratar instrumentos de proteção cambial. 101 UNIDADE 2 | REGRESSÃO MÚLTIPLA É nesse exato momento que o seu trabalho é posto à prova. Será que o modelo está corretamente especificado? Será que não deixou de fora alguma variável que poderia ser importante, ou relevante para explicar o comportamento do câmbio? Por outro lado, talvez tenha inserido variáveis de mais para explicar a variável dependente! Talvez uma relação linear nas variáveis não seja a forma funcional mais adequada. Um modelo com logaritmos pode trazer resultados mais eficientes e a decisão tomada a partir da previsão feita pelo modelo estimado com outra forma funcional pode ser gerar resultados melhores. Essas e outras perguntas serão respondidas neste Tópico 2, que terminará com um exemplo que nos permitirá ver na prática cada conceito adquirido aqui. 2 ESTIMADORES DE MQO Suponha que tenhamos um modelo econométrico com k variáveis explicativas. Esse modelo é representado em 2.1: Yi = β1 + β2X21 + β3X3i + ... + βkXki + εi 2.1 Independentemente do que estamos pretendendo com este modelo, dificilmente teremos acesso a todos os dados existentes, nesse caso, obter uma amostra representativa e a partir dela fazer inferências acerca da população é o procedimento correto. Com isso, 2.1, que é a Função de Regressão Populacional, dá espaço para 2.2, a Função de Regressão Amostral: Y= βˆ 1 + βˆ 2 X2 i + βˆ 3 X3 i + …+ βˆ k Xki + εˆ i i 2.2 Podemos reescrever 2.2 na forma matricial como em 2.3: � + ε = y Xβ 2.3 Em que y é o vetor n x 1 da variável dependente, X é a matriz n x k de ^ variáveis explicativas, β é o vetor de k x 1 de parâmetros estimados e ε^ é o vetor n x 1 dos resíduos da regressão. A ideia por trás do método de mínimos quadrados ordinários é minimizar a soma dos quadrados dos resíduos. De 2.3, temos: 102 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS ^ ^ 2.4 ε = y – Xβ A soma dos quadrados dos resíduos é dada por: ^ ^ ^ ^ ε'ε = (y – Xβ)'(y –Xβ) 2.5 ^ Assim, minimizamos 2.5 sujeito a β para obter: � )'( y − X β �) min ε = ( y − Xβ 2.6 ^ β min ε = y'y – yXβ – X'β'y + X'β'Xβ ^ ^ ^ ^ ^ 2.7 ^ β ^ ^ Como y'Xβ e X'β'y são iguais e, pelas propriedades da multiplicação de matrizes, podemos rearranjar e simplificar 2.7 para obter: min εˆ ' εˆ = y′y − 2 βˆ ' X ′y + βˆ ' X ′X βˆ ˆ 2.8 β Pela condição de primeira ordem, tiramos a derivada parcial de 2.8, igualamos a zero e resolvemos para β̂ : ( ∂ y′y − 2 βˆ ' X ′y + βˆ ' X ′X βˆ ∂βˆ ) =0 2.9 − X ′y + X ′X β̂ = 0 2.10 Resolvendo para X ′X β̂ , temos: X ′X βˆ = X ′y 2.11 Pré-multiplicando ambos os lados de 2.11 por ( X ′X ) , obtemos: −1 103 UNIDADE 2 | REGRESSÃO MÚLTIPLA ( X′X ) ( X′X ) βˆ = ( X′X ) −1 −1 X' y 2.12 Em 2.12, pelas propriedades envolvendo multiplicação de matrizes −1 invertidas, sabemos que ( X ′X ) ( X ′X ) = I , ou seja, uma matriz identidade. Assim, o estimador de β de mínimos quadrados ordinários é dado por: β̂ = ( X ′X ) X' y −1 2.13 Que é um vetor k x 1 dos coeficientes estimados ou estimadores dos parâmetros do modelo de regressão. Se o estimador em 2.13 for não viesado, ou seja, se obtivermos várias amostras e estimarmos diversas vezes os parâmetros β, esperamos que, em média, o valor dado por 2.13 convirja para o verdadeiro parâmetro da população. Dito de outra forma, esperamos que: E β̂ = β 2.14 Para verificar isso, tomamos 2.13 e, sabendo que na população encontramos y = β + ε, escrevemos: β̂ = ( X′X ) −1 X' ( X β + ε ) = βˆ ( X′X ) −1 X' X β + ( X ′X ) X' ε 2.15 −1 2.16 Em 2.16 aplicamos o operador de expectativas para reescrevê-la como: −1 −1 = β̂ E[( X ′X ) X' X β ] + E ( X ′X ) X ′ε 2.17 Em 2.17, (X'X)–1X'X resulta em uma matriz identidade I e, além disso, podemos reescrever E ( X ′X ) X ′ε como ( X ′X ) X ′E ε . −1 −1 Como E ε = 0, temos: 104 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS E β̂ = β 2.18 Além de não tendencioso ou não viesado, queremos que esse estimador obtido em 2.13 seja eficiente, ou seja, tenha variância mínima. Sabemos que a variância é obtida por: ( ) Var = βˆ E βˆ − E βˆ { 2 2.19 ( ) } ( ) Var βˆ = E βˆ − E βˆ . βˆ − E βˆ ' ( X′X ) −1 Sabemos 2.16 que βˆ = por ( X′X ) 2.20 −1 X' X β + ( X ′X ) X' ε . −1 Em que ' X X = I . Se resolvermos 2.16 para β̂ − β , temos: βˆ − β = ( X ′X ) X' ε −1 2.21 ( ) De 2.18, temos que E β̂ = β . Aplicando isso em 2.20 e substituindo o resultado em 2.21, podemos reescrever 2.20 para: { ' Var β̂ =E βˆ − β . βˆ − β } 2.22 ' −1 −1 Var β̂ = E ( X ′X ) X ′ε . ( X ′X ) X ′ε 2.23 −1 −1 Var βˆ = E ( X ′X ) X' εε ' X ( X ′X ) 2.24 Var β̂ = ( X ′X ) X ′E εε ′ X ( X ′X ) 2.25 −1 Var β̂ = E εε ′ I ( X ′X ) −1 −1 2.26 105 UNIDADE 2 | REGRESSÃO MÚLTIPLA Em 2.26 temos E εε ′ , que por 1.17 é definida como σ 2 I , e como a matriz identidade multiplicada por qualquer matriz resulta na própria matriz que é multiplicada, obtemos a variância de β̂ como: Var β̂ = σ 2 ( X ′X ) −1 2.27 Portanto, a matriz de variância do vetor de parâmetros β̂ vai depender da estimativa de σ 2, que é o parâmetro populacional, o qual desconhecemos, e de −1 ( X′X ) . Para obter uma estimativa de σ 2 , usamos: σˆ 2 = εˆ ' εˆ 2.28 n−k Em 2.28, sabemos que n – k é o total de observações da nossa amostra menos a quantidade de coeficientes β estimados na regressão. Dito de outra forma, é o número de graus de liberdade do modelo de regressão. A matriz de variância e covariância de β̂ está representada em 2.29: ( ) var βˆ 1 cov βˆ , βˆ 2 1 var − cov βˆ = cov βˆ k , βˆ 1 ( ( ) ) ( cov βˆ 1 , βˆ 2 ( ) ) var βˆ 2 cov βˆ k , βˆ 2 ( ) ( ( ) ) cov βˆ 1 , βˆ k ˆ ˆ … cov β 2 , β k var βˆ k 2.29 ( ) Pelo fato de os estimadores serem lineares, não tendenciosos, terem variância mínima e ainda os resíduos terem distribuição normal, o teorema de Gauss-Markov garante que os estimadores de mínimos quadrados ordinários são os melhores estimadores lineares não tendenciosos, o que na literatura muitas vezes é representado pela sigla BLUE, ou seja, Best Linear Unbiased Estimator. Em amostras relativamente pequenas, as propriedades vistas até agora podem não ser encontradas, no entanto, à medida que a amostra vai aumentando indefinidamente, vai-se confirmando todas as propriedades. Dizemos que no limite, em pequenas amostras, os estimadores são não tendenciosos, mas à medida que a amostra aumenta indefinidamente, eles se tornam consistentes, porque a variância vai diminuindo, tendendo a zero. 106 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS Pela Hipótese 6 do modelo de regressão linear, vimos que o vetor do termo de erro ε tem distribuição normal, com média igual a zero e variância constante. Como em última análise os parâmetros estimados β̂ são uma função linear do vetor de erros, é possível supor que eles carregam essa característica estatística. −1 Dito de outra forma, β̂ |X ~ N β ,σ 2 ( X ′X ) , o que implica que cada parâmetro 2 kk individual β̂ k também tem distribuição normal, ou seja, β̂ k ~ N β k ,σ S , em que −1 Skk é o k – ésimo elemento da matriz ( X ′X ) . Isso nos permite aplicar um teste t a fim de verificar se cada coeficiente é individualmente significante do ponto de vista estatístico. Você deve se lembrar, como vimos na Unidade 1, de que o primeiro passo é estabelecer as hipóteses (nula e alternativa) a serem testadas: H0 : β k = 0 H1 : β k ≠ 0 O segundo passo é calcular a estatística de teste, neste caso: t= βˆ k − β kH Sβˆ 0 k 1, 2 ,… ,n ~ t( n− k ) para todo = 2.30 k Com β̂ k sendo o k – ésimo coeficiente estimado, β kH é o valor do k – ésimo 0 coeficiente sob a hipótese nula, Sβˆ é o desvio padrão do k – ésimo coeficiente estimado e n – k representa o número de graus de liberdade, sendo n o tamanho da amostra e k o número de parâmetros estimados. k O resultado de 2.30 é comparado à tabela estatística de distribuição de probabilidade de t, e se o tcalculado > ttabela, para um nível de significância α, rejeitamos a hipótese nula em favor da hipótese alternativa de que o coeficiente estimado é estatisticamente significativo. É preciso compreender que cada coeficiente estimado individualmente tem o seu significado, supondo ceteris paribus para os demais coeficientes. Ou seja, mantendo constantes todos os demais efeitos individuais sobre a variável dependente, a variável explicativa Xi tem um efeito β̂ k sobre Yi. É possível também testar a hipótese nula H0, de que em conjunto, os coeficientes estimados βˆ 2 , βˆ 3 ,… , βˆ k são estatisticamente iguais a zero, contra a hipótese alternativa de que em conjunto os coeficientes estimados são estatisticamente diferentes de zero. Para isso empregamos um teste F, definido como: 107 UNIDADE 2 | REGRESSÃO MÚLTIPLA F= SQE / ( k − 1) SQR / ( n − k ) ~ F( k −1) ,( n− k ) 2.31 Em que SQE é a soma dos quadrados explicados pela regressão, obtida ' 2 ˆ por β X ′y − nY , com k – 1 graus de liberdade no numerador, e SQR é a soma dos quadrados dos resíduos, obtida por εˆ ' εˆ , com n – k graus de liberdade no denominador. Esse valor calculado é comparado à estatística F obtida em uma tabela de distribuição de probabilidade, a um nível de significância α. Da mesma forma que o teste t para os parâmetros individuais, se o Fcalculado > Ftabela, rejeitamos a hipótese nula com um nível de significância de α, em favor da hipótese alternativa. E quanto à capacidade do nosso modelo de se ajustar aos dados? O coeficiente de determinação é dado por 2.32: R2 = SQE STQ 2.32 Que em notação matricial fica: 2 R = βˆ ' X ′y − nY 2 2.33 y' y − nY 2 Note que em 2.33 estamos usando o R2 ao invés do r2 que tínhamos na Unidade 1. Fazemos isso para diferenciar o modelo de regressão simples do modelo de regressão múltiplo. Em termos de interpretação não muda nada, ou seja, o R2 fornece uma medida do poder explicativo da regressão, ou da qualidade do ajustamento do modelo aos dados. Podemos ver ainda que se trata de uma decomposição da variância de y. Podemos analisar o coeficiente de determinação e obter outras estatísticas ligadas a ele através da análise de variância, ANOVA. Para isso, observe o quadro a seguir: 108 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS QUADRO 1 – ANÁLISE DE VARIÂNCIA Causas da variação Fontes Devido à Regressão (SQE) βˆ X ′y − nY Devido aos Resíduos (SQR) εˆ ' εˆ n–k σ̂ 2 Total (STQ) y' y − nY 2 n–1 σ̂ y2 ' R2 = Coeficiente de determinação F = Graus de liberdade 2 Quadrado médio k–1 βˆ ' X ′y − nY 2 y' y − nY 2 = 1− εˆ ' εˆ y' y − nY 2 SQE / ( k − 1) βˆ ' X ′y − nY 2 / ( k − 1) = εˆ ' εˆ / ( n − k ) SQR / ( n − k ) FONTE: Adaptado de Greene (2012, p. 82) 3 ESTIMANDO O MODELO DE REGRESSÃO MÚLTIPLO Um dos campos de aplicação da econometria que tem crescido nos últimos anos é o do desenvolvimento econômico e social. Nessa área de pesquisa, um dos indicadores mais difundidos é o Índice de Desenvolvimento Humano – IDH. Enquanto o PIB nos dá uma ideia de quão rica pode ser uma nação, o IDH nos mostra a qualidade dessa riqueza. Vamos usar alguns indicadores do Atlas do Desenvolvimento Humano no Brasil <http://www.atlasbrasil.org.br> para ilustrar a estimação de um modelo de regressão múltipla. A ideia se baseia menos na parte teórica envolvendo os conceitos econômicos e sociais, para dar mais ênfase aos aspectos técnicos da análise de regressão. Como ponto de partida, a variável explicativa será o IDHM, Índice de Desenvolvimento Humano Municipal, e como variáveis explicativas teremos o RDPC – renda per capita média, ESPVIDA – esperança de vida ao nascer e EANOSESTUDO – número médio de anos de estudo que uma geração de crianças que ingressa na escola deverá completar ao atingir 18 anos de idade, se os padrões atuais se mantiverem ao longo de sua vida escolar. Temos a nossa disposição uma base de dados de corte, por estados brasileiros, relativa aos anos de 1991, 2000 e 2010. Isso nos permite estimar pelo menos três modelos econométricos e verificar se há mudanças significativas nos resultados para cada ano de levantamento dos dados. O primeiro modelo econométrico é dado por 2.34 e se refere ao ano de 1991. Naquele ano, para o Brasil como um todo, o IDH era de 0,493: 109 UNIDADE 2 | REGRESSÃO MÚLTIPLA IDHMi = β1 + β 2 RDPCi + β 3 ESPVIDAi + β 4 EANOSESTUDOi + ε i 2.34 Esperamos que os coeficientes estimados β2, β3 e β4 tenham sinal positivo, indicando que renda, saúde e educação são fatores importantes no desenvolvimento humano de uma nação. Como os dados se referem a estados brasileiros, e como o Brasil tem uma heterogeneidade muito grande, representaremos os demais fatores que influenciam no desenvolvimento humano, mas que não entraram nesse modelo, por εi, que supomos ter distribuição normal, com média zero e variância constante. Os dados obtidos no site Atlas Brasil foram importados para o Gretl e ao todo temos 27 observações. Para compreender melhor o significado de dados de corte e da análise de regressão múltipla usando matrizes, vamos dar uma olhada no quadro seguinte: QUADRO 2 – AMOSTRA DA BASE DE DADOS DO IDHM DE 1991 Unidade da Federação X1 RDPC ESPVIDA EANOSESTUDO IDHM Rondônia 1 304,90 63,11 7,55 0,407 Acre 1 284,96 63,72 6,56 0,402 Amazonas 1 345,82 63,67 6,52 0,430 Roraima 1 437,24 62,66 7,14 0,459 Pará 1 273,22 63,42 6,48 0,413 Amapá 1 378,57 65,05 7,81 0,472 Tocantins 1 243,58 60,32 6,36 0,369 Maranhão 1 156,47 58,04 6,29 0,357 Piauí 1 167,03 60,71 5,89 0,362 FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018. A primeira coluna refere-se aos estados da federação e torna clara a diferença entre dados de corte e séries temporais. Essa base tem informações exclusivamente do ano de 1991, para cada estado brasileiro. Dito de outra forma, os dados não variam no tempo, o que caracteriza os dados de corte. A coluna X1 é formada por números 1 porque, como vimos em 1.7, usamos essa coluna para estimar o intercepto β̂1 do nosso modelo de regressão. As demais colunas são as variáveis explicativas, exceto a última, que é a variável dependente. A Figura 1 apresenta os gráficos de dispersão entre a variável dependente IDHM e as demais variáveis explicativas. Como podemos perceber, há uma correção positiva entre as variáveis explicativas individualmente e a variável dependente. O gráfico ilustrado a seguir reforça a hipótese de que podemos esperar que os coeficientes estimados sejam positivos: 110 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS FIGURA 1 – GRÁFICOS DE DISPERSÃO DO IDHM 1991 FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018. O Gretl, através dos seus menus, nos fornece uma série de estatísticas descritivas que vamos deixar para você explorar. Aproveite esse exemplo para aprender mais sobre essa ferramenta que é fundamental no nosso processo de aprendizado. Vamos rodar a regressão sobre a equação 2.35. Para isso, na barra de menus do Gretl, selecione “Modelo” e na sequência “Mínimos Quadrados Ordinários”. Na janela que será exibida (Figura 2), você deve selecionar as variáveis e colocálas nos seus respectivos campos. Esta é outra grande vantagem do Gretl: tanto o seu menu quanto as janelas de opções são totalmente intuitivas. Cada elemento que forma as rotinas prontas do software encontra correspondência nos manuais de econometria. 111 UNIDADE 2 | REGRESSÃO MÚLTIPLA FIGURA 2 – ESPECIFICAÇÃO DO MODELO ECONOMÉTRICO NO GRETL FONTE: Adaptado de Gretl (2018) O Quadro 3 apresenta os resultados da regressão. A primeira análise que fazemos é verificar se os coeficientes estimados têm o sinal que esperávamos encontrar. Veja que todos são positivos, corroborando nossa hipótese inicial, de que renda, saúde e educação são elementos que melhoram o desenvolvimento humano de uma nação. 112 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS QUADRO 3 – RESULTADO DA ESTIMAÇÃO POR MÍNIMOS QUADRADOS ORDINÁRIOS Modelo 1: MQO, usando as observações 1-27 Variável dependente: IDHM coeficiente erro padrão razão-t p-valor -----------------------------------------------------------const 0,00909081 0,103925 0,08747 0,9311 RDPC 0,000216030 3,01665e-05 7,161 2,72e-07 *** ESPVIDA 0,00358231 0,00207447 1,727 0,0976 * EANOSESTUDO 0,0179243 0,00471780 3,799 0,0009 *** Média var. dependente 0,453926 Soma resíd. quadrados 0,005474 R-quadrado 0,959325 F(3, 23) 180,8175 Log da verossimilhança 76,48761 Critério de Schwarz −139,7919 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn 0,071943 0,015427 0,954019 3,94e-16 −144,9752 −143,4339 Obs. *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. FONTE: Adaptado de Gretl (2018) e <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018. Analisando o intercepto β̂1, vemos que o seu valor é extremamente pequeno, 0,0091. Com um erro padrão de 0,1039, obtemos um valor tcalculado = βˆ 1 0 , 0091 0,0875, que é obtido= por t = = 0 , 0875. 0 ,1039 ep βˆ 1 ( ) Estabelecendo um teste de hipótese com H0: β1 = 0 contra a hipótese alternativa de que β1 ≠ 0, podemos verificar se esse coeficiente é estatisticamente significativo ao nível de significância α, de 5%, ou α = 0,05. Procuramos os valores críticos de t em uma tabela de distribuição de probabilidade ou com o auxílio do Gretl, como já vimos. Considerando n – k graus de liberdade, dado pelo número de observações da amostra menos a quantidade de coeficientes estimados, 27 – 4, chegamos a 23 graus de liberdade. Com o auxílio das tabelas estatísticas do Gretl, em “Ferramentas” e “Tabelas estatísticas”, encontramos um ttabela de 2,06866. Como o tcalculado < ttabela, não podemos rejeitar a hipótese nula de que o coeficiente estimado β1 é estatisticamente igual a zero. Isso quer dizer que esse valor de 0,0091 obtido para o parâmetro não tem significância do ponto de vista estatístico. Como vimos na Unidade 1, se rejeitarmos a hipótese nula e ela for verdadeira, cometeremos o erro do tipo I, com probabilidade α%. Para sermos mais precisos, a probabilidade de se rejeitar a hipótese nula e ela ser verdadeira é dada pelo p – valor. Nos resultados apresentados pelo Gretl, esse número está na última coluna e é de 0,9311 para a constante. Isso quer dizer que, do ponto de vista estatístico, não podemos rejeitar a hipótese nula. Se o 113 UNIDADE 2 | REGRESSÃO MÚLTIPLA fizermos, temos 93,11% de chances de cometer um erro do tipo I, motivo pelo qual não podemos considerar esse parâmetro estatisticamente significativo. Para os demais coeficientes, para sermos mais práticos, vamos nos concentrar no p – valor. Note que tanto β̂ 2 quanto β̂ 4 são estatisticamente significativos a um nível de significância de 1%, porque o p – valor é menor do que 0,01. Por outro lado, β̂ 3 só é estatisticamente significativo a um nível de significância estatística de 10%, pois, o p – valor é 0,0976, maior do que 0,01 e 0,05. Esse resultado nos diz que, em 1991, a variável expectativa de vida não teve uma contribuição muito forte para explicar o valor do IDHM. Vimos em 2.31 que é possível verificar se, em conjunto, os coeficientes β2, β3 e β4 são estatisticamente significativos. Para isso, usamos o teste F, cujo resultado é apresentado pelo Gretl. No Quadro 3 temos Fcalculado = 180,8175, que podemos estabelecer um nível de significância α e procurar o seu valor crítico em uma tabela de F, ou ainda, olhar diretamente no p – valor que também é apresentado pelo Gretl, com valor de 3,94e16. Esse número complicado de se ler é um número científico, como já tivemos a oportunidade de discutir. Ele significa que inicia com zero e, após a vírgula, na posição 16, aparece o número 394. Seu valor real é 0,000000000000000394, que podemos considerar como sendo um número muito pequeno e extremamente próximo de zero. Em termos práticos, a leitura que fazemos é que, sob a hipótese nula de H0: β2 = β3 = β4 = 0, podemos rejeitá-la com uma probabilidade muito pequena, praticamente zero, de se cometer um erro do tipo I. Com isso, podemos dizer que, apesar de o coeficiente β̂ 3 não ser estatisticamente significativo a um nível de 1% ou 5%, consideramos que, em conjunto, os coeficientes estimados são estatisticamente significativos. Outra estatística que nos ajuda a verificar a qualidade do nosso modelo é o R2, que dá uma ideia da qualidade do ajustamento do modelo aos dados. Em SQE 2.32, e no Quadro 1, vimos que seu valor é obtido por R2 = , e a sua estimativa STQ é apresentada no Quadro 3. Outra forma de obter essa estimativa, como vimos no Quadro 1, é através da ANOVA. Para isso, na janela de resultados do modelo estimado, selecione “Análise” e em seguida “ANOVA”. O resultado está na Figura 3. 114 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS FIGURA 3 – TABELA ANOVA PARA O MODELO DE REGRESSÃO FONTE: Adaptado de Gretl (2018) Com um valor de R2 = 0,9593, podemos dizer que 95,93% das variações no IDHM de 1991 podem ser explicadas pelo nosso modelo de regressão, o que significa que o modelo se ajusta muito bem aos dados e traz um grande poder explicativo. Essa estimativa foi feita com base nas informações disponíveis de 1991. E se mantivermos a análise de dados de corte e fizermos a mesma estimativa só que com os dados de 2000 e 2010 e com as mesmas variáveis, o que encontraremos? O Quadro 4 compara o modelo 2.34 referente aos três anos de estudo individualmente. Primeiro cabe ressaltar que o IDHM no Brasil, em 1999, era de 0,493, passou para 0,612 em 2000 e para 0,727 em 2010. O segundo ponto importante é o valor do coeficiente estimado da renda per capita, que é extremamente pequeno. Isso indica que, mantido tudo o mais constante, a renda tem um peso muito pequeno para explicar o IDHM. A esperança de vida ao nascer, por outro lado, apresentou um aumento no seu valor nos anos seguintes e uma melhora na significância estatística. Podemos interpretar esse resultado de forma positiva, na medida em que essa variável mede o número médio de anos que as pessoas deverão viver a partir do nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de mortalidade por idade, prevalecentes no ano do Censo. Dito de outra forma, a melhora na esperança de vida, consequência da melhora nas condições de saúde da população, tem contribuído mais para a melhora do IDHM. 115 UNIDADE 2 | REGRESSÃO MÚLTIPLA QUADRO 4 – COMPARANDO O MODELO 2.34 PARA TRÊS ANOS DISTINTOS 1991 2000 2010 Constante 0,0091 (0,9311) −0,0509 (0,5840) −0,5379 (0,0008)*** RDPC 0,0002 (0,0000)*** 0,0001 (0,0000)*** 0,00006 (0,0000)*** ESPVIDA 0,0036 (0,0976)* 0,0052 (0,0041)*** 0,0148 (0,0000)*** EANOSESTUDO 0,0179 (0,0009)*** 0,0244 (0,0000)*** 0,0113 (0,0070)*** F 180,8175 (0,0000)*** 470,1644 (0,0000)*** 282,6830 (0,0000)*** R2 0,9593 0,9839 0,9736 ajustado 0,9540 0,9819 0,9701 R 2 Obs.: p – valor entre parênteses com *, ** e *** indicando significância estatística ao nível de 10%, 5% e 1% respectivamente. FONTE: Adaptado de Gretl (2018, s.p.) e <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018. Finalmente, olhando a variável educação, a sua importância no modelo aumenta de 1991 para 2000, mas diminui em 2010. Caberia um estudo específico sobre esse tema, investigando as razões pelas quais essa variável oscilou entre esses três anos de amostra. Esse é um belo exemplo da importância da econometria na pesquisa científica. Basta comparar os resultados entre modelos distintos ou aplicados entre períodos distintos para se despertar novos temas e opções de estudo. Acadêmico! Faltou falar sobre a constante. Você deve ter percebido que apenas no primeiro ano é que esse coeficiente estimado não era estatisticamente significativo. Isso reforça a nossa tese de se ter muito cuidado antes de excluí-lo do modelo. Principalmente porque em 2010 o seu valor, além de ser negativo, apresentou um valor bem alto se comparado aos demais coeficientes estimados. Esse resultado pode significar que o nosso modelo, de um modo geral, pode ter problemas de especificação. Isso fica claro na medida que observamos a composição da base de dados. O IDHM, por exemplo, é um índice. RDPC é expresso em Reais, ESPVIDA e EANOSESTUDO em anos. Essas unidades de medida distintas tornam confusa a interpretação individual dos parâmetros estimados. Por exemplo, se pegarmos o coeficiente ESPVIDA para 2010, veremos que o seu valor estimado é de 0,0148. Isso quer dizer que, cada ano adicional na esperança de vida ao nascer eleva o IDHM em 0,0148. Políticas públicas voltadas à melhoria na qualidade de vida, ações de saúde e cidadania, poderiam fazer com que as pessoas vivessem mais, com mais qualidade e saúde, melhorando o IDHM. Porém, essa análise é superficial e, como dissemos anteriormente, merece um estudo mais profundo para se entender melhor o seu impacto na variável dependente. 116 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS Dando uma olhada no F, percebemos que em conjunto os coeficientes estimados são estatisticamente significativos e que o R2 é bem grande em cada um dos anos do estudo. A propósito disso, acrescentamos outra estatística, o R2ajustado. Usamos o termo ajustado para designar que ele é ajustado pelo número de graus de liberdade. ( 2 =1 − 1 − R2 Rajustado ) nn −− 1k 2.35 Essa estatística é útil quando formos comparar modelos diversos contendo diferentes quantidades de variáveis explicativas. Por exemplo, um modelo com uma variável explicativa comparada a outro com duas variáveis explicativas. A definição de R2 diz que ele é o grau de ajustamento ou quanto das variações na variável dependente são explicadas pelo modelo. Por isso, quanto mais variáveis explicativas incluirmos no nosso modelo, maior tende a ser o R2 . Como na equação 1.53 há uma punição para o acréscimo de variáveis explicativas pela perda do número de graus de liberdade, essa medida nos fornece uma maneira de comparar modelos diferentes. 4 TESTES ADICIONAIS APLICADOS AOS RESULTADOS DOS MODELOS DE REGRESSÃO Vamos avançar um pouco na análise de regressão, partindo de um modelo econométrico estimado. Para isso, considere a teoria Keynesiana de preferência por liquidez. Segundo essa teoria, os motivos advindos de transação, precaução e especulação levam a uma função de demanda por moeda que depende da renda e da taxa de juros. DICAS Para ver os detalhes dessa teoria, consulte um manual de Economia Monetária, como este escrito por Carvalho et al. (2015): • CARVALHO, Fernando J. Cardim de et al. Economia monetária e financeira. 3. ed. Rio de Janeiro: Campus, 2015. 423 p. Para a nossa análise usaremos o modelo 2.36, que descreve a demanda por moeda como uma função linear: 117 UNIDADE 2 | REGRESSÃO MÚLTIPLA Mt = β1 + β2Yt + β3it + εt 2.36 Em que Mt representa a demanda por moeda (aqui usamos o M1 como proxy), Yt denota o Produto Interno Bruto a preços de mercado (variável que funciona como uma proxy para a renda), e it representa a taxa de juros do CDI Over, que é a média dos juros que instituições financeiras pagam a outras instituições financeiras que lhe emprestaram dinheiro no mercado interbancário. εt é o termo de erro e supõe-se que ε~N(0, σ2I). Em 2.36 estamos supondo que demanda por moeda seja positivamente relacionada com a renda e negativamente relacionada à taxa de juros. Os dados são trimestrais e foram obtidos para a economia brasileira no site <www.ipeadata. gov.br>, para o período entre 2002 e 2017, com um total de 64 observações e estão disponíveis no Quadro 5. Além disso, como no modelo 2.36 estamos interessados em medir a elasticidade renda da demanda por moeda e a elasticidade dos juros em relação à demanda por moeda, as variáveis foram transformadas em logaritmos. QUADRO 5 – VARIÁVEIS MACROECONÔMICAS PARA ESTIMAÇÃO DA DEMANDA POR MOEDA Período M Y i P Período M Y i P 2002/01 11,2012 12,7434 1,4367 0,3988 2010/01 12,3428 13,6949 0,7048 0,7227 2002/02 11,2856 12,8141 1,4481 0,3646 2010/02 12,3661 13,7580 0,7957 0,0000 2002/03 11,3871 12,8474 1,4869 0,9478 2010/03 12,4242 13,8134 0,9603 -0,6931 2002/04 11,5885 12,8976 1,6074 1,8810 2010/04 12,5492 13,8713 0,9345 0,8020 2003/01 11,3749 12,8923 1,7352 1,6351 2011/01 12,4366 13,8319 0,9726 0,8920 2003/02 11,3577 12,9456 1,7551 0,3577 2011/02 12,4445 13,8987 1,0305 0,3365 2003/03 11,3549 12,9931 1,7247 0,2776 2011/03 12,4492 13,9220 1,1014 0,0583 2003/04 11,6050 13,0441 1,4816 0,1398 2011/04 12,5616 13,9646 0,9811 0,3784 2004/01 11,4899 13,0053 1,3246 0,6152 2012/01 12,4589 13,9373 0,8981 0,1989 2004/02 11,5374 13,0853 1,2994 0,4700 2012/02 12,4887 13,9837 0,7349 0,0770 2004/03 11,6069 13,1328 1,3508 0,6627 2012/03 12,5239 14,0229 0,6477 0,3507 2004/04 11,7594 13,1729 1,3834 0,6931 2012/04 12,6917 14,0559 0,5280 0,6881 2005/01 11,6682 13,1218 1,4297 0,5822 2013/01 12,5889 14,0319 0,4790 0,6627 2005/02 11,6693 13,1911 1,5174 0,2927 2013/02 12,6142 14,0951 0,5812 0,1655 2005/03 11,6735 13,2229 1,5550 -0,2614 2013/03 12,6158 14,1187 0,7507 -0,4780 2005/04 11,8830 13,2750 1,4602 0,5128 2013/04 12,7499 14,1615 0,8380 0,7130 2006/01 11,7656 13,2254 1,3955 0,3646 2014/01 12,6441 14,1420 0,8760 0,7793 2006/02 11,7910 13,2742 1,2747 -2,3026 2014/02 12,6308 14,1678 0,9210 0,4318 2006/03 11,8710 13,3340 1,2561 -0,7985 2014/03 12,6570 14,1954 1,0024 -0,1863 2006/04 12,0688 13,3929 1,1391 0,1133 2014/04 12,7703 14,2266 1,0165 0,5423 118 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS 2007/01 11,9549 13,3557 1,1075 0,2311 2015/01 12,6615 14,1916 1,0331 1,3429 2007/02 12,0087 13,4160 1,0618 -0,2107 2015/02 12,6313 14,2076 1,1079 0,8154 2007/03 12,0715 13,4471 1,0231 -0,1165 2015/03 12,5975 14,2264 1,2328 0,3293 2007/04 12,3520 13,4958 0,9657 0,3577 2015/04 12,7201 14,2544 1,2123 1,0367 2008/01 12,1219 13,4759 0,9466 0,4187 2016/01 12,6119 14,2194 1,1791 0,9632 2008/02 12,1347 13,5535 1,0086 0,7372 2016/02 12,6146 14,2575 1,2118 0,5596 2008/03 12,1797 13,6080 1,1660 0,0677 2016/03 12,6372 14,2694 1,2435 0,0392 2008/04 12,3169 13,6117 1,1990 0,0862 2016/04 12,7594 14,3050 1,1757 -0,3011 2009/01 12,1666 13,5360 1,0613 0,2070 2017/01 12,6411 14,2761 1,1081 -0,0408 2009/02 12,2171 13,5968 0,8638 0,2776 2017/02 12,6642 14,3047 0,9322 -1,5141 2009/03 12,2532 13,6563 0,7792 -0,4620 2017/03 12,6656 14,3110 0,8122 -0,5276 2009/04 12,4302 13,7327 0,7344 0,0583 2017/04 12,8022 14,3477 0,5644 0,1310 Obs.: Dados em logaritmos. FONTE: <www.ipeadata.gov.br>. Acesso em: 24 ago. 2018 Os resultados da estimação estão no Quadro 6 e, como esperávamos, o sinal dos coeficientes estimados está de acordo com o que foi dito incialmente, ou seja, o coeficiente β̂ 2 é positivo e o coeficiente estimado β̂ 3 é negativo. O valor dos coeficientes estimados é lido como elasticidade, ou seja, uma variação de 1% na renda conduz a um aumento na demanda por moeda na ordem de 0,83%. Por outro lado, um aumento na taxa de juros em um ponto percentual reduz a demanda por moeda em 0,27%: QUADRO 6 – RESULTADO DA ESTIMAÇÃO DE 2.36 Modelo 1: MQO, usando as observações 2002:1-2017:4 (T = 64) Variável dependente: M coeficiente erro padrão razão-t p-valor ---------------------------------------------------------const 1,15514 0,436947 2,644 0,0104 ** Y 0,829907 0,0292322 28,39 7,34e-037 *** i −0,270326 0,0464715 −5,817 2,37e-07 *** Média var. dependente 12,20565 Soma resíd. quadrados 0,398430 R-quadrado 0,971251 F(2, 61) 1030,419 Log da verossimilhança 71,71933 Critério de Schwarz −130,9620 rô 0,371141 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn Durbin-Watson 0,469026 0,080819 0,970309 9,72e-48 −137,4387 −134,8872 1,200039 Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 27 ago. 2018. 119 UNIDADE 2 | REGRESSÃO MÚLTIPLA Modelos como o 2.36 são derivados de outras formas funcionais, como a função de produção Cobb-Douglas, muito utilizada na microeconomia. Para entender melhor essa derivação, considere a equação 2.37: Yt = β1 Xtβ2 e ε t 2.37 Aplicando logaritmo nos dois lados da equação, temos: lnYt = ln β1 + β 2 ln Xt + ε t 2.38 Se fizermos Yt* = lnYt, α 1 = β1, α 2 = β 2, Xt* = ln Xt e reescrevermos 2.38 para: Yt* = α 1 + α 2 Xt* + ε t 2.39 Temos novamente um modelo de regressão com a aparência que estamos acostumados a estimar, ou seja, um modelo econométrico linear nos parâmetros. Assim, interpretamos o parâmetro α2 como elasticidade de X em relação a Y, ou seja, quantos por cento a variável dependente varia quando a variável explicativa variar 1 ponto percentual. Há outras possibilidades para a aplicação de logaritmos. Podemos aplicar o logaritmo apenas no lado direito da equação, ou apenas no lado esquerdo. Em ambos os casos a interpretação muda, como podemos ver no Quadro 7, que traz quatro modelos de regressão em que aplicamos logaritmos. A decisão de quando e como usar cada modelo dependerá do que estamos interessados em obter com a nossa estimação, portanto, a decisão é do pesquisador. Voltando ao Quadro 6, falta verificar ainda se os coeficientes estimados são estatisticamente significativos. A constante β̂1 apresentou um p – valor de 0,0104, que é acompanhado de dois asteriscos. Isso quer dizer que, ao nível de 1% de significância estatística, não podemos rejeitar a hipótese nula de que este parâmetro é igual a zero. Porém, aos níveis de 5% e 10% de significância estatística, nós rejeitamos H0 em favor da hipótese alternativa e, portanto, podemos dizer que a constante é diferente de zero do ponto de vista da significância estatística. 120 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS QUADRO 7 – FORMAS FUNCIONAIS ALTERNATIVAS Modelo Equação Interpretação do coeficiente angular Linear Yi = β1 + β2Xi Uma variação de uma unidade em X i altera a variável dependente, Yi, em β2 unidades. Log-linear InYi = β1 + β2 InXi Uma variação de um por cento em X i altera a variável dependente, Yi, em β2% (elasticidade). Log-lin InYt = β1 + β2t Estamos falando em um modelo de séries temporais em que t = 1, 2, ..., T , que pode representar dias, meses, trimestres, anos etc. Neste cvaso, β2 x 100 mede a taxa de crescimento médio da variável dependente. Lin-log Yt = β1 + β2InXt Usamos para medir crescimento, só que desta vez uma variação absoluta. β2 ÷ 100 é quanto, em valores absolutos, Yt varia quando Xt varia 1%. FONTE: Adaptado de Gujarati e Porter (2011) Lembre-se da regra geral, quando o p – valor é menor que o nível de significância estabelecido, 1%, 5%, ou 10%, rejeitamos a hipótese nula de que o coeficiente é estatisticamente igual a zero. Se o p – valor é maior que o nível de significância estatística, não podemos rejeitar a hipótese nula. O p – valor mede a probabilidade exata de cometer um erro do tipo 1, ou seja, rejeitar uma hipótese quando ela é verdadeira. No caso da constante estimada, do Quadro 6, a probabilidade de rejeitarmos a hipótese de que esse parâmetro é igual a zero e ele de fato ser igual a zero é de 1,04%. Trata-se de um valor baixo e, portanto, se estabelecermos um nível de significância estatística em 1%, 5% ou 10%, rejeitar a H0, ou não, será uma decisão do pesquisador e dependerá do grau de rigorosidade com que ele está tratando a sua pesquisa. Todos os demais coeficientes estimados são individual e estatisticamente significativos aos níveis de 1%, 5% e 10%. Se olharmos a estatística F, veremos que o seu valor calculado é de F2,61 = 1030,419, e se analisarmos o p – valor associado a essa estatística, veremos que é igual a 0,0000. Isso significa que rejeitamos H0 de que β2 = β3 = 0, e concluímos que, em conjunto, os coeficientes estimados são estatisticamente significativos. Finalmente, o R2 indica que 97,12% das variações de Mt são explicados pelo modelo 2.36, o que indica um alto poder de explicação do modelo, mas será que não estamos deixando alguma variável de fora? Talvez tenhamos incluído variáveis em excesso! Ou será que o modelo foi especificado de forma correta? Vamos começar verificando se a especificação do modelo 2.36 está correta. Primeiro testaremos se podemos deixar alguma variável de fora, ou seja, se não temos variáveis em excesso no modelo. Retornamos ao modelo 2.36, expresso agora em 2.40: 121 UNIDADE 2 | REGRESSÃO MÚLTIPLA Mt =β1 + β 2 Yt + β 3 it + ε t 2.40 Vamos testar se a variável it pode ser eliminada do modelo e assim melhoramos o resultado da nossa estimação. Para isso, a partir da janela do resultado do modelo estimado, reproduzida no Quadro 6, selecione o menu “Testes” e, na sequência, escolha “Omitir variáveis”. Preencha a janela de testes conforme a Figura 4 e clique em “Ok” para ver o resultado do teste: FIGURA 4 – OMITIR VARIÁVEIS NO MODELO 2.40 FONTE: Adaptado de Gretl (2018) O resultado do teste foi sintetizado no Quadro 8. A hipótese nula do teste é que o coeficiente estimado relacionado à variável it é estatisticamente igual a zero. O Gretl emprega um teste F e reporta essa estatística juntamente ao p – valor, para facilitar a nossa decisão de omitir ou não a variável. Ele também informa quantos critérios de informação melhoraram com a omissão da variável que está sendo testada. 122 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS QUADRO 8 – RESULTADO DO TESTE PARA OMITIR VARIÁVEIS DO MODELO Teste no Modelo 1 Hipótese nula: o parâmetro de regressão é igual a zero para i Estatística de teste: F(1, 61) = 33,8377, p-valor 2,36729e-007 A exclusão de variáveis melhorou 0 de 3 critérios de informação. FONTE: O autor O primeiro passo para entender o resultado é verificar que o p – valor é igual a 0,0000. Isso significa que você deve rejeitar a hipótese nula, ou seja, o parâmetro associado à variável it é relevante, ou estatisticamente diferente de zero. Na mesma linha, o Gretl nos informa que dos três critérios de informação levados em consideração, Akaike, Schwarz e Hannan-Quinn, nenhum deles melhorou com a exclusão dessa variável. Esses critérios de informação são definidos da seguinte forma: Critério de informação Akaike Schwarz Hannan-Quinn Equação () BIC = −2l (θˆ ) + k lnn HQC = −2l (θ̂ ) + 2 k lnlnn AIC = −2l θˆ + 2 k 2.41 2.42 2.43 Em que l (θ̂ ) representa o log de máxima verossimilhança como uma função do vetor de parâmetros estimados (θ̂ ) e k é o número de parâmetros estimados no modelo de regressão. A regra geral dos critérios de informação é que, quando comparamos modelos diferentes, devemos sempre selecionar aqueles que apresentem o menor critério de informação. DICAS Para conhecer mais detalhes, leia Cottrell e Lucchetti (2018, p. 221). • COTTRELL, Allin; LUCCHETTI, Riccardo “jack”. Gretl User’s Guide: Gnu Regression, Econometrics and Time-series Library. 2018. 394 p. Também pode ser obtido através do Gretl, no menu “Ajuda” e “Guia do usuário”. Clicando nessas opções, o Gretl abre esse manual no formato PDF. 123 UNIDADE 2 | REGRESSÃO MÚLTIPLA Portanto, como rejeitamos a hipótese nula relativa à exclusão da variável it e como o modelo estimado sem essa variável não melhora nenhum dos três critérios de informação citados, concluímos que it não deve ser excluída do modelo de regressão. Isso nos possibilita fazer outro questionamento. Será que não estamos deixando uma variável relevante de fora do nosso modelo? Digamos que queremos verificar se outra variável, digamos Pt, deve entrar no modelo. Neste caso, 2.40 deveria ser: Mt =β1 + β 2 Yt + β 3 it + β 4 Pt + ε t 2.44 Para fazer o teste, voltamos à janela do modelo 2.40 estimado pelo Gretl, selecionamos o menu “Testes” e depois escolhemos “Acrescentar variáveis”. Será apresentada uma janela para você preencher as informações, como a da Figura 5. Você deve selecionar a variável que quer testar e clicar em “Ok”. FIGURA 5 – TESTE DE ACRÉSCIMO DE VARIÁVEIS AO MODELO 2.40 FONTE: O autor 124 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS O resultado do teste está no Quadro 9. Novamente estamos suprimindo parte do que o Gretl reporta para facilitar a compreensão. Perceba que a hipótese nula, H0, é de que o parâmetro de regressão dessa nova variável é igual a zero, ou seja, ele não tem significância estatística e, portanto, não deve ser incluído no modelo. Perceba também que o Gretl reporta o p – valor do teste – que, neste caso, é de 0,0838. A pergunta que fica é: Com base no resultado apresentado, podemos rejeitar a hipótese nula de que não devemos incluir essa nova variável no modelo de regressão? QUADRO 9 – RESULTADO DO TESTE DE INCLUSÃO DE VARIÁVEIS AO MODELO Teste no Modelo 1 Hipótese nula: o parâmetro de regressão é igual a zero para P Estatística de teste: F(1, 60) = 3,091, p-valor 0,0838263 O acréscimo de variáveis melhorou 2 de 3 critérios de informação. FONTE: O autor A resposta correta a essa pergunta é “depende”! O pesquisador deve, nessa situação, avaliar o quão rigoroso ele é em relação a sua pesquisa. Perceba que aos níveis de 1% e 5% não podemos rejeitar a hipótese nula de que o parâmetro de regressão é igual a zero para a variável Pt. No entanto, ao nível de 10% de significância estatística, podemos rejeitar a hipótese nula e, portanto, incluir essa variável no modelo 2.40. Agora que conhecemos os critérios de informação, podemos ver que dois dos três critérios melhoram com a inclusão dessa variável. Seja qual for a sua decisão, pondere bem antes de incluir ou excluir uma variável. Em outras palavras, considere a teoria econômica subjacente ao modelo estimado e verifique se faz sentido esse acréscimo ou não. Costumamos usar a expressão “parcimonioso” para definir o melhor modelo de regressão. Para fins de ilustração, vamos acrescentar a variável Pt ao modelo e estimar a regressão 2.44. O resultado pode ser visto no Quadro 10: 125 UNIDADE 2 | REGRESSÃO MÚLTIPLA QUADRO 10 – RESULTADO DA ESTIMAÇÃO DO MODELO 2.44 Modelo 3: MQO, usando as observações 2002:1-2017:4 (T = 64) Variável dependente: M coeficiente erro padrão razão-t p-valor ---------------------------------------------------------const 1,14960 0,429657 2,676 0,0096 Y 0,830509 0,0287457 28,89 6,60e-037 i −0,279869 0,0460162 −6,082 8,96e-08 P 0,0280719 0,0159670 1,758 0,0838 Média var. dependente 12,20565 Soma resíd. quadrados 0,378910 R-quadrado 0,972660 F(3, 60) 711,5241 Log da verossimilhança 73,32680 Critério de Schwarz −130,0181 rô 0,391675 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn Durbin-Watson *** *** *** * 0,469026 0,079468 0,971293 7,85e-47 −138,6536 −135,2516 1,157380 Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 27 ago. 2018. Perceba que o coeficiente estimado da variável Pt só é estatisticamente significativo ao nível de 10% de significância estatística. Porém, note que o R2 se elevou em comparação a 2.40, passando de 0,9712 para 0,9726, ainda assim permanecendo alto. Por outro lado, sabemos que o R2 não deve ser usado para comparar modelos de regressão, mas sim o R2ajustado, que no caso do modelo 2.40 era de 0,9703, e no modelo 2.44 passou para 0,9712. E quanto aos critérios de informação? Como temos menos de 100 observações, o melhor critério a ser analisado é o Akaike, cujas razões são discutidas em Diebold (2007, p. 85). Se tivéssemos mais de 100 observações, preferiríamos o Schwarz. No entanto, o critério de Hannan-Quinn é assintoticamente melhor do que o de Schwarz. Um resumo dos critérios de informação está no Quadro 11: QUADRO 11 – COMPARANDO OS CRITÉRIOS DE INFORMAÇÃO Critério Modelo 2.40 Modelo 2.44 Akaike −137,4387 −138,6536 Schwarz −130,9620 −130,0181 Hannan-Quinn −134,8872 −135,2516 FONTE: O autor 126 TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS Dois pontos a serem destacados no Quadro 11: 1. Os valores são negativos, portanto, -138 é menor do que -137. 2. O critério de Schwarz é o único que teve o seu valor aumentado, enquanto os demais diminuíram. Com base no Quadro 11, percebemos que o modelo 2.44 é o que deve ser escolhido, porque a inclusão da nova variável torna este modelo mais parcimonioso, ou seja, melhora a capacidade de previsão do modelo (visto pelo R2) e, de modo geral, os coeficientes estimados são todos estatisticamente significativos, contanto que você considere 10% de significância estatística. Há ainda um teste a ser aplicado, o RESET, que é um acrônimo de Regression Specification Error Test. Ele é baseado na distribuição F e traz na hipótese nula, H0, a informação de que a forma funcional é adequada, enquanto a alternativa é que existe outra forma funcional que se ajusta melhor aos dados utilizados. Novamente, a implementação do teste é facilitada com o uso do Gretl, porque ele já tem no seu pacote uma rotina pronta. Para acessá-la, a partir da janela do modelo estimado, apresentado no Quadro 6, selecione o menu “Testes” e depois “RESET de Ramsey”. Na janela que abrir, você deverá informar a especificação alternativa a ser testada. Essa forma funcional é utilizada para fins de comparação com o modelo originalmente estimado. Os resultados do teste estão no Quadro 12. Como você pode perceber, a tela apresentada no Quadro 12 é o resultado da estimação de uma regressão auxiliar. Essa regressão é construída a partir da estimação do modelo 2.40, quando você deve salvar a série da variável dependente estimada e incluir essa série na regressão auxiliar na forma de quadrados e cubos (no quadro representado por yhat^2 e yhat^3). QUADRO 12 – RESULTADO DO TESTE RESET APLICADO AO MODELO 2.40 Regressão auxiliar para o teste de especificação RESET MQO, usando as observações 2002:1-2017:4 (T = 64) Variável dependente: M coeficiente erro padrão -------------------------------------------------------const 206,630 157,046 Y −62,6990 45,3887 i 20,5102 14,7860 yhat^2 6,61986 4,52447 yhat^3 −0,190175 0,124680 razão-t p-valor 1,316 −1,381 1,387 1,463 −1,525 0,1934 0,1724 0,1706 0,1487 0,1325 Aviso: matriz de dados quase singular! Estatística de teste: F = 15,511588, com p-valor = P(F(2,59) > 15,5116) = 3,86e-006 FONTE: O autor 127 UNIDADE 2 | REGRESSÃO MÚLTIPLA As duas últimas linhas do quadro são as que mais nos interessam. A primeira apresenta a estatística Fcalculada, e a segunda o p – valor desse teste F. Como podemos ver, o número reportado é extremamente pequeno e menor do que os usuais níveis de significância estatística que utilizamos, ou seja, 0,01, 0,05 e 0,10. Com isso, podemos rejeitar a hipótese nula de que o modelo original está corretamente especificado e concluir que devemos revisar o modelo como um todo. Nem sempre o resultado do teste significa que devemos mudar a forma funcional de linear para logarítmica, ou de logarítmica para quadrática, cúbica ou recíproca. Muitas vezes, como teremos a oportunidade de ver na Unidade 3, pode haver outros problemas relacionados ao banco de dados, variáveis proxy erroneamente especificadas, colinearidade entre variáveis explicativas, correlação serial dos resíduos ou heteroscedasticidade, entre outros. No caso do nosso exemplo, o mais provável é que ignoramos o fato de estarmos lidando com séries temporais e omitimos uma série de testes que antecedem a estimação desse tipo de dado. Esses testes serão objeto de estudo da Econometria II e, por enquanto, não iremos abordá-los. 128 RESUMO DO TÓPICO 2 Neste tópico, você aprendeu que: • É possível estimar os parâmetros de MQO e as principais estatísticas de teste usando álgebra matricial. • Usar a álgebra matricial para estimar um modelo de regressão com múltiplas variáveis explicativas torna o seu entendimento mais intuitivo. • Pode-se realizar testes adicionais aplicados aos resultados do modelo de regressão, tais como os testes de omissão e inclusão de variáveis e o teste RESET, além de outras formas funcionais aplicando logaritmos às variáveis. • Existem os critérios de informação – Akaike, Schwarz e Hannan-Quinn – empregados para selecionar modelos que melhor se ajustam aos dados a serem empregados na estimação. 129 AUTOATIVIDADE Vamos revisar os principais conceitos vistos no Tópico 2. Para isso, utilize os dados do Quadro 13, que apresenta a quantidade de veículos produzidos no Brasil entre janeiro de 2015 e fevereiro de 2018, o rendimento real médio de todos os trabalhadores efetivos e a taxa média de juros das operações de crédito com recursos livres para pessoas físicas na linha de aquisição de veículos. QUADRO 13 – DADOS SOBRE PRODUÇÃO DE AUTOMÓVEIS, SALÁRIO E JUROS Período Auto Salário Juros Período Auto Salário Juros janeiro/2015 165.383 2.269 23,84 agosto/2016 149.414 2.124 26,17 fevereiro/2015 165.270 2.275 24,76 setembro/2016 141.286 2.116 26,13 março/2015 203.826 2.259 24,67 outubro/2016 151.948 2.112 25,75 abril/2015 maio/2015 177.807 2.174 24,55 novembro/2016 185.640 2.109 25,85 178.335 2.159 24,81 dezembro/2016 166.216 2.205 25,7 junho/2015 158.494 2.167 24,71 janeiro/2017 149.289 2.408 26,18 julho/2015 191.375 2.152 24,5 fevereiro/2017 170.349 2.427 25,71 agosto/2015 186.323 2.137 24,79 março/2017 200.123 2.377 24,8 setembro/2015 147.031 2.130 25,57 abril/2017 157.755 2.176 24,39 outubro/2015 165.763 2.125 25,89 maio/2017 208.110 2.160 24,25 novembro/2015 143.934 2.122 26,18 junho/2017 173.609 2.151 24,03 dezembro/2015 123.699 2.192 26,01 julho/2017 187.771 2.157 23,79 janeiro/2016 132.206 2.397 27,48 agosto/2017 219.927 2.163 23,22 fevereiro/2016 118.574 2.394 27,56 setembro/2017 203.103 2.169 22,96 março/2016 165.544 2.345 27,01 outubro/2017 209.989 2.167 22,51 abril/2016 142.067 2.125 26,77 novembro/2017 208.540 2.166 22,14 maio/2016 146.224 2.120 26,33 dezembro/2017 180.665 2.243 22,23 junho/2016 147.480 2.099 25,97 janeiro/2018 180.925 2.446 22,74 julho/2016 152.295 2.105 25,99 fevereiro/2018 176.807 2.468 22,47 FONTE: <www.ipeadata.gov.br> e <www.bcb.gov.br>. Acesso em: 27 ago. 2018. Para essa atividade, a variável dependente é a quantidade de automóveis produzidas e as variáveis explicativas são a renda e a taxa de juros. O seguinte modelo de regressão foi montado: Autot = β1 + β 2Salariot + β 3 Jurost + ε t 130 2.45 No entanto, como nosso interesse era obter a elasticidade da produção de automóveis em razão dos rendimentos e da taxa de juros, transformamos os dados do Quadro 13 aplicando logaritmos às variáveis e redefinimos o modelo 2.45 como: ln Autot = α 1 + α 2 lnSalariot + α 3 ln Jurost + ut 2.46 Com isso, ao estimarmos o modelo 2.46, α̂ 2 nos dirá quanto de aumento na produção de automóveis teremos, em percentual, quando a renda real aumentar 1%. Em relação à variável juros, o coeficiente estimado α̂ 3 medirá qual o percentual de aumento ou redução da produção de automóveis teremos se os juros para o financiamento de veículos para pessoa física reduzir ou aumentar em 1%. O resultado do modelo 2.46 estimado é o seguinte: �Autot ln = 20 ,1326 ( 0 , 0000 ) * * * −0 , 2450 lnSalariot ( 0 , 4764 ) −1, 9336 ln Jurost ( 0 , 0000 ) * * * 2.47 Entre parênteses temos o p – valor e os asteriscos *, ** e ***, respectivamente, que indicam significância estatística aos níveis de 10%, 5% e 1%. Com base no resultado da regressão, assinale V para as sentenças verdadeiras e F para as falsas: a) ( ) Apenas α̂ 2 não é estatisticamente significativo, quando testamos a hipótese nula, H0: α2 = 0, contra a hipótese alternativa de que H1: α2 ≠ 0. b) ( ) O modelo 2.46 apresentou R2 = 0,5740. Se estimássemos o modelo 2.45, teríamos um R2 = 0,5781. Como o R2 é usado para comprar modelos e nos auxilia na escolha entre eles, devemos escolher o modelo 2.45, porque apresentou o R2 mais alto. c) ( ) A estatística F(2,35) = 23,5788 do modelo 2.46, tem p – valor = 0,0000. Isso significa que rejeitamos a hipótese nula, H0: α2 = α3 = 0, contra a hipótese alternativa de que pelo menos um dos coeficientes estimados é estatisticamente diferente de zero. d) ( ) Como a amostra contém apenas 38 observações, o melhor critério para decidir entre o modelo 2.45 e 2.46 é o critério de informação de Akaike. Como no modelo 2.45 AIC = 850,8035 e no modelo 2.46 AIC = –62,80213, escolhemos o modelo 2.46 como sendo o mais parcimonioso, apesar do R2 ser menor nesse modelo. e) ( ) Empregamos o teste RESET aplicado no modelo 2.46, sob a hipótese nula de que a especificação daquele modelo é adequada, apresentou p – valor = 0,2893. Isso significa que não devemos usar logaritmos para estimar 2.46. 131 132 TÓPICO 3 UNIDADE 2 USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS 1 INTRODUÇÃO Até agora, as variáveis explicativas que entraram nos nossos modelos de regressão eram quantitativas: anos de estudo, esperança de vida ao nascer em anos, renda per capita em R$ e assim por diante. E se quisermos saber, por exemplo, se existe diferença na renda recebida por homens e mulheres? E se quisermos saber se a renda per capita tem influência maior sobre o IDH na região Norte e Nordeste do Brasil do que no restante do país? Como faremos para incluir essas variáveis, haja vista que elas não são mensuráveis quantitativamente? Gênero, região geográfica, religião, classe social, entre outras, são categorias ditas qualitativas e podem entrar nos modelos de regressão, tanto como uma variável dependente – como nos modelos Logit e Probit – quanto na forma de variável explicativa, que é o tema desse tópico. Para fazer isso, empregamos as variáveis binárias, chamadas de dummy, que assumem apenas dois valores possíveis, zero ou um. Assim, ao estudar a diferença salarial entre homens e mulheres, podemos inserir uma dummy com valor igual a zero quando aquela observação se refere a homens, e valor igual a um, quando se referir a mulheres. Com esse procedimento simples podemos estimar a diferença média de salários e verificar se essa diferença é significante do ponto de vista estatístico. Veremos também que a dummy pode ser empregada para testar quebras estruturais, identificando se ao longo do tempo os parâmetros de regressão mudaram em resposta a algum evento importante, como uma guerra, recessão, quebra na safra agrícola, entre outros. É possível também usar essa variável para extrair a sazonalidade em uma série temporal, o que é muito útil quando queremos saber a tendência do comportamento de alguma variável, mas sabemos que ela tem comportamento sazonal, como as vendas de fertilizantes, o preço dos hortifrútis, as vendas do comércio, entre tantos outros exemplos. A facilidade no emprego dessas variáveis e a sua fácil interpretação tornam a dummy uma aliada extremamente importante para o econometrista. Entender como e quando usar essa técnica abrirá o caminho para você ampliar ainda mais o campo de utilização da econometria no seu dia a dia. 133 UNIDADE 2 | REGRESSÃO MÚLTIPLA 2 ESTIMANDO UM MODELO DE REGRESSÃO COM VARIÁVEIS QUALITATIVAS A título de exemplo, vamos verificar qual a diferença média da renda per capita no Brasil, para o ano de 1991. Para isso, vamos usar os dados fornecidos pelo <www.atlasbrasil.org.br>, estimando o seguinte modelo de regressão: RDPCi = β 1 + β 2 D 2 i + β 3 D 3i + β 4 D 4 i + ε i 3.1 Em que RDPCi é a renda per capita média, calculada como a razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. As variáveis que recebem os nomes D acompanhadas por algarismos são dummies regionais, em que D2 = Sul , assumindo valor igual a 1 para os estados dessa região e 0 para os demais, D3 = Sudeste , tem valor igual a 1 para os estados dessa região e 0 para os demais, e D4 = Centro – Oeste com valor igual a 1 para os estados dessa região e 0 para os demais. Perceba que deixamos duas regiões de fora, Norte e Nordeste. O nosso objetivo é saber se as pessoas que moram nas regiões Norte e Nordeste têm renda per capita menor do que as que moram nas demais regiões do país. Essa renda será obtida pela estimação da constante β̂1. Com isso, temos quatro regiões e três variáveis dummy. Por que não temos quatro regiões e quatro variáveis dummy? A regra geral para usarmos variáveis dummy nos modelos de regressão é sempre ter uma variável a menos do que a quantidade de categorias estudada. Por exemplo, se o objetivo é estudar a diferença salarial entre homens e mulheres, teremos duas categorias, gênero masculino e gênero feminino. Nesse caso, trabalhamos com uma única variável dummy, que assumirá valor igual a “um” para um dos gêneros e “zero” para o outro. Se quisermos usar uma dummy para cada categoria, por exemplo, gênero masculino e gênero feminino, é indispensável estimar o modelo de regressão sem o intercepto β1. Lembre-se sempre dessa regra prática, pois se você estimar a regressão e mantiver a constante, provocará a chamada “armadilha das variáveis binárias”, causando colinearidade perfeita (GUJARATI; PORTER, 2011, p. 292). Como sabemos qual das variáveis atribuiremos o valor 1 e qual assumirá valor igual a zero? Essa decisão cabe ao pesquisador escolher. No nosso exemplo, como queremos saber se os residentes das regiões Norte e Nordeste têm renda menor ou maior do que os das demais regiões, a nossa variável de controle será aquelas regiões, Norte e Nordeste. 134 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS O Quadro 14 apresenta os dados que usamos no nosso exemplo. Veja como é construída a base de dados quando inserimos variáveis qualitativas. Para o primeiro indivíduo, consta estado de Rondônia, que pertence à região Norte, D2 = 0, D3 = 0 e D4 = 0. Isso acontece para os demais estados que pertencem a essa região e para os do Nordeste. Veja também, que no caso dos estados do Sul, D2 = 1, D3 = 0 e D4 = 0, enquanto que os do Sudeste, D2 = 0, D3 = 1 e D4 = 0. Evidentemente, os estados da região Centro-Oeste recebem valores D2 = 0, D3 = 0 e D4 = 1. O fato de omitirmos a constante no modelo de regressão fará com que ele capture a renda média per capita das regiões Norte e Nordeste, que são as regiões ou categorias de base para o nosso exercício. QUADRO 14 – RENDA PER CAPITA POR UNIDADE DA FEDERAÇÃO – BRASIL, 1991 Unidade Federação RDPC D2 D3 D4 Unidade Federação RDPC Rondônia 304,90 0 0 Acre 284,96 0 Amazonas 345,82 Roraima 437,24 Pará D2 D3 D4 0 Sergipe 247,78 0 0 0 0 0 Bahia 234,57 0 0 0 0 0 0 Minas Gerais 373,85 0 1 0 0 0 0 Espírito Santo 377,38 0 1 0 273,22 0 0 0 Rio de Janeiro 608,80 0 1 0 Amapá 378,57 0 0 0 São Paulo 746,22 0 1 0 Tocantins 243,58 0 0 0 Paraná 439,09 1 0 0 Maranhão 156,47 0 0 0 Santa Catarina 449,78 1 0 0 Piauí 167,03 0 0 0 Rio Grande do Sul 507,61 1 0 0 Ceará 219,83 0 0 0 Mato Grosso do Sul 433,21 0 0 1 Rio Grande do Norte 240,33 0 0 0 Mato Grosso 395,34 0 0 1 Paraíba 196,59 0 0 0 Goiás 410,55 0 0 1 Pernambuco 275,49 0 0 0 Distrito Federal 916,00 0 0 1 Alagoas 211,98 0 0 0 FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 27 ago. 2018. Rodando o modelo 3.1 por mínimos quadrados ordinários obtemos o resultado apresentado no Quadro 15: 135 UNIDADE 2 | REGRESSÃO MÚLTIPLA QUADRO 15 – RESULTADO DA ESTIMAÇÃO DO MODELO 3.1 POR MÍNIMOS QUADRADOS ORDINÁRIOS Modelo 1: MQO, usando as observações 1-27 Variável dependente: RDPC coeficiente erro padrão razão-t p-valor --------------------------------------------------------const 263,647 32,0580 8,224 2,66e-08 D2 201,846 80,6774 2,502 0,0199 D3 262,915 71,6838 3,668 0,0013 D4 275,128 71,6838 3,838 0,0008 Média var. dependente 365,7848 Soma resíd. quadrados 378198,3 R-quadrado 0,526089 F(3, 23) 8,510771 Log da verossimilhança −167,2004 Critério de Schwarz 347,5841 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn *** ** *** *** 175,1962 128,2318 0,464274 0,000553 342,4008 343,9421 Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%. FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 27 ago. 2018. A constante β̂1 revela que a renda per capita média das regiões Norte e Nordeste é de R$ 263,647. Pelo p – valor constatamos que essa média é estatisticamente significativa (por quê?). Se você retornar aos números do Quadro 14 e calcular a média da região Norte e Nordeste chegará ao mesmo valor do β̂1. E como interpretamos os demais coeficientes estimados? Eles representam a diferença média de salário para a nossa variável de controle, ou seja, para a região Norte e Nordeste. Podemos ver, pelo sinal dos coeficientes estimados, que a renda média per capita na região Sul é R$ 201,846 maior do que a das regiões Norte e Nordeste. Esse resultado é estatisticamente significativo quando trabalhamos com um nível de 5% de significância estatística. Porém, se considerarmos um nível de significância de 1%, não podemos rejeitar uma hipótese nula de que este coeficiente é estatisticamente igual a zero, pois o p – valor = 0,0199 informa a probabilidade de rejeitar a hipótese nula e ela ser verdadeira é de 1,99%. Entretanto, cabe ao pesquisador definir o grau de rigorosidade que ele quer trazer para a sua pesquisa e consequentemente a decisão de aceitar ou rejeitar a hipótese nula. Perceba que a maior diferença está na região Centro-Oeste. Isso se dá porque o Distrito Federal tem uma renda per capita que é mais do que o dobro dos demais estados, fazendo a média da região aumentar em relação às demais. O resultado dessa região também é estatisticamente significativo, assim como o da região Sudeste. Sabemos que a renda per capita média das regiões Norte e Nordeste é de R$ 263,647. Mas, se quisermos saber qual a renda média per capita da região Sul, 136 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS como fazemos? Neste caso, basta somar os coeficientes estimados β̂1 e β̂ 2. Assim, chegaremos ao valor de 263,647 + 201,846 = 495,493. Calcule essa média usando os valores do Quadro 14 para se certificar de que você chega ao mesmo resultado. Pelo teste F, verificamos que em conjunto os coeficientes estimados são estatisticamente significativos, com F3,23 = 8,5108 e P – valor(F) = 0,0005, e o R2 = 0,5261 mostra que o modelo tem uma boa qualidade de ajustamento aos dados empregados no exercício. Para encerrar, apresentamos no Quadro 16 a estimação dos parâmetros do modelo 3.1 para os anos de 1991, 2000 e 2010, para fins de comparação: QUADRO 16 – COMPARANDO O MODELO 3.1 PARA 1991, 2000 E 2010 1991 2000 2010 Constante 263,647 (0,0000)*** 342,563 (0,0000)*** 512,965 (0,0000)*** D2 201,846 (0,0199)** 337,507 (0,0008)*** 431,712 (0,0014)*** D3 262,915 (0,0013)*** 365,307 (0,0001)*** 409,255 (0,0008)*** D4 275,128 (0,0008)*** 389,907 (0,0000)*** 509,020 (0,0000) F(3,23) 8,5108 (0,0006)*** 15,04973 (0,0000)*** 12,5734 (0,0000)*** R2 0,5261 0,6625 0,6212 Obs.: p – valor entre parênteses com *, ** e *** indicando significância estatística ao nível de 10%, 5% e 1%, respectivamente. FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 27 ago. 2018. Podemos ver que todos os coeficientes estimados nos três modelos são estatisticamente significativos e apresentam sinal positivo, indicando que a renda per capita média nas regiões Sul, Sudeste e Centro-Oeste é maior do que a renda média per capita das regiões Norte e Nordeste. O bom de se comparar esses três anos é poder verificar a evolução histórica tanto da renda média quanto da diferença na renda entre as regiões. Dito de outra forma, podemos verificar se há um aumento ou redução na desigualdade entre essas regiões ao longo do tempo. Começando com nossa variável de controle, regiões Norte e Nordeste, de 1991 até 2010 temos um aumento significativo na renda média. Ela passa de R$ 263,647 em 1991 para R$ 342,563 em 2000, saltando para R$ 512,965 em 2010. É um aumento considerável. A dúvida que fica é: A desigualdade de renda reduziu nesse período comparativamente às demais regiões ou ela aumentou? 137 UNIDADE 2 | REGRESSÃO MÚLTIPLA Quando comparamos os anos 1999 com 2000, vemos que aumentou a renda média das regiões Norte e Nordeste, mas as demais regiões também tiveram elevação na renda média, em percentual superior ao aumento na renda da região de controle. Porém, quando comparamos 2000 com 2010, vemos que há um aumento na renda média da região Norte e Nordeste que é superada apenas pelo aumento da renda per capita da região Sul. As demais regiões tiveram aumento na renda, mas em proporção inferior ao observado na região Norte e Nordeste. Aqui caberia uma investigação mais aprofundada sobre esse tema. Poderíamos tentar explicar o que levou a esse aumento na renda per capita, o que ocasionou o aumento da desigualdade entre 1999 e 2000 e o que levou à redução dessa desigualdade entre 2000 e 2010, bem como quais fatores influenciaram, quais as razões, entre outras questões, é papel do pesquisador investigar e tentar responder a partir do resultado obtido pela sua pesquisa. Como você pode ver, apesar de alguns considerarem a econometria um ramo da ciência econômica que tem aplicação apenas no mercado financeiro, a aplicação em questões sociais e voltadas à avaliação de políticas públicas é fundamental. Esse é mais um motivo para você se dedicar cada vez mais ao estudo desse conjunto de técnicas que estamos lhe apresentando. 3 OUTRAS APLICAÇÕES COM VARIÁVEIS QUALITATIVAS As variáveis dummies são extremamente versáteis e têm uma aplicação muito ampla dentro da econometria. Além de estimarmos diferenças entre categorias diversas, por exemplo, entre regiões geográficas, entre gêneros, ou entre vendedores, podemos empregá-las para verificar se há mudanças estruturais nos parâmetros de uma regressão ao longo do tempo. No exemplo apresentado no tópico anterior, usamos dados de corte para estimar a relação entre a renda média per capita entre as regiões geográficas do Brasil. Vimos que há mudanças nos parâmetros estimados, até mesmo porque as dummies eram as únicas variáveis explicativas. E se tivéssemos um estudo sobre o consumo e a renda e quiséssemos saber se um determinado evento foi capaz de alterar a estrutura dos parâmetros estimados pela nossa regressão? Nesse caso, teríamos um modelo de regressão com variáveis explicativas diversas e incluiríamos uma dummy para capturar o efeito desse evento extraordinário que ocorreu. Para essa análise, propomos a conhecida relação consumo versus renda, para o período entre 1997 e 2017, com dados trimestrais obtidos no site do Banco Central do Brasil, séries 22109 – PIB trimestral – Dados dessazonalizados – Produto Interno Bruto a preços de mercado e 22110 – PIB trimestral – Dados 138 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS dessazonalizados – Consumo das famílias. Dessa vez, ao invés de usarmos valores expressos em R$, estamos usando uma série formada por números-índices, tendo como base 100 o ano de 1995. Queremos desafiá-lo a entrar no site do BCB e obter essas séries de dados e assim montar o seu arquivo do Gretl. Acreditamos que você consiga chegar aos mesmos resultados que nós chegamos, com a estimação dos próximos modelos de regressão. A figura a seguir mostra os gráficos de consumo e renda do Brasil para o período entre 1997 e 2017. Notem que há uma mudança brusca na renda em 2008. O que teria provocado essa mudança repentina? Será que esse evento foi capaz de alterar a relação consumo versus renda a partir desse período? GRÁFICO 1 – DADOS SOBRE CONSUMO E RENDA NO BRASIL, 1997 A 2017 FONTE: O autor Para fazer esse teste, vamos estimar o modelo 3.2, relacionando apenas consumo como uma função da renda. Para isso, vamos desconsiderar alguns aspectos técnicos que serão abordados apenas quando você estudar os modelos de regressão de séries temporais. Por enquanto, vamos dar atenção apenas aos aspectos que você já estudou. 139 UNIDADE 2 | REGRESSÃO MÚLTIPLA Consumot = β1 + β 2 Rendat + ε t 3.2 O resultado da estimação é apresentado de forma resumida a seguir, com p – valor entre parênteses: � Consumo t R2 = 0 , 9800 = −17 , 6680 + 1,1312 Rendat ( 0 , 0000 ) ( 0 , 0000 ) 2 Rajustado = 0 , 9798 3.3 F(1 ,85) = 4166 , 513 * * * Note que os coeficientes estimados são estatisticamente significativos. Você deve estar achando estranho que o β̂ 2 > 1, certo? Como explicamos anteriormente, os dados se referem a números-índice e não aos valores em Reais. Isso significa que, um aumento de 1 ponto-base na renda faz com que o consumo aumente 1,1312 pontos-base. Para uma renda de 100 pontos-base, esperamos que o consumo seja de –17,6680 + 1,1312 * 100 = 95,452. Em agosto de 2007, o mundo se viu às voltas de uma crise financeira que iniciou nos Estados Unidos e afetou todas as economias do mundo, tendo o seu auge no terceiro trimestre de 2008. DICAS Para mais detalhes sobre a crise do subprime, leia Borça Junior e Torres Filho (2008). • BORÇA JUNIOR, Gilberto Rodrigues; TORRES FILHO, Ernani Teixeira. Analisando a Crise do Subprime. Revista do Bndes, Rio de Janeiro, v. 30, n. 15, p. 129-159, dez. 2008. Para o nosso exercício, vamos iniciar a partir do resultado da regressão 3.3 e aplicar o teste desenvolvido por Chow (1960). Trata-se de um teste baseado na estatística F, que testa a estabilidade dos parâmetros de regressão ao longo do tempo. A hipótese nula, H0, é que não existe quebra estrutural. Para implementar o teste você deve, a partir da janela da regressão estimada, de onde obtivemos os dados da equação 3.3, clicar em “Testes” e na sequência escolher “Teste de Chow”. Você deve preencher os campos como na Figura 6: 140 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS FIGURA 6 – ESTIMANDO O TESTE DE CHOW FONTE: Adaptado de Gretl (2018) O resultado é apresentado na Figura 7, porém, ao retornar à janela do modelo estimado, o Gretl nos apresenta o resultado do teste de forma mais fácil de se entender, como mostramos: FIGURA 7 – RESULTADO DO TESTE DE CHOW NA JANELA DE REGRESSÃO FONTE: Adaptado de Gretl (2018) Como a hipótese nula é a de que não há quebra estrutural, e o p – valor é muito baixo, menor do que 0,01 (ou 1% de significância estatística), rejeitamos H0 e concluímos que existe quebra estrutural, o que significa dizer que, a partir do quarto trimestre de 2008, as relações entre consumo e renda no Brasil sofreram alterações significativas. 141 UNIDADE 2 | REGRESSÃO MÚLTIPLA QUADRO 17 – RESULTADO DO TESTE DE CHOW Regressão aumentada para o teste de Chow MQO, usando as observações 1996:1-2017:3 (T = 87) Variável dependente: Consumo coeficiente erro padrão razão-t p-valor ---------------------------------------------------------const 15,6480 2,97096 5,267 1,07e-06 Renda 0,842115 0,0247916 33,97 1,85e-050 splitdum −47,9868 8,40690 −5,708 1,72e-07 sd_Renda 0,387381 0,0536757 7,217 2,30e-010 Média var. dependente 138,4844 Soma resíd. quadrados 497,8662 R-quadrado 0,993303 F(3, 83) 4103,289 Log da verossimilhança −199,3301 Critério de Schwarz 416,5238 rô 0,766458 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn Durbin-Watson *** *** *** *** 29,40045 2,449161 0,993061 4,36e-90 406,6601 410,6319 0,472046 Teste de Chow para a falha estrutural na observação 2008:4 F(2, 83) = 82,3846 com p-valor 0,0000 Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%. FONTE: Adaptado de Gretl (2018) O problema do teste de Chow é que ele não especifica em qual parâmetro ocorreu a quebra estrutural. Pode ter ocorrido na constante, no coeficiente angular ou em ambos. Podemos resolver esse problema empregando as variáveis dummies. Começamos estimando o modelo 3.4, em que adicionamos uma variável dummy com valor igual a zero de 1996 até o terceiro trimestre de 2008 e assume valor igual a 1 a partir do quarto trimestre de 2008. Consumo= β1 + + β 3 Dt + β 2 Rendat + ε t t 3.4 Para adicionar a dummy no Gretl, basta selecionar no menu “Acrescentar” a opção “Dummy para o intervalo de observações”. Na janela que abre, você deve dar um nome à nova variável e indicar quando a dummy deve começar e quando ela deve terminar. O resultado dessa estimação é apresentado a seguir: 142 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS � Consumo t = 5 , 8108 ( 0 , 0863 ) * R2 = 0 , 9891 + 12 ,1238 Dt ( 0 , 0000 ) * * * 2 Rajustado = 0 , 9798 + 0 , 9248 Rendat ( 0 , 0000 ) * * * 3.5 F2 , 84 = 3811,102 * * * Acadêmico, queremos que você compare esse resultado com 3.3 e perceba as estatísticas apresentadas na parte de baixo das duas equações. Perceba que o R2 é maior em 3.5 do que em 3.3. Como vimos, a inclusão de uma variável explicativa faz com que o modelo se ajuste melhor aos dados, porém, como não estamos interessados em analisar qual dos dois modelos é o melhor, partiremos para a interpretação direta dos resultados. A pergunta que nos interessa é se o modelo 3.5 resolveu o nosso problema, ou seja, se ele identificou a quebra estrutural do resultado obtido em 3.3. Como o coeficiente estimado β̂ 3 é estatisticamente significativo, podemos concluir que sim, que há uma quebra estrutural no intercepto do modelo de regressão estimado nesse período. Assim, podemos reescrever 3.3 como: 1T 1996 até 3T 2008 � Consumo = t 5 , 8108 + 0 , 9248 Rendat 3.6 4T 2008 até 3t 2017 � Consumo = t 17 , 9346 + 0 , 9248 Rendat 3.7 Em que o intercepto de 3.7 é dado por β1 + β3. O Gráfico 2 apresenta esse deslocamento consolidado em 3.7: ^ 143 ^ UNIDADE 2 | REGRESSÃO MÚLTIPLA GRÁFICO 2 – QUEBRA ESTRUTURAL COM DESLOCAMENTO NO INTERCEPTO FONTE: O autor E se a mudança econômica ocorrida em 2008 tivesse alterado também a resposta do consumo à mudança na renda? Nesse caso, o coeficiente β̂ 3 no modelo 3.8 tem que ser estatisticamente significativo. Consumot = β1 + β2Rendat + β3 (Dt x Rendat) + εt 3.8 Agora a variável dummy é multiplicada pela renda e, com isso, caso seja estatisticamente significativo, o coeficiente estimado β̂ 2, que é a inclinação do modelo 3.8, será dado por β̂ 2 + β̂ 3 . Para acrescentar a variável Dt x Rendat no Gretl, nós selecionamos a no menu “Acrescentar” e na sequência “Definir nova variável”. A Figura 8 ilustra esse procedimento. O Gretl reconhece os mesmos operadores usados nas fórmulas que você usa no Excel, em que * indica multiplicação, / indica divisão, e os operadores de + e – indicam adição e subtração. 144 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS FIGURA 8 – ACRESCENTANDO NOVA VARIÁVEL AO MODELO FONTE: Adaptado de Gretl (2018) Agora que criamos a nova variável, em que multiplicamos a dummy pela renda, podemos estimar o modelo 3.8, incluindo como variáveis explicativas a Renda e a nova variável D_Renda. O resultado é apresentado em 3.9: � Consumo t R2 = 9 , 6550 ( 0 , 0040 ) * * * + 0 , 8918 Rendat ( 0 , 0000 ) * * * + 0 , 0838 ( D _ Rendat ) ( 0 , 0000 ) * * * 3.9 2 0 , 9907 = Rajustado 0= , 9904 F( 2 , 84 ) 4461, 316 * * * A significância estatística do β̂ 3 nos mostra que houve quebra estrutural na inclinação da reta de regressão, passando a β̂ 2 + β̂ 3 = 0,8918 + 0,0838 = 0,9756 , como mostra 3.10 e 3.11, e ilustrado no Gráfico 3: 1T 1996 até 3T 2008 � Consumo = t 9 , 6550 + 0 , 8918 Rendat 3.10 4T 2008 até 3T 2017 � Consumo = t 9 , 6550 + 0 , 9756 Rendat 3.11 A diferença da equação 3.10 para 3.11 está na inclinação. É como se o evento de 2008 tivesse sido capaz de mudar as relações de consumo como função da renda e, com isso, o acréscimo de uma unidade na renda faz com que o consumo aumente, mas não na mesma proporção que aumentava no modelo 3.10. 145 UNIDADE 2 | REGRESSÃO MÚLTIPLA Como não incluímos a dummy da constante no modelo estimado, as duas regressões partem da mesma origem e vão se afastando ao longo do tempo, nunca se encontrando. Diferentemente do caso anterior, em que o intercepto mudava e as curvas de regressão eram paralelas, podemos dizer que no caso de a mudança ocorrer apenas na inclinação, que temos regressões concorrentes. Obviamente, se não houvesse quebra estrutural, nem intercepto e nem inclinação, ou seja, se os coeficientes estimados das dummies não fossem estatisticamente significativos, teríamos regressões coincidindo a origem e a inclinação. GRÁFICO 3 – QUEBRA ESTRUTURAL COM MUDANÇA NA INCLINAÇÃO FONTE: O autor E se juntássemos as duas variações? Podemos testar se houve quebra estrutural tanto no intercepto quanto na inclinação da reta de regressão? Para verificar isso, estimamos o modelo 3.12: Consumot = β1 + β3Dt + β2Rendat + β4(Dt x Rendat) + εt 3.12 O resultado do modelo 3.12 está expresso em 3.13: � Consumo = t R2 15 , 6480 ( 0 , 0000 ) * * * * − 47 , 9868 Dt ( 0 , 0000 ) * * * * + 0 , 8421Rendat ( 0 , 0000 ) * * * 2 0= , 9933 Rajustado 0 ,= 993061 F( 3 , 83) 4103 , 289 * * * 146 + 0 , 3874 ( Dt × Rendat ) ( 0 , 0000 ) * * * 3.13 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS Veja que todos os coeficientes estimados são estatisticamente significativos. Portanto, a conclusão final é que a mudança ocorreu tanto no intercepto quanto na inclinação da reta de regressão. Com isso, reescrevemos as regressões como em 3.14 e 3.15: 1T 1996 até 3T 2008 � Consumo = t 4T 2008 até 3T 2017 � Consumo t 15 , 6480 + 0 , 8421Rendat = −32 , 3388 + 1, 2295 Rendat 3.14 3.15 O Gráfico 4 nos ajuda a compreender melhor esse resultado. Perceba que agora os dois modelos têm pontos de partida distintos e inclinação distintas também. Em outras palavras, as regressões são dissemelhantes, indicando que após o terceiro trimestre de 2008, as relações entre consumo e renda se alteraram de forma significativa. GRÁFICO 4 – QUEBRA ESTRUTURAL COM MUDANÇA TANTO NO INTERCEPTO QUANTO NA INCLINAÇÃO FONTE: O autor Mas se todos os modelos estimados apresentaram consistência, qual é o modelo que devemos escolher? Afinal de contas, o evento que ocorreu na economia no último trimestre de 2008 alterou estruturalmente as relações consumo versus renda e, consequentemente, os parâmetros estimados do modelo de regressão. 147 UNIDADE 2 | REGRESSÃO MÚLTIPLA A resposta é muito simples. O que você precisa fazer é estimar um único modelo, ou seja, o modelo 3.12, e verificar se os coeficientes estimados das dummies são estatisticamente significativos. Se isso ocorrer, concluímos que há uma quebra estrutural provocada pelo evento em estudo, a partir do período marcado pela dummy com valor igual a 1. Vamos a mais um exemplo prático, desta vez extraído de Wooldridge (2016). Usaremos o arquivo Wage1, que você pode baixar no site do Gretl, instalar no seu computador e utilizá-lo a partir do menu “Arquivo de exemplos”. Para isso, proceda da seguinte forma: 1. Acesse <http://gretl.sourceforge.net/pt.html>. 2. No menu à esquerda, selecione dados para Gretl. 3. Em “Conjuntos de Dados de livros de texto”, busque pelo nome “Wooldridge”. 4. Baixe o arquivo wooldridge_data.exe. 5. Execute o arquivo para instalar no Gretl a base de dados utilizada no livro Introdução à Econometria: uma abordagem moderna. Após a instalação, você deve abrir o Gretl e selecionar o menu “Arquivo”, depois “Abrir dados” e escolher “Arquivos de exemplo”. Na tela seguinte, você seleciona a aba correspondente ao Wooldridge e busca o arquivo Wage1. Basta dar duplo clique para abrir o arquivo de dados do exemplo que desenvolveremos aqui. Esse arquivo traz as informações referentes a salário e outras características da população americana, no ano de 1976, contendo um total de 526 observações (WOOLDRIDGE, 2016, p. 7). As variáveis que usaremos são: 1. 2. 3. 4. wage = salário-hora. educ = anos de educação formal. exper = anos de experiência no mercado de trabalho. female = indicador do gênero feminino. Começaremos com um modelo de regressão em que o salário-hora é explicado pelos anos de educação formal educi e pelos anos de experiência no mercado de trabalho experi, em que i representa cada trabalhador individual entrevistado para se obter essa base de dados. wagei = β1 + β2educi + β3experi + εi 3.14 Em que β1, β2 e β3 são os parâmetros a serem estimados e εi é o termo de erro o qual supomos ter distribuição normal com média zero e variância constante εi~N(0, σ2). 148 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS O modelo estimado é apresentado em 3.15: � wage i R2 = −3 , 3905 ( 0 , 0000 ) * * * + 0 , 6443educi ( 0 , 0000 ) * * * + 0 , 0701experi ( 0 , 0000 ) * * * 3.15 2 0 ,= 2252 Rajustado 0= , 2222 F( 2 , 523) 75 , 9899 * * * Entre parênteses, temos os p – valor e os três asteriscos indicam significância estatística ao nível de 1%. Claramente o modelo apresentado diz que você deve estudar mais se quiser ganhar mais! Ele também reconhece que a experiência profissional pode garantir um salário maior se comparado com as pessoas que têm menos experiência no mercado de trabalho. A pergunta que queremos responder é: Em 1976, nos Estados Unidos, havia discriminação salarial entre homens e mulheres? Para verificar isso, precisamos de uma dummy, com valor igual a 1, quando a pessoa entrevistada for mulher, e igual a zero, quando for homem. A hipótese com a qual trabalhamos é que haja essa diferença de salário e que o coeficiente estimado tenha valor negativo e estatisticamente significativo. O modelo a ser estimado é mostrado em 3.16: wagei = β1 + β2educi + β3experi + β4femalei + εi 3.16 Aqui, novamente temos os parâmetros a serem estimados representados pelos βk e o termo de erro εi~N(0, σ2). Os resultados estimados estão em 3.17: � wage i = −1, 7345 ( 0 , 0218 ) * * + 0 , 6026 educi ( 0 , 0000 ) * * * + 0 , 0642 experi ( 0 , 0000 ) * * * − 2 ,1555 femalei ( 0 , 0000 ) * * * 3.17 2 = R2 0 ,= 3093 Rajustado 0= , 3053 F( 2 , 523) 77 , 9197 * * * Perceba que os resultados corroboram a nossa hipótese inicial. Neste caso, o fato de ser mulher fazia com que o salário-hora fosse US$ 2,15 menor do que se o empregado fosse homem. As demais variáveis apresentaram valores próximos do modelo estimado 3.15, e mantiveram a significância estatística, pelo menos ao nível de 5% (para o caso da constante com p – valor = 0,218). Obviamente o resultado deve ser analisado muito mais sob o ponto de vista histórico do que sob o ponto de vista numérico. Nos anos 1970, a mulher estava conquistando cada vez mais espaço no mercado de trabalho, deixando de ser coadjuvante nas finanças domésticas e passando a ter as chamadas jornadas duplas, que num primeiro momento eram profissionais empregadas e no segundo momento eram donas de casa. 149 UNIDADE 2 | REGRESSÃO MÚLTIPLA DICAS Para uma leitura geral sobre o mercado de trabalho com o enfoque histórico, leia o artigo A evolução da mulher no mercado de trabalho, publicado no RH Portal, disponível no link <http://www.rhportal.com.br/artigos-rh/a-evoluo-da-mulher-no-mercadode-trabalho/>. Outra aplicação interessante usando variáveis dummies é a dessazonalização de uma série de dados temporais. Sabemos que ao longo do ano os agricultores adquirem certa quantidade de fertilizantes para usar nas suas lavouras. Sabemos também que essa quantidade é maior ou menor, dependendo da época do ano. Em períodos de plantio das principais culturas, como milho, soja, trigo, por exemplo, esperamos que haja aumento na venda de fertilizantes e, em períodos de colheita, uma redução. Por isso, um gráfico de venda de fertilizantes deve apresentar subidas e descidas muito bem-comportadas, como podemos observar a seguir: FIGURA 9 – VENDA DE FERTILIZANTES EM TONELADAS, COM FREQUÊNCIA MENSAL, ENTRE JANEIRO DE 1998 E NOVEMBRO DE 2017 FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018 150 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS Quando estudamos a venda de fertilizantes, queremos analisar a tendência de longo prazo dessa variável que é extremamente importante na estimação da produtividade agrícola. Por isso é natural querer retirar a sazonalidade para podermos nos concentrar naquilo que realmente interessa, ou seja, a tendência temporal. Podemos observar, através da nossa base de dados, que as vendas de fertilizantes aumentam consideravelmente nos meses de julho, agosto, setembro e outubro. Também podemos perceber que a venda é sensivelmente menor nos meses de março e abril. Para o nosso experimento, vamos atribuir uma dummy para cada mês do ano e assim, teremos 12 variáveis dummies. Parece ser trabalhoso fazer isso, correto? Só parece, pois o procedimento é bem simples quando você usa o Gretl. Com a sua base de dados montada no Gretl, selecione o menu “Acrescentar” e na sequência escolha “Dummies sazonais”. Automaticamente o Gretl criará uma variável dummy para cada mês do ano, com valores iguais a 1 para o mês em questão e zero para os demais. Assim, a variável dm1t terá valor igual a 1 quando for janeiro de 1998, janeiro de 1999, e assim por diante, e zero quando for fevereiro de 1998, março de 1998 etc. 3.18: Para retirar a sazonalidade da série, estimaremos o modelo de regressão fertilt = β1dmt1t + β2dm2t + β3dm3t + β4dm4t + β5dm5t + β6dm6t + β7dm7t + β8dm8t + β9dm9t + β10dm10t + β11dm11t + β12dm12t + εt 3.18 Atente-se a duas coisas importantes a serem ditas. Primeiro, o modelo 3.18 não tem intercepto. Isso se deve ao fato de estarmos usando todas as 12 variáveis dummies, uma para cada mês do ano. O segundo ponto que precisa ser ressaltado é que podemos alterar 3.18 a fim de conter o intercepto. Se fizermos isso, teremos que deixar uma das variáveis dummies de fora. Provavelmente suprimiríamos o mês de janeiro e o usaríamos como base ou variável de controle. O resultado estimado está no Quadro 18. Perceba que o Gretl nos reportou um número bem estranho para os coeficientes estimados. Como já citamos, tratase de um número científico. A letra “e” está inserida nesse número para indicar que tudo o que vem antes dela é multiplicada por 10 elevado à potência que aparece após o sinal. Assim, podemos reescrever o número 1,51079e+06 para 1,51079 x 106 = 1.510.790 , com estimação do modelo 3.18: 151 UNIDADE 2 | REGRESSÃO MÚLTIPLA QUADRO 18 – RETIRANDO A SAZONALIDADE DE UMA SÉRIE DE DADOS TEMPORAIS coeficiente erro padrão razão-t p-valor ---------------------------------------------------------dm1 1,51079e+06 131238 11,51 1,87e-024 dm2 1,40592e+06 131238 10,71 6,14e-022 dm3 1,27685e+06 131238 9,729 6,37e-019 dm4 1,12789e+06 131238 8,594 1,37e-015 dm5 1,60075e+06 131238 12,20 1,19e-026 dm6 1,89665e+06 131238 14,45 5,30e-034 dm7 2,33512e+06 131238 17,79 6,24e-045 dm8 2,79483e+06 131238 21,30 4,93e-056 dm9 3,02133e+06 131238 23,02 2,70e-061 dm10 3,09189e+06 131238 23,56 6,67e-063 dm11 2,38564e+06 131238 18,18 3,56e-046 dm12 1,52336e+06 134647 11,31 7,94e-024 *** *** *** *** *** *** *** *** *** *** *** *** Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%. FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018 E o que fazemos com o modelo estimado? Não precisaremos interpretar esse resultado, se essa era a sua preocupação. Como só queremos extrair a � sazonalidade, para isso basta fazermos fertilt − fertilt , que o resultado será a série livre de sazonalidade. Você já deve ter entendido que estamos falando dos resíduos da regressão, ou seja, = εˆ t fertilt − � fertilt . A obtenção dessa série é muito simples, e a partir da janela do modelo estimado pelo Gretl, selecione o menu “Salvar” e depois escolha “Resíduos”. O Gretl dará um nome padrão de uhat1 para a série de resíduos salvos, o qual poderá ser alterado da maneira que você quiser. O Gretl também gera uma tabela com os valores efetivos, previstos e os resíduos a partir da janela do modelo estimado. Basta selecionar o menu “Análise” e na sequência escolher “Mostrar efetivo, ajustado, resíduos”. Reproduzimos na Figura 10 a tela gerada com esses dados: 152 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS FIGURA 10 – VALORES EFETIVOS, AJUSTADOS E RESÍDUOS DA VENDA DE FERTILIZANTES FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018 A Figura 11 apresenta os gráficos dos valores efetivos da variável fertilt e seus valores dessazonalizados para fins de comparação e análise. Perceba como a série dessazonalizada “Fertil ajustado” apresenta um padrão crescente, porém sem as oscilações sazonais tão acentuadas quanto a série original. Você terá a oportunidade de estudar as séries temporais em Econometria II, e verá que as séries de tempo são caracterizadas por um componente sazonal, cíclico, tendência e estritamente aleatório. Em linhas gerais, o estudo das séries temporais requer um vocabulário totalmente diferente daquele que usamos em Econometria I, apesar de a intuição por trás da estimação permanecer a mesma. Dito de outra forma, também testamos hipóteses, testamos a hipótese nula do coeficiente estimado ser igual a zero, e fazemos uma série de testes estatísticos, como teremos a oportunidade de estudar em breve. TUROS ESTUDOS FU Um dos testes mais importantes é o da existência de correlação serial nos resíduos, como veremos na Unidade 3. Abriremos um tópico destinado exclusivamente ao estudo desse problema e veremos, além da sua natureza, as formas de superá-lo. 153 UNIDADE 2 | REGRESSÃO MÚLTIPLA FIGURA 11 – DADOS EFETIVOS E DESSAZONALIZADOS DA VARIÁVEL fertilt FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018. LEITURA COMPLEMENTAR Conheça a fórmula matemática que explica o sucesso de um político Luís Artur Nogueira Dizer que a economia explica o desempenho de um político nas urnas não é novidade, mas ainda faltam modelos matemáticos mais elaborados que concluam quais elementos têm maior peso na popularidade de um governante. Com o objetivo de dar uma contribuição a esse debate, a Tendências Consultoria está desenvolvendo um modelo econométrico que tem a renda e o emprego como suas principais variáveis. Aos olhos leigos, a fórmula é complexa, mas o raciocínio parece ser simples: renda em elevação e desemprego em baixa significam popularidade nas alturas. Portanto, brincar com a inflação pode derrubar a avaliação de um governante, já que os preços altos corroem o poder de compra da população. Para elaborar o estudo, os analistas da Tendências utilizaram as pesquisas DataFolha no período de março de 1995 a novembro de 2010 (governos FHC e Lula). A taxa de aprovação é a soma das avaliações “ótimo” e “bom” dadas pelos entrevistados. 154 TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS A primeira constatação é de que a influência das variáveis econômicas sobre a avaliação presidencial é dada gradativamente ao longo do tempo, sem oscilações bruscas. “Estimamos uma regressão que associa a taxa de aprovação a seus valores passados (aprovt-1 no modelo explicitado abaixo) e aos determinantes econômicos defasados (taxa de desemprego – ut-1 – e da renda real – rendat-4 –), levando em consideração que a aprovação do governo é feita de maneira retrospectiva. Incluímos ainda uma dummy que assume o valor 1 durante o governo Lula e 0 durante o FHC”, diz relatório da consultoria assinado por Rafael Cortez e Rafael Bacciotti. As estimativas encontradas foram as seguintes: A Fórmula da Popularidade aprovt = -1,70 + 0,70*aprovt-1 - 1,51*ut-1 + 0,42*log(renda)t-4 + 0,10*DLULA aprovt: aprovação de um político aprovt - 1: aprovação no período anterior ut-1: taxa de desemprego defasada em um período rendat-4: renda real defasada em quatro períodos DLULA: dummy com valor 1 no governo Lula e 0 no FHC FONTE: <https://abrilexame.files.wordpress.com/2016/09/original_formula-popularidade-590. jpg?quality=70&strip=all&strip=info>. Acesso em: 14 jun. 2018. O modelo conclui que o aumento de 1 ponto percentual na taxa de desemprego reduz a aprovação em 1,51 ponto, enquanto que o aumento de 1% na renda eleva a aprovação em 0,42 ponto percentual. “Isso é uma evidência de que os indivíduos punem os governos devido ao desemprego em um espaço curto de tempo (a melhor defasagem foi de um período), e os aprovam com a sensação do aumento de seu poder de compra em período de tempo mais longo (defasagem de quatro períodos)”. Segue o relatório: “O modelo mostrou que a preservação da renda real e o mercado de trabalho são, de fato, os melhores preditores da avaliação de um presidente. Isto significa que, no curto prazo, apenas um choque, seja na inflação, seja no mercado de trabalho, poderia afetar a avaliação de Dilma”. 155 UNIDADE 2 | REGRESSÃO MÚLTIPLA Em entrevista a EXAME.com, Bacciotti explica que a renda tem um peso um pouco maior que o emprego, pois é muito mais fácil a renda variar 1% do que o desemprego subir ou cair 1 ponto. “Daí a importância de não se brincar com a inflação, que tira poder de compra da população”, diz o economista. Não havendo vínculos ideológicos por parte do eleitor, a decisão dele será racional e com base no seu bolso. Se a avaliação é positiva, há grandes chances de ele optar pela continuidade. Passada a fase mais aguda de preços altos nos primeiros meses do ano, a tendência segue favorável para a popularidade da presidente Dilma. A Tendências Consultoria projeta que a taxa de desemprego ainda permanecerá em níveis baixos (na média, 6,4% em 2011 ante 6,7% em 2010) e a renda real, embora em desaceleração, possui trajetória positiva. O modelo ainda está sendo aperfeiçoado e a equipe da Tendências promete novidades em breve. Um fato, no entanto, é certo. A velha frase “É a economia, estúpido”, dita por um assessor de Bill Clinton em 1992, em plena eleição presidencial americana, continua valendo e cada vez mais pode ser explicada matematicamente. FONTE: <https://exame.abril.com.br/ciencia/conheca-a-formula-matematica-que-explica-osucesso-de-um-politico/>. Acesso em: 14 jun. 2018. 156 RESUMO DO TÓPICO 3 Neste tópico, você aprendeu que: • As variáveis dummies são um artifício importante usado pelos econometristas para uma série de aplicações práticas. • Pode-se calcular a diferença média da renda per capita entre as regiões com o uso das dummies. • É possível usar as dummies para testar a existência de quebra estrutural na relação entre as variáveis dependentes e explicativa, como uma alternativa ao teste de Chow. • As dummies podem ser usadas para estimar a diferença salarial entre homens e mulheres, como no exemplo dos Estados Unidos em 1976, em que concluímos haver diferença salarial entre homens e mulheres. • É possível remover o componente sazonal de uma série temporal usando as variáveis dummies, o que permite ao econometrista se concentrar nos outros elementos que afetam o comportamento dessas séries. 157 AUTOATIVIDADE Para esta autoatividade, você vai precisar dos dados do Quadro 19. Tratase de um levantamento anual produzido pela The Heritage Foundation, intitulado Index of Economic Freedom. A amostra contém os 80 melhores ranqueados no índice de 2018, de onde foram extraídos dados sobre investimentos externos diretos e o score do próprio índice. Além disso, foram acrescentadas quatro variáveis dummy, uma para cada região abrangida pela amostra. QUADRO 19 – INVESTIMENTO EXTERNO DIRETO E LIBERDADE ECONÔMICA PARA PAÍSES SELECIONADOS, 2018 País Região IED Score D1 Américas D2 Ásia D3 Europa D4 África Canada América 33.721,14 77,70 1 0 0 0 United States América 391.104,00 75,70 1 0 0 0 Chile América 11.265,71 75,20 1 0 0 0 Uruguay América 953,13 69,20 1 0 0 0 Jamaica América 855,87 69,10 1 0 0 0 Colombia América 13.592,65 68,90 1 0 0 0 Peru América 6.862,89 68,70 1 0 0 0 Saint Vincent and the Grenadines América 103,51 67,70 1 0 0 0 Saint Lucia América 94,59 67,60 1 0 0 0 Panama América 5.209,30 67,00 1 0 0 0 Costa Rica América 2.762,14 65,60 1 0 0 0 Mexico América 26.738,61 64,80 1 0 0 0 Dominica América 31,37 64,50 1 0 0 0 Guatemala América 1.180,80 63,40 1 0 0 0 Bahamas América 521,85 63,30 1 0 0 0 El Salvador América 373,45 63,20 1 0 0 0 Hong Kong Ásia 108.125,99 90,20 0 1 0 0 Singapore Ásia 61.596,68 88,80 0 1 0 0 New Zealand Ásia 2.291,63 84,20 0 1 0 0 Australia Ásia 48.190,25 80,90 0 1 0 0 Taiwan Ásia 8.333,00 76,60 0 1 0 0 Malaysia Ásia 9.925,95 74,50 0 1 0 0 Korea, South Ásia 10.826,60 73,80 0 1 0 0 Japan Ásia 11.388,41 72,30 0 1 0 0 Macau Ásia 3.026,70 70,90 0 1 0 0 Vanuatu Ásia 32,39 69,50 0 1 0 0 Kazakhstan Ásia 9.069,31 69,10 0 1 0 0 Thailand Ásia 1.554,16 67,10 0 1 0 0 158 Philippines Ásia 7.912,20 65,00 0 1 0 0 Azerbaijan Ásia 4.500,00 64,30 0 1 0 0 Indonesia Ásia 2.658,09 64,20 0 1 0 0 Brunei Darussalam Ásia -149,64 64,20 0 1 0 0 Tonga Ásia 8,86 63,10 0 1 0 0 Kyrgyz Republic Ásia 466,78 62,80 0 1 0 0 Switzerland Europa -26.340,20 81,70 0 0 1 0 Ireland Europa 22.304,45 80,40 0 0 1 0 Estonia Europa 870,45 78,80 0 0 1 0 United Kingdom Europa 253.825,78 78,00 0 0 1 0 Iceland Europa -484,41 77,00 0 0 1 0 Denmark Europa 950,72 76,60 0 0 1 0 Luxembourg Europa 26.857,37 76,40 0 0 1 0 Sweden Europa 19.583,88 76,30 0 0 1 0 Georgia Europa 1.661,42 76,20 0 0 1 0 Netherlands Europa 91.956,17 76,20 0 0 1 0 Lithuania Europa -207,87 75,30 0 0 1 0 Norway Europa -5.532,74 74,30 0 0 1 0 Czech Republic Europa 6.751,87 74,20 0 0 1 0 Germany Europa 9.528,28 74,20 0 0 1 0 Finland Europa 42,03 74,10 0 0 1 0 Latvia Europa 126,10 73,60 0 0 1 0 Austria Europa -6.088,53 71,80 0 0 1 0 Macedonia Europa 396,51 71,30 0 0 1 0 Romania Europa 4.573,02 69,40 0 0 1 0 Armenia Europa 338,03 68,70 0 0 1 0 Malta Europa 3.575,02 68,50 0 0 1 0 Poland Europa 11.357,85 68,50 0 0 1 0 Bulgaria Europa 776,19 68,30 0 0 1 0 Cyprus Europa 4.137,76 67,80 0 0 1 0 Belgium Europa 33.102,70 67,50 0 0 1 0 Hungary Europa -5.313,59 66,70 0 0 1 0 Kosovo Europa 249,00 66,60 0 0 1 0 Turkey Europa 11.987,00 65,40 0 0 1 0 Slovakia Europa -295,35 65,30 0 0 1 0 Spain Europa 18.658,86 65,10 0 0 1 0 Slovenia Europa 919,21 64,80 0 0 1 0 Albania Europa 1.124,35 64,50 0 0 1 0 Montenegro Europa 226,26 64,30 0 0 1 0 France Europa 28.351,62 63,90 0 0 1 0 Portugal Europa 6.064,56 63,40 0 0 1 0 159 Italy Europa 28.954,82 62,50 0 0 1 0 Serbia Europa 2.298,78 62,50 0 0 1 0 United Arab Emirates África 8.985,71 77,60 0 0 0 1 Qatar África 773,90 72,60 0 0 0 1 Israel África 12.323,70 72,20 0 0 0 1 Bahrain África 281,91 67,70 0 0 0 1 Jordan África 1.538,87 64,90 0 0 0 1 Mauritius África 349,42 75,10 0 0 0 1 Botswana África 10,46 69,90 0 0 0 1 Rwanda África 409,79 69,10 0 0 0 1 South Africa África 2.270,42 63,00 0 0 0 1 FONTE: Adaptado de <https://www.heritage.org/index/>. Acesso em: 29 ago. 2018. 1 Com base nos dados apresentados no Quadro 19, estimamos o seguinte modelo de regressão por mínimos quadrados ordinários: IEDi = β1 + β2Scorei + ui 3.19 Em que IED é o investimento externo direto, em milhões de US$, Score é o índice de liberdade econômica, cuja metodologia para construção do índice pode ser obtida em <https://www.heritage.org/index/pdf/2018/book/ methodology.pdf>, e ui é o termo de erro o qual supomos que tenha distribuição normal, com média zero e variância constante. Os resultados estão abaixo com p – valor entre parênteses: � i IED = −163.061 + 2.551, 54Scorei ( 0 , 0164 ) ( 0 , 0081) R2 = 0 , 0865 F1 , 78 = 7 , 3878 3.20 p − valor ( F ) = 0 , 0081 Com base nos resultados reportados em 3.20, informe qual ou quais coeficientes estimados é/são estatisticamente significativos e em qual nível de significância. 2 Suponha que queiramos estimar o valor do IED médio por região geográfica. Neste caso, construa um modelo econométrico capaz de obter tal medida. 3 Decidimos ampliar o nosso estudo e verificar se os países teriam preferência no destino do fluxo de investimentos externos diretos apenas pelo fato de pertencerem ao continente americano. Para isso, alteramos o modelo 3.19 para incluir a Dummy D2i, que assume valores iguais a 1 quando se tratar de um país localizado nas Américas e zero caso esteja localizado em outro país. 160 IEDi = β1 + δ1D1i + β2Scorei + ui 3.21 Os resultados estão logo abaixo com p – valor entre parênteses: � i IED = −190.629 + 25.857 , 0 D1i ( 0 , 0060 ) ( 0 , 0798 ) R2 = 0 ,1224 F1 , 77 = 5 , 3720 + 2.868 , 93Scorei ( 0 , 0032 ) 3.22 p − valor ( F ) = 0 , 0065 Com base nesses resultados, responda: a) Informe se os coeficientes estimados são estatisticamente significativos e em qual nível de significância estatística. b) Como você interpreta o coeficiente estimado da dummy? c) Com base nos resultados obtidos em 3.22, os países localizados nas Américas tiveram preferência pela destinação dos investimentos externos diretos? 4 Estimamos um último modelo de regressão, incluindo as demais variáveis dummy com o objetivo de verificar se a região geográfica é determinante para o direcionamento dos investimentos externos diretos. O modelo estimado foi: IEDi =+ β1 δ 1 D1i + δ 2 D 2i + δ 3 D 3i + Scorei + ui 3.23 O resultado da estimação encontra-se abaixo, com p – valor entre parênteses: � i IED = −197.970 + 33.713 , 5 D1i ( 0 , 0057 ) ( 0 ,1235 ) R2 = 0 ,1257 F1 , 75 = 2 , 6967 + 7.174 , 44 D 2 i ( 0 , 7362 ) + 10.137 , 6 D 3i ( 0 , 5998 ) + 2.861, 37Scorei ( 0 , 0039 ) p − valor ( F ) = 0 , 0370 Em relação aos resultados obtidos, responda: a) Por que usamos apenas três dummies se tínhamos a nossa disposição quatro variáveis dummy? b) Os coeficientes estimados apresentaram p – valor alto para as três dummies, indicando que nenhum dos coeficientes é estatisticamente significativo aos usuais níveis de 1%, 5% e 10% de significância estatística. O que esse resultado representa em relação ao objetivo de verificar se a região geográfica é determinante para o direcionamento dos investimentos externos diretos? 161 162 UNIDADE 3 MODELOS DE REGRESSÃO GENERALIZADOS OBJETIVOS DE APRENDIZAGEM A partir do estudo desta unidade, você será capaz de: • identificar a natureza dos problemas existentes quando as premissas básicas do modelo clássico de regressão linear são relaxadas; • examinar suas consequências em relação à validade dos modelos estimados nas outras unidades; • utilizar métodos específicos para detecção dos problemas e apresentar medidas corretivas que possam gerar estimadores com as propriedades estatísticas desejáveis. PLANO DE ESTUDOS Esta unidade está dividida em três tópicos. No decorrer da unidade você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado. TÓPICO 1 – MULTICOLINEARIDADE TÓPICO 2 – HETEROSCEDASTICIDADE TÓPICO 3 – AUTOCORRELAÇÃO 163 164 TÓPICO 1 UNIDADE 3 MULTICOLINEARIDADE 1 INTRODUÇÃO Na Unidade 1 fomos apresentados ao modelo clássico de regressão linear, em que estudamos o método de mínimos quadrados ordinários, que é a base de toda análise econométrica. Aprendemos os conceitos básicos e construímos modelos de regressão simples. Na Unidade 2 ampliamos esses modelos, introduzindo múltiplas variáveis explicativas, melhorando a sua capacidade de previsão e explicação da variável dependente, trazendo os modelos mais próximos da realidade. Em todos os exemplos que trabalhamos até agora supomos que as hipóteses, apresentadas na Unidade 1 e revistas na Unidade 2, estavam presentes e eram válidas, o que nos permitiu estimar parâmetros que carregam as propriedades estatísticas desejáveis de consistência, eficiência e ausência de tendenciosidade. linear: Para relembrar, listamos as hipóteses do modelo clássico de regressão • Hipótese 1 – O modelo de regressão é linear nos parâmetros y = Xβ + ε. • Hipótese 2 – A média condicional do termo de erro é zero E[εi | xj1,xj2,...,xjk] = 0. • Hipótese 3 – Não há correlação ou colinearidade perfeita entre as variáveis explicativas X (full rank). • Hipótese 4 – Os erros são homoscedásticos e não são correlacionados (disturbâncias esféricas) Var[εi|X] = σ2I e Cov[εi,εj|X] = 0 para todo i = 1, 2, ..., n ei≠j • Hipótese 5 – A matriz X é não estocástica: em amostras repetidas, os valores de X são fixados. • Hipótese 6 – O vetor de erros ε tem distribuição normal, com média zero e variância constante: ε|X~N[0, σ2I]. Sabemos que em um mundo perfeito, todas as hipóteses se confirmariam. Porém, no mundo real, enfrentamos diariamente uma série de problemas para construir modelos econométricos que sejam capazes de nos revelar a verdade sobre os fatos que estamos estudando, sem que para isso precisemos torturar as informações. Em outras palavras, nem sempre as hipóteses vistas nas unidades 1 e 2 serão confirmadas. 165 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS O objetivo da Unidade 3 é relacionar duas importantes hipóteses do modelo de regressão linear clássico, a ausência de colinearidade entre as variáveis explicativas (no caso do modelo de regressão múltipla), homoscedasticidade e ausência de correlação serial entre os resíduos de um modelo de regressão com dados de séries temporais, ou seja, as hipóteses 3 e 4 listadas anteriormente. No primeiro tópico veremos o relaxamento da hipótese de ausência de colinearidade, por isso o chamaremos de “o problema da multicolinearidade”. No tópico dois veremos a situação em que os resíduos não têm a mesma variância, ou seja, eles são heteroscedásticos. No último tópico abordaremos o caso em que os resíduos passados carregam informações suficientes para influenciar os resíduos presentes, ou seja, são autocorrelacionados. 2 CONCEITO DE MULTICOLINEARIDADE A colinearidade entre variáveis explicativas não é uma questão que nos incomoda quando estimamos um modelo de regressão simples, com apenas uma variável explicativa. O problema ocorre quando precisamos estimar um modelo com múltiplas variáveis exógenas. Nesse caso, se duas ou mais dessas variáveis tiverem alguma inter-relação, estaremos violando uma das hipóteses do modelo clássico de regressão linear. Maddala (2003, p. 143) define a multicolinearidade como sendo “a situação na qual as variáveis explicativas são altamente intercorrelacionadas ...”. O termo colinearidade tem origem com Ragnar Frisch (1934). Para entender como isso funciona na prática, suponha o seguinte modelo de regressão representado por 1.1: Yi = β1X1i + β2X2i + β3X3i + εi 1.1 Em que X1i = 1 para todo i, X3i = 2X1i + 3X2i e εi~N(0, σ2). Através desse exemplo adaptado de Maddala (2003, p. 143), podemos obter certas combinações dos parâmetros βk, tais como β1 + 2β3, e β2 + 3β3. Porém, não conseguimos obter os valores individuais dos parâmetros β1, β2 e β3, caracterizando assim a multicolinearidade perfeita. O Quadro 1 apresenta uma simulação de dados com colinearidade baseado na equação 1.1. Você pode importar esses dados para o Gretl e tentar estimar a regressão, porém o Gretl omitirá a variável X3i em razão da colinearidade perfeita que existe entre ela e X2i. 166 TÓPICO 1 | MULTICOLINEARIDADE QUADRO 1 – EXEMPLO DE COLINEARIDADE Obs. Yi X1 X2 X3 1 3 1 2 8 2 5 1 4 14 3 7 1 6 20 4 9 1 8 26 6 12 1 10 32 7 15 1 12 38 8 18 1 14 44 9 21 1 16 50 10 23 1 18 56 FONTE: O autor Alternativamente, você poderá querer estimar de forma manual os coeficientes da regressão. Para fazer isso, lembre-se de que estamos lidando com matrizes de dados. Portanto, temos no Quadro 1 o vetor coluna da variável Yi e a matriz de variáveis Xi. Vimos na Unidade 2 que os parâmetros beta são gerados através da equação β = (X'X)–1X'y. Para resolver essa equação, primeiro invertemos a matriz (X'X) e depois pós multiplicamos o resultado pela pós multiplicação de X'y. O grande problema é que só conseguiremos inverter a matriz (X'X) se ela for não singular, ou seja, se tiver determinante diferente de zero. Procure retornar ao material da Unidade 2 e veja como obter a multiplicação e posteriormente o determinante dessa matriz. Compare o seu cálculo com o resultado a seguir: 9 90 288 ( X ′X ) = 90 1140 3600 288 3600 11376 1.2 O determinante da matriz 1.2 é igual a zero, e consequentemente não conseguimos obter a sua inversa. Como resultado prático, não é possível estimar o vetor de parâmetros β em 1.1. O caso em 1.1 não é regra geral, mas uma exceção. Na prática, encontraremos situações em que as variáveis explicativas possuem algum tipo de intercorrelação. Isso é perfeitamente natural quando usamos dados coletados em bancos de dados. Quando estivermos fazendo um estudo com dados controlados, gerados de forma artificial, dificilmente nos depararemos com a multicolinearidade. Gujarati e Porter (2011, p. 331) descrevem a existência de quatro tipos de colinearidade através de um diagrama de Ballentine. São elas: a) baixa colinearidade; b) colinearidade moderada; c) colinearidade alta; e d) colinearidade muito alta. 167 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS Devemos nos preocupar com as opções “c” e “d”, pois, muitas vezes, a baixa colinearidade e colinearidade moderada podem ser resultantes de um banco de dados mal construído. Dito de outra forma, podemos estar diante do problema da micronumerosidade, situação em que a quantidade de informações coletadas é muito pequena para estimarmos o modelo econométrico. Outra situação que gera colinearidade entre variáveis explicativas é a sua construção. Elas podem ser mal especificadas, gerando colinearidade entre elas. De qualquer forma, vale salientar que, caso tenhamos colinearidade perfeita ou muito alta, os coeficientes estimados das variáveis Xi são indeterminados e terão desvios padrão muito altos. Do mesmo modo, a situação em que a multicolinearidade não é perfeita pode gerar erros padrão grandes, o que resulta em coeficientes estimados menos precisos (GUJARATI; PORTER, 2011, p. 332). Por esses motivos, iremos considerar apenas a existência ou não da colinearidade, sem nos aprofundarmos em calcular o seu tamanho ou grau. Em termos práticos, representando o modelo de regressão na forma matricial, sabemos que: y = Xβ + ε 1.3 Em que β = (X'X)–1X'y e ε|X~N[0,σ2I]. O problema da multicolinearidade é justamente o fato de não conseguirmos inverter a matriz (X'X). Como há colunas que são expressas em termos de outra, ou outras, a matriz formada por esta combinação não possui posto de coluna completo, ou seja, não é full rank. Portanto, quanto mais correlacionadas forem as variáveis explicativas, maior será essa variância, e em uma situação extrema, uma variável explicativa Xi poderá ser escrita como uma combinação linear das demais variáveis explicativas (GREENE, 2012, p. 130). Se houver uma combinação perfeita entre duas variáveis, dizemos que a colinearidade é perfeita. Com isso, os coeficientes de regressão das variáveis X são indeterminados e seus erros padrão, infinitos. Por outro lado, se a colinearidade não for perfeita, será possível obter os estimadores para os parâmetros beta, porém, os coeficientes de regressão terão erros padrão muito grandes e, como consequência, perdemos a precisão da nossa estimativa (GUJARATI; PORTER 2011, p.332). 168 TÓPICO 1 | MULTICOLINEARIDADE 3 DETECÇÃO DA MULTICOLINEARIDADE Queremos apresentar a você alguns procedimentos práticos para detectar a presença da multicolinearidade. Para isso, vamos adaptar o trabalho de Longley (1967) à economia brasileira, com dados do período entre 1992 e 2014, e com algumas modificações nas variáveis. Nesse artigo, Longley comparou a programação computacional usada para estimar os modelos de mínimos quadrados ordinários, com as calculadoras de mesa, estimando regressões com dados macroeconômicos como os que usaremos a seguir. O nosso objetivo é verificar a existência de multicolinearidade em um modelo próximo ao dele e com variáveis parecidas. Basicamente, queremos estimar o seguinte modelo de regressão: Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t 1.4 Em que Yt é o número de pessoas ocupadas, em milhões de pessoas; X2t é o deflator implícito do PIB em percentual; X3t é o PIB, em US$ milhões correntes; X4t é a população desocupada, em milhões de pessoas; X5t é a população em idade ativa, em milhões de pessoas; e X6t é uma variável de tendência temporal, assumindo valor igual a 1 para 1992, igual a 2 para 1993 e assim por diante. Propositalmente, essas variáveis são intercorrelacionadas. Por exemplo, o deflator do PIB, X2t, nada mais é do que a razão entre o PIB nominal e o PIB real. Como temos X3t representando o PIB, essas duas variáveis são colineares. As variáveis X4t e X5t também são colineares, uma vez que a população desocupada faz parte da população em idade ativa. A base de dados foi obtida no site do Ipeadata e no do Banco Central do Brasil, e pode ser vista no Quadro 2: QUADRO 2 – ADAPTAÇÃO DOS DADOS DE LONGLEY (1967) PARA A ECONOMIA BRASILEIRA Ano Y X2 X3 X4 X5 X6 1992 61.229,43 969,01 387.294,94 4.747,77 113.295,18 1 1993 62.390,58 1.996,15 429.685,27 4.554,01 115.658,04 2 2.240,17 543.086,59 1994 1995 65.386,63 1996 64.299,69 1997 3 770.733,14 4.668,84 120.600,21 4 18,46 851.019,12 5.283,79 123.377,66 5 65.576,72 7,73 883.281,56 6.057,90 125.081,92 6 1998 66.139,77 4,92 863.872,29 7.144,59 127.732,73 7 1999 69.181,06 8,01 599.289,51 8.062,11 133.172,80 8 5,61 655.707,37 8,23 559.562,59 2000 2001 73.068,66 169 9 8.174,78 140.421,76 10 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS 2002 75.563,62 9,80 508.101,18 8.280,25 143.133,84 11 2003 76.421,21 14,09 559.465,40 8.950,36 145.761,09 12 2004 79.103,30 7,75 669.339,54 8.524,17 148.010,17 13 2005 80.945,16 7,43 892.033,25 9.202,79 150.859,82 14 2006 82.744,29 6,77 1.107.131,34 8.411,57 153.801,64 15 2007 84.119,03 6,44 1.396.797,40 8.245,22 156.439,29 16 2008 86.632,36 8,78 1.693.147,00 7.316,40 159.219,53 17 2009 87.409,36 7,31 1.672.624,76 8.699,57 161.606,53 18 2010 8,42 2.209.750,92 2011 88.689,31 8,32 2.614.482,35 6.977,32 166.210,05 19 20 2012 90.213,01 7,94 2.463.548,92 6.507,01 168.070,91 21 2013 90.385,60 7,50 2.468.456,41 6.957,62 170.001,90 22 2014 92.869,85 7,85 2.454.846,01 7.571,69 172.180,43 23 FONTE: Adaptado de <www.ipeadata.gov.br> e <www.bcb.com.br>. Acesso em: 30 ago. 2018 Digamos que, ao construir o modelo, não sabemos se as variáveis são correlacionadas entre si. Por isso, analisaremos a matriz de correlação antes de estimar o modelo econométrico. Caso encontremos correlações de valor superior a |0,80|, podemos supor que essas variáveis apresentam colinearidade. Se a correlação for menor que |0,50|, aparentemente não teremos que nos preocupar com colinearidade. Na tela principal do Gretl, vá até o menu e selecione “Ver”, na sequência escolha “Matriz de correlação” e selecione as variáveis Xkt, clicando em “ok” para confirmar. Reproduzimos no Quadro 3 o resultado dessa análise: QUADRO 3 – MATRIZ DE CORRELAÇÃO DOS DADOS DO MODELO 1.4 Coeficientes de Correlação, usando as observações 1992 – 2014 (valores ausentes ignorados) X2 X3 X4 X5 X6 1,0000 -0,3638 -0,6516 -0,5537 -0,5811 1,0000 0,0775 0,8229 0,8676 1,0000 0,5898 0,5461 1,0000 0,9968 1,0000 X2 X3 X4 X5 X6 FONTE: O autor A matriz de correlação apresentada no Quadro 3 deve ser analisada com cautela. Ela até pode indicar a existência de colinearidade entre duas variáveis, caso o coeficiente de correlação seja maior do que |0,80|, porém, podemos ter colinearidade entre variáveis, mesmo na presença de coeficientes de correlação baixos, como no caso em estudo. Mas, só saberemos isso se tivermos em mãos as informações a priori, obtidas diretamente da teoria subjacente ao modelo de regressão. 170 TÓPICO 1 | MULTICOLINEARIDADE Sabemos que X2t e X3t são colineares, assim como X4t e X5t. Apesar disso, a correlação entre X2t e X3t é de -0,3638. Além disso, X2t tem correlação acima de |0,50| comparativamente a X4t, X5t e X6t. A variável X3t tem correlação acima de |0,80|em comparação a X5t e X6t Por sua vez, X4t tem correlação acima de |0,50| se comparada a X2t, X5t e X6t. E ainda, a variável X5t tem correlação maior que |0,50| quando comparada às demais variáveis, sendo maior que |0,80| quando comparada a X3t e X6t. O mesmo pode ser visto quanto a X6t, que apresenta correlação acima de |0,50| em relação a todas as variáveis e acima de |0,80| quando comparada a X3t e X5t. Os resultados da análise da matriz de correlação levantam a suspeita da existência de colinearidade entre algumas variáveis. Como veremos adiante, o problema que estamos enfrentando pode ter origem em uma amostra muito pequena, ou uma quantidade muito grande de parâmetros a serem estimados comparativamente ao tamanho da amostra. Supondo que deixemos a matriz de correlação de lado, apesar da suspeita de multicolinearidade, passemos a estimar o modelo de regressão. Os resultados da estimação do modelo 1.4 estão no Quadro 4. Podemos perceber que as informações ausentes no Quadro 2 foram devidamente tratadas pelo Gretl. Devemos lembrar da regra que apresentamos na Unidade 1, em que falamos que precisamos ter pelo menos 20 graus de liberdade ao estimarmos um modelo de regressão. Como nosso modelo tem 23 observações, sendo quatro delas eliminadas pela existência de “buracos” na nossa base de dados, ficamos com um total de 19 observações úteis. Assim, nos restou apenas 13 graus de liberdade. Os coeficientes estimados mostraram pouca significância estatística quando analisados individualmente. Apenas a variável X5t é estatisticamente significativa ao nível de 1%, e a variável X2t só é significativa a 10%. Por outro lado, o R2 é igual a 99,49%, indicando que os dados aderem perfeitamente ao modelo de regressão, ou seja, 99,49% das mudanças em Yt, população ocupada, são explicadas pelo modelo 1.4. Aqui fica claro que, na presença de colinearidade entre variáveis explicativas, os erros padrão são muito grandes quando comparados aos valores dos coeficientes estimados. Por esse motivo, perceba que as estatísticas t são muito pequenas, gerando p – valor alto, o que não nos permite rejeitar a H0: βk = 0. Apesar de termos desvios padrão grandes, e consequentemente variâncias grandes, continuaremos usando Mínimos Quadrados Ordinários, porque eles ainda são os melhores estimadores lineares não tendenciosos, mesmo na presença de colinearidade (GUJARATI; PORTER, 2011, p. 334). As razões t muito baixas são ótima pista da existência de multicolinearidade. A implicação direta, como discutimos no parágrafo anterior, é que as variáveis explicativas têm pouca significância estatística. Mesmo assim, o R2 é alto e a 171 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS estatística F nos diz que podemos rejeitar a hipótese nula de que, em conjunto, os coeficientes são estatisticamente iguais a zero. Isso é uma tremenda contradição, não é mesmo? A própria construção equivocada do nosso modelo já indicava que teríamos um resultado ruim. Por isso, precisamos prestar muita atenção tanto na especificação do modelo quanto na das variáveis. Não basta colocá-las em uma tabela, importar os dados para o Gretl e estimar a regressão achando que teremos resultados consistentes pelo simples fato de estarmos empregando o método de mínimos quadrados ordinários. A consistência depende muito mais da técnica do que de qualquer outra coisa. QUADRO 4 – RESULTADO DA ESTIMAÇÃO DO MODELO 1.4 Modelo 1: MQO, usando as observações 1992-2014 (T = 19) Observações ausentes ou incompletas foram ignoradas: 4 Variável dependente: Y coeficiente erro padrão razão-t p-valor ---------------------------------------------------------------const −29423,6 23807,9 −1,236 0,2384 X2 1,31718 0,669248 1,968 0,0708 * X3 −0,000186111 0,00149242 −0,1247 0,9027 X4 −0,310180 0,493459 −0,6286 0,5405 X5 0,798048 0,215887 3,697 0,0027 *** X6 −557,120 688,356 −0,8093 0,4329 Média var. dependente 77735,90 Soma resíd. quadrados 10158809 R-quadrado 0,994889 F(5, 13) 506,1060 Log da verossimilhança −152,2593 Critério de Schwarz 322,1851 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn 10508,29 883,9948 0,992923 2,05e-14 316,5185 317,4775 Excluindo a constante, a variável com maior p-valor foi 3 (X3) Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. FONTE: O autor Continuando a nossa análise, e por suspeitar que existe a presença de multicolinearidade, podemos aplicar alguns procedimentos estatísticos mais robustos para confirmar se existe ou não esse problema. Uma das coisas que podemos fazer é estimar uma regressão colocando cada variável Xkt como variável dependente, contra as demais variáveis Xkt como variáveis explicativas. Do resultado dessas regressões, que chamaremos de “auxiliares”, salvaremos os R2, que servirão para construir um teste F, com k – 2 e n – k + 1 graus de liberdade. 172 TÓPICO 1 | MULTICOLINEARIDADE A equação 1.5 apresenta a estatística F, a qual segue Gujarati e Porter (2011, p. 346): Fi = Rx2i .x2 x3 …xk / ( k − 2 ) (1 − R 2 xi .x2 x3 …xk 1.5 ) / ( n − k + 1) Em que n é o tamanho da amostra, k o número de variáveis explicativas incluindo o intercepto e R2xj.x2x3...xk é o coeficiente de determinação da variável Xi em relação às demais variáveis explicativas. A estimação de cada regressão auxiliar fica para você fazer como exercício e os resultados compilados são apresentados no Quadro 5. Neste exemplo, k = 5, k – 2 = 3 e n – k + 1 = 19 – 5 + 1 = 15: QUADRO 5 – COEFICIENTES DE DETERMINAÇÃO DAS REGRESSÕES AUXILIARES Variável dependente R2 Fi X2t 0,6048 = FX2 (1 − 0 , 6048 ) / 15 X3t 0,9679 = FX3 (1 − 0 , 9679 ) / 15 X4t 0,9078 = FX4 (1 − 0 , 9078 ) / 15 X5t 0,9973 = FX5 X6t 0,9979 = FX6 0 , 6048 / 3 0 , 2016 = = 7 , 6654 0 , 0263 0 , 9679 / 3 0 , 3226 = = 153 , 619 0 , 0021 0 , 9078 / 3 0 , 3026 = = 49 , 6066 0 , 0061 0 , 9973 / 3 0 , 3324 = = 1662 0 , 0002 1 − 0 , 9973 / 15 ( ) 0 , 9979 / 3 0 , 3326 = = 3326 0 , 0001 (1 − 0 , 9979 ) / 15 FONTE: O autor Recorrendo à tabela de distribuição F(3,15), encontramos o valor crítico ou tabelado de 4,1528, ao nível de significância de 5%. Se o Fcalculado > Ftabela, rejeitamos a hipótese nula de que não há colinearidade entre a variável Xit e as demais variáveis Xit, ao nível de significância estabelecido (5%, como no nosso exemplo). Dito de outra forma, Fcalculado > Ftabela quer dizer que a colinearidade existe. Podemos ver, com base nos resultados do Quadro 5, que todas as estatísticas F calculadas são maiores que as da tabela de distribuição, revelando através desse procedimento que a multicolinearidade existe entre as variáveis explicativas inseridas no modelo. É como se todas elas fossem endógenas, quando no modelo clássico supomos a existência apenas de uma variável endógena, que é a variável dependente. 173 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS Gujarati e Porter (2011, p. 347) apresentam outra regra prática para analisar o Quadro 5. Trata-se da regra prática de Klein, a qual diz que devemos nos preocupar com a colinearidade somente se o R2 de todas as regressões auxiliares for maior do que o R2 do modelo de regressão original. Seguindo isso, vimos no Quadro 4 que o R2 = 0,9949. Apenas as regressões auxiliares de X5t e X6t apresentam R2 maior do que da regressão original. Essa regra prática contradiz um pouco o que vimos anteriormente. Por esse motivo, devemos evitar os atalhos e nos ater às técnicas devidamente comprovadas, como veremos a seguir. Uma das medidas de multicolinearidade mais comuns na literatura é o Fator de Inflação da Variância – FIV –, que mede a velocidade do aumento da variância e covariância. A partir dessa estatística é possível estimar a tolerância, denominada TOL (GUJARATI; PORTER, 2011, p. 337). O cálculo é feito por: FIV J = 1 1 − rJ2 1.6 TOL = 1 FIV j 1.7 Em que J se refere à Jésima variável X. Assim, FIVJ e rj2 são, respectivamente, o Fator de Inflação da Variância e o coeficiente de determinação da Jésima variável X. Caso o FIVj > 10, podemos dizer que há uma alta colinearidade entre a vaiável Xjt e as demais. Para aplicar o teste, partimos do modelo de regressão estimado (Quadro 4), em que selecionamos o menu “Análise” e escolhemos a opção “Colinearidade”. Os resultados estão no Quadro 6. 174 TÓPICO 1 | MULTICOLINEARIDADE QUADRO 6 – TESTES DE COLINEARIDADE Fatores de Inflação da Variância (FIV) Valor mínimo possível = 1,0 Valores > 10,0 podem indicar um problema de colinearidade X2 X3 X4 X5 X6 2,531 31,114 10,843 372,769 485,148 VIF(j) = 1/(1 - R(j)^2), em que R(j) é o coeficiente de correlação múltipla entre a variável j e a outra variável independente Diagnósticos de colinearidade de Belsley-Kuh-Welsch: lambda 4,750 1,011 0,211 0,027 0,002 0,000 --- proporções de variância --const X2 X3 X4 0,000 0,001 0,000 0,000 0,000 0,323 0,000 0,000 0,000 0,077 0,021 0,003 0,001 0,255 0,060 0,008 0,005 0,316 0,707 0,989 0,994 0,027 0,211 0,000 cond 1,000 2,168 4,748 13,361 55,296 438,119 X5 0,000 0,000 0,000 0,000 0,004 0,996 X6 0,000 0,000 0,000 0,008 0,033 0,958 lambda = autovalores de X'X, maior para o menor cond = índice condicional nota: as colunas de proporção da variância somam 1 FONTE: O autor Perceba que, no Quadro 6, a variável X2t não apresenta problema de colinearidade com as demais. A variável X4t é levemente colinear, pois apresenta FIVX4t = 10,843 e nossa regra diz que, quando o FIVj > 10, temos problemas de colinearidade. As demais possuem valores extremamente altos para a estatística FIVJ. A TOL pode ser facilmente obtida e seus resultados são apresentados no Quadro 7, corroborando a conclusão que chegamos até o momento. Valores próximos de zero indicam a presença de colinearidade. Esperaríamos uma TOL perto de 1 para dizer que não existe colinearidade perfeita entre as variáveis. Finalmente, outra estatística de teste que pode ser implementada é o índice condicional ou número de condição. Para ver esse teste, teremos que voltar para o Quadro 6. O Gretl reporta o resultado desse teste automaticamente e é derivado de Belsley, Kuh e Welsch (1980, p. 96), cujas definições algébricas fogem em muito ao escopo desse livro de estudos. Por esse motivo nos limitaremos à interpretação dos resultados obtidos. 175 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS QUADRO 7 – ESTIMATIVA DA TOLERÂNCIA (TOL) – COM OS DADOS DO QUADRO 1.6 E EQUAÇÃO 1.7 TOL = 1 FIVj Variável dependente FIVJ X2t 2,531 0,3951 X3t 31,114 0,0321 X4t 10,843 0,0922 X5t 372,769 0,0027 X6t 485,148 0,0021 FONTE: O autor A interpretação desse teste é bem simples. Se o índice condicional for alto, digamos, acima de 30, e a proporção da variância for alta (maior do que 0,5) para dois ou mais coeficientes estimados, podemos concluir que a variável em questão apresenta problemas de colinearidade (BELSLEY; KUH; WELSCH, 1980, p. 112). A título de exemplo, estamos reproduzindo o diagnóstico de colinearidade do Quadro 6 no Quadro 8 para destacar essa análise. Note que as variáveis X5t e X6t apresentam índice condicional de 55,296 e 438,119, respectivamente. Concomitantemente, a proporção da variância para X5t é alta quando comparada às variáveis X3 e X4. Da mesma forma, a proporção da variância de X6t é alta quando comparada a X5t e o próprio X6t . QUADRO 8 – DIAGNÓSTICO DE COLINEARIDADE (A PARTIR DO QUADRO 6) Diagnósticos de colinearidade de Belsley-Kuh-Welsch: lambda 4,750 1,011 0,211 0,027 0,002 0,000 cond 1,000 2,168 4,748 13,361 55,296 438,119 --- proporções de variância --const X2 X3 X4 0,000 0,001 0,000 0,000 0,000 0,323 0,000 0,000 0,000 0,077 0,021 0,003 0,001 0,255 0,060 0,008 0,005 0,316 0,707 0,989 0,994 0,027 0,211 0,000 lambda = autovalores de X'X, maior para o menor cond = índice condicional nota: as colunas de proporção da variância somam 1 FONTE: O autor 176 X5 0,000 0,000 0,000 0,000 0,004 0,996 X6 0,000 0,000 0,000 0,008 0,033 0,958 TÓPICO 1 | MULTICOLINEARIDADE 4 O QUE FAZER NA PRESENÇA DE MULTICOLINEARIDADE? Do que vimos até agora, resta a grande dúvida: O que fazer se detectarmos a presença de colinearidade entre as variáveis explicativas? De longe não há um consenso na literatura econométrica sobre esse assunto, motivo pelo qual são poucos os manuais de econometria que destacam um capítulo inteiro para analisar essa questão. Para entendermos bem o que devemos fazer na presença de multicolinearidade é necessário compreender melhor o que acontece com os estimadores de mínimos quadrados. Gujarati e Porter (2011, p. 334) nos dizem que “[...] mesmo se a multicolinearidade for muito alta, como no caso da quase multicolinearidade, os estimadores de MQO ainda conservarão a propriedade de melhores estimadores lineares não viesados”. Aqui o autor está se referindo a uma situação em que a colinearidade não é perfeita, mas quase. A superação desse problema passa por diversas técnicas, dentre as quais, não fazer nada também é uma delas. Isso se justifica se levarmos em consideração a preservação da propriedade de melhor estimador linear não tendencioso. Porém, você pode não se sentir confortável não fazendo nada, porque sabe que os estimadores perdem a eficiência em razão de ter uma variância muito alta, gerando intervalos de confiança amplos, nos induzindo a cometer um erro do tipo II. Normalmente, o problema surge quando temos uma amostra muito pequena ou quando o número de graus de liberdade é baixo. Nesses casos, podemos resolver a questão simplesmente aumentando o número de observações. No exemplo que desenvolvemos na seção anterior, tínhamos apenas 19 observações válidas, resultando em 13 graus de liberdade em razão dos 6 parâmetros estimados. Isso ocorreu porque tínhamos uma base de dados anual (23 anos), em que quatro observações não estavam disponíveis para todas as variáveis. Nesse caso optamos por deixar o Gretl resolver o problema para nós, e o que ele fez foi excluir da regressão a linha inteira em que haviam dados ausentes, reduzindo a nossa base. Uma medida alternativa seria fazer uma média móvel para tapar esses buracos. Com isso talvez não resolvêssemos a questão da multicolinearidade, mas não perderíamos os graus de liberdade, que são tão importantes para dar um sentido empírico ao estudo. Outra saída seria obter dados trimestrais em vez de dados anuais, para o mesmo período de análise. Isso nos daria um total de 92 observações. Assim, lembrando das propriedades assintóticas dos estimadores, sabemos que em amostras grandes, E ( β̂ k ) ≅ β k. Trata-se de procedimento simples, porém depende da existência de dados nessa frequência, o que nem sempre é possível de encontrar. Outra forma de ampliar o tamanho da amostra é trabalhar com a combinação de dados de corte e séries temporais. Temos aí o chamado painel de dados, que permite fazer uma análise cruzada das informações. Essa técnica é discutida na disciplina de Econometria II, a qual ampliará ainda mais o leque de conhecimento 177 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS e consolidará tudo o que aprendemos em Econometria I, apresentando a você uma série de modelos econométricos que lhe ampliará as possibilidades de aplicação. Por ora, basta sabermos que esta é uma das saídas possíveis. Redefinir as variáveis também é uma opção. Maddala (2003, p. 147) nos alerta que “as intercorrelações podem mudar com a redefinição das variáveis explicativas”. No exemplo citado no seu livro, ele trabalha com a renda corrente, renda permanente e renda transitória como variáveis explicativas. Claramente a renda corrente é uma soma da renda permanente com a transitória, gerando o problema da colinearidade entre essas variáveis. Em uma transformação em que você combina duas variáveis é possível estimar uma combinação de parâmetros e, a partir do resultado, obter o parâmetro da equação original. Além disso, talvez queiramos excluir uma das variáveis explicativas, o que pode ser feito se não estivermos interessados na estimação de todos os parâmetros do modelo. Porém, essa solução pode gerar um problema ainda maior, o do viés ou erro de especificação (GUJARATI; PORTER, 2011, p. 351). Se na teoria econômica o consumo depende da renda corrente, renda permanente e renda transitória, ao excluirmos uma dessas variáveis estaremos especificando um modelo de forma incorreta. Para finalizar a questão da multicolinearidade, vamos estimar novamente no nosso modelo, redefinindo-o a fim de tentarmos corrigir o problema. Para isso, vamos reescrever o modelo 1.4 da seguinte forma: Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t + εt 1.8 Yt = β1 + β2X2t + β3X3t + β4X4t + β6X6t + εt 1.9 Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + εt 1.10 Yt = β1 + β2X2t + β3X3t + β4X4t + εt 1.11 A fim de solucionar o problema de multicolinearidade, usaremos o modelo 1.8 como comparação, porque é o nosso modelo original, usaremos os modelos 1.9 eliminando a variável X5t, 1.10 eliminando X6t, mas mantendo X5t e 1.11 eliminando X5t e X6t. Escolhemos essas formas funcionais porque nos quadros 6 e 8 detectamos que as variáveis X5t e X6t apresentam problemas de multicolinearidade mais forte do que as demais variáveis incluídas no modelo. 178 TÓPICO 1 | MULTICOLINEARIDADE No Quadro 9 apresentamos os resultados dos modelos estimados. Adicionalmente transcrevemos algumas estatísticas úteis aos resultados obtidos. Temos agora a soma dos quadrados dos resíduos, pois o método de mínimos quadrados requer exatamente isso, ou seja, escolher parâmetros de regressão que sejam capazes de minimizar essa soma. Esperaríamos que o melhor modelo fosse aquele que apresentasse o menor número dessa estatística. O R2, você já está habituado a ver nos nossos resultados e o R2 ajustado também. Sabemos que ao analisar dois modelos de regressão que não têm o mesmo número de variáveis explicativas, devemos comparar o R2 ajustado , pois sabemos que a inclusão de variáveis explicativas melhora a qualidade do ajustamento, medido pelo R2 . Assim, pela definição do R2 ajustado , que penaliza essa inclusão, podemos escolher o melhor modelo. A título de comparação entre modelos, estamos também adicionando os critérios de informação de Akaike e de Schwarz, definidos na Unidade 2 como: Critério de informação Akaike Schwarz Equação AIC = −2l θˆ + 2 k () BIC = −2l (θˆ ) + k ln n 1.12 1.13 Retorne à Unidade 2 para revisar a explicação que demos a respeito dessas duas estatísticas. Ambos os critérios punem a inclusão de variáveis explicativas, mas em termos técnicos, são estatísticas mais robustas para a escolha de modelos de regressão do que o R2ajustado. A regra aqui é selecionar o modelo de regressão que apresenta o menor valor para essas duas estatísticas. O teste F também é reportado no Quadro 9, e como sabemos, ele testa a hipótese de que, em conjunto, todos os coeficientes estimados são estatisticamente iguais a zero, contra a hipótese alternativa de que pelo menos um dos coeficientes é estatisticamente diferente de zero. E como falamos em graus de liberdade, esse número também está reportado. 179 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS QUADRO 9 – REFORMULANDO O MODELO PARA RESOLVER O PROBLEMA DA MULTICOLINEARIDADE Coeficiente estimado Modelo 1.8 Modelo 1.9 Modelo 1.10 Modelo 1.11 Constante −29.423,6 (0,2384) 57.777,8 (0,0000)*** −10.404,5 (0,0154)** 28.442,2 (0,0000)*** X2t 1,3172 (0,0708)* 1,8125 (0,0649)* 1,3738 (0,0554)* 4,3362 (0,0372)** X3t −0,0002 (0,9027) −0,0024 (0,2144) −0,0009 (0,4288) 0,0119 (0,0000)*** X4t −0,3102 (0,5405) −0,2051 (0,7674) −0,380577 (0,4408) 4,63809 (0,0000)*** X5t 0,7980 (0,0027)*** X6t −557,120 (0,4329) 1.902,93 (0,0000)*** R2 0,9949 0,9895 0,9946 0,9435 R2ajustado 0,9929 0,9865 0,9931 0,9322 Soma dos resíduos quadrados 10.158.809 20.837.187 10.670.691 112.000.000 Akaike 316,5185 328,1681 315,4525 358,1619 Schwarz 322,1851 332,8903 320,1747 361,9397 F 506,1060*** 330,3606*** 648,4462*** 83,5450*** Graus de liberdade 13 14 14 15 0,6291 (0,0000)*** Obs.: p – valor entre parênteses e *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%. FONTE: O autor Já tínhamos visto os resultados do modelo 1.8 no Quadro 4, e vimos através dos diversos testes apresentados nessa seção que há a presença de multicolinearidade entre as variáveis. Lembrando que a variável dependente é a quantidade de pessoas ocupadas, e queremos saber se essa variável pode ser explicada pelo deflator implícito do PIB, pelo próprio PIB, pela população desocupada e a população em idade ativa. Incluímos ainda uma variável de tempo para capturar a tendência determinística da série temporal, como você terá a oportunidade de estudar em Econometria II. Por estarmos trabalhando com séries variantes no tempo, algumas técnicas precisam ser empregadas para evitar erros de especificação, porém optamos por manter o exemplo o mais simples possível, a fim de que você possa compreender a teoria e aplicar na prática aquilo que aprendeu até este momento. Deixaremos as discussões envolvendo técnicas de séries temporais para o futuro. 180 TÓPICO 1 | MULTICOLINEARIDADE No modelo 1.8, temos poucos coeficientes estimados estatisticamente significativos. Pelos testes de multicolinearidade, verificamos que pode haver esse problema entre as variáveis (veja os quadros 5, 6 e 7). Como não sabemos a natureza desse problema, suspeitamos que seja a especificação incorreta das variáveis do modelo, e com isso o próprio modelo pode estar especificado de forma incorreta. Para testar a especificação do modelo, ou melhor dizendo, se ao menos a forma funcional está corretamente especificada, podemos empregar o teste RESET de Ramsey, visto na Unidade 2. Basicamente ele consiste em um processo de várias etapas, com a inclusão da variável dependente estimada na forma quadrática e cúbica como variável explicativa. Com isso podemos testar a hipótese nula de que o modelo está corretamente especificado, contra a hipótese alternativa de que o modelo não está. Dito de outra forma, fazemos: H0: E(Yt|X2t, X3t, X4t, X5t, X6t) = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t H1: E(Yt|X2t, X3t, X4t, X5t, X6t) = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t 1.14 Para rodar o teste estimamos um modelo de regressão como em 1.8, salvamos o R2 e depois estimamos outros modelos com a inclusão da variável dependente estimada na forma quadrática e cúbica e também salvamos o R2 . Com esses resultados implementamos um teste F da seguinte forma: Fcalculado ( R − R ) / número de novos regressores = (1 − R ) / ( n − número de parâmetros do novo modelo ) 2 novo 2 velho 2 novo 1.15 Esse teste segue uma distribuição F com grau de liberdade no numerador, sendo o número de novos regressores, e o denominador é dado por n – número de parâmetros do novo modelo. O resultado para o modelo 1.8 está descrito no Quadro 10 e é facilmente implementado a partir da tela do modelo estimado no Gretl, selecionando o menu “Testes”, na sequência “RESET de Ramsey”, e na janela que abrir você pode marcar “Todas as variantes”: 181 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS QUADRO 10 – TESTE DE ESPECIFICAÇÃO DE RESET PARA O MODELO 1.8 Teste RESET para especificação (quadrados e cubos) Estatística de teste: F = 11,344045, com p-valor = P(F(2,11) > 11,344) = 0,00212 Teste RESET para especificação (apenas quadrados) Estatística de teste: F = 1,381340, com p-valor = P(F(1,12) > 1,38134) = 0,263 Teste RESET para especificação (apenas cubos) Estatística de teste: F = 0,951401, com p-valor = P(F(1,12) > 0,951401) = 0,349 FONTE: O autor Conforme o Quadro 10, podemos rejeitar a hipótese nula de que o modelo 1.8 está corretamente especificado se considerarmos quadrados e cubos. Há, portanto, uma pista para o problema da multicolinearidade. Talvez não tenhamos esse problema afinal, mas especificamos incorretamente o nosso modelo. Voltemos ao Quadro 9 e vamos analisar o resultado do modelo 1.9. Perceba que a exclusão de X5t, ou seja, a população em idade ativa, não traz nenhuma melhora significativa nos critérios de seleção. O R2ajustado diminuiu, enquanto a soma dos quadrados dos resíduos, o Akaike e o Schwarz aumentaram. Portanto, apesar de aumentarmos o número de graus de liberdade com a exclusão de uma variável explicativa, os resultados não estão melhores do que estariam se a mantivéssemos no modelo. O teste RESET para quadrados e cubos para o modelo 1.9 apresentou um F = 19,7932 com p – valor = 0,0002, indicando que este modelo não está corretamente especificado. Dessa forma, podemos partir para o próximo modelo, 1.10, o qual inclui novamente X5t e exclui X6t. Aqui temos uma ligeira melhora nos critérios de seleção quando comparados com os modelos precedentes. Porém, o que tem nos incomodado é o fato de que os coeficientes estimados individualmente continuam com baixa significância estatística e R2 alto, indicando que o problema pode não ter sido solucionado. O teste RESET para quadrados e cubos nos faz rejeitar a hipótese nula de que o modelo está corretamente especificado, com um F = 8,4952 e um p – valor = 0,0050. Em resumo, 1.10 ainda não é o modelo que queremos para avançar nos nossos estudos. Finalmente estimamos o modelo 1.11, em que excluímos tanto a variável X5t quanto X6t. Agora os coeficientes estimados são todos estatisticamente significativos. Apesar disso, todos os critérios de seleção tiveram piora nos seus resultados, mas o teste RESET com F = 2,4287 e p – valor = 0,127 indica que não podemos rejeitar a hipótese nula de que o modelo está corretamente especificado. E agora, o que devemos fazer? A resposta para essa dúvida é crucial para o desenrolar do nosso estudo. Por esse resultado, a exclusão da população em idade 182 TÓPICO 1 | MULTICOLINEARIDADE ativa e a tendência temporal melhoraram a qualidade dos coeficientes estimados das outras variáveis explicativas. Além disso, o fato de o modelo estar corretamente especificado, nos faz querer escolher 1.11 em detrimento dos demais. Afinal, será que esse modelo é capaz de resolver o problema da multicolinearidade? Veja o Quadro 11, nele apresentamos o teste de colinearidade para o modelo 1.11. Ao que tudo indica, com essa nova especificação, o problema foi superado. E quanto aos demais modelos, eles resolvem o problema da colinearidade? Vamos deixar você verificar essa dúvida com os dados disponíveis. Você concluirá que, entre os quatro modelos apresentados, o único que não tem multicolinearidade é 1.11. QUADRO 11 – TESTES DE COLINEARIDADE PARA O MODELO 1.11 Fatores de Inflação da Variância (FIV) Valor mínimo possível = 1,0 Valores > 10,0 podem indicar um problema de colinearidade X2 X3 X4 2,121 1,222 1,877 VIF(j) = 1/(1 - R(j)^2), em que R(j) é o coeficiente de correlação múltipla entre a variável j e a outra variável independente Diagnósticos de colinearidade de Belsley-Kuh-Welsch: lambda 2,854 0,953 0,185 0,008 cond 1,000 1,730 3,924 19,254 --- proporções de variância --const X2 X3 X4 0,002 0,006 0,023 0,002 0,000 0,413 0,014 0,000 0,008 0,048 0,803 0,021 0,991 0,533 0,160 0,976 lambda = autovalores de X'X, maior para o menor cond = índice condicional nota: as colunas de proporção da variância somam 1 FONTE: O autor Isso certamente nos faz questionar a validade dos critérios de seleção que apresentamos nessa seção. Na verdade, ao escolher o modelo de regressão, devemos ser parcimoniosos, ou seja, escolher aquele que apresenta o conjunto mais equilibrado de estatísticas, com a menor quantidade de problemas e a melhor qualidade de ajuste. Além disso, um resultado ruim pode ser bom do ponto de vista empírico! Apesar de contraditório, se a teoria econômica por traz do estudo do desemprego disser que é obrigatório usar as variáveis X5t e X6t, o nosso resultado refutaria essa teoria e a partir dela poderíamos lançar uma proposição alternativa a essa teoria. 183 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS A única coisa que temos que evitar são as estimações ad hoc, ou seja, por tentativa e erro. Ao selecionar o modelo 1.11, partimos dos quadros 5, 6 e 7, que já nos indicavam que estas duas variáveis estavam prejudicando os resultados do nosso modelo de regressão. Da mesma forma, o teste RESET confirmou que a escolha por 1.11 é a melhor escolha, considerando que dessa forma o modelo está corretamente especificado. LEITURA COMPLEMENTAR Métodos Quantitativos em Contabilidade: A Contabilometria Carlos Cesar D'Arienzo O raciocínio do Prof. Iudícibus segue a série de cuidados (estatísticos e econômicos) nomeados por Barbancho (1970, p. 34) quanto ao uso inapropriado da Econometria para todos os fins nos campos das Ciências Econômicas e apesar de todos os seus avanços como técnica, ao enumerá-los: Ordem Estatística: dificuldade de dar tratamento a alguns tipos de modelos não lineares; autocorrelação observada entre os termos residuais; erros de observações nas variáveis; amostras pequenas e ou não representativas; intercorrelação entre as variáveis explicativas, impedindo o pleno conhecimento da verdadeira relação (multicolinearidade).Ordem Econômica: dificuldade de incorporar aos modelos fatores subjetivos como atitudes, opiniões, expectativas, intenções; problema de classificação de variáveis em endógenas e exógenas, ou seja, dificuldade de estabelecer a direção do efeito das variáveis; problema de especificação da teoria e dos erros (grifo do autor). Contudo, deve-se entender que o profissional de Contabilidade, disposto a trabalhar com elementos de Contabilometria, necessita desenvolver conhecimentos de Elementos de Técnicas Computacionais, Economia e Administração, além de conhecimentos específicos de Matemática e Estatística, tais como: funções, derivadas, máximos e mínimos de funções, limites, integrais, determinantes, matrizes, séries, medidas de tendência central e de dispersão, amostragem, probabilidade, teste de hipótese, correlação, análise de regressão e análise de variância. O Prof. Iudícibus adverte quanto ao uso puro e simples da Econometria como suporte à Contabilometria em sua fase nascente, notadamente em relação às diferenças (às vezes sutis) entre as Teorias Econômicas e Contábeis, sobre, por exemplo, a natureza dos Custos de Produção. As advertências expostas pelo Professor Iudícibus (1982), referentes à comparação entre Teorias Contábeis e as Econômicas, são compartilhadas por Vasconcellos e Oliveira (2000, p. 149). 184 TÓPICO 1 | MULTICOLINEARIDADE O Prof. Iudícibus (1982, p. 45) prossegue em suas observações quanto às limitações da analogia envolvendo Econometria e as especulações sobre a nascente Contabilometria: [...] precisamos verificar se a definição de Econometria dada linhas acima poderia ser transplantada para a Contabilidade. Assim, Contabilometria seria: a análise, quantitativa de 'fenômenos contábeis' reais baseada no desenvolvimento concomitante da teoria e da observação, relacionados através de métodos apropriados de inferência. Bem, temos, aparentemente, um problema aqui. A rigor, deveríamos ter 'fenômenos contábeis reais' para sermos exatamente simétricos com a definição de Econometria. Talvez nem tivéssemos Contabilidade se dependêssemos apenas de genuínos fenômenos contábeis reais, pois a maior parte dos 'fatos contábeis' decorre de fenômenos econômicos (transações) reais ou, na apreciação de relatórios periódicos, da agregação de vários fatos ocorridos em vários momentos de tempo. É preciso ressaltar, todavia, que os dois conjuntos (fenômenos econômicos e fatos contábeis) não são isomórficos. Nesse sentido, Barre (1964, p. 27) adverte sobre a tentativa de isolaremse ramos da Ciência: "[...] Autonomia não significa independência e implica colaboração e convergência de esforços". Afinal, é a organização do Conhecimento e a avaliação das precedências das teorias e técnicas, que fornecem a base para o trabalho científico, mesmo de disciplinas nascentes ou ainda incipientes, caso da Contabilometria. FONTE: <http://www.administradores.com.br/artigos/economia-e-financas/metodos-quantitativosem-contabilidade-a-contabilometria-7/60532/>. Acesso em: 17 jun. 2018. 185 RESUMO DO TÓPICO 1 Neste tópico, você aprendeu que: • Ao estimar um modelo de regressão múltiplo, se violarmos a hipótese 3 do modelo clássico de regressão linear, nos deparamos com o problema da colinearidade ou multicolinearidade, ou seja, as colunas da matriz de variáveis explicativas, X, são correlacionadas, deixando de ser independentes. • O problema da colinearidade está relacionado ao banco de dados, e pode ser gerado pelo próprio pesquisador, e mesmo assim os estimadores de mínimos quadrados mantêm a propriedade desejável de melhores estimadores lineares não tendenciosos. • Para detectar o problema de colinearidade estimamos do Fator de Inflação da Variância e adotamos o procedimento proposto por Belsley, Kuh e Welsch (1980), que gera um resultado mais preciso. • Para superar o problema, devemos ampliar a base de dados e/ou testar formas funcionais alternativas, usando os critérios de informação já discutidos na Unidade 2 como base para a escolha do modelo mais parcimonioso. 186 AUTOATIVIDADE Para esta atividade, vamos usar os dados originais de Longley (1967). Para isso, abra o Gretl e acesse o menu “Arquivo”, “Abrir dados”, “Arquivo de exemplos...”. Selecione a aba “Gretl” e procure por “longley”, dando um duplo clique. Através deste arquivo, temos dados anuais para o período entre 1947 e 1962 e se referem a: Variável: Descrição. employt: Número de pessoas empregadas, em milhares. prdeflt: Deflator implícito do PNB. gnpt: Produto Nacional Bruto (PNB). unempt: Número de pessoas desempregadas, em milhares. armfrct: Número de pessoas nas forças armadas. popt: Número de pessoas com mais de 14 anos de idade. yeart: Variável que assume valor igual a 1947 para o primeiro ano da série, 1947, e assim sucessivamente até 1962. 1 Plote a matriz de correlação dos dados, a partir da tela inicial do Gretl, no menu “Ver”, “Matriz de correlação”, selecionando apenas as variáveis explicativas. Com base na informação apresentada, você diria que existe problema de colinearidade entre algumas variáveis? Quais são as variáveis que aparentam ter colinearidade? 2 Com base nos dados e nas informações do quadro apresentado, estime o seguinte modelo de regressão, apresentando os resultados dos coeficientes estimados, os erros padrão e os p – valor, indicando para quais variáveis os estimadores são estatisticamente significativos: employt = β1 + β2prdeflt + β3gnpt + β4unempt + β5armfrct + β6popt + β7yeart + ut 3 Volte à tela do modelo estimado e faça a análise de colinearidade a partir do menu “Análise” e depois “Colinearidade”, plotando os resultados. Esses resultados confirmam a suspeita de colinearidade apresentada pela matriz de correlação da Questão 1? Quais variáveis são colineares? 4 Estime os seguintes modelos de regressão e avalie se a multicolinearidade persiste: employt = β1 + β2unempt + β3armfrct + β4yeart + ut employt = β1 + β2unempt + β3armfrct + ut 187 (1) (2) 188 TÓPICO 2 UNIDADE 3 HETEROSCEDASTICIDADE 1 INTRODUÇÃO Neste tópico, veremos o que acontece com os parâmetros do modelo de mínimos quadrados ordinários quando violamos a hipótese de homoscedasticidade dos resíduos. Veremos quais as implicações desse problema, estudaremos formas de detectá-lo e como superá-lo. A homoscedasticidade pressupõe que Var[εi|X] = σ2, para i = 1, 2, ..., n é um número finito e constante para cada termo de erro. Por sua vez, os erros heteroscedásticos apresentam Var[εi|X] = σi2 , para cada i = 1, 2, ..., n. Para entender esse conceito de forma prática, imagine que você coletou dados sobre consumo e renda em vários bairros da sua cidade. Nessa coleta, você entrevistou famílias das mais variadas rendas e padrões de consumo. Há famílias que praticamente gastam toda a sua renda, enquanto outras gastam uma pequena parcela. Isso ocorre porque há uma variabilidade muito grande de padrões de vida na cidade. GRÁFICO 1 – DISTRIBUIÇÃO CONDICIONAL DOS TERMOS DE ERRO FONTE: O autor 189 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS Se tirarmos a média do consumo para cada faixa de renda, E(Y|Xi), e conectarmos essas médias traçando uma reta, teremos a chamada reta de regressão, ou curva de regressão, vista na Unidade 1. No Gráfico 1 representamos essa reta de regressão associada à equação Yi = β1 + β2Xi. Analogamente, se analisarmos empresas de diferentes tamanhos e calcularmos a renda média de cada uma delas, e se além da renda média obtivermos uma medida de dispersão, por exemplo, o desvio padrão, veremos que a dispersão em torno do valor médio aumenta conforme o tamanho da empresa aumenta. Esperamos que empresas com quatro funcionários tenham uma dispersão em torno do valor médio muito menor do que aquelas com mais de 300 empregados. Isso ocorre porque, ao trabalharmos com dados de corte, temos que ter em mente que estamos lidando com indivíduos, ou seja, com agentes econômicos individuais. Esses agentes podem ser pessoas, empresas, países, municípios etc., e cada um deles tem características próprias, ou seja, são heterogêneos. Se todos os agentes fossem iguais, teríamos sempre um desenho semelhante ao do Gráfico 1. Dito de outra forma, a dispersão em torno do valor médio na população seria a mesma para cada indivíduo. É exatamente essa homogeneidade que caracteriza a homoscedasticidade, cuja origem vem do grego e tem um sentido de espalhamento homogêneo em torno do valor médio. Mas, por estarmos lidando com indivíduos heterogêneos, esperamos que desenhos como o do Gráfico 1 sejam mais exceção do que regra. Por esse motivo, e como uma das hipóteses do modelo clássico de regressão linear supõe que os erros sejam homoscedásticos, tomaremos o máximo de cuidado para que a estimação do nosso modelo de regressão não viole essa hipótese do modelo clássico. Caso seja violada, adotaremos medidas corretivas adequadas para cada situação. 2 A NATUREZA DA HETEROSCEDASTICIDADE Na construção dos nossos modelos econométricos, partimos de casos simples, como: Yi = β1 + β2Xi + εi 2.1 Em que Yi é a variável dependente, Xi é a variável explicativa, β1 o intercepto dessa equação linear (normalmente sem significado econométrico importante), β2 o coeficiente angular (ou quanto varia Yi se Xi variar uma unidade) e εi é o termo de erro aleatório, com função densidade de distribuição normal, E(εi|Xi) = 0, Var(εi|Xi) = E(εi2|Xi) = σ2 e Cov(εi, εi–j|Xi, Xi–j) = 0. 190 TÓPICO 2 | HETEROSCEDASTICIDADE Se usarmos o método de mínimos quadrados ordinários em 2.1, obteremos os melhores estimadores lineares não tendenciosos dentro da classe dos estimadores lineares não tendenciosos. Em outras palavras, os estimadores serão BLUE (ver as hipóteses do modelo clássico na Unidade 1 e o teorema de Gauss-Markov). Isso se aplica tanto ao modelo 2.1, estudado na Unidade 1, quanto ao modelo 2.2, que trata do caso geral ou do modelo de regressão múltiplo, visto na Unidade 2: y = Xβ + ε 2.2 No caso de 2.2, aplicando as hipóteses do modelo clássico, β̂ = ( X ′X ) X' y, E(ε|X) = 0 e E[εε'|X] = σ2I. Porém, se violarmos a hipótese de homoscedasticidade dos resíduos, ou seja, na presença de heteroscedasticidade, Var[εi|X] = E[εε'|X] = σi2, para cada i = 1, 2, ..., n. Neste caso, ainda estamos supondo que os erros são não correlacionados, mas, no Tópico 3, essa hipótese será revista. Em termos de matrizes, podemos escrever: −1 ω1 0 ω2 2 2 0 ′ E εε |X = σ Ω= σ 0 0 0 0 0 0 … 0 = ωn σ 12 0 2 0 σ2 0 0 0 0 0 0 … 0 σ n2 2.3 Em que n é o número de observações e E[εε'|X] = σ2Ω. Para o modelo clássico, a homoscedasticidade implica que a matriz Ω tem valor igual a 1 na diagonal principal, ou seja, ω1 = 1, i = 1, 2, ..., n, e nesse caso, fazemos E[εε'|X] = σ2I. Caso os erros sejam heteroscedásticos, a matriz Ω tem valores diferentes para cada posição da sua diagonal principal, e assim escrevemos E[εε'|X] = σ2ωi = σi2. O Gráfico 2 nos ajuda a ter uma ideia visual da heteroscedasticidade. Perceba que, à medida que as variáveis dependente e explicativa se tornam cada vez maiores, fica mais difícil prever uma em função da outra, porque a variabilidade ou dispersão se torna cada vez maior. 191 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS GRÁFICO 2 – EXEMPLO DE HETEROSCEDASTICIDADE FONTE: O autor Teremos a oportunidade de verificar isso na prática através de um exemplo com dados reais da economia brasileira. Dessa forma, procuraremos apresentar não apenas técnicas para detectar a sua presença, mas também alternativas para superá-la. 3 DETECTANDO O PROBLEMA DA HETEROSCEDASTICIDADE Na Unidade 2, nós usamos o arquivo Wage1, fornecido por Wooldridge (2016) para verificar se havia discriminação em relação ao gênero feminino em 1976. Vamos voltar agora a esse exemplo, estimando um modelo com apenas uma variável explicativa, representado a seguir: wagei = β1 + β2educi + εi 2.4 Em que β1 e β2 são os parâmetros a serem estimados, εi é o termo de erro, o qual supomos ter distribuição normal com média zero e variância constante, εi~N(0, σ2), wagei é o salário-hora recebido pelos trabalhadores e educi os anos de educação formal de cada trabalhador. Vamos começar a nossa análise com o gráfico de dispersão entre as variáveis dependente e explicativa, conforme o Gráfico 3: 192 TÓPICO 2 | HETEROSCEDASTICIDADE GRÁFICO 3 – GRÁFICO DE DISPERSÃO ENTRE wagei e educi FONTE: O autor À medida que a renda e o tempo de educação formal aumentam, a dispersão em torno do valor médio também aumenta. Notou? Sabemos que os indivíduos são heterogêneos e já esperávamos um comportamento parecido com esse. Estimando o modelo de regressão 2.4 por mínimos quadrados ordinários, obtivemos os resultados do Quadro 12. QUADRO 12 – RESULTADO DA ESTIMAÇÃO DE 2.4 POR MÍNIMOS QUADRADOS ORDINÁRIOS Modelo 1: MQO, usando as observações 1-526 Variável dependente: wage coeficiente erro padrão razão-t p-valor ---------------------------------------------------------const −0,904852 0,684968 −1,321 0,1871 educ 0,541359 0,0532480 10,17 2,78e-022 *** Média var. dependente 5,896103 Soma resíd. quadrados 5980,682 R-quadrado 0,164758 F(1, 524) 103,3627 Log da verossimilhança −1385,712 Critério de Schwarz 2783,954 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn 3,693086 3,378390 0,163164 2,78e-22 2775,423 2778,764 Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1%, respectivamente. FONTE: O autor 193 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS Perceba que a constante não é estatisticamente significativa, enquanto β̂ 2 é estatisticamente diferente de zero. O R2 é baixo, mas, se não conhecêssemos um pouco de econometria, olharíamos o Quadro 12 e acreditaríamos que de um modo geral, o resultado encontrado é bom. Precisamos verificar se não há problemas de heteroscedasticidade, ou seja, devemos investigar se os resíduos estimados são homoscedásticos. Como vimos anteriormente, em 2.3, precisamos verificar se a matriz E[εε'|X] = σ2ωi. Se ωi = 1 para cada i = 1, 2, ..., n, não temos com o que nos preocupar, porque neste caso os erros são homoscedásticos. O problema é que só teremos acesso a σ2ωi, se tivermos a nossa disposição toda a população de dados. Como estamos usando apenas uma amostra, não podemos examinar essa matriz diretamente. Por isso, aplicaremos alguns testes, tanto formais quanto informais, tendo em mente que o estimador de βk é um estimador consistente, mesmo na presença de heteroscedasticidade. Para fazer isso, usaremos os resíduos estimados, porque na presença de heteroscedasticidade, o método de mínimos quadrados ordinários gera resíduos que imitarão, mesmo que de forma imprecisa por causa da variabilidade amostral, a heteroscedasticidade dos verdadeiros erros populacionais (GREENE, 2012, p. 315). Vimos no Gráfico 3 que a renda aumenta à medida que os anos de educação formal aumentam. Por isso, agora que estimamos o modelo por mínimos quadrados ordinários, o próximo passo é plotar um gráfico dos resíduos quadrados contra a variável explicativa e ver se detectamos algum padrão de comportamento. Se os resíduos são homoscedásticos, não devemos observar nenhum padrão de comportamento, mas a aleatoriedade dos dados. 2 GRÁFICO 4 – GRÁFICO DE DISPERSÃO ENTRE ûi e educi FONTE: O autor 194 TÓPICO 2 | HETEROSCEDASTICIDADE O Gráfico 4 apresenta o gráfico de dispersão dos resíduos quadrados contra a 2 variável educi. Para obter a série de ûi , você deve selecionar o menu “Salvar”, na janela do modelo estimado, e na sequência escolher “Resíduos quadrados”. Na tela inicial do Gretl, você deve selecionar o menu “Ver”, depois escolher “Gráfico das variáveis” 2 e depois “X-Y em dispersão”. Você informa a variável educi no eixo X e ûi no eixo Y. O que essa figura nos revela? Se o gráfico de dispersão apresentasse um comportamento parecido com o que vemos até os sete anos de educação formal, poderíamos supor que não há problemas de heteroscedasticidade, porque aquele comportamento é totalmente aleatório. Porém, à medida que os anos de educação aumentam, temos um aumento da dispersão, o que levanta a suspeita de que os resíduos não são homoscedásticos. O problema de usar esse método é que ele não é muito preciso e deixa margem para interpretação. A pergunta que fica é: Qual é o padrão que deveríamos encontrar? A resposta é simples e pode ser vista no Gráfico 5. Como podemos ver, esperamos encontrar resíduos bem-comportados, sem um padrão definido. Caso tenhamos qualquer coisa diferente disso, podemos suspeitar da presença de heteroscedasticidade. GRÁFICO 5 – PADRÃO DE RESÍDUOS HOMOSCEDÁSTICOS FONTE: O autor A visualização gráfica é um método informal, de fácil e rápida implementação, mas que pode nos induzir ao erro. Há outros métodos mais eficientes e, com o uso do software, devem ser escolhidos em detrimento de qualquer conclusão tomada com a simples observação gráfica. Dentre os testes formais que podem ser implementados, os manuais de econometria geralmente apresentam o teste de Park, Glejser, coeficiente de correlação de Spearman, Goldfeld-Quandt, Breusch-Pagan-Godfrey, teste geral de heteroscedasticidade de White, além de outros. 195 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS Nesse Livro de Estudos trabalharemos com os três mais empregados na literatura, começando com o teste de Goldfeld-Quandt. O problema é que para esse teste não temos rotina pronta no Gretl. Um pouco de esforço manual será requerido para executar o teste. O teste de Goldfeld-Quandt requer um procedimento em etapas, que pode ser visto em Hill, Griffiths e Judge (2010, p. 284) e que resumiremos a seguir: 1. Ordene os dados em ordem crescente de acordo com os valores de educi, e então divida a amostra em duas partes iguais. 2 2. Estime um modelo de regressão para cada uma das subamostras, e obtenha σ̂ 1 2 e σ̂ 2 a partir dos erros estimados. 2 2 3. Testamos a hipótese nula, H 0 : σ̂ 1 = σˆ 2 , resíduos homoscedásticos, contra a 2 2 hipótese alternativa, H1 : σ̂ 1 ≠ σˆ 2 , resíduos heteroscedásticos. Para aplicar σˆ 2 o teste de hipótese, calculamos GQ = 12 , que segue uma distribuição F com σˆ 2 N1 – K1 graus de liberdade no numerador e N2 – K2 graus de liberdade no denominador, em que T1 e T2 é o tamanho das subamostras e K1 e K2 é a quantidade de parâmetros beta estimados em cada regressão. Para evitar cometer erros nesses procedimentos, podemos abrir o “Editor de Scripts” do Gretl e digitar os comandos do Quadro 13: FIGURA 1 – EDITOR DE SCRIPTS DO GRETL FONTE: Adaptado de Gretl (2018) 196 TÓPICO 2 | HETEROSCEDASTICIDADE No script do Quadro 13, temos as linhas de comando necessárias para testar a hipótese de que os resíduos são homoscedásticos, seguindo os passos descritos. Começamos obtendo uma subamostra, estimamos uma regressão por MQO e salvando o σ�1. Note que não salvamos a variância da primeira subamostra, mas o desvio padrão. O resultado obtido é o mesmo se usássemos a variância, e implementar o teste dessa forma é mais prático, motivo pelo qual estamos procedendo dessa maneira. Depois repetimos o procedimento para a segunda subamostra e finalizamos calculando a estatística de Goldfeld-Quandt, gerando inclusive o p – valor, para facilitar a nossa interpretação. Para executar o comando, selecione o botão executar (Figura 2, adiante) ou digite CTRL + R. QUADRO 13 – TESTE DE GOLDFELD-QUANDT # TOMAR A PRIMEIRA SUB AMOSTRA smpl educ > median(educ) --restrict # ESTIMAR A PRIMEIRA SUB AMOSTRA POR MQO ols wage const educ # SALVAR O ERRO PADRÃO DA PRIMEIRA SUB AMOSTRA scalar stdL = $sigma # SALVAR O NÚMERO DE GRAUS DE LIBERDADE DA PRIMEIRA SUB AMOSTRA scalar df_L = $df # RESTAURAR A AMOSTRA COMPLETA smpl full # TOMAR A SEGUNDA SUB AMOSTRA smpl educ < median(educ) --restrict # ESTIMAR A SEGUNDA SUB AMOSTRA POR MQO ols wage const educ # SALVAR O ERRO PADRÃO DA SEGUNDA SUB AMOSTRA scalar stdS = $sigma # SALVAR O NÚMERO DE GRAUS DE LIBERDADE DA SEGUNDA SUB AMOSTRA scalar df_S = $df # CALCULAR A ESTATÍSTICA DE GQ scalar fstatistic = stdL^2/stdS^2 # OBTER O P-VALOR DA ESTATÍSTICA pvalue F df_L df_S fstatistic # RESTAURAR A AMOSTRA COMPLETA smpl full FONTE: O autor 197 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS O Gretl abrirá uma janela com o resultado de cada uma das linhas digitadas nesse Script. O que nos interessa são as linhas destacadas abaixo: # CALCULAR A ESTATÍSTICA DE GQ ? scalar fstatistic = stdL^2/stdS^2 Escalar fstatistic substituído = 3,98399 # OBTER O P-VALOR DA ESTATÍSTICA ? pvalue F df_L df_S fstatistic F(210, 114): área à direita de 3,98399 = 1,28023e-014 (à esquerda: 1) Sob a hipótese nula de que erros homoscedásticos, com p – valor = 1,28023e – 014, ou seja, 0,0000, podemos rejeitar H0 em favor da hipótese alternativa e concluir que temos problema de heteroscedasticidade nos resíduos da regressão. Em termos práticos, isso significa que o resultado obtido a partir da estimação do modelo 2.4 por mínimos quadrados ordinários não pode ser usado para previsão e controle. Afinal, na presença de heteroscedasticidade, as estatísticas de teste, que usamos para verificar se os betas estimados são estatisticamente significativos, podem ser enganosas (HILL; GRIFFITHS; JUDGE, 2010, p. 284). FIGURA 2 – EXECUTANDO O SCRIPT PARA O TESTE DE GOLDFELD-QUANDT FONTE: Adaptado de Gretl (2018) 198 TÓPICO 2 | HETEROSCEDASTICIDADE O outro teste formal que podemos usar é o teste de Breusch-Pagan, e para tal considere o seguinte modelo de regressão: Yi = β1 + β2Xi + εi 2.5 Em que a variância do erro heteroscedástico é σi2, dada por: σi2 = f(γ + δZi) 2.6 Em que Zi pode ser a variável explanatória Xi ou quaisquer outras variáveis explanatórias diferentes de Xi. A implementação do teste é simples, e a partir da estimação de 2.5 por mínimos quadrados ordinários, obtemos os resíduos, ∑ εˆ i2 2 ˆ = σ elevando-os ao quadrado para estimar , que é o estimador de máxima N verossimilhança da variância populacional, σ2. Feito isso, estimamos a regressão: εˆ i2 =+ γ δ Zi + υi σˆ 2 2.7 Como define Pindyck e Rubinfeld (2004, p. 177), se εi em 2.5 tem distribuição normal, obtemos a soma dos quadrados explicada pela regressão dividida por dois, SQE , e comparamos a uma tabela de distribuição Qui-Quadrado com o 2 número de graus de liberdade igual ao número de variáveis explicativas Zi em 2.7, sob a hipótese nula de que os resíduos são homoscedásticos. No Gretl é fácil implementar o teste. A partir da janela do modelo estimado, vista no Quadro 11, selecionamos o menu “Testes”, na sequência escolhemos “Heteroscedasticidade” e depois “Breusch-Pagan”. O resultado é mostrado no Quadro 14. 199 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS QUADRO 14 – RESULTADO DO TESTE BREUSCH-PAGAN PARA O MODELO 2.4 Teste de Breusch-Pagan para a heteroscedasticidade MQO, usando as observações 1-526 Variável dependente: 'uhat^2' escalada coeficiente erro padrão razão-t p-valor --------------------------------------------------------const −1,01959 0,521836 −1,954 0,0513 * educ 0,160760 0,0405665 3,963 8,43e-05 *** Soma dos quadrados explicada = 104,032 Estatística de teste: LM = 52,016231, com p-valor = P(Qui-quadrado(1) > 52,016231) = 0,000000 Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. FONTE: O autor Como a hipótese nula é da existência de homoscedasticidade, percebemos que com um p – valor = 0,000000, podemos rejeitá-la a favor da hipótese alternativa de que os erros são heteroscedásticos. Lembrando que o teste de Breusch-Pagan supõe que os resíduos de 2.4 têm distribuição normal. Deixaremos para você confirmar essa hipótese, e que essa é uma restrição forte, portanto, caso não tenha distribuição normal, não podemos empregar esse teste. Caso os resíduos em 2.4 não tenham distribuição normal, devemos empregar o teste de White, que é mais robusto do que o teste de Breusch-Pagan, ao mesmo tempo em que se assemelha a ele. Para entender o teste de White, partimos do modelo 2.5, e em vez de estimarmos a regressão 2.7, estimaremos a regressão 2.8: εˆ i2 =+ γ δ Zi + υi 2.8 A partir do resultado dessa regressão, obtemos o R2 e o multiplicamos pelo tamanho da amostra, para compará-lo à tabela Qui-Quadrado com o número de graus de liberdade igual à quantidade de variáveis explicativas Zi em 2.8. A hipótese nula desse teste é que os erros são homoscedásticos. O resultado do teste aplicado ao modelo 2.4 está no Quadro 14 e foi obtido a partir do menu “Testes”, “Heteroscedasticidade” e “Teste de White”, na janela do modelo estimado (Quadro 11). 200 TÓPICO 2 | HETEROSCEDASTICIDADE Podemos ver no Quadro 15 que a hipótese de homoscedasticidade é rejeitada (leia o p – valor). Com isso, empregamos três testes estatísticos e chegamos à mesma conclusão. Os resíduos do modelo 2.4 são heteroscedásticos. Na prática, poderíamos empregar apenas o teste de White, que além de ser o mais empregado em verificações empíricas, é também o mais robusto. Há uma série de outros testes que podem ser empregados para verificar a existência de homoscedasticidade. Pindyck e Rubinfeld (2004), Gujarati e Porter (2011), Maddala (2003), entre outros, apresentam os testes de Goldfeld-Quandt, Park, Glejser e Koenker-Bassett. Porém, optamos por seguir Greene (2012, p. 315), apresentando os testes de White e Breucsh-Pagan, e acrescentando o teste de Goldfeld-Quandt. QUADRO 15 – RESULTADO DO TESTE DE WHITE Teste de White para a heteroscedasticidade MQO, usando as observações 1-526 Variável dependente: uhat^2 coeficiente erro padrão razão-t p-valor -------------------------------------------------------const 21,1175 12,8198 1,647 0,1001 educ −4,12530 2,12211 −1,944 0,0524 * sq_educ 0,254284 0,0885068 2,873 0,0042 *** R-quadrado não-ajustado = 0,044184 Estatística de teste: TR^2 = 23,240557, com p-valor = P(Qui-quadrado(2) > 23,240557) = 0,000009 Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. FONTE: O autor 4 RESOLVENDO O PROBLEMA DA HETEROSCEDASTICIDADE – O MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS Agora que sabemos que o nosso modelo estimado tem problema de heteroscedasticidade, precisamos saber o que fazer para gerar estimadores não tendenciosos, consistentes e eficientes. Antes de apresentar as técnicas empregadas para superar o problema da heteroscedasticidade, é importante sabermos por quê devemos nos preocupar com a sua existência. Vimos na Unidade 2 que: y = Xβ + u 2.9 201 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS Em 2.9 aplicamos o método de mínimos quadrados ordinários e obtemos a estimativa do vetor de parâmetros β: β̂ = ( X ′X ) X' y −1 2.10 Vimos também na Unidade 2 que, o estimador em 2.10 é obtido por amostragem e deve ser não tendencioso. Dito de outra forma, à medida que obtemos diversas amostras, em média o valor estimado do parâmetro tende ao verdadeiro valor encontrado na população: E β̂ = β 2.11 Além de não viesado, ele também é eficiente, ou seja, tem variância mínima: Var β̂ = σ 2 ( X ′X ) −1 2.12 Também vimos que, pelas propriedades dos estimadores de mínimos quadrados, a matriz de variância e covariância é dada por: E εε ′|X = σ 2 I 2.13 E pode ser escrita como: 2 E εε ′|X= σ Ω 2.14 Em que a matriz Ω tem em sua diagonal principal ωi, e supondo que os erros são homoscedásticos, ωi = 1, para cada i = 1, 2, ..., n, ou seja, é a mesma matriz identidade que geralmente representamos por I, quando assume valor de 1 para cada elemento da diagonal principal. Já sabemos que se a hipótese da homoscedasticidade não se confirmar, dizemos que estamos diante do problema da heteroscedasticidade, ou seja, a variância dos erros não é um número finito e constante, como gostaríamos, e essa violação de uma das hipóteses básicas do modelo de regressão traz as seguintes implicações, conforme Hill, Judge e Griffiths (2010, p. 276): 202 TÓPICO 2 | HETEROSCEDASTICIDADE 1. Os estimadores do vetor de parâmetros β permanecem não tendenciosos, porém agora são ineficientes (deixam de ser os melhores estimadores lineares não tendenciosos). 2. Como as variâncias estimadas dos parâmetros são tendenciosas, os erros padrão são incorretos, nos levando a estimar intervalos de confiança e fazer testes de hipótese enganosos. A ineficiência pode ser vista facilmente a partir de 2.10: β̂ = ( X ′X ) X' y −1 2.10 Sabemos por definição que y = Xβ + ε, podemos fazer a substituição em 2.10 para obter: = βˆ ( X′X ) −1 X′ ( X β + ε ) 2.15 βˆ = ( X ′X ) X ′X β + ( X ′X ) X ′ε −1 −1 2.16 Por definição, (X'X)–1 X'X = I, logo, βˆ = β + ( X ′X ) X ′ε −1 2.17 Assim, βˆ − β = ( X ′X ) X ′ε −1 2.18 Podemos obter a variância de β̂1 como: ' ' −1 −1 Var βˆ = E βˆ − β βˆ − β = E ( X ′X ) X ′ε ( X ′X ) X ′ε 2.19 E finalmente, Var βˆ = E[( X ′X ) X'εε ' X ( X ′X ) ] −1 −1 203 2.20 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS Em termos de 2.14, escrevemos E[εε'] = Ω, e, portanto: Var βˆ = ( X′X ) −1 X' ΩX ( X ′X ) −1 2.21 Em 2.11 e 2.17, vemos claramente que, na presença de heteroscedasticidade, se ε tem distribuição normal: −1 −1 βˆ ~ N β , ( X ′X ) X ′ΩX ( X ′X ) 2.22 Se os erros forem homoscedásticos, sabemos que em 2.21, (X'X)–1X'X = I, −1 portanto, Var β̂ = Ω ( X ′X ) , com Ω = σ2I. Mas, se os erros forem heteroscedásticos, a variância é dada por 2.21, com Ω tendo na sua diagonal principal ωi assumindo valores diferentes de 1. Claramente, o resultado em 2.21 é bem diferente daquele −1 que obteríamos na presença de erros homoscedásticos, ou seja, Var β̂ = σ 2 ( X ′X ) . Feitas essas considerações iniciais, devemos agora corrigir esse problema, e assim, estimaremos β, usando o método de mínimos quadrados ponderados. O primeiro passo é identificar a sua origem, mas, para isso, precisamos conhecer σi2, ou seja, os valores de ωi na matriz Ω. Supondo que conhecemos σi2, podemos aplicar o método de mínimos quadrados ponderados seguindo os seguintes procedimentos: Yi = β1 + β2X2i + εi 2.23 Cujos erros εi são heteroscedásticos, apresentando Var(εi) = σi2. Seguindo Gujarati e Porter (2011, p. 376), podemos reescrever 2.23 como: Yi = β1X1i + β2X2i + εi 2.24 Em que X1i = 1 para cada i = 1, 2, ..., n. Devemos dividir 2.24 pela raiz quadrada de σi2 (ou seja, o seu desvio padrão) para obter: X X ε =β 1i + β 2 2 i + i σi σi σi σi Yi 2.25 204 TÓPICO 2 | HETEROSCEDASTICIDADE Para melhor visualizarmos, podemos reescrever como: Yi* = β1* X1* i + β 2* X2* i + ε i* 2.26 Estimar 2.26 por mínimos quadrados ordinários é o que chamamos de estimação por mínimos quadrados ponderados. Isso significa que ponderamos as variáveis pelo desvio padrão σi. Porém, isso só é possível se realmente tivermos acesso a toda a população, ou seja, se soubermos o valor de σi . Como na prática não temos esse acesso, podemos usar outros ponderadores. Caso o desenho do gráfico de dispersão dos resíduos e da variável explicativa 2 revelar que a variância de εi seja algum padrão, por exemplo, Var ε i = σ Xi, Var ε i = σ 2 Xi2 ou Var ε i = σ 2 Xi , fazemos a transformação dos dados de forma que o novo termo de erro tenha variância constante. Isso é fácil de se observar porque: Var ε i = σ 2 Xi → σ 2= Var ε i = σ 2 Xi2 → σ 2= 2 σ 2 Xi → σ= Var ε= i Var ε i Xi Var ε i Xi2 Var ε i Xi 2.27 2.28 2.29 Para saber qual o padrão da variância heteroscedástico, você pode plotar os resíduos quadrados contra a variável explicativa, Xi. Como aplicação prática, vamos retomar o nosso modelo 2.4: wagei = β1 + β 2 educi + ε i 2.4 Primeiramente rodamos o modelo por mínimos quadrados ordinários e salvamos os resíduos quadrados, como fizemos no Gráfico 4. Podemos notar que é difícil identificar um padrão bem definido e, portanto, como exercício, tentaremos a opção 2.29, escolhendo educi como peso para o modelo 2.4. 205 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS Você deve ter em mente que o Gretl tem uma rotina pronta para estimar pelo método de mínimos quadrados ponderados. Ele usa como padrão a raiz quadrada do peso que você escolher, ou seja, se o peso for Xi, o Gretl usará W = 1 / Xi . Infelizmente o programa não tem uma rotina pronta para você montar os pesos da forma como quiser. Porém, ainda assim é possível fazer isso através da digitação de script específico no console do Gretl. Começamos pela tela inicial do Gretl, em que você deve escolher o menu “Acrescentar” e depois selecionar “Definir nova variável”. Escreva na janela que abriu a expressão W = 1/educ. Depois de definido o peso, podemos estimar a equação 2.30: wagei educi = β1 1 educi + β2 educi educi + εi 1 2.30 educi Ou, de forma mais simples: wagei* = β1* + β 2 educi* + ε i* = wagei* Em que 2.31 wagei 1 = = , β1* β1 , educi* educi educi educi = e ε i* ε i educi 1 educi . A estimação é feita através do menu “Modelo”, “Outros modelos lineares” e “Mínimos quadrados ponderados”. A Figura 3 apresenta a tela com a especificação do modelo 2.31. 206 TÓPICO 2 | HETEROSCEDASTICIDADE FIGURA 3 – ESPECIFICAÇÃO DO MODELO POR MÍNIMOS QUADRADOS PONDERADOS FONTE: Adaptado de Gretl (2018) Preencha as informações conforme a Figura 3 e clique em “Ok” para estimar o modelo. Os resultados são apresentados no Quadro 16, os quais você deve comparar com o Quadro 12. Perceba que agora a constante é positiva, diferente do resultado obtido anteriormente, porém, permanece estatisticamente não significativo ao nível de 10%. Em termos numéricos, o coeficiente estimado da variável educi sofreu pequena redução e permanece estatisticamente significativo ao nível de 1%. Vamos deixar para você comparar os critérios de informação de Akaike e Schwarz. 207 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS QUADRO 16 – SEQUÊNCIA DE COMANDOS PARA ESTIMAÇÃO POR MÍNIMOS QUADRADOS PONDERADOS Modelo 2: WLS, usando as observações 1-526 (n = 524) Observações ausentes ou incompletas foram ignoradas: 2 Variável dependente: wage Variável usada como peso: W coeficiente erro padrão razão-t p-valor ---------------------------------------------------------const 0,300476 0,556291 0,5401 0,5893 educ 0,444437 0,0455620 9,755 9,21e-021 *** Estatísticas baseadas nos dados ponderados: Soma resíd. quadrados 448,2860 R-quadrado 0,154179 F(1, 522) 95,15159 Log da verossimilhança −702,6360 Critério de Schwarz 1417,795 E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn 0,926707 0,152558 9,21e-21 1409,272 1412,610 Estatísticas baseadas nos dados originais: Média var. dependente Soma resíd. quadrados 5,905134 5996,897 D.P. var. dependente E.P. da regressão 3,697024 3,389441 Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. FONTE: O autor A dúvida que fica é se esse procedimento resolveu o problema da heteroscedasticidade. Podemos aplicar novamente o teste de White para verificar isso, porém, na tela do modelo de mínimos quadrados ponderados não será possível rodar uma rotina pronta com o teste. Teremos que fazer isso de forma manual. Para fazer isso, volte à tela do modelo 2.31, selecione o menu “Salvar” e depois “Resíduos quadrados”. Na tela inicial do Gretl, selecione o menu “Acrescentar” e na sequência escolha “Definir nova variável”. Na tela que abrir, você escreve a fórmula educ_b = educ/sqrt(educ). Essa variável educ_b é a variável educi*, a qual não foi preciso criar antes porque o Gretl fez de forma automática para rodar o modelo 2.31. Agora você deve clicar sobre essa variável e selecionar o menu “Acrescentar” e depois “Quadrados das variáveis selecionadas”. Feito isso, rode o modelo 2.8, redefinido conforme 2.32, pelo método de mínimos quadrados ordinários: 208 TÓPICO 2 | HETEROSCEDASTICIDADE εˆ i2 = γ + δ 1 educi* + δ 2 educ* i2 + υi 2.32 Os resultados estão no Quadro 17: QUADRO 17 – TESTE DE WHITE PARA O MODELO DE MÍNIMOS QUADRADOS PONDERADOS Modelo 3: MQO, usando as observações 1-526 (n = 524) Observações ausentes ou incompletas foram ignoradas: 2 Variável dependente: usq2 coeficiente erro padrão --------------------------------------------------------const 75,2348 46,9679 educ_b −55,3531 27,9810 sq_educ_b 10,4315 4,16927 Média var. dependente 11,44446 Soma resíd. quadrados 470027,3 R-quadrado 0,045035 F(2, 521) 12,28477 Log da verossimilhança −2524,876 Critério de Schwarz 5068,537 razão-t p-valor 1,602 −1,978 2,502 0,1098 0,0484 0,0127 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn ** ** 30,67728 30,03604 0,041369 6,12e-06 5055,752 5060,759 Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. FONTE: O autor Para testar a hipótese nula de que os erros são homoscedásticos, multiplicamos o R2 pelo tamanho da amostra e comparamos o resultado com uma tabela Qui-Quadrado, com dois graus de liberdade (número de regressores menos a constante). O resultado está em 2.33: = n.R2 524 = * 0 , 045035 23 , 59834 2.33 Recorrendo a uma tabela de distribuição Qui-Quadrado ou ao menu “Ferramentas” e “Tabelas estatísticas” do Gretl, vemos que o valor crítico para 1% de significância estatística é 10,5966. Portanto, rejeitamos a hipótese nula de homoscedasticidade, ou seja, o nosso procedimento não foi suficiente para resolver o nosso problema. Gujarati e Porter (2011, p. 399) sugerem uma transformação logarítmica para resolver o problema de heteroscedasticidade. A vantagem de se usar logaritmos é o fato de que essa técnica comprime as escalas e isso pode ser suficiente para resolver o nosso problema. A questão é que não pode haver valores negativos ou zeros. Nesse caso, o Gretl gera valores ausentes. Felizmente, o próprio Gretl desconsidera esses valores na hora de rodar a regressão, portanto, contanto que 209 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS tenhamos uma base suficientemente grande, pode valer a pena perder alguns graus de liberdade, mas corrigir o problema da heteroscedasticidade. Na tela inicial, selecione as variáveis wage e educ. No menu, escolha “Acrescentar” e depois “Logaritmo das variáveis selecionadas”. Rode o modelo 2.34 por mínimos quadrados ordinários: ln wagei = β1 + β 2 ln educi + ε i 2.34 O resultado está no Quadro 18, já com o teste de White. Veja que os coeficientes estimados são ambos estatisticamente significativos ao nível de 5% de significância estatística. O coeficiente βˆ 2 mede a elasticidade do salário em relação aos anos de educação, ou seja, um aumento de 1% no tempo de educação proporciona uma renda 0,82% maior. QUADRO 18 – ESTIMAÇÃO DO MODELO LOGARÍTMICO POR MÍNIMOS QUADRADOS ORDINÁRIOS Modelo 4: MQO, usando as observações 1-526 (n = 524) Observações ausentes ou incompletas foram ignoradas: 2 Variável dependente: l_wage coeficiente erro padrão razão-t p-valor ---------------------------------------------------------const −0,444677 0,217849 −2,041 0,0417 ** l_educ 0,825207 0,0864488 9,546 5,19e-020 *** Média var. dependente 1,624714 Soma resíd. quadrados 125,9833 R-quadrado 0,148615 F(1, 522) 91,11881 Log da verossimilhança −370,0842 Critério de Schwarz 752,6914 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn 0,531916 0,491271 0,146984 5,19e-20 744,1684 747,5061 Teste de White para a heteroscedasticidade Hipótese nula: sem heteroscedasticidade Estatística de teste: LM = 8,134 com p-valor = P(Qui-quadrado(2) > 8,134) = 0,0171287 Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. FONTE: O autor Pelo teste de White, não podemos rejeitar a hipótese nula de que os resíduos são homoscedásticos ao nível de 1% de significância estatística. Com isso, superamos o problema da heteroscedasticidade para o modelo usado nesse tópico. 210 RESUMO DO TÓPICO 2 Neste tópico, você aprendeu que: • A heteroscedasticidade é um fenômeno comum dos dados de corte por causa da heterogeneidade dos indivíduos, ou seja, pessoas, famílias, firmas, estados etc. • Na presença de heteroscedasticidade, os estimadores obtidos por mínimos quadrados ordinários, apesar de serem lineares, não tendenciosos e consistentes, deixam de ser os melhores estimadores lineares não tendenciosos e deixam de ter variância mínima. • Para detectar a presença de heteroscedasticidade foram desenvolvidos métodos informais (visualização através de gráficos) e formais (através de testes estatísticos). • Plotando um gráfico de dispersão dos quadrados dos resíduos contra a variável explicativa, devemos procurar a existência de algum padrão de comportamento. Se os resíduos forem homoscedásticos, o gráfico de dispersão terá os pontos totalmente aleatórios, enquanto na presença de heteroscedasticidade esses pontos seguirão algum padrão de comportamento. • Dentre os testes formais que podem ser implementados para verificar a existência de resíduos heteroscedásticos podemos destacar os testes de Goldfeld-Quandt, Breusch-Pagan-Godfrey e o teste geral de heteroscedasticidade de White. • A hipótese nula desses testes é que os resíduos são homoscedásticos. • Ao detectar a presença de heteroscedasticidade teremos que usar outro método econométrico para estimar os parâmetros da regressão. Nesse caso, usamos o método dos mínimos quadrados generalizados. 211 AUTOATIVIDADE Para essa autoatividade, você voltará aos dados do arquivo Wage1.gdt, usado no Tópico 2. Vamos modificar o modelo 2.4, incluindo a variável exper junto à variável educ como variáveis explicativas do modelo: wagei = β1 + β 2 educi + β 3 experi + ε i 2.35 Estimamos o modelo de regressão 2.35, e obtivemos os seguintes resultados: Modelo 1: MQO, usando as observações 1-526 Variável dependente: wage coeficiente erro padrão razão-t p-valor ---------------------------------------------------------const −3,39054 0,766566 −4,423 1,18e-05 *** educ 0,644272 0,0538061 11,97 2,28e-029 *** exper 0,0700954 0,0109776 6,385 3,78e-010 *** Média var. dependente 5,896103 Soma resíd. quadrados 5548,160 R-quadrado 0,225162 F(2, 523) 75,98998 Log da verossimilhança −1365,969 Critério de Schwarz 2750,733 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn 3,693086 3,257044 0,222199 1,07e-29 2737,937 2742,948 Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística. 1 Salve os resíduos quadrados, gerados por essa regressão e plote um gráfico de dispersão, colocando no eixo Y os resíduos quadrados e no eixo X a variável wage. 2 Volte ao modelo estimado e rode o teste de Breusch-Pagan para a heteroscedasticidade. Com base no resultado desse teste, informe se os resíduos são homoscedásticos ou heteroscedásticos. 3 Rode agora o teste de White. O resultado desse teste é o mesmo encontrado no teste de Breusch-Pagan? 4 Faça uma última modificação no modelo, incluindo a Dummy female como variável explicativa, transformando os dados variável dependente, wage, em logaritmos. Rode a regressão e o teste de White. Qual o resultado do teste de heteroscedasticidade após essa transformação? 212 TÓPICO 3 UNIDADE 3 AUTOCORRELAÇÃO 1 INTRODUÇÃO Na Unidade 3 estamos relaxando três premissas do modelo clássico de regressão linear, tornando-o mais próximo daquilo que o econometrista enfrenta diariamente. Começamos estudando a multicolinearidade, depois vimos a heteroscedasticidade e agora falaremos de correlação serial ou autocorrelação. A multicolinearidade pode ocorrer tanto em dados de corte quanto em séries temporais. Em função da heterogeneidade dos dados de corte, a heteroscedasticidade ocorre com mais frequência neste tipo de dados, mas isso não significa que não ocorra também em séries temporais. A correlação serial, por sua vez, ocorre exclusivamente em séries de tempo e ocorre com frequência, motivo pelo qual devemos dar uma atenção especial a isso. A ideia por trás da autocorrelação é o fato de que as séries temporais sofrem determinados choques que alteram a sua trajetória. Em modelos de regressão, esses choques são capturados pelos resíduos e sua influência pode ser carregada por vários períodos. Assim, um choque nos preços em janeiro, por exemplo, afeta em partes a inflação medida naquele mês. No entanto, no mês seguinte os agentes econômicos revisam o seu preço com base na inflação passada e sua expectativa para o futuro. Com isso, o choque de janeiro também irá influenciar a inflação de fevereiro, e de forma cumulativa a de março, e assim sucessivamente. Essa característica é comum das séries macroeconômicas e ainda mais nas séries financeiras, tais como retorno de ações, taxa de câmbio, juros, inflação, entre outros. A saída neste caso é aplicar o método dos mínimos quadrados generalizados que vimos no tópico anterior. Queremos alertá-lo novamente que em Econometria I não estamos sendo tão rigorosos com as séries temporais como estamos sendo com os dados de corte. O estudo de séries temporais é uma área muito específica dentro da econometria, dado a natureza particular dessas séries. Por esse motivo, você estudará esse tema com muito mais rigor em Econometria II, e então terá a oportunidade de revisar tudo o que aprendeu em Econometria I, porque o conhecimento nesse ramo da ciência econômica é cumulativo e sempre utilizado. 213 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS 2 A NATUREZA DA CORRELAÇÃO SERIAL Suponha o seguinte modelo de regressão linear: Yt =+ β1 β 2 X2 t + ε t 3.1 Em que Yt é a variável dependente, β1 e β2 são os parâmetros do modelo, X2t a variável explicativa e εt o termo de erro (que em séries temporais chamamos de inovações), o qual pelas hipóteses do modelo clássico, E[εt|X] = 0, Var[εt|X] = σ2 e a cov[εt, εt–1] = 0 para todo t ≠ 0. A autocorrelação ocorre quando relaxamos a hipótese de covariância igual a zero. Neste caso, precisamos descobrir qual o processo gerador da série de erros. Como exemplo, podemos supor que os erros foram gerados por um processo autorregressivo de primeira ordem, AR(1), como em 3.2. = ε t ρε t −1 + υt 3.2 Perceba que, neste caso, o termo de erro, εt, depende do seu valor no período anterior, mais um componente aleatório com distribuição normal, média zero, variância constante e não autocorrelacionado. Em séries temporais, quando vt tem variância igual a 1, nós dizemos que vt é um ruído branco, ou white noise, e essa condição nos permite suprimir |X das nossas equações, porque neste caso, E[ε|X] = E[ε]. Vamos voltar a 3.2 e recuar um período no tempo: = ε t −1 ρε t − 2 + υt −1 3.3 Substituindo 3.3 em 3.2 temos: ε= ρ ( ρε t − 2 + υt −1 ) + υt t 3.4 ε t = ρ 2ε t − 2 + ρυt −1 + υt 3.5 Podemos continuar avançando no passado e substituindo recursivamente as equações. No final, veremos que o termo de erro da equação 3.1 tem uma certa persistência ou inércia, medida por ρ das equações 3.2 a 3.5. Conforme Hill, Judge e Griffiths (2010, p. 303), chamamos ρ de “[...] parâmetro autorregressivo que determina quão rapidamente o efeito de um choque se dissipa”. 214 TÓPICO 3 | AUTOCORRELAÇÃO É importante impor uma restrição a esse parâmetro. Como teremos a oportunidade de estudar em Econometria II, um processo autorregressivo, como 3.2, para não se tornar um processo explosivo, ρ deve ser menor do que 1 em módulo. Dito de outra forma, –1 < ρ < 1, ou, . Outra característica importante é que, apesar de serem autocorrelacionados, os erros continuam com média zero. Porém, 2 Var ( ε= σ= t) ε σ υ2 1− ρ2 3.6 Veja que a variância dos resíduos da equação 3.2, σ v2, está relacionada 2 à variância dos resíduos da equação 3.1, σ ε . Como em 3.2 os erros vt são homoscedásticos, em 3.1 os erros também serão, como pode ser visto em 3.6. A covariância em 3.1, na presença de correlação serial, será dada por: Cov ε t ,ε t − k = σ ε2 ρ k 3.7 Em que k representa a distância de tempo entre os erros. A autocovariância é melhor representada com o auxílio da álgebra matricial. Conforme Greene (2012, p. 949), podemos representar 3.7 por E[εε'] = σ2Ω. Como Ω é uma função de |t – k|, podemos definir a autocovariância como: Cov ε t ,ε t − k =Cov ε t + k ,ε t =σ 2 Ωt ,t − k =γ k =γ − k 3.8 Se σ2Ωt,t = Υ0, a correlação entre εt e εt – k é a autocorrelação de εt, dada por: Corr ε t ,ε t − k= Cov ε t ,ε t − k γ k = = ρ= ρ− k k γ Var ε t Var ε t − k 0 3.9 Por simplificação, reescrevemos 3.9 como: E εε ′ = Γ = γ 0 R = σ 2 Ω 3.10 215 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS Assim, Γ é a matriz de autocovariância, R é a matriz de autocorrelação e o coeficiente de autocorrelação é dado por ρtk = γ t−k γ 0 , que decai gradualmente ao longo do tempo. Agora podemos representar a matriz de variância e covariância como: 1 2 ρ συ 2 E εε ′= = σ Ω= ρ 2 1− ρ2 ρ T −1 ρ ρ2 ρ 1 ρ 1 ρ T −2 ρ T −3 ρ 3 … ρ T −1 ρ 2 … ρ T −2 ρ … ρ T −3 … ρ 1 … ρ 3.11 Perceba que na diagonal principal continuamos com números 1, garantindo a variância constante e homoscedástica. As demais posições deveriam ser preenchidas por zeros, mas agora temos valores representando a correlação entre períodos, ou seja, as autocorrelações. O que quisemos apresentar a você é o caso simples em que o termo de erro na equação 3.1 segue um padrão autorregressivo de primeira ordem, AR(1). Porém, como você terá a oportunidade de estudar em Econometria II, esse processo pode seguir outros padrões, por exemplo, AR(2) , AR(3) , AR(p) . Mas também poderia ser um processo de média móvel, representada por MA(1) para o caso de ordem 1, ou MA(q) no caso de ordem q. Poderia, ainda, ser um processo ARMA(p, q), cujas matrizes seriam diferentes de 3.11, porém estamos omitindo nesse Livro de Estudos para não nos alongarmos desnecessariamente. Para finalizar nossa análise, lembre-se de que, no Tópico 2, representamos a regressão pelo modelo 2.9, e a estimativa do vetor dos parâmetros por 2.10. Vimos também que os estimadores β̂ permaneciam não tendenciosos na presença de heteroscedasticidade, porém ineficientes, como visto na equação 2.21: = Var βˆ ( X′X ) −1 X' ΩX ( X ′X ) −1 2.21 No caso de correlação serial, o problema permanece por causa de Ω. Assim, as consequências da heteroscedasticidade e da correlação serial são as mesmas, ou seja, geram parâmetros não viesados, mas ineficientes e com variâncias viesadas. Por esse motivo não estimamos os parâmetros do modelo de regressão por Mínimos Quadrados Ordinários, mas por Mínimos Quadrados Generalizados. 216 TÓPICO 3 | AUTOCORRELAÇÃO E por que os erros são autocorrelacionados? Muitos são os motivos que levam o modelo a gerar séries de erros correlacionados, dentre os quais podemos citar a inércia, muito comum em séries financeiras, e os ciclos econômicos, comuns em séries macroeconômicas. Porém, não podemos descartar a possibilidade do nosso modelo estar especificado de forma incorreta, quer seja pela sua forma funcional, ou pela omissão de uma variável estritamente relevante ou a inclusão de uma variável irrelevante como variável explicativa. 3 DETECTANDO O PROBLEMA DA CORRELAÇÃO SERIAL Existem alguns testes estatísticos que podemos empregar para fins de verificação da existência de autocorrelação. Esses testes são baseados na hipótese de que se os termos de erro populacional são correlacionados, então podemos detectá-los quando estimamos por mínimos quadrados ordinários (GREENE, 2012, p. 962). Para ver como funcionam esses testes, começaremos com o modelo 3.12: Areat = β1 + β 2 Pr ecot −1 + β 3Timet + ε t 3.12 Em que Areat se refere à área colhida de milho no ano t, em hectares, Precot – 1 se refere à cotação internacional do milho em US$/tonelada no ano imediatamente anterior, t – 1, Timet é uma variável de tendência temporal, β1, β2 e β3 são os parâmetros do modelo e εt é o termo de erro, o qual esperamos que tenha distribuição normal, com média zero e variância constante. Os dados anuais foram obtidos no IpeaData e estão disponíveis no Quadro 19, referente ao período de 1957 até 2015: QUADRO 19 – DADOS SOBRE COTAÇÃO INTERNACIONAL DO MILHO E ÁREA PLANTADA NO BRASIL Data Preço Área Time Data Preço Área Time 1957 55,8683 6.095.085 1 1958 49,7358 5.790.350 2 1987 75,5225 13.503.431 31 1988 106,9500 13.169.003 32 1959 50,7842 6.189.107 3 1989 111,3690 12.931.784 33 1960 49,5717 6.681.165 4 1990 109,2810 12.023.771 34 1961 47,7008 6.885.740 5 1991 107,4730 13.580.647 35 1962 48,6533 7.347.881 6 1992 104,2120 13.886.814 36 1963 53,7708 7.957.633 7 1993 102,0410 12.876.384 37 1964 54,7217 8.105.894 8 1994 107,7800 14.522.806 38 1965 55,2475 8.771.318 9 1995 123,4530 14.182.486 39 217 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS 1966 58,0025 8.703.169 10 1996 164,5230 12.505.585 40 1967 54,1642 9.274.327 11 1997 117,1720 12.825.504 41 1968 47,5058 9.584.754 12 1998 101,6170 11.234.423 42 1969 51,9658 9.653.757 13 1999 90,2942 12.418.490 43 1970 58,2642 9.858.108 14 2000 88,2192 12.648.005 44 1971 58,2975 10.550.489 15 2001 89,6092 12.912.390 45 1972 55,7375 10.538.943 16 2002 99,3342 12.304.986 46 1973 97,4692 9.923.570 17 2003 105,1870 13.343.992 47 1974 132,3770 10.672.450 18 2004 111,7780 12.864.838 48 1975 119,5480 10.854.687 19 2005 98,4057 12.249.101 49 1976 112,2640 11.117.570 20 2006 121,5890 12.997.372 50 1977 95,3692 11.797.411 21 2007 163,2590 14.010.838 51 1978 100,7490 11.124.827 22 2008 223,2480 14.747.249 52 1979 115,5780 17.378.885 23 2009 165,5420 14.144.321 53 1980 125,7160 11.451.297 24 2010 186,0070 12.963.080 54 1981 130,6030 11.520.336 25 2011 291,7810 13.605.369 55 1982 108,0990 12.619.531 26 2012 298,4100 15.065.288 56 1983 135,9830 10.705.979 27 2013 258,9570 15.708.367 57 1984 135,8200 12.018.446 28 2014 192,8810 15.843.121 58 1985 112,3310 11.798.349 29 2015 169,7850 15.406.010 59 1986 87,7917 12.465.836 30 FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018. A estimação do modelo 3.12 está no Quadro 20, adiante. Perceba que fizemos a estimação com uma base de dados contendo 59 observações, porém, usando a variável Preço defasada um período, nossa base reduz de 59 para 58 observações. Mesmo assim, como temos uma base grande, reduzimos as chances de termos uma regressão espúria por conta da micronumerosidade, ou seja, por termos uma amostra com poucos graus de liberdade. Para estimar 3.12 usando uma variável explicativa defasada, no menu principal do Gretl selecione “Modelo”, e na sequência “Mínimos Quadrados Ordinários”. Na tela que abrir, informe a variável Area como dependente e escolha as variáveis Preco e Time como variáveis explicativas. Após elencar todas as variáveis, na parte de baixo da tela de especificação do modelo, selecione “defasagens”, e na tela que abrir, para a variável Preco informe 1, como na Figura 4, que o Gretl se encarregará de transformar a sua variável Precot na variável Precot – 1. 218 TÓPICO 3 | AUTOCORRELAÇÃO FIGURA 4 – ESPECIFICAÇÃO DO MODELO COM DEFASAGEM FONTE: O autor Volte sua atenção ao Quadro 20 novamente. Observe que no modelo estimado, o coeficiente ˆ , que mede a mudança na área plantada quando a cotação internacional do milho no ano anterior sofre variação, não é estatisticamente significativo. Esperávamos uma correlação positiva e estatisticamente significativa entre a variável Área e Preço, indicando que os produtores brasileiros modificam suas estratégias de plantio em função da cotação internacional do grão na safra anterior. Dito de outra forma, quanto maior o preço no ano anterior, maior será o incentivo ao produtor aumentar a sua área plantada, visando a um lucro maior (sofisma da composição). 219 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS QUADRO 20 – ESTIMAÇÃO DO MODELO 3.12 POR MÍNIMOS QUADRADOS ORDINÁRIOS Modelo 1: MQO, usando as observações 1958-2015 (T = 58) Variável dependente: Area coeficiente erro padrão razão-t p-valor --------------------------------------------------------------const 7.679.350 400.854 19,16 0,0000 *** Preco_1 6.641,16 4.796,75 1,385 0,1718 time 109.708 16.137,1 6,798 0,0000 *** Média var. dependente 11755470 Soma resíd. quadrados 1,01e+14 R-quadrado 0,723912 F(2, 55) 72,10579 Log da verossimilhança −899,5708 Critério de Schwarz 1811,323 rô 0,441231 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn Durbin-Watson 2528447 1352490 0,713872 4,25e-16 1805,142 1807,549 1,056431 Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%. FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018. Por outro lado, as outras duas variáveis são estatisticamente significativas. Isso levanta a suspeita de que talvez o modelo não esteja corretamente especificado, ou que podemos ter algum outro problema, porque intuitivamente, esperaríamos uma relação positiva e estatisticamente significativa entre o preço e a área colhida dessa commodity. Podemos começar a nossa análise comparando os resíduos com o tempo. Para isso, na tela do modelo estimado escolha “Gráficos”, na sequência selecione “Gráfico dos resíduos” e depois escolha “Comparado com o tempo”. O resultado é apresentado no Gráfico 6. Veja no gráfico o comportamento dos resíduos no tempo. Os valores começam com uma série negativa e com tendência de alta. Em determinado momento, 1967, os valores se tornam positivos e “andam de lado”, porém isso dura até 1978 e em 1979 temos um dado bem discrepante. Se olharmos a tabela, veremos que há um saldo na área colhida de 11 milhões de hectares em 1978 para 17 milhões de hectares em 1979. Trata-se de um dado discrepante, motivado provavelmente por um erro de medição ou informação incorretamente compilada. 220 TÓPICO 3 | AUTOCORRELAÇÃO GRÁFICO 6 – GRÁFICO DOS RESÍDUOS COMPARADOS COM O TEMPO FONTE: O autor Podemos começar então o nosso trabalho, resolvendo esse problema de dado discrepante. Para isso, substitua o valor da área plantada de 1979 pela média dos anos 1978 e 1980. Esse valor é obtido por: (11.124.827 + 11.451.297 ) = 11.288.062 2 3.13 Com a base corrigida, estimamos novamente o modelo de regressão. O resultado está no Quadro 21. O Gráfico 7 apresenta o gráfico dos resíduos contra o tempo. Agora que eliminamos o problema dos dados discrepantes, podemos ver que nos anos iniciais da nossa amostra os resíduos são negativos, crescendo e se tornando positivos a partir de 1967. A partir de 1996 se tornam negativos novamente, mudando o padrão apresentado no período anterior. 221 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS QUADRO 21 – ESTIMAÇÃO DO MODELO 3.12 POR MÍNIMOS QUADRADOS ORDINÁRIOS COM DADOS DISCREPANTES CORRIGIDOS Modelo 2: MQO, usando as observações 1958-2015 (T = 58) Variável dependente: Area coeficiente erro padrão razão-t p-valor --------------------------------------------------------------const 7,51320e+06 303372 24,77 1,66e-031 *** Preco_1 5887,42 3630,24 1,622 0,1106 time 114429 12212,8 9,370 5,45e-013 *** Média var. dependente 11650456 Soma resíd. quadrados 5,76e+13 R-quadrado 0,826620 F(2, 55) 131,1108 Log da verossimilhança −883,4098 Critério de Schwarz 1779,001 rô 0,681523 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn Durbin-Watson 2414719 1023582 0,820315 1,18e-21 1772,820 1775,227 0,546694 Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%. FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018. GRÁFICO 7 – GRÁFICO DOS RESÍDUOS COMPARADOS COM O TEMPO FONTE: O autor Esse gráfico mostra claramente um comportamento compatível com resíduos autocorrelacionados de forma positiva. Se não o fossem, teríamos algo semelhante ao que vimos no Gráfico 5, ou seja, um comportamento aleatório, sem padrão definido. A diferença é que no Gráfico 5 você plotou os resíduos quadrados contra a variável explicativa, enquanto que no Gráfico 7 você plotou os resíduos contra o tempo. 222 TÓPICO 3 | AUTOCORRELAÇÃO Para nos certificarmos da existência ou não de correlação serial, aplicaremos primeiro o teste de Durbin-Watson, que é o mais famoso dos testes de autocorrelação, e é gerado automaticamente pela maioria dos programas econométricos. Para entender a intuição desse teste, considere o seguinte modelo de regressão: Yt = β 1 + β 2 Xt + ε t 3.14 Vamos considerar que os erros, ao invés de serem bem-comportados, seguem um processo autorregressivo de primeira ordem: = ε t ρε t −1 + υt 3.15 Em 3.15, υt tem distribuição normal, condição indispensável para obtermos a estatística de Durbin-Watson. Esse termo de erro υt também carrega as características desejadas de média zero e variância constante σ υ2. Você deve perceber que a autocorrelação significa que os resíduos ε do período t são correlacionados com os resíduos ε do período anterior, t – 1. Isso quer dizer que, se ρ for estatisticamente significativo, os resíduos do modelo 3.14 são correlacionados. Por outro lado, se ρ não for estatisticamente significativo, ρε t −1 = 0 e, portanto, εt = υt, não temos problema de correlação serial. Intuitivamente você já deve ter pensado em salvar os resíduos e fazer a estimação de 3.15 por mínimos quadrados ordinários. Neste caso, você trabalharia com a hipótese nula H 0 : ρ = 0, caso os resíduos em 3.14 não fossem correlacionados. A hipótese alternativa seria H1 : ρ ≠ 0, indicando que os resíduos de 3.14 apresentam problemas de autocorrelação. O problema é que não podemos usar o teste t tradicional para averiguar se o coeficiente estimado ρ tem significância estatística (e consequentemente problema de correlação serial). A saída dada por Durbin e Watson (1951, p. 168) é estimar 3.14, obter os resíduos e estimar 3.15, comparando o resultado com uma tabela criada pelos autores, baseada na estatística d: ∑ (εˆ d= ∑ T t =2 t − εˆ t −1 ) 2 3.16 T εˆ 2 t =1 t A estatística d está dentro de uma faixa numérica entre 0 e 4. Valores próximos de 2 indicam que não há presença de correlação serial de primeira ordem. Ela permite também sabermos se a correlação serial é positiva, caso em que d < 2, ou se a correlação serial é negativa, quando d > 2 . 223 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS O teste possui algumas especificidades, por exemplo, o fato de não poder ser empregado quando a variável dependente defasada estiver figurando como variável explicativa, o modelo de regressão deve incluir o intercepto e os erros em 3.4 devem ter distribuição normal. Durbin e Watson (1951) construíram sua própria tabela estatística, com um limite superior, dl, e um limite inferior, du, que pode ser consultada em qualquer livro de econometria, estatística ou na própria internet. Para o nosso bem, o Gretl fornece tanto a estatística d de 3.16 quanto o valor de ρ de 3.15. Retorne ao Quadro 21 e veja a última linha daquele quadro. Ali temos rô = 0,681523 e temos Durbin – Watson = 0,546694. Vamos comparar o valor de d com a tabela de Durbin-Watson, cuja reprodução parcial está na Figura 5. Na parte superior da tabela estão os graus de liberdade do numerador, que se refere à quantidade de coeficientes estimados em 3.16, excluindo a constante. Como temos a constante mais dois coeficientes β̂ , k' = 2. Na lateral esquerda está o tamanho da amostra, que no nosso caso é 58 (porque estamos trabalhando com a variável Precot – 1, ou seja, defasada um período). FIGURA 5 – REPRODUÇÃO DA TABELA DE DURBIN-WATSON PARA 5% DE SIGNIFICÂNCIA ESTATÍSTICA n k' = 1 k' = 2 k' = 3 k' = 4 dL dU dL dU dL dU dL dU 15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.97 16 1.10 1.37 0.98 1.54 0.86 1.73 0.74 1.93 17 1.13 1.38 1.02 1.54 0.90 1.71 0.78 1.90 18 1.16 1.39 1.05 1.53 0.93 1.69 0.82 1.87 19 1.18 1.40 1.08 1.53 0.97 1.68 0.86 1.85 20 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.83 55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 65 1.57 1.63 1.54 1.66 1.50 1.70 1.47 1.73 70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 FONTE: Adaptado de Durbin e Watson (1959, p. 173) 224 TÓPICO 3 | AUTOCORRELAÇÃO Como podemos ver, não existe um valor tabelado para d quando o tamanho da amostra é de 58 observações. Nesse caso, podemos obter um valor próximo, como n = 60, e verificamos que dl = 1,51 e du = 1,65. Se você preferir, pode obter o valor exato para 58 observações através do Gretl. Basta procurar no menu “Ferramentas” e depois “Tabelas estatísticas”. A tabela está representada por “DW”, e você informa primeiro o tamanho da amostra e depois o número de regressores (exceto a constante). O resultado neste caso é dl = 1,5052 e du = 1,6475. As regras de decisão funcionam da seguinte forma: 1. Se 0 < d < dl, rejeitamos a H0: ausência de autocorrelação positiva. 2. Se 4 – dl < d < 4 , rejeitamos a H0: ausência de autocorrelação negativa. 3. Se du < d < 4 – du, não rejeitamos a H0: ausência de autocorrelação. Há ainda dois casos em que não há decisão a tomar, ou seja, não sabemos se tem ou não autocorrelação de primeira ordem, quando dl ≤ d ≤ du e quando 4 – du ≤ d ≤ 4 – dl. Como no nosso caso a estatística d = 0,546694, e dl = 1,5052, ou seja, 0 < d < dl, rejeitamos a hipótese nula de ausência de autocorrelação positiva em favor da hipótese alternativa, H1, ou seja, o resultado da estimação do nosso modelo apresenta correlação serial positiva. O Gráfico 8 apresenta esse padrão de comportamento em que há autocorrelação serial positiva. Trata-se de uma adaptação do gráfico de dispersão gerado pelo Gretl, em que acrescentamos alguns elementos para fins didáticos. Os dados dos resíduos foram obtidos a partir da tela de resultado (Quadro 21) selecionando o menu “Salvar” e depois “Resíduos”. A série de resíduos defasada foi obtida a partir da janela principal do Gretl, clicando sobre a variável “uhat1”, selecionando o menu “Acrescentar” e depois “Defasagens das variáveis selecionadas”. 225 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS GRÁFICO 8 – GRÁFICO DE DISPERSÃO DE RESÍDUOS AUTOCORRELACIONADOS FONTE: O autor Perceba que os dados estão dispersos da direita para a esquerda e de forma ascendente. Dito de outra maneira, eles partem do quadrante IV, crescendo para o quadrante II. Através desse gráfico fica clara a dependência linear entre os resíduos presentes e os resíduos defasados. É exatamente esse o comportamento que se espera encontrar quando se tem em mãos uma série de resíduos autocorrelacionados. Há várias críticas ao uso do teste de Durbin-Watson, por exemplo, o fato de que só é válido quando não incluirmos no modelo de regressão a variável dependente defasada. Suponha que chegássemos à conclusão que a área colhida no ano anterior seria um dos componentes capazes de explicar a área colhida na safra atual. Neste caso, teríamos que reescrever o modelo 3.12 da seguinte forma: Areat = β1 + β2Precot – 1 + β3Timet + β4Areat – 1 + εt 3.17 Estimando 3.17, não poderíamos empregar o teste de Durbin-Watson para fins de verificação da existência de correlação serial. Nesse caso, o Gretl reporta outra estatística de teste, derivada da estatística d, trata-se da estatística h de Durbin, dada por: 226 TÓPICO 3 | AUTOCORRELAÇÃO h = ρˆ n (1 − n) Var ( βˆ 4 3.18 ) Essa estatística segue uma distribuição normal padrão, e tem como hipótese nula a ausência de autocorrelação. Porém, ela mantém a limitação de só testar autocorrelação de primeira ordem que a estatística de Durbin-Watson carrega. Outro problema ocorre quando dl ≤ d ≤ du ou quando 4 – du ≤ d ≤ 4 – dl. Nesse caso, o resultado cai em uma zona de indecisão, em que não podemos concluir se existe ou não problema de autocorrelação de primeira ordem. E, finalmente, se supusermos que 3.15 tivesse duas defasagens da variável εt, digamos ε t = ρε t −1 + ρε t − 2 + υt, ou mais defasagens ainda, digamos p defasagens caracterizando um processo autorregressivo de ordem p, AR(p), o teste DurbinWatson não poderia ser aplicado. Modelos com processos geradores dos resíduos mais complexos exigem outros tipos de testes baseados em Multiplicador de Lagrange, como o teste de Breusch-Godfrey (BG), que veremos a seguir. Voltemos novamente ao modelo de regressão 3.14: Yt = β1 + β2Xt + εt 3.14 Agora vamos supor que o termo de erro segue um processo autorregressivo de ordem p, AR(p): = ε t ρ1ε t −1 + ρ 2ε t − 2 + …+ ρ pε t − p + υt 3.19 ( ) Em que υt é um ruído branco, ou seja, E(υt) = 0,E υt2 = 1 e E(υt, υt – j) = 0. Aqui devemos estimar 3.19 e testar a hipótese nula de que H 0 : ρ1 = ρ 2 = … = ρ p = 0 , ou seja, de que não há correlação serial. O teste tem uma estatística n.R2 ~ χ p2, em que n é o tamanho da amostra, p é o número de defasagens em 3.19. Se o valor calculado for maior do que o valor da tabela com p graus de liberdade, rejeitamos a hipótese nula, ou seja, pelo menos um dos ρ p em 3.19 é estatisticamente diferente de zero. Vamos aplicar esse teste no nosso exemplo. Primeiro estimamos 3.17, cujos resultados estão disponíveis no Quadro 22. Perceba que o coeficiente estimado βˆ 4 é estatisticamente significativo, ou seja, a área plantada e colhida na safra anterior influencia a área plantada a ser colhida na safra atual. 227 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS DICAS Como dissemos antes, o teste d de Durbin-Watson não serve para verificar a existência de autocorrelação, porém o Gretl nos forneceu o resultado da estatística h de Durbin. Como esse teste não é tão poderoso quanto o teste BG que estamos estudando agora, nós o deixaremos de lado. Caso queira, você poderá encontrar facilmente na literatura econométrica informações sobre esse teste, para isso, leia Gujarati e Porter (2011, p. 438). • GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. Porto Alegre: AMGH, 2011. 924 p. Tradução: Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. – Edição do Kindle. QUADRO 22 – RESULTADO DA ESTIMAÇÃO DE 3.17 POR MÍNIMOS QUADRADOS ORDINÁRIOS Modelo 4: MQO, usando as observações 1958-2015 (T = 58) Variável dependente: Area coeficiente erro padrão razão-t p-valor ----------------------------------------------------------------const 2.431.260 701.109 3,468 0,0010 *** Preco_1 3.888,42 2.558,99 1,520 0,1345 time 28.173,3 14.209,3 1,983 0,0525 * Area_1 0,690385 0,0907566 7,607 0,0000 *** Média var. dependente 11650456 Soma resíd. quadrados 2,78e+13 R-quadrado 0,916306 F(3, 54) 197,0694 Log da verossimilhança −862,2884 Critério de Schwarz 1740,819 rô −0,131252 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Critério de Akaike Critério Hannan-Quinn h de Durbin 2414719 717718,5 0,911656 4,66e-29 1732,577 1735,787 −1,383168 Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%. FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018. Para fazer o teste BG, na tela do modelo estimado você deve ir em “Testes” e na sequência escolher “Autocorrelação”. Escolha a ordem de defasagem, que por padrão o Gretl apresentará uma defasagem, mas você poderá testar defasagens superiores a esta. O resultado do teste apresentado no Quadro 23 pode lhe causar um pouco de confusão porque você está apenas começando a sua jornada no mundo da econometria. Felizmente o Gretl, para facilitar a nossa vida, grava na janela do modelo estimado o resultado desse teste em forma mais fácil de compreender: 228 TÓPICO 3 | AUTOCORRELAÇÃO Teste LM para autocorrelação até a ordem 1 Hipótese nula: sem autocorrelação Estatística de teste: LMF = 1,70334 com p-valor = P(F(1, 53) > 1,70334) = 0,197489 Perceba que o teste LM relatado nada mais é do que o teste BreuschGodfrey, pois esse teste utiliza a técnica de Multiplicador de Lagrange na sua estrutura. É apresentada a hipótese nula de ausência de autocorrelação, e podemos ver pelo p – valor que não podemos rejeitar H0: sem autocorrelação. Isso nos leva a concluir novamente que devemos investir um tempo considerável na especificação correta dos nossos modelos econométricos, assim como na correta definição e tratamento adequado das variáveis, pois assim evitamos problemas estatísticos de outra natureza, tais como heteroscedasticidade, multicolinearidade e autocorrelação. Além disso, queremos lembrá-lo de que fizemos o teste BG para autocorrelação de primeira ordem. Fizemos isso porque o teste de DurbinWatson, na presença da variável dependente defasada, não é aplicável. Vamos deixar para você averiguar, como exercício, se existe presença de autocorrelação de segunda e/ou de terceira ordem. QUADRO 23 – TESTE DE BREUSCH-GODFREY PARA O MODELO 3.17 Teste de Breusch-Godfrey para autocorrelação de primeira-ordem MQO, usando as observações 1958-2015 (T = 58) Variável dependente: uhat coeficiente erro padrão razão-t p-valor ------------------------------------------------------------const −783919 919789 −0,8523 0,3979 Preco_1 −365,680 2557,88 −0,1430 0,8869 time −12970,4 17264,8 −0,7513 0,4558 Area2_1 0,106289 0,121504 0,8748 0,3856 uhat_1 −0,238444 0,182698 −1,305 0,1975 R-quadrado não-ajustado = 0,031138 Estatística de teste: LMF = 1,703344, com p-valor = P(F(1,53) > 1,70334) = 0,197 Estatística alternativa: TR^2 = 1,805995, com p-valor = P(Qui-quadrado(1) > 1,806) = 0,179 Ljung-Box Q' = 1,04114, com p-valor = P(Qui-quadrado(1) > 1,04114) = 0,308 FONTE: O autor 229 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS 4 RESOLVENDO O PROBLEMA DA CORRELAÇÃO SERIAL – MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS Para superar o problema da autocorrelação nós empregamos o método dos mínimos quadrados generalizados. Através desse método, produzimos “[...] intervalos de confiança menores, mais informativos do que os intervalos de mínimos quadrados” (HILL; GRIFFITHS; JUDGE, 2010, p. 307). Quando falamos em método dos mínimos quadrados generalizados, estamos nos referindo a uma série de técnicas econométricas que podem ser empregadas, ou seja, um conjunto amplo de modelos de regressão capaz de estimar coeficientes com as características desejáveis, tais como a ausência de autocorrelação. Por isso, podemos partir de uma simples transformação de variáveis, e aqui “simples” é apenas um eufemismo, até o emprego de técnicas avançadas, como as estimativas por máxima verossimilhança. Tudo dependerá da natureza da autocorrelação e do nosso conhecimento relativo à matriz Ω, ou seja, de ρ . Como vimos, o primeiro e indispensável passo para evitar esse problema passa, necessariamente, pela correta especificação do modelo. Por isso, ao identificar a presença de autocorrelação, devemos focar nossa atenção na especificação das variáveis (especialmente nas variáveis proxy), na assertividade dos dados coletados para evitar o problema da discrepância, no tamanho da amostra e, finalmente, se o modelo está corretamente especificado. Digamos que já tenhamos verificado tudo isso e mesmo assim detectamos a presença de autocorrelação, como no modelo 3.20, com os erros de 3.21: Yt =+ β1 β 2 X2 t + ε t 3.20 Em que εt é o termo de erro autocorrelacionado, dado por: = ε t ρε t −1 + υt 3.21 Com υt~N(0, σ2). Substituindo 3.21 em 3.20 obtemos: Yt = β1 + β 2 X2 t + ρε t −1 + υt 3.22 230 TÓPICO 3 | AUTOCORRELAÇÃO Agora, em 3.22, εt não está mais presente, ao invés disso temos ela própria defasada um período, εt – 1, e outro termo de erro, dado por υt. Sabemos que, por definição, podemos escrever εt = Yt – β1 – β2X2t. Dessa forma, podemos resolver 3.20 como: ε t = Yt − β1 − β 2 X2 t 3.23 Defasando um período, temos: ε t −1 = Yt −1 − β1 − β 2 X2 t −1 3.24 Substituindo 3.24 em 3.22, teremos: Yt = β1 + β 2 X2 t + ρ ( Yt −1 − β1 − β 2 X2 t −1 ) + υt 3.25 Yt =β1 + β 2 X2 t + ρ Yt −1 − ρβ1 − ρβ 2 X2 t −1 + υt 3.26 Podemos reorganizar 3.26 para: Yt − ρ Yt −1 =β1 − ρβ1 + β 2 X2 t − ρβ 2 X2 t −1 + υt 3.27 Yt − ρ Yt −1= β1 ( 1 − ρ ) + β 2 ( X2 t − ρ X2 t −1 ) + υt 3.28 Para facilitar nosso entendimento, podemos reescrever 3.28 como: Yt* = β1* + β 2 X2* t + υt 3.29 * Em que Yt= Yt − ρ Yt −1,= β1* β1 ( 1 − ρ ) e = X2* t (X 2t − ρ X2 t −1 ). Como podemos observar nas equações anteriores, é necessário sabermos o valor exato de ρ para podermos estimar 3.29. Como isso não é possível, pois teríamos que ter acesso a toda a população de dados, procuramos estimar ρ através de: 231 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS T ∑ εˆ ρˆ = ∑ t =2 t T × εˆ t −1 3.30 εˆ 2 t =2 t Conforme Cochrane e Orcutt (1949, p. 35), se rodarmos a regressão de 3.29 por mínimos quadrados ordinários, obteremos estimadores BLUE. Para fazer isso, precisamos seguir um procedimento iterativo conforme os passos descritos na sequência: 1. Estimamos o modelo 3.20 por mínimos quadrados ordinários. 2. Salvamos os resíduos gerados e então obtemos ρ̂ pela equação 3.30. 3. Introduzimos esse resultado em 3.29 e rodamos a regressão por mínimos quadrados ordinários. 4. Com os resultados obtidos no passo 3, repetimos os passos 2 e 3 até que as mudanças em ρ̂ seja um valor próximo de zero (COCHRANE; ORCUTT, 1949, p. 53). Esse procedimento pode ser feito com o uso do Gretl. Para tanto, voltaremos ao nosso exemplo dado por 3.12 e dados do Quadro 19. A diferença é que agora estimaremos o modelo usando outro caminho dentro do Gretl. No menu inicial selecione “Modelo”, depois “Série temporal”, na sequência escolha “Erros AR (GLS)” e depois “AR(1)”. Preencha as informações conforme a Figura 6, clicando em “ok” para confirmar. 232 TÓPICO 3 | AUTOCORRELAÇÃO FIGURA 6 – ESTIMAÇÃO DO MODELO DE REGRESSÃO POR COCHRANE-ORCUTT FONTE: Adaptado de Gretl (2018) Os resultados são vistos no Quadro 24. Note que, ao superar o problema de correlação serial de primeira ordem, o coeficiente estimado β̂ 2 é estatisticamente significativo ao nível de 5% de significância estatística. 233 UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS QUADRO 24 – RESULTADO DA ESTIMAÇÃO DO MODELO 3.12 POR COCHRANE-ORCUTT Executando cálculo iterado de rô... ITER 1 2 3 4 5 RÔ 0,68152 0,68777 0,68829 0,68833 0,68834 SQR 2,49100e+013 2,49073e+013 2,49073e+013 2,49073e+013 2,49073e+013 Modelo 1: Cochrane-Orcutt, usando as observações 1959-2015 (T = 57) Variável dependente: Area rho = 0,688338 coeficiente erro padrão razão-t p-valor -------------------------------------------------------------const 8.008.610 657.575 12,18 0,0000 *** Preco_1 9.205,20 3.657,39 2,517 0,0148 ** time 91.776,40 20.113,00 4,563 0,0000 *** Estatísticas baseadas nos dados rô-diferenciados: Média var. dependente 11753265 Soma resíd. quadrados 2,49e+13 R-quadrado 0,916255 F(2, 54) 25,22715 rô −0,095691 D.P. var. dependente E.P. da regressão R-quadrado ajustado P-valor(F) Durbin-Watson 2304561 679151,2 0,913153 1,83e-08 2,178760 Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%. FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018. Há outros métodos iterativos, tais como Prais e Winsten (1954) e Hildreth e Lu (1960), os quais possuem rotinas prontas no Gretl, como pudemos ver na Figura 6. Deixaremos para você a tarefa de estimar por estes dois métodos e comparar os resultados com os do Quadro 24. Esses métodos de estimação são chamados na literatura econométrica como Mínimos Quadrados Generalizados Factíveis, ou em inglês, FGLS (Feasible Generalized Least Squares). 234 RESUMO DO TÓPICO 3 Neste tópico, você aprendeu que: • As consequências da heteroscedasticidade e da correlação serial são as mesmas, ou seja, geram parâmetros não viesados, mas ineficientes e com variâncias viesadas. Por esse motivo não estimamos os parâmetros do modelo de regressão por Mínimos Quadrados Ordinários, mas por Mínimos Quadrados Generalizados. • São os motivos que levam o modelo a gerar séries de erros correlacionados, dentre os quais podemos citar a inércia, os ciclos econômicos, o modelo especificado de forma incorreta, quer seja pela sua forma funcional, ou pela omissão de uma variável estritamente relevante ou a inclusão de uma variável irrelevante como variável explicativa. • A detecção da autocorrelação se dá através de métodos informais, como o gráfico de dispersão dos resíduos contra os resíduos defasados, ou o gráfico dos resíduos contra o tempo, e métodos formais, como os testes de Durbin-Watson e Breush-Godfrey, ambos sob a hipótese nula de que não há autocorrelação. • A estatística de Durbin-Watson tem algumas limitações, tais como só detectar a presença de correlação serial de primeira ordem, não poder ser empregado quando a variável dependente defasada estiver figurando como variável explicativa, o modelo de regressão deve incluir o intercepto e os erros devem ter distribuição normal. • Para modelos com processos geradores dos resíduos mais complexos do que AR(1), devemos empregar testes baseados em Multiplicador de Lagrange, como o teste de Breusch-Godfrey (BG). • Para superar o problema da autocorrelação nós empregamos o método dos mínimos quadrados generalizados ou o processo iterativo proposto por Cochrane e Orcutt (1949). 235 AUTOATIVIDADE Para essa autoatividade, considere os dados do Quadro 24. Trata-se de uma adaptação da tabela B-16, do Economic Report of the President, que relaciona o salário-hora e a produtividade dos Estados Unidos para o período de 1969 até 2017. Nesse quadro, o salário-hora se refere à remuneração por hora, dividida pelo índice de preços ao consumidor. Os dados se referem aos números índices com 2009 = 100. QUADRO 24 – RELAÇÃO ENTRE SALÁRIO-HORA E PRODUTIVIDADE Ano Salário-Hora Produtividade Ano Salário-Hora Produtividade 1969 64,1 29,6 1994 80,8 66,2 1970 65,1 29,5 1995 80,9 68,3 1971 66,2 30,7 1996 81,6 71,5 1972 68,1 32,7 1997 83,1 75,3 1973 69,2 34,9 1998 86,8 79,2 1974 68,2 34,4 1999 89,1 83,6 1975 69,1 34,0 2000 92,1 87,3 1976 70,6 36,3 2001 93,6 87,9 1977 71,6 38,4 2002 94,2 89,5 1978 72,5 40,8 2003 95,6 92,3 1979 72,7 42,3 2004 97,5 96,5 1980 72,4 41,9 2005 97,7 100,1 1981 72,4 43,1 2006 98,3 103,3 1982 73,3 41,8 2007 99,8 105,5 1983 73,4 44,1 2008 98,7 104,2 1984 73,6 48,0 2009 100,0 100,0 1985 74,8 50,2 2010 100,2 103,2 1986 77,7 52,0 2011 99,2 105,3 1987 77,9 53,9 2012 99,8 108,4 1988 79,2 56,2 2013 99,7 110,8 1989 78,2 58,3 2014 100,8 114,4 1990 79,1 59,3 2015 103,7 118,4 1991 79,9 58,9 2016 103,4 120,3 1992 82,7 61,4 2017 102,8 123,5 1993 81,9 63,2 FONTE: <https://www.gpo.gov/fdsys/pkg/ERP-2018/xls/ERP-2018-table16.xls>. Acesso em: 30 jun. 2018. 236 1 Com base no Quadro 24, estime o seguinte modelo de regressão por mínimos quadrados ordinários, interpretando o significado da estatística de DurbinWatson: Salarioht = β1 + β 2 Pr odutividadet + ut (1) 2 Plote um gráfico de dispersão colocando no eixo Y os resíduos e no eixo X os resíduos defasados um período. Como você interpreta esse gráfico? 3 Faça o teste de Breusch-Godfrey para verificar a existência de autocorrelação de segunda ordem nos resíduos. O resultado do teste confirma a existência de resíduos autocorrelacionados de segunda ordem? 4 Caso o resultado do teste de Breusch-Godfrey da equação anterior indique a existência de autocorrelação, aplique o procedimento de Cochrane-Orcutt para resolver o problema. 237 238 REFERÊNCIAS ANDRADE, Carlos Henrique C. Manual de Introdução ao Pacote Econométrico Gretl. 2013. Disponível em: <https://www.ufrgs.br/ppge/textospara-discussao/>. Acesso em: 15 abr. 2018. ATLAS BRASIL. Atlas do Desenvolvimento Humano no Brasil. 2018. Disponível em: <www.atlasbrasil.org.br>. Acesso em: 29 ago. 2018. BCB – Banco Central do Brasil. 2018. Disponível em: <www.bcb.gov.br>. Acesso em: 29 ago. 2018. BELSLEY, Davi A.; KUH, Edwin; WELSCH, Roy E. Regression diagnostics. Identifying influential data and sources of collinearity. Wiley-Interscience, 1980. 300 p. BORÇA JUNIOR, Gilberto Rodrigues; TORRES FILHO, Ernani Teixeira. Analisando a Crise do Subprime. Revista do Bndes, Rio de Janeiro, v. 30, n. 15, p. 129-159, dez. 2008. CARVALHO, Fernando J. Cardim de et al. Economia monetária e financeira. 3. ed. Rio de Janeiro: Campus, 2015. 423 p. CHOW, Gregory C. Tests of Equality Between Sets of Coefficients in Two Linear Regressions. Econometrica 28, n. 3, p. 591-605. 1960. COCHRANE, D.; ORCUTT, G. H. Applications of least-squares regressions to relationships containing autocorrelated error terms. Journal of American Statistical Association, v. 44, p. 32-61, 1949. COTTRELL, Allin; LUCCHETTI, Riccardo “jack”. Gretl User’s Guide: Gnu Regression, Econometrics and Time-series Library. 2018. 394 p. D'ARIENZO, Carlos Cesar. Métodos quantitativos em contabilidade: a Contabilometria. 2011. Disponível em: <http://www.administradores.com. br/artigos/economia-e-financas/metodos-quantitativos-em-contabilidade-acontabilometria-7/60532/>. Acesso em: 17 jun. 2018. DIEBOLD, Francis X. Elements of forecasting. 4. ed. Mason: Thomson, 2007. 366 p. DURBIN, J.; WATSON, G. S. Testing for serial correlation in least-squares regression. Biometrika, v. 38, p. 159-171, 1951. 239 ERP – Economic report of the president. ERP Tabela 16. 2018. Disponível em: <https://www.gpo.gov/fdsys/pkg/ERP-2018/xls/ERP-2018-table16.xls>. Acesso em: 30 jun. 2018. FRISCH, Ragnar. Statistical confluence analysis by means of complete regression systems. Institute of Economics, Oslo University, n. 5, 1934. GALTON, Francis. Family likeness in stature. Londres: Proceedings of Royal Society, v. 40, p. 42-72, 1886. GREENE, William H. Econometric analysis: International edition. 7. ed. London: Pearson Education Limited, 2012. 1241 p. GRETL – Gnu Regression, Econometrics and Time-series Library. 2018. Disponível em: <http://gretl.sourceforge.net/pt.html>. Acesso em: 22 ago. 2018. GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. – Edição do Kindle. HILL, R. Carter; GRIFFITHS, William E.; JUDGE, George G. Econometria. 3. ed. São Paulo: Saraiva, 2010. 471 p. HOFFMANN, Rodolfo. Estatística para economistas. 3. ed. São Paulo: Pioneira Thomson, 2002. 430 p. KEYNES, John Maynard. A teoria geral do emprego, do juro e da moeda. São Paulo: Editora Nova Cultural, 1996. 352 p. KRUGMAN, Paul; WELLS, Robin. Introdução à economia. Rio de Janeiro: Elsevier, 2007. 823 p. LONGLEY, J. An appraisal of least-squares programs from the point of the user. Journal of the American Statistical Association, v. 62, p. 819-841, 1967. MADDALA, Gangadharrao Soundalyarao. Introdução à econometria. 3. ed. Rio de Janeiro: LTC, 2003. 345 p. MARSHALL, Alfred. Princípios de economia: Tratado introdutório. São Paulo: Editora Nova Cultural, 1996. 368 p. ROOS, Charles F. Constitution of the Econometric Society. Econometrica 1, n. 1, 1933, p. 106-08. Disponível em: <http://www.jstor.org/stable/1912239>. Acesso em: 22 ago. 2018. SARTORIS, Alexandre. Estatística e introdução à econometria [recurso eletrônico]. 2. ed. São Paulo: Saraiva, 2013. 240 SCHUMPETER, JOSEPH. The Common Sense of Econometrics. Econometrica, v. 1, n. 1, p. 5-12, jan. 1933. JSTOR. Disponível em: <http://dx.doi. org/10.2307/1912225>. Acesso em: 22 ago. 2018. SHEWHART, W. A. The Rôle of Statistical Method in Economic Standardization. Econometrica 1, n. 1, 1933, p. 23-35. TAYLOR, John B. Princípios de macroeconomia. São Paulo: Ática, 2007. 512 p. PINDYCK, Robert S.; RUBINFELD, Daniel L. Econometria. Modelos e aplicações. 4. ed. Rio de Janeiro: Elsevier, 2004. 726 p. PROBST, Elisiana Renata. A evolução da mulher no marcado do trabalho. RH Portal. 2015. Disponível em: <http://www.rhportal.com.br/artigos-rh/a-evoluoda-mulher-no-mercado-de-trabalho/>. Acesso em: 29 maio 2018. THE HERITAGE FOUNDATION. Index of Economic Freedom. 2018. Disponível em: <https://www.heritage.org>. Acesso em: 29 maio 2018. WHITE, Halbert. A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity. Econometrica, v. 48, n. 4, p. 817-838, 1980. WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. 6. ed. São Paulo: Cengage Learning, 2016. 848 p. 241