Enviado por jjragronomia

Economietria Uniasselvi

Propaganda
Econometria I
Prof. Vanderlei Kleinschmidt
2018
Copyright © UNIASSELVI 2018
Elaboração:
Prof. Vanderlei Kleinschmidt
Revisão, Diagramação e Produção:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
UNIASSELVI – Indaial.
K64e
Kleinschmidt, Vanderlei
Econometria I. / Vanderlei Kleinschmidt. – Indaial: UNIASSELVI, 2018.
249 p.; il.
ISBN 978-85-515-0223-5
1.Econometria. – Brasil. II. Centro Universitário Leonardo Da Vinci.
CDD 330.015195
Impresso por:
Apresentação
Prezado acadêmico! A Ciência Econômica existe há muitos séculos,
porém nos últimos 100 anos, ela ganhou um impulso enorme com a
formalização da Econometria como braço direito dos economistas. Esse é o
elo que nos auxilia na tarefa de testar as teorias econômicas e que torna a
economia uma verdadeira ciência. Estudar Econometria é um desafio, por
isso tomamos muito cuidado ao elaborar o seu material.
As unidades foram estruturadas e preparadas de forma a lhe oferecer
um conteúdo moderno, atualizado, em linha com o que as principais
universidades do país utilizam. Ao longo dos seus estudos, você perceberá
que a Econometria é um conhecimento cumulativo, no sentido de que tudo
o que você aprender, desde as primeiras páginas, continuará usando até a
última página desse livro. E não só do livro de Econometria I, durante os
seus estudos de Econometria II você utilizará recorrentemente os conceitos e
as habilidades que irá desenvolver a partir de agora.
Na Unidade 1, você terá uma visão geral da Econometria. Verá como
ela surgiu, entenderá um pouco da sua importância e aprenderá os primeiros
conceitos. Nessa fase, talvez, você sinta um pouco a necessidade de revisar aquilo
que você sabe de estatística e matemática. Se isso acontecer, recomendamos
que o faça, mas não de forma aprofundada, reveja apenas os conceitos que
tiver maior dificuldade, porque ao longo dessa unidade esses conceitos são
explicados à luz do processo econométrico. Ao final dessa unidade, você já
estará estimando os seus primeiros modelos de regressão simples, com apenas
duas variáveis, e fazendo as primeiras análises de resultados.
A ideia de conhecimento cumulativo ficará bem clara ao iniciar os
estudos da Unidade 2. Nela você retomará os modelos desenvolvidos na
Unidade 1, porém ampliando-os com a adição de múltiplas variáveis, e com
isso terá que recorrer a novas técnicas para estimar os seus modelos. Estamos
falando da álgebra matricial, que alguns autores relutam em apresentar em
seus materiais, porém, como poderá constatar, o uso de matrizes torna o
estudo e a aplicação da Econometria mais intuitiva. Essa unidade é finalizada
com uma das ferramentas mais importantes que os econometristas usam,
trata-se das variáveis binárias. Com elas é possível dessazonalizar séries de
dados, calcular médias, medir quebras estruturais, estimar diferenças entre
categorias, enfim, adicionar o elemento qualitativo aos modelos quantitativos.
Finalizamos o livro com a Unidade 3, que aborda os três grandes
problemas que enfrentamos ao estimar os modelos econométricos. Nesse
caso, o objetivo é apresentar a você, acadêmico, os conceitos relacionados a
cada um desses problemas, explicando a sua fonte, as consequências, como
III
diagnosticar e como superar cada um deles. Você compreenderá que, apesar
de usarmos um software para fazer a parte pesada e tornar mais simples
o nosso trabalho, estimar um modelo de regressão requer mais do que
alguns simples cliques com o mouse. Nós precisamos estar atentos a certos
problemas, como a heteroscedasticidade e a autocorrelação, que podem jogar
por terra todo o tempo que empregamos na nossa pesquisa.
O segredo do sucesso de estudar e aprender Econometria reside na
prática. Não adianta de nada você apenas ler o material desenvolvido e
assistir aos vídeos. Se não praticar, todo esse tempo dedicado aos estudos terá
sido em vão. Recomendamos que você utilize os dados disponibilizados no
material e tente reproduzir os resultados que obtivemos. Isso é extremamente
importante, porque é impossível aprender Econometria sem praticar!
Guarde bem esse material para consultas futuras, utilize a técnica e as
habilidades que você irá desenvolver ao longo dos seus estudos, e tente aplicálas no seu trabalho e nos estudos das outras disciplinas do curso de Ciências
Econômicas. Dedique-se aos estudos dessa fantástica área do conhecimento
econômico e colherá os melhores resultados na sua carreira.
Bons estudos!
Prof. Vanderlei Kleinschmidt
IV
NOTA
Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto
para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há
novidades em nosso material.
Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é
o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um
formato mais prático, que cabe na bolsa e facilita a leitura.
O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova
diagramação no texto, aproveitando ao máximo o espaço da página, o que também
contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo.
Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente,
apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade
de estudá-lo com versatilidade nas telas do celular, tablet ou computador.
Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para
apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto
em questão.
Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas
institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa
continuar seus estudos com um material de qualidade.
Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de
Desempenho de Estudantes – ENADE.
Bons estudos!
UNI
Olá acadêmico! Para melhorar a qualidade dos
materiais ofertados a você e dinamizar ainda mais
os seus estudos, a Uniasselvi disponibiliza materiais
que possuem o código QR Code, que é um código
que permite que você acesse um conteúdo interativo
relacionado ao tema que você está estudando. Para
utilizar essa ferramenta, acesse as lojas de aplicativos
e baixe um leitor de QR Code. Depois, é só aproveitar
mais essa facilidade para aprimorar seus estudos!
V
VI
Sumário
UNIDADE 1 – OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO........................................ 1
TÓPICO 1 – INTRODUÇÃO AO ESTUDO ECONOMÉTRICO ................................................... 3
1 INTRODUÇÃO ..................................................................................................................................... 3
2 O QUE É ECONOMETRIA? ............................................................................................................... 3
3 O MÉTODO ECONOMÉTRICO ....................................................................................................... 7
LEITURA COMPLEMENTAR ............................................................................................................... 11
RESUMO DO TÓPICO 1 ....................................................................................................................... 13
AUTOATIVIDADE.................................................................................................................................. 14
TÓPICO 2 – MODELO DE REGRESSÃO LINEAR GERAL ........................................................... 15
1 INTRODUÇÃO ..................................................................................................................................... 15
2 A MODELAGEM ECONÔMICA E A ORIGEM DOS DADOS ECONOMÉTRICOS ........... 15
3 ANÁLISE DE REGRESSÃO ............................................................................................................... 19
4 O MODELO DE REGRESSÃO LINEAR SIMPLES ....................................................................... 23
5 AS HIPÓTESES DO MODELO DE REGRESSÃO LINEAR ........................................................ 24
RESUMO DO TÓPICO 2........................................................................................................................ 29
AUTOATIVIDADE.................................................................................................................................. 30
TÓPICO 3 – MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS .................................. 31
1 INTRODUÇÃO ..................................................................................................................................... 31
2 A FUNÇÃO DE REGRESSÃO AMOSTRAL E SUAS CARACTERÍSTICAS ........................... 32
3 ESTIMATIVA DOS PARÂMETROS POR MÍNIMOS QUADRADOS ORDINÁRIOS ........ 33
4 PROPRIEDADES NUMÉRICAS DOS ESTIMADORES .............................................................. 37
5 TESTES ESTATÍSTICOS ..................................................................................................................... 38
6 O USO DO GRETL PARA ESTIMAÇÃO E ANÁLISE ECONOMÉTRICA:
A ANÁLISE DOS RESULTADOS E SUA INTERPRETAÇÃO .................................................... 59
7 OUTROS TÓPICOS RELACIONADOS AO MÉTODO DE MQO ............................................ 73
RESUMO DO TÓPICO 3 ....................................................................................................................... 79
AUTOATIVIDADE ................................................................................................................................. 80
UNIDADE 2 – REGRESSÃO MÚLTIPLA ........................................................................................... 83
TÓPICO 1 – O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL ..................... 85
1 INTRODUÇÃO ..................................................................................................................................... 85
2 O MODELO DE REGRESSÃO LINEAR GERAL EM FORMA MATRICIAL .......................... 87
3 HIPÓTESES DO MODELO ................................................................................................................ 89
RESUMO DO TÓPICO 1 ....................................................................................................................... 94
AUTOATIVIDADE ................................................................................................................................. 95
TÓPICO 2 – ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS
DE REGRESSÃO MÚLTIPLOS .......................................................................................................... 101
1 INTRODUÇÃO ................................................................................................................................... 101
2 ESTIMADORES DE MQO ................................................................................................................ 102
VII
3 ESTIMANDO O MODELO DE REGRESSÃO MÚLTIPLO ...................................................... 109
4 TESTES ADICIONAIS APLICADOS AOS RESULTADOS DOS
MODELOS DE REGRESSÃO .......................................................................................................... 117
RESUMO DO TÓPICO 2 ..................................................................................................................... 129
AUTOATIVIDADE ............................................................................................................................... 130
TÓPICO 3 – USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS ................................... 133
1 INTRODUÇÃO ................................................................................................................................... 133
2 ESTIMANDO UM MODELO DE REGRESSÃO COM VARIÁVEIS QUALITATIVAS ...... 134
3 OUTRAS APLICAÇÕES COM VARIÁVEIS QUALITATIVAS ................................................ 138
LEITURA COMPLEMENTAR ............................................................................................................. 154
RESUMO DO TÓPICO 3 ..................................................................................................................... 157
AUTOATIVIDADE ............................................................................................................................... 158
UNIDADE 3 – MODELOS DE REGRESSÃO GENERALIZADOS ............................................. 163
TÓPICO 1 – MULTICOLINEARIDADE ........................................................................................... 165
1 INTRODUÇÃO ................................................................................................................................... 165
2 CONCEITO DE MULTICOLINEARIDADE ................................................................................. 166
3 DETECÇÃO DA MULTICOLINEARIDADE ................................................................................ 169
4 O QUE FAZER NA PRESENÇA DE MULTICOLINEARIDADE? ............................................ 177
LEITURA COMPLEMENTAR ............................................................................................................. 184
RESUMO DO TÓPICO 1 ..................................................................................................................... 186
AUTOATIVIDADE ............................................................................................................................... 187
TÓPICO 2 – HETEROSCEDASTICIDADE ...................................................................................... 189
1 INTRODUÇÃO ................................................................................................................................... 189
2 A NATUREZA DA HETEROSCEDASTICIDADE ....................................................................... 190
3 DETECTANDO O PROBLEMA DA HETEROSCEDASTICIDADE ........................................ 192
4 RESOLVENDO O PROBLEMA DA HETEROSCEDASTICIDADE – O MÉTODO
DOS MÍNIMOS QUADRADOS GENERALIZADOS ................................................................ 201
RESUMO DO TÓPICO 2 ..................................................................................................................... 211
AUTOATIVIDADE ............................................................................................................................... 212
TÓPICO 3 – AUTOCORRELAÇÃO ................................................................................................... 213
1 INTRODUÇÃO ................................................................................................................................... 213
2 A NATUREZA DA CORRELAÇÃO SERIAL ................................................................................ 214
3 DETECTANDO O PROBLEMA DA CORRELAÇÃO SERIAL ................................................. 217
4 RESOLVENDO O PROBLEMA DA CORRELAÇÃO SERIAL – MÉTODO
DOS MÍNIMOS QUADRADOS GENERALIZADOS ................................................................ 230
RESUMO DO TÓPICO 3 ..................................................................................................................... 235
AUTOATIVIDADE ............................................................................................................................... 236
REFERÊNCIAS ....................................................................................................................................... 239
VIII
UNIDADE 1
OS FUNDAMENTOS DA ANÁLISE DE
REGRESSÃO
OBJETIVOS DE APRENDIZAGEM
A partir do estudo desta unidade, você será capaz de:
• definir o conceito e os objetivos da econometria, identificando os passos que
envolvem o processo de pesquisa e as ferramentas utilizadas para este fim;
• explicar os conceitos básicos da econometria, tais como regressão, variável
dependente e explanatória, os tipos de dados e suas fontes;
• aplicar o conhecimento desenvolvido para construir um modelo econométrico simples;
• estimar o modelo construído utilizando dados econômicos, analisar os resultados obtidos e com base nas inferências estatísticas, validar ou refutar
as hipóteses propostas inicialmente.
PLANO DE ESTUDOS
Esta unidade está dividida em três tópicos. No decorrer da unidade você
encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
TÓPICO 2 – MODELO DE REGRESSÃO LINEAR GERAL
TÓPICO 3 – MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
1
2
TÓPICO 1
UNIDADE 1
INTRODUÇÃO AO ESTUDO
ECONOMÉTRICO
1 INTRODUÇÃO
Prezado acadêmico, seja bem-vindo ao maravilhoso mundo da
econometria. Esperamos que você esteja pronto para a nossa jornada, mas, se
não tiver certeza disso, não se preocupe, juntos construiremos os fundamentos
necessários para que você possa usar essa importante ferramenta na sua vida
acadêmica e profissional.
Até agora você aprendeu os principais conceitos econômicos, estudou os seus
fundamentos matemáticos e estatísticos, viu a separação dos aspectos microeconômicos
dos macroeconômicos e foi apresentado a diversas teorias e modelos.
A partir de agora, estudando econometria, você terá a oportunidade de
colocar em prática e testar a maior parte das teorias aprendidas e as que aprenderá
até o final do seu curso. Além disso, poderá incorporar aos seus trabalhos acadêmicos
todas as ferramentas aprendidas neste livro de estudos. Para isso, veremos, de
forma gradual e seguindo uma sequência lógica e organizada, um conjunto de
técnicas que, além de modernas, refletem o que as grandes universidades ao redor
do mundo estão ensinando aos seus graduandos em economia.
A disciplina de econometria, apesar de não ser exclusividade dos cursos
de ciências econômicas, é, sem sombra de dúvidas, o nosso grande diferencial
como economistas. Por esse motivo, dominar a técnica econométrica poderá ser o
seu diferencial nesse mercado cada vez mais competitivo.
Para ajudá-lo nessa empreitada, o primeiro tópico desse livro buscará
entender o significado de econometria, um pouco da sua história, como ela se insere
dentro da economia como ciência e como torná-la uma aliada para os seus estudos.
2 O QUE É ECONOMETRIA?
Se tivéssemos que traduzir a palavra econometria de forma literal, diríamos
que é uma medida econômica ou mensuração econômica, mas a tradução literal
é muito fria e em nada reflete a dinâmica dessa disciplina. Na prática, pouco
adianta saber a etimologia da palavra se você não entender o que ela significa de
fato e não puder compreender a sua importância.
3
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Para saber o real significado da econometria é necessário recordarmos o
que aprendemos até agora sobre a economia e uma das coisas mais importantes,
na própria definição de economia, é entender que ela é uma ciência social.
Por seu aspecto científico, a economia “[...] mais do que outras disciplinas
– exige uma combinação de aptidões verbais e quantitativas” (TAYLOR, 2007,
p. 69). Embora alguns pensem o contrário, a economia não é exclusivamente
para quem gosta de cálculo, nem tampouco está voltada apenas para entender o
funcionamento do mercado financeiro.
Conseguir explicar a dinâmica das relações econômicas faz do economista
um profissional diferenciado. Nesse quesito, muito mais do que conseguir efetuar
um cálculo, é necessário ter a capacidade de síntese no sentido de poder interpretar
os resultados obtidos. É aí que entra a parte não quantitativa da economia, aquela
que descrevemos com o uso de palavras.
Devemos ter em mente que o homem, nas suas relações interpessoais,
tem certas necessidades as quais busca satisfazer. Esse agente econômico, que
pode ser uma pessoa, o governo ou uma empresa, dispõe de certa quantidade de
recursos para atender as suas escolhas.
Ocorre que esses recursos nem sempre são suficientes. As necessidades, na
maioria das vezes são ilimitadas, e aquilo que você quer, as suas escolhas, envolvem
determinados custos. Assim, como bem sintetiza Krugman e Wells (2007, p. 5), “as
escolhas individuais estão no cerne da economia”. Ou ainda, como nos ensina Marshall
(1996, p. 77), “Economia Política ou Economia é um estudo da Humanidade nas
atividades correntes da vida; examina a ação individual e social em seus aspectos mais
estreitamente ligados à obtenção e ao uso dos elementos materiais do bem-estar”.
Isso nos traz grandes desafios. Como medimos essas relações? Como
sabemos em que grau as trocas ocorrem? As escolhas, feitas por um indivíduo,
afetam a decisão de outros? Caso a resposta seja positiva, em que medida? De que
maneira podemos descrever essas relações e mensurá-las?
Uma importante ferramenta de análise é a economia matemática. Com
ela podemos formular melhor a economia, ou seja, traduzir aquelas palavras que
usamos para descrever certas relações através de equações. Por exemplo, sabemos
que a demanda de um determinado bem, de maneira bem simplificada, pode ser
expressa em função do seu preço, como:
Q = f ( P)
d
4
TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
Em que:
Qd é a quantidade demandada (unidades, quilos, metros etc.), e
P é o preço desse bem.
Nessa relação, esperamos que se o preço for muito alto, as pessoas
demandem menos unidades do que quando o preço for menor. Exceções a esta
regra podem ser vistas na microeconomia, mas, como um bom estudante de
economia, deixaremos para você verificar!
A equação anterior não nos conta a história toda. Para avançarmos em nossa
análise, precisaremos coletar informações na quantidade e qualidade suficientes,
e assim teremos condições de averiguar se o comportamento descrito condiz com
a realidade prática. Na ciência econômica, nós usamos técnicas estatísticas para
resolver esses problemas econômicos, formulados pela matemática, de forma
empírica (HOFFMANN, 2002, p. 2).
E quanto à econometria? Onde ela se encaixa nessa história toda? Se você
juntar a teoria econômica com a economia matemática e a estatística econômica,
você terá aquilo que chamamos de econometria. Ela nada mais é do que a junção,
ou a soma, ou ainda, como diz Gujarati e Porter (2011, p. 26), “[...] econometria é
um amálgama de teoria econômica, economia matemática, estatística econômica
e estatística matemática”.
A palavra econometria foi utilizada pela primeira vez em 1933, quando
saiu a edição de número um da revista Econométrica. Sua definição formal está
no documento de constituição da Econometric Society, que em uma tradução livre
diz que é uma sociedade internacional para o avanço da teoria econômica e sua
relação com a estatística e a matemática (ROOS, 1933, p. 106).
Desde o seu início, a econometria vem evoluindo dia após dia. Atualmente
não podemos entender essa disciplina ou ramo da ciência econômica apenas
analisando os seus aspectos matemáticos. Da mesma forma, apesar de toda
a sua força e utilidade, a estatística é uma ferramenta empregada no processo
econométrico, mas não se pode confundi-las como sendo a mesma coisa. Além
disso, aquilo que entendemos como teoria econômica é ponto de partida para a
econometria, dando sentido a sua análise, mas não é a econometria em si.
Fica claro que a junção dessas três áreas críticas torna a econometria
uma ferramenta poderosa para os economistas desenvolverem o seu trabalho
com qualidade e assertividade. Porém, há um elemento-chave no processo
econométrico que não pode ser desprezado, a tecnologia, que vem dando um
impulso sem precedentes ao desenvolvimento tanto da econometria teórica
quanto da econometria aplicada.
5
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Você consegue imaginar os economistas, nos anos 1930, fazendo análises
estatísticas, coletando dados, tabulando e extraindo conclusões, sem um
microcomputador? Nós que estamos acostumados ao uso dos meios eletrônicos
temos dificuldade para imaginar um mundo assim. Pense em um matemático
calculando derivadas, usando logaritmos, ou obtendo ângulos de figuras
geométricas com o uso de tabelas específicas criadas para esse fim!
Apesar de ser possível fazer tudo isso, temos que compreender que a
tecnologia tem um papel central em todas as áreas de estudo e pesquisa, e na
econometria ela é indissociável. Como veremos adiante, temos programas de
computador tradicionais, como o SAS ou o Eviews, que têm um custo significativo,
porém, para quem os usa no campo da pesquisa, o seu retorno compensa o
investimento. Por outro lado, graças ao GNU e ao Free Software Foundation, temos
hoje uma série de opções que, além de serem gratuitas, são poderosas ferramentas
e acessíveis a todos, inclusive a nós, que usaremos muita técnica e tecnologia ao
longo deste curso.
Toda pesquisa começa por um problema, algo que intriga o pesquisador,
que precisa de uma resposta. Assim, o objetivo principal da econometria é auxiliar
o economista a responder aos seus problemas de pesquisa. Em uma investigação
sobre um determinado evento ou fenômeno, nos deparamos com uma série de
questões, que muitas vezes começam com a palavra “quanto?”.
Esses problemas de pesquisa, ou essas questões que precisam ser
resolvidas, encontram abrigo nas chamadas hipóteses ou pressupostos, que nada
mais são que respostas prévias às perguntas formuladas anteriormente, as quais
precisam ser medidas e testadas. Precisamos nos assegurar de que aquilo que
entendemos como verdadeiro realmente é verdadeiro. Não basta afirmar, tem
que comprovar!
São exemplos de perguntas, ou problemas, com que nos deparamos em
nossas pesquisas e para as quais a econometria é nossa grande aliada:
IIIIIIIV-
Quanto irá variar o consumo se houver um aumento real no salário mínimo?
Quantos carros serão vendidos se o IPI for reduzido a zero?
Quanto uma mudança em uma determinada variável afeta a outra?
Haverá alguma variação no PIB caso o COPOM decida reduzir a meta da
SELIC?
V- Qual deve ser o nível de inadimplência caso o país passe por um período de
recessão?
VI- É possível determinar se houve discricionariedade na condução da política
monetária por parte do Banco Central entre dois governos distintos?
A resposta a essas e muitas outras questões que surgem durante um
trabalho de pesquisa é obtida através do emprego de certas técnicas, dentre as
quais, no caso da ciência econômica, a econometria é, sem sombra de dúvidas, a
peça-chave.
6
TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
A seguir, veremos os passos que envolvem o processo econométrico
através de um exemplo clássico, a teoria keynesiana do consumo. Veremos que
existe uma sequência lógica que precisa ser respeitada para se obter resultados que
sejam coerentes com a realidade. Ao longo de todo este livro desenvolveremos e
refinaremos as técnicas apresentadas nesta primeira unidade, e com o tempo nos
prepararemos para aprender modelos ainda mais robustos e cujas aplicações estão
em linha com o que se vem empregando no mundo acadêmico e dos negócios.
3 O MÉTODO ECONOMÉTRICO
Grande parte dos livros de econometria descreve o método econométrico
com um exemplo prático. Não faremos diferente, até mesmo porque é preciso
que você já comece a se familiarizar com o método e a visualizar as opções para
aplicar essas poderosas ferramentas na sua vida acadêmica e profissional. O
exemplo clássico que usaremos é a função consumo keynesiana, que nos dá algo
a ser investigado ou medido, a propensão marginal a consumir.
Utilizando a sequência proposta por Gujarati e Porter (2011), Greene
(2012) e Wooldridge (2016), vamos ver o que Keynes (1996, p. 118) falou sobre a
relação consumo versus renda:
A lei psicológica fundamental em que podemos basear-nos com inteira
confiança, tanto a priori, partindo do nosso conhecimento da natureza
humana, como a partir dos detalhes dos ensinamentos da experiência,
consiste em que os homens estão dispostos, de modo geral e em média,
a aumentar o seu consumo à medida que a sua renda cresce, embora
não em quantia igual ao aumento de sua renda.
Toda pesquisa começa com algo que desperte a atenção do pesquisador e
que lhe suscite perguntas. Por exemplo, no excerto da obra de Keynes citada, seria
interessante considerar a possibilidade de se medir essa proporção do aumento
na renda repassada ao consumo das famílias. O nosso problema de pesquisa
já está bem claro e delineado, mas essa é apenas a primeira parte do processo
econométrico e ainda está na fase da teoria econômica.
Agora usaremos a matemática e a estatística como auxiliares no
desenvolvimento da nossa pesquisa, e depois, quando tudo estiver bem claro, a
tecnologia será o nosso “workhorse”, ou numa tradução livre, nosso “cavalo de
batalha” nessa grande empreitada, e que nos conduzirá, de alguma forma, à vitória.
Usando a matemática para refinar nossa intuição, devemos nomear as
variáveis e estabelecer as relações em uma forma funcional que seja capaz de
resumir a hipótese a ser testada. O formato dessa função matemática pode
ter como fonte a própria teoria subjacente, porém, no nosso caso específico, a
exposição de Keynes não nos dá uma pista sobre qual seria a relação funcional
existente entre consumo e renda.
7
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Por simplificação, podemos supor que exista uma relação linear. Como
veremos mais adiante, a linearidade é essencial para as análises que serão
propostas e torna o nosso trabalho mais fácil. Por enquanto, vamos propor que a
relação tenha a seguinte forma:
Consumo = β1 + β2 Renda
1.2
A equação acima parece perfeita para aquilo que estamos propondo,
porém teremos que testá-la na prática para ver se realmente serve para o nosso
trabalho. Podemos supor que a propensão marginal a consumir, ou seja, quanto
varia o consumo dada uma variação na renda, seja menor do que um. Leia
novamente o excerto de Keynes e você verá isso bem claro.
Se for verdade que apenas parte do aumento na renda é transferida para
o consumo, podemos esperar que 0 < β2 < 1.
Acho que você já deve ter percebido que a equação 1.2 é uma velha
conhecida nossa. É a equação linear mais elementar, a qual costumamos escrever
nas aulas de matemática com o formato Y = a + bX, em que a é o intercepto, ou o
ponto onde a reta formada pela equação toca o eixo vertical do plano cartesiano e
b é o coeficiente angular, ou, a inclinação dessa reta.
O problema de se usar a equação 1.2 é que ela estabelece uma relação
exata entre duas variáveis. Na vida real sabemos que isso nem sempre acontece
de fato. Você é capaz de imaginar uma gama de outras coisas que podem afetar o
consumo? Uma delas é o consumo no período anterior. Se você faz uma compra
grande no início do mês e não consome tudo o que comprou, o que sobra diminui
a quantidade adquirida na próxima compra.
Alguns fatores são puramente subjetivos, outros são bem objetivos e
quantificáveis, mas no geral todos são capazes de influenciar o consumo, o que
nos faz concluir que na prática a relação entre consumo e renda não é exata ou
determinística como em 1.2.
Portanto, precisamos de uma variável que seja capaz de capturar a
influência de todas essas variáveis, as quais de alguma forma afetam o consumo,
mas que estamos deixando de fora dessa equação matemática por razões que ainda
estudaremos neste livro. Chamaremos essa variável de termo de perturbação
estocástica e representaremos pela letra u.
Chamamos de perturbação porque ela é capaz de perturbar o
comportamento da nossa variável consumo e é dita estocástica porque não segue
um comportamento previsível, é totalmente aleatório, porém, como veremos
mais adiante, com distribuições de probabilidade conhecidas.
8
TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
Vamos alterar o modelo 1.2 incluindo esse termo estocástico, o que fará
com que ele se torne um modelo econométrico:
Consumo = β1 + β2 Consumo + u
1.3
Temos uma teoria para ser testada, temos o modelo econométrico que derivou
de uma função matemática, agora podemos obter os dados e empregar a estatística
para prepará-los para a estimação ou solução de 1.3. Existem diversas fontes de
dados, o que você precisa ter em mente é que nem sempre eles são confiáveis, por
isso precisam de uma análise criteriosa, porque, em algum momento, alguém irá
ler o resultado da nossa pesquisa e poderá se basear nela para implementar alguma
política governamental, por exemplo. Por este motivo é importante que você se
habitue a ser muito cuidadoso e crítico em tudo o que você faz.
Como o excerto da teoria keynesiana não define claramente as variáveis,
empregaremos uma aproximação, uma “proxy” para cada variável. Veremos
ao longo do livro que a correta definição das variáveis que entram no modelo
econométrico é muito importante, pois mitiga o risco de especificarmos um
modelo de forma incorreta, ou, como é chamado, viés de especificação.
Depois de coletar os dados e montar a nossa base, entra em ação um
aliado importantíssimo do econometrista, a tecnologia. Estimaremos o modelo
econométrico, ou seja, resolver a equação 1.3, com o emprego dos dados coletados,
empregando um software econométrico. Como dissemos anteriormente, hoje em
dia há uma variedade grande deles à disposição no mercado. Alguns são pagos
e outros até gratuitos. Greene (2012) relaciona os seguintes programas e seus
respectivos endereços na internet, os quais reproduzimos no quadro a seguir:
QUADRO 1 – RELAÇÃO DE ALGUNS SOFTWARES ECONOMÉTRICOS DISPONÍVEIS NO MERCADO
Software
Endereço eletrônico
Fornecedor/desenvolvedor
EViews
<www.eviews.com>
QMS, Irvine, CA
Gauss
<www.aptech.com>
Aptech Systems, Kent, WA
LIMDEP
<www.limdep.com>
Econometric Software, Plainview, NY
MATLAB
<www.mathworks.com>
Mathworks, Natick, MA
NLOGIT
<www.nlogit.com>
Econometric Software, Plainview, NY
R
<www.r-project.org>
The R Project for Statistical Computing
RATS
<www.estima.com>
Estima, Evanston, IL
SAS
<www.sas.com>
SAS, Cary, NC
Shazam
<www.econometrics.com>
Northwest Econometrics Ltd., Gibsons, Canada
Stata
<www.stata.com>
Stata, College Station, TX
TSP
<www.tspintl.com>
TSP International, Stanford, CA
FONTE: Greene (2012, p. 37)
9
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Da listagem fornecida por Greene (2012), é comum as grandes empresas, os
centros de pesquisa de universidades, os profissionais do mercado financeiro, entre
outros, escolherem dois ou até mais deles para suas atividades diárias. Todos eles são
muito bons, mas não há um programa que faça exatamente tudo o que precisamos.
Muitas vezes, o programa tem rotinas prontas que resolvem o nosso
problema com alguns cliques do mouse. Mas, em aplicações mais avançadas,
precisamos dominar a linguagem que está por trás do programa e escrever as
linhas, as rotinas ou o algoritmo que será empregado. Evidentemente que no
nosso livro de estudos não faremos algo assim tão avançado, até mesmo porque
isso fugiria do escopo do que está sendo proposto nesse material. Porém, fica
como advertência que, agora que você está entrando nesse mundo fantástico da
econometria, mais cedo ou mais tarde você sentirá a necessidade e o desejo de
avançar ainda mais nos seus estudos e buscar esse conhecimento.
Vamos deixar você escolher o programa que melhor se adapte ao seu gosto,
ao seu bolso, e ao domínio que você tem da língua inglesa, caso queira pagar pela
licença de uso de um deles. Ao longo de todo o curso de Econometria I, usaremos
o Gretl, que não foi relacionado por Greene (2012) e, portanto, não está na listagem.
Gretl é a abreviatura ou acrônimo de Gnu Regression, Econometrics and
Time-series Library. É um software livre e de código aberto, feito para análise
estatística e econométrica de dados. Trata-se de uma importante ferramenta a
serviço dos econometristas, especialmente dos graduandos!
Ele traz como vantagens o fato de ser totalmente gratuito, possuir interface
em diversas línguas, inclusive o português, e ser multiplataforma, o que permite
que seja instalado praticamente em todos os computadores vendidos atualmente.
Para obter uma cópia deste programa você deve ir até <http://gretl.
sourceforge.net/pt.html>, clicar na opção “Download” e selecionar o arquivo de
instalação de acordo com o seu sistema operacional. Como usamos o Windows
10, da Microsoft, as telas apresentadas a seguir foram produzidas a partir deste
sistema operacional.
DICAS
Os procedimentos de instalação são intuitivos e os manuais disponíveis no site
o ajudarão nessa tarefa, caso tenha alguma dificuldade. Mesmo assim, sugerimos que você
leia o material produzido por Carlos Henrique Coelho de Andrade, da UFRGS. Ele elaborou um
manual introdutório ao Gretl, com o “objetivo [de] apresentar, de forma simplificada, algumas das
funcionalidades presentes no Gretl de forma a auxiliar seu aprendizado tanto por aqueles que nunca
utilizaram pacotes econométricos quanto aqueles que já possuem certa experiência com esse tipo
de programa” (ANDRADE, 2013, p. 2). Esse manual está disponível para ser baixado em <https://www.
ufrgs.br/ppge/wp-content/themes/PPGE/page/textos-para-discussao/pcientifica/2013_12.pdf>.
10
TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO
Após estimar a regressão dada pela equação 1.3, fazemos uma série de
verificações a fim de garantir que o modelo tenha a especificação adequada e os
resultados sejam consistentes. Com o modelo devidamente validado, fazemos os
testes de hipótese, as inferências estatísticas ou usamos o modelo para fins de
previsão econômica. Se concluirmos que o modelo não é adequado, reiniciamos
todo o trabalho, alterando a definição das variáveis, coletando mais dados,
modificando a estrutura deles ou até mesmo redefinindo a forma funcional do
modelo de regressão, como veremos na prática ao longo dos nossos estudos.
LEITURA COMPLEMENTAR
O nascimento da econometria e sua contribuição para a sociedade
Samy Dana
Lousas rabiscadas de equações matemáticas, barulhos de calculadoras e cheiro
de giz permeiam o ambiente. Para quem não frequenta as aulas de econometria, tal
cenário pode parecer uma bolha matemática muito distante da realidade. Engana-se
quem pensa assim. Um dos maiores interesses de um economista é ver se o que foi
proposto pela teoria se aplica na realidade. Isso, porém, sempre representou um dos
maiores desafios da Economia. Diferentemente das ciências naturais, o economista
raramente consegue realizar experimentos controlados, por isso os dados coletados
em Economia são resultados de muitas relações de interdependência, o que torna
difícil inferir relações de causa e consequência. Para tentar resolver este problema foi
desenvolvida a Econometria: braço da Economia responsável por, justamente, estimar
e testar as relações apresentadas pelos modelos teóricos usando dados da realidade.
Até a metade do século passado faltava aos pesquisadores um sistema
comum para formular, analisar e resolver os problemas de teste e estimação.
Por causa disso, grandes economistas, como John Keynes, rejeitavam o uso
dos métodos adotados, pois acreditava que isso limitava muito a extensão da
teoria para o mundo real. Nesse cenário limitado, surge o trabalho de Trygve
Haavelmo. O economista foi responsável por introduzir de forma consistente o
uso dos métodos probabilísticos no campo da Econometria e, por consequência,
por uma grande evolução na Ciência Econômica.
Haavelmo nasceu em Oslo, na Noruega, em 1911. Graduou-se em
economia pela Universidade de Oslo no ano de 1933. Entrou no Instituto de
Economia como assistente de Ragnar Frisch, grande econometrista da época e
laureado com o Nobel em Ciências Econômicas anos depois. O economista também
estudou estatística no University College London. Em 1941, recebeu o título de
Ph.D. pelo trabalho “The Probability Approach in Econometrics” (Abordagem
Probabilística em Econometria, tradução livre), sendo essa a base que, seguida
por outros de seus trabalhos, serviu para mostrar de forma convincente que o uso
de probabilidade na formulação e teste das teorias econômicas poderia resolver
grande parte dos problemas enfrentados pela Econometria da época.
11
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
O uso da abordagem probabilística é tão importante porque permite a
aplicação de métodos de inferência capazes de apontar conclusões confiáveis
sobre as relações previstas pela teoria. De maneira mais simples, a abordagem
probabilística possibilita que, com dados da realidade, o pesquisador diga algo
confiável sobre o todo, algo previsto pela teoria e confirmado pelas evidências
práticas. Por exemplo, pode-se pegar os dados sobre programas do governo e
entender se eles funcionam de acordo com o que foi planejado, desse modo há
possibilidade de aperfeiçoamento do programa.
Ao mostrar a necessidade do uso da teoria de probabilidade, ele também
provou a sensatez por trás do novo método. Afinal, acreditar que é possível
prever tudo sem incorrer em erros no cenário econômico complexo enfrentado
pelos economistas seria absurdo. O ponto forte da probabilidade é o fato de ela
ter erros e imprecisões, mas ser viável medir os erros e trabalhar para minimizar
as imprecisões.
O norueguês também contribui para a análise de problemas com
interdependência nas relações econômicas. Basicamente, o problema é que um
acontecimento econômico, como aumento de preço da gasolina, impacta muitos
outros preços de várias formas. A gasolina mais cara aumenta o custo da entrega
de pizza, mas a pizza ficou mais cara também porque a entrega da farinha ficou
mais custosa. Por isso, é difícil entender o resultado pontual do preço da gasolina.
Haavelmo explicou que se fosse utilizado um conjunto de relações autônomas,
algo como relações entre custo da farinha e da pizza, custo da entrega e da pizza,
e assim por diante, seriam explicadas de uma forma melhor.
É do interesse do governo e das instituições que atuam na economia
entender a inflação - como os preços vão aumentar -, a fim de fazer um
planejamento mais adequado para o futuro. Imagine o seguinte exemplo: uma
indústria está interessada em comprar uma máquina que custa R$ 1 milhão. Para
isso, ela precisa saber qual será o melhor momento para efetuar a compra da
máquina. Se em um ano a máquina custar R$ 1,1 milhão (inflação de 10%) e em
dois anos a mesma máquina custar R$ 1,5 milhão (inflação de 50%), a empresa
optará por efetuar a compra em um ano, pois pagará por um preço menor se tiver
caixa. E a empresa só conseguirá tomar a melhor decisão se conseguir projetar
bem a inflação. Antes de Haavelmo, isso não seria possível, já que os economistas
não acreditavam na possibilidade de prever esses dados, afinal, não existia um
processo preciso e bem estruturado. Depois de seus trabalhos, tais previsões são
realizadas com grande frequência. São elas que permitem um melhor processo de
decisão pelas empresas e pelo governo.
Graças a Trygve Haavelmo, o giz que rabisca as equações na lousa das
aulas de econometria se tornou capaz de desenhar soluções para problemas reais
da sociedade.
FONTE: <http://g1.globo.com/economia/blog/samy-dana/post/o-nascimento-da-econometria-esua-contribuicao-para-sociedade.html>. Acesso em: 25 ago. 2018.
12
RESUMO DO TÓPICO 1
Neste tópico, você aprendeu que:
• A econometria utiliza a teoria econômica, a matemática, a estatística e a
computação para, de forma empírica, testar teorias, formular e avaliar políticas
econômicas e auxiliar as empresas na tomada de decisão.
• O método econométrico segue alguns passos, a saber: a identificação de um
problema de pesquisa, ou hipótese a ser testada, o refinamento com o uso da
matemática, a especificação das variáveis, coleta e o tratamento adequado dos
dados com o auxílio da estatística, a estimação dos parâmetros do modelo
econométrico com o uso de um software e a análise dos resultados.
• Neste livro de estudos usamos o Gretl, que é um software livre de código
aberto, muito útil por ter uma interface amigável, em língua portuguesa e de
utilização intuitiva.
13
AUTOATIVIDADE
Para fechar este tópico, queremos propor uma atividade para você.
Como você está iniciando na econometria, vamos começar com calma, sem
preocupação com o acertar, mas queremos que você se esforce para fazer o
melhor possível. Ao longo do livro você aprenderá uma série de técnicas que
lhe permitirá voltar a esse exercício no momento que desejar e testar cada uma
das ferramentas econométricas que aprender.
Questão única – Com base no conhecimento que você adquiriu até agora ao
longo do curso de Ciências Econômicas, procure lembrar de alguma teoria ou
de algum aspecto que lhe chamou atenção e tente, a partir disso, elaborar um
problema de pesquisa. Ao elaborar o problema, tente propor uma resposta para
ele, mas não se preocupe se estiver certo ou errado, apenas faça a proposição
de forma que você consiga identificar uma relação entre duas variáveis apenas.
Procure defini-las adequadamente e baixe os dados da internet, salvando em
uma planilha eletrônica que você consiga manipular. Com os dados em mãos,
monte um gráfico de dispersão, colocando no eixo y a variável que você entende
que depende da outra variável, a qual você colocará no eixo x. Olhando para
esse gráfico e tendo em mente o que você já sabe sobre economia, procure
analisar a sua hipótese e diga se é capaz de confirmá-la ou se terá que refutá-la.
A que conclusões gerais você chegou com esse exercício? Procure escrever isso
na forma de relatório, e na medida do possível, limite o conteúdo de forma a
caber em apenas uma página.
14
TÓPICO 2
UNIDADE 2
1
MODELO DE REGRESSÃO LINEAR GERAL
1 INTRODUÇÃO
Neste tópico, aprenderemos os conceitos básicos da econometria, os quais
nos acompanharão enquanto estivermos estudando ou trabalhando na área
econômica. São conceitos universais essenciais para compreender o funcionamento
e a importância da econometria e sua aplicação prática. Por isso, vamos começar
devagar, apresentando a análise de regressão, o modelo de regressão linear simples
para finalmente entrarmos no método dos mínimos quadrados ordinários.
Antes de vermos cada um desses pontos, devemos nos lembrar de que
a ciência econômica é repleta de teorias, as quais são sintetizadas em modelos
econômicos, sendo eles mais ou menos complexos, dependendo da sua
aplicabilidade. Mas o que é um modelo, afinal de contas? É o que veremos a
partir de agora.
2 A MODELAGEM ECONÔMICA E A ORIGEM DOS DADOS
ECONOMÉTRICOS
Como bem define Maddala (2003, p. 3), “um modelo é uma representação
simplificada do mundo real.” A ideia de simplificar as relações torna mais fácil
compreender o resultado das interações. Por exemplo, se estamos interessados
em entender o motivo pelo qual o Comitê de Política Monetária do Banco Central
(COPOM) altera a meta para a taxa básica de juros, podemos começar nossa
análise dizendo que a sua decisão está baseada na expectativa que os agentes
econômicos têm sobre o comportamento futuro dos preços.
O problema é que estimar uma função resposta do Banco Central com
base apenas no comportamento dos preços torna esse nosso modelo simplista
demais. Para resolver essa questão poderíamos supor que, mantendo inalteradas
todas as demais variáveis que afetam a decisão do Bacen, a taxa básica de juros
da economia brasileira será alterada de acordo com as mudanças nas expectativas
em relação à inflação futura. Assim, aplicando a condição ceteris paribus, ou seja,
fixando as demais variáveis, podemos nos concentrar naquilo que realmente nos
interessa, que é compreender quanto de aumento ou diminuição nos juros nós
teremos quando a inflação aumenta ou diminui.
15
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Poderíamos imaginar também que a safra agrícola brasileira dependerá,
dentre outros fatores, da quantidade de fertilizantes utilizados nas lavouras. Claro
que a maioria de nós gosta de consumir produtos naturais, ou seja, sem a adição
de elementos químicos para alterar sua composição e assim produzir além do que
produziria em um processo natural. Quando elaboramos um modelo capaz de
explicar a safra agrícola, usando como explicação a quantidade de fertilizantes,
estamos estabelecendo uma relação ceteris paribus para as demais variáveis que,
de alguma forma, impactam na safra.
Como estudante de economia, você já deve ter feito o exercício de tentar
enxergar todas as variáveis que afetam ou explicam um determinado fenômeno.
No caso da safra agrícola, podemos pensar na quantidade de chuva durante o ano,
medida em milímetros cúbicos, até mesmo na quantidade de sol, pensando em
horas de luz por dia, no fato de a acidez do solo ter sido corrigida ou não, no método
de plantio e até mesmo na época do ano em que o agricultor começou a plantação.
E no caso do Banco Central, você consegue enumerar quais são as variáveis
que afetam a decisão do COPOM ao tomar sua decisão em relação a elevar, manter ou
reduzir a taxa básica de juros?
DICAS
Sugerimos que você dê uma lida na ata da última reunião do COPOM, disponível
em <https://www.bcb.gov.br/?ATACOPOM>, e veja tudo o que é analisado pelo comitê para
se chegar a um consenso sobre a decisão a ser tomada. Você perceberá que eles falam
em cenários, e esses cenários são definidos com o uso de modelos econométricos que
estudaremos na disciplina de Econometria II.
O Bacen usa modelos complexos, mas a ideia de impor restrições ao modelo
ajuda a torná-lo simples, porém alguns pressupostos podem ser tão restritivos
que os tornam irrealistas. Por isso, podemos começar com um modelo simples e
ir adicionando outras variáveis até termos certeza de que temos o suficiente para
representarmos a realidade (MADDALA, 2003, p. 4).
Uma forma de construir modelos é começando com uma proposição como
aquela de Keynes sobre o consumo e a renda, apresentada no Tópico 1. Podemos
falar em comportamento conjunto, dizer que uma variável provoca alterações
em outra, ou é causada por outra, ou ainda varia em função de outra variável
(GREENE, 2012, p. 51).
Costumamos definir a variável que provoca as alterações como “explicativa”
enquanto a que sofre a mudança é a “explicada”. O termo “explicativa”, em
econometria, é sinônimo de explanatória, independente, exógena, previsor ou
16
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
regressor. Por outro lado, “explicada” é sinônimo de dependente, alvo, endógena,
de efeito, variável de controle ou regressando.
As variáveis são construídas a partir de dados coletados geralmente na
internet, em sites oficiais do governo ou de entidades privadas e de pesquisa
onde as informações são divulgadas, tais como IBGE, Banco Central, IPEADATA,
FMI, CNI, entre outros. Eles também podem ser coletados por meio de pesquisa
de campo, ou seja, monta-se um questionário e o pesquisador vai a campo para
aplicar e, posteriormente, tabular as informações coletadas.
Há ainda outras formas de se obter os dados, tais como em experimentos
controlados em laboratório, o que dificilmente conseguiremos fazer em economia,
porém é comum em outras áreas da ciência, como a Biologia, a Física, ou até
mesmo em fábricas, quando querem testar algo novo. Esses dados podem ser de
três tipos: séries temporais, dados de corte e painel de dados.
Um conjunto de dados é dito de séries temporais quando temos mudanças
ao longo do tempo. Nós os representamos nos nossos modelos pelo subscrito
“t”, por exemplo, Yt. Dessa forma, quando falamos na inflação anual do período
compreendido entre 1994 e 2016, estamos relacionando o acumulado de cada ano
em uma sequência. Da mesma forma, a variação percentual trimestral do Produto
Interno Bruto ao longo do ano de 2016 também representa uma série temporal.
Esses dados podem ser coletados com frequência intradiária (séries financeiras
como preço de ações, câmbio etc.), diária, mensal, bimestral, trimestral, semestral,
anual e assim por diante.
Dizemos que esse conjunto de dados faz parte da Macroeconometria,
porque está relacionado a temas estudados na Macroeconomia, tais como:
a) Qual o efeito causado por mudanças na taxa básica de juros da economia
brasileira sobre a inflação? Quando esse efeito começa e por quanto tempo ele
dura?
b) Longos períodos de recessão costumam ter como custo social altas taxas de
desemprego. Quais os efeitos da baixa produção e do desemprego sobre o
nível de preços da economia?
Os dados de corte são aqueles obtidos em um determinado momento no
tempo e representamos com o subscrito “i”, por exemplo, Yi. Esse subscrito indica
que estamos tratando de indivíduos, que podem ser pessoas, estados, países,
firmas etc.
Ao longo da série de dados não há alterações temporais. Esses dados
de corte são objeto de estudo da Microeconometria e nos ajudam a responder
questões, como:
a) Qual a relação entre gastos de campanha e número de votos na eleição
presidencial de 2014?
17
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
b) A quantidade de alunos em sala de aula, na rede pública de ensino em 2017, é
capaz de explicar o seu desempenho no ENEM?
c) Profissionais com menos idade, mas com o domínio de mais idiomas
estrangeiros ganham mais do que profissionais mais velhos que dominam
apenas um idioma estrangeiro?
Finalmente, o painel de dados, que também está relacionado à
Microeconometria, junta tanto os dados de séries temporais quanto os dados de
corte e suas séries são representadas pelos subscritos “i” e “t”, como em Yit. Isso
significa que estamos nos referindo ao indivíduo “i” no período “t”. Em termos
práticos, falamos na arrecadação tributária dos estados do Paraná (“i”) em 2014
(“t”), 2015 e 2016, estado de Santa Catarina em 2014, 2015 e 2016 e Rio Grande do
Sul em 2014, 2015 e 2016. Aqui os indivíduos “i” são os estados, enquanto o período
“t” são os anos de 2014 até 2016.
A tabela a seguir apresenta um exemplo de painel de dados. Como você
pode perceber, nesse caso nós empilhamos as informações individuais ao longo
do tempo, a fim de construir a base de dados e conseguir estimar os modelos
econométricos:
TABELA 1 – PAINEL DE DADOS
Observação
Ano
País
PIB
(bilhões de US$)
Desemprego (%)
Inflação
(% ao ano)
1
2013
Argentina
716,419
7,2
9,77
2
2014
Argentina
743,121
7,2
10,04
3
2015
Argentina
777,945
7,3
10,62
4
2013
Bolívia
50,904
5,8
9,88
5
2014
Bolívia
55,229
5,4
4,52
6
2015
Bolívia
59,195
3,2
5,73
7
2013
Brasil
2.294,243
6,0
6,64
8
2014
Brasil
2.355,586
5,5
5,40
9
2015
Brasil
2.423,306
6,6
6,20
10
2013
Chile
299,632
6,1
3,34
11
2014
Chile
320,54
6,4
3,00
12
2015
Chile
334,76
5,9
1,79
13
2013
Colômbia
471,964
10,9
3,42
14
2014
Colômbia
502,874
10,4
3,17
15
2015
Colômbia
527,565
10,5
2,02
FONTE: <www.imf.org>. Acesso em: 26 ago. 2018.
Empregamos painel de dados quando o número de dados de corte e de
séries de tempo são insuficientes para fazermos o nosso estudo com qualidade.
Com eles, podemos responder a perguntas do tipo:
18
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
a) Como o estoque de capital das cinquenta maiores empresas do Brasil
impactaram nos seus investimentos brutos nos últimos três anos?
b) De que forma a estrutura de mercado impacta na decisão de inovar das
indústrias brasileiras?
c) Qual o impacto dos grandes eventos esportivos (olimpíadas e copa do mundo),
sobre o crescimento econômico dos países sede, após a crise de 2008?
O termo regressão e o significado de análise de regressão são assuntos a
serem discutidos com mais detalhe na sequência. Ao desenvolvermos o modelo
de regressão linear geral, iniciaremos a parte técnica dos nossos estudos, o que irá
demandar bastante atenção de sua parte. Sugerimos que você leia mais de uma
vez o conteúdo e faça todas as aplicações práticas usando o software econométrico
que você escolheu.
3 ANÁLISE DE REGRESSÃO
Em 1886, Francis Galton publicou um artigo em que estudou as
semelhanças familiares em estatura, explicando que a estatura média familiar
gradualmente diminui ou regride à altura média da população como um todo
(GALTON, 1886, p. 42). Isso ficou conhecido como regressão à mediocridade.
A ideia por trás dessa expressão é bem simples e se resume a algumas
questões que Galton (1886) tentou responder:
1. Por que filhos de pais altos tendem a ser altos também, mas não tão altos quanto
seus pais?
2. Por que filhos de pais baixos tendem a ser baixos também, mas não tão baixos
quanto seus pais?
3. Por que pais de filhos altos tendem a ser altos, mas não tão altos quanto os seus
filhos?
4. Por que pais de filhos baixos tendem a ser baixos, mas não tão baixos quanto
os seus filhos?
Essas questões levantadas por Galton e que deram origem à expressão
“regressão à mediocridade”, também podem ser observadas em outras áreas. Por
que um atleta de alto nível tem um bom desempenho em uma temporada, mas na
temporada seguinte seu rendimento cai? Por que um time de futebol brasileiro,
ao disputar a final do mundial de clubes no fim da temporada, não tem o mesmo
desempenho físico do início do ano?
Essa ideia de regressão é a que está na origem do termo que usamos hoje
em dia, porém com um significado um pouco diferente. De um ponto de vista
mais moderno, Maddala (2003, p. 32) diz que a “análise de regressão refere-se à
descrição e à quantificação da relação entre uma dada variável (em geral chamada
de variável explicada ou dependente) e uma outra ou mais outras variáveis (em
geral chamadas de variáveis explicativas ou independentes)”.
19
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Geralmente denotamos por Yi a variável dependente e por Xi a variável
explicativa e podemos, com o auxílio da matemática, formular essa relação da
seguinte maneira:
Yi = f (Xi)
2.1
Em que f (Xi) é uma função de Xi, que estabelece a relação existente entre
a variável explicativa e a explicada, e assume qualquer formato. Ela pode ser
um polinômio de segundo grau, ou de terceiro, pode ser uma função recíproca,
logarítmica, enfim, terá o formato que se ajusta melhor aos dados coletados
relativos às variáveis.
Como nem sempre sabemos qual a especificação exata da função 2.1,
recorremos à teoria econômica que na maioria das vezes nos dá uma pista para
seguirmos. Outras vezes recorremos aos próprios dados, plotando um gráfico
de dispersão e observamos o formato da distribuição dos dados. Dependendo
da figura formada ou do caminho seguido pelas informações, podemos chegar à
conclusão sobre qual a melhor equação a ser usada.
No caso da função consumo keynesiana, podemos esperar que a relação
entre consumo e renda se dê de forma linear. Assim, representamos a função da
seguinte forma:
f (Xi) = b + mXi
2.2
Substituindo 2.2 em 2.1, temos a expressão:
Yi = b + mXi
2.3
A função linear em 2.3 nada mais é do que um polinômio de grau
zero. Ela tem como características uma variável dependente Yi, explicada por
uma constante b, e um coeficiente angular m, que é multiplicado pela variável
explicativa Xi. Note, também, que estamos supondo uma relação de causalidade
direta, matemática ou determinística entre as variáveis Yi e Xi.
Em 2.3, b geralmente não tem um significado econômico relevante.
Algumas vezes até tem, mas isso veremos com o tempo ao longo desse livro.
O que chama a atenção é que, quando o coeficiente angular m é igual a zero, Yi
assume o valor de b.
Por outro lado, m é de extrema importância e é nesse parâmetro que
geralmente concentramos toda a nossa atenção. A leitura que fazemos dele é
20
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
direta, ou seja, se Xi variar uma unidade, Yi irá variar exatamente m. Expresso de
outra forma, podemos entender essa variação como ∆Yi/∆Xi = m.
Supondo que Yi, na equação 2.3, represente a altura dos filhos e Xi, a altura
dos pais, ambos em centímetros, e suponha que a constante b e o coeficiente angular
m assumam os seguintes valores:
Yi = 85,6742 + 0,516Xi
2.4
Em 2.4, para um pai que tenha 180 cm de altura, podemos esperar que o
filho tenha 178,55 cm (Y180 cm = 85,6742 + 0,516 x 180 = 178,55 cm). Porém, sabemos
que essa relação de altura entre pais e filhos, na prática, não pode ser determinada
com exatidão por nenhuma fórmula matemática, pois há outros fatores que podem
afetar o crescimento. Por exemplo, há medicamentos específicos usados em
determinados tratamentos médicos que prejudicam o crescimento, a quantidade
de exercícios físicos, o tempo de exposição ao sol, a genética, entre outros, que
influenciam diretamente no crescimento das crianças.
Se trabalharmos com o conceito de probabilidade, podemos melhorar nossa
capacidade de prever a altura dos filhos. Vamos reescrever a equação 2.4 para incluir
o termo comportamental u, que terá valor de ± 6 cm, com probabilidade de 50%:
Yi = b + mXi + ui
□ = 85,6742 + 0,516Xi ± 6
2.5
Substituindo Xi por 180 cm, teremos Y180cm = 184,55 cm, com probabilidade
de 50% e Y180cm = 172,55 cm com probabilidade de 50% (faça esse cálculo para
confirmar). O problema dessa variável ui é que normalmente só conhecemos a
sua distribuição de probabilidade.
Podemos supor que ui tenha distribuição normal padrão, com média
igual a zero e variância constante igual a 1. Se for este o caso, Yi, ou a altura dos
filhos, poderá assumir qualquer valor e assim teremos que nos indagar sobre a
relevância da equação 2.5 em termos práticos.
Se tivéssemos a nossa disposição os dados da altura de todos os pais do
mundo inteiro, saberíamos que alguns pais com 185 cm de altura têm filhos com
estatura ligeiramente acima dessa marca ou ligeiramente abaixo dela. Alguns até
superam em muitos centímetros para mais ou para menos. Assim, a relevância da
equação 2.5 é permitir que estimemos a altura média dos filhos de pais com 185
cm de estatura, ou ainda, nos dar a ideia de quanto um filho deverá ter de altura,
em média, se os pais tiverem altura em torno de Xi. Devemos ter em mente que o
valor exato da altura dependerá de outros fatores e que geralmente teremos uma
ótima estimativa, mas acertar o valor correto é outra história.
21
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Essa é uma maneira de regredir à altura média da população, como
definiu Galton (1886), e por isso chamamos a função 2.5 de Função de Regressão
Populacional. O termo populacional é empregado porque estamos supondo que
temos acesso a toda a população de dados. Imagine você medindo a altura de
todos os pais e filhos de todos os 7,6 bilhões de pessoas que vivem no mundo.
Obviamente é inviável, por isso na prática estimamos uma Função de Regressão
Amostral e inferimos estatisticamente os resultados, a fim de tentar prever da
melhor forma possível os verdadeiros b e m da população.
Ao tentar explicar a altura dos filhos a partir da altura dos pais, se fixarmos
esta última variável em categorias e obtivermos amostras da primeira, poderemos
ilustrar melhor esse comportamento, como fizemos no Gráfico 1 a seguir:
GRÁFICO 1 – DISPERSÃO DA ALTURA DOS FILHOS E DOS PAIS EM CM
200
195
Altura dos filhos em cm
190
185
180
175
170
165
160
160
165
170
175
180
185
190
195
Altura dos pais em cm
FONTE: O autor
No eixo vertical está a nossa variável dependente, enquanto no eixo
horizontal encontra-se a variável que a explica. Esse exemplo é hipotético e
tem como objetivo apenas ilustrar e consolidar alguns conceitos importantes.
Por exemplo, ao se fixar os dados da variável explicativa, pode-se obter
diversas amostras da variável dependente e distribuir esses valores, criando as
subpopulações amostrais.
Se tirarmos uma média dessas subpopulações amostrais e traçarmos
uma reta ligando esses pontos médios, teremos aquilo que chamamos de reta
de regressão ou curva de regressão. “Em termos geométricos, uma curva de
22
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
regressão populacional é apenas o local geométrico das médias condicionais da
variável dependente para os valores fixados da(s) variável(is) explanatória(s)”
(GUJARATI; PORTER, 2011, p. 61).
Isso deixa claro que essa reta conecta os valores médios condicionais
E(Y|Xi) da variável dependente, e que essa média condicional aumenta conforme
aumentam os valores da variável explicativa, demonstrando que há uma relação
positiva entre as variáveis como haveria de se esperar.
Apenas para lembrar, o valor médio esperado “E” ou esperança
matemática pode ser definida como:
=
=
E(X) X1 P(X1 ) + X2 P(X2 ) + ... + Xn P(X
)
n
Σ
n
i =1
2.6
Xi P(Xi )
Em que Xi é a observação i da variável X, P(Xi)é a função de
probabilidade de X. Como exemplo, suponha que X = (3,5,7,9), assim,
1 1 1 1
a E(X)
E(X)=3   +5   +7   +9   , o que equivale=
4 4 4 4
Σ
4
=
X 6.
i =1 i
1
4
4 O MODELO DE REGRESSÃO LINEAR SIMPLES
Um modelo de regressão linear simples tem um formato parecido com a
equação 2.5, em que uma variável Y é explicada em termos de outra variável, a
qual representamos por X. Esse modelo é usado para responder questões acerca
da população, porém como o acesso a toda a população é muito custoso em termos
de tempo e recursos financeiros, via de regra procuramos obter uma estimativa
dos parâmetros e a partir daí fazemos inferências sobre a população.
Vamos voltar à equação 2.5 para reescrevê-la da seguinte forma:
Yi = β1 + β2Xi + ui
2.7
A equação 2.7 é conhecida como modelo de regressão linear simples e
vamos nos dedicar a entender melhor a sua funcionalidade. Como você pôde
perceber, as variáveis dependente e explicativa são exatamente as mesmas usadas
anteriormente, enquanto os coeficientes mudaram, para que possamos começar a
usar a terminologia padrão ou universal da econometria.
Aqui queremos chamar a sua atenção para uma variável em especial, o
termo de erro ou perturbação estocástica ui. Além de ela perturbar uma relação
estável entre as demais variáveis, também tem papel central na análise de
23
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
regressão. A sua função básica é representar todas as demais variáveis que de
alguma forma possam afetar a variável dependente, mas que, por certas razões,
não estamos considerando no estudo.
Por que precisamos incluir esse termo de erro na nossa equação? São
diversos os motivos que nos levam a fazer isso. Um deles é o fato de que nem
sempre conseguimos capturar todas as relações existentes com o modelo que
escolhemos. Isso ocorre porque a teoria subjacente pode deixar algo em aberto,
ou não ser precisa quanto às especificações.
Talvez até sejamos capazes de relacionar todas as variáveis que explicam
um determinado fenômeno, mas obter os dados necessários para estudar essas
relações nem sempre é possível. Outras vezes algumas das variáveis relacionadas
não são relevantes ao ponto de serem utilizadas no estudo. Assim, capturamos o
seu efeito através desse termo de erro estocástico.
Há ainda os erros de mensuração, uma vez que é mais fácil definir quais
variáveis entram no modelo do que definir como são medidas ou obtidas. Um
modelo que busca explicar o consumo das famílias em função da renda e da sua
riqueza tornará difícil a tarefa de determinar ou medir a riqueza, que tem um
caráter bem subjetivo e pouco preciso.
Assim, em 2.7 temos uma parte que é determinística, formada por β1 +
β2Xi, e outra que é totalmente aleatória, ui, e usamos esse modelo para estimar os
parâmetros desconhecidos, β1 e β2, e com base nesses resultados somos capazes
até mesmo de fazer previsões sobre o comportamento esperado da nossa variávelalvo: Yi.
Em geral, se ∆ui = 0, então ∆Yi = β2∆Xi, e com isso as mudanças na variável
dependente são explicadas por β2 multiplicada pelas variações em Xi, ou seja, a
inclinação da reta de regressão formada a partir da equação 2.7.
5 AS HIPÓTESES DO MODELO DE REGRESSÃO LINEAR
Os manuais de econometria apresentam um conjunto de hipóteses que
explica como o modelo de regressão linear é capaz de capturar as relações entre
as diversas variáveis que entram no modelo. Se o nosso objetivo é apenas calcular
os parâmetros do modelo, ou seja, os βs em 2.7, basta coletar os dados e estimar
aqueles parâmetros usando um bom software econométrico. Porém, se o nosso
objetivo for ir além da estimativa pura, e sempre queremos ir além, precisaremos
estabelecer algumas regras, ou hipóteses que carregaremos conosco enquanto
estudarmos e aplicarmos na prática o método econométrico.
A seguir, enumeramos essas hipóteses. Chamamos a sua atenção para
o fato de usarmos o subscrito i, indicando que essa variável assume valores
diferentes para cada indivíduo ao longo da sequência de dados.
24
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
a) Hipótese 1
O modelo de regressão especifica uma relação linear entre a variável
dependente e a explicativa. Essa linearidade se dá nos parâmetros como em Yi =
β1 + β2Xi + ui.
Uma função é dita linear nas variáveis quando essas não são divididas
por outras variáveis ou quando não são elevadas à potência diferente de 1. Neste
X
β1 β 2 i + ui são exemplos de modelos que não são
caso, Yi = β1 + β2Xi2 + ui e Yi =+
Zi
lineares nas variáveis, porque elas são elevadas à potência diferente de 1, como
no primeiro caso, ou são divididas por outra variável, como no segundo caso.
No entanto, esse tipo de função, que não é linear nas variáveis, não viola a
hipótese 1 do modelo de regressão linear. Isso decorre do fato de que a linearidade
que nos interessa é nos parâmetros. Com isso, modelos do tipo Yi = β1 + βi2Xi + ui ou
do tipo Yi =+
β1
β2
X + u violam a hipótese 1, no sentido de que o parâmetro β2
β1 i i
no primeiro exemplo é elevado à potência diferente de 1 e no segundo exemplo,
ele é dividido pelo parâmetro 1.
Gujarati e Porter (2011, p. 63) resumem bem a relação entre linearidade
nos parâmetros versus linearidade nas variáveis. Podemos ter um modelo de
regressão que seja linear nos parâmetros, mas não necessariamente linear nas
variáveis. Por outro lado, podemos ter um modelo de regressão que não seja
linear nos parâmetros, e ele pode ser linear nas variáveis ou não. Em síntese, o
que nos interessa são os modelos de regressão que são lineares nos parâmetros,
e não nos importamos se são ou não lineares nas variáveis, pelo menos não neste
momento.
b) Hipótese 2
A variável X é não estocástica e seus valores são fixos em amostras
repetidas. Isso significa que conhecemos os valores de X, que não são gerados ao
acaso.
Por exemplo, pais com 180 cm de altura geram filhos mais altos ou mais
baixos do que eles. Para sabermos a probabilidade de os filhos serem maiores ou
menores, tomamos várias amostras de filhos cujos pais têm a altura de 180 cm.
Em outras palavras, repetimos a amostra várias vezes, mas condicionamos ou
fixamos a altura dos pais para podermos coletar os dados. No entanto, apesar de
fixarmos os valores nas amostras repetidas, os valores individuais de X devem
variar, pois se cada valor de Xi for igual ao outro, a sua média X será igual aos
Xi individuais, e com isso não conseguiremos calcular o coeficiente β2, como
veremos adiante.
25
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
c) Hipótese 3
A média condicional do termo de erro é igual a zero. Em termos algébricos,
estamos dizendo que E(ui|Xi) = 0. Podemos ilustrar essa hipótese por meio da
figura a seguir:
FIGURA 1 – DISTRIBUIÇÃO CONDICIONAL DOS TERMOS DE ERRO
Y
FRP: Yi = β1 + β2Xi
+ui
-ui
X1
X2
X3
X4
X
FONTE: Gujarati e Porter (2011, p. 85)
Para que a média condicional do termo de erro seja zero, precisamos
retomar à equação 2.7:
Yi = β1 + β2Xi + ui
temos:
2.8
A reta de regressão é dada por E(Y|Xi) = β1 + β2Xi. Substituindo em 2.7,
Resolvendo a equação para ui, temos:
Yi = Yi – E(Y|Xi)
2.9
26
TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL
Volte novamente à Figura 1. Veja que para qualquer valor de Xi há diversos
pontos acima e abaixo do valor médio, o qual se situa sobre a reta de regressão,
expressa por Yi = β1 + β2Xi, que, já sabemos, equivale a E(Y|Xi). A distância entre
os diversos valores de Y e o valor médio é chamado de termo de erro e aqui
representamos por E(ui|Xi).
Perceba, ainda, que os valores de ui acima da reta de regressão são
positivos, pois neste caso Yi – E(Y|Xi) > 0. Por outro lado, os valores de ui abaixo
da reta de regressão são negativos, pois Yi – E(Y|Xi) < 0. Podemos finalmente
concluir que, se tirarmos a média dos diversos ui obteremos o valor zero, pois os
valores positivos encontrados anulam os valores negativos.
Você pode verificar isso com um exemplo simples. Seja Y = (3, 5, 7, 9),
como vimos anteriormente, E(Y) = 6, e se fizermos Y – E(Y) teremos Y – E(Y) = [(3
– 6) + (5 – 6) + (7 – 6) + (9 – 6)] = 0.
d) Hipótese 4
Os erros ui são homoscedásticos e não apresentam autocorrelação. A
homoscedasticidade tem um sentido de espalhamento simétrico da dispersão em
torno do valor médio. Isso significa que, para cada Xi, corresponde um conjunto
de valores observados de Y.
Sabemos que o termo de erro é medido pela distância entre o valor médio
de Yi relativo a cada Xi. Ter erros homoscedásticos significa que não importa o
valor de Xi, a distribuição de probabilidade dos erros é simétrica e constante, como
em uma curva de Gauss, ou “curva de sino”, se você preferir, visto na Figura 1.
Como sabemos, a média dos erros é igual a zero, ou seja, E(ui|Xi) = 0, a
hipótese de homoscedasticidade implica que a variância condicional do termo de
erro deve ser constante:
var(ui|Xi) = E[ui – E(ui|Xi)]2
2.10
Sabemos que E(ui|Xi) = E(ui2|Xi), isso nos leva a:
var(ui|Xi) = E(ui2|Xi)
2.11
Também sabemos que o quadrado de um número negativo tem por
resultado um valor positivo. Dessa forma, a variância condicional do termo de
erro é um número positivo e constante. Em termos algébricos, temos:
27
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
var(ui|Xi) = o2
2.12
E se a variância não for constante? Neste caso teremos o problema da
heteroscedasticidade, que será objeto de estudo mais adiante, na Unidade 3.
O outro ponto dessa hipótese diz respeito à ausência de autocorrelação
entre os termos de erro. Isso significa que a convariância condicional entre os
termos deve ser nula:
cov(ui, uj|Xi, Xj) = E{[ui – E(ui)]|Xi}{[uj – E(uj)]|Xj}
2.13
Já sabemos que E(ui|Xj) = 0, e isso também é válido para E(uj|Xj) = 0. Com
isso, temos:
cov (ui, uj|Xi, Xj) = E(ui|Xi(uj|Xj)
2.14
cov (ui, uj|Xi, Xj) = 0
2.15
Em termos práticos, a covariância condicional igual a zero significa que
um termo de erro condicionado a Xi não pode influenciar o outro termo de erro
condicionado a Xj. Devido a sua complexidade, exploraremos mais esse conceito
adiante, na Unidade 3.
Gujarati e Porter (2011) apresentam ainda outras hipóteses, tais como a
ausência de covariância entre ui e Xi, ou seja, E(ui Xi), a necessidade de a nossa
amostra ser grande o suficiente para que o número de observações seja maior do
que a quantidade de parâmetros a serem estimados e a necessidade de o modelo
estar corretamente especificado.
As hipóteses que enumeramos são suficientes, por enquanto, para
avançarmos em nossos estudos. Em breve apresentaremos outras hipóteses,
à medida que necessitarmos de técnicas mais apuradas na solução dos nossos
problemas. Por exemplo, quando estivermos analisando um modelo de regressão
múltiplo, precisaremos que as variáveis X não sejam colineares. Mas isso ficará
para outro momento, primeiro precisamos saber como estimar os parâmetros do
modelo de regressão, e para isso aplicaremos o método de mínimos quadrados
ordinários.
28
RESUMO DO TÓPICO 2
Nesse tópico, você aprendeu que:
• Existem os conceitos básicos da econometria, tais como variável dependente
e explicativa, os tipos de dados usados no processo econométrico (dados de
corte, séries temporais e painel de dados).
• O termo “regressão”, cunhado por Francis Galton em 1886, tinha um sentido
de regressão à mediocridade. Atualmente tem um sentido de análise da relação
quantitativa existente entre duas variáveis, a dependente e a explicativa.
• Estudamos o modelo de regressão linear simples, que diferentemente do
modelo matemático determinístico apresenta uma forma estocástica com a
inclusão do termo de erro, uma variável aleatória que captura o sentido ceteris
paribus na econometria.
• As hipóteses do modelo clássico de regressão linear devem ser observadas
se quisermos ir além da estimação pontual dos parâmetros do modelo de
regressão.
29
AUTOATIVIDADE
1 Sobre os principais conceitos da econometria, relacione a coluna da direita
com a da esquerda:
(A)
Variável dependente
( )
Tem a capacidade de influenciar outras
variáveis.
(B)
Variável explicativa
( )
A arrecadação tributária do Paraná, Santa Catarina
e Rio Grande do Sul em 2004, 2008 e 2012.
(C)
Séries temporais
( )
O IDH de todos os municípios brasileiros em 2010.
(D)
Dados de corte
( )
Aquela que é explicada por outras variáveis.
(E)
Painel de dados
( )
O rendimento da poupança nos últimos 24 meses.
2 Suponha que estimamos uma regressão cujo resultado é Yi = 1.200 + 0,73Xi,
em que Yi representa o consumo de um determinado grupo de famílias e Xi a
renda recebida por essas famílias:
a) Qual deve ser o consumo estimado para uma família sem renda?
b) Qual deve ser a renda de uma família que tem um consumo de $ 5.000?
3 Uma das hipóteses do modelo de regressão linear é que a linearidade deve
ocorrer nos parâmetros. Sendo assim, responda “V” quando se tratar de
uma função linear nos parâmetros e “F” quando a função não for linear nos
parâmetros:
a) ( ) Yi = β1 + β2Xi + ui
b) ( ) Yi = β1 + β2X5 + ui
c) ( ) Yi = β1 + (β1 X β2) Xi + ui
1
+ ui
Xi
4 Considerando as seguintes sequências de eventos aleatórios: Y = {3, 7, 12, 17}
e X = {5, 9, 15, 19}, calcule:
d) ( ) Yi =+
β1 β 2
1
a) A média de Y, representada por Y =
4
1 4
x .
por X =
4 i =1 i
Σ
Σ
4
i =1 i
Y e a média de X, representada
b) A soma dos desvios de Y e X em relação a sua média:
4 u
= Xi − X .
i =1 X i
Σ
1
Var(Y)
c) A variância de Y, dada por=
4
1 4
Var(X)
(Xi − X)2 .
por=
i =1
4
Σ
Σ
30
4
i =1
Σ
u = Yi − Y e
4
i =1 Y i
(Yi − Y)2 e a variância de X, dada
TÓPICO 3
UNIDADE 1
MÉTODO DOS MÍNIMOS QUADRADOS
ORDINÁRIOS
1 INTRODUÇÃO
No tópico anterior, estudamos o modelo clássico de regressão linear.
Aprendemos alguns conceitos e vimos as hipóteses relevantes que estão por trás
de praticamente toda análise de regressão. O único problema é que o que vimos
anteriormente se refere a uma situação em que o pesquisador tem acesso aos
dados de toda a população de dados, ou dizendo em linguagem matemática, é
como se tivéssemos a nossa disposição o conjunto universo dos dados.
Na prática existe um custo elevado para você acessar toda a população de
dados. Aqui não estamos falando apenas em termos monetários, mas em termos
de tempo dispendido ou de mão de obra empregada na pesquisa. Imagine que
você queira investigar se a estatura do pai é capaz de influenciar a altura dos
filhos. Como você levantaria as informações necessárias, ou melhor dizendo,
como você faria para saber qual é a altura de cada indivíduo? Provavelmente
você precisaria entrevistar as pessoas e medi-las. Uma coisa é você medir a altura
de 100 pais e, digamos, 200 filhos (supondo dois filhos em média por pai), outra
coisa é medir a altura de mais de 100 milhões de pais e outros duzentos milhões
de filhos.
É por isso que empregamos a técnica da amostragem a fim de responder
aos nossos problemas de pesquisa. Primeiro identificamos a população que tem
as características que iremos estudar, por exemplo, os pais e os filhos. A partir
daí, extraímos uma amostra representativa e montamos o nosso estudo.
A grande pergunta é: Como estimar essa relação entre variável dependente
e explicativa com base em amostragem e ter certeza que temos em mãos resultados
precisos? Para isso recorremos a um ferramental técnico-matemático e estatístico
que nos permite não apenas chegar aos resultados buscados, mas ter certeza de
que eles não são espúrios.
Este, que é o último tópico da Unidade 1, é também o mais extenso e o que
envolve mais questões práticas. É aqui que começamos a sujar as mãos de verdade
para aprender a econometria. Tenha em mente que essa disciplina envolve muita
prática e que é indispensável que você faça todas as atividades propostas e vá
além, pesquisando informações e lendo os estudos que outros pesquisadores
fizeram. Isso o ajudará a conciliar a teoria com a prática e permitirá que você
tenha uma perspectiva clara em relação ao tipo de economista que pretende ser.
31
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
2 A FUNÇÃO DE REGRESSÃO AMOSTRAL E SUAS
CARACTERÍSTICAS
O objetivo da análise de regressão é estimar os parâmetros do modelo
econométrico derivado da teoria subjacente, de forma mais precisa e confiável
possível. Como não temos acesso à população de dados ou ao conjunto universo,
recorremos a um subconjunto ou à amostragem cujas técnicas são discutidas nos
livros de estatística que compõem as referências bibliográficas desse livro de estudos.
Estimar parâmetros significa calcular os βs da Função de Regressão
Populacional 3.1, de forma a obter os resultados expressos em 3.2, que é a nossa
Função de Regressão Amostral:
FRP Yi = β1 + β2Xi + ui
3.1
βˆ 1 + βˆ 2 Xi + ûi
FRA Yˆ i =
3.2
Esse chapéu (^) que vemos na equação 3.2 significa que estamos diante dos
estimadores, ou seja, de valores que esperamos serem o mais próximo possível
dos verdadeiros valores encontrados na população, caso tivéssemos acesso a
� nada mais é do que uma estimativa
todas as informações existentes. Assim, Y
i
de E(Y|Xi), enquanto β̂1 e β̂ 2 são estimativas de β1 e β2 e o resíduo (por se tratar
de uma amostra) ˆ é o estimador do termo de erro estocástico (que se refere à
população) ui.
Em termos práticos, raramente teremos acesso aos verdadeiros parâmetros
populacionais, mas temos condições de obter a melhor estimativa possível
se empregarmos a técnica correta e tomarmos os cuidados necessários, como
veremos adiante. Com isso esperamos que, usando as estimativas da Função de
Regressão Amostral, sejamos capazes de determinar:
Yi =
βˆ 1 + βˆ 2 Xi + uˆ i
3.3
A relação entre FRP e FRA pode ser vista na Figura 2, em que você deve
perceber que a nossa FRA não tem o mesmo desenho da FRP (inclinação e
interceptos diferentes). Isso acontece pelos motivos que já conversamos e porque
o máximo que conseguimos a partir da FRA é uma estimativa dos parâmetros
da FRP. Se tomarmos outra amostra é bem possível que a curva de regressão
da nossa FRA tenha outros parâmetros, e assim sucessivamente, à medida que
formos obtendo novas amostras e fazendo novas estimativas. Porém, se repetirmos
muitas vezes a amostragem, veremos que em média os valores dos parâmetros de
3.3 tendem a convergir aos valores dos parâmetros de 3.1.
32
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
FIGURA 2 – REPRESENTAÇÃO DAS LINHAS DE REGRESSÃO
Verdadeiro Y
da poulação
Y
�i = β
� +β
� X
FRA → Y
1
2 i
Yi
Yi
Resíduo
Desvio
�i = β
� +β
� X
FRA → Y
1
2 i
FRP E(Y|Xi)=
u i
Obtido pela
ui
�i = β
� +β
� X
FRA → Y
1
2 i
FRP → E(Y|Xi) = β 1 + β 2X i
E(Y|Xi)
À esquerda do ponto "A", a
FRA subestima a verdadeira
FRP, enquanto que à direita de
"A", a FRA superestima a
verdadeira FRP.
A
Xi
X
FONTE: Adaptado de Gujarati e Porter (2011, p. 69)
No gráfico fica muito clara a definição de desvio, que é a diferença entre
o verdadeiro valor de Yi e o seu valor médio da população E(Y|Xi). Também
fica clara a definição de resíduo, ou seja, a distância entre o verdadeiro valor
de Yi e o seu valor estimado pela equação 3.2. Também podemos ver que, como
não conhecemos os verdadeiros valores dos parâmetros populacionais, os βs, a
nossa linha de regressão em alguns momentos subestimará a verdadeira reta de
regressão e, em outros, ela superestimará aquela reta.
No fim das contas, o grande segredo está na obtenção de estimadores
precisos, como mencionamos, e para fazer isso existe um grande número
de técnicas de estimação, porém a mais popular é a de Mínimos Quadrados
Ordinários, e também é a mais eficiente, como veremos a seguir.
3 ESTIMATIVA DOS PARÂMETROS POR MÍNIMOS
QUADRADOS ORDINÁRIOS
Se voltarmos nossa atenção novamente à FRP e à Figura 2, veremos que
existe uma diferença entre o valor médio condicionado de Y, dado por E(Y|Xi) e
o verdadeiro valor obtido na população. Essa diferença chamamos de termo de
erro estocástico ou desvio e a representamos por ui:
33
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Yi = β1 + β2Xi + ui
3.4
Ao obtermos a estimativa dos parâmetros de 3.4, usando a FRA, temos:
Yi =
βˆ 1 + βˆ 2 Xi + uˆ i
3.5
A equação 3.5 pode ser reescrita como:
� + u
Y=
Y
i
i
i
3.6
Assim, para sabermos o valor do verdadeiro Yi da população, precisamos
estimar um valor para E(Y|Xi), o qual é representado por Ŷi , e a esse valor
somamos o resíduo da função ûi, como pode ser visto em 3.5 e na Figura 2. O
segredo, portanto, é obter uma estimativa precisa errando o mínimo possível.
Para minimizar os desvios, primeiro resolvemos 3.6 para ûi conforme 3.7:
ˆ=
u
Yi − Ŷi
i
3.7
Σ
n
Sabemos que a soma dos resíduos é zero, ou seja,
u i = 0 , por isso
i =1
tentar minimizar a soma dos desvios não é possível. Uma saída possível poderia ser
minimizar a soma em módulo dos desvios, porém alguns valores são maiores do que
os outros e, se fizermos assim, estaremos atribuindo o mesmo peso a todos eles.
A melhor opção é minimizar a soma dos quadrados, como em 3.8:
=
u Σ
Σ
n
2
n
i
i 1
=i 1=
� )2
(Yi − Y
i
3.8
Dessa forma penalizamos os resíduos maiores e conseguimos obter
n
� )2 implica em
uma estimativa mais precisa dos parâmetros. Como
(Yi − Y
i
i =1
n
2
�1 −β
� 2 X ) , em última análise, a soma dos quadrados dos resíduos é
(Yi − β
i
i =1
uma função dos parâmetros que pretendemos estimar, o que significa que basta
� e β� cuja soma dos
fazer diversas simulações para os parâmetros e escolher β
1
2
quadrados seja a menor dentre todas.
Σ
Σ
Obviamente essa tarefa é muito custosa, mas felizmente aprendemos em
matemática que, para minimizar uma função escolhendo um parâmetro, a técnica
de diferenciação é a que deve ser empregada.
34
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
Para diferenciarmos, especificamos a função e as restrições como:
(
min
∑ ûi2 =
∑ Yi − βˆ 1 − βˆ 2 Xi
ˆ ˆ
β1 , β 2
)
2
3.9
Diferenciando 3.9 em relação a
∂ ∑ uˆ i2
− 2 ∑ Yi − βˆ 1 − βˆ 2 Xi
ˆ
∂β
(
1
)
β̂1 obtemos:
2
3.10
Após alguns algebrismos cansativos, cuja demonstração pode ser
encontrada com facilidade nas obras de referência, obtemos a nossa estimativa
para β1:
βˆ 1= Y − βˆ 2 X
3.11
O mesmo procedimento é aplicado em 3.9 para obter o β̂ 2 :
∂ ∑ uˆ i2
− 2 ∑ Yi − βˆ 1 − βˆ 2 Xi Xi
∂βˆ
(
2
)
3.12
Resolvendo para β̂ 2 e após algumas manipulações, obtemos:
βˆ 2 =
∑ ( Xi − X ) ( Yi − Y )
∑ ( Xi − X )
3.13
2
xi
Por simplificação, podemos fazer =
βˆ 2 =
∑ xi y i
(X
i
− X) e =
yi
(Y − Y ) e assim obter:
i
3.14
∑ xi2
No Quadro 2 temos dados aleatórios referentes à altura dos filhos em cm,
representada por Y, e a altura dos pais em cm, representada por X. Com base nas
equações 3.11 e 3.14 estimaremos os valores de β̂1 e β̂ 2 .
35
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
O primeiro passo é obter os valores de yi, xi, xiyi e xi2, o que não é muito
difícil de fazer quando você tem poucas observações como no Quadro 2, porém,
para uma base de dados muito grande, fazer esses cálculos manualmente se torna
uma tarefa complicada e um simples erro pode gerar resultados questionáveis.
QUADRO 2 – ALTURA DOS PAIS E FILHOS EM CM
(a)
(b)
(c)
(d)
(e)
(f)
Obs.
Y
X
yi
= Yi
= Y
xi
= Xi
= X
xiyi
xi2
1
166
165
-13,2
-13,5
178,2
182,25
2
168
168
-11,2
-10,5
117,6
110,25
3
169
171
-10,2
-7,5
76,5
56,25
4
176
174
-3,2
-4,5
14,4
20,25
5
180
177
0,8
-1,5
-1,2
2,25
6
179
180
-0,2
1,5
-0,3
2,25
7
185
183
5,8
4,5
26,1
20,25
8
186
186
6,8
7,5
51
56,25
9
188
189
8,8
10,5
92,4
110,25
10
195
192
15,8
13,5
213,3
182,25
Soma
1792
1785
0
0
768
742,5
Média
179,2
178,5
0
0
76,8
74,25
FONTE: O autor
Após obter as séries de yi, xi, xiyi e xi2 apresentadas nas colunas c até f no
quadro, aplicamos esses resultados na equação 3.14 e obtemos:
∑ xi yi
768
=
βˆ 2 =
= 1, 0343
2
742 , 5
∑ xi
3.15
Substituindo o resultado de 3.15 na equação 3.11 teremos:
βˆ 1 =
Y − βˆ 2 X =
179 , 2 − 1, 0343 * 178 , 5 =
−5 , 43
3.16
Concluímos a nossa estimação formando a FRA da seguinte forma:
Ŷi =
−5 , 43 + 1, 0343Xi
3.17
36
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
Em 3.17 podemos ver um intercepto β̂1 negativo, porém sem um
significado prático evidente. Imagine você, que por se tratar do intercepto em
uma equação linear, ele representa o valor de Yi quando Xi é zero. Neste caso,
não podemos pensar em um pai sem altura alguma (caso em que Xi seria zero).
Por outro lado, β̂ 2 , ao representar o coeficiente angular da função linear, indica o
quanto da altura do pai que se transfere para o filho de forma hereditária. Claro
que estamos diante de uma relação puramente matemática ou estatística, ou seja,
não podemos falar aqui de relação de causalidade, como alertam Gujarati e Porter
(2011, p. 43).
Como vimos, a ideia aqui é minimizar a soma dos quadrados dos resíduos,
o que nos garante que estamos diante dos melhores estimadores possíveis. A
seguir, veremos que esses estimadores possuem propriedades importantes
e daremos sequência aos nossos estudos, porque, afinal de contas, não basta
calcular os valores, é preciso ter certeza de que eles são confiáveis.
4 PROPRIEDADES NUMÉRICAS DOS ESTIMADORES
Anteriormente vimos as hipóteses do modelo clássico de regressão
linear, agora veremos as propriedades numéricas dos estimadores de MQO, as
quais se mantêm, independentemente da forma como os dados foram gerados
(GUJARATI; PORTER, 2011, p. 81):
1.
Σ
n
i =1
u i = 0 : os resíduos gerados pelo método de mínimos quadrados ordinários
têm soma zero. Essa regra também se aplica à média dos resíduos, ou seja,
E ( ûi ) = 0 .
2.
Σ
n
u i Xi = 0 : isso equivale a dizer que não existe covariância entre os resíduos
e os regressores. Poderíamos representar essa propriedade como E ( ûi Xi ) = 0 ,
ˆ i Xi ) = 0. Em termos práticos ela indica que a distribuição de ûi
ou ainda cov ( u
i =1
não depende de Xi.
3.
� = 0 : da mesma forma que a propriedade 2, nesta vemos que não há
u Y
Σ
covariância entre os resíduos e o valor estimado de Y . Isso quer dizer que os
n
i =1
i
i
i
resíduos são independentes tanto de Xi quanto de Ŷi.
4. Os valores médios de X e Y sempre estarão sobre a reta de regressão. Dito de
outra forma, se pegarmos o resultado da regressão em 3.17 e substituirmos o
valor de Xi pela sua média, 178,5, o resultado deverá ser a média de Yi, ou seja,
179,2. Vamos deixar para você o desafio de verificar essa afirmação na prática.
A demonstração dessas propriedades pode ser vista no Quadro 3. A
questão que fica agora é: Quão precisas são essas estimativas? Além disso, se
empregássemos outro método para obter os estimadores, será que ainda assim
escolheríamos aqueles obtidos por MQO?
37
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Ainda estamos no início da nossa jornada e é natural surgirem essas
dúvidas e muitas outras. Por isso, precisamos agora nos concentrar em aferir o
nosso modelo e usaremos o ferramental estatístico de que dispomos para fazer
diversos testes a fim de nos certificarmos de que estamos diante de estimativas
confiáveis.
QUADRO 3 – ALTURA DOS PAIS E FILHOS EM CM, COM VALORES ESTIMADOS
Obs.
Y
X
�=
Y
β� 1 + β� 2 Xi
i
�
u i = Yi - Y
i
ûi X i
ûi Ŷi
1
166
165
165,2364
0,7636
126
126,1805
2
168
168
168,3394
-0,3394
-57,0182
-57,1334
3
169
171
171,4424
-2,4424
-417,6545
-418,7351
4
176
174
174,5455
1,4545
253,0909
253,8843
5
180
177
177,6485
2,3515
416,2182
417,7431
6
179
180
180,7515
-1,7515
-315,2727
-316,5890
7
185
183
183,8545
1,1455
209,6182
210,5970
8
186
186
186,9576
-0,9576
-178,1091
-179,0260
9
188
189
190,0606
-2,0606
-389,4545
-391,6400
10
195
192
193,1636
1,8364
352,5818
354,7187
Soma
1792
1785
1.792
0,0000
0,0000
0,0000
Média
179,2
178,5
0,00
0,0000
0,0000
0,0000
FONTE: O autor
ATENCAO
^
No Quadro 3, a coluna que contém os valores de Yi foi obtida usando os
parâmetros calculados em 3.17, ou seja, Yi = –5,43 + 1,0343Xi.
5 TESTES ESTATÍSTICOS
Depois de calcular os estimadores dos parâmetros do nosso modelo,
precisamos saber quais características esperamos encontrar neles. Obviamente
queremos estimadores precisos, não tendenciosos e eficientes.
Iniciamos nossa análise com uma medida de precisão, o desvio padrão.
Sabemos da estatística que o desvio padrão de uma variável aleatória nada mais
é do que a raiz quadrada da variância. Essas duas medidas nos dizem quão
disperso um valor obtido através de uma estimativa está do valor esperado.
38
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
As medidas de dispersão nos indicarão se nossas estimativas estão
centradas em torno dos verdadeiros valores dos parâmetros, os quais só saberíamos
se tivéssemos acesso a todas as informações disponíveis da população. Com
isso, supondo que os desvios são homoscedásticos, ou seja, var(ui|Xi) = o2 – um
número constante e positivo –, obtemos a variância dos estimadores de mínimos
quadrados dos parâmetros, como:
( )
var βˆ 1 =
∑ Xi2
n ∑ ( Xi − X )
( )
var βˆ 2 =
2
3.18
σ2
σ2
∑ ( Xi − X )
3.19
2
Em que n é o tamanho da amostra. A partir das equações 3.18 e 3.19,
obtemos facilmente o erro padrão ou desvio padrão:
( )
ep βˆ 1 =
∑ Xi2
n ∑ ( Xi − X )
( )
ep βˆ 2 =
2
σ
3.20
σ
∑ ( Xi − X )
3.21
2
O problema das equações acima é que não sabemos qual o valor da
variância dos desvios o2, pois se trata de um parâmetro populacional e, por
razões já discutidas, nós só dispomos de uma amostra. O desvio agora é obter um
estimador para o2.
Para uma estimativa da variância, usaremos a equação 3.22:
σˆ 2 =
∑ ûi2
n−2
3.22
Obviamente, o desvio padrão é obtido da seguinte forma:
39
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
∑ ûi2
σˆ =
n−2
3.23
O denominador das equações 3.22 e 3.23 é n – 2, porque, ao calcular
a variância, e consequentemente o desvio padrão, perdemos dois graus de
liberdade. Os graus de liberdade são o tamanho da amostra e as perdas se devem
em função dos parâmetros estimados, ou seja, β� 1 e β� 2. Isso garante que, com o
aumento do tamanho da amostra, a precisão dos estimadores também aumente,
pois vamos nos aproximando cada vez mais do número de observações existente
na população e com isso a dispersão em torno do valor médio diminui.
Agora podemos reescrever as equações 3.18 até 3.21 e assim obter os
estimadores da variância e dos desvios padrão dos nossos βs:
( )
var βˆ 1 =
( )
var βˆ 2 =
( )
ep βˆ 1 =
( )
ep βˆ 2 =
∑ Xi2
n ∑ ( Xi − X )
2
σˆ 2
3.24
σ̂ 2
∑ ( Xi − X )
∑ Xi2
n ∑ ( Xi − X )
2
3.25
2
σˆ
3.26
σ̂ 2
∑ ( Xi − X )
3.27
2
Para avançarmos em nosso estudo e podermos trabalhar com os testes
estatísticos, que validarão o nosso modelo econométrico estimado, o termo de erro
deve ter distribuição normal. Essa condição de normalidade é indispensável para a
inferência estatística, e as razões teóricas nas quais nos baseamos para usá-la são a
Lei dos Grandes Números e o Teorema do Limite Central.
A Lei dos Grandes Números tem a ver com o tamanho da amostra e por
isso tem um sentido de assimptótico, ou seja, de aumento indefinido. De uma forma
simples e prática, significa que, à medida que a amostra cresce tendendo ao infinito,
a média amostral converge para a média populacional (SARTORIS, 2013).
40
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
Por sua vez, o Teorema do Limite Central diz que se a variável for distribuída
de forma independente e identicamente, e a amostra for suficientemente grande, a
média amostral da variável em questão terá distribuição normal, ou seja, converge
em distribuição para normal (SARTORIS, 2013).
Dessa forma, dizemos que ui tem distribuição normal com média E(ui) = 0,
variância E(ui2) = o2 e covariância E(ui,uj) = 0, para todo i ≠ j, e representamos como:
ui~N(0,o2)
3.28
Em que ~ deve ser lido como “é distribuído como”, N indica o tipo de
distribuição de probabilidade, que neste caso é o normal. O primeiro termo entre
parênteses indica a média, e já vimos que é igual a zero e o segundo termo é a
variância (um número constante e finito).
Além da distribuição normal dos erros, há outras propriedades desejáveis
em um estimador, tais como não tendenciosidade, variância mínima (eficiência)
e consistência (convergem para os verdadeiros valores da população). Essas
propriedades são encontradas nos estimadores de mínimos quadrados ordinários.
Se as hipóteses do modelo clássico de regressão linear se mantiverem e
o termo de erro tiver distribuição normal, o teorema de Gauss-Markov pode ser
aplicado. Esse teorema nos diz que, dentre todos os estimadores lineares não
tendenciosos existentes, os que são gerados pelo método de mínimos quadrados
ordinários são os que têm variância mínima. Isso garante que estamos diante dos
melhores estimadores lineares não tendenciosos, que em inglês é representado
pela sigla BLUE (Best Linear Unbiased Estimator).
Para entender melhor o que acabamos de discutir, lembre-se de que os
estimadores que calculamos em 3.17 foram obtidos com base em uma única
amostra. Portanto, tratam-se de estimadores pontuais. Se tirarmos outra amostra
da população, é provável que os resultados estimados sejam diferentes. Assim, se
fizermos 100 amostras diferentes, obteremos 100 estimadores também diferentes.
No entanto, se tirarmos a média desses estimadores, seus valores se aproximarão
em muito dos verdadeiros valores populacionais. Em outras palavras, o E(β1)
= β1 e E(β2) = β2 , ou seja, essa convergência é o que garante a eficiência desses
estimadores.
Para uma verificação prática dessa propriedade, suponha um parâmetro
estimado, digamos ө, com média 5 e variância 2. Suponha ainda que tenhamos
outros dois estimadores com exatamente a mesma média, só que com variância 4
e 6, respectivamente. Dentre esses três estimadores, qual é o mais eficiente?
passos:
A resposta você mesmo pode obter abrindo o Gretl e seguindo os seguintes
41
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
1. Vá no menu “Ferramentas” e escolha “Gráficos de distribuições” (Figura 3):
FIGURA 3 – GRÁFICOS DE DISTRIBUIÇÕES
FONTE: Adaptado de Gretl (2018)
2. Na tela seguinte, altere os parâmetros da média para 5 e do desvio padrão para
2 e pressione o botão ok para confirmar (Figura 4):
FIGURA 4 – DISTRIBUIÇÃO NORMAL DO PRIMEIRO PARÂMETRO
FONTE: Adaptado de Gretl (2018)
3. O passo anterior gerará um gráfico de distribuição normal, com média cinco
e variância igual a quatro. Clique com o botão direito do seu mouse sobre o
gráfico e escolha “Acrescentar outra curva...” (Figura 5):
42
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
FIGURA 5 – ACRESCENTAR OUTRA CURVA
FONTE: Adaptado de Gretl (2018)
4. Na janela que abrir, você deve alterar apenas o desvio padrão para 4 e
posteriormente para 6. O resultado será idêntico ao do Gráfico 2:
GRÁFICO 2 – EFICIÊNCIA DE UM ESTIMADOR
0,2
N(5 4)
0,15
0,1
N(5 16)
0,05
N(5 36)
0
-30
-20
-10
0
10
FONTE: Adaptado de Gretl (2018)
43
20
30
40
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Com base nos resultados apresentados no Gráfico 2 é possível perceber
que o estimador mais eficiente é o primeiro, que apresenta a menor variância,
representada pela curva N (5,4). Via de regra, sempre escolheremos o estimador
com menor variância, porque é ele que tem a maior probabilidade de estar
próximo do verdadeiro parâmetro populacional.
Para calcular a variância e o desvio padrão dos coeficientes estimados,
usamos as equações precedentes, como descrito no quadro a seguir:
QUADRO 4 – CÁLCULO DA VARIÂNCIA E DESVIO PADRÃO DOS COEFICIENTES ESTIMADOS
Parâmetro
Equação
σ̂ 2
σˆ 2 =
∑ û
n−2
σ̂
σˆ =
∑ ûi2
n−2
( )
( )
var βˆ 1 =
( )
ep βˆ 1 =
var β̂1
ep β̂1
( )
( )
27 , 2242
= 1, 8447
10 − 2
( )
∑ Xi2
σˆ
=
ep βˆ 1
2
n ∑ Xi − X
( )
ep βˆ 2 =
( )
=
σˆ
319.365
σˆ 2
=
=
3 , 4030 146 , 3702
var βˆ 1
2
10 * 742 , 5
n ∑ ( Xi − X )
( )
ep β̂ 2
27 , 2242
= 3 , 4030
10 − 2
=
σˆ 2
∑ Xi2
var βˆ 2 =
var β̂ 2
Cálculo
2
i
(
)
( )
σ̂ 2
(
∑ Xi − X
)
(
)
var
=
β̂ 2
3 , 4030
= 0 , 0046
742 , 5
( )
3 , 4030
= 0 , 0677
742 , 5
( )
2
σ̂ 2
∑ Xi − X
319.365
=
* 1, 8447 12 , 0982
10 * 742 , 5
=
ep β̂ 2
2
FONTE: O autor
Como você pôde perceber no Quadro 4, deixamos para você a tarefa de
calcular algumas das variáveis que entram nas equações. Porém, como você deve
ter percebido, ter a capacidade de fazer esses cálculos conseguindo ler as fórmulas
matemáticas é indispensável no estudo econômico. A ideia até aqui era permitir que
você tivesse acesso a uma base de dados e, ao se deparar com fórmulas matemáticas,
fosse capaz de ler e interpretar o seu significado. Entender a engenharia por trás
dos resultados é fundamental para compreender o seu significado.
Os coeficientes estimados, as variâncias dos parâmetros e seus respectivos
desvios padrão, por si só, não são suficientes para responder a todas as perguntas
relevantes que fazemos quando decidimos testar uma teoria econômica.
Lembrando que essas estimativas são pontuais, o que significa dizer que não
carregam informações suficientes para aquilo ao qual nos propomos a fazer.
44
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
Uma das alternativas possíveis para essa deficiência é estimar um intervalo
de confiança, que consiste em uma faixa de valores dentro da qual há certa
probabilidade de os verdadeiros parâmetros populacionais estarem contidos.
Sabemos através de 3.28 que os erros ui têm distribuição normal, por isso
os seus estimadores de mínimos quadrados β̂1 e β̂ 2 também têm. Representamos
essa distribuição da seguinte forma:


∑ Xi2
σˆ 2 
2
3.29

σˆ 2


∑ ( Xi − X )




3.30
βˆ 1 ~ N  , β1 ,


βˆ 2 ~ N  β 2 ,
n ∑ ( Xi − X )
2


O procedimento descrito a seguir foi obtido de Hill, Griffiths e Judge
(2010). Dadas as hipóteses do modelo de regressão linear e as equações 3.29 e
3.30, podemos escrever de modo geral que:
t=
βˆ k − β k
( )
ep βˆ k
~ t( n − 2 )
3.31
Em que n é o tamanho da amostra e k é igual a 1 e 2, sendo 1 o β̂1 e 2 para
β̂
o 2, o que significa que se tivéssemos mais parâmetros estimados teríamos um k
ainda maior. Como estamos estimando um modelo de regressão simples, com uma
variável dependente sendo explicada por uma variável explicativa, e incluímos
βˆ 1 + βˆ 2 Xi + uˆ i, perdemos dois graus de
uma constante no modelo de regressão Yi =
liberdade ao estimar a regressão (um grau para cada parâmetro beta).
O intervalo de confiança é obtido a partir de 3.31, porque não conhecemos
o verdadeiro valor de σ 2, mas conhecemos a sua estimativa σ̂ 2, e o erro padrão dos
coeficientes de mínimos quadrados é dado por 3.26 e 3.27. Essa variável t apresenta
distribuição t de Student, com n – 2 graus de liberdade pelas razões discutidas.
Segundo Hill, Griffiths e Judge (2010, p. 108), a construção do intervalo de
confiança requer a consulta a uma tabela de valores críticos da estatística t. Porém,
podemos usar o Gretl, como veremos adiante. Em ambos os casos, encontraremos
valores críticos tc, que satisfazem:
45
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
P(t > tc) = P(t < tc) = a/2
3.32
Reorganizando, temos:
P(–tc < t < tc) = 1 – a
3.33
Substituindo 3.31 em 3.33, obtemos:


βˆ k − β k

≤ tc  = 1 − α
P −tc ≤


ep βˆ k


3.34
( )
Simplificando, temos:
( )
( )
P  βˆ k − tc ep βˆ k ≤ β k ≤ βˆ k + tc ep βˆ k  =1 − α


3.35
Em que tc é o valor crítico da estatística t, e c = α/2 é obtido em tabelas
próprias disponíveis na internet ou nos apêndices de livros de estatística e
econometria, mas que não precisaremos recorrer a elas porque estamos usando o
software Gretl como apoio e ele já tem essa e outras tabelas no menu “Ferramentas”
e “Tabelas Estatísticas”. O parâmetro α é um valor de probabilidade, digamos 1%,
5% ou 10% na maioria das aplicações práticas, chamado de nível de significância.
Para entender o seu funcionamento na prática, vamos voltar aos resultados
dos parâmetros estimados e seus respectivos erros padrão. Começaremos com β̂1
e depois faremos o mesmo procedimento para o β̂ 2.
De 3.17, sabemos que βˆ 1 = −5 , 43 , e de 3.26 e do Quadro 4, sabemos que
ˆ
ep β1 = 12 , 0982. Usando 3.35 estabelecemos um nível de significância α = 5%
ou 0,05, e construímos um intervalo de confiança de 100(1 – α)%, ou 95%, para β1
com 10 – 2 = 8 graus de liberdade:
( )
( )
( )
P  βˆ 1 − t0 ,05 / 2 ep βˆ 1 ≤ β1 ≤ βˆ 1 + t0 ,05 / 2 ep βˆ 1  =1 − 0 , 05


( )
( )
P  −5 , 43 − 2 , 306 ep βˆ 1 ≤ β1 ≤ −5 , 43 + 2 , 306 ep βˆ 1  =
0 , 95


46
3.36
3.37
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
O erro padrão de β̂1 é 12,0982, com isso podemos construir um intervalo
de confiança para β1 em que:
( )
βˆ 1 ± t0 ,05 / 2 ep βˆ 1 =
−5 , 43 ± 2 , 306 ( 12 , 0982 ) =
 −33 , 3284 ; 22 , 4684 
3.38
Ou, – 33,3284 < β1 < 22,4684.
Vamos analisar melhor as equações acima para podermos dar uma
interpretação a esse resultado. Primeiramente você precisa saber de onde
surgiu esse valor de 2,306. Algumas tabelas de distribuição da estatística t são
monocaudais, enquanto outras são bicaudais.
Observe o Gráfico 3, ela apresenta o gráfico de distribuição da estatística
t, com 8 graus de liberdade. A área cinza sob a curva é o valor t α/2, obtido em uma
tabela de distribuição t:
GRÁFICO 3 – GRÁFICO DE DISTRIBUIÇÃO DE t, COM 8 GRAUS DE LIBERDADE
0,5
T(8)
0,4
0,3
0,2
0,1
1–α
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
FONTE: Adaptado de Gretl (2018)
A curva de distribuição de t é semelhante à da distribuição normal, porém
com poucos graus de liberdade, ela é mais magra do que a normal padrão. À
medida que o número de graus de liberdade aumenta, a distribuição t tende à
distribuição normal.
47
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
A Figura 6 apresenta a estatística de teste gerada pelo Gretl. Para gerar
esses valores, basta escolher o menu “Ferramentas” e em seguida “Tabelas
estatísticas”. Ao abrir a janela com as estatísticas de distribuição, você deve
escolher “t”, e em seguida informar os graus de liberdade, n – 2 → 10 – 2 = 8, ou
seja, o tamanho da amostra, 10, menos o número de parâmetros estimados, 2.
Na parte de baixo você informa a probabilidade da cauda à direita, que é α/2 →
0,05/2 = 0,025. Observação importante: use ponto para separar os decimais no
Gretl em vez de usar vírgula, ou seja, use 0.025 em vez de 0,025.
FIGURA 6 – VALORES CRÍTICOS DE t PARA 8 GRAUS DE LIBERDADE
FONTE: Adaptado de Gretl (2018)
O Quadro 5 apresenta uma parte da tabela de distribuição de t. Os números
da primeira coluna à esquerda são os graus de liberdade, enquanto as colunas à
direita são os níveis de significância α. Note que, para 8 graus de liberdade e
significância monocaudal de 0,025, o valor crítico é t0,05/2 = 2,306.
QUADRO 5 – DISTRIBUIÇÃO DA ESTATÍSTICA t
Probabilidade:
Graus de liberdade
0,005
Bicaudal α
0,10
0,05
0,010
1
6,314
12,706
63,657
2
2,920
4,303
9,925
3
2,353
3,182
5,841
4
...
2,132
2,776
4,604
1,860
2,306
3,355
...
8
...
0,025
...
0,05
...
Monocaudal α/2
FONTE: Adaptado de Gujarati (2011 p. 876)
48
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
Agora que sabemos de onde vêm as informações que usamos, podemos
interpretar o resultado obtido. A leitura é bem simples, direta e seu significado
diz respeito à obtenção de um grande número de amostras repetidas. Neste caso
específico, como estabelecemos que α = 5% ou 0,05, se fizéssemos várias amostras,
95 em cada 100 delas o valor de β1 estaria dentro do intervalo – 33,3284 < β1 <
22,4684.
Porém, aqui fica um alerta, isso não significa que a probabilidade de o
intervalo – 33,3284 < β1 < 22,4684 conter o verdadeiro β1 é de 1 – α → 1 – 5%
= 95%. Isso ocorre porque após estimar o parâmetro e especificar o intervalo,
nós o fixamos. Neste caso, a probabilidade de esse intervalo específico conter o
verdadeiro β1 é 0 ou 1. Como o valor estimado é -5,43, podemos dizer que o nosso
modelo estimou um β1 que está dentro do intervalo de confiança de 95%.
Vamos repetir o procedimento e calcular o intervalo de confiança para o β2.
( )
( )
P  βˆ 2 − t0 ,05 / 2 ep βˆ 2 ≤ β 2 ≤ βˆ 2 + t0 ,05 / 2 ep βˆ 2  =1 − 0 , 05


( )
( )
P 1, 0343 − 2 , 306 ep βˆ 2 ≤ β 2 ≤ 1, 0343 + 2 , 306 ep βˆ 2  =
0 , 95


( )
3.39
3.40
0 , 8782 ; 1,1904 
βˆ 2 ± t0 ,05 / 2 ep βˆ 2 =
1, 0343 ± 2 , 306 ( 0 , 0677 ) =
3.41
0 , 8782 ≤ β 2 ≤ 1,1904
3.42
Como no caso do β̂1, o coeficiente β̂ 2 também está dentro do intervalo
especificado. Se fizéssemos várias amostras repetidas e estimássemos dezenas ou
centenas de vezes o coeficiente β̂ 2, 95 de cada 100 intervalos como 0,8782 < β2 < 1,1904
conteriam o verdadeiro β2, com 95% de confiança.
Podemos aproveitar esses intervalos calculados para fazer testes de
hipótese sobre os coeficientes estimados. A hipótese que será testada é chamada
de hipótese nula e é representada por H0, enquanto a alternativa geralmente é
representada por H1.
Vamos analisar o parâmetro β̂ 2 e imaginar que existem razões teóricas
muito fortes para crermos que o seu verdadeiro valor é 0,516, ou seja, β2 = 0,516.
Montamos o nosso conjunto de hipóteses como:
49
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
H 0 : β 2 = 0 , 516
H1 : β 2 ≠ 0 , 516
Além das hipóteses estabelecidas acima, precisamos de um intervalo de
confiança de 95%, e assim, podemos usar 3.42. Caso o valor de β2 sob a hipótese
nula esteja dentro desse intervalo, não poderemos rejeitar a hipótese nula. Caso
o valor de β2 sob a hipótese nula esteja fora desse intervalo, nós a rejeitamos em
favor da hipótese alternativa, ou seja, o verdadeiro valor de β2 é um número
diferente de 0,516, com 95% de confiança. A Figura 7 ilustra a regra de decisão:
FIGURA 7 – REGRA DE DECISÃO PARA OS TESTES DE HIPÓTESE
Caso o valor de β2 sob H0 cair dentro desse
intervalo, não rejeitamos a hipótese nula.
β� k − tc ep( β� k )
β� k + tc ep( β� k )
FONTE: Adaptado de Gujarati e Porter (2011, p. 134)
Se rejeitarmos a hipótese nula, automaticamente estamos aceitando
a hipótese alternativa. Neste caso, como a hipótese nula diz que β2 = 0,516 e a
alternativa diz que o verdadeiro valor é diferente disso, mas não diz se é maior
ou menor, rejeitar a hipótese nula implica aceitar que o verdadeiro β2 pode ser
qualquer valor maior ou menor do que aquele estabelecido na hipótese nula.
A Figura 8 (com base no intervalo de confiança obtido em 3.42) mostra o
resultado do nosso teste de hipótese. Perceba que, com 95% de confiança, o β2 de
H0 caiu fora da região de aceitação da hipótese nula. Com isso, a rejeitamos em
favor da hipótese alternativa, H1, de que o verdadeiro β2 não é 0,516, mas sim um
número diferente, seja ele qual for.
FIGURA 8 – TESTE DE HIPÓTESE PARA β2
Região de rejeição da
H0 e a aceitação da H1.
0,516
Região de aceitação da H0.
0,8782
Região de rejeição da
H0 e aceitação da H1.
1,1904
FONTE: O autor
Caso aceitássemos a hipótese nula, diríamos que os resultados obtidos
com a amostra são compatíveis com a hipótese de que o β2 = 0,516.
50
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
Além do teste intervalar, podemos implementar o teste t para verificar a
significância estatística dos nossos coeficientes estimados. Na prática, esse tipo de
teste é mais empregado do que o de intervalo de confiança, por ser intuitivamente
mais claro de se entender do que o anterior.
Os passos para implementar o teste de hipóteses estão no quadro a seguir:
QUADRO 6 – FORMATO DO TESTE DE HIPÓTESES
Passo
Especificação
1
Determine as hipóteses nula, H0, e alternativa, H1.
2
Especifique a estatística de teste e sua distribuição se a hipótese nula é verdadeira.
3
Escolha α e determine a região de rejeição.
4
Calcule o valor amostral da estatística de teste.
5
Formule sua conclusão.
FONTE: Adaptado de Hill, Judge e Griffiths (2010, p. 117)
Vamos verificar a implementação desses procedimentos com o nosso
exemplo prático. Começamos recordando que o resultado estimado pelo nosso
modelo econométrico, dado por 3.17, é:
Ŷi =
−5 , 43 + 1, 0343Xi
3.17
Agora devemos determinar as hipóteses nula e alternativa. A hipótese
nula é aquela que expressa uma crença que temos em relação àquele parâmetro
estimado pelo modelo. Ela pode emergir da própria teoria econômica, ou pode
ser formulada para testar algo que acreditamos, quer seja por questões técnicas,
quer seja por nossa suposição.
Normalmente testamos a hipótese de que os coeficientes estimados são
iguais a zero. Isso faz sentido em relação a β̂1, porque, como estamos diante de
uma equação linear, esse coeficiente parte de algum ponto situado sobre o eixo
vertical do nosso gráfico cartesiano. Se ele for igual a zero, isso significa que
podemos eliminá-lo do nosso resultado e a reta de regressão partirá do ponto
(0,0), ou seja, da origem.
O outro coeficiente, β̂ 2, se for igual a zero significa que Xi não é capaz
de explicar as variações em Yi, ou seja, quer dizer que a inclinação da reta de
regressão é nula e, portanto, a reta é horizontal em relação a Xi, indicando que
mudanças em sua trajetória não influenciam a trajetória de Yi.
Vamos construir as nossas hipóteses da seguinte forma:
51
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
H 0 : β1 = 0
H1 : β1 ≠ 0
O segundo passo diz que devemos especificar a estatística de teste e sua
distribuição de probabilidade. Por definição, vimos em 3.31 que:
t=
βˆ k − β k
( )
ep βˆ k
~ t( n − 2 )
3.31
Isso significa que aceitar H0 é aceitar a distribuição de 3.31, enquanto
rejeitar H0 em favor de H1 quer dizer que 3.31 não tem distribuição tn – 2.
Antes de explicar o que significa a escolha de α, precisamos entender o
que acontece quando rejeitamos uma hipótese nula e ela é verdadeira, ou quando
aceitamos uma hipótese nula e ela é falsa. Em estatística podemos cometer dois
tipos de erro: o erro tipo I e o erro tipo II.
Um erro do tipo I ocorre quando rejeitamos a hipótese nula e ela é verdadeira.
Assim, se rejeitarmos a H0:β1 = 0, aceitando que ele tem qualquer valor diferente de
zero, mas na verdade ele é zero, estaremos cometendo um erro do tipo I.
Por outro lado, o erro do tipo II ocorre quando aceitamos H0, mas na
realidade ela é falsa, ou seja, aceitamos que H0:β1 = 0, fazemos nossa análise com
uma linha de regressão que passa pela origem, quando na verdade β1 não é zero,
é um número qualquer diferente de zero.
Assim, aceitar ou rejeitar uma hipótese consiste em um jogo em que estamos
sujeitos a cometer um determinado erro, porém há uma certa probabilidade
envolvida nessa escolha. O que nos leva a tomar a decisão é a minimização da
probabilidade de se cometer um erro do tipo I. E é exatamente aqui que entra a
escolha do nível de significância α.
Escolher α significa responder à questão: Quão rigoroso eu sou ou
pretendo ser em relação ao meu resultado? Ou ainda: Qual a probabilidade de se
cometer o erro do tipo I que eu estou disposto a aceitar? Se escolhermos um α =
0,10, quer dizer que estou disposto a rejeitar a hipótese nula em favor da hipótese
alternativa, com 10% de probabilidade de se cometer o erro do tipo I.
Como padrão, os pesquisadores costumam aceitar 5% de probabilidade de
se cometer um erro do tipo I, ou seja, escolhem um α = 0,05. Outros, que buscam
resultados mais precisos, estabelecem α = 0,01, ou 1% de probabilidade de se rejeitar
a hipótese nula quando ela é verdadeira.
52
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
Em relação ao erro do tipo II, podemos dizer que sua probabilidade é
dada por θ (teta). Assim, podemos definir o poder do teste como 1 – θ, que é a
probabilidade de se rejeitar H0 quando ela realmente é falsa. Com isso, dizemos
que se a probabilidade de se cometer o erro do tipo II é de 10%, o poder do teste
é de 90%, ou seja, θ = 0,10 → 1 – θ = 0,90.
Para o nosso exemplo, vamos escolher o α = 0,05, e aceitar a probabilidade
de se rejeitar a H0:β1 = 0 quando ele é diferente de zero em 5%. Com isso podemos
partir para o próximo passo que consiste em calcular a estatística de teste, dada
por 3.31 cujo resultado está em 3.43:
t=
β̂1 − β1
( )
ep βˆ 1
=
−5 , 43 − 0
= −0 , 4488
12 , 0982
3.43
O resultado em 3.43 deve ser comparado à tabela de distribuição de t, com
n – 2 graus de liberdade, em que n é o tamanho da amostra. No nosso caso, n – 2 →
10 – 2 = 8 graus de liberdade.
Já sabemos como obter o valor crítico da distribuição t8gl a partir de uma
tabela estatística e a partir do Gretl. Vamos usar a segunda opção por ser mais
prática. Só precisamos lembrar de que essa informação está em “Ferramentas” e
“Tabelas estatísticas”, e depois selecionamos a aba que contém a distribuição de
t. No campo gl informamos 8 e no campo probabilidade da cauda direita, temos
que informar 0.025 (ponto ao invés de vírgula). Por que informamos 0.025 ao
invés de 0.05, se escolhemos o α = 0,05? Porque no Gretl ele pede a probabilidade
da cauda direita e, como vimos, a distribuição t é simétrica, semelhante à
distribuição normal. Por isso, basta indicar a probabilidade de uma das caudas
que o programa calcula a da outra.
O resultado obtido é t8gl = 2,306, o qual é maior do que o valor obtido no
cálculo da estatística de teste, ou seja, t = – 0,4488. Aqui devemos estabelecer a
seguinte regra: se o valor de tcalculado > ttabela, rejeitamos a hipótese nula no nível de
significância estabelecido. No caso do nosso exemplo, como – 0,4488 < 2,306, ou
seja, o t calculado é bem menor do que o t da tabela, com nível de significância de
5% (0,05) e 8 graus de liberdade. Nesse caso não podemos rejeitar a hipótese nula
de que o β1 = 0 e, portanto, a linha de regressão, para este exemplo, deve passar
pela origem.
53
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
GRÁFICO 4 – TESTE DE HIPÓTESE PARA O β1
0,5
T(8)
0,4
0,3
0,2
Região de
rejeição da H0.
Região de
rejeição da H0.
Região de
aceitação da H0.
0,1
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
FONTE: Adaptado de Gretl (2018)
Em termos gráficos, o Gráfico 4 apresenta uma análise intuitiva dos
resultados obtidos. A região de aceitação da hipótese nula está demarcada no
gráfico de distribuição de t8gl. A área cinza em ambos os lados indica a região de
rejeição da hipótese nula. O demarcador de cada região é o valor de tc, ou seja, do
valor da estatística de t encontrado na tabela de distribuição de probabilidade.
Como o valor calculado de t, dado por 3.43 está dentro da região de
aceitação da hipótese nula, essa hipótese não pode ser descartada. Com isso, a
indicação é que a regressão não deveria ter intercepto e seu gráfico ficaria como
o do Gráfico 5.
A pergunta que fica é: Nós podemos realmente fazer isso? Na prática, uma
regressão que passa pela origem é válida? Por ora basta sabermos que, apesar
de o nosso teste de significância nos dizer que o β1 é estatisticamente igual a
zero, somente iremos retirá-lo da nossa regressão se houver argumentos teóricos
e técnicos muito convincentes. Alguns modelos de regressão realmente não
dispõem de constante β1, por exemplo, o modelo CAPM (de formação de preços
de ativos financeiros). Porém, via de regra, não devemos omitir o intercepto do
nosso modelo de regressão.
54
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
GRÁFICO 5 – REGRESSÃO QUE PASSA PELA ORIGEM
Y
�i =
FRA → Y
β� 2 Xi
X
0
FONTE: O autor
Mais adiante voltaremos ao β1 não significativo em termos estatísticos,
quando interpretarmos o resultado da regressão como um todo. Agora vamos
fazer um novo teste de hipótese, só que para o β2, e por coerência, manteremos
os mesmos critérios, ou seja, nível de significância estatística de 5% ou α = 0,05.
H0 : β 2 = 0
H1 : β 2 ≠ 0
A estatística de teste calculada é:
t
=
βˆ2 − β 2
=
ep βˆ2
( )
1,0343 − 0
= 15,2777
0,0677
3.44
Sabemos que o valor da tabela é de tc = 2,306, que é menor que 15,2777.
Dessa forma, como o valor calculado da estatística de t é maior do que o valor
da tabela, rejeitamos a hipótese nula em favor da hipótese alternativa que diz
que o β2 é estatisticamente diferente de zero. Esse resultado nos dá um alento,
afinal, o intercepto foi considerado não significante do ponto de vista estatístico.
Caso o coeficiente angular β2 também fosse estatisticamente igual a zero, teríamos
um sério problema. Isso significaria que nosso modelo não é válido, como já
discutimos.
55
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Vamos recapitular o que vimos até agora. Após estimarmos o nosso modelo
econométrico, obtivemos estimativas pontuais para os β1 e β2, calculamos a variância do
termo de erro e os desvios padrão dos coeficientes estimados de mínimos quadrados.
Estimamos um intervalo com 1 – α de confiança, com α = 0,05 ou 95%, e percebemos que
as nossas estimativas estão dentro desses intervalos especificados. Porém, o intercepto
não é estatisticamente significativo em nível de 5% de significância estatística.
Vamos deixar para você testar novamente o intercepto, considerando
um nível de significância de 10%. Será que se formos menos rigorosos o nosso
intercepto será estatisticamente significativo? Você deverá repetir o teste para o
β2, só que com um nível de significância menor, de 1%. Neste caso, sendo ainda
mais rigoroso, continuamos rejeitando a hipótese nula para o β2?
Falta ainda um passo para terminarmos nossa análise estatística, antes
de fazermos a interpretação dos resultados. O que queremos saber agora é se
o modelo se ajusta bem aos dados, e para isso calcularemos o coeficiente de
determinação r2, que nos dará uma medida da qualidade do ajustamento do
nosso modelo aos dados. Dito de outra forma, saberemos quantos por cento das
−5,43 + 1,0343Xi .
variações de Y são explicadas por Yˆi =
A estimação dos parâmetros da regressão se dá através da minimização
da soma dos quadrados dos desvios, por isso se chama de método dos mínimos
quadrados ordinários. Ocorre que essa soma dos quadrados dos desvios, ou soma
total dos quadrados (SQT), pode ser dividida em dois componentes. Um deles
é a soma dos quadrados dos resíduos (SQR) e o outro a soma dos quadrados
explicados pela regressão (SQE).
Para facilitar a compreensão, vamos dar uma olhada na Figura 9. Ela
apresenta a decomposição da variação dos erros. Dito de outra forma, nela
encontramos o valor médio de Y, representado por Y , traçamos uma linha da
função de regressão amostral e indicamos onde estão localizados, no gráfico, o
verdadeiro valor de Y e o seu valor estimado pela regressão Ŷ .
Assim fica claro entender que, quando falamos na soma total dos
quadrados, estamos nos referindo à soma das variações de Y em torno do seu
valor médio amostral, que é dado por:
SQT
=
∑ (Y − Y )
i
2
3.45
Por sua vez, a soma dos quadrados da variação residual de Y, SQR, é
obtido por:
=
SQE
∑ (Y − Y� )
i
i
3.46
2
56
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
Finalmente, a soma dos quadrados da variação explicada de Y, SQE, é:
(
SQR =
∑ Yˆi − Y
)
2
3.47
Da relação entre as equações anteriores, podemos escrever:
SQT = SQR + SQE
3.48
Dividindo ambos os lados de 3.48 por SQT, teremos:
=
1
SQR SQE
+
SQT SQT
3.49
Que equivale a:
1
=
como:
(
∑ Yi − Yˆi
)
∑ ( Yi − Y )
2
2
+
(
)
2
∑ ( Yi − Y )
2
∑ Yˆi − Y
3.50
(
)
2
2
∑ Yi − Yˆi , então, podemos reescrever 3.50
De 3.8, sabemos que ∑ uˆ i =
1
=
∑ uˆ i2
∑ ( Yi − Y )
+
2
(
)
2
∑ ( Yi − Y )
2
∑ Yˆi − Y
3.51
Agora, podemos definir o coeficiente de determinação r2, que mede
quanto da variação de Y é explicada pelo modelo de regressão. Algebricamente
escrevemos:
r2
=
(
∑ Yˆi − Y
)
2
SQE
=
SQT ∑ ( Y − Y )2
i
3.52
∑ uˆ 2
i
1−
Ou, alternativamente, r 2 =
∑ ( Yi − Y )
57
2
SQR
1−
=
.
SQT
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
FIGURA 9 – DECOMPOSIÇÃO DA VARIAÇÃO DOS ERROS
Y
� =β
� +β
� X
FRA → Y
1
2 i
i
�
Total
= (Yi − Y i )
Devido aos resíduos = u i
� ) �
Total
=Total
(=
Yi − (Y
Yii − Y i )
� − Y)
Devido à regressão = (Yi
Y
X
Xi
FONTE: Adaptado de Gujarati e Porter (2011, p. 96)
Vamos pôr em prática o que vimos calculando o coeficiente de
determinação para o modelo econométrico que está servindo de exemplo para os
nossos estudos:
QUADRO 7 – ALTURA DOS PAIS E FILHOS EM CM, COM VALORES ESTIMADOS E RESÍDUOS
(Y − Y )
2
uˆ=
Yi − Yˆi
i
uˆ i2
165,2364
0,7636
0,5831
168,3394
-0,3394
0,1152
104,04
171,4424
-2,4424
5,9654
-3,2
10,24
174,5455
1,4545
2,1157
177
0,8
0,64
177,6485
2,3515
5,5296
180
-0,2
0,04
180,7515
-1,7515
3,0678
185
183
5,8
33,64
183,8545
1,1455
1,3121
8
186
186
6,8
46,24
186,9576
-0,9576
0,9170
9
188
189
8,8
77,44
190,0606
-2,0606
4,2461
Obs.
Y
X
y=
Yi − Y
i
1
166
165
-13,2
174,24
2
168
168
-11,2
125,44
3
169
171
-10,2
4
176
174
5
180
6
179
7
2
y=
i
i
Yi = β1 + β2Xi
10
195
192
15,8
249,64
193,1636
1,8364
3,3722
Soma
1792
1785
0
821,6
1.792
0,0000
27,2242
Média
179,2
178,5
0
82,16
0,00
0,0000
2,7224
FONTE: O autor
58
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
O Quadro 7, que é uma síntese dos quadros 2 e 3, apresenta as informações
que precisamos. Vamos usar a seguinte equação:
r2= 1 −
∑ uˆ i2
∑ ( Yi − Y )
3.53
2
27,2242
1−
0,9669
r2 =
=
821,6
3.54
Isso significa que 96,69% das variações em Y são explicadas pelo nosso
modelo de regressão. Podemos dizer que é um ótimo resultado!
O coeficiente de determinação é uma estatística cujo resultado deve ficar
entre 0 < r2 < 1. Se for igual a zero, dizemos que nosso modelo de regressão não
é capaz de explicar as variações de Y. O outro extremo, isso é, r2 = 1,00, significa
que 100% das variações em Y são explicadas pelo nosso modelo. O caso extremo
é raro de acontecer, normalmente teremos valores intermediários.
6 O USO DO GRETL PARA ESTIMAÇÃO E ANÁLISE
ECONOMÉTRICA: A ANÁLISE DOS RESULTADOS E SUA
INTERPRETAÇÃO
Depois de todo esse esforço braçal que fizemos para estimar o modelo
de regressão, calcular os intervalos de confiança, testar as hipóteses e verificar a
qualidade do ajustamento do nosso modelo, é hora de darmos passos mais largos
e avançarmos de forma mais rápida e sermos mais eficientes no nosso trabalho.
A tecnologia é grande aliada dos economistas e, especialmente, dos
econometristas. Fazer todos esses cálculos que fizemos até agora na mão é muito
importante para você entender de onde vêm as coisas e valorizar os resultados
obtidos, mas, do ponto de vista prático, é um tempo precioso que gastamos e
que poderia ser investido em outras coisas, por exemplo, analisar e interpretar os
resultados ou trabalhar melhor o nosso banco de dados.
A ideia de agora em diante é gastar o menor tempo possível fazendo cálculos
manuais e aproveitar o máximo possível o tempo analisando e interpretando os
resultados. Para isso, vamos propor o mesmo experimento feito anteriormente.
Vamos investigar se a altura dos pais é passada para os filhos, ou seja, vamos
testar o grau de hereditariedade na altura. O Quadro 8 traz dados simulados da
altura dos filhos e dos pais, em cm:
59
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
QUADRO 8 – ALTURA DOS FILHOS E DOS PAIS EM CM
Obs.
Y
X
1
166
165
2
168
168
3
169
171
4
176
174
5
180
177
6
179
180
7
185
183
8
186
186
9
188
189
10
195
192
Soma
1792
1785
Média
179,2
178,5
FONTE: O autor
Os quadros 2 e 8 são os mesmos, só que agora sem os cálculos que
apresentamos naquela oportunidade. A primeira coisa que precisamos fazer é
abrir o nosso software econométrico, o Gretl, e colocar essa tabela dentro dele.
Para isso, na tela inicial escolha “Arquivo” e “Novo conjunto de dados”. Na
janela seguinte ele pede o número de observações, escolha 10, porque é essa a
quantidade de dados presentes no Quadro 8.
Ao pedir qual é a estrutura de dados, ele apresenta três opções: são dados
de corte (aqueles que são dispostos por indivíduo e não variam no tempo), série
temporal (dados de um indivíduo que variam no tempo) e painel (que junta dados
de corte e série temporal). Neste caso você escolherá dados de corte e clicará
em “Avançar”, e depois, quando ele pedir para confirmar a estrutura de dados,
escolha “Aplicar”.
O Gretl criará uma variável índice que contém uma sequência de números
que vão de 1 a 10. Essa variável não tem nenhuma aplicação prática para nós
nesse momento. Para acrescentar os dados do Quadro 8, você deve selecionar o
menu “Acrescentar” e depois “Definir nova variável”. Quando abrir a janela, você
informará a fórmula da nova variável ou o seu nome. Informe Y e clique em “ok”.
Automaticamente o Gretl abrirá uma tabela para você entrar com as
informações de Y. Basta digitá-las, linha por linha, e no final você deve clicar no
botão de
que aparece na parte superior direita da tabela, como mostra a Figura
10. Ao repousar o mouse sobre o botão, ele apresentará a legenda “acrescentar”,
como pode ser visto na figura. Abrirá um menu de opções e você selecionará
“Acrescentar variável” e posteriormente informará o nome da próxima variável
que é X.
60
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
FIGURA 10 – ENTRANDO COM OS DADOS NO GRETL MANUALMENTE
FONTE: Adaptado de Gretl (2018)
A partir daí é só entrar com as informações da variável X e clicar no botão
aplicar
para concluir a importação dos dados. Ao retornar à tela inicial do
Gretl, você visualizará uma constante com indicador 0 , a variável índice com
indicador 1, a variável Y com indicador 2 e a variável X com indicador 3.
Há outra opção que consiste em importar os dados diretamente de
uma planilha do Excel. O processo de importação de dados é bastante simples,
bastando selecionar a opção Arquivo → Abrir dados → Arquivo do usuário, e
em seguida escolher a pasta onde está o arquivo e o formato desejado, como na
Figura 11.
Na tela seguinte você deve informar em qual planilha, coluna e linha estão
os dados, sendo a “Coluna 1” do Gretl o equivalente à coluna “A” do Excel, e a
“Linha 1” do Gretl é onde tem o rótulo dos dados no Excel (ver Figura 12).
61
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
FIGURA 11 – IMPORTANDO OS DADOS PARA O GRETL A PARTIR DO EXCEL
FONTE: Adaptado de Gretl (2018)
O Gretl apresenta uma mensagem, informando que foram encontradas
“x” planilhas, “y” variáveis e “z” observações. Como a única opção apresentada
é “Fechar”, basta escolhê-la para que seja apresentada a segunda mensagem, que
diz respeito ao tipo de dados que se está trabalhando. No caso de dados de corte,
nosso caso, basta dar um “Não”.
FIGURA 12 – IMPORTAÇÃO DOS DADOS PASSO A PASSO
62
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
FONTE: Adaptado de Gretl (2018)
Você poderá clicar com o botão direito do mouse sobre cada uma das
variáveis e escolher “Editar as características” para acrescentar informações que
julgue relevantes, tais como descrição, por exemplo. Essa atividade de personalizar
a apresentação da sua estrutura de dados ficará como desafio. Assim, você poderá
explorar as funcionalidades do software e aprender coisas novas. Lembre-se, é
sujando as mãos que se aprende econometria!
É costume entre os econometristas rodar um gráfico de dispersão antes
de estabelecer qual modelo econométrico será estimado. Com isso espera-se
obter alguma informação sobre a equação matemática que servirá de base para
o modelo de regressão. Para fazer isso, na borda inferior do Gretl, selecione o
botão que tem uma figura de gráfico
. Na janela que abrir, você deve indicar
a variável X para o eixo X, e obviamente a variável Y para o eixo Y. O Gráfico 6
apresenta o gráfico de dispersão que geramos a partir do Gretl:
63
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
GRÁFICO 6 – GRÁFICO DE DISPERSÃO DA ALTURA DOS FILHOS EM RELAÇÃO À ALTURA DOS
PAIS COM LINHA DE REGRESSÃO
Y versus X (com ajustamento por mínimos quadrados)
195
Y=
−5,43 + 1,03X
190
+
+
185
Y
+
180
170
160
+
+
175
165
+
+
+
+
165
170
175
180
185
190
X
FONTE: Adaptado de Gretl (2018)
Um fato importante em relação ao gráfico de dispersão apresentado é que
o Gretl já mostra a linha de regressão, mesmo sem termos solicitado. Para removêla, basta você clicar sobre o gráfico com o botão direito e escolher “Editar”. Na aba
principal da janela que se abrirá, você escolhe “Linha de ajustamento” e seleciona
“Nenhum”, clicando em “ok” na sequência. O Gráfico 7 mostra o gráfico sem a
linha de regressão:
64
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
GRÁFICO 7 – GRÁFICO DE DISPERSÃO DA ALTURA DOS FILHOS EM RELAÇÃO À ALTURA DOS
PAIS SEM LINHA DE REGRESSÃO
195
190
+
+
180
170
160
+
+
175
165
+
+
185
+
+
+
165
170
175
180
185
190
FONTE: Adaptado de Gretl (2018)
O procedimento anterior também é útil para testar outras formas funcionais,
bastando selecionar qualquer uma das opções, quadrática, cúbica, inversa, entre
outras, como mostra a figura:
FIGURA 13 – SELEÇÃO DE LINHAS DE AJUSTAMENTO
FONTE: Adaptado de Gretl (2018)
65
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Voltando ao Gráfico 7 é possível perceber que há uma correlação
positiva entre as variáveis. Isso fica evidente na medida em que os pontos estão
dispersos da esquerda para a direita de forma ascendente. Com isso, e dado que a
distribuição parece seguir uma linha mais ou menos reta, podemos escolher uma
equação linear e esperar que o coeficiente angular seja positivo, afinal de contas,
a correlação aparentemente é positiva.
Estabelecemos o seguinte modelo de regressão a ser estimado:
Yi = β1 + β2Xi + ui
3.55
O procedimento de estimação no Gretl é bem intuitivo. No menu principal
do Gretl você deve selecionar “Modelo”, e em seguida “Mínimos Quadrados
Ordinários”. Na variável dependente você informa Y, clicando sobre a variável e
na seta correspondente, e para o campo “regressor”, já temos a constante como
padrão, bastando selecionar X. Depois é só clicar em “ok” para visualizar os
resultados, que são apresentados no Quadro 9.
Perceba a quantidade enorme de informações apresentada pelo Gretl.
Vamos ler a maior parte delas agora e individualmente para entender o que
temos em mãos. Na equação 3.17 vimos o resultado da estimação manual dos
coeficientes de mínimos quadrados. Agora podemos compará-los à saída do
Gretl e ver se o nosso cálculo estava correto.
Os parâmetros calculados manualmente e os calculados pelo Gretl são
exatamente os mesmos, diferindo ligeiramente por questão do arredondamento
usado nos cálculos manuais. Este é mais um motivo pelo qual não devemos fazer
esses cálculos à mão. A precisão do programa de computador é muito maior do
que a nossa capacidade de calcular e arredondar os resultados.
QUADRO 9 – SAÍDA DO GRETL PARA A ESTIMAÇÃO DO MODELO DE REGRESSÃO 3.55
Modelo 1: MQO, usando as observações 1-10
Variável dependente: Y
coeficiente
erro padrão
razão-t
p-valor
--------------------------------------------------------const
−5,43030
12,0984
−0,4488
0,6655
X
1,03434
0,0676994
15,28
3,34e-07 ***
Média var. dependente
179,2000
Soma resíd. quadrados
27,22424
R-quadrado
0,966864
F(1, 8)
233,4319
Log da verossimilhança −19,19700
Critério de Schwarz
42,99917
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
FONTE: Adaptado de Gretl (2018)
66
9,554522
1,844730
0,962722
3,34e-07
42,39400
41,73013
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
O Quadro 9 apresenta também, nas linhas iniciais, ao lado dos coeficientes
estimados, o erro padrão e a razão t. Comparem esses resultados com os que
obtivemos no Quadro 4 e nas equações 3.43 e 3.44. Novamente a diferença está no
arredondamento.
Por padrão, a razão t apresentada pelo Gretl trabalha com a H0 de que o
coeficiente estimado é estatisticamente igual a zero. Neste caso, sabemos por 3.31
que basta dividir o coeficiente pelo desvio padrão e assim obter o valor de t.
Ao lado da estatística t está o p-valor, que mede o nível exato da
probabilidade de se cometer o erro do tipo I, ou seja, o menor nível de significância
ao qual rejeitamos a hipótese nula (GUJARATI; PORTER, 2011, p. 142). Para o β̂1
, que é representado no Quadro 9 como constante, a probabilidade de se cometer
o erro do tipo I é de 66,55%, caso decidirmos rejeitar a hipótese nula de que o β1 é
zero, quando ela é verdadeira. Por isso não podemos rejeitar a H0.
Por outro lado, vemos que o p-valor do β̂ 2 é muito baixo, 3,34e-07. Esse
número científico pode ser traduzido para 0,000000334. Ou seja, “e-07” quer dizer
que há 6 zeros após a vírgula e a partir da sétima casa decimal aparecem os números
334. Podemos concluir que a probabilidade de se cometer um erro do tipo I ao se
rejeitar H0 : β2 = 0 é muito pequena. Por isso podemos rejeitá-la sem medo.
Podemos adotar como regra geral para a rejeição da hipótese nula: quando
o p-valor do teste de hipótese é menor do que o valor escolhido de α, rejeitamos a
hipótese nula. Assim, se α = 0,05 e o p-valor é 0,0000, podemos rejeitar a hipótese
nula de que o coeficiente estimado é estatisticamente igual a zero, com 0,00% de
probabilidade de se cometer um erro do tipo 𝐼.
Outro detalhe são os três asteriscos que aparecem ao lado do p-valor. O
Gretl está nos informando que esse parâmetro é estatisticamente significativo ao
nível de 1%. Ele usa como padrão três asteriscos para 1%, dois asteriscos para
5% e um asterisco para 10% de significância estatística. Quando não aparecem os
asteriscos quer dizer que o coeficiente estimado não é estatisticamente significativo
ou estatisticamente diferente de zero.
Em 3.54 calculamos o grau de ajustamento do modelo, representado pelo
r2. Naquela ocasião chegamos ao valor de r2 = 0,9669. Compare esse resultado
com o Quadro 9 e perceba novamente que a diferença entre os resultados está no
arredondamento. Para padronizar a sua apresentação e os seus cálculos, procure
usar sempre quatro casas após a vírgula.
Como o resultado dos programas econométricos apresentam um excesso
de informação, no momento de apresentar o seu resultado em um artigo científico
ou em um trabalho acadêmico, você deve selecionar apenas algumas dessas
informações. Não existe uma apresentação padrão, por isso sugerimos o seguinte:
67
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Yˆ i
r
2
=
−5 , 4303 + 1, 0343Xi
(12 , 0984 )
( 0 , 0677 ) * * *
=
3.56
0 , 9669
Em 3.56 apresentamos entre parênteses os erros padrão. Assim, quem ler o
seu resultado poderá fazer um teste de hipóteses rapidamente, calculando a razão
t e verificando se os coeficientes estimados são estatisticamente significativos.
Outra forma de apresentar é substituir os valores dos desvios padrão
pelas razões t. Você pode ainda optar por colocar asteriscos ao lado da estatística
para que o leitor saiba se as estimativas são significativas ou não e em qual nível:
Yˆ i
=
−5 , 4303 + 1, 0343Xi
(12 , 0984 )
( 0 , 0677 ) * * *
r2
=
3.57
0 , 9669
Para interpretar o resultado da regressão precisamos recorrer ao nosso
conhecimento prévio, à teoria econômica por trás do modelo, ao problema proposto
e às hipóteses levantadas. Com isso em mente, verificamos se os resultados
alcançados fazem sentido. Também buscamos em estudos semelhantes ao nosso
por resultados que estão em linha ou que discordam daquele que alcançamos.
Como o estudo proposto dizia respeito à hereditariedade, ou seja, à
capacidade dos pais transferirem aos filhos a sua estatura, o nosso modelo
estimado está bem coerente com o que se esperava. Em primeiro lugar porque o
sinal do coeficiente estimado β̂ 2 é positivo, indicando que em média a altura dos
pais influencia a estatura dos filhos de forma positiva, ou seja, quanto maiores os
pais, maiores também serão os filhos.
Além disso, o coeficiente estimado β̂ 2 é estatisticamente significativo,
mesmo considerando um nível de significância estatística de 1% (α = 0,01). Por
outro lado, o intercepto β̂1 não é estatisticamente significativo. Em geral, esse
coeficiente não tem muito sentido econômico e, como vimos, a menos que se tenha
uma razão teórica muito forte, o fato de o intercepto não ser significativo não quer
dizer que deva ser eliminado da nossa regressão. Faz mais sentido mantê-lo, até
mesmo para se evitar um erro de especificação, como será visto ao longo desse
curso.
O coeficiente de determinação r2 é de 0,9669, o que significa que 96,69%
das variações na altura dos filhos nessa amostra é explicado pelo nosso modelo
68
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
econométrico. Isso é muito bom porque significa que o nosso modelo se ajusta
muito bem aos dados. Porém, aqui vai um alerta importante. Todos esses
resultados foram obtidos com uma amostra contendo apenas 10 observações.
Acontece que esse tamanho é muito pequeno e pode causar alguns problemas
estatísticos, como a micronumerosidade. Além disso, praticamente todos os testes
estatísticos são testes assintóticos, ou seja, construídos para que funcionem bem
em amostras grandes.
Sempre que trabalharmos com a estimação de regressões por mínimos
quadrados, precisamos de amostras que contenham no mínimo 20 graus de
liberdade, independentemente de quantos estimadores ou variáveis explicativas
tenham o nosso modelo. Os graus de liberdade são estabelecidos a partir do
tamanho da amostra, no nosso exemplo são 10, menos os parâmetros estimados,
ou seja, a constante β̂1 e o coeficiente β̂ 2. Assim, perdemos 2 graus de liberdade
e, com isso, em vez de dez, temos apenas oito graus de liberdade, o que é
consideravelmente pouco para um experimento confiável.
Essa regra sobre graus de liberdade pode ser somada à regra que diz que,
sob a hipótese nula de que o parâmetro estimado é estatisticamente igual a zero,
se tivermos pelo menos 20 graus de liberdade, e com um nível de significância de
5%, o valor da estatística t deve ser maior do que 2 em módulo, ou seja, |t| > 2.
Se você procurar em uma tabela estatística os valores críticos de t, com 20 graus
de liberdade, e α = 0,05, encontrará um valor próximo de 2, ou, para sermos mais
precisos, de 2,08596. Com isso, e sabendo que se o valor de tcalculado > ttabela, a um
nível de 5% de significância estatística, podemos rejeitar a hipótese nula a favor
da hipótese alternativa de que o coeficiente é estatisticamente diferente de zero.
Devemos nos lembrar de que estamos supondo que os termos de erro
têm distribuição normal, sem a qual as estatísticas não têm o menor valor. O teste
de normalidade de Jarque-Bera (JB) pode ser facilmente implementado com o
auxílio do Gretl. Basicamente ele consiste na estimação da equação 3.58, e tem
como H 0 : uˆ i ~ Normal, e usa uma tabela qui-quadrado com dois graus de liberdade:
 S2 ( K − 3 )2 

=
JB n  +
6
24 


3.58
Em que n é o tamanho da amostra, S é o coeficiente de assimetria, que deve
ser igual a zero, e K é o coeficiente de curtose, que deve ser igual a 3. Graficamente
falando, a curva será uniformemente distribuída em ambos os lados da média.
O teste é implementado a partir do modelo de regressão estimado pelo
Gretl, na janela da estimativa, no menu “Testes” e “Normalidade dos resíduos”.
Os resultados são apresentados no Gráfico 8, e os resultados do teste, também
apresentados pelo Gretl, estão no Quadro 10.
69
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Grifamos o resultado do teste para você compreender melhor o seu
significado. Perceba que o Gretl apresenta a hipótese nula de que os resíduos
têm distribuição normal. Apresenta o valor do qui-quadrado com dois graus de
liberdade e o p-valor, de 0,36133. Sabemos que o p-valor é a probabilidade exata
de se cometer um erro do tipo I, ou seja, rejeitar a hipótese nula quando ela é
verdadeira. Nesse caso, a probabilidade de rejeitarmos a hipótese nula e ela ser
verdadeira é de 36,13%. Por este motivo, nós não rejeitamos a hipótese nula e
chegamos à conclusão de que os resíduos têm distribuição normal.
QUADRO 10 – DISTRIBUIÇÃO DE FREQUÊNCIA PARA TESTE DE JARQUE-BERA
Distribuição de frequência para uhat1, observações 1-10
número de classes = 5, média = 5,68434e-015, desvio padrão = 1,84473
intervalo
< -1,8432
-1,8432 - -0,64470
-0,64470 - 0,55379
0,55379 - 1,7523
>= 1,7523
pt. médio
-2,4424
-1,2439
-0,045455
1,1530
2,3515
frequência
2
2
1
3
2
rel.
20,00%
20,00%
10,00%
30,00%
20,00%
acum.
20,00% *******
40,00% *******
50,00% ***
80,00% **********
100,00% *******
Teste para a hipótese nula de distribuição normal:
Qui-quadrado(2) = 2,036 com p-valor 0,36133
FONTE: Adaptado de Gretl (2018)
Você deve estar se perguntando: Devo testar a hipótese nula em todas
as minhas regressões? Não necessariamente. Apesar de ser uma hipótese
importante, ela deve ser testada de fato para amostras com menos de 100
observações (GUJARATI; PORTER, 2011, p. 120). Como a distribuição normal é
assintótica, pelo Teorema do Limite Central, à medida que a amostra aumenta
indefinidamente, a distribuição de um estimador tende a se aproximar da
distribuição normal (GUJARATI; PORTER, 2011, p. 827).
70
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
GRÁFICO 8 – TESTE DE NORMALIDADE DOS RESÍDUOS
0,3
Estatística de teste para normalidade:
Qui-quadrado(2) = 2,036 [0,3613]
uhat1
N(5,6843e-0,15 1,8447)
0,25
Densidade
0,2
0,15
0,1
0,05
0
-6
-4
-2
0
2
uhat1
FONTE: Adaptado de Gretl (2018)
4
6
Consideramos ainda que os estimadores de mínimos quadrados
convergem para os valores verdadeiros, os quais seriam obtidos se tivéssemos
acesso a todas as observações da população. Mas, como estamos trabalhando
com amostras, dizemos que em amostras repetidas, em média, os parâmetros
devem convergir para as médias populacionais. Isso significa que os coeficientes
estimados por mínimos quadrados são não tendenciosos.
Podemos testar essa afirmação usando os chamados experimentos de
Monte Carlo e verificar se, em média, os valores de β̂ 2 convergem em média ao
valor que estimamos. Para fazer isso, ainda dentro do arquivo que você usou para
rodar a regressão, abra o console do Gretl, clicando no botão no menu
- “abrir
o menu console” – na parte inferior do programa.
Na janela aberta, digite a sequência de comandos do Quadro 11, lembrando
de substituir a vírgula por ponto. O primeiro passo é criar uma série de Yˆi, o qual
é obtido com o comando “series Ys”. Na sequência é definida a quantidade de
estimações repetidas que serão feitas, e neste caso são 1.000 estimações. Como
Yˆi + ui, e definimos essa variável Yˆi no primeiro passo, devemos
sabemos que Y=
i
supor que os ui~N(0,1) . Com isso obtemos o valor de Yi.
Agora é só rodar a regressão por mínimos quadrados ordinários de
Yi contra Xi, através do comando “ols” (de ordinary least square) e salvar os
71
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
parâmetros estimados obtidos em cada uma das 1.000 estimativas. Depois disso,
ao dar o comando “endloop”, o programa encerra o experimento informando os
resultados das estimativas de mínimos quadrados de Yi contra Xi, com os valores
médios dos parâmetros estimados.
A sequência de comandos que vem depois serve para mostrar as demais
estatísticas desses parâmetros estimados, o que nos permite verificar se os
resultados após 1.000 estimativas são convergentes.
QUADRO 11 – EXPERIMENTO DE MONTE CARLO
series Ys = -5.4303 + 1.0343*X
loop 1000 --progressive --quiet
Y = Ys + normal(0,1)
ols Y const X
scalar b1 = $coeff(const)
scalar b2 = $coeff(X)
scalar sig2 = $sigma^2
print b1 b2 sig2
store "@workdir\coef.gdt" b1 b2 sig2
endloop
open "@workdir\coef.gdt"
summary
freq b2 --normal
FONTE: Adaptado de Gretl (2018)
O resultado do experimento pode ser sintetizado no Gráfico 9. Se os
coeficientes estimados são de fato não tendenciosos, então, tomando como
exemplo o β̂ 2, vamos esperar que, após 1.000 simulações, ou seja, 1.000
estimações diferentes, teremos alguns valores maiores e outros menores do que
os que estimamos no nosso modelo original. Porém, em média, os valores devem
convergir para 1,0343 , como pode ser visto no resultado do nosso experimento.
72
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
GRÁFICO 9 – RESULTADO DO EXPERIMENTO DE MONTE CARLO
12
Estatística de teste para normalidade:
Qui-quadrado(2) = 1,024 [0,5992]
b2
N(1,0343 0,036394)
10
Densidade
8
6
4
2
0
0,95
1
1,05
b2
FONTE: Adaptado de Gretl (2018)
1,1
1,15
7 OUTROS TÓPICOS RELACIONADOS AO MÉTODO DE
MQO
Nesta última seção da Unidade 1, conversaremos sobre banco de dados,
formas funcionais e faremos uma aplicação prática para conversarmos um pouco
sobre a utilização dos modelos econométricos na previsão do comportamento
das variáveis explicadas.
Um dos pontos mais sensíveis na análise de regressão é a base de dados.
Muitos trabalhos de pesquisa alcançaram sucesso em função de ter uma boa base
de dados, com variáveis bem definidas e fontes confiáveis. Da mesma forma,
alguns trabalhos fracassam porque a sua base de dados é ruim, prejudicando a
análise e interpretação à luz da teoria econômica subjacente.
Por utilizar informações do mundo real, a economia nem sempre nos
fornece aquilo de que precisamos para os nossos estudos na quantidade e na
qualidade adequadas. Muitas vezes precisamos adaptar algumas variáveis,
criando uma aproximação, ou proxy. Para um exemplo de variável proxy, podemos
analisar a função consumo keynesiana, supondo que o consumo seja uma função
da renda e da riqueza da pessoa.
Como fazemos para medir a riqueza? Essa é uma variável para a qual não há
uma definição de consenso na literatura econômica. Podemos medir, por exemplo,
73
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
pelo volume de dinheiro aplicado no mercado financeiro. Outra forma seria pela
conta de luz, supondo que quanto mais rica for uma família, mais energia elétrica
ela irá consumir, tendo em vista que terá em sua residência uma quantidade maior
de aparelhos elétricos e eletrônicos em comparação com pessoas menos ricas.
Essas maneiras diferentes de medir a riqueza são aquilo que chamamos de
variáveis proxy. Não é a riqueza em si, mas algo plausível e próximo o suficiente
da verdadeira variável a ponto de conseguirmos extrair um resultado confiável
do nosso modelo econométrico.
Aqui fica um alerta em relação às variáveis proxy, que serve também
para as demais. Se você não especificar corretamente as variáveis que entram
no modelo de regressão, poderá gerar um viés de especificação. Com isso, os
estimadores de mínimos quadrados perdem algumas das suas características, tais
como a ausência de viés e a consistência, pois geram resíduos correlacionados ou
com a variável dependente, ou com a explicativa.
Em um estudo sobre o endividamento das famílias e a sua renda, que
requeira a aplicação de um questionário, pode ter alguns entrevistados que se
recusem a fornecer determinadas informações. Isso gera um problema de ausência
ou omissão de informação.
A solução para esse tipo de problema envolve a aplicação de certas
técnicas estatísticas. Por exemplo, em uma situação com uma amostra contendo
40 observações, em que temos duas variáveis, Y e X, sendo que para Y, a variável
dependente, temos apenas as 38 observações, enquanto para X temos todas as 40
observações.
Há três possibilidades de solução nesse caso hipotético. Como você tem
uma base de dados consideravelmente grande, com mais de 20 graus de liberdade,
seria possível eliminar as duas observações de X que não formam par com as de
Y, resolvendo assim o nosso problema. Claro que com isso você tem a perda de
dois graus de liberdade por reduzir o tamanho da amostra, mas mesmo assim,
o custo é compensado pela possiblidade de se chegar a resultados consistentes.
A segunda alternativa é preencher essa lacuna com uma previsão para os
valores faltantes. Nesse caso, você estima a regressão para as 38 observações que
estão completas e emprega o modelo de regressão estimado para prever os dois
dados faltantes. Esse é outro procedimento simples de se empregar e garante um
resultado confiável, além de manter os graus de liberdade que você perderia ao
eliminar duas observações.
A terceira consiste na imputação de valores através da média das observações
anteriores de Y. Porém, essa técnica seria melhor empregada se os dados ausentes
não forem contíguos. Dessa forma, temos condições de gerar estimadores não
tendenciosos dos parâmetros de regressão.
74
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
Algumas vezes não temos dificuldade em especificar as nossas variáveis.
Elas são muito claras e até a coleta de dados é bem tranquila no sentido de serem
facilmente encontradas. Você faz a coleta, monta a sua regressão, mas descobre
que uma ou algumas poucas observações destoam das demais. Em um gráfico,
nós visualizaríamos como aquele ponto que destoa ou que é discrepante em
relação aos demais, como na Figura 14.
Perceba que o volume de câmbio contratado vinha em uma trajetória mais
ou menos bem-comportada. Ele passa de US$ 2.018 milhões em março/2013 para
US$ 6.672 milhões em abril/2013, e mais do que dobra em maio, com US$ 14.098
milhões.
O termo técnico para isso é outlier, e no nosso dia a dia estamos acostumados
a ouvir a expressão “ponto fora da curva”. É exatamente isso que significa, ou
seja, ele destoa dos demais pontos por motivos que precisam ser bem estudados,
pois apresentam uma discrepância em relação ao comportamento dos demais
dados da série.
Neste caso, precisamos entender o motivo pelo qual houve essa mudança
brusca no valor. Precisamos verificar estatisticamente se esse dado precisa ser
suavizado, através de médias móveis ou a aplicação de algum filtro estatístico, ou
ainda se é necessário excluí-lo da amostra.
FIGURA 14 – CÂMBIO COMERCIAL CONTRATADO EM US$ (MILHÕES)
FONTE: <www.ipeadata.gov.br>. Acesso em: 22 ago. 2018.
Essa atitude extrema, de excluir essa informação da amostra, poderá
causar um problema maior do que se a mantivermos na nossa base de dados.
Talvez essa seja uma grande oportunidade que se revela durante um estudo
empírico. O pesquisador vem preparado para investigar um fenômeno e acaba
esbarrando, quase sem querer, em outro que requer a máxima atenção.
Há outras possiblidades, que dependem de qual é a variável em estudo
e de como ela foi obtida. Talvez o método empregado em sua coleta ou na sua
transformação apresenta falhas, bastando apenas corrigir esses erros e continuar o
trabalho. Enfim, tudo dependerá da natureza desse fenômeno e de sua capacidade
em influenciar os parâmetros do nosso modelo de regressão.
75
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Outra questão que requer a nossa atenção diz respeito às formas funcionais
dos modelos de regressão. A primeira hipótese do modelo clássico de regressão
linear estabelece uma relação linear entre a variável dependente e a explicativa.
Mas de que tipo de linearidade estamos falando?
Quando falamos em linearidade nos modelos de regressão, nos referimos
sempre aos parâmetros e não às variáveis. Isso significa que um modelo como o
da equação 3.59 é linear no sentido que buscamos e que atende às hipóteses do
modelo clássico:
Yi = β1 + β2Xi + β3Xi2 + ui
3.59
Por outro lado, um modelo com o formato da equação 3.60 ou 3.61 não é
considerado linear:
β
2 X +u
β
Y =+
1 β
i
i
i
3
3.60
Yi = β1 + β22Xi + ui
3.61
Isso nos permite formular o seguinte conceito relativo à linearidade: um
modelo de regressão é considerado linear nos parâmetros e, portanto, atende às
exigências do modelo clássico de regressão linear, se nenhum dos seus parâmetros
estiver sendo multiplicado por outro parâmetro ou estiver sendo elevado a uma
potência diferente de 1.
Assim, uma equação que contenha variáveis elevadas a determinada
potenciação, divididas ou ainda multiplicadas por outra variável, ainda assim
pode ser considerada linear (nos parâmetros) se os coeficientes não forem elevados
a potência diferente de 1, não estiverem sendo multiplicadas ou divididas por
outros coeficientes. Os gráficos 10 e 11 trazem a representação de duas funções
que, apesar da aparência, são lineares nos parâmetros, apesar de não o serem nas
variáveis:
76
TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS
GRÁFICO 10 – EXEMPLO DE FUNÇÃO QUADRÁTICA COM Y = α + bX + cX2
FONTE: O autor
Note que no Gráfico 10 os dados se ajustam perfeitamente ao desenho
dessa função. É por esse motivo que o primeiro passo em um estudo empírico
deve passar obrigatoriamente pela plotagem do gráfico de dispersão, com
o objetivo de verificar qual o desenho que lhe é apresentado. Somente depois
disso é que você elabora o modelo matemático que melhor se ajusta aos dados e,
posteriormente, o seu modelo de regressão. O mesmo vale para o Gráfico 11:
GRÁFICO 11 – EXEMPLO DE FUNÇÃO CÚBICA COM Y = a + bX + cX2 + dX3
FONTE: O autor
Isso nos faz lembrar que não precisamos nos prender ao tradicional Y =
a + bX + u para rodarmos um estudo econométrico. Outras formas, por exemplo,
uma função de produção do tipo Cobb-Douglas, podem ser usadas. Neste caso é
preciso transformar o modelo a fim de torná-lo linear, como mostram as equações
3.62 e 3.63:
77
UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO
Yi = β1 X2βi2 X3βi3 e ui
3.62
A equação 3.62 não é linear, por isso precisa ser transformada. Essa
transformação ocorre quando empregamos logaritmos:
LnYi =
β1 + β 2 LnX2 i + β 3 LnX3 i + ui
3.63
Em que β1 = Lnβ1. Agora obtemos a linearidade nos parâmetros e mesmo
que as variáveis não sejam lineares, ainda assim é possível empregar o método de
mínimos quadrados ordinários.
Os logaritmos são um artifício amplamente utilizado em análise de regressão,
como teremos a oportunidade de estudar mais adiante neste manual. Entre as
vantagens está o fato de que ele comprime os dados e, como veremos, nos ajuda a
melhorar a estimação do nosso modelo econométrico. Outra vantagem é que no caso
do modelo 3.63, o parâmetro estimado β̂ 2 nos dá a elasticidade de Y em relação a X, o
que é muito útil em estudos de microeconomia e economia monetária.
Há ainda outros casos específicos em que os modelos precisam ter
logaritmos. Além da análise de elasticidade, podemos precisar obter variações
percentuais ou estimativas de crescimento entre outras aplicações.
DICAS
Ao longo de todo o nosso estudo teremos a oportunidade de voltar a esse
assunto, mas se você quiser se aprofundar, sugerimos a leitura do Capítulo 6 do livro:
• GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed.
Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria
Lúcia G. L. Rosa.
78
RESUMO DO TÓPICO 3
Neste tópico, você aprendeu que:
• Utilizando técnicas de amostragem é possível inferir sobre uma determinada
população de dados através da estimação de uma função de regressão amostral.
• A estimação da função de regressão amostral é feita através do método
dos mínimos quadrados ordinários, que busca a minimização da soma dos
quadrados dos resíduos através da escolha dos parâmetros beta que melhor se
ajustam aos dados obtidos para as variáveis.
• Os testes estatísticos são suportados pela hipótese de que os erros têm
distribuição normal, e devido ao teorema de Gauss-Markov é possível verificar
que os estimadores de mínimos quadrados, dentre a classe dos estimadores não
tendenciosos, são os melhores estimadores para os parâmetros da regressão.
• Usando a estatística t, nós podemos construir intervalos de confiança e testar
hipóteses acerca dos coeficientes estimados.
• Podemos construir testes de hipótese e buscar minimizar a probabilidade de
cometer o erro do tipo I, que consiste em rejeitar uma hipótese nula quando ela
é verdadeira.
• Podemos usar o Gretl para estimar a regressão, aplicar os testes estatísticos e
interpretar os resultados obtidos.
• A base de dados de uma pesquisa está estritamente relacionada ao sucesso ou
ao fracasso de uma investigação empírica.
79
AUTOATIVIDADE
Foram coletados dados mensais do retorno de algumas ações
selecionadas do índice da bolsa BM&F Bovespa. A variável VALE se refere ao
retorno do papel Vale3, da empresa Vale S.A., BBAS se refere ao papel BBAS3,
do Banco do Brasil S.A., PETR representa o papel PETR4, da Petrobras S.A. e
IBOV o índice de ações da BM&F Bovespa. Os dados são mensais, referentes
ao período de janeiro de 2016 a dezembro de 2017, totalizando 24 meses e
obtidos acessando o site <https://br.financas.yahoo.com/>. Lembre-se de que,
por se tratar de séries temporais, você deve dar o devido tratamento no Gretl.
Em outras palavras, ao importar os dados, você deve informar que se trata de
dados de série temporal, com frequência mensal iniciando em janeiro de 2016.
QUADRO 12 – RETORNO DA VALE E DO IBOV
Período 2016
VALE
BBAS
PETR
IBOV
janeiro
-0,2540
-0,0604
-0,1914
-0,0679
fevereiro
0,2150
-0,0224
0,0606
0,0591
março
0,2828
0,4601
0,4463
0,1697
abril
0,2997
0,1184
0,2484
0,0770
maio
-0,2778
-0,2551
-0,2329
-0,1009
junho
0,1442
0,0431
0,1306
0,0630
julho
0,1371
0,2253
0,2172
0,1122
agosto
-0,0843
0,1026
0,0521
0,0103
setembro
0,0514
-0,0177
0,0271
0,0080
outubro
0,2398
0,2846
0,2312
0,1124
novembro
0,2708
-0,0270
-0,0091
-0,0465
dezembro
-0,0848
-0,0144
-0,0828
-0,0271
Período 2017
VALE
BBAS
PETR
IBOV
janeiro
0,2531
0,1075
-0,0443
0,0738
fevereiro
0,0168
0,0640
-0,0142
0,0308
março
-0,0895
0,0202
-0,0508
-0,0252
abril
-0,0779
-0,0272
-0,0521
0,0064
maio
-0,0109
-0,1373
-0,0515
-0,0412
junho
0,0674
-0,0543
-0,0308
0,0030
julho
0,0793
0,0709
0,0455
0,0480
agosto
0,1208
0,0697
0,0123
0,0746
setembro
-0,0915
0,1368
0,1317
0,0488
outubro
0,0072
-0,0132
0,1018
0,0002
novembro
0,0947
-0,1310
-0,0844
-0,0242
dezembro
0,1457
0,0631
0,0602
0,0536
FONTE: Adaptado de <https://br.financas.yahoo.com/>. Acesso em: 22 ago. 2018.
80
Com base nos dados do quadro, responda ao que se pede:
1 Estime os seguintes modelos de regressão, preenchendo o quadro abaixo
com quatro casas decimais. Ao lado do p-valor indique: *, ** e *** para os
parâmetros que são estatisticamente significativos ao nível de 10%, 5% e 1%,
respectivamente. Caso o parâmetro não seja estatisticamente significativo,
deixe sem asteriscos:
Modelo 1 → Valet = β1 + β2Ibovt + ut
Modelo 2 → BBASt = β1 + β2Ibovt + ut
Modelo 3 → PETRt = β1 + β2Ibovt + ut
Parâmetro
Modelo 1
Modelo 2
Modelo 3
β1
Razão t
p – valor
β2
Razão t
p – valor
r2
2 Com relação aos modelos estimados na Questão 1, qual deles explica melhor
a variável dependente? Justifique a sua resposta.
3 Analisando os parâmetros β̂ 2 de cada modelo, qual papel é mais sensível a
mudanças no índice Ibov? Justifique a sua resposta.
4 No Gretl, selecione, a partir do menu “Ver”, a opção “Gráfico das variáveis”.
Na sequência, escolha a opção “Série temporal”. Selecione todas as variáveis
para gerar um gráfico e reproduza-o fazendo comentários sobre o resultado
dos modelos estimados e o gráfico gerado.
81
UNIDADE 2 | 
82
TÓPICO 1 |
UNIDADE 2
REGRESSÃO MÚLTIPLA
OBJETIVOS DE APRENDIZAGEM
A partir do estudo desta unidade, você deverá ser capaz de:
• redefinir o modelo econométrico desenvolvido na Unidade 1, com a inclusão de múltiplas variáveis explicativas;
• estimar o modelo e analisar os resultados comparando-os com o que foi
obtido nos modelos de regressão simples;
• resumir os resultados de ambos os modelos, avaliar, criticar e escolher
qual modelo deve ser utilizado para fins de controle e previsão;
• incorporar aos modelos de regressão as variáveis que não podem ser mensuradas quantitativamente, como sexo, religião, localização geográfica,
classe social etc., conhecidas como variáveis qualitativas ou binárias;
• categorizar estas novas variáveis distinguindo a sua aplicabilidade prática.
PLANO DE ESTUDOS
Esta unidade está dividida em três tópicos. No decorrer da unidade, você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – O MODELO DE REGRESSÃO LINEAR EM FORMA
MATRICIAL
TÓPICO 2 – ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS
DE REGRESSÃO MÚLTIPLOS
TÓPICO 3 – USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
83
UNIDADE 2 | REGRESSÃO MÚLTIPLA
84
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
TÓPICO 1
UNIDADE 2
O MODELO DE REGRESSÃO LINEAR EM
FORMA MATRICIAL
1 INTRODUÇÃO
Na Unidade 1, fomos apresentados à análise de regressão através do
modelo linear simples. Na Unidade 2, veremos que esse tipo de modelo, com
apenas uma variável explicativa, nem sempre consegue explicar de forma completa
as alterações na variável dependente, porque não estamos considerando outros
fatores que são igualmente importantes. Dito de outra forma, tornamos nosso
modelo tão simples que acabamos ignorando a influência de certas variáveis que
são imprescindíveis na explicação do fenômeno em estudo.
Para entender melhor a necessidade e a vantagem de se usar modelos
de regressão múltiplos, considere um exemplo hipotético sobre a formação de
preços da gasolina por parte de uma determinada refinaria. Qual é a variável que
afeta o preço escolhido pela petrolífera?
forma:
Poderíamos montar uma função para explicar essa decisão da seguinte
P = f(E) + ε
1.1
Em que P é o preço da gasolina na refinaria, E é a taxa de câmbio definida
como a quantidade de R$ necessário para comprar US$ 1,00, e ε o termo de erro.
Note que esse modelo consegue explicar de alguma forma as oscilações
no preço da gasolina e, pensando bem, como a gasolina é derivada do petróleo,
que é um tipo de bem que tem cotação em dólar, faz sentido alterar o seu preço
em razão da flutuação no mercado de câmbio.
A dúvida que fica é se essa variável é suficiente para determinar o
comportamento do preço desse combustível. Podemos pensar em uma série de
outras variáveis capazes de exercer essa influência, tais como o preço de bens
substitutos (álcool, por exemplo), o preço de carros novos ou de carros usados, e
ainda a cotação do barril do petróleo no mercado externo.
Se modificássemos o modelo para incluir essa última variável, teríamos:
85
UNIDADE 2 | REGRESSÃO MÚLTIPLA
P = f(E,B) + ε
1.2
As variáveis permanecem as mesmas do modelo 1.1, tendo apenas a
inclusão de β, a cotação internacional do barril do petróleo.
Se trabalhássemos em uma transportadora e estivéssemos elaborando o
planejamento da empresa para o próximo ano, certamente o preço da gasolina
seria determinante para o nosso direcionamento estratégico. Qual dos dois
modelos você considera que poderia fornecer uma estimativa mais próxima ou
mais assertiva do preço da gasolina?
Certamente o modelo 1.2 é o mais completo, porque agrega mais variáveis
explicativas do que o modelo 1.1, mas como veremos mais adiante, nem sempre
acrescentar novas variáveis torna o modelo melhor. Há que se cuidar com o viés
da especificação do modelo ou, como se diz na gastronomia, às vezes “menos é
mais”!
Mesmo assim, o fato de termos mais variáveis relevantes melhora a
nossa capacidade de explicar a variável dependente, ou a nossa capacidade de
previsão, o que nos leva a aceitar essa justificativa para a utilização de modelos
com múltiplas variáveis exógenas.
Para avançarmos em nosso estudo, precisaremos recorrer a uma ferramenta
matemática que tornará nosso entendimento mais intuitivo. Trata-se da álgebra
matricial, que além de facilitar a compreensão da parte econométrica, tem como
argumento a seu favor o fato de que é a linguagem universal empregada pelos
econometristas modernos no desenvolvimento e apresentação dos resultados das
suas pesquisas empíricas.
Por isso, o estudo das unidades 2 e 3, em sua maior parte, se dará com
o uso de matrizes e todas as técnicas inerentes a elas, mas não se preocupe
se você não domina a álgebra matricial, na verdade você deve apenas estar
familiarizado com os conceitos importantes, tais como multiplicação de matrizes,
determinantes, inversão, entre outros. O fato de conhecer esses conceitos facilitará
a sua compreensão e, caso tenha dificuldade em lembrar, sugerimos começar pela
autoatividade desse tópico, pois lá consta uma ligeira revisão daqueles pontos
que são mais importantes e dos quais você deve ter um certo conhecimento antes
de avançar nesse conteúdo.
86
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
DICAS
Além da autoatividade, se preferir, você pode fazer uma leitura rápida nos
apêndices dos manuais de econometria, de Gujarati e Porter (2011), ou no material extra
do Wooldridge (2016), disponível gratuitamente na internet, porém, se você se sente seguro
para ir adiante, pode dispensar essa rápida revisão.
• GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed.
Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria
Lúcia G. L. Rosa. – Edição do Kindle.
• WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. 6. ed.
São Paulo: Cengage Learning, 2016. 848 p.
2 O MODELO DE REGRESSÃO LINEAR GERAL EM FORMA
MATRICIAL
O modelo de regressão linear com múltiplas variáveis explicativas
parte do princípio de que existe uma relação entre uma variável dependente,
representada por Yi, e diversas outras variáveis que são capazes de explicá-la, as
quais representamos por Xi. Em que i = 1, 2, ..., k, o que significa que temos X1, X2,
..., Xk variáveis explicativas.
Poderíamos desenvolver toda a análise usando a álgebra tradicional. Ela
se encaixaria facilmente para duas variáveis explicativas, ou seja, X1 e X2, mas
quanto mais variáveis X fôssemos acrescentando, o entendimento deixaria de ser
intuitivo e passaria a ser cada vez mais complexo. O emprego de álgebra matricial
nos permite analisar tanto os modelos simples, como vimos na Unidade 1, quanto
os modelos complexos, com 10 regressores, por exemplo, ou mais.
Vamos começar supondo que você está trabalhando no estudo sobre a
remuneração de um grupo específico de profissionais, em que diversos fatores são
considerados para estabelecer o salário no momento da contratação. A equação
1.3 nos dá uma dessas possiblidades:
Salárioi = β1 + β2 Educaçãoi + εi
1.3
Em que Salárioi é a remuneração recebida pelas pessoas em uma amostra,
Educaçãoi é o tempo de educação formal que o profissional teve em sua vida e ε1
é o termo de erro, usado para capturar as demais variáveis que influenciam na
remuneração, mas que não estamos considerando nesse modelo por acreditarmos
que sua influência conjunta seja muito pequena.
87
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Sabemos que a educação é importante na composição dos salários, que
quanto maior o nível de instrução de uma pessoa, maior tenderá a ser a sua
remuneração. Porém, há diversos fatores que não podem ser desprezados sob o
risco de cometermos um erro crucial. Trata-se da omissão de variáveis explicativas.
Neste caso, sabemos que o tempo de experiência profissional também
entra na composição do salário. Esperamos que profissionais experientes tenham
uma remuneração maior do que os que estão entrando agora no mercado de
trabalho. Afinal, a experiência profissional deve valer de alguma coisa, não é
mesmo?
A fluência em outras línguas também ajuda a melhorar a renda e esperamos
que um profissional que fale várias línguas estrangeiras tenha um salário maior
do que aquele que fala apenas o português.
Vamos reescrever 1.3 da seguinte forma:
Salárioi = β1 + β2Educaçãoi + β3Experiênciai + β4Idiomasi + εi
1.4
Agora temos uma variável dependente sendo explicada por três variáveis
exógenas. A dúvida é: Como estimamos os coeficientes em um modelo como esse?
Nos modelos 1.3 e 1.4 usamos o subscrito i para indicar que se tratam de
indivíduos, ou seja, o salário de João, Paulo, Marcia etc., é explicado pelo tempo
de estudos de João, Paulo, Marcia etc., mais o tempo que João, Paulo, Marcia etc.
atuam no mercado, e mais ainda, quantos idiomas cada um deles fala.
Podemos montar uma equação para cada indivíduo da seguinte forma:
SalárioJoão = β1 + β2EducaçãoJoão + β3ExperiênciaJoão + β4IdiomasJoão + εJoão
SalárioPaulo = β1 + β2EducaçãoPaulo + β3ExperiênciaPaulo + β4IdiomasPaulo + εPaulo
SalárioMarcia = β1 + β2EducaçãoMarcia + β3ExperiênciaMarcia + β4IdiomasMarcia + εMarcia
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
Salárioi = β1 + β2Educaçãoi + β3Experiênciai + β4Idiomasi + εi
1.5
Podemos resumir 1.5 como:
Yi = β1 + β2X2i + β3X3i + β4X4i + ... BkXki + εi
1.6
O formato desse modelo 1.6, nós já conhecemos. Estamos habituados a ele e
nos sentimos muito confortáveis ao fazer a sua leitura. Há, no entanto, outra forma
de escrever 1.6, mas para isso teremos que ampliar a nossa zona de conforto e pensar
em empilhar os dados, colocando um embaixo do outro. Isso pode ser visto em 1.7:
88
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
 Y1 
 
Y2 
Y3 
 

Y 
 n
y
n×1
1

1
1


1

X21
X22
X23

X2 n
X31
X32
X33

X3 n
…
…
…

…
Xk 1 

Xk 2 
Xk 3 

 
X kn 
X
n× k
 β1 
ε 1 
 
 
β2 
ε 2 
 β 3  + ε 3 
 
 
 

β 
ε 
 k
 n
β
ε
+
k ×1
n×1
1.7
Em que y é um vetor coluna n x 1 de observações da variável dependente,
X é a matriz n x k de variáveis explicativas, ou seja, X21 se refere aos anos de
educação formal de João, X31 se refere ao tempo de experiência de João, X22 é o
tempo de educação formal de Paulo, X23 o tempo de experiência de Paulo, e assim
sucessivamente. β representa o vetor coluna k x 1 dos parâmetros do modelo e ε
é o vetor coluna n x 1 dos termos de erro.
Acadêmico, duas coisas serão destacadas. Primeiro é que a amostra vai
até n observações, e segundo, a primeira coluna de X é composta por números 1
porque é a partir dela que se calcula o intercepto da regressão, ou seja, o β1. Com
isso, as colunas representam vetores de n observações de cada variável explicativa.
De forma compacta, reescrevemos 1.7 como:
y = Xβ + ε
1.8
Em que X tem posto de coluna = (k), que é menor do que o número
de observações n, e ε é idêntica e individualmente distribuído com média 0 e
variância σ2I , ou seja, ε~iid(0, σ2I) , como veremos mais adiante.
Uma matriz com posto de coluna = (k), em que k é o número de colunas
da matriz, significa que essas colunas são independentes, no sentido de que uma
não é exatamente colinear a outra. Em econometria, como veremos nas hipóteses
do modelo, é chamado de full rank.
3 HIPÓTESES DO MODELO
Da mesma forma que no modelo de regressão linear simples, o modelo de
regressão múltiplo se sustenta sob determinadas hipóteses, que veremos agora,
baseado em Greene (2012), e que é uma extensão do que foi visto na Unidade 1.
89
UNIDADE 2 | REGRESSÃO MÚLTIPLA
a) Hipótese 1
O modelo de regressão é linear nos parâmetros – considere um modelo
econométrico com k variáveis explicativas e n observações. Usaremos as letras
minúsculas em negrito para representar cada coluna ou linha de uma matriz
de variáveis e as letras maiúsculas em negrito para representar as respectivas
matrizes ou vetores.
Assim, a Hipótese 1 afirma que existe uma relação linear entre cada
variável dependente yi e as variáveis explicativas x1, x2, ..., Xk, de modo que:
y = x1β1 + x2β2 + ... + xkβk + ε
1.9
Em que ε representa o termo de erro, e de forma convencional,
representamos 1.9 como:
y = Xβ + ε
1.10
Em um modelo de regressão simples, com apenas uma variável explicativa,
a matriz X é formada por apenas duas colunas, sendo a primeira formada por 1,
representando o intercepto β1, e a segunda coluna representa a variável explicativa.
Em um modelo de regressão múltiplo, ela tem a forma apresentada em 1.7.
a) Hipótese 2
A média condicional do termo de erro é zero – essa hipótese implica que
as variáveis independentes são exógenas:
E[εi|xj1, xj2, ..., xjk] = 0
1.11
Pode ser escrita de forma geral como E[ε|X] = 0, o que significa que as
variáveis independentes X não são capazes de prever o termo de erro ε.
Há três implicações para essa hipótese:
1. A média incondicional do termo de erro é zero: E[εi] = 0 .
2. A covariância entre o termo de erro e a variável independente é zero: Cov[εi,xi] = 0.
3. A média condicional de y é dada por: E[y|X] = Xβ .
90
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
a) Hipótese 3
Não há correlação ou colinearidade perfeita entre as variáveis explicativas
X – essa hipótese implica que a matriz X, de variáveis explicativas, tem posto de
coluna completo (full rank) ou, dito de outra forma, as colunas da matriz X são
independentes.
Veremos adiante que para obtermos os estimadores de mínimos quadrados
ordinários, haverá uma multiplicação entre a matriz X e sua transposta X'. Essa
multiplicação é importante para obtermos os estimadores dos parâmetros, e para
isso, o resultado X'X tem que ser inversível.
Para invertermos uma matriz é necessário obter o determinante, e se a
matriz X não tiver posto completo, ou seja, se matriz n x k não tiver posto k, não
será possível calcular esse determinante e, consequentemente, obter as estimativas
dos coeficientes de mínimos quadrados.
Greene (2012, p. 59) apresenta no exemplo 2.5 de seu livro um caso em que o
posto de coluna não é completo. Para isso ele descreve uma função consumo como:
C = β1 + β2outrasrendas + β3salário + β4rendatotal + ε
1.12
Não é difícil perceber que a renda total é formada pela soma do salário e
de outras rendas. Neste caso, há uma correlação perfeita ou colinearidade perfeita
entre as variáveis explicativas.
Outro ponto que deve ser ressaltado é que o número de observações deve
ser maior do que o número de coeficientes a serem estimados na regressão. Se
tivermos uma amostra com 10 observações, por exemplo, e 11 coeficientes a serem
estimados, logicamente a matriz X, n x k, terá posto < k, violando a Hipótese 3.
a) Hipótese 4
Os erros são homoscedásticos e não são correlacionados – algumas
vezes ouviremos a expressão “disturbâncias esféricas” para essa hipótese. Para
compreender melhor, considere que:
Var[εi|X] = σ2
1.13
Cov[εi, εj|X] = 0
1.14
Para todo i = 1, 2, ..., n e i ≠ j.
91
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Pela equação 1.13 a distribuição de probabilidade de cada termo de erro é
um número constante, e por 1.14, que é válido no caso dados de séries temporais,
vemos que os termos não são correlacionados, ou seja, não há correlação serial
dos resíduos.
Na Unidade 3, teremos um tópico específico para analisar a Hipótese 3, e
dois tópicos para entendermos as implicações da violação da Hipótese 4, ou seja,
a heteroscedasticidade e a autocorrelação.
Em síntese, buscamos modelos capazes de gerar resíduos homoscedásticos,
ou seja, com a mesma distribuição de probabilidade dos termos de erro e não
correlacionados. Isso pode ser visto através da matriz de variância-covariância:
 E ε 1ε 1 |X  E ε 1ε 2 |X 

 E ε ε |X  E ε 2ε 2 |X 
E εε ′|X  =   2 1 



 E ε nε 1 |X  E ε nε 2 |X 
E εε ′|X 
 E ε 1ε n |X  

… E ε 2ε n |X  




 E ε nε n |X  
 Var ε 1 |X  Cov ε 1ε 2 |X   Cov ε 1ε n |X  


Cov ε 2ε 1 |X  Var ε 2ε 2 |X  … Cov ε 2ε n |X  
=







Cov ε nε 1 |X  cov ε nε 2 |X   Var ε nε n |X  

1.15
σ 2 0

2
0 σ
 


0
 0
 0

… 0
1.16
  

 σ 2 
O termo σ2 é um escalar, ou seja, uma constante, e pelas propriedades da
multiplicação de matrizes, podemos representar 1.16 como:
E[εε'|X] = σ2I
1.17
Em 1.16 notamos que em função de 1.13 a diagonal principal representa a
variância do erro, que é igual a σ2 para cada termo, ou seja, um valor constante. Podemos
ver ainda que nas demais posições temos 1.14, ou a covariância entre os termos de erro
distintos, que por definição é zero, demonstrando ausência de autocorrelação.
a) Hipótese 5
A matriz X é não estocástica – em amostras repetidas, os valores de X são
fixados. Obviamente não estamos dizendo que os valores de X não se alteram ao
longo de uma amostra. O que queremos dizer é que se tirarmos 100 amostras,
teremos em todas os mesmos valores de X, os quais são diferentes uns dos outros
dentro da amostra.
92
TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL
Essa variabilidade é crucial para podermos estimar os coeficientes por
mínimos quadrados ordinários.
b) Hipótese 6
O vetor de erros ε tem distribuição normal, com média zero e variância
constante:
ε|X~N[0, σ2I]
1.18
Vale dizer ainda que se a intenção é apenas uma estimativa pontual dos
coeficientes, as hipóteses de 1 a 5 são suficientes. No entanto, como precisamos
aferir o modelo aplicando a inferência estatística, a hipótese 6 é fundamental.
Como vimos na Unidade 1, a hipótese de normalidade é o pressuposto básico
para podermos calcular intervalos de confiança, fazer testes de hipótese, utilizar
o modelo para previsão, entre outras aplicações.
93
RESUMO DO TÓPICO 1
Neste tópico, você aprendeu que:
• O modelo de regressão apresentado na Unidade 1, contendo apenas uma
variável explicativa, pode ser reescrito de forma a conter múltiplos regressores.
• Devido às complicações algébricas para se apresentar um modelo de regressão
múltiplo da forma tradicional, ao apresentar esse modelo na forma matricial,
podemos visualizar de forma mais intuitiva a relação entre as variáveis.
• As hipóteses do modelo de regressão múltiplo na forma matricial são expressas
como:
a) Hipótese 1 – O modelo de regressão y = Xβ + ε é linear nos parâmetros.
b) Hipótese 2 – A média condicional do termo de erro é zero.
c) Hipótese 3 – Não há correlação ou colinearidade perfeita entre as variáveis
explicativas X.
d) Hipótese 4 – Os erros são homoscedásticos e não são correlacionados.
e) Hipótese 5 – A matriz X é não estocástica; em amostras repetidas, os valores
de X são fixados.
f) Hipótese 6 – O vetor de erros ε tem distribuição normal, com média zero e
variância constante ε|X~N[0, σ2I].
94
AUTOATIVIDADE
Como introduzimos o modelo de regressão na forma matricial, talvez
você não esteja bem à vontade com essa linguagem. Antes de mais nada, é
importante lembrar que não esperamos que você tenha domínio total e
completo de todas as particularidades envolvendo operações matriciais. O
mais importante neste momento é que você tenha uma noção e que isso lhe
permita entender de forma intuitiva a análise de regressão, na forma como
está aprendendo nesse livro de estudos, e na forma como os modernos
econometristas usam. Por esse motivo, as autoatividades a seguir têm por
objetivo fazer uma revisão de matrizes e álgebra matricial, nas quais você
poderá exercitar alguns dos conceitos mais importantes.
1 Sabemos que uma matriz nada mais é do que um arranjo retangular de
números distribuídos em n linhas e k colunas. Assim, uma matriz A, de
ordem n x k, pode ser representada por:
 a11

a
A =  21
 

 an1
a12
a22

an 2
 a1k 

 a2 k 
  

 ank 
aij ( i =1, 2 ,… ,n; j =1, 2 ,… ,k ) são elementos de A, m x n é a dimensão da
matriz.
As matrizes de modo geral têm algumas características importantes.
Por exemplo, uma matriz n x 1 é chamada de vetor coluna e uma matriz 1 x k é
chamada de vetor linha. Se o número de linhas é igual ao número de colunas,
temos uma matriz quadrada. Quando todos os elementos fora da diagonal
principal de uma matriz quadrada forem iguais a zero, temos a chamada
matriz diagonal. Ela é semelhante à matriz identidade, também conhecida
como matriz unitária, cujos elementos da diagonal principal são todos iguais a
1 e os elementos fora dessa diagonal são iguais a zero.
Considere as seguintes matrizes a seguir, relacionando-as com as
respectivas definições:
95
3
 
5
A= 
7 
 
 9 
B = 10 20 30 40 
(
(
(
(
(
5 6 
C=

9 12 
1 0 0


D = 0 5 0 
0 0 6 
) Matriz Quadrada
) Matriz Identidade
) Vetor Coluna
) Matriz Diagonal
) Vetor Linha
1 0 0


E = 0 1 0 
0 0 1 
2 A soma de duas matrizes se dá elemento a elemento, ou seja, A + B = [aij + bij].
Assim, em uma matriz quadrada de ordem 2 x 2, temos:
a
=
A + B  11
 a21
a12   b11 b12   a11 + b11
+ =
 
a22  b21 b22   a21 + b21
a12 + b12 

a22 + b22 
1 3
2 4
Considere a matriz A = 
 e a matriz B = 
. Determine A + B.
6 8 
5 7 
3 Na linguagem matricial, dizemos que um escalar é um número, uma
constante. Uma constante multiplicada por uma matriz resulta em uma nova
matriz, cujos elementos são o resultado da multiplicação do escalar por cada
elemento da matriz original: δA = [δaij]. Por outro lado, se tivermos duas
matrizes, só poderemos multiplicá-las se o número de colunas da primeira
for igual ao número de linhas da segunda. Dito de outra forma, uma matriz
n x k só pode ser multiplicada por outra matriz de ordem k x m. O resultado
dessa multiplicação é uma matriz de ordem n x m, ou seja, terá o número
de linhas da primeira matriz e o número de colunas da segunda matriz. A
multiplicação, por sua vez, se dá na forma AB = 
∑
n
a b . Assim, seja

k =1 ik kj
1 3
2 4 9


A=
 e B =  5 7 , determine C = AB. Depois, sendo δ = 2, um escalar,
6 8 0 
8 0 
obtenha D = δC.
96
4 A transposição de uma matriz é outro elemento importante na análise de
regressão para a determinação dos parâmetros β. Transpor uma matriz
qualquer nada mais é do que trocar as linhas por colunas e vice e versa.
 5 10 


Assim, se A = [aij], A' = [aij] . Considere a seguinte matriz A = 15 20  e
 25 30 
obtenha a transposta de A.
5 O determinante de uma matriz A, representado por det A, ou |A|, é um
número ou escalar, que é obtido de uma matriz quadrada. São várias as
técnicas para se obter o determinante de uma matriz, como por exemplo o
método de Sarrus para matrizes de ordem até 3 x 3, o teorema de Laplace
para matrizes de ordem superior a 3 x 3 , mas que pode ser empregado em
matrizes quadradas de qualquer ordem. Há ainda o teorema de Leibniz,
cálculo por triangulação entre outras técnicas. O importante é que você
empregue a técnica que melhor se adapte ao seu estilo. Aqui faremos a
demonstração do teorema de Laplace, calculando o determinante da matriz
2 4 6 


A =  8 10 1 . Começamos obtendo o menor dos elementos da primeira
 3 5 7 
linha, denotado por |Mij|, dado pelo determinante da submatriz resultante
da eliminação da i – ésima linha e da j – ésima coluna. Assim, na primeira
linha temos: M11 =
8 1
8 10
10 1
, M12 =
, M13 =
. O determinante é
3 7
3 5
5 7
∑ aij ( −1)
calculado por det A =
det A = 2 × ( −1)
1+ 1
i+ j
M ij :
10 1
1
10
1+ 2 8
1+ 3 8
+ 4 × ( −1)
+ 6 × ( −1)
5 7
3 7
3 5
det A = 2 × ( 70 − 5 ) − 4 × ( 56 − 3 ) + 6 × ( 40 − 30 )
det A = 130 − 212 + 60
det A = −22
0 1 2 


Como exercício, obtenha o determinante de B =  3 6 0 .
 1 4 1 
6 O último conceito que precisamos revisitar é o de inversão de matrizes, que
só é possível no caso de uma matriz quadrada não singular, ou seja, cujo
determinante é diferente de zero. Matrizes singulares, ou com determinante
igual a zero, não são passíveis de inversão. Para inverter uma matriz,
devemos começar obtendo o menor dos elementos aij, como na questão 5,
97
mas nela nós obtivemos apenas para a primeira linha. Agora teremos que
2 4 6 


obter para todas as linhas da matriz A =  8 10 1 .
 3 5 7 
Assim, na primeira linha temos: M11 =
Na segunda linha temos: M 21 =
Na terceira linha temos: M 31 =
8 10
10 1
8 1
, M12 =
, M13 =
.
3 5
5 7
3 7
2 6
2 4
4 6
, M 22 =
, M 23 =
.
3 7
3 5
5 7
2 4
4 6
2 6
, M 32 =
, M 33 =
.
10 1
8 10
8 1
Com esses resultados devemos construir uma matriz de Cofatores, dada por
cij = (–1)i+j|Mij|. Dito de outra forma, trata-se de uma matriz composta por
menores com sinal trocado quando i + j é ímpar:
 ( −1)1+1 M
11
 c11 c12 c13  
2
1
+

 
Cof A =
M 21
−1
c21 c22 c23  =
( )
3 +1
c31 c32 c33  
−1
M 31
( )

2 10
( −1)
5


3 4
 ( −1)
Cof A =
5


 −1 4 4
( ) 10

1
7
( −1)
3
6
7
( −1)
4
6
1
( −1)
5
8 1
3 7
2 6
3 7
2 6
8 1
( −1)
( −1)
( −1)
1+ 2
M12
2+2
M 22
3+ 2
M 32
( −1)
( −1)
( −1)
1+ 3
2+3
3+ 3
M13 

M 23 

M 33 

8 10 

3 5 
4 
5 2
( −1) 3 5 

4 
6 2
( −1) 8 10 

( −1)
4
 70 − 5
− ( 56 − 3 )
40 − 30   65 −53 10 

 

−4
2 
Cof A =
 − ( 28 − 30 ) 14 − 18 − ( 10 − 12 )  =
 2
 4 − 60
− ( 2 − 48 )
20 − 32   −56 46 −12 

 65 −53 10 


−4
2 
Cof A =  2
 −56 46 −12 
98
A transposta da matriz de Cofatores é chamada de matriz Adjunta e é dada
por (Cof A)':
 65 2 −56 


Adj A =
 −53 −4 46 
 10
2 −12 
A Inversa de A é dada por:
A−1 =
1
( Adj A )
A
Como o determinante de A = – 22, a sua inversa é:
 65 2 −56 
1 

−53 −4 46 
A =

−22
 10
2 −12 
−1
 65
 − 22

1  53
−1
A
=
−22  22
 10
−
 22
2
22
4
22
2
−
22
−
56 
22 
46
− .
22 
12 
22 
0 2 
Como exercício, obtenha a inversa de D = 
.
5 4
99
100
TÓPICO 2
UNIDADE 2
ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS
MODELOS DE REGRESSÃO MÚLTIPLOS
1 INTRODUÇÃO
Vimos no tópico anterior uma breve introdução ao modelo de regressão
com múltiplas variáveis explicativas. Como você deve ter notado, representar o
modelo na forma matricial, além de intuitivo, nos proporciona ganhos em termos
de generalização, permitindo que tenhamos tantas variáveis explicativas quantas
forem necessárias para descrever o comportamento da nossa variável dependente.
Na Unidade 1, vimos como obter uma estimativa dos parâmetros
do modelo de regressão linear simples, empregando o método de mínimos
quadrados ordinários em que, em síntese, minimizávamos a soma dos quadrados
dos resíduos a fim de obter estimativas para os coeficientes populacionais que
fossem consistentes e eficientes.
Naquela oportunidade demonstramos como obter os estimadores de um
modelo com apenas uma variável explicativa. Mas, e se tivermos duas ou mais
variáveis explicando a variável dependente? Neste caso, o cálculo tradicional
torna-se complexo e cansativo, motivo pelo qual o emprego de matrizes para
obtenção desses parâmetros é o mais indicado.
Além de estimar um modelo de regressão mais completo e complexo,
teremos acesso a uma série de estatísticas de teste que nos permitirão deixar
os resultados obtidos ainda mais robustos e a nossa análise ainda mais rica em
detalhes.
A análise de regressão vai muito além da simples estimativa de parâmetros.
Os modelos estimados podem ser empregados para fins de tomada de decisão
no planejamento estratégico de uma empresa, ou como análise de impactos de
uma política econômica. Por esses motivos, ter certeza de que temos em mãos
resultados confiáveis é extremamente importante.
Imagine uma empresa em que boa parte dos insumos usados na produção
de sua fábrica é importada do exterior. Você é escalado para construir um modelo
de regressão capaz de prever o comportamento da taxa de câmbio no curto e
médio prazos. Com base no modelo de regressão que você estimar, a empresa
decidirá se e quando deverá contratar instrumentos de proteção cambial.
101
UNIDADE 2 | REGRESSÃO MÚLTIPLA
É nesse exato momento que o seu trabalho é posto à prova. Será que o
modelo está corretamente especificado? Será que não deixou de fora alguma
variável que poderia ser importante, ou relevante para explicar o comportamento
do câmbio? Por outro lado, talvez tenha inserido variáveis de mais para explicar
a variável dependente! Talvez uma relação linear nas variáveis não seja a forma
funcional mais adequada. Um modelo com logaritmos pode trazer resultados
mais eficientes e a decisão tomada a partir da previsão feita pelo modelo estimado
com outra forma funcional pode ser gerar resultados melhores.
Essas e outras perguntas serão respondidas neste Tópico 2, que terminará
com um exemplo que nos permitirá ver na prática cada conceito adquirido aqui.
2 ESTIMADORES DE MQO
Suponha que tenhamos um modelo econométrico com k variáveis
explicativas. Esse modelo é representado em 2.1:
Yi = β1 + β2X21 + β3X3i + ... + βkXki + εi
2.1
Independentemente do que estamos pretendendo com este modelo,
dificilmente teremos acesso a todos os dados existentes, nesse caso, obter uma
amostra representativa e a partir dela fazer inferências acerca da população é o
procedimento correto.
Com isso, 2.1, que é a Função de Regressão Populacional, dá espaço para
2.2, a Função de Regressão Amostral:
Y=
βˆ 1 + βˆ 2 X2 i + βˆ 3 X3 i + …+ βˆ k Xki + εˆ i
i
2.2
Podemos reescrever 2.2 na forma matricial como em 2.3:
� + ε
=
y Xβ
2.3
Em que y é o vetor n x 1 da variável dependente, X é a matriz n x k de
^
variáveis explicativas, β é o vetor de k x 1 de parâmetros estimados e ε^ é o vetor n
x 1 dos resíduos da regressão. A ideia por trás do método de mínimos quadrados
ordinários é minimizar a soma dos quadrados dos resíduos.
De 2.3, temos:
102
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
^
^
2.4
ε = y – Xβ
A soma dos quadrados dos resíduos é dada por:
^
^
^ ^
ε'ε
= (y – Xβ)'(y –Xβ)
2.5
^
Assim, minimizamos 2.5 sujeito a β para obter:
� )'( y − X β
�)
min ε =
( y − Xβ
2.6
^
β
min ε = y'y – yXβ – X'β'y + X'β'Xβ
^
^
^
^
^
2.7
^
β
^
^
Como y'Xβ e X'β'y são iguais e, pelas propriedades da multiplicação de
matrizes, podemos rearranjar e simplificar 2.7 para obter:
min
εˆ ' εˆ = y′y − 2 βˆ ' X ′y + βˆ ' X ′X βˆ
ˆ
2.8
β
Pela condição de primeira ordem, tiramos a derivada parcial de 2.8,
igualamos a zero e resolvemos para β̂ :
(
∂ y′y − 2 βˆ ' X ′y + βˆ ' X ′X βˆ
∂βˆ
) =0
2.9
− X ′y + X ′X β̂ = 0
2.10
Resolvendo para X ′X β̂ , temos:
X ′X βˆ = X ′y
2.11
Pré-multiplicando ambos os lados de 2.11 por ( X ′X ) , obtemos:
−1
103
UNIDADE 2 | REGRESSÃO MÚLTIPLA
( X′X ) ( X′X ) βˆ = ( X′X )
−1
−1
X' y
2.12
Em 2.12, pelas propriedades envolvendo multiplicação de matrizes
−1
invertidas, sabemos que ( X ′X ) ( X ′X ) = I , ou seja, uma matriz identidade. Assim,
o estimador de β de mínimos quadrados ordinários é dado por:
β̂ = ( X ′X ) X' y
−1
2.13
Que é um vetor k x 1 dos coeficientes estimados ou estimadores dos
parâmetros do modelo de regressão.
Se o estimador em 2.13 for não viesado, ou seja, se obtivermos várias
amostras e estimarmos diversas vezes os parâmetros β, esperamos que, em média,
o valor dado por 2.13 convirja para o verdadeiro parâmetro da população. Dito
de outra forma, esperamos que:
E  β̂  = β
2.14
Para verificar isso, tomamos 2.13 e, sabendo que na população encontramos
y = β + ε, escrevemos:
β̂
=
( X′X )
−1
X' ( X β + ε )
=
βˆ
( X′X )
−1
X' X β + ( X ′X ) X' ε
2.15
−1
2.16
Em 2.16 aplicamos o operador de expectativas para reescrevê-la como:
−1
−1
=
β̂ E[( X ′X ) X' X β ] + E ( X ′X ) X ′ε 


2.17
Em 2.17, (X'X)–1X'X resulta em uma matriz identidade I e, além disso,
podemos reescrever E ( X ′X ) X ′ε  como ( X ′X ) X ′E ε .


−1
−1
Como E ε  = 0, temos:
104
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
E  β̂  = β
2.18
Além de não tendencioso ou não viesado, queremos que esse estimador
obtido em 2.13 seja eficiente, ou seja, tenha variância mínima.
Sabemos que a variância é obtida por:
( )
Var =
βˆ  E  βˆ − E βˆ 


{
2
2.19
( )
}
( )
Var  βˆ  =
E  βˆ − E βˆ  .  βˆ − E βˆ '

 

( X′X )
−1
Sabemos
2.16
que βˆ
=
por
( X′X )
2.20
−1
X' X β + ( X ′X ) X' ε .
−1
Em
que
'
X X = I . Se resolvermos 2.16 para β̂ − β , temos:
βˆ − β = ( X ′X ) X' ε
−1
2.21
( )
De 2.18, temos que E β̂ = β . Aplicando isso em 2.20 e substituindo o
resultado em 2.21, podemos reescrever 2.20 para:
{
'
Var  β̂  =E  βˆ − β  .  βˆ − β 
}
2.22
'
−1
−1


Var  β̂  = E  ( X ′X ) X ′ε  . ( X ′X ) X ′ε  




 


2.23
−1
−1
Var  βˆ  = E ( X ′X ) X' εε ' X ( X ′X ) 


2.24
Var  β̂  = ( X ′X ) X ′E εε ′ X ( X ′X )
2.25
−1
Var  β̂  = E εε ′ I ( X ′X )
−1
−1
2.26
105
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Em 2.26 temos E εε ′ , que por 1.17 é definida como σ 2 I , e como a matriz
identidade multiplicada por qualquer matriz resulta na própria matriz que é
multiplicada, obtemos a variância de β̂ como:
Var  β̂  = σ 2 ( X ′X )
−1
2.27
Portanto, a matriz de variância do vetor de parâmetros β̂ vai depender da
estimativa de σ 2, que é o parâmetro populacional, o qual desconhecemos, e de
−1
( X′X ) .
Para obter uma estimativa de σ 2 , usamos:
σˆ 2 =
εˆ ' εˆ
2.28
n−k
Em 2.28, sabemos que n – k é o total de observações da nossa amostra
menos a quantidade de coeficientes β estimados na regressão. Dito de outra
forma, é o número de graus de liberdade do modelo de regressão.
A matriz de variância e covariância de β̂ está representada em 2.29:
( )
 var βˆ
1

cov βˆ , βˆ
2
1

var − cov  βˆ  =



 cov βˆ k , βˆ 1

(
(
)
)
(
cov βˆ 1 , βˆ 2
( )
)
var βˆ 2

cov βˆ k , βˆ 2
(
)
(
(
)
)
 cov βˆ 1 , βˆ k 

ˆ
ˆ
… cov β 2 , β k 





var βˆ k 


2.29
( )
Pelo fato de os estimadores serem lineares, não tendenciosos, terem
variância mínima e ainda os resíduos terem distribuição normal, o teorema de
Gauss-Markov garante que os estimadores de mínimos quadrados ordinários são
os melhores estimadores lineares não tendenciosos, o que na literatura muitas
vezes é representado pela sigla BLUE, ou seja, Best Linear Unbiased Estimator.
Em amostras relativamente pequenas, as propriedades vistas até agora
podem não ser encontradas, no entanto, à medida que a amostra vai aumentando
indefinidamente, vai-se confirmando todas as propriedades. Dizemos que
no limite, em pequenas amostras, os estimadores são não tendenciosos, mas à
medida que a amostra aumenta indefinidamente, eles se tornam consistentes,
porque a variância vai diminuindo, tendendo a zero.
106
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
Pela Hipótese 6 do modelo de regressão linear, vimos que o vetor do termo
de erro ε tem distribuição normal, com média igual a zero e variância constante.
Como em última análise os parâmetros estimados β̂ são uma função linear do
vetor de erros, é possível supor que eles carregam essa característica estatística.
−1
Dito de outra forma, β̂ |X ~ N  β ,σ 2 ( X ′X ) , o que implica que cada parâmetro


2 kk
individual β̂ k também tem distribuição normal, ou seja, β̂ k ~ N  β k ,σ S , em que
−1
Skk é o k – ésimo elemento da matriz ( X ′X ) .
Isso nos permite aplicar um teste t a fim de verificar se cada coeficiente é
individualmente significante do ponto de vista estatístico. Você deve se lembrar,
como vimos na Unidade 1, de que o primeiro passo é estabelecer as hipóteses
(nula e alternativa) a serem testadas:
H0 : β k = 0
H1 : β k ≠ 0
O segundo passo é calcular a estatística de teste, neste caso:
t=
βˆ k − β kH
Sβˆ
0
k 1, 2 ,… ,n
~ t( n− k ) para todo =
2.30
k
Com β̂ k sendo o k – ésimo coeficiente estimado, β kH é o valor do k – ésimo
0
coeficiente sob a hipótese nula, Sβˆ é o desvio padrão do k – ésimo coeficiente
estimado e n – k representa o número de graus de liberdade, sendo n o tamanho
da amostra e k o número de parâmetros estimados.
k
O resultado de 2.30 é comparado à tabela estatística de distribuição de
probabilidade de t, e se o tcalculado > ttabela, para um nível de significância α, rejeitamos
a hipótese nula em favor da hipótese alternativa de que o coeficiente estimado é
estatisticamente significativo.
É preciso compreender que cada coeficiente estimado individualmente
tem o seu significado, supondo ceteris paribus para os demais coeficientes. Ou
seja, mantendo constantes todos os demais efeitos individuais sobre a variável
dependente, a variável explicativa Xi tem um efeito β̂ k sobre Yi.
É possível também testar a hipótese nula H0, de que em conjunto, os
coeficientes estimados βˆ 2 , βˆ 3 ,… , βˆ k são estatisticamente iguais a zero, contra a hipótese
alternativa de que em conjunto os coeficientes estimados são estatisticamente
diferentes de zero. Para isso empregamos um teste F, definido como:
107
UNIDADE 2 | REGRESSÃO MÚLTIPLA
F=
SQE / ( k − 1)
SQR / ( n − k )
~ F( k −1) ,( n− k )
2.31
Em que SQE é a soma dos quadrados explicados pela regressão, obtida
'
2
ˆ
por β X ′y − nY , com k – 1 graus de liberdade no numerador, e SQR é a soma
dos quadrados dos resíduos, obtida por εˆ ' εˆ , com n – k graus de liberdade no
denominador. Esse valor calculado é comparado à estatística F obtida em uma
tabela de distribuição de probabilidade, a um nível de significância α.
Da mesma forma que o teste t para os parâmetros individuais, se o Fcalculado
> Ftabela, rejeitamos a hipótese nula com um nível de significância de α, em favor da
hipótese alternativa.
E quanto à capacidade do nosso modelo de se ajustar aos dados? O
coeficiente de determinação é dado por 2.32:
R2 =
SQE
STQ
2.32
Que em notação matricial fica:
2
R =
βˆ ' X ′y − nY 2
2.33
y' y − nY 2
Note que em 2.33 estamos usando o R2 ao invés do r2 que tínhamos na
Unidade 1. Fazemos isso para diferenciar o modelo de regressão simples do
modelo de regressão múltiplo. Em termos de interpretação não muda nada, ou
seja, o R2 fornece uma medida do poder explicativo da regressão, ou da qualidade
do ajustamento do modelo aos dados.
Podemos ver ainda que se trata de uma decomposição da variância de y.
Podemos analisar o coeficiente de determinação e obter outras estatísticas ligadas
a ele através da análise de variância, ANOVA. Para isso, observe o quadro a seguir:
108
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
QUADRO 1 – ANÁLISE DE VARIÂNCIA
Causas da variação
Fontes
Devido à Regressão (SQE)
βˆ X ′y − nY
Devido aos Resíduos (SQR)
εˆ ' εˆ
n–k
σ̂ 2
Total (STQ)
y' y − nY 2
n–1
σ̂ y2
'
R2 =
Coeficiente de determinação
F
=
Graus de liberdade
2
Quadrado médio
k–1
βˆ ' X ′y − nY 2
y' y − nY 2
= 1−
εˆ ' εˆ
y' y − nY 2
SQE / ( k − 1) βˆ ' X ′y − nY 2 / ( k − 1)
=
εˆ ' εˆ / ( n − k )
SQR / ( n − k )
FONTE: Adaptado de Greene (2012, p. 82)
3 ESTIMANDO O MODELO DE REGRESSÃO MÚLTIPLO
Um dos campos de aplicação da econometria que tem crescido nos últimos
anos é o do desenvolvimento econômico e social. Nessa área de pesquisa, um
dos indicadores mais difundidos é o Índice de Desenvolvimento Humano – IDH.
Enquanto o PIB nos dá uma ideia de quão rica pode ser uma nação, o IDH nos
mostra a qualidade dessa riqueza.
Vamos usar alguns indicadores do Atlas do Desenvolvimento Humano
no Brasil <http://www.atlasbrasil.org.br> para ilustrar a estimação de um modelo
de regressão múltipla. A ideia se baseia menos na parte teórica envolvendo os
conceitos econômicos e sociais, para dar mais ênfase aos aspectos técnicos da
análise de regressão.
Como ponto de partida, a variável explicativa será o IDHM, Índice de
Desenvolvimento Humano Municipal, e como variáveis explicativas teremos
o RDPC – renda per capita média, ESPVIDA – esperança de vida ao nascer e
EANOSESTUDO – número médio de anos de estudo que uma geração de crianças
que ingressa na escola deverá completar ao atingir 18 anos de idade, se os padrões
atuais se mantiverem ao longo de sua vida escolar.
Temos a nossa disposição uma base de dados de corte, por estados
brasileiros, relativa aos anos de 1991, 2000 e 2010. Isso nos permite estimar pelo
menos três modelos econométricos e verificar se há mudanças significativas nos
resultados para cada ano de levantamento dos dados.
O primeiro modelo econométrico é dado por 2.34 e se refere ao ano de
1991. Naquele ano, para o Brasil como um todo, o IDH era de 0,493:
109
UNIDADE 2 | REGRESSÃO MÚLTIPLA
IDHMi =
β1 + β 2 RDPCi + β 3 ESPVIDAi + β 4 EANOSESTUDOi + ε i
2.34
Esperamos que os coeficientes estimados β2, β3 e β4 tenham sinal
positivo, indicando que renda, saúde e educação são fatores importantes no
desenvolvimento humano de uma nação.
Como os dados se referem a estados brasileiros, e como o Brasil tem
uma heterogeneidade muito grande, representaremos os demais fatores que
influenciam no desenvolvimento humano, mas que não entraram nesse modelo,
por εi, que supomos ter distribuição normal, com média zero e variância constante.
Os dados obtidos no site Atlas Brasil foram importados para o Gretl e ao
todo temos 27 observações. Para compreender melhor o significado de dados de
corte e da análise de regressão múltipla usando matrizes, vamos dar uma olhada
no quadro seguinte:
QUADRO 2 – AMOSTRA DA BASE DE DADOS DO IDHM DE 1991
Unidade da Federação
X1
RDPC
ESPVIDA
EANOSESTUDO
IDHM
Rondônia
1
304,90
63,11
7,55
0,407
Acre
1
284,96
63,72
6,56
0,402
Amazonas
1
345,82
63,67
6,52
0,430
Roraima
1
437,24
62,66
7,14
0,459
Pará
1
273,22
63,42
6,48
0,413
Amapá
1
378,57
65,05
7,81
0,472
Tocantins
1
243,58
60,32
6,36
0,369
Maranhão
1
156,47
58,04
6,29
0,357
Piauí
1
167,03
60,71
5,89
0,362
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.
A primeira coluna refere-se aos estados da federação e torna clara a
diferença entre dados de corte e séries temporais. Essa base tem informações
exclusivamente do ano de 1991, para cada estado brasileiro. Dito de outra forma,
os dados não variam no tempo, o que caracteriza os dados de corte.
A coluna X1 é formada por números 1 porque, como vimos em 1.7, usamos
essa coluna para estimar o intercepto β̂1 do nosso modelo de regressão. As demais
colunas são as variáveis explicativas, exceto a última, que é a variável dependente.
A Figura 1 apresenta os gráficos de dispersão entre a variável dependente
IDHM e as demais variáveis explicativas. Como podemos perceber, há uma
correção positiva entre as variáveis explicativas individualmente e a variável
dependente. O gráfico ilustrado a seguir reforça a hipótese de que podemos
esperar que os coeficientes estimados sejam positivos:
110
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
FIGURA 1 – GRÁFICOS DE DISPERSÃO DO IDHM 1991
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.
O Gretl, através dos seus menus, nos fornece uma série de estatísticas
descritivas que vamos deixar para você explorar. Aproveite esse exemplo para
aprender mais sobre essa ferramenta que é fundamental no nosso processo de
aprendizado.
Vamos rodar a regressão sobre a equação 2.35. Para isso, na barra de menus
do Gretl, selecione “Modelo” e na sequência “Mínimos Quadrados Ordinários”.
Na janela que será exibida (Figura 2), você deve selecionar as variáveis e colocálas nos seus respectivos campos.
Esta é outra grande vantagem do Gretl: tanto o seu menu quanto as janelas
de opções são totalmente intuitivas. Cada elemento que forma as rotinas prontas
do software encontra correspondência nos manuais de econometria.
111
UNIDADE 2 | REGRESSÃO MÚLTIPLA
FIGURA 2 – ESPECIFICAÇÃO DO MODELO ECONOMÉTRICO NO GRETL
FONTE: Adaptado de Gretl (2018)
O Quadro 3 apresenta os resultados da regressão. A primeira análise que
fazemos é verificar se os coeficientes estimados têm o sinal que esperávamos
encontrar. Veja que todos são positivos, corroborando nossa hipótese inicial, de
que renda, saúde e educação são elementos que melhoram o desenvolvimento
humano de uma nação.
112
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
QUADRO 3 – RESULTADO DA ESTIMAÇÃO POR MÍNIMOS QUADRADOS ORDINÁRIOS
Modelo 1: MQO, usando as observações 1-27
Variável dependente: IDHM
coeficiente
erro padrão
razão-t
p-valor
-----------------------------------------------------------const
0,00909081
0,103925
0,08747
0,9311
RDPC
0,000216030
3,01665e-05
7,161
2,72e-07 ***
ESPVIDA
0,00358231
0,00207447
1,727
0,0976
*
EANOSESTUDO
0,0179243
0,00471780
3,799
0,0009
***
Média var. dependente
0,453926
Soma resíd. quadrados
0,005474
R-quadrado
0,959325
F(3, 23)
180,8175
Log da verossimilhança 76,48761
Critério de Schwarz
−139,7919
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
0,071943
0,015427
0,954019
3,94e-16
−144,9752
−143,4339
Obs. *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
FONTE: Adaptado de Gretl (2018) e <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.
Analisando o intercepto β̂1, vemos que o seu valor é extremamente
pequeno, 0,0091. Com um erro padrão de 0,1039, obtemos um valor tcalculado =
βˆ 1
0 , 0091
0,0875, que é obtido=
por t =
= 0 , 0875.
0 ,1039
ep βˆ 1
( )
Estabelecendo um teste de hipótese com H0: β1 = 0 contra a hipótese
alternativa de que β1 ≠ 0, podemos verificar se esse coeficiente é estatisticamente
significativo ao nível de significância α, de 5%, ou α = 0,05. Procuramos os valores
críticos de t em uma tabela de distribuição de probabilidade ou com o auxílio do
Gretl, como já vimos.
Considerando n – k graus de liberdade, dado pelo número de observações
da amostra menos a quantidade de coeficientes estimados, 27 – 4, chegamos
a 23 graus de liberdade. Com o auxílio das tabelas estatísticas do Gretl, em
“Ferramentas” e “Tabelas estatísticas”, encontramos um ttabela de 2,06866. Como o
tcalculado < ttabela, não podemos rejeitar a hipótese nula de que o coeficiente estimado
β1 é estatisticamente igual a zero.
Isso quer dizer que esse valor de 0,0091 obtido para o parâmetro não
tem significância do ponto de vista estatístico. Como vimos na Unidade 1, se
rejeitarmos a hipótese nula e ela for verdadeira, cometeremos o erro do tipo I,
com probabilidade α%.
Para sermos mais precisos, a probabilidade de se rejeitar a hipótese nula e
ela ser verdadeira é dada pelo p – valor. Nos resultados apresentados pelo Gretl,
esse número está na última coluna e é de 0,9311 para a constante. Isso quer dizer
que, do ponto de vista estatístico, não podemos rejeitar a hipótese nula. Se o
113
UNIDADE 2 | REGRESSÃO MÚLTIPLA
fizermos, temos 93,11% de chances de cometer um erro do tipo I, motivo pelo
qual não podemos considerar esse parâmetro estatisticamente significativo.
Para os demais coeficientes, para sermos mais práticos, vamos nos
concentrar no p – valor. Note que tanto β̂ 2 quanto β̂ 4 são estatisticamente
significativos a um nível de significância de 1%, porque o p – valor é menor do
que 0,01. Por outro lado, β̂ 3 só é estatisticamente significativo a um nível de
significância estatística de 10%, pois, o p – valor é 0,0976, maior do que 0,01 e 0,05.
Esse resultado nos diz que, em 1991, a variável expectativa de vida não teve uma
contribuição muito forte para explicar o valor do IDHM.
Vimos em 2.31 que é possível verificar se, em conjunto, os coeficientes β2, β3
e β4 são estatisticamente significativos. Para isso, usamos o teste F, cujo resultado
é apresentado pelo Gretl.
No Quadro 3 temos Fcalculado = 180,8175, que podemos estabelecer um nível
de significância α e procurar o seu valor crítico em uma tabela de F, ou ainda, olhar
diretamente no p – valor que também é apresentado pelo Gretl, com valor de 3,94e16. Esse número complicado de se ler é um número científico, como já tivemos a
oportunidade de discutir. Ele significa que inicia com zero e, após a vírgula, na
posição 16, aparece o número 394. Seu valor real é 0,000000000000000394, que
podemos considerar como sendo um número muito pequeno e extremamente
próximo de zero.
Em termos práticos, a leitura que fazemos é que, sob a hipótese nula de
H0: β2 = β3 = β4 = 0, podemos rejeitá-la com uma probabilidade muito pequena,
praticamente zero, de se cometer um erro do tipo I. Com isso, podemos dizer
que, apesar de o coeficiente β̂ 3 não ser estatisticamente significativo a um nível
de 1% ou 5%, consideramos que, em conjunto, os coeficientes estimados são
estatisticamente significativos.
Outra estatística que nos ajuda a verificar a qualidade do nosso modelo
é o R2, que dá uma ideia da qualidade do ajustamento do modelo aos dados. Em
SQE
2.32, e no Quadro 1, vimos que seu valor é obtido por R2 =
, e a sua estimativa
STQ
é apresentada no Quadro 3.
Outra forma de obter essa estimativa, como vimos no Quadro 1, é através
da ANOVA. Para isso, na janela de resultados do modelo estimado, selecione
“Análise” e em seguida “ANOVA”. O resultado está na Figura 3.
114
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
FIGURA 3 – TABELA ANOVA PARA O MODELO DE REGRESSÃO
FONTE: Adaptado de Gretl (2018)
Com um valor de R2 = 0,9593, podemos dizer que 95,93% das variações
no IDHM de 1991 podem ser explicadas pelo nosso modelo de regressão, o que
significa que o modelo se ajusta muito bem aos dados e traz um grande poder
explicativo.
Essa estimativa foi feita com base nas informações disponíveis de 1991. E
se mantivermos a análise de dados de corte e fizermos a mesma estimativa só que
com os dados de 2000 e 2010 e com as mesmas variáveis, o que encontraremos?
O Quadro 4 compara o modelo 2.34 referente aos três anos de estudo
individualmente. Primeiro cabe ressaltar que o IDHM no Brasil, em 1999,
era de 0,493, passou para 0,612 em 2000 e para 0,727 em 2010. O segundo
ponto importante é o valor do coeficiente estimado da renda per capita, que é
extremamente pequeno. Isso indica que, mantido tudo o mais constante, a renda
tem um peso muito pequeno para explicar o IDHM.
A esperança de vida ao nascer, por outro lado, apresentou um aumento
no seu valor nos anos seguintes e uma melhora na significância estatística.
Podemos interpretar esse resultado de forma positiva, na medida em que essa
variável mede o número médio de anos que as pessoas deverão viver a partir do
nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de
mortalidade por idade, prevalecentes no ano do Censo. Dito de outra forma, a
melhora na esperança de vida, consequência da melhora nas condições de saúde
da população, tem contribuído mais para a melhora do IDHM.
115
UNIDADE 2 | REGRESSÃO MÚLTIPLA
QUADRO 4 – COMPARANDO O MODELO 2.34 PARA TRÊS ANOS DISTINTOS
1991
2000
2010
Constante
0,0091
(0,9311)
−0,0509
(0,5840)
−0,5379
(0,0008)***
RDPC
0,0002
(0,0000)***
0,0001
(0,0000)***
0,00006
(0,0000)***
ESPVIDA
0,0036
(0,0976)*
0,0052
(0,0041)***
0,0148
(0,0000)***
EANOSESTUDO
0,0179
(0,0009)***
0,0244
(0,0000)***
0,0113
(0,0070)***
F
180,8175
(0,0000)***
470,1644
(0,0000)***
282,6830
(0,0000)***
R2
0,9593
0,9839
0,9736
ajustado
0,9540
0,9819
0,9701
R
2
Obs.: p – valor entre parênteses com *, ** e *** indicando significância estatística ao nível de
10%, 5% e 1% respectivamente.
FONTE: Adaptado de Gretl (2018, s.p.) e <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.
Finalmente, olhando a variável educação, a sua importância no modelo
aumenta de 1991 para 2000, mas diminui em 2010. Caberia um estudo específico
sobre esse tema, investigando as razões pelas quais essa variável oscilou entre esses
três anos de amostra. Esse é um belo exemplo da importância da econometria na
pesquisa científica. Basta comparar os resultados entre modelos distintos ou aplicados
entre períodos distintos para se despertar novos temas e opções de estudo.
Acadêmico! Faltou falar sobre a constante. Você deve ter percebido que
apenas no primeiro ano é que esse coeficiente estimado não era estatisticamente
significativo. Isso reforça a nossa tese de se ter muito cuidado antes de excluí-lo
do modelo. Principalmente porque em 2010 o seu valor, além de ser negativo,
apresentou um valor bem alto se comparado aos demais coeficientes estimados.
Esse resultado pode significar que o nosso modelo, de um modo geral,
pode ter problemas de especificação. Isso fica claro na medida que observamos a
composição da base de dados. O IDHM, por exemplo, é um índice. RDPC é expresso
em Reais, ESPVIDA e EANOSESTUDO em anos. Essas unidades de medida
distintas tornam confusa a interpretação individual dos parâmetros estimados.
Por exemplo, se pegarmos o coeficiente ESPVIDA para 2010, veremos que o
seu valor estimado é de 0,0148. Isso quer dizer que, cada ano adicional na esperança
de vida ao nascer eleva o IDHM em 0,0148. Políticas públicas voltadas à melhoria
na qualidade de vida, ações de saúde e cidadania, poderiam fazer com que as
pessoas vivessem mais, com mais qualidade e saúde, melhorando o IDHM. Porém,
essa análise é superficial e, como dissemos anteriormente, merece um estudo mais
profundo para se entender melhor o seu impacto na variável dependente.
116
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
Dando uma olhada no F, percebemos que em conjunto os coeficientes
estimados são estatisticamente significativos e que o R2 é bem grande em cada um
dos anos do estudo. A propósito disso, acrescentamos outra estatística, o R2ajustado.
Usamos o termo ajustado para designar que ele é ajustado pelo número de graus
de liberdade.
(
2
=1 − 1 − R2
Rajustado
) nn −− 1k
2.35
Essa estatística é útil quando formos comparar modelos diversos contendo
diferentes quantidades de variáveis explicativas. Por exemplo, um modelo com
uma variável explicativa comparada a outro com duas variáveis explicativas. A
definição de R2 diz que ele é o grau de ajustamento ou quanto das variações na
variável dependente são explicadas pelo modelo. Por isso, quanto mais variáveis
explicativas incluirmos no nosso modelo, maior tende a ser o R2 . Como na
equação 1.53 há uma punição para o acréscimo de variáveis explicativas pela
perda do número de graus de liberdade, essa medida nos fornece uma maneira
de comparar modelos diferentes.
4 TESTES ADICIONAIS APLICADOS AOS RESULTADOS DOS
MODELOS DE REGRESSÃO
Vamos avançar um pouco na análise de regressão, partindo de um modelo
econométrico estimado. Para isso, considere a teoria Keynesiana de preferência
por liquidez. Segundo essa teoria, os motivos advindos de transação, precaução e
especulação levam a uma função de demanda por moeda que depende da renda
e da taxa de juros.
DICAS
Para ver os detalhes dessa teoria, consulte um manual de Economia Monetária,
como este escrito por Carvalho et al. (2015):
• CARVALHO, Fernando J. Cardim de et al. Economia monetária e financeira. 3. ed. Rio de
Janeiro: Campus, 2015. 423 p.
Para a nossa análise usaremos o modelo 2.36, que descreve a demanda por
moeda como uma função linear:
117
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Mt = β1 + β2Yt + β3it + εt
2.36
Em que Mt representa a demanda por moeda (aqui usamos o M1 como
proxy), Yt denota o Produto Interno Bruto a preços de mercado (variável que
funciona como uma proxy para a renda), e it representa a taxa de juros do CDI Over,
que é a média dos juros que instituições financeiras pagam a outras instituições
financeiras que lhe emprestaram dinheiro no mercado interbancário. εt é o termo
de erro e supõe-se que ε~N(0, σ2I).
Em 2.36 estamos supondo que demanda por moeda seja positivamente
relacionada com a renda e negativamente relacionada à taxa de juros. Os dados
são trimestrais e foram obtidos para a economia brasileira no site <www.ipeadata.
gov.br>, para o período entre 2002 e 2017, com um total de 64 observações e estão
disponíveis no Quadro 5.
Além disso, como no modelo 2.36 estamos interessados em medir a
elasticidade renda da demanda por moeda e a elasticidade dos juros em relação à
demanda por moeda, as variáveis foram transformadas em logaritmos.
QUADRO 5 – VARIÁVEIS MACROECONÔMICAS PARA ESTIMAÇÃO DA DEMANDA POR MOEDA
Período
M
Y
i
P
Período
M
Y
i
P
2002/01
11,2012
12,7434
1,4367
0,3988
2010/01
12,3428
13,6949
0,7048
0,7227
2002/02
11,2856
12,8141
1,4481
0,3646
2010/02
12,3661
13,7580
0,7957
0,0000
2002/03
11,3871
12,8474
1,4869
0,9478
2010/03
12,4242
13,8134
0,9603
-0,6931
2002/04
11,5885
12,8976
1,6074
1,8810
2010/04
12,5492
13,8713
0,9345
0,8020
2003/01
11,3749
12,8923
1,7352
1,6351
2011/01
12,4366
13,8319
0,9726
0,8920
2003/02
11,3577
12,9456
1,7551
0,3577
2011/02
12,4445
13,8987
1,0305
0,3365
2003/03
11,3549
12,9931
1,7247
0,2776
2011/03
12,4492
13,9220
1,1014
0,0583
2003/04
11,6050
13,0441
1,4816
0,1398
2011/04
12,5616
13,9646
0,9811
0,3784
2004/01
11,4899
13,0053
1,3246
0,6152
2012/01
12,4589
13,9373
0,8981
0,1989
2004/02
11,5374
13,0853
1,2994
0,4700
2012/02
12,4887
13,9837
0,7349
0,0770
2004/03
11,6069
13,1328
1,3508
0,6627
2012/03
12,5239
14,0229
0,6477
0,3507
2004/04
11,7594
13,1729
1,3834
0,6931
2012/04
12,6917
14,0559
0,5280
0,6881
2005/01
11,6682
13,1218
1,4297
0,5822
2013/01
12,5889
14,0319
0,4790
0,6627
2005/02
11,6693
13,1911
1,5174
0,2927
2013/02
12,6142
14,0951
0,5812
0,1655
2005/03
11,6735
13,2229
1,5550
-0,2614
2013/03
12,6158
14,1187
0,7507
-0,4780
2005/04
11,8830
13,2750
1,4602
0,5128
2013/04
12,7499
14,1615
0,8380
0,7130
2006/01
11,7656
13,2254
1,3955
0,3646
2014/01
12,6441
14,1420
0,8760
0,7793
2006/02
11,7910
13,2742
1,2747
-2,3026
2014/02
12,6308
14,1678
0,9210
0,4318
2006/03
11,8710
13,3340
1,2561
-0,7985
2014/03
12,6570
14,1954
1,0024
-0,1863
2006/04
12,0688
13,3929
1,1391
0,1133
2014/04
12,7703
14,2266
1,0165
0,5423
118
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
2007/01
11,9549
13,3557
1,1075
0,2311
2015/01
12,6615
14,1916
1,0331
1,3429
2007/02
12,0087
13,4160
1,0618
-0,2107
2015/02
12,6313
14,2076
1,1079
0,8154
2007/03
12,0715
13,4471
1,0231
-0,1165
2015/03
12,5975
14,2264
1,2328
0,3293
2007/04
12,3520
13,4958
0,9657
0,3577
2015/04
12,7201
14,2544
1,2123
1,0367
2008/01
12,1219
13,4759
0,9466
0,4187
2016/01
12,6119
14,2194
1,1791
0,9632
2008/02
12,1347
13,5535
1,0086
0,7372
2016/02
12,6146
14,2575
1,2118
0,5596
2008/03
12,1797
13,6080
1,1660
0,0677
2016/03
12,6372
14,2694
1,2435
0,0392
2008/04
12,3169
13,6117
1,1990
0,0862
2016/04
12,7594
14,3050
1,1757
-0,3011
2009/01
12,1666
13,5360
1,0613
0,2070
2017/01
12,6411
14,2761
1,1081
-0,0408
2009/02
12,2171
13,5968
0,8638
0,2776
2017/02
12,6642
14,3047
0,9322
-1,5141
2009/03
12,2532
13,6563
0,7792
-0,4620
2017/03
12,6656
14,3110
0,8122
-0,5276
2009/04
12,4302
13,7327
0,7344
0,0583
2017/04
12,8022
14,3477
0,5644
0,1310
Obs.: Dados em logaritmos.
FONTE: <www.ipeadata.gov.br>. Acesso em: 24 ago. 2018
Os resultados da estimação estão no Quadro 6 e, como esperávamos, o
sinal dos coeficientes estimados está de acordo com o que foi dito incialmente, ou
seja, o coeficiente β̂ 2 é positivo e o coeficiente estimado β̂ 3 é negativo.
O valor dos coeficientes estimados é lido como elasticidade, ou seja, uma
variação de 1% na renda conduz a um aumento na demanda por moeda na ordem
de 0,83%. Por outro lado, um aumento na taxa de juros em um ponto percentual
reduz a demanda por moeda em 0,27%:
QUADRO 6 – RESULTADO DA ESTIMAÇÃO DE 2.36
Modelo 1: MQO, usando as observações 2002:1-2017:4 (T = 64)
Variável dependente: M
coeficiente
erro padrão
razão-t
p-valor
---------------------------------------------------------const
1,15514
0,436947
2,644
0,0104
**
Y
0,829907
0,0292322
28,39
7,34e-037 ***
i
−0,270326
0,0464715
−5,817
2,37e-07 ***
Média var. dependente
12,20565
Soma resíd. quadrados
0,398430
R-quadrado
0,971251
F(2, 61)
1030,419
Log da verossimilhança 71,71933
Critério de Schwarz
−130,9620
rô
0,371141
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
Durbin-Watson
0,469026
0,080819
0,970309
9,72e-48
−137,4387
−134,8872
1,200039
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 27 ago. 2018.
119
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Modelos como o 2.36 são derivados de outras formas funcionais, como
a função de produção Cobb-Douglas, muito utilizada na microeconomia. Para
entender melhor essa derivação, considere a equação 2.37:
Yt = β1 Xtβ2 e ε t
2.37
Aplicando logaritmo nos dois lados da equação, temos:
lnYt =
ln β1 + β 2 ln Xt + ε t
2.38
Se fizermos Yt* = lnYt, α 1 = β1, α 2 = β 2, Xt* = ln Xt e reescrevermos 2.38 para:
Yt* =
α 1 + α 2 Xt* + ε t
2.39
Temos novamente um modelo de regressão com a aparência que estamos
acostumados a estimar, ou seja, um modelo econométrico linear nos parâmetros.
Assim, interpretamos o parâmetro α2 como elasticidade de X em relação a Y, ou
seja, quantos por cento a variável dependente varia quando a variável explicativa
variar 1 ponto percentual.
Há outras possibilidades para a aplicação de logaritmos. Podemos aplicar
o logaritmo apenas no lado direito da equação, ou apenas no lado esquerdo. Em
ambos os casos a interpretação muda, como podemos ver no Quadro 7, que traz
quatro modelos de regressão em que aplicamos logaritmos. A decisão de quando
e como usar cada modelo dependerá do que estamos interessados em obter com
a nossa estimação, portanto, a decisão é do pesquisador.
Voltando ao Quadro 6, falta verificar ainda se os coeficientes estimados
são estatisticamente significativos. A constante β̂1 apresentou um p – valor de
0,0104, que é acompanhado de dois asteriscos. Isso quer dizer que, ao nível de
1% de significância estatística, não podemos rejeitar a hipótese nula de que este
parâmetro é igual a zero. Porém, aos níveis de 5% e 10% de significância estatística,
nós rejeitamos H0 em favor da hipótese alternativa e, portanto, podemos dizer
que a constante é diferente de zero do ponto de vista da significância estatística.
120
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
QUADRO 7 – FORMAS FUNCIONAIS ALTERNATIVAS
Modelo
Equação
Interpretação do coeficiente angular
Linear
Yi = β1 + β2Xi
Uma variação de uma unidade em X i altera a variável
dependente, Yi, em β2 unidades.
Log-linear
InYi = β1 + β2 InXi
Uma variação de um por cento em X i altera a variável
dependente, Yi, em β2% (elasticidade).
Log-lin
InYt = β1 + β2t
Estamos falando em um modelo de séries temporais em que t
= 1, 2, ..., T , que pode representar dias, meses, trimestres, anos
etc. Neste cvaso, β2 x 100 mede a taxa de crescimento médio da
variável dependente.
Lin-log
Yt = β1 + β2InXt
Usamos para medir crescimento, só que desta vez uma variação
absoluta. β2 ÷ 100 é quanto, em valores absolutos, Yt varia
quando Xt varia 1%.
FONTE: Adaptado de Gujarati e Porter (2011)
Lembre-se da regra geral, quando o p – valor é menor que o nível de
significância estabelecido, 1%, 5%, ou 10%, rejeitamos a hipótese nula de que o
coeficiente é estatisticamente igual a zero. Se o p – valor é maior que o nível de
significância estatística, não podemos rejeitar a hipótese nula.
O p – valor mede a probabilidade exata de cometer um erro do tipo 1,
ou seja, rejeitar uma hipótese quando ela é verdadeira. No caso da constante
estimada, do Quadro 6, a probabilidade de rejeitarmos a hipótese de que esse
parâmetro é igual a zero e ele de fato ser igual a zero é de 1,04%. Trata-se de um
valor baixo e, portanto, se estabelecermos um nível de significância estatística
em 1%, 5% ou 10%, rejeitar a H0, ou não, será uma decisão do pesquisador e
dependerá do grau de rigorosidade com que ele está tratando a sua pesquisa.
Todos os demais coeficientes estimados são individual e estatisticamente
significativos aos níveis de 1%, 5% e 10%. Se olharmos a estatística F, veremos que
o seu valor calculado é de F2,61 = 1030,419, e se analisarmos o p – valor associado
a essa estatística, veremos que é igual a 0,0000. Isso significa que rejeitamos H0
de que β2 = β3 = 0, e concluímos que, em conjunto, os coeficientes estimados são
estatisticamente significativos.
Finalmente, o R2 indica que 97,12% das variações de Mt são explicados
pelo modelo 2.36, o que indica um alto poder de explicação do modelo, mas será
que não estamos deixando alguma variável de fora? Talvez tenhamos incluído
variáveis em excesso! Ou será que o modelo foi especificado de forma correta?
Vamos começar verificando se a especificação do modelo 2.36 está correta.
Primeiro testaremos se podemos deixar alguma variável de fora, ou seja, se não
temos variáveis em excesso no modelo.
Retornamos ao modelo 2.36, expresso agora em 2.40:
121
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Mt =β1 + β 2 Yt + β 3 it + ε t
2.40
Vamos testar se a variável it pode ser eliminada do modelo e assim
melhoramos o resultado da nossa estimação. Para isso, a partir da janela do
resultado do modelo estimado, reproduzida no Quadro 6, selecione o menu
“Testes” e, na sequência, escolha “Omitir variáveis”. Preencha a janela de testes
conforme a Figura 4 e clique em “Ok” para ver o resultado do teste:
FIGURA 4 – OMITIR VARIÁVEIS NO MODELO 2.40
FONTE: Adaptado de Gretl (2018)
O resultado do teste foi sintetizado no Quadro 8. A hipótese nula do teste
é que o coeficiente estimado relacionado à variável it é estatisticamente igual a
zero. O Gretl emprega um teste F e reporta essa estatística juntamente ao p – valor,
para facilitar a nossa decisão de omitir ou não a variável. Ele também informa
quantos critérios de informação melhoraram com a omissão da variável que está
sendo testada.
122
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
QUADRO 8 – RESULTADO DO TESTE PARA OMITIR VARIÁVEIS DO MODELO
Teste no Modelo 1
Hipótese nula: o parâmetro de regressão é igual a zero para i
Estatística de teste: F(1, 61) = 33,8377, p-valor 2,36729e-007
A exclusão de variáveis melhorou 0 de 3 critérios de informação.
FONTE: O autor
O primeiro passo para entender o resultado é verificar que o p – valor
é igual a 0,0000. Isso significa que você deve rejeitar a hipótese nula, ou seja,
o parâmetro associado à variável it é relevante, ou estatisticamente diferente de
zero. Na mesma linha, o Gretl nos informa que dos três critérios de informação
levados em consideração, Akaike, Schwarz e Hannan-Quinn, nenhum deles
melhorou com a exclusão dessa variável.
Esses critérios de informação são definidos da seguinte forma:
Critério de informação
Akaike
Schwarz
Hannan-Quinn
Equação
()
BIC =
−2l (θˆ ) + k lnn
HQC =
−2l (θ̂ ) + 2 k lnlnn
AIC =
−2l θˆ + 2 k
2.41
2.42
2.43
Em que l (θ̂ ) representa o log de máxima verossimilhança como uma função
do vetor de parâmetros estimados (θ̂ ) e k é o número de parâmetros estimados
no modelo de regressão. A regra geral dos critérios de informação é que, quando
comparamos modelos diferentes, devemos sempre selecionar aqueles que
apresentem o menor critério de informação.
DICAS
Para conhecer mais detalhes, leia Cottrell e Lucchetti (2018, p. 221).
• COTTRELL, Allin; LUCCHETTI, Riccardo “jack”. Gretl User’s Guide: Gnu Regression,
Econometrics and Time-series Library. 2018. 394 p.
Também pode ser obtido através do Gretl, no menu “Ajuda” e “Guia do usuário”. Clicando
nessas opções, o Gretl abre esse manual no formato PDF.
123
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Portanto, como rejeitamos a hipótese nula relativa à exclusão da variável
it e como o modelo estimado sem essa variável não melhora nenhum dos três
critérios de informação citados, concluímos que it não deve ser excluída do
modelo de regressão.
Isso nos possibilita fazer outro questionamento. Será que não estamos
deixando uma variável relevante de fora do nosso modelo? Digamos que
queremos verificar se outra variável, digamos Pt, deve entrar no modelo. Neste
caso, 2.40 deveria ser:
Mt =β1 + β 2 Yt + β 3 it + β 4 Pt + ε t
2.44
Para fazer o teste, voltamos à janela do modelo 2.40 estimado pelo Gretl,
selecionamos o menu “Testes” e depois escolhemos “Acrescentar variáveis”. Será
apresentada uma janela para você preencher as informações, como a da Figura 5.
Você deve selecionar a variável que quer testar e clicar em “Ok”.
FIGURA 5 – TESTE DE ACRÉSCIMO DE VARIÁVEIS AO MODELO 2.40
FONTE: O autor
124
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
O resultado do teste está no Quadro 9. Novamente estamos suprimindo
parte do que o Gretl reporta para facilitar a compreensão. Perceba que a hipótese
nula, H0, é de que o parâmetro de regressão dessa nova variável é igual a zero,
ou seja, ele não tem significância estatística e, portanto, não deve ser incluído no
modelo. Perceba também que o Gretl reporta o p – valor do teste – que, neste caso,
é de 0,0838. A pergunta que fica é: Com base no resultado apresentado, podemos
rejeitar a hipótese nula de que não devemos incluir essa nova variável no modelo
de regressão?
QUADRO 9 – RESULTADO DO TESTE DE INCLUSÃO DE VARIÁVEIS AO MODELO
Teste no Modelo 1
Hipótese nula: o parâmetro de regressão é igual a zero para P
Estatística de teste: F(1, 60) = 3,091, p-valor 0,0838263
O acréscimo de variáveis melhorou 2 de 3 critérios de informação.
FONTE: O autor
A resposta correta a essa pergunta é “depende”! O pesquisador deve, nessa
situação, avaliar o quão rigoroso ele é em relação a sua pesquisa. Perceba que
aos níveis de 1% e 5% não podemos rejeitar a hipótese nula de que o parâmetro
de regressão é igual a zero para a variável Pt. No entanto, ao nível de 10% de
significância estatística, podemos rejeitar a hipótese nula e, portanto, incluir essa
variável no modelo 2.40.
Agora que conhecemos os critérios de informação, podemos ver que
dois dos três critérios melhoram com a inclusão dessa variável. Seja qual for a
sua decisão, pondere bem antes de incluir ou excluir uma variável. Em outras
palavras, considere a teoria econômica subjacente ao modelo estimado e verifique
se faz sentido esse acréscimo ou não.
Costumamos usar a expressão “parcimonioso” para definir o melhor
modelo de regressão. Para fins de ilustração, vamos acrescentar a variável Pt ao
modelo e estimar a regressão 2.44. O resultado pode ser visto no Quadro 10:
125
UNIDADE 2 | REGRESSÃO MÚLTIPLA
QUADRO 10 – RESULTADO DA ESTIMAÇÃO DO MODELO 2.44
Modelo 3: MQO, usando as observações 2002:1-2017:4 (T = 64)
Variável dependente: M
coeficiente
erro padrão
razão-t
p-valor
---------------------------------------------------------const
1,14960
0,429657
2,676
0,0096
Y
0,830509
0,0287457
28,89
6,60e-037
i
−0,279869
0,0460162
−6,082
8,96e-08
P
0,0280719
0,0159670
1,758
0,0838
Média var. dependente
12,20565
Soma resíd. quadrados
0,378910
R-quadrado
0,972660
F(3, 60)
711,5241
Log da verossimilhança 73,32680
Critério de Schwarz
−130,0181
rô
0,391675
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
Durbin-Watson
***
***
***
*
0,469026
0,079468
0,971293
7,85e-47
−138,6536
−135,2516
1,157380
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 27 ago. 2018.
Perceba que o coeficiente estimado da variável Pt só é estatisticamente
significativo ao nível de 10% de significância estatística. Porém, note que o R2
se elevou em comparação a 2.40, passando de 0,9712 para 0,9726, ainda assim
permanecendo alto. Por outro lado, sabemos que o R2 não deve ser usado para
comparar modelos de regressão, mas sim o R2ajustado, que no caso do modelo 2.40
era de 0,9703, e no modelo 2.44 passou para 0,9712.
E quanto aos critérios de informação? Como temos menos de 100
observações, o melhor critério a ser analisado é o Akaike, cujas razões são discutidas
em Diebold (2007, p. 85). Se tivéssemos mais de 100 observações, preferiríamos o
Schwarz. No entanto, o critério de Hannan-Quinn é assintoticamente melhor do
que o de Schwarz. Um resumo dos critérios de informação está no Quadro 11:
QUADRO 11 – COMPARANDO OS CRITÉRIOS DE INFORMAÇÃO
Critério
Modelo 2.40
Modelo 2.44
Akaike
−137,4387
−138,6536
Schwarz
−130,9620
−130,0181
Hannan-Quinn
−134,8872
−135,2516
FONTE: O autor
126
TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS
Dois pontos a serem destacados no Quadro 11:
1. Os valores são negativos, portanto, -138 é menor do que -137.
2. O critério de Schwarz é o único que teve o seu valor aumentado, enquanto os
demais diminuíram.
Com base no Quadro 11, percebemos que o modelo 2.44 é o que deve
ser escolhido, porque a inclusão da nova variável torna este modelo mais
parcimonioso, ou seja, melhora a capacidade de previsão do modelo (visto
pelo R2) e, de modo geral, os coeficientes estimados são todos estatisticamente
significativos, contanto que você considere 10% de significância estatística.
Há ainda um teste a ser aplicado, o RESET, que é um acrônimo de Regression
Specification Error Test. Ele é baseado na distribuição F e traz na hipótese nula, H0,
a informação de que a forma funcional é adequada, enquanto a alternativa é que
existe outra forma funcional que se ajusta melhor aos dados utilizados.
Novamente, a implementação do teste é facilitada com o uso do Gretl,
porque ele já tem no seu pacote uma rotina pronta. Para acessá-la, a partir da
janela do modelo estimado, apresentado no Quadro 6, selecione o menu “Testes”
e depois “RESET de Ramsey”. Na janela que abrir, você deverá informar a
especificação alternativa a ser testada. Essa forma funcional é utilizada para fins
de comparação com o modelo originalmente estimado. Os resultados do teste
estão no Quadro 12.
Como você pode perceber, a tela apresentada no Quadro 12 é o resultado
da estimação de uma regressão auxiliar. Essa regressão é construída a partir da
estimação do modelo 2.40, quando você deve salvar a série da variável dependente
estimada e incluir essa série na regressão auxiliar na forma de quadrados e cubos
(no quadro representado por yhat^2 e yhat^3).
QUADRO 12 – RESULTADO DO TESTE RESET APLICADO AO MODELO 2.40
Regressão auxiliar para o teste de especificação RESET
MQO, usando as observações 2002:1-2017:4 (T = 64)
Variável dependente: M
coeficiente
erro padrão
-------------------------------------------------------const
206,630
157,046
Y
−62,6990
45,3887
i
20,5102
14,7860
yhat^2
6,61986
4,52447
yhat^3
−0,190175
0,124680
razão-t
p-valor
1,316
−1,381
1,387
1,463
−1,525
0,1934
0,1724
0,1706
0,1487
0,1325
Aviso: matriz de dados quase singular!
Estatística de teste: F = 15,511588,
com p-valor = P(F(2,59) > 15,5116) = 3,86e-006
FONTE: O autor
127
UNIDADE 2 | REGRESSÃO MÚLTIPLA
As duas últimas linhas do quadro são as que mais nos interessam. A
primeira apresenta a estatística Fcalculada, e a segunda o p – valor desse teste F. Como
podemos ver, o número reportado é extremamente pequeno e menor do que os
usuais níveis de significância estatística que utilizamos, ou seja, 0,01, 0,05 e 0,10. Com
isso, podemos rejeitar a hipótese nula de que o modelo original está corretamente
especificado e concluir que devemos revisar o modelo como um todo.
Nem sempre o resultado do teste significa que devemos mudar a forma
funcional de linear para logarítmica, ou de logarítmica para quadrática, cúbica
ou recíproca. Muitas vezes, como teremos a oportunidade de ver na Unidade 3,
pode haver outros problemas relacionados ao banco de dados, variáveis proxy
erroneamente especificadas, colinearidade entre variáveis explicativas, correlação
serial dos resíduos ou heteroscedasticidade, entre outros.
No caso do nosso exemplo, o mais provável é que ignoramos o fato de
estarmos lidando com séries temporais e omitimos uma série de testes que
antecedem a estimação desse tipo de dado. Esses testes serão objeto de estudo da
Econometria II e, por enquanto, não iremos abordá-los.
128
RESUMO DO TÓPICO 2
Neste tópico, você aprendeu que:
• É possível estimar os parâmetros de MQO e as principais estatísticas de teste
usando álgebra matricial.
• Usar a álgebra matricial para estimar um modelo de regressão com múltiplas
variáveis explicativas torna o seu entendimento mais intuitivo.
• Pode-se realizar testes adicionais aplicados aos resultados do modelo de
regressão, tais como os testes de omissão e inclusão de variáveis e o teste
RESET, além de outras formas funcionais aplicando logaritmos às variáveis.
• Existem os critérios de informação – Akaike, Schwarz e Hannan-Quinn –
empregados para selecionar modelos que melhor se ajustam aos dados a serem
empregados na estimação.
129
AUTOATIVIDADE
Vamos revisar os principais conceitos vistos no Tópico 2. Para isso, utilize
os dados do Quadro 13, que apresenta a quantidade de veículos produzidos no
Brasil entre janeiro de 2015 e fevereiro de 2018, o rendimento real médio de
todos os trabalhadores efetivos e a taxa média de juros das operações de crédito
com recursos livres para pessoas físicas na linha de aquisição de veículos.
QUADRO 13 – DADOS SOBRE PRODUÇÃO DE AUTOMÓVEIS, SALÁRIO E JUROS
Período
Auto
Salário
Juros
Período
Auto
Salário
Juros
janeiro/2015
165.383
2.269
23,84
agosto/2016
149.414
2.124
26,17
fevereiro/2015
165.270
2.275
24,76
setembro/2016
141.286
2.116
26,13
março/2015
203.826
2.259
24,67
outubro/2016
151.948
2.112
25,75
abril/2015
maio/2015
177.807
2.174
24,55
novembro/2016
185.640
2.109
25,85
178.335
2.159
24,81
dezembro/2016
166.216
2.205
25,7
junho/2015
158.494
2.167
24,71
janeiro/2017
149.289
2.408
26,18
julho/2015
191.375
2.152
24,5
fevereiro/2017
170.349
2.427
25,71
agosto/2015
186.323
2.137
24,79
março/2017
200.123
2.377
24,8
setembro/2015
147.031
2.130
25,57
abril/2017
157.755
2.176
24,39
outubro/2015
165.763
2.125
25,89
maio/2017
208.110
2.160
24,25
novembro/2015
143.934
2.122
26,18
junho/2017
173.609
2.151
24,03
dezembro/2015
123.699
2.192
26,01
julho/2017
187.771
2.157
23,79
janeiro/2016
132.206
2.397
27,48
agosto/2017
219.927
2.163
23,22
fevereiro/2016
118.574
2.394
27,56
setembro/2017
203.103
2.169
22,96
março/2016
165.544
2.345
27,01
outubro/2017
209.989
2.167
22,51
abril/2016
142.067
2.125
26,77
novembro/2017
208.540
2.166
22,14
maio/2016
146.224
2.120
26,33
dezembro/2017
180.665
2.243
22,23
junho/2016
147.480
2.099
25,97
janeiro/2018
180.925
2.446
22,74
julho/2016
152.295
2.105
25,99
fevereiro/2018
176.807
2.468
22,47
FONTE: <www.ipeadata.gov.br> e <www.bcb.gov.br>. Acesso em: 27 ago. 2018.
Para essa atividade, a variável dependente é a quantidade de automóveis
produzidas e as variáveis explicativas são a renda e a taxa de juros. O seguinte
modelo de regressão foi montado:
Autot =
β1 + β 2Salariot + β 3 Jurost + ε t
130
2.45
No entanto, como nosso interesse era obter a elasticidade da produção
de automóveis em razão dos rendimentos e da taxa de juros, transformamos os
dados do Quadro 13 aplicando logaritmos às variáveis e redefinimos o modelo
2.45 como:
ln Autot =
α 1 + α 2 lnSalariot + α 3 ln Jurost + ut
2.46
Com isso, ao estimarmos o modelo 2.46, α̂ 2 nos dirá quanto de aumento
na produção de automóveis teremos, em percentual, quando a renda real
aumentar 1%. Em relação à variável juros, o coeficiente estimado α̂ 3 medirá qual
o percentual de aumento ou redução da produção de automóveis teremos se os
juros para o financiamento de veículos para pessoa física reduzir ou aumentar
em 1%. O resultado do modelo 2.46 estimado é o seguinte:
�Autot
ln
=
20 ,1326
( 0 , 0000 ) * * *
−0 , 2450 lnSalariot
( 0 , 4764 )
−1, 9336 ln Jurost
( 0 , 0000 ) * * *
2.47
Entre parênteses temos o p – valor e os asteriscos *, ** e ***, respectivamente,
que indicam significância estatística aos níveis de 10%, 5% e 1%.
Com base no resultado da regressão, assinale V para as sentenças
verdadeiras e F para as falsas:
a) ( ) Apenas α̂ 2 não é estatisticamente significativo, quando testamos a
hipótese nula, H0: α2 = 0, contra a hipótese alternativa de que H1: α2 ≠ 0.
b) ( ) O modelo 2.46 apresentou R2 = 0,5740. Se estimássemos o modelo 2.45,
teríamos um R2 = 0,5781. Como o R2 é usado para comprar modelos
e nos auxilia na escolha entre eles, devemos escolher o modelo 2.45,
porque apresentou o R2 mais alto.
c) ( ) A estatística F(2,35) = 23,5788 do modelo 2.46, tem p – valor = 0,0000.
Isso significa que rejeitamos a hipótese nula, H0: α2 = α3 = 0, contra a
hipótese alternativa de que pelo menos um dos coeficientes estimados é
estatisticamente diferente de zero.
d) ( ) Como a amostra contém apenas 38 observações, o melhor critério para
decidir entre o modelo 2.45 e 2.46 é o critério de informação de Akaike.
Como no modelo 2.45 AIC = 850,8035 e no modelo 2.46 AIC = –62,80213,
escolhemos o modelo 2.46 como sendo o mais parcimonioso, apesar do
R2 ser menor nesse modelo.
e) ( ) Empregamos o teste RESET aplicado no modelo 2.46, sob a hipótese
nula de que a especificação daquele modelo é adequada, apresentou
p – valor = 0,2893. Isso significa que não devemos usar logaritmos para
estimar 2.46.
131
132
TÓPICO 3
UNIDADE 2
USANDO VARIÁVEIS EXPLICATIVAS
QUALITATIVAS
1 INTRODUÇÃO
Até agora, as variáveis explicativas que entraram nos nossos modelos de
regressão eram quantitativas: anos de estudo, esperança de vida ao nascer em
anos, renda per capita em R$ e assim por diante.
E se quisermos saber, por exemplo, se existe diferença na renda recebida
por homens e mulheres? E se quisermos saber se a renda per capita tem influência
maior sobre o IDH na região Norte e Nordeste do Brasil do que no restante do
país? Como faremos para incluir essas variáveis, haja vista que elas não são
mensuráveis quantitativamente?
Gênero, região geográfica, religião, classe social, entre outras, são categorias
ditas qualitativas e podem entrar nos modelos de regressão, tanto como uma
variável dependente – como nos modelos Logit e Probit – quanto na forma de
variável explicativa, que é o tema desse tópico.
Para fazer isso, empregamos as variáveis binárias, chamadas de dummy,
que assumem apenas dois valores possíveis, zero ou um. Assim, ao estudar a
diferença salarial entre homens e mulheres, podemos inserir uma dummy com
valor igual a zero quando aquela observação se refere a homens, e valor igual
a um, quando se referir a mulheres. Com esse procedimento simples podemos
estimar a diferença média de salários e verificar se essa diferença é significante
do ponto de vista estatístico.
Veremos também que a dummy pode ser empregada para testar quebras
estruturais, identificando se ao longo do tempo os parâmetros de regressão
mudaram em resposta a algum evento importante, como uma guerra, recessão,
quebra na safra agrícola, entre outros.
É possível também usar essa variável para extrair a sazonalidade em
uma série temporal, o que é muito útil quando queremos saber a tendência do
comportamento de alguma variável, mas sabemos que ela tem comportamento
sazonal, como as vendas de fertilizantes, o preço dos hortifrútis, as vendas do
comércio, entre tantos outros exemplos.
A facilidade no emprego dessas variáveis e a sua fácil interpretação tornam a
dummy uma aliada extremamente importante para o econometrista. Entender como
e quando usar essa técnica abrirá o caminho para você ampliar ainda mais o campo
de utilização da econometria no seu dia a dia.
133
UNIDADE 2 | REGRESSÃO MÚLTIPLA
2 ESTIMANDO UM MODELO DE REGRESSÃO COM
VARIÁVEIS QUALITATIVAS
A título de exemplo, vamos verificar qual a diferença média da renda per
capita no Brasil, para o ano de 1991. Para isso, vamos usar os dados fornecidos
pelo <www.atlasbrasil.org.br>, estimando o seguinte modelo de regressão:
RDPCi =
β 1 + β 2 D 2 i + β 3 D 3i + β 4 D 4 i + ε i
3.1
Em que RDPCi é a renda per capita média, calculada como a razão
entre o somatório da renda de todos os indivíduos residentes em domicílios
particulares permanentes e o número total desses indivíduos. As variáveis que
recebem os nomes D acompanhadas por algarismos são dummies regionais,
em que D2 = Sul , assumindo valor igual a 1 para os estados dessa região e 0
para os demais, D3 = Sudeste , tem valor igual a 1 para os estados dessa região
e 0 para os demais, e D4 = Centro – Oeste com valor igual a 1 para os estados
dessa região e 0 para os demais.
Perceba que deixamos duas regiões de fora, Norte e Nordeste. O nosso
objetivo é saber se as pessoas que moram nas regiões Norte e Nordeste têm renda
per capita menor do que as que moram nas demais regiões do país. Essa renda
será obtida pela estimação da constante β̂1. Com isso, temos quatro regiões e três
variáveis dummy.
Por que não temos quatro regiões e quatro variáveis dummy? A regra
geral para usarmos variáveis dummy nos modelos de regressão é sempre ter
uma variável a menos do que a quantidade de categorias estudada. Por exemplo,
se o objetivo é estudar a diferença salarial entre homens e mulheres, teremos
duas categorias, gênero masculino e gênero feminino. Nesse caso, trabalhamos
com uma única variável dummy, que assumirá valor igual a “um” para um dos
gêneros e “zero” para o outro.
Se quisermos usar uma dummy para cada categoria, por exemplo,
gênero masculino e gênero feminino, é indispensável estimar o modelo de
regressão sem o intercepto β1. Lembre-se sempre dessa regra prática, pois
se você estimar a regressão e mantiver a constante, provocará a chamada
“armadilha das variáveis binárias”, causando colinearidade perfeita
(GUJARATI; PORTER, 2011, p. 292).
Como sabemos qual das variáveis atribuiremos o valor 1 e qual assumirá
valor igual a zero? Essa decisão cabe ao pesquisador escolher. No nosso exemplo,
como queremos saber se os residentes das regiões Norte e Nordeste têm renda
menor ou maior do que os das demais regiões, a nossa variável de controle será
aquelas regiões, Norte e Nordeste.
134
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
O Quadro 14 apresenta os dados que usamos no nosso exemplo. Veja
como é construída a base de dados quando inserimos variáveis qualitativas.
Para o primeiro indivíduo, consta estado de Rondônia, que pertence à região
Norte, D2 = 0, D3 = 0 e D4 = 0. Isso acontece para os demais estados que
pertencem a essa região e para os do Nordeste. Veja também, que no caso dos
estados do Sul, D2 = 1, D3 = 0 e D4 = 0, enquanto que os do Sudeste, D2 = 0,
D3 = 1 e D4 = 0.
Evidentemente, os estados da região Centro-Oeste recebem valores D2 =
0, D3 = 0 e D4 = 1. O fato de omitirmos a constante no modelo de regressão fará
com que ele capture a renda média per capita das regiões Norte e Nordeste, que
são as regiões ou categorias de base para o nosso exercício.
QUADRO 14 – RENDA PER CAPITA POR UNIDADE DA FEDERAÇÃO – BRASIL, 1991
Unidade Federação
RDPC
D2 D3 D4
Unidade Federação
RDPC
Rondônia
304,90
0
0
Acre
284,96
0
Amazonas
345,82
Roraima
437,24
Pará
D2 D3 D4
0
Sergipe
247,78
0
0
0
0
0
Bahia
234,57
0
0
0
0
0
0
Minas Gerais
373,85
0
1
0
0
0
0
Espírito Santo
377,38
0
1
0
273,22
0
0
0
Rio de Janeiro
608,80
0
1
0
Amapá
378,57
0
0
0
São Paulo
746,22
0
1
0
Tocantins
243,58
0
0
0
Paraná
439,09
1
0
0
Maranhão
156,47
0
0
0
Santa Catarina
449,78
1
0
0
Piauí
167,03
0
0
0
Rio Grande do Sul
507,61
1
0
0
Ceará
219,83
0
0
0
Mato Grosso do Sul
433,21
0
0
1
Rio Grande do Norte
240,33
0
0
0
Mato Grosso
395,34
0
0
1
Paraíba
196,59
0
0
0
Goiás
410,55
0
0
1
Pernambuco
275,49
0
0
0
Distrito Federal
916,00
0
0
1
Alagoas
211,98
0
0
0
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 27 ago. 2018.
Rodando o modelo 3.1 por mínimos quadrados ordinários obtemos o
resultado apresentado no Quadro 15:
135
UNIDADE 2 | REGRESSÃO MÚLTIPLA
QUADRO 15 – RESULTADO DA ESTIMAÇÃO DO MODELO 3.1 POR MÍNIMOS
QUADRADOS ORDINÁRIOS
Modelo 1: MQO, usando as observações 1-27
Variável dependente: RDPC
coeficiente
erro padrão
razão-t
p-valor
--------------------------------------------------------const
263,647
32,0580
8,224
2,66e-08
D2
201,846
80,6774
2,502
0,0199
D3
262,915
71,6838
3,668
0,0013
D4
275,128
71,6838
3,838
0,0008
Média var. dependente
365,7848
Soma resíd. quadrados
378198,3
R-quadrado
0,526089
F(3, 23)
8,510771
Log da verossimilhança −167,2004
Critério de Schwarz
347,5841
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
***
**
***
***
175,1962
128,2318
0,464274
0,000553
342,4008
343,9421
Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%.
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 27 ago. 2018.
A constante β̂1 revela que a renda per capita média das regiões Norte
e Nordeste é de R$ 263,647. Pelo p – valor constatamos que essa média é
estatisticamente significativa (por quê?). Se você retornar aos números do Quadro
14 e calcular a média da região Norte e Nordeste chegará ao mesmo valor do β̂1.
E como interpretamos os demais coeficientes estimados? Eles representam
a diferença média de salário para a nossa variável de controle, ou seja, para a região
Norte e Nordeste. Podemos ver, pelo sinal dos coeficientes estimados, que a renda
média per capita na região Sul é R$ 201,846 maior do que a das regiões Norte
e Nordeste. Esse resultado é estatisticamente significativo quando trabalhamos
com um nível de 5% de significância estatística. Porém, se considerarmos um
nível de significância de 1%, não podemos rejeitar uma hipótese nula de que
este coeficiente é estatisticamente igual a zero, pois o p – valor = 0,0199 informa
a probabilidade de rejeitar a hipótese nula e ela ser verdadeira é de 1,99%.
Entretanto, cabe ao pesquisador definir o grau de rigorosidade que ele quer
trazer para a sua pesquisa e consequentemente a decisão de aceitar ou rejeitar a
hipótese nula.
Perceba que a maior diferença está na região Centro-Oeste. Isso se dá
porque o Distrito Federal tem uma renda per capita que é mais do que o dobro
dos demais estados, fazendo a média da região aumentar em relação às demais.
O resultado dessa região também é estatisticamente significativo, assim como o
da região Sudeste.
Sabemos que a renda per capita média das regiões Norte e Nordeste é de
R$ 263,647. Mas, se quisermos saber qual a renda média per capita da região Sul,
136
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
como fazemos? Neste caso, basta somar os coeficientes estimados β̂1 e β̂ 2. Assim,
chegaremos ao valor de 263,647 + 201,846 = 495,493. Calcule essa média usando
os valores do Quadro 14 para se certificar de que você chega ao mesmo resultado.
Pelo teste F, verificamos que em conjunto os coeficientes estimados são
estatisticamente significativos, com F3,23 = 8,5108 e P – valor(F) = 0,0005, e o R2 =
0,5261 mostra que o modelo tem uma boa qualidade de ajustamento aos dados
empregados no exercício.
Para encerrar, apresentamos no Quadro 16 a estimação dos parâmetros do
modelo 3.1 para os anos de 1991, 2000 e 2010, para fins de comparação:
QUADRO 16 – COMPARANDO O MODELO 3.1 PARA 1991, 2000 E 2010
1991
2000
2010
Constante
263,647
(0,0000)***
342,563
(0,0000)***
512,965
(0,0000)***
D2
201,846
(0,0199)**
337,507
(0,0008)***
431,712
(0,0014)***
D3
262,915
(0,0013)***
365,307
(0,0001)***
409,255
(0,0008)***
D4
275,128
(0,0008)***
389,907
(0,0000)***
509,020
(0,0000)
F(3,23)
8,5108
(0,0006)***
15,04973
(0,0000)***
12,5734
(0,0000)***
R2
0,5261
0,6625
0,6212
Obs.: p – valor entre parênteses com *, ** e *** indicando significância estatística ao nível de 10%,
5% e 1%, respectivamente.
FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 27 ago. 2018.
Podemos ver que todos os coeficientes estimados nos três modelos são
estatisticamente significativos e apresentam sinal positivo, indicando que a renda
per capita média nas regiões Sul, Sudeste e Centro-Oeste é maior do que a renda
média per capita das regiões Norte e Nordeste.
O bom de se comparar esses três anos é poder verificar a evolução histórica
tanto da renda média quanto da diferença na renda entre as regiões. Dito de outra
forma, podemos verificar se há um aumento ou redução na desigualdade entre
essas regiões ao longo do tempo.
Começando com nossa variável de controle, regiões Norte e Nordeste, de
1991 até 2010 temos um aumento significativo na renda média. Ela passa de R$
263,647 em 1991 para R$ 342,563 em 2000, saltando para R$ 512,965 em 2010. É um
aumento considerável. A dúvida que fica é: A desigualdade de renda reduziu nesse
período comparativamente às demais regiões ou ela aumentou?
137
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Quando comparamos os anos 1999 com 2000, vemos que aumentou
a renda média das regiões Norte e Nordeste, mas as demais regiões também
tiveram elevação na renda média, em percentual superior ao aumento na renda
da região de controle. Porém, quando comparamos 2000 com 2010, vemos que há
um aumento na renda média da região Norte e Nordeste que é superada apenas
pelo aumento da renda per capita da região Sul. As demais regiões tiveram
aumento na renda, mas em proporção inferior ao observado na região Norte e
Nordeste.
Aqui caberia uma investigação mais aprofundada sobre esse tema.
Poderíamos tentar explicar o que levou a esse aumento na renda per capita, o que
ocasionou o aumento da desigualdade entre 1999 e 2000 e o que levou à redução
dessa desigualdade entre 2000 e 2010, bem como quais fatores influenciaram,
quais as razões, entre outras questões, é papel do pesquisador investigar e tentar
responder a partir do resultado obtido pela sua pesquisa.
Como você pode ver, apesar de alguns considerarem a econometria um
ramo da ciência econômica que tem aplicação apenas no mercado financeiro,
a aplicação em questões sociais e voltadas à avaliação de políticas públicas
é fundamental. Esse é mais um motivo para você se dedicar cada vez mais ao
estudo desse conjunto de técnicas que estamos lhe apresentando.
3 OUTRAS APLICAÇÕES COM VARIÁVEIS QUALITATIVAS
As variáveis dummies são extremamente versáteis e têm uma aplicação
muito ampla dentro da econometria. Além de estimarmos diferenças entre
categorias diversas, por exemplo, entre regiões geográficas, entre gêneros, ou entre
vendedores, podemos empregá-las para verificar se há mudanças estruturais nos
parâmetros de uma regressão ao longo do tempo.
No exemplo apresentado no tópico anterior, usamos dados de corte para
estimar a relação entre a renda média per capita entre as regiões geográficas do
Brasil. Vimos que há mudanças nos parâmetros estimados, até mesmo porque as
dummies eram as únicas variáveis explicativas.
E se tivéssemos um estudo sobre o consumo e a renda e quiséssemos
saber se um determinado evento foi capaz de alterar a estrutura dos parâmetros
estimados pela nossa regressão? Nesse caso, teríamos um modelo de regressão
com variáveis explicativas diversas e incluiríamos uma dummy para capturar o
efeito desse evento extraordinário que ocorreu.
Para essa análise, propomos a conhecida relação consumo versus renda,
para o período entre 1997 e 2017, com dados trimestrais obtidos no site do Banco
Central do Brasil, séries 22109 – PIB trimestral – Dados dessazonalizados –
Produto Interno Bruto a preços de mercado e 22110 – PIB trimestral – Dados
138
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
dessazonalizados – Consumo das famílias. Dessa vez, ao invés de usarmos valores
expressos em R$, estamos usando uma série formada por números-índices, tendo
como base 100 o ano de 1995.
Queremos desafiá-lo a entrar no site do BCB e obter essas séries de dados
e assim montar o seu arquivo do Gretl. Acreditamos que você consiga chegar aos
mesmos resultados que nós chegamos, com a estimação dos próximos modelos
de regressão.
A figura a seguir mostra os gráficos de consumo e renda do Brasil para o
período entre 1997 e 2017. Notem que há uma mudança brusca na renda em 2008.
O que teria provocado essa mudança repentina? Será que esse evento foi capaz de
alterar a relação consumo versus renda a partir desse período?
GRÁFICO 1 – DADOS SOBRE CONSUMO E RENDA NO BRASIL, 1997 A 2017
FONTE: O autor
Para fazer esse teste, vamos estimar o modelo 3.2, relacionando apenas
consumo como uma função da renda. Para isso, vamos desconsiderar alguns
aspectos técnicos que serão abordados apenas quando você estudar os modelos
de regressão de séries temporais. Por enquanto, vamos dar atenção apenas aos
aspectos que você já estudou.
139
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Consumot =
β1 + β 2 Rendat + ε t
3.2
O resultado da estimação é apresentado de forma resumida a seguir, com
p – valor entre parênteses:
�
Consumo
t
R2 = 0 , 9800
=
−17 , 6680 + 1,1312 Rendat
( 0 , 0000 )
( 0 , 0000 )
2
Rajustado
= 0 , 9798
3.3
F(1 ,85) = 4166 , 513 * * *
Note que os coeficientes estimados são estatisticamente significativos.
Você deve estar achando estranho que o β̂ 2 > 1, certo? Como explicamos
anteriormente, os dados se referem a números-índice e não aos valores em Reais.
Isso significa que, um aumento de 1 ponto-base na renda faz com que o consumo
aumente 1,1312 pontos-base. Para uma renda de 100 pontos-base, esperamos que
o consumo seja de –17,6680 + 1,1312 * 100 = 95,452.
Em agosto de 2007, o mundo se viu às voltas de uma crise financeira que
iniciou nos Estados Unidos e afetou todas as economias do mundo, tendo o seu
auge no terceiro trimestre de 2008.
DICAS
Para mais detalhes sobre a crise do subprime, leia Borça Junior e Torres Filho (2008).
• BORÇA JUNIOR, Gilberto Rodrigues; TORRES FILHO, Ernani Teixeira. Analisando a Crise
do Subprime. Revista do Bndes, Rio de Janeiro, v. 30, n. 15, p. 129-159, dez. 2008.
Para o nosso exercício, vamos iniciar a partir do resultado da regressão
3.3 e aplicar o teste desenvolvido por Chow (1960). Trata-se de um teste baseado
na estatística F, que testa a estabilidade dos parâmetros de regressão ao longo do
tempo. A hipótese nula, H0, é que não existe quebra estrutural.
Para implementar o teste você deve, a partir da janela da regressão
estimada, de onde obtivemos os dados da equação 3.3, clicar em “Testes” e na
sequência escolher “Teste de Chow”. Você deve preencher os campos como na
Figura 6:
140
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
FIGURA 6 – ESTIMANDO O TESTE DE CHOW
FONTE: Adaptado de Gretl (2018)
O resultado é apresentado na Figura 7, porém, ao retornar à janela do
modelo estimado, o Gretl nos apresenta o resultado do teste de forma mais fácil
de se entender, como mostramos:
FIGURA 7 – RESULTADO DO TESTE DE CHOW NA JANELA DE REGRESSÃO
FONTE: Adaptado de Gretl (2018)
Como a hipótese nula é a de que não há quebra estrutural, e o p – valor é
muito baixo, menor do que 0,01 (ou 1% de significância estatística), rejeitamos H0
e concluímos que existe quebra estrutural, o que significa dizer que, a partir do
quarto trimestre de 2008, as relações entre consumo e renda no Brasil sofreram
alterações significativas.
141
UNIDADE 2 | REGRESSÃO MÚLTIPLA
QUADRO 17 – RESULTADO DO TESTE DE CHOW
Regressão aumentada para o teste de Chow
MQO, usando as observações 1996:1-2017:3 (T = 87)
Variável dependente: Consumo
coeficiente
erro padrão
razão-t
p-valor
---------------------------------------------------------const
15,6480
2,97096
5,267
1,07e-06
Renda
0,842115
0,0247916
33,97
1,85e-050
splitdum
−47,9868
8,40690
−5,708
1,72e-07
sd_Renda
0,387381
0,0536757
7,217
2,30e-010
Média var. dependente
138,4844
Soma resíd. quadrados
497,8662
R-quadrado
0,993303
F(3, 83)
4103,289
Log da verossimilhança −199,3301
Critério de Schwarz
416,5238
rô
0,766458
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
Durbin-Watson
***
***
***
***
29,40045
2,449161
0,993061
4,36e-90
406,6601
410,6319
0,472046
Teste de Chow para a falha estrutural na observação 2008:4
F(2, 83) = 82,3846 com p-valor 0,0000
Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%.
FONTE: Adaptado de Gretl (2018)
O problema do teste de Chow é que ele não especifica em qual parâmetro
ocorreu a quebra estrutural. Pode ter ocorrido na constante, no coeficiente
angular ou em ambos. Podemos resolver esse problema empregando as variáveis
dummies.
Começamos estimando o modelo 3.4, em que adicionamos uma variável
dummy com valor igual a zero de 1996 até o terceiro trimestre de 2008 e assume
valor igual a 1 a partir do quarto trimestre de 2008.
Consumo=
β1 + + β 3 Dt + β 2 Rendat + ε t
t
3.4
Para adicionar a dummy no Gretl, basta selecionar no menu “Acrescentar”
a opção “Dummy para o intervalo de observações”. Na janela que abre, você deve
dar um nome à nova variável e indicar quando a dummy deve começar e quando
ela deve terminar.
O resultado dessa estimação é apresentado a seguir:
142
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
�
Consumo
t
= 5 , 8108
( 0 , 0863 ) *
R2 = 0 , 9891
+
12 ,1238 Dt
( 0 , 0000 ) * * *
2
Rajustado
= 0 , 9798
+ 0 , 9248 Rendat
( 0 , 0000 ) * * *
3.5
F2 , 84 = 3811,102 * * *
Acadêmico, queremos que você compare esse resultado com 3.3 e perceba
as estatísticas apresentadas na parte de baixo das duas equações. Perceba que
o R2 é maior em 3.5 do que em 3.3. Como vimos, a inclusão de uma variável
explicativa faz com que o modelo se ajuste melhor aos dados, porém, como não
estamos interessados em analisar qual dos dois modelos é o melhor, partiremos
para a interpretação direta dos resultados.
A pergunta que nos interessa é se o modelo 3.5 resolveu o nosso problema,
ou seja, se ele identificou a quebra estrutural do resultado obtido em 3.3. Como
o coeficiente estimado β̂ 3 é estatisticamente significativo, podemos concluir que
sim, que há uma quebra estrutural no intercepto do modelo de regressão estimado
nesse período. Assim, podemos reescrever 3.3 como:
1T 1996 até 3T 2008
�
Consumo
=
t
5 , 8108 + 0 , 9248 Rendat
3.6
4T 2008 até 3t 2017
�
Consumo
=
t
17 , 9346 + 0 , 9248 Rendat
3.7
Em que o intercepto de 3.7 é dado por β1 + β3. O Gráfico 2 apresenta esse
deslocamento consolidado em 3.7:
^
143
^
UNIDADE 2 | REGRESSÃO MÚLTIPLA
GRÁFICO 2 – QUEBRA ESTRUTURAL COM DESLOCAMENTO NO INTERCEPTO
FONTE: O autor
E se a mudança econômica ocorrida em 2008 tivesse alterado também a
resposta do consumo à mudança na renda? Nesse caso, o coeficiente β̂ 3 no modelo
3.8 tem que ser estatisticamente significativo.
Consumot = β1 + β2Rendat + β3 (Dt x Rendat) + εt
3.8
Agora a variável dummy é multiplicada pela renda e, com isso, caso seja
estatisticamente significativo, o coeficiente estimado β̂ 2, que é a inclinação do
modelo 3.8, será dado por β̂ 2 + β̂ 3 .
Para acrescentar a variável Dt x Rendat no Gretl, nós selecionamos a no
menu “Acrescentar” e na sequência “Definir nova variável”. A Figura 8 ilustra esse
procedimento. O Gretl reconhece os mesmos operadores usados nas fórmulas que
você usa no Excel, em que * indica multiplicação, / indica divisão, e os operadores
de + e – indicam adição e subtração.
144
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
FIGURA 8 – ACRESCENTANDO NOVA VARIÁVEL AO MODELO
FONTE: Adaptado de Gretl (2018)
Agora que criamos a nova variável, em que multiplicamos a dummy pela
renda, podemos estimar o modelo 3.8, incluindo como variáveis explicativas a
Renda e a nova variável D_Renda. O resultado é apresentado em 3.9:
�
Consumo
t
R2
=
9 , 6550
( 0 , 0040 ) * * *
+ 0 , 8918 Rendat
( 0 , 0000 ) * * *
+ 0 , 0838 ( D _ Rendat )
( 0 , 0000 ) * * *
3.9
2
0 , 9907
=
Rajustado
0=
, 9904
F( 2 , 84 ) 4461, 316 * * *
A significância estatística do β̂ 3 nos mostra que houve quebra estrutural
na inclinação da reta de regressão, passando a β̂ 2 + β̂ 3 = 0,8918 + 0,0838 = 0,9756 ,
como mostra 3.10 e 3.11, e ilustrado no Gráfico 3:
1T 1996 até 3T 2008
�
Consumo
=
t
9 , 6550 + 0 , 8918 Rendat
3.10
4T 2008 até 3T 2017
�
Consumo
=
t
9 , 6550 + 0 , 9756 Rendat
3.11
A diferença da equação 3.10 para 3.11 está na inclinação. É como se o
evento de 2008 tivesse sido capaz de mudar as relações de consumo como função
da renda e, com isso, o acréscimo de uma unidade na renda faz com que o consumo
aumente, mas não na mesma proporção que aumentava no modelo 3.10.
145
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Como não incluímos a dummy da constante no modelo estimado, as duas
regressões partem da mesma origem e vão se afastando ao longo do tempo, nunca
se encontrando. Diferentemente do caso anterior, em que o intercepto mudava e
as curvas de regressão eram paralelas, podemos dizer que no caso de a mudança
ocorrer apenas na inclinação, que temos regressões concorrentes. Obviamente, se
não houvesse quebra estrutural, nem intercepto e nem inclinação, ou seja, se os
coeficientes estimados das dummies não fossem estatisticamente significativos,
teríamos regressões coincidindo a origem e a inclinação.
GRÁFICO 3 – QUEBRA ESTRUTURAL COM MUDANÇA NA INCLINAÇÃO
FONTE: O autor
E se juntássemos as duas variações? Podemos testar se houve quebra
estrutural tanto no intercepto quanto na inclinação da reta de regressão? Para
verificar isso, estimamos o modelo 3.12:
Consumot = β1 + β3Dt + β2Rendat + β4(Dt x Rendat) + εt
3.12
O resultado do modelo 3.12 está expresso em 3.13:
�
Consumo
=
t
R2
15 , 6480
( 0 , 0000 ) * * * *
−
47 , 9868 Dt
( 0 , 0000 ) * * * *
+ 0 , 8421Rendat
( 0 , 0000 ) * * *
2
0=
, 9933
Rajustado
0 ,=
993061
F( 3 , 83) 4103 , 289 * * *
146
+ 0 , 3874 ( Dt × Rendat )
( 0 , 0000 ) * * *
3.13
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
Veja que todos os coeficientes estimados são estatisticamente significativos.
Portanto, a conclusão final é que a mudança ocorreu tanto no intercepto quanto
na inclinação da reta de regressão. Com isso, reescrevemos as regressões como
em 3.14 e 3.15:
1T 1996 até 3T 2008
�
Consumo
=
t
4T 2008 até 3T 2017
�
Consumo
t
15 , 6480 + 0 , 8421Rendat
=
−32 , 3388 + 1, 2295 Rendat
3.14
3.15
O Gráfico 4 nos ajuda a compreender melhor esse resultado. Perceba
que agora os dois modelos têm pontos de partida distintos e inclinação distintas
também. Em outras palavras, as regressões são dissemelhantes, indicando que
após o terceiro trimestre de 2008, as relações entre consumo e renda se alteraram
de forma significativa.
GRÁFICO 4 – QUEBRA ESTRUTURAL COM MUDANÇA TANTO NO INTERCEPTO QUANTO NA
INCLINAÇÃO
FONTE: O autor
Mas se todos os modelos estimados apresentaram consistência, qual é o
modelo que devemos escolher? Afinal de contas, o evento que ocorreu na economia
no último trimestre de 2008 alterou estruturalmente as relações consumo versus
renda e, consequentemente, os parâmetros estimados do modelo de regressão.
147
UNIDADE 2 | REGRESSÃO MÚLTIPLA
A resposta é muito simples. O que você precisa fazer é estimar um único
modelo, ou seja, o modelo 3.12, e verificar se os coeficientes estimados das
dummies são estatisticamente significativos. Se isso ocorrer, concluímos que há
uma quebra estrutural provocada pelo evento em estudo, a partir do período
marcado pela dummy com valor igual a 1.
Vamos a mais um exemplo prático, desta vez extraído de Wooldridge
(2016). Usaremos o arquivo Wage1, que você pode baixar no site do Gretl, instalar
no seu computador e utilizá-lo a partir do menu “Arquivo de exemplos”. Para
isso, proceda da seguinte forma:
1. Acesse <http://gretl.sourceforge.net/pt.html>.
2. No menu à esquerda, selecione dados para Gretl.
3. Em “Conjuntos de Dados de livros de texto”, busque pelo nome
“Wooldridge”.
4. Baixe o arquivo wooldridge_data.exe.
5. Execute o arquivo para instalar no Gretl a base de dados utilizada no livro
Introdução à Econometria: uma abordagem moderna.
Após a instalação, você deve abrir o Gretl e selecionar o menu “Arquivo”,
depois “Abrir dados” e escolher “Arquivos de exemplo”. Na tela seguinte, você
seleciona a aba correspondente ao Wooldridge e busca o arquivo Wage1. Basta dar
duplo clique para abrir o arquivo de dados do exemplo que desenvolveremos aqui.
Esse arquivo traz as informações referentes a salário e outras características
da população americana, no ano de 1976, contendo um total de 526 observações
(WOOLDRIDGE, 2016, p. 7). As variáveis que usaremos são:
1.
2.
3.
4.
wage = salário-hora.
educ = anos de educação formal.
exper = anos de experiência no mercado de trabalho.
female = indicador do gênero feminino.
Começaremos com um modelo de regressão em que o salário-hora é
explicado pelos anos de educação formal educi e pelos anos de experiência no
mercado de trabalho experi, em que i representa cada trabalhador individual
entrevistado para se obter essa base de dados.
wagei = β1 + β2educi + β3experi + εi
3.14
Em que β1, β2 e β3 são os parâmetros a serem estimados e εi é o termo de
erro o qual supomos ter distribuição normal com média zero e variância constante
εi~N(0, σ2).
148
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
O modelo estimado é apresentado em 3.15:
�
wage
i
R2
=
−3 , 3905
( 0 , 0000 ) * * *
+
0 , 6443educi
( 0 , 0000 ) * * *
+
0 , 0701experi
( 0 , 0000 ) * * *
3.15
2
0 ,=
2252
Rajustado
0=
, 2222
F( 2 , 523) 75 , 9899 * * *
Entre parênteses, temos os p – valor e os três asteriscos indicam significância
estatística ao nível de 1%. Claramente o modelo apresentado diz que você deve
estudar mais se quiser ganhar mais! Ele também reconhece que a experiência
profissional pode garantir um salário maior se comparado com as pessoas que
têm menos experiência no mercado de trabalho.
A pergunta que queremos responder é: Em 1976, nos Estados Unidos, havia
discriminação salarial entre homens e mulheres? Para verificar isso, precisamos
de uma dummy, com valor igual a 1, quando a pessoa entrevistada for mulher,
e igual a zero, quando for homem. A hipótese com a qual trabalhamos é que
haja essa diferença de salário e que o coeficiente estimado tenha valor negativo e
estatisticamente significativo. O modelo a ser estimado é mostrado em 3.16:
wagei = β1 + β2educi + β3experi + β4femalei + εi
3.16
Aqui, novamente temos os parâmetros a serem estimados representados
pelos βk e o termo de erro εi~N(0, σ2). Os resultados estimados estão em 3.17:
�
wage
i
=
−1, 7345
( 0 , 0218 ) * *
+
0 , 6026 educi
( 0 , 0000 ) * * *
+ 0 , 0642 experi
( 0 , 0000 ) * * *
− 2 ,1555 femalei
( 0 , 0000 ) * * *
3.17
2
=
R2 0 ,=
3093
Rajustado
0=
, 3053
F( 2 , 523) 77 , 9197 * * *
Perceba que os resultados corroboram a nossa hipótese inicial. Neste caso,
o fato de ser mulher fazia com que o salário-hora fosse US$ 2,15 menor do que se o
empregado fosse homem. As demais variáveis apresentaram valores próximos do
modelo estimado 3.15, e mantiveram a significância estatística, pelo menos ao nível
de 5% (para o caso da constante com p – valor = 0,218).
Obviamente o resultado deve ser analisado muito mais sob o ponto de
vista histórico do que sob o ponto de vista numérico. Nos anos 1970, a mulher
estava conquistando cada vez mais espaço no mercado de trabalho, deixando de
ser coadjuvante nas finanças domésticas e passando a ter as chamadas jornadas
duplas, que num primeiro momento eram profissionais empregadas e no segundo
momento eram donas de casa.
149
UNIDADE 2 | REGRESSÃO MÚLTIPLA
DICAS
Para uma leitura geral sobre o mercado de trabalho com o enfoque histórico,
leia o artigo A evolução da mulher no mercado de trabalho, publicado no RH Portal,
disponível no link <http://www.rhportal.com.br/artigos-rh/a-evoluo-da-mulher-no-mercadode-trabalho/>.
Outra aplicação interessante usando variáveis dummies é a
dessazonalização de uma série de dados temporais. Sabemos que ao longo do
ano os agricultores adquirem certa quantidade de fertilizantes para usar nas suas
lavouras. Sabemos também que essa quantidade é maior ou menor, dependendo
da época do ano.
Em períodos de plantio das principais culturas, como milho, soja, trigo, por
exemplo, esperamos que haja aumento na venda de fertilizantes e, em períodos
de colheita, uma redução. Por isso, um gráfico de venda de fertilizantes deve
apresentar subidas e descidas muito bem-comportadas, como podemos observar
a seguir:
FIGURA 9 – VENDA DE FERTILIZANTES EM TONELADAS, COM FREQUÊNCIA MENSAL, ENTRE
JANEIRO DE 1998 E NOVEMBRO DE 2017
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018
150
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
Quando estudamos a venda de fertilizantes, queremos analisar a tendência
de longo prazo dessa variável que é extremamente importante na estimação da
produtividade agrícola. Por isso é natural querer retirar a sazonalidade para
podermos nos concentrar naquilo que realmente interessa, ou seja, a tendência
temporal.
Podemos observar, através da nossa base de dados, que as vendas de
fertilizantes aumentam consideravelmente nos meses de julho, agosto, setembro
e outubro. Também podemos perceber que a venda é sensivelmente menor nos
meses de março e abril.
Para o nosso experimento, vamos atribuir uma dummy para cada mês
do ano e assim, teremos 12 variáveis dummies. Parece ser trabalhoso fazer isso,
correto? Só parece, pois o procedimento é bem simples quando você usa o Gretl.
Com a sua base de dados montada no Gretl, selecione o menu “Acrescentar”
e na sequência escolha “Dummies sazonais”. Automaticamente o Gretl criará
uma variável dummy para cada mês do ano, com valores iguais a 1 para o mês
em questão e zero para os demais. Assim, a variável dm1t terá valor igual a 1
quando for janeiro de 1998, janeiro de 1999, e assim por diante, e zero quando for
fevereiro de 1998, março de 1998 etc.
3.18:
Para retirar a sazonalidade da série, estimaremos o modelo de regressão
fertilt = β1dmt1t + β2dm2t + β3dm3t + β4dm4t + β5dm5t + β6dm6t + β7dm7t
+ β8dm8t + β9dm9t + β10dm10t + β11dm11t + β12dm12t + εt
3.18
Atente-se a duas coisas importantes a serem ditas. Primeiro, o modelo 3.18
não tem intercepto. Isso se deve ao fato de estarmos usando todas as 12 variáveis
dummies, uma para cada mês do ano. O segundo ponto que precisa ser ressaltado
é que podemos alterar 3.18 a fim de conter o intercepto. Se fizermos isso, teremos
que deixar uma das variáveis dummies de fora. Provavelmente suprimiríamos o
mês de janeiro e o usaríamos como base ou variável de controle.
O resultado estimado está no Quadro 18. Perceba que o Gretl nos reportou
um número bem estranho para os coeficientes estimados. Como já citamos, tratase de um número científico. A letra “e” está inserida nesse número para indicar
que tudo o que vem antes dela é multiplicada por 10 elevado à potência que
aparece após o sinal. Assim, podemos reescrever o número 1,51079e+06 para
1,51079 x 106 = 1.510.790 , com estimação do modelo 3.18:
151
UNIDADE 2 | REGRESSÃO MÚLTIPLA
QUADRO 18 – RETIRANDO A SAZONALIDADE DE UMA SÉRIE DE DADOS TEMPORAIS
coeficiente
erro padrão
razão-t
p-valor
---------------------------------------------------------dm1
1,51079e+06
131238
11,51
1,87e-024
dm2
1,40592e+06
131238
10,71
6,14e-022
dm3
1,27685e+06
131238
9,729
6,37e-019
dm4
1,12789e+06
131238
8,594
1,37e-015
dm5
1,60075e+06
131238
12,20
1,19e-026
dm6
1,89665e+06
131238
14,45
5,30e-034
dm7
2,33512e+06
131238
17,79
6,24e-045
dm8
2,79483e+06
131238
21,30
4,93e-056
dm9
3,02133e+06
131238
23,02
2,70e-061
dm10
3,09189e+06
131238
23,56
6,67e-063
dm11
2,38564e+06
131238
18,18
3,56e-046
dm12
1,52336e+06
134647
11,31
7,94e-024
***
***
***
***
***
***
***
***
***
***
***
***
Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018
E o que fazemos com o modelo estimado? Não precisaremos interpretar
esse resultado, se essa era a sua preocupação. Como só queremos extrair a
�
sazonalidade, para isso basta fazermos fertilt − fertilt , que o resultado será a
série livre de sazonalidade.
Você já deve ter entendido que estamos falando dos resíduos da regressão,
ou seja,
=
εˆ t fertilt − �
fertilt . A obtenção dessa série é muito simples, e a partir da
janela do modelo estimado pelo Gretl, selecione o menu “Salvar” e depois escolha
“Resíduos”. O Gretl dará um nome padrão de uhat1 para a série de resíduos
salvos, o qual poderá ser alterado da maneira que você quiser.
O Gretl também gera uma tabela com os valores efetivos, previstos e os
resíduos a partir da janela do modelo estimado. Basta selecionar o menu “Análise”
e na sequência escolher “Mostrar efetivo, ajustado, resíduos”. Reproduzimos na
Figura 10 a tela gerada com esses dados:
152
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
FIGURA 10 – VALORES EFETIVOS, AJUSTADOS E RESÍDUOS DA VENDA DE FERTILIZANTES
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018
A Figura 11 apresenta os gráficos dos valores efetivos da variável fertilt e
seus valores dessazonalizados para fins de comparação e análise. Perceba como
a série dessazonalizada “Fertil ajustado” apresenta um padrão crescente, porém
sem as oscilações sazonais tão acentuadas quanto a série original.
Você terá a oportunidade de estudar as séries temporais em Econometria II,
e verá que as séries de tempo são caracterizadas por um componente sazonal, cíclico,
tendência e estritamente aleatório.
Em linhas gerais, o estudo das séries temporais requer um vocabulário
totalmente diferente daquele que usamos em Econometria I, apesar de a intuição
por trás da estimação permanecer a mesma. Dito de outra forma, também
testamos hipóteses, testamos a hipótese nula do coeficiente estimado ser igual a
zero, e fazemos uma série de testes estatísticos, como teremos a oportunidade de
estudar em breve.
TUROS
ESTUDOS FU
Um dos testes mais importantes é o da existência de correlação serial nos
resíduos, como veremos na Unidade 3. Abriremos um tópico destinado exclusivamente ao
estudo desse problema e veremos, além da sua natureza, as formas de superá-lo.
153
UNIDADE 2 | REGRESSÃO MÚLTIPLA
FIGURA 11 – DADOS EFETIVOS E DESSAZONALIZADOS DA VARIÁVEL fertilt
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018.
LEITURA COMPLEMENTAR
Conheça a fórmula matemática que explica o sucesso de um político
Luís Artur Nogueira
Dizer que a economia explica o desempenho de um político nas urnas
não é novidade, mas ainda faltam modelos matemáticos mais elaborados que
concluam quais elementos têm maior peso na popularidade de um governante.
Com o objetivo de dar uma contribuição a esse debate, a Tendências
Consultoria está desenvolvendo um modelo econométrico que tem a renda e o
emprego como suas principais variáveis.
Aos olhos leigos, a fórmula é complexa, mas o raciocínio parece ser
simples: renda em elevação e desemprego em baixa significam popularidade
nas alturas. Portanto, brincar com a inflação pode derrubar a avaliação de um
governante, já que os preços altos corroem o poder de compra da população.
Para elaborar o estudo, os analistas da Tendências utilizaram as pesquisas
DataFolha no período de março de 1995 a novembro de 2010 (governos FHC e
Lula). A taxa de aprovação é a soma das avaliações “ótimo” e “bom” dadas pelos
entrevistados.
154
TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS
A primeira constatação é de que a influência das variáveis econômicas
sobre a avaliação presidencial é dada gradativamente ao longo do tempo, sem
oscilações bruscas.
“Estimamos uma regressão que associa a taxa de aprovação a seus valores
passados (aprovt-1 no modelo explicitado abaixo) e aos determinantes econômicos
defasados (taxa de desemprego – ut-1 – e da renda real – rendat-4 –), levando
em consideração que a aprovação do governo é feita de maneira retrospectiva.
Incluímos ainda uma dummy que assume o valor 1 durante o governo Lula e 0
durante o FHC”, diz relatório da consultoria assinado por Rafael Cortez e Rafael
Bacciotti.
As estimativas encontradas foram as seguintes:
A Fórmula da Popularidade
aprovt = -1,70 + 0,70*aprovt-1 - 1,51*ut-1 + 0,42*log(renda)t-4 + 0,10*DLULA
aprovt: aprovação de um político
aprovt - 1: aprovação no período anterior
ut-1: taxa de desemprego defasada em um período
rendat-4: renda real defasada em quatro períodos
DLULA: dummy com valor 1 no governo Lula e 0 no FHC
FONTE: <https://abrilexame.files.wordpress.com/2016/09/original_formula-popularidade-590.
jpg?quality=70&strip=all&strip=info>. Acesso em: 14 jun. 2018.
O modelo conclui que o aumento de 1 ponto percentual na taxa de
desemprego reduz a aprovação em 1,51 ponto, enquanto que o aumento de 1%
na renda eleva a aprovação em 0,42 ponto percentual.
“Isso é uma evidência de que os indivíduos punem os governos devido
ao desemprego em um espaço curto de tempo (a melhor defasagem foi de um
período), e os aprovam com a sensação do aumento de seu poder de compra em
período de tempo mais longo (defasagem de quatro períodos)”.
Segue o relatório: “O modelo mostrou que a preservação da renda real e
o mercado de trabalho são, de fato, os melhores preditores da avaliação de um
presidente. Isto significa que, no curto prazo, apenas um choque, seja na inflação,
seja no mercado de trabalho, poderia afetar a avaliação de Dilma”.
155
UNIDADE 2 | REGRESSÃO MÚLTIPLA
Em entrevista a EXAME.com, Bacciotti explica que a renda tem um peso
um pouco maior que o emprego, pois é muito mais fácil a renda variar 1% do que
o desemprego subir ou cair 1 ponto. “Daí a importância de não se brincar com a
inflação, que tira poder de compra da população”, diz o economista.
Não havendo vínculos ideológicos por parte do eleitor, a decisão dele será
racional e com base no seu bolso. Se a avaliação é positiva, há grandes chances de
ele optar pela continuidade.
Passada a fase mais aguda de preços altos nos primeiros meses do
ano, a tendência segue favorável para a popularidade da presidente Dilma. A
Tendências Consultoria projeta que a taxa de desemprego ainda permanecerá em
níveis baixos (na média, 6,4% em 2011 ante 6,7% em 2010) e a renda real, embora
em desaceleração, possui trajetória positiva.
O modelo ainda está sendo aperfeiçoado e a equipe da Tendências
promete novidades em breve. Um fato, no entanto, é certo. A velha frase “É a
economia, estúpido”, dita por um assessor de Bill Clinton em 1992, em plena
eleição presidencial americana, continua valendo e cada vez mais pode ser
explicada matematicamente.
FONTE: <https://exame.abril.com.br/ciencia/conheca-a-formula-matematica-que-explica-osucesso-de-um-politico/>. Acesso em: 14 jun. 2018.
156
RESUMO DO TÓPICO 3
Neste tópico, você aprendeu que:
• As variáveis dummies são um artifício importante usado pelos econometristas
para uma série de aplicações práticas.
• Pode-se calcular a diferença média da renda per capita entre as regiões com o
uso das dummies.
• É possível usar as dummies para testar a existência de quebra estrutural na
relação entre as variáveis dependentes e explicativa, como uma alternativa ao
teste de Chow.
• As dummies podem ser usadas para estimar a diferença salarial entre homens
e mulheres, como no exemplo dos Estados Unidos em 1976, em que concluímos
haver diferença salarial entre homens e mulheres.
• É possível remover o componente sazonal de uma série temporal usando as
variáveis dummies, o que permite ao econometrista se concentrar nos outros
elementos que afetam o comportamento dessas séries.
157
AUTOATIVIDADE
Para esta autoatividade, você vai precisar dos dados do Quadro 19. Tratase de um levantamento anual produzido pela The Heritage Foundation, intitulado
Index of Economic Freedom. A amostra contém os 80 melhores ranqueados no
índice de 2018, de onde foram extraídos dados sobre investimentos externos
diretos e o score do próprio índice. Além disso, foram acrescentadas quatro
variáveis dummy, uma para cada região abrangida pela amostra.
QUADRO 19 – INVESTIMENTO EXTERNO DIRETO E LIBERDADE ECONÔMICA PARA PAÍSES
SELECIONADOS, 2018
País
Região
IED
Score
D1
Américas
D2
Ásia
D3
Europa
D4
África
Canada
América
33.721,14
77,70
1
0
0
0
United States
América
391.104,00
75,70
1
0
0
0
Chile
América
11.265,71
75,20
1
0
0
0
Uruguay
América
953,13
69,20
1
0
0
0
Jamaica
América
855,87
69,10
1
0
0
0
Colombia
América
13.592,65
68,90
1
0
0
0
Peru
América
6.862,89
68,70
1
0
0
0
Saint Vincent and the
Grenadines
América
103,51
67,70
1
0
0
0
Saint Lucia
América
94,59
67,60
1
0
0
0
Panama
América
5.209,30
67,00
1
0
0
0
Costa Rica
América
2.762,14
65,60
1
0
0
0
Mexico
América
26.738,61
64,80
1
0
0
0
Dominica
América
31,37
64,50
1
0
0
0
Guatemala
América
1.180,80
63,40
1
0
0
0
Bahamas
América
521,85
63,30
1
0
0
0
El Salvador
América
373,45
63,20
1
0
0
0
Hong Kong
Ásia
108.125,99
90,20
0
1
0
0
Singapore
Ásia
61.596,68
88,80
0
1
0
0
New Zealand
Ásia
2.291,63
84,20
0
1
0
0
Australia
Ásia
48.190,25
80,90
0
1
0
0
Taiwan
Ásia
8.333,00
76,60
0
1
0
0
Malaysia
Ásia
9.925,95
74,50
0
1
0
0
Korea, South
Ásia
10.826,60
73,80
0
1
0
0
Japan
Ásia
11.388,41
72,30
0
1
0
0
Macau
Ásia
3.026,70
70,90
0
1
0
0
Vanuatu
Ásia
32,39
69,50
0
1
0
0
Kazakhstan
Ásia
9.069,31
69,10
0
1
0
0
Thailand
Ásia
1.554,16
67,10
0
1
0
0
158
Philippines
Ásia
7.912,20
65,00
0
1
0
0
Azerbaijan
Ásia
4.500,00
64,30
0
1
0
0
Indonesia
Ásia
2.658,09
64,20
0
1
0
0
Brunei Darussalam
Ásia
-149,64
64,20
0
1
0
0
Tonga
Ásia
8,86
63,10
0
1
0
0
Kyrgyz Republic
Ásia
466,78
62,80
0
1
0
0
Switzerland
Europa
-26.340,20
81,70
0
0
1
0
Ireland
Europa
22.304,45
80,40
0
0
1
0
Estonia
Europa
870,45
78,80
0
0
1
0
United Kingdom
Europa
253.825,78
78,00
0
0
1
0
Iceland
Europa
-484,41
77,00
0
0
1
0
Denmark
Europa
950,72
76,60
0
0
1
0
Luxembourg
Europa
26.857,37
76,40
0
0
1
0
Sweden
Europa
19.583,88
76,30
0
0
1
0
Georgia
Europa
1.661,42
76,20
0
0
1
0
Netherlands
Europa
91.956,17
76,20
0
0
1
0
Lithuania
Europa
-207,87
75,30
0
0
1
0
Norway
Europa
-5.532,74
74,30
0
0
1
0
Czech Republic
Europa
6.751,87
74,20
0
0
1
0
Germany
Europa
9.528,28
74,20
0
0
1
0
Finland
Europa
42,03
74,10
0
0
1
0
Latvia
Europa
126,10
73,60
0
0
1
0
Austria
Europa
-6.088,53
71,80
0
0
1
0
Macedonia
Europa
396,51
71,30
0
0
1
0
Romania
Europa
4.573,02
69,40
0
0
1
0
Armenia
Europa
338,03
68,70
0
0
1
0
Malta
Europa
3.575,02
68,50
0
0
1
0
Poland
Europa
11.357,85
68,50
0
0
1
0
Bulgaria
Europa
776,19
68,30
0
0
1
0
Cyprus
Europa
4.137,76
67,80
0
0
1
0
Belgium
Europa
33.102,70
67,50
0
0
1
0
Hungary
Europa
-5.313,59
66,70
0
0
1
0
Kosovo
Europa
249,00
66,60
0
0
1
0
Turkey
Europa
11.987,00
65,40
0
0
1
0
Slovakia
Europa
-295,35
65,30
0
0
1
0
Spain
Europa
18.658,86
65,10
0
0
1
0
Slovenia
Europa
919,21
64,80
0
0
1
0
Albania
Europa
1.124,35
64,50
0
0
1
0
Montenegro
Europa
226,26
64,30
0
0
1
0
France
Europa
28.351,62
63,90
0
0
1
0
Portugal
Europa
6.064,56
63,40
0
0
1
0
159
Italy
Europa
28.954,82
62,50
0
0
1
0
Serbia
Europa
2.298,78
62,50
0
0
1
0
United Arab Emirates
África
8.985,71
77,60
0
0
0
1
Qatar
África
773,90
72,60
0
0
0
1
Israel
África
12.323,70
72,20
0
0
0
1
Bahrain
África
281,91
67,70
0
0
0
1
Jordan
África
1.538,87
64,90
0
0
0
1
Mauritius
África
349,42
75,10
0
0
0
1
Botswana
África
10,46
69,90
0
0
0
1
Rwanda
África
409,79
69,10
0
0
0
1
South Africa
África
2.270,42
63,00
0
0
0
1
FONTE: Adaptado de <https://www.heritage.org/index/>. Acesso em: 29 ago. 2018.
1 Com base nos dados apresentados no Quadro 19, estimamos o seguinte
modelo de regressão por mínimos quadrados ordinários:
IEDi = β1 + β2Scorei + ui
3.19
Em que IED é o investimento externo direto, em milhões de US$,
Score é o índice de liberdade econômica, cuja metodologia para construção do
índice pode ser obtida em <https://www.heritage.org/index/pdf/2018/book/
methodology.pdf>, e ui é o termo de erro o qual supomos que tenha distribuição
normal, com média zero e variância constante.
Os resultados estão abaixo com p – valor entre parênteses:
� i
IED
=
−163.061 + 2.551, 54Scorei
( 0 , 0164 )
( 0 , 0081)
R2 = 0 , 0865
F1 , 78 = 7 , 3878
3.20
p − valor ( F ) =
0 , 0081
Com base nos resultados reportados em 3.20, informe qual ou quais
coeficientes estimados é/são estatisticamente significativos e em qual nível de
significância.
2 Suponha que queiramos estimar o valor do IED médio por região geográfica.
Neste caso, construa um modelo econométrico capaz de obter tal medida.
3 Decidimos ampliar o nosso estudo e verificar se os países teriam preferência
no destino do fluxo de investimentos externos diretos apenas pelo fato de
pertencerem ao continente americano. Para isso, alteramos o modelo 3.19
para incluir a Dummy D2i, que assume valores iguais a 1 quando se tratar de
um país localizado nas Américas e zero caso esteja localizado em outro país.
160
IEDi = β1 + δ1D1i + β2Scorei + ui
3.21
Os resultados estão logo abaixo com p – valor entre parênteses:
� i
IED
=
−190.629 + 25.857 , 0 D1i
( 0 , 0060 )
( 0 , 0798 )
R2 = 0 ,1224
F1 , 77 = 5 , 3720
+ 2.868 , 93Scorei
( 0 , 0032 )
3.22
p − valor ( F ) =
0 , 0065
Com base nesses resultados, responda:
a) Informe se os coeficientes estimados são estatisticamente significativos e em
qual nível de significância estatística.
b) Como você interpreta o coeficiente estimado da dummy?
c) Com base nos resultados obtidos em 3.22, os países localizados nas Américas
tiveram preferência pela destinação dos investimentos externos diretos?
4 Estimamos um último modelo de regressão, incluindo as demais variáveis
dummy com o objetivo de verificar se a região geográfica é determinante
para o direcionamento dos investimentos externos diretos. O modelo
estimado foi:
IEDi =+
β1 δ 1 D1i + δ 2 D 2i + δ 3 D 3i + Scorei + ui
3.23
O resultado da estimação encontra-se abaixo, com p – valor entre
parênteses:
� i
IED
=
−197.970 + 33.713 , 5 D1i
( 0 , 0057 )
( 0 ,1235 )
R2 = 0 ,1257
F1 , 75 = 2 , 6967
+ 7.174 , 44 D 2 i
( 0 , 7362 )
+ 10.137 , 6 D 3i
( 0 , 5998 )
+ 2.861, 37Scorei
( 0 , 0039 )
p − valor ( F ) =
0 , 0370
Em relação aos resultados obtidos, responda:
a) Por que usamos apenas três dummies se tínhamos a nossa disposição quatro
variáveis dummy?
b) Os coeficientes estimados apresentaram p – valor alto para as três dummies,
indicando que nenhum dos coeficientes é estatisticamente significativo
aos usuais níveis de 1%, 5% e 10% de significância estatística. O que esse
resultado representa em relação ao objetivo de verificar se a região geográfica
é determinante para o direcionamento dos investimentos externos diretos?
161
162
UNIDADE 3
MODELOS DE REGRESSÃO
GENERALIZADOS
OBJETIVOS DE APRENDIZAGEM
A partir do estudo desta unidade, você será capaz de:
• identificar a natureza dos problemas existentes quando as premissas básicas do modelo clássico de regressão linear são relaxadas;
• examinar suas consequências em relação à validade dos modelos estimados nas outras unidades;
• utilizar métodos específicos para detecção dos problemas e apresentar
medidas corretivas que possam gerar estimadores com as propriedades
estatísticas desejáveis.
PLANO DE ESTUDOS
Esta unidade está dividida em três tópicos. No decorrer da unidade você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado.
TÓPICO 1 – MULTICOLINEARIDADE
TÓPICO 2 – HETEROSCEDASTICIDADE
TÓPICO 3 – AUTOCORRELAÇÃO
163
164
TÓPICO 1
UNIDADE 3
MULTICOLINEARIDADE
1 INTRODUÇÃO
Na Unidade 1 fomos apresentados ao modelo clássico de regressão linear,
em que estudamos o método de mínimos quadrados ordinários, que é a base
de toda análise econométrica. Aprendemos os conceitos básicos e construímos
modelos de regressão simples. Na Unidade 2 ampliamos esses modelos,
introduzindo múltiplas variáveis explicativas, melhorando a sua capacidade
de previsão e explicação da variável dependente, trazendo os modelos mais
próximos da realidade.
Em todos os exemplos que trabalhamos até agora supomos que as hipóteses,
apresentadas na Unidade 1 e revistas na Unidade 2, estavam presentes e eram
válidas, o que nos permitiu estimar parâmetros que carregam as propriedades
estatísticas desejáveis de consistência, eficiência e ausência de tendenciosidade.
linear:
Para relembrar, listamos as hipóteses do modelo clássico de regressão
• Hipótese 1 – O modelo de regressão é linear nos parâmetros y = Xβ + ε.
• Hipótese 2 – A média condicional do termo de erro é zero E[εi | xj1,xj2,...,xjk] = 0.
• Hipótese 3 – Não há correlação ou colinearidade perfeita entre as variáveis
explicativas X (full rank).
• Hipótese 4 – Os erros são homoscedásticos e não são correlacionados
(disturbâncias esféricas) Var[εi|X] = σ2I e Cov[εi,εj|X] = 0 para todo i = 1, 2, ..., n
ei≠j
• Hipótese 5 – A matriz X é não estocástica: em amostras repetidas, os valores de
X são fixados.
• Hipótese 6 – O vetor de erros ε tem distribuição normal, com média zero e
variância constante: ε|X~N[0, σ2I].
Sabemos que em um mundo perfeito, todas as hipóteses se confirmariam.
Porém, no mundo real, enfrentamos diariamente uma série de problemas para
construir modelos econométricos que sejam capazes de nos revelar a verdade
sobre os fatos que estamos estudando, sem que para isso precisemos torturar as
informações. Em outras palavras, nem sempre as hipóteses vistas nas unidades 1
e 2 serão confirmadas.
165
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
O objetivo da Unidade 3 é relacionar duas importantes hipóteses do
modelo de regressão linear clássico, a ausência de colinearidade entre as variáveis
explicativas (no caso do modelo de regressão múltipla), homoscedasticidade e
ausência de correlação serial entre os resíduos de um modelo de regressão com
dados de séries temporais, ou seja, as hipóteses 3 e 4 listadas anteriormente.
No primeiro tópico veremos o relaxamento da hipótese de ausência de
colinearidade, por isso o chamaremos de “o problema da multicolinearidade”. No
tópico dois veremos a situação em que os resíduos não têm a mesma variância, ou
seja, eles são heteroscedásticos. No último tópico abordaremos o caso em que os
resíduos passados carregam informações suficientes para influenciar os resíduos
presentes, ou seja, são autocorrelacionados.
2 CONCEITO DE MULTICOLINEARIDADE
A colinearidade entre variáveis explicativas não é uma questão que nos
incomoda quando estimamos um modelo de regressão simples, com apenas uma
variável explicativa. O problema ocorre quando precisamos estimar um modelo
com múltiplas variáveis exógenas. Nesse caso, se duas ou mais dessas variáveis
tiverem alguma inter-relação, estaremos violando uma das hipóteses do modelo
clássico de regressão linear.
Maddala (2003, p. 143) define a multicolinearidade como sendo “a situação
na qual as variáveis explicativas são altamente intercorrelacionadas ...”. O termo
colinearidade tem origem com Ragnar Frisch (1934).
Para entender como isso funciona na prática, suponha o seguinte modelo
de regressão representado por 1.1:
Yi = β1X1i + β2X2i + β3X3i + εi
1.1
Em que X1i = 1 para todo i, X3i = 2X1i + 3X2i e εi~N(0, σ2). Através desse
exemplo adaptado de Maddala (2003, p. 143), podemos obter certas combinações
dos parâmetros βk, tais como β1 + 2β3, e β2 + 3β3. Porém, não conseguimos
obter os valores individuais dos parâmetros β1, β2 e β3, caracterizando assim a
multicolinearidade perfeita.
O Quadro 1 apresenta uma simulação de dados com colinearidade baseado
na equação 1.1. Você pode importar esses dados para o Gretl e tentar estimar a
regressão, porém o Gretl omitirá a variável X3i em razão da colinearidade perfeita
que existe entre ela e X2i.
166
TÓPICO 1 | MULTICOLINEARIDADE
QUADRO 1 – EXEMPLO DE COLINEARIDADE
Obs.
Yi
X1
X2
X3
1
3
1
2
8
2
5
1
4
14
3
7
1
6
20
4
9
1
8
26
6
12
1
10
32
7
15
1
12
38
8
18
1
14
44
9
21
1
16
50
10
23
1
18
56
FONTE: O autor
Alternativamente, você poderá querer estimar de forma manual os
coeficientes da regressão. Para fazer isso, lembre-se de que estamos lidando com
matrizes de dados. Portanto, temos no Quadro 1 o vetor coluna da variável Yi e a
matriz de variáveis Xi. Vimos na Unidade 2 que os parâmetros beta são gerados
através da equação β = (X'X)–1X'y. Para resolver essa equação, primeiro invertemos a
matriz (X'X) e depois pós multiplicamos o resultado pela pós multiplicação de X'y.
O grande problema é que só conseguiremos inverter a matriz (X'X) se ela
for não singular, ou seja, se tiver determinante diferente de zero. Procure retornar
ao material da Unidade 2 e veja como obter a multiplicação e posteriormente o
determinante dessa matriz. Compare o seu cálculo com o resultado a seguir:
 9
90
288 

( X ′X ) =  90 1140 3600 
 288 3600 11376 
1.2
O determinante da matriz 1.2 é igual a zero, e consequentemente não
conseguimos obter a sua inversa. Como resultado prático, não é possível estimar
o vetor de parâmetros β em 1.1.
O caso em 1.1 não é regra geral, mas uma exceção. Na prática, encontraremos
situações em que as variáveis explicativas possuem algum tipo de intercorrelação.
Isso é perfeitamente natural quando usamos dados coletados em bancos de
dados. Quando estivermos fazendo um estudo com dados controlados, gerados
de forma artificial, dificilmente nos depararemos com a multicolinearidade.
Gujarati e Porter (2011, p. 331) descrevem a existência de quatro tipos
de colinearidade através de um diagrama de Ballentine. São elas: a) baixa
colinearidade; b) colinearidade moderada; c) colinearidade alta; e d) colinearidade
muito alta.
167
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Devemos nos preocupar com as opções “c” e “d”, pois, muitas vezes,
a baixa colinearidade e colinearidade moderada podem ser resultantes de um
banco de dados mal construído. Dito de outra forma, podemos estar diante do
problema da micronumerosidade, situação em que a quantidade de informações
coletadas é muito pequena para estimarmos o modelo econométrico.
Outra situação que gera colinearidade entre variáveis explicativas é a
sua construção. Elas podem ser mal especificadas, gerando colinearidade entre
elas. De qualquer forma, vale salientar que, caso tenhamos colinearidade perfeita
ou muito alta, os coeficientes estimados das variáveis Xi são indeterminados
e terão desvios padrão muito altos. Do mesmo modo, a situação em que a
multicolinearidade não é perfeita pode gerar erros padrão grandes, o que resulta
em coeficientes estimados menos precisos (GUJARATI; PORTER, 2011, p. 332).
Por esses motivos, iremos considerar apenas a existência ou não da
colinearidade, sem nos aprofundarmos em calcular o seu tamanho ou grau.
Em termos práticos, representando o modelo de regressão na forma matricial,
sabemos que:
y = Xβ + ε
1.3
Em que β = (X'X)–1X'y e ε|X~N[0,σ2I].
O problema da multicolinearidade é justamente o fato de não conseguirmos
inverter a matriz (X'X). Como há colunas que são expressas em termos de outra,
ou outras, a matriz formada por esta combinação não possui posto de coluna
completo, ou seja, não é full rank.
Portanto, quanto mais correlacionadas forem as variáveis explicativas,
maior será essa variância, e em uma situação extrema, uma variável explicativa Xi
poderá ser escrita como uma combinação linear das demais variáveis explicativas
(GREENE, 2012, p. 130).
Se houver uma combinação perfeita entre duas variáveis, dizemos que a
colinearidade é perfeita. Com isso, os coeficientes de regressão das variáveis X são
indeterminados e seus erros padrão, infinitos. Por outro lado, se a colinearidade
não for perfeita, será possível obter os estimadores para os parâmetros beta,
porém, os coeficientes de regressão terão erros padrão muito grandes e, como
consequência, perdemos a precisão da nossa estimativa (GUJARATI; PORTER
2011, p.332).
168
TÓPICO 1 | MULTICOLINEARIDADE
3 DETECÇÃO DA MULTICOLINEARIDADE
Queremos apresentar a você alguns procedimentos práticos para detectar
a presença da multicolinearidade. Para isso, vamos adaptar o trabalho de
Longley (1967) à economia brasileira, com dados do período entre 1992 e 2014,
e com algumas modificações nas variáveis. Nesse artigo, Longley comparou
a programação computacional usada para estimar os modelos de mínimos
quadrados ordinários, com as calculadoras de mesa, estimando regressões com
dados macroeconômicos como os que usaremos a seguir. O nosso objetivo é
verificar a existência de multicolinearidade em um modelo próximo ao dele e
com variáveis parecidas.
Basicamente, queremos estimar o seguinte modelo de regressão:
Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t
1.4
Em que Yt é o número de pessoas ocupadas, em milhões de pessoas; X2t é
o deflator implícito do PIB em percentual; X3t é o PIB, em US$ milhões correntes;
X4t é a população desocupada, em milhões de pessoas; X5t é a população em
idade ativa, em milhões de pessoas; e X6t é uma variável de tendência temporal,
assumindo valor igual a 1 para 1992, igual a 2 para 1993 e assim por diante.
Propositalmente, essas variáveis são intercorrelacionadas. Por exemplo,
o deflator do PIB, X2t, nada mais é do que a razão entre o PIB nominal e o PIB
real. Como temos X3t representando o PIB, essas duas variáveis são colineares. As
variáveis X4t e X5t também são colineares, uma vez que a população desocupada
faz parte da população em idade ativa.
A base de dados foi obtida no site do Ipeadata e no do Banco Central do
Brasil, e pode ser vista no Quadro 2:
QUADRO 2 – ADAPTAÇÃO DOS DADOS DE LONGLEY (1967) PARA A ECONOMIA BRASILEIRA
Ano
Y
X2
X3
X4
X5
X6
1992
61.229,43
969,01
387.294,94
4.747,77
113.295,18
1
1993
62.390,58
1.996,15
429.685,27
4.554,01
115.658,04
2
2.240,17
543.086,59
1994
1995
65.386,63
1996
64.299,69
1997
3
770.733,14
4.668,84
120.600,21
4
18,46
851.019,12
5.283,79
123.377,66
5
65.576,72
7,73
883.281,56
6.057,90
125.081,92
6
1998
66.139,77
4,92
863.872,29
7.144,59
127.732,73
7
1999
69.181,06
8,01
599.289,51
8.062,11
133.172,80
8
5,61
655.707,37
8,23
559.562,59
2000
2001
73.068,66
169
9
8.174,78
140.421,76
10
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
2002
75.563,62
9,80
508.101,18
8.280,25
143.133,84
11
2003
76.421,21
14,09
559.465,40
8.950,36
145.761,09
12
2004
79.103,30
7,75
669.339,54
8.524,17
148.010,17
13
2005
80.945,16
7,43
892.033,25
9.202,79
150.859,82
14
2006
82.744,29
6,77
1.107.131,34
8.411,57
153.801,64
15
2007
84.119,03
6,44
1.396.797,40
8.245,22
156.439,29
16
2008
86.632,36
8,78
1.693.147,00
7.316,40
159.219,53
17
2009
87.409,36
7,31
1.672.624,76
8.699,57
161.606,53
18
2010
8,42
2.209.750,92
2011
88.689,31
8,32
2.614.482,35
6.977,32
166.210,05
19
20
2012
90.213,01
7,94
2.463.548,92
6.507,01
168.070,91
21
2013
90.385,60
7,50
2.468.456,41
6.957,62
170.001,90
22
2014
92.869,85
7,85
2.454.846,01
7.571,69
172.180,43
23
FONTE: Adaptado de <www.ipeadata.gov.br> e <www.bcb.com.br>. Acesso em: 30 ago. 2018
Digamos que, ao construir o modelo, não sabemos se as variáveis são
correlacionadas entre si. Por isso, analisaremos a matriz de correlação antes de
estimar o modelo econométrico. Caso encontremos correlações de valor superior
a |0,80|, podemos supor que essas variáveis apresentam colinearidade. Se a
correlação for menor que |0,50|, aparentemente não teremos que nos preocupar
com colinearidade.
Na tela principal do Gretl, vá até o menu e selecione “Ver”, na sequência
escolha “Matriz de correlação” e selecione as variáveis Xkt, clicando em “ok” para
confirmar. Reproduzimos no Quadro 3 o resultado dessa análise:
QUADRO 3 – MATRIZ DE CORRELAÇÃO DOS DADOS DO MODELO 1.4
Coeficientes de Correlação, usando as observações 1992 – 2014
(valores ausentes ignorados)
X2
X3
X4
X5
X6
1,0000
-0,3638
-0,6516
-0,5537 -0,5811
1,0000
0,0775
0,8229
0,8676
1,0000
0,5898
0,5461
1,0000
0,9968
1,0000
X2
X3
X4
X5
X6
FONTE: O autor
A matriz de correlação apresentada no Quadro 3 deve ser analisada com
cautela. Ela até pode indicar a existência de colinearidade entre duas variáveis, caso o
coeficiente de correlação seja maior do que |0,80|, porém, podemos ter colinearidade
entre variáveis, mesmo na presença de coeficientes de correlação baixos, como no
caso em estudo. Mas, só saberemos isso se tivermos em mãos as informações a priori,
obtidas diretamente da teoria subjacente ao modelo de regressão.
170
TÓPICO 1 | MULTICOLINEARIDADE
Sabemos que X2t e X3t são colineares, assim como X4t e X5t. Apesar disso,
a correlação entre X2t e X3t é de -0,3638. Além disso, X2t tem correlação acima de
|0,50| comparativamente a X4t, X5t e X6t. A variável X3t tem correlação acima de
|0,80|em comparação a X5t e X6t Por sua vez, X4t tem correlação acima de |0,50|
se comparada a X2t, X5t e X6t. E ainda, a variável X5t tem correlação maior que
|0,50| quando comparada às demais variáveis, sendo maior que |0,80| quando
comparada a X3t e X6t. O mesmo pode ser visto quanto a X6t, que apresenta
correlação acima de |0,50| em relação a todas as variáveis e acima de |0,80|
quando comparada a X3t e X5t.
Os resultados da análise da matriz de correlação levantam a suspeita da
existência de colinearidade entre algumas variáveis. Como veremos adiante,
o problema que estamos enfrentando pode ter origem em uma amostra muito
pequena, ou uma quantidade muito grande de parâmetros a serem estimados
comparativamente ao tamanho da amostra.
Supondo que deixemos a matriz de correlação de lado, apesar da suspeita
de multicolinearidade, passemos a estimar o modelo de regressão. Os resultados
da estimação do modelo 1.4 estão no Quadro 4.
Podemos perceber que as informações ausentes no Quadro 2 foram
devidamente tratadas pelo Gretl. Devemos lembrar da regra que apresentamos
na Unidade 1, em que falamos que precisamos ter pelo menos 20 graus de
liberdade ao estimarmos um modelo de regressão. Como nosso modelo tem 23
observações, sendo quatro delas eliminadas pela existência de “buracos” na nossa
base de dados, ficamos com um total de 19 observações úteis. Assim, nos restou
apenas 13 graus de liberdade.
Os coeficientes estimados mostraram pouca significância estatística
quando analisados individualmente. Apenas a variável X5t é estatisticamente
significativa ao nível de 1%, e a variável X2t só é significativa a 10%. Por outro
lado, o R2 é igual a 99,49%, indicando que os dados aderem perfeitamente ao
modelo de regressão, ou seja, 99,49% das mudanças em Yt, população ocupada,
são explicadas pelo modelo 1.4.
Aqui fica claro que, na presença de colinearidade entre variáveis
explicativas, os erros padrão são muito grandes quando comparados aos valores
dos coeficientes estimados. Por esse motivo, perceba que as estatísticas t são
muito pequenas, gerando p – valor alto, o que não nos permite rejeitar a H0: βk
= 0. Apesar de termos desvios padrão grandes, e consequentemente variâncias
grandes, continuaremos usando Mínimos Quadrados Ordinários, porque eles
ainda são os melhores estimadores lineares não tendenciosos, mesmo na presença
de colinearidade (GUJARATI; PORTER, 2011, p. 334).
As razões t muito baixas são ótima pista da existência de multicolinearidade.
A implicação direta, como discutimos no parágrafo anterior, é que as variáveis
explicativas têm pouca significância estatística. Mesmo assim, o R2 é alto e a
171
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
estatística F nos diz que podemos rejeitar a hipótese nula de que, em conjunto, os
coeficientes são estatisticamente iguais a zero. Isso é uma tremenda contradição,
não é mesmo?
A própria construção equivocada do nosso modelo já indicava que
teríamos um resultado ruim. Por isso, precisamos prestar muita atenção tanto na
especificação do modelo quanto na das variáveis. Não basta colocá-las em uma
tabela, importar os dados para o Gretl e estimar a regressão achando que teremos
resultados consistentes pelo simples fato de estarmos empregando o método de
mínimos quadrados ordinários. A consistência depende muito mais da técnica do
que de qualquer outra coisa.
QUADRO 4 – RESULTADO DA ESTIMAÇÃO DO MODELO 1.4
Modelo 1: MQO, usando as observações 1992-2014 (T = 19)
Observações ausentes ou incompletas foram ignoradas: 4
Variável dependente: Y
coeficiente
erro padrão
razão-t
p-valor
---------------------------------------------------------------const
−29423,6
23807,9
−1,236
0,2384
X2
1,31718
0,669248
1,968
0,0708 *
X3
−0,000186111
0,00149242
−0,1247
0,9027
X4
−0,310180
0,493459
−0,6286
0,5405
X5
0,798048
0,215887
3,697
0,0027 ***
X6
−557,120
688,356
−0,8093
0,4329
Média var. dependente
77735,90
Soma resíd. quadrados
10158809
R-quadrado
0,994889
F(5, 13)
506,1060
Log da verossimilhança −152,2593
Critério de Schwarz
322,1851
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
10508,29
883,9948
0,992923
2,05e-14
316,5185
317,4775
Excluindo a constante, a variável com maior p-valor foi 3 (X3)
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
FONTE: O autor
Continuando a nossa análise, e por suspeitar que existe a presença de
multicolinearidade, podemos aplicar alguns procedimentos estatísticos mais
robustos para confirmar se existe ou não esse problema.
Uma das coisas que podemos fazer é estimar uma regressão colocando
cada variável Xkt como variável dependente, contra as demais variáveis Xkt como
variáveis explicativas. Do resultado dessas regressões, que chamaremos de
“auxiliares”, salvaremos os R2, que servirão para construir um teste F, com k – 2 e
n – k + 1 graus de liberdade.
172
TÓPICO 1 | MULTICOLINEARIDADE
A equação 1.5 apresenta a estatística F, a qual segue Gujarati e Porter
(2011, p. 346):
Fi =
Rx2i .x2 x3 …xk / ( k − 2 )
(1 − R
2
xi .x2 x3 …xk
1.5
) / ( n − k + 1)
Em que n é o tamanho da amostra, k o número de variáveis explicativas
incluindo o intercepto e R2xj.x2x3...xk é o coeficiente de determinação da variável
Xi em relação às demais variáveis explicativas.
A estimação de cada regressão auxiliar fica para você fazer como exercício
e os resultados compilados são apresentados no Quadro 5. Neste exemplo, k = 5,
k – 2 = 3 e n – k + 1 = 19 – 5 + 1 = 15:
QUADRO 5 – COEFICIENTES DE DETERMINAÇÃO DAS REGRESSÕES AUXILIARES
Variável dependente
R2
Fi
X2t
0,6048
=
FX2
(1 − 0 , 6048 ) / 15
X3t
0,9679
=
FX3
(1 − 0 , 9679 ) / 15
X4t
0,9078
=
FX4
(1 − 0 , 9078 ) / 15
X5t
0,9973
=
FX5
X6t
0,9979
=
FX6
0 , 6048 / 3
0 , 2016
= = 7 , 6654
0 , 0263
0 , 9679 / 3
0 , 3226
= = 153 , 619
0 , 0021
0 , 9078 / 3
0 , 3026
= = 49 , 6066
0 , 0061
0 , 9973 / 3
0 , 3324
= = 1662
0 , 0002
1
−
0
,
9973
/
15
(
)
0 , 9979 / 3
0 , 3326
= = 3326
0 , 0001
(1 − 0 , 9979 ) / 15
FONTE: O autor
Recorrendo à tabela de distribuição F(3,15), encontramos o valor crítico ou
tabelado de 4,1528, ao nível de significância de 5%. Se o Fcalculado > Ftabela, rejeitamos
a hipótese nula de que não há colinearidade entre a variável Xit e as demais
variáveis Xit, ao nível de significância estabelecido (5%, como no nosso exemplo).
Dito de outra forma, Fcalculado > Ftabela quer dizer que a colinearidade existe.
Podemos ver, com base nos resultados do Quadro 5, que todas as
estatísticas F calculadas são maiores que as da tabela de distribuição, revelando
através desse procedimento que a multicolinearidade existe entre as variáveis
explicativas inseridas no modelo. É como se todas elas fossem endógenas, quando
no modelo clássico supomos a existência apenas de uma variável endógena, que
é a variável dependente.
173
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Gujarati e Porter (2011, p. 347) apresentam outra regra prática para
analisar o Quadro 5. Trata-se da regra prática de Klein, a qual diz que devemos
nos preocupar com a colinearidade somente se o R2 de todas as regressões
auxiliares for maior do que o R2 do modelo de regressão original. Seguindo isso,
vimos no Quadro 4 que o R2 = 0,9949. Apenas as regressões auxiliares de X5t e X6t
apresentam R2 maior do que da regressão original.
Essa regra prática contradiz um pouco o que vimos anteriormente. Por esse
motivo, devemos evitar os atalhos e nos ater às técnicas devidamente comprovadas,
como veremos a seguir.
Uma das medidas de multicolinearidade mais comuns na literatura é o
Fator de Inflação da Variância – FIV –, que mede a velocidade do aumento da
variância e covariância. A partir dessa estatística é possível estimar a tolerância,
denominada TOL (GUJARATI; PORTER, 2011, p. 337). O cálculo é feito por:
FIV J =
1
1 − rJ2
1.6
TOL =
1
FIV j
1.7
Em que J se refere à Jésima variável X. Assim, FIVJ e rj2 são, respectivamente,
o Fator de Inflação da Variância e o coeficiente de determinação da Jésima variável
X. Caso o FIVj > 10, podemos dizer que há uma alta colinearidade entre a vaiável
Xjt e as demais.
Para aplicar o teste, partimos do modelo de regressão estimado (Quadro
4), em que selecionamos o menu “Análise” e escolhemos a opção “Colinearidade”.
Os resultados estão no Quadro 6.
174
TÓPICO 1 | MULTICOLINEARIDADE
QUADRO 6 – TESTES DE COLINEARIDADE
Fatores de Inflação da Variância (FIV)
Valor mínimo possível = 1,0
Valores > 10,0 podem indicar um problema de colinearidade
X2
X3
X4
X5
X6
2,531
31,114
10,843
372,769
485,148
VIF(j) = 1/(1 - R(j)^2), em que R(j) é o coeficiente de correlação
múltipla entre a variável j e a outra variável independente
Diagnósticos de colinearidade de Belsley-Kuh-Welsch:
lambda
4,750
1,011
0,211
0,027
0,002
0,000
--- proporções de variância --const
X2
X3
X4
0,000
0,001
0,000
0,000
0,000
0,323
0,000
0,000
0,000
0,077
0,021
0,003
0,001
0,255
0,060
0,008
0,005
0,316
0,707
0,989
0,994
0,027
0,211
0,000
cond
1,000
2,168
4,748
13,361
55,296
438,119
X5
0,000
0,000
0,000
0,000
0,004
0,996
X6
0,000
0,000
0,000
0,008
0,033
0,958
lambda = autovalores de X'X, maior para o menor
cond
= índice condicional
nota: as colunas de proporção da variância somam 1
FONTE: O autor
Perceba que, no Quadro 6, a variável X2t não apresenta problema de
colinearidade com as demais. A variável X4t é levemente colinear, pois apresenta
FIVX4t = 10,843 e nossa regra diz que, quando o FIVj > 10, temos problemas de
colinearidade. As demais possuem valores extremamente altos para a estatística
FIVJ.
A TOL pode ser facilmente obtida e seus resultados são apresentados
no Quadro 7, corroborando a conclusão que chegamos até o momento. Valores
próximos de zero indicam a presença de colinearidade. Esperaríamos uma TOL
perto de 1 para dizer que não existe colinearidade perfeita entre as variáveis.
Finalmente, outra estatística de teste que pode ser implementada é o índice
condicional ou número de condição. Para ver esse teste, teremos que voltar para o
Quadro 6. O Gretl reporta o resultado desse teste automaticamente e é derivado
de Belsley, Kuh e Welsch (1980, p. 96), cujas definições algébricas fogem em muito
ao escopo desse livro de estudos. Por esse motivo nos limitaremos à interpretação
dos resultados obtidos.
175
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 7 – ESTIMATIVA DA TOLERÂNCIA (TOL) – COM OS DADOS DO QUADRO 1.6 E
EQUAÇÃO 1.7
TOL =
1
FIVj
Variável dependente
FIVJ
X2t
2,531
0,3951
X3t
31,114
0,0321
X4t
10,843
0,0922
X5t
372,769
0,0027
X6t
485,148
0,0021
FONTE: O autor
A interpretação desse teste é bem simples. Se o índice condicional for alto,
digamos, acima de 30, e a proporção da variância for alta (maior do que 0,5) para
dois ou mais coeficientes estimados, podemos concluir que a variável em questão
apresenta problemas de colinearidade (BELSLEY; KUH; WELSCH, 1980, p. 112).
A título de exemplo, estamos reproduzindo o diagnóstico de colinearidade
do Quadro 6 no Quadro 8 para destacar essa análise. Note que as variáveis
X5t e X6t apresentam índice condicional de 55,296 e 438,119, respectivamente.
Concomitantemente, a proporção da variância para X5t é alta quando comparada
às variáveis X3 e X4. Da mesma forma, a proporção da variância de X6t é alta
quando comparada a X5t e o próprio X6t .
QUADRO 8 – DIAGNÓSTICO DE COLINEARIDADE (A PARTIR DO QUADRO 6)
Diagnósticos de colinearidade de Belsley-Kuh-Welsch:
lambda
4,750
1,011
0,211
0,027
0,002
0,000
cond
1,000
2,168
4,748
13,361
55,296
438,119
--- proporções de variância --const
X2
X3
X4
0,000
0,001
0,000
0,000
0,000
0,323
0,000
0,000
0,000
0,077
0,021
0,003
0,001
0,255
0,060
0,008
0,005
0,316
0,707
0,989
0,994
0,027
0,211
0,000
lambda = autovalores de X'X, maior para o menor
cond
= índice condicional
nota: as colunas de proporção da variância somam 1
FONTE: O autor
176
X5
0,000
0,000
0,000
0,000
0,004
0,996
X6
0,000
0,000
0,000
0,008
0,033
0,958
TÓPICO 1 | MULTICOLINEARIDADE
4 O QUE FAZER NA PRESENÇA DE MULTICOLINEARIDADE?
Do que vimos até agora, resta a grande dúvida: O que fazer se detectarmos
a presença de colinearidade entre as variáveis explicativas? De longe não há
um consenso na literatura econométrica sobre esse assunto, motivo pelo qual
são poucos os manuais de econometria que destacam um capítulo inteiro para
analisar essa questão.
Para entendermos bem o que devemos fazer na presença de
multicolinearidade é necessário compreender melhor o que acontece com os
estimadores de mínimos quadrados. Gujarati e Porter (2011, p. 334) nos dizem
que “[...] mesmo se a multicolinearidade for muito alta, como no caso da quase
multicolinearidade, os estimadores de MQO ainda conservarão a propriedade
de melhores estimadores lineares não viesados”. Aqui o autor está se referindo a
uma situação em que a colinearidade não é perfeita, mas quase.
A superação desse problema passa por diversas técnicas, dentre as quais,
não fazer nada também é uma delas. Isso se justifica se levarmos em consideração
a preservação da propriedade de melhor estimador linear não tendencioso.
Porém, você pode não se sentir confortável não fazendo nada, porque sabe que os
estimadores perdem a eficiência em razão de ter uma variância muito alta, gerando
intervalos de confiança amplos, nos induzindo a cometer um erro do tipo II.
Normalmente, o problema surge quando temos uma amostra muito
pequena ou quando o número de graus de liberdade é baixo. Nesses casos,
podemos resolver a questão simplesmente aumentando o número de observações.
No exemplo que desenvolvemos na seção anterior, tínhamos apenas 19 observações
válidas, resultando em 13 graus de liberdade em razão dos 6 parâmetros estimados.
Isso ocorreu porque tínhamos uma base de dados anual (23 anos), em que quatro
observações não estavam disponíveis para todas as variáveis. Nesse caso optamos
por deixar o Gretl resolver o problema para nós, e o que ele fez foi excluir da
regressão a linha inteira em que haviam dados ausentes, reduzindo a nossa base.
Uma medida alternativa seria fazer uma média móvel para tapar esses
buracos. Com isso talvez não resolvêssemos a questão da multicolinearidade,
mas não perderíamos os graus de liberdade, que são tão importantes para dar
um sentido empírico ao estudo. Outra saída seria obter dados trimestrais em vez
de dados anuais, para o mesmo período de análise. Isso nos daria um total de 92
observações. Assim, lembrando das propriedades assintóticas dos estimadores,
sabemos que em amostras grandes, E ( β̂ k ) ≅ β k. Trata-se de procedimento simples,
porém depende da existência de dados nessa frequência, o que nem sempre é
possível de encontrar.
Outra forma de ampliar o tamanho da amostra é trabalhar com a combinação
de dados de corte e séries temporais. Temos aí o chamado painel de dados, que
permite fazer uma análise cruzada das informações. Essa técnica é discutida na
disciplina de Econometria II, a qual ampliará ainda mais o leque de conhecimento
177
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
e consolidará tudo o que aprendemos em Econometria I, apresentando a você uma
série de modelos econométricos que lhe ampliará as possibilidades de aplicação.
Por ora, basta sabermos que esta é uma das saídas possíveis.
Redefinir as variáveis também é uma opção. Maddala (2003, p. 147) nos
alerta que “as intercorrelações podem mudar com a redefinição das variáveis
explicativas”. No exemplo citado no seu livro, ele trabalha com a renda corrente,
renda permanente e renda transitória como variáveis explicativas. Claramente a
renda corrente é uma soma da renda permanente com a transitória, gerando o
problema da colinearidade entre essas variáveis. Em uma transformação em que
você combina duas variáveis é possível estimar uma combinação de parâmetros
e, a partir do resultado, obter o parâmetro da equação original.
Além disso, talvez queiramos excluir uma das variáveis explicativas,
o que pode ser feito se não estivermos interessados na estimação de todos os
parâmetros do modelo. Porém, essa solução pode gerar um problema ainda
maior, o do viés ou erro de especificação (GUJARATI; PORTER, 2011, p. 351). Se
na teoria econômica o consumo depende da renda corrente, renda permanente
e renda transitória, ao excluirmos uma dessas variáveis estaremos especificando
um modelo de forma incorreta.
Para finalizar a questão da multicolinearidade, vamos estimar novamente
no nosso modelo, redefinindo-o a fim de tentarmos corrigir o problema. Para isso,
vamos reescrever o modelo 1.4 da seguinte forma:
Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t + εt
1.8
Yt = β1 + β2X2t + β3X3t + β4X4t + β6X6t + εt
1.9
Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + εt
1.10
Yt = β1 + β2X2t + β3X3t + β4X4t + εt
1.11
A fim de solucionar o problema de multicolinearidade, usaremos o
modelo 1.8 como comparação, porque é o nosso modelo original, usaremos os
modelos 1.9 eliminando a variável X5t, 1.10 eliminando X6t, mas mantendo X5t e
1.11 eliminando X5t e X6t.
Escolhemos essas formas funcionais porque nos quadros 6 e 8 detectamos
que as variáveis X5t e X6t apresentam problemas de multicolinearidade mais forte
do que as demais variáveis incluídas no modelo.
178
TÓPICO 1 | MULTICOLINEARIDADE
No Quadro 9 apresentamos os resultados dos modelos estimados.
Adicionalmente transcrevemos algumas estatísticas úteis aos resultados obtidos.
Temos agora a soma dos quadrados dos resíduos, pois o método de mínimos
quadrados requer exatamente isso, ou seja, escolher parâmetros de regressão que
sejam capazes de minimizar essa soma. Esperaríamos que o melhor modelo fosse
aquele que apresentasse o menor número dessa estatística.
O R2, você já está habituado a ver nos nossos resultados e o R2 ajustado também.
Sabemos que ao analisar dois modelos de regressão que não têm o mesmo número
de variáveis explicativas, devemos comparar o R2 ajustado , pois sabemos que a
inclusão de variáveis explicativas melhora a qualidade do ajustamento, medido
pelo R2 . Assim, pela definição do R2 ajustado , que penaliza essa inclusão, podemos
escolher o melhor modelo.
A título de comparação entre modelos, estamos também adicionando os
critérios de informação de Akaike e de Schwarz, definidos na Unidade 2 como:
Critério de informação
Akaike
Schwarz
Equação
AIC =
−2l θˆ + 2 k
()
BIC =
−2l (θˆ ) + k ln n
1.12
1.13
Retorne à Unidade 2 para revisar a explicação que demos a respeito dessas
duas estatísticas. Ambos os critérios punem a inclusão de variáveis explicativas,
mas em termos técnicos, são estatísticas mais robustas para a escolha de modelos
de regressão do que o R2ajustado. A regra aqui é selecionar o modelo de regressão
que apresenta o menor valor para essas duas estatísticas.
O teste F também é reportado no Quadro 9, e como sabemos, ele testa a
hipótese de que, em conjunto, todos os coeficientes estimados são estatisticamente
iguais a zero, contra a hipótese alternativa de que pelo menos um dos coeficientes
é estatisticamente diferente de zero. E como falamos em graus de liberdade, esse
número também está reportado.
179
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 9 – REFORMULANDO O MODELO PARA RESOLVER O PROBLEMA DA
MULTICOLINEARIDADE
Coeficiente
estimado
Modelo 1.8
Modelo 1.9
Modelo 1.10
Modelo 1.11
Constante
−29.423,6
(0,2384)
57.777,8
(0,0000)***
−10.404,5
(0,0154)**
28.442,2
(0,0000)***
X2t
1,3172
(0,0708)*
1,8125
(0,0649)*
1,3738
(0,0554)*
4,3362
(0,0372)**
X3t
−0,0002
(0,9027)
−0,0024
(0,2144)
−0,0009
(0,4288)
0,0119
(0,0000)***
X4t
−0,3102
(0,5405)
−0,2051
(0,7674)
−0,380577
(0,4408)
4,63809
(0,0000)***
X5t
0,7980
(0,0027)***
X6t
−557,120
(0,4329)
1.902,93
(0,0000)***
R2
0,9949
0,9895
0,9946
0,9435
R2ajustado
0,9929
0,9865
0,9931
0,9322
Soma dos
resíduos
quadrados
10.158.809
20.837.187
10.670.691
112.000.000
Akaike
316,5185
328,1681
315,4525
358,1619
Schwarz
322,1851
332,8903
320,1747
361,9397
F
506,1060***
330,3606***
648,4462***
83,5450***
Graus de
liberdade
13
14
14
15
0,6291
(0,0000)***
Obs.: p – valor entre parênteses e *, ** e *** indicam significância estatística ao nível de 10%, 5%
e 1%.
FONTE: O autor
Já tínhamos visto os resultados do modelo 1.8 no Quadro 4, e vimos
através dos diversos testes apresentados nessa seção que há a presença de
multicolinearidade entre as variáveis. Lembrando que a variável dependente
é a quantidade de pessoas ocupadas, e queremos saber se essa variável pode
ser explicada pelo deflator implícito do PIB, pelo próprio PIB, pela população
desocupada e a população em idade ativa.
Incluímos ainda uma variável de tempo para capturar a tendência
determinística da série temporal, como você terá a oportunidade de estudar em
Econometria II. Por estarmos trabalhando com séries variantes no tempo, algumas
técnicas precisam ser empregadas para evitar erros de especificação, porém
optamos por manter o exemplo o mais simples possível, a fim de que você possa
compreender a teoria e aplicar na prática aquilo que aprendeu até este momento.
Deixaremos as discussões envolvendo técnicas de séries temporais para o futuro.
180
TÓPICO 1 | MULTICOLINEARIDADE
No modelo 1.8, temos poucos coeficientes estimados estatisticamente
significativos. Pelos testes de multicolinearidade, verificamos que pode haver
esse problema entre as variáveis (veja os quadros 5, 6 e 7). Como não sabemos
a natureza desse problema, suspeitamos que seja a especificação incorreta das
variáveis do modelo, e com isso o próprio modelo pode estar especificado de
forma incorreta.
Para testar a especificação do modelo, ou melhor dizendo, se ao menos
a forma funcional está corretamente especificada, podemos empregar o teste
RESET de Ramsey, visto na Unidade 2. Basicamente ele consiste em um processo
de várias etapas, com a inclusão da variável dependente estimada na forma
quadrática e cúbica como variável explicativa.
Com isso podemos testar a hipótese nula de que o modelo está corretamente
especificado, contra a hipótese alternativa de que o modelo não está. Dito de outra
forma, fazemos:
H0: E(Yt|X2t, X3t, X4t, X5t, X6t) = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t
H1: E(Yt|X2t, X3t, X4t, X5t, X6t) = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t
1.14
Para rodar o teste estimamos um modelo de regressão como em 1.8, salvamos
o R2 e depois estimamos outros modelos com a inclusão da variável dependente
estimada na forma quadrática e cúbica e também salvamos o R2 . Com esses resultados
implementamos um teste F da seguinte forma:
Fcalculado
( R − R ) / número de novos regressores
=
(1 − R ) / ( n − número de parâmetros do novo modelo )
2
novo
2
velho
2
novo
1.15
Esse teste segue uma distribuição F com grau de liberdade no numerador,
sendo o número de novos regressores, e o denominador é dado por n – número
de parâmetros do novo modelo.
O resultado para o modelo 1.8 está descrito no Quadro 10 e é facilmente
implementado a partir da tela do modelo estimado no Gretl, selecionando o
menu “Testes”, na sequência “RESET de Ramsey”, e na janela que abrir você
pode marcar “Todas as variantes”:
181
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 10 – TESTE DE ESPECIFICAÇÃO DE RESET PARA O MODELO 1.8
Teste RESET para especificação (quadrados e cubos)
Estatística de teste: F = 11,344045,
com p-valor = P(F(2,11) > 11,344) = 0,00212
Teste RESET para especificação (apenas quadrados)
Estatística de teste: F = 1,381340,
com p-valor = P(F(1,12) > 1,38134) = 0,263
Teste RESET para especificação (apenas cubos)
Estatística de teste: F = 0,951401,
com p-valor = P(F(1,12) > 0,951401) = 0,349
FONTE: O autor
Conforme o Quadro 10, podemos rejeitar a hipótese nula de que o modelo
1.8 está corretamente especificado se considerarmos quadrados e cubos. Há,
portanto, uma pista para o problema da multicolinearidade. Talvez não tenhamos
esse problema afinal, mas especificamos incorretamente o nosso modelo.
Voltemos ao Quadro 9 e vamos analisar o resultado do modelo 1.9. Perceba
que a exclusão de X5t, ou seja, a população em idade ativa, não traz nenhuma
melhora significativa nos critérios de seleção. O R2ajustado diminuiu, enquanto a
soma dos quadrados dos resíduos, o Akaike e o Schwarz aumentaram. Portanto,
apesar de aumentarmos o número de graus de liberdade com a exclusão de
uma variável explicativa, os resultados não estão melhores do que estariam se a
mantivéssemos no modelo. O teste RESET para quadrados e cubos para o modelo
1.9 apresentou um F = 19,7932 com p – valor = 0,0002, indicando que este modelo
não está corretamente especificado.
Dessa forma, podemos partir para o próximo modelo, 1.10, o qual inclui
novamente X5t e exclui X6t. Aqui temos uma ligeira melhora nos critérios de
seleção quando comparados com os modelos precedentes. Porém, o que tem nos
incomodado é o fato de que os coeficientes estimados individualmente continuam
com baixa significância estatística e R2 alto, indicando que o problema pode não
ter sido solucionado. O teste RESET para quadrados e cubos nos faz rejeitar a
hipótese nula de que o modelo está corretamente especificado, com um F = 8,4952
e um p – valor = 0,0050. Em resumo, 1.10 ainda não é o modelo que queremos para
avançar nos nossos estudos.
Finalmente estimamos o modelo 1.11, em que excluímos tanto a variável X5t
quanto X6t. Agora os coeficientes estimados são todos estatisticamente significativos.
Apesar disso, todos os critérios de seleção tiveram piora nos seus resultados, mas
o teste RESET com F = 2,4287 e p – valor = 0,127 indica que não podemos rejeitar a
hipótese nula de que o modelo está corretamente especificado.
E agora, o que devemos fazer? A resposta para essa dúvida é crucial para o
desenrolar do nosso estudo. Por esse resultado, a exclusão da população em idade
182
TÓPICO 1 | MULTICOLINEARIDADE
ativa e a tendência temporal melhoraram a qualidade dos coeficientes estimados
das outras variáveis explicativas. Além disso, o fato de o modelo estar corretamente
especificado, nos faz querer escolher 1.11 em detrimento dos demais.
Afinal, será que esse modelo é capaz de resolver o problema da
multicolinearidade? Veja o Quadro 11, nele apresentamos o teste de colinearidade
para o modelo 1.11. Ao que tudo indica, com essa nova especificação, o problema
foi superado. E quanto aos demais modelos, eles resolvem o problema da
colinearidade? Vamos deixar você verificar essa dúvida com os dados disponíveis.
Você concluirá que, entre os quatro modelos apresentados, o único que não tem
multicolinearidade é 1.11.
QUADRO 11 – TESTES DE COLINEARIDADE PARA O MODELO 1.11
Fatores de Inflação da Variância (FIV)
Valor mínimo possível = 1,0
Valores > 10,0 podem indicar um problema de colinearidade
X2
X3
X4
2,121
1,222
1,877
VIF(j) = 1/(1 - R(j)^2), em que R(j) é o coeficiente de correlação
múltipla
entre a variável j e a outra variável independente
Diagnósticos de colinearidade de Belsley-Kuh-Welsch:
lambda
2,854
0,953
0,185
0,008
cond
1,000
1,730
3,924
19,254
--- proporções de variância --const
X2
X3
X4
0,002
0,006
0,023
0,002
0,000
0,413
0,014
0,000
0,008
0,048
0,803
0,021
0,991
0,533
0,160
0,976
lambda = autovalores de X'X, maior para o menor
cond
= índice condicional
nota: as colunas de proporção da variância somam 1
FONTE: O autor
Isso certamente nos faz questionar a validade dos critérios de seleção
que apresentamos nessa seção. Na verdade, ao escolher o modelo de regressão,
devemos ser parcimoniosos, ou seja, escolher aquele que apresenta o conjunto
mais equilibrado de estatísticas, com a menor quantidade de problemas e a
melhor qualidade de ajuste.
Além disso, um resultado ruim pode ser bom do ponto de vista empírico!
Apesar de contraditório, se a teoria econômica por traz do estudo do desemprego
disser que é obrigatório usar as variáveis X5t e X6t, o nosso resultado refutaria essa
teoria e a partir dela poderíamos lançar uma proposição alternativa a essa teoria.
183
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
A única coisa que temos que evitar são as estimações ad hoc, ou seja, por tentativa
e erro.
Ao selecionar o modelo 1.11, partimos dos quadros 5, 6 e 7, que já nos
indicavam que estas duas variáveis estavam prejudicando os resultados do
nosso modelo de regressão. Da mesma forma, o teste RESET confirmou que a
escolha por 1.11 é a melhor escolha, considerando que dessa forma o modelo está
corretamente especificado.
LEITURA COMPLEMENTAR
Métodos Quantitativos em Contabilidade: A Contabilometria
Carlos Cesar D'Arienzo
O raciocínio do Prof. Iudícibus segue a série de cuidados (estatísticos e
econômicos) nomeados por Barbancho (1970, p. 34) quanto ao uso inapropriado
da Econometria para todos os fins nos campos das Ciências Econômicas e apesar
de todos os seus avanços como técnica, ao enumerá-los:
Ordem Estatística: dificuldade de dar tratamento a alguns tipos
de modelos não lineares; autocorrelação observada entre os termos
residuais; erros de observações nas variáveis; amostras pequenas e ou não
representativas; intercorrelação entre as variáveis explicativas, impedindo
o pleno conhecimento da verdadeira relação (multicolinearidade).Ordem
Econômica: dificuldade de incorporar aos modelos fatores subjetivos
como atitudes, opiniões, expectativas, intenções; problema de classificação
de variáveis em endógenas e exógenas, ou seja, dificuldade de estabelecer
a direção do efeito das variáveis; problema de especificação da teoria e
dos erros (grifo do autor).
Contudo, deve-se entender que o profissional de Contabilidade, disposto a
trabalhar com elementos de Contabilometria, necessita desenvolver conhecimentos
de Elementos de Técnicas Computacionais, Economia e Administração, além de
conhecimentos específicos de Matemática e Estatística, tais como: funções, derivadas,
máximos e mínimos de funções, limites, integrais, determinantes, matrizes, séries,
medidas de tendência central e de dispersão, amostragem, probabilidade, teste de
hipótese, correlação, análise de regressão e análise de variância.
O Prof. Iudícibus adverte quanto ao uso puro e simples da Econometria
como suporte à Contabilometria em sua fase nascente, notadamente em relação
às diferenças (às vezes sutis) entre as Teorias Econômicas e Contábeis, sobre, por
exemplo, a natureza dos Custos de Produção.
As advertências expostas pelo Professor Iudícibus (1982), referentes à
comparação entre Teorias Contábeis e as Econômicas, são compartilhadas por
Vasconcellos e Oliveira (2000, p. 149).
184
TÓPICO 1 | MULTICOLINEARIDADE
O Prof. Iudícibus (1982, p. 45) prossegue em suas observações quanto
às limitações da analogia envolvendo Econometria e as especulações sobre a
nascente Contabilometria:
[...] precisamos verificar se a definição de Econometria dada linhas
acima poderia ser transplantada para a Contabilidade. Assim,
Contabilometria seria: a análise, quantitativa de 'fenômenos
contábeis' reais baseada no desenvolvimento concomitante da teoria
e da observação, relacionados através de métodos apropriados de
inferência. Bem, temos, aparentemente, um problema aqui. A rigor,
deveríamos ter 'fenômenos contábeis reais' para sermos exatamente
simétricos com a definição de Econometria. Talvez nem tivéssemos
Contabilidade se dependêssemos apenas de genuínos fenômenos
contábeis reais, pois a maior parte dos 'fatos contábeis' decorre
de fenômenos econômicos (transações) reais ou, na apreciação de
relatórios periódicos, da agregação de vários fatos ocorridos em vários
momentos de tempo. É preciso ressaltar, todavia, que os dois conjuntos
(fenômenos econômicos e fatos contábeis) não são isomórficos.
Nesse sentido, Barre (1964, p. 27) adverte sobre a tentativa de isolaremse ramos da Ciência: "[...] Autonomia não significa independência e implica
colaboração e convergência de esforços". Afinal, é a organização do Conhecimento
e a avaliação das precedências das teorias e técnicas, que fornecem a base para o
trabalho científico, mesmo de disciplinas nascentes ou ainda incipientes, caso da
Contabilometria.
FONTE: <http://www.administradores.com.br/artigos/economia-e-financas/metodos-quantitativosem-contabilidade-a-contabilometria-7/60532/>. Acesso em: 17 jun. 2018.
185
RESUMO DO TÓPICO 1
Neste tópico, você aprendeu que:
• Ao estimar um modelo de regressão múltiplo, se violarmos a hipótese 3
do modelo clássico de regressão linear, nos deparamos com o problema da
colinearidade ou multicolinearidade, ou seja, as colunas da matriz de variáveis
explicativas, X, são correlacionadas, deixando de ser independentes.
• O problema da colinearidade está relacionado ao banco de dados, e pode ser
gerado pelo próprio pesquisador, e mesmo assim os estimadores de mínimos
quadrados mantêm a propriedade desejável de melhores estimadores lineares
não tendenciosos.
• Para detectar o problema de colinearidade estimamos do Fator de Inflação
da Variância e adotamos o procedimento proposto por Belsley, Kuh e Welsch
(1980), que gera um resultado mais preciso.
• Para superar o problema, devemos ampliar a base de dados e/ou testar formas
funcionais alternativas, usando os critérios de informação já discutidos na
Unidade 2 como base para a escolha do modelo mais parcimonioso.
186
AUTOATIVIDADE
Para esta atividade, vamos usar os dados originais de Longley (1967).
Para isso, abra o Gretl e acesse o menu “Arquivo”, “Abrir dados”, “Arquivo de
exemplos...”. Selecione a aba “Gretl” e procure por “longley”, dando um duplo
clique. Através deste arquivo, temos dados anuais para o período entre 1947 e
1962 e se referem a:
Variável: Descrição.
employt:
Número de pessoas empregadas, em milhares.
prdeflt:
Deflator implícito do PNB.
gnpt:
Produto Nacional Bruto (PNB).
unempt:
Número de pessoas desempregadas, em milhares.
armfrct:
Número de pessoas nas forças armadas.
popt:
Número de pessoas com mais de 14 anos de idade.
yeart:
Variável que assume valor igual a 1947 para o primeiro ano da série, 1947, e assim
sucessivamente até 1962.
1 Plote a matriz de correlação dos dados, a partir da tela inicial do Gretl,
no menu “Ver”, “Matriz de correlação”, selecionando apenas as variáveis
explicativas. Com base na informação apresentada, você diria que existe
problema de colinearidade entre algumas variáveis? Quais são as variáveis
que aparentam ter colinearidade?
2 Com base nos dados e nas informações do quadro apresentado, estime o
seguinte modelo de regressão, apresentando os resultados dos coeficientes
estimados, os erros padrão e os p – valor, indicando para quais variáveis os
estimadores são estatisticamente significativos:
employt = β1 + β2prdeflt + β3gnpt + β4unempt + β5armfrct + β6popt + β7yeart + ut
3 Volte à tela do modelo estimado e faça a análise de colinearidade a partir
do menu “Análise” e depois “Colinearidade”, plotando os resultados. Esses
resultados confirmam a suspeita de colinearidade apresentada pela matriz
de correlação da Questão 1? Quais variáveis são colineares?
4 Estime os seguintes modelos de regressão e avalie se a multicolinearidade
persiste:
employt = β1 + β2unempt + β3armfrct + β4yeart + ut
employt = β1 + β2unempt + β3armfrct + ut
187
(1)
(2)
188
TÓPICO 2
UNIDADE 3
HETEROSCEDASTICIDADE
1 INTRODUÇÃO
Neste tópico, veremos o que acontece com os parâmetros do modelo de
mínimos quadrados ordinários quando violamos a hipótese de homoscedasticidade
dos resíduos. Veremos quais as implicações desse problema, estudaremos formas
de detectá-lo e como superá-lo.
A homoscedasticidade pressupõe que Var[εi|X] = σ2, para i = 1, 2, ..., n
é um número finito e constante para cada termo de erro. Por sua vez, os erros
heteroscedásticos apresentam Var[εi|X] = σi2 , para cada i = 1, 2, ..., n.
Para entender esse conceito de forma prática, imagine que você coletou
dados sobre consumo e renda em vários bairros da sua cidade. Nessa coleta, você
entrevistou famílias das mais variadas rendas e padrões de consumo. Há famílias
que praticamente gastam toda a sua renda, enquanto outras gastam uma pequena
parcela. Isso ocorre porque há uma variabilidade muito grande de padrões de
vida na cidade.
GRÁFICO 1 – DISTRIBUIÇÃO CONDICIONAL DOS TERMOS DE ERRO
FONTE: O autor
189
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Se tirarmos a média do consumo para cada faixa de renda, E(Y|Xi), e
conectarmos essas médias traçando uma reta, teremos a chamada reta de regressão,
ou curva de regressão, vista na Unidade 1. No Gráfico 1 representamos essa reta de
regressão associada à equação Yi = β1 + β2Xi.
Analogamente, se analisarmos empresas de diferentes tamanhos e
calcularmos a renda média de cada uma delas, e se além da renda média
obtivermos uma medida de dispersão, por exemplo, o desvio padrão, veremos
que a dispersão em torno do valor médio aumenta conforme o tamanho da
empresa aumenta. Esperamos que empresas com quatro funcionários tenham
uma dispersão em torno do valor médio muito menor do que aquelas com mais
de 300 empregados.
Isso ocorre porque, ao trabalharmos com dados de corte, temos que ter
em mente que estamos lidando com indivíduos, ou seja, com agentes econômicos
individuais. Esses agentes podem ser pessoas, empresas, países, municípios etc.,
e cada um deles tem características próprias, ou seja, são heterogêneos.
Se todos os agentes fossem iguais, teríamos sempre um desenho
semelhante ao do Gráfico 1. Dito de outra forma, a dispersão em torno do valor
médio na população seria a mesma para cada indivíduo. É exatamente essa
homogeneidade que caracteriza a homoscedasticidade, cuja origem vem do grego
e tem um sentido de espalhamento homogêneo em torno do valor médio.
Mas, por estarmos lidando com indivíduos heterogêneos, esperamos que
desenhos como o do Gráfico 1 sejam mais exceção do que regra. Por esse motivo, e
como uma das hipóteses do modelo clássico de regressão linear supõe que os erros
sejam homoscedásticos, tomaremos o máximo de cuidado para que a estimação do
nosso modelo de regressão não viole essa hipótese do modelo clássico. Caso seja
violada, adotaremos medidas corretivas adequadas para cada situação.
2 A NATUREZA DA HETEROSCEDASTICIDADE
Na construção dos nossos modelos econométricos, partimos de casos
simples, como:
Yi = β1 + β2Xi + εi
2.1
Em que Yi é a variável dependente, Xi é a variável explicativa, β1 o intercepto
dessa equação linear (normalmente sem significado econométrico importante),
β2 o coeficiente angular (ou quanto varia Yi se Xi variar uma unidade) e εi é o
termo de erro aleatório, com função densidade de distribuição normal, E(εi|Xi) =
0, Var(εi|Xi) = E(εi2|Xi) = σ2 e Cov(εi, εi–j|Xi, Xi–j) = 0.
190
TÓPICO 2 | HETEROSCEDASTICIDADE
Se usarmos o método de mínimos quadrados ordinários em 2.1,
obteremos os melhores estimadores lineares não tendenciosos dentro da classe
dos estimadores lineares não tendenciosos. Em outras palavras, os estimadores
serão BLUE (ver as hipóteses do modelo clássico na Unidade 1 e o teorema de
Gauss-Markov).
Isso se aplica tanto ao modelo 2.1, estudado na Unidade 1, quanto ao
modelo 2.2, que trata do caso geral ou do modelo de regressão múltiplo, visto na
Unidade 2:
y = Xβ + ε
2.2
No caso de 2.2, aplicando as hipóteses do modelo clássico, β̂ = ( X ′X ) X' y,
E(ε|X) = 0 e E[εε'|X] = σ2I. Porém, se violarmos a hipótese de homoscedasticidade
dos resíduos, ou seja, na presença de heteroscedasticidade, Var[εi|X] = E[εε'|X]
= σi2, para cada i = 1, 2, ..., n. Neste caso, ainda estamos supondo que os erros são
não correlacionados, mas, no Tópico 3, essa hipótese será revista. Em termos de
matrizes, podemos escrever:
−1
ω1 0

ω2
2
2  0
′
E εε |X = σ Ω= σ



 0 0
0
0

0
 0

… 0
=
  

 ωn 
σ 12 0

2
 0 σ2
 


0
 0
0
0

0
 0

… 0
  

 σ n2 
2.3
Em que n é o número de observações e E[εε'|X] = σ2Ω. Para o modelo
clássico, a homoscedasticidade implica que a matriz Ω tem valor igual a 1 na
diagonal principal, ou seja, ω1 = 1, i = 1, 2, ..., n, e nesse caso, fazemos E[εε'|X] =
σ2I. Caso os erros sejam heteroscedásticos, a matriz Ω tem valores diferentes para
cada posição da sua diagonal principal, e assim escrevemos E[εε'|X] = σ2ωi = σi2.
O Gráfico 2 nos ajuda a ter uma ideia visual da heteroscedasticidade.
Perceba que, à medida que as variáveis dependente e explicativa se tornam
cada vez maiores, fica mais difícil prever uma em função da outra, porque a
variabilidade ou dispersão se torna cada vez maior.
191
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
GRÁFICO 2 – EXEMPLO DE HETEROSCEDASTICIDADE
FONTE: O autor
Teremos a oportunidade de verificar isso na prática através de um
exemplo com dados reais da economia brasileira. Dessa forma, procuraremos
apresentar não apenas técnicas para detectar a sua presença, mas também
alternativas para superá-la.
3 DETECTANDO O PROBLEMA DA HETEROSCEDASTICIDADE
Na Unidade 2, nós usamos o arquivo Wage1, fornecido por Wooldridge
(2016) para verificar se havia discriminação em relação ao gênero feminino em
1976. Vamos voltar agora a esse exemplo, estimando um modelo com apenas uma
variável explicativa, representado a seguir:
wagei = β1 + β2educi + εi
2.4
Em que β1 e β2 são os parâmetros a serem estimados, εi é o termo de erro,
o qual supomos ter distribuição normal com média zero e variância constante,
εi~N(0, σ2), wagei é o salário-hora recebido pelos trabalhadores e educi os anos de
educação formal de cada trabalhador.
Vamos começar a nossa análise com o gráfico de dispersão entre as
variáveis dependente e explicativa, conforme o Gráfico 3:
192
TÓPICO 2 | HETEROSCEDASTICIDADE
GRÁFICO 3 – GRÁFICO DE DISPERSÃO ENTRE wagei e educi
FONTE: O autor
À medida que a renda e o tempo de educação formal aumentam, a dispersão
em torno do valor médio também aumenta. Notou? Sabemos que os indivíduos são
heterogêneos e já esperávamos um comportamento parecido com esse.
Estimando o modelo de regressão 2.4 por mínimos quadrados ordinários,
obtivemos os resultados do Quadro 12.
QUADRO 12 – RESULTADO DA ESTIMAÇÃO DE 2.4 POR MÍNIMOS QUADRADOS ORDINÁRIOS
Modelo 1: MQO, usando as observações 1-526
Variável dependente: wage
coeficiente
erro padrão
razão-t
p-valor
---------------------------------------------------------const
−0,904852
0,684968
−1,321
0,1871
educ
0,541359
0,0532480
10,17
2,78e-022 ***
Média var. dependente
5,896103
Soma resíd. quadrados
5980,682
R-quadrado
0,164758
F(1, 524)
103,3627
Log da verossimilhança −1385,712
Critério de Schwarz
2783,954
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
3,693086
3,378390
0,163164
2,78e-22
2775,423
2778,764
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1%, respectivamente.
FONTE: O autor
193
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Perceba que a constante não é estatisticamente significativa, enquanto β̂ 2
é estatisticamente diferente de zero. O R2 é baixo, mas, se não conhecêssemos
um pouco de econometria, olharíamos o Quadro 12 e acreditaríamos que de um
modo geral, o resultado encontrado é bom.
Precisamos verificar se não há problemas de heteroscedasticidade, ou
seja, devemos investigar se os resíduos estimados são homoscedásticos. Como
vimos anteriormente, em 2.3, precisamos verificar se a matriz E[εε'|X] = σ2ωi. Se
ωi = 1 para cada i = 1, 2, ..., n, não temos com o que nos preocupar, porque neste
caso os erros são homoscedásticos.
O problema é que só teremos acesso a σ2ωi, se tivermos a nossa disposição
toda a população de dados. Como estamos usando apenas uma amostra, não
podemos examinar essa matriz diretamente. Por isso, aplicaremos alguns testes,
tanto formais quanto informais, tendo em mente que o estimador de βk é um
estimador consistente, mesmo na presença de heteroscedasticidade.
Para fazer isso, usaremos os resíduos estimados, porque na presença de
heteroscedasticidade, o método de mínimos quadrados ordinários gera resíduos
que imitarão, mesmo que de forma imprecisa por causa da variabilidade amostral, a
heteroscedasticidade dos verdadeiros erros populacionais (GREENE, 2012, p. 315).
Vimos no Gráfico 3 que a renda aumenta à medida que os anos de
educação formal aumentam. Por isso, agora que estimamos o modelo por
mínimos quadrados ordinários, o próximo passo é plotar um gráfico dos resíduos
quadrados contra a variável explicativa e ver se detectamos algum padrão de
comportamento. Se os resíduos são homoscedásticos, não devemos observar
nenhum padrão de comportamento, mas a aleatoriedade dos dados.
2
GRÁFICO 4 – GRÁFICO DE DISPERSÃO ENTRE ûi e educi
FONTE: O autor
194
TÓPICO 2 | HETEROSCEDASTICIDADE
O Gráfico 4 apresenta o gráfico de dispersão dos resíduos quadrados contra a
2
variável educi. Para obter a série de ûi , você deve selecionar o menu “Salvar”, na janela
do modelo estimado, e na sequência escolher “Resíduos quadrados”. Na tela inicial
do Gretl, você deve selecionar o menu “Ver”, depois escolher “Gráfico das variáveis”
2
e depois “X-Y em dispersão”. Você informa a variável educi no eixo X e ûi no eixo Y.
O que essa figura nos revela? Se o gráfico de dispersão apresentasse um
comportamento parecido com o que vemos até os sete anos de educação formal,
poderíamos supor que não há problemas de heteroscedasticidade, porque aquele
comportamento é totalmente aleatório. Porém, à medida que os anos de educação
aumentam, temos um aumento da dispersão, o que levanta a suspeita de que os
resíduos não são homoscedásticos.
O problema de usar esse método é que ele não é muito preciso e deixa margem
para interpretação. A pergunta que fica é: Qual é o padrão que deveríamos encontrar?
A resposta é simples e pode ser vista no Gráfico 5. Como podemos ver, esperamos
encontrar resíduos bem-comportados, sem um padrão definido. Caso tenhamos
qualquer coisa diferente disso, podemos suspeitar da presença de heteroscedasticidade.
GRÁFICO 5 – PADRÃO DE RESÍDUOS HOMOSCEDÁSTICOS
FONTE: O autor
A visualização gráfica é um método informal, de fácil e rápida
implementação, mas que pode nos induzir ao erro. Há outros métodos mais
eficientes e, com o uso do software, devem ser escolhidos em detrimento de
qualquer conclusão tomada com a simples observação gráfica.
Dentre os testes formais que podem ser implementados, os manuais
de econometria geralmente apresentam o teste de Park, Glejser, coeficiente de
correlação de Spearman, Goldfeld-Quandt, Breusch-Pagan-Godfrey, teste geral
de heteroscedasticidade de White, além de outros.
195
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Nesse Livro de Estudos trabalharemos com os três mais empregados na
literatura, começando com o teste de Goldfeld-Quandt. O problema é que para
esse teste não temos rotina pronta no Gretl. Um pouco de esforço manual será
requerido para executar o teste.
O teste de Goldfeld-Quandt requer um procedimento em etapas, que
pode ser visto em Hill, Griffiths e Judge (2010, p. 284) e que resumiremos a seguir:
1. Ordene os dados em ordem crescente de acordo com os valores de educi, e
então divida a amostra em duas partes iguais.
2
2. Estime um modelo de regressão para cada uma das subamostras, e obtenha σ̂ 1
2
e σ̂ 2 a partir dos erros estimados.
2
2
3. Testamos a hipótese nula, H 0 : σ̂ 1 = σˆ 2 , resíduos homoscedásticos, contra a
2
2
hipótese alternativa, H1 : σ̂ 1 ≠ σˆ 2 , resíduos heteroscedásticos. Para aplicar
σˆ 2
o teste de hipótese, calculamos GQ = 12 , que segue uma distribuição F com
σˆ 2
N1 – K1 graus de liberdade no numerador e N2 – K2 graus de liberdade no
denominador, em que T1 e T2 é o tamanho das subamostras e K1 e K2 é a
quantidade de parâmetros beta estimados em cada regressão.
Para evitar cometer erros nesses procedimentos, podemos abrir o “Editor
de Scripts” do Gretl e digitar os comandos do Quadro 13:
FIGURA 1 – EDITOR DE SCRIPTS DO GRETL
FONTE: Adaptado de Gretl (2018)
196
TÓPICO 2 | HETEROSCEDASTICIDADE
No script do Quadro 13, temos as linhas de comando necessárias para
testar a hipótese de que os resíduos são homoscedásticos, seguindo os passos
descritos. Começamos obtendo uma subamostra, estimamos uma regressão por
MQO e salvando o σ�1. Note que não salvamos a variância da primeira subamostra,
mas o desvio padrão. O resultado obtido é o mesmo se usássemos a variância,
e implementar o teste dessa forma é mais prático, motivo pelo qual estamos
procedendo dessa maneira.
Depois repetimos o procedimento para a segunda subamostra e
finalizamos calculando a estatística de Goldfeld-Quandt, gerando inclusive o p
– valor, para facilitar a nossa interpretação. Para executar o comando, selecione o
botão executar (Figura 2, adiante) ou digite CTRL + R.
QUADRO 13 – TESTE DE GOLDFELD-QUANDT
# TOMAR A PRIMEIRA SUB AMOSTRA
smpl educ > median(educ) --restrict
# ESTIMAR A PRIMEIRA SUB AMOSTRA POR MQO
ols wage const educ
# SALVAR O ERRO PADRÃO DA PRIMEIRA SUB AMOSTRA
scalar stdL = $sigma
# SALVAR O NÚMERO DE GRAUS DE LIBERDADE DA PRIMEIRA SUB AMOSTRA
scalar df_L = $df
# RESTAURAR A AMOSTRA COMPLETA
smpl full
# TOMAR A SEGUNDA SUB AMOSTRA
smpl educ < median(educ) --restrict
# ESTIMAR A SEGUNDA SUB AMOSTRA POR MQO
ols wage const educ
# SALVAR O ERRO PADRÃO DA SEGUNDA SUB AMOSTRA
scalar stdS = $sigma
# SALVAR O NÚMERO DE GRAUS DE LIBERDADE DA SEGUNDA SUB AMOSTRA
scalar df_S = $df
# CALCULAR A ESTATÍSTICA DE GQ
scalar fstatistic = stdL^2/stdS^2
# OBTER O P-VALOR DA ESTATÍSTICA
pvalue F df_L df_S fstatistic
# RESTAURAR A AMOSTRA COMPLETA
smpl full
FONTE: O autor
197
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
O Gretl abrirá uma janela com o resultado de cada uma das linhas digitadas
nesse Script. O que nos interessa são as linhas destacadas abaixo:
# CALCULAR A ESTATÍSTICA DE GQ
? scalar fstatistic = stdL^2/stdS^2
Escalar fstatistic substituído = 3,98399
# OBTER O P-VALOR DA ESTATÍSTICA
? pvalue F df_L df_S fstatistic
F(210, 114): área à direita de 3,98399 = 1,28023e-014
(à esquerda: 1)
Sob a hipótese nula de que erros homoscedásticos, com p – valor = 1,28023e
– 014, ou seja, 0,0000, podemos rejeitar H0 em favor da hipótese alternativa e
concluir que temos problema de heteroscedasticidade nos resíduos da regressão.
Em termos práticos, isso significa que o resultado obtido a partir da
estimação do modelo 2.4 por mínimos quadrados ordinários não pode ser usado
para previsão e controle. Afinal, na presença de heteroscedasticidade, as estatísticas
de teste, que usamos para verificar se os betas estimados são estatisticamente
significativos, podem ser enganosas (HILL; GRIFFITHS; JUDGE, 2010, p. 284).
FIGURA 2 – EXECUTANDO O SCRIPT PARA O TESTE DE GOLDFELD-QUANDT
FONTE: Adaptado de Gretl (2018)
198
TÓPICO 2 | HETEROSCEDASTICIDADE
O outro teste formal que podemos usar é o teste de Breusch-Pagan, e para
tal considere o seguinte modelo de regressão:
Yi = β1 + β2Xi + εi
2.5
Em que a variância do erro heteroscedástico é σi2, dada por:
σi2 = f(γ + δZi)
2.6
Em que Zi pode ser a variável explanatória Xi ou quaisquer outras variáveis
explanatórias diferentes de Xi. A implementação do teste é simples, e a partir
da estimação de 2.5 por mínimos quadrados ordinários, obtemos os resíduos,
∑ εˆ i2
2
ˆ
=
σ
elevando-os ao quadrado para estimar
, que é o estimador de máxima
N
verossimilhança da variância populacional, σ2.
Feito isso, estimamos a regressão:
εˆ i2
=+
γ δ Zi + υi
σˆ 2
2.7
Como define Pindyck e Rubinfeld (2004, p. 177), se εi em 2.5 tem distribuição
normal, obtemos a soma dos quadrados explicada pela regressão dividida por
dois, SQE , e comparamos a uma tabela de distribuição Qui-Quadrado com o
2
número de graus de liberdade igual ao número de variáveis explicativas Zi em
2.7, sob a hipótese nula de que os resíduos são homoscedásticos.
No Gretl é fácil implementar o teste. A partir da janela do modelo estimado,
vista no Quadro 11, selecionamos o menu “Testes”, na sequência escolhemos
“Heteroscedasticidade” e depois “Breusch-Pagan”. O resultado é mostrado no
Quadro 14.
199
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 14 – RESULTADO DO TESTE BREUSCH-PAGAN PARA O MODELO 2.4
Teste de Breusch-Pagan para a heteroscedasticidade
MQO, usando as observações 1-526
Variável dependente: 'uhat^2' escalada
coeficiente
erro padrão
razão-t
p-valor
--------------------------------------------------------const
−1,01959
0,521836
−1,954
0,0513
*
educ
0,160760
0,0405665
3,963
8,43e-05 ***
Soma dos quadrados explicada = 104,032
Estatística de teste: LM = 52,016231,
com p-valor = P(Qui-quadrado(1) > 52,016231) = 0,000000
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
FONTE: O autor
Como a hipótese nula é da existência de homoscedasticidade, percebemos
que com um p – valor = 0,000000, podemos rejeitá-la a favor da hipótese alternativa
de que os erros são heteroscedásticos.
Lembrando que o teste de Breusch-Pagan supõe que os resíduos de 2.4
têm distribuição normal. Deixaremos para você confirmar essa hipótese, e que
essa é uma restrição forte, portanto, caso não tenha distribuição normal, não
podemos empregar esse teste.
Caso os resíduos em 2.4 não tenham distribuição normal, devemos
empregar o teste de White, que é mais robusto do que o teste de Breusch-Pagan,
ao mesmo tempo em que se assemelha a ele.
Para entender o teste de White, partimos do modelo 2.5, e em vez de
estimarmos a regressão 2.7, estimaremos a regressão 2.8:
εˆ i2 =+
γ δ Zi + υi
2.8
A partir do resultado dessa regressão, obtemos o R2 e o multiplicamos
pelo tamanho da amostra, para compará-lo à tabela Qui-Quadrado com o número
de graus de liberdade igual à quantidade de variáveis explicativas Zi em 2.8. A
hipótese nula desse teste é que os erros são homoscedásticos.
O resultado do teste aplicado ao modelo 2.4 está no Quadro 14 e foi obtido
a partir do menu “Testes”, “Heteroscedasticidade” e “Teste de White”, na janela
do modelo estimado (Quadro 11).
200
TÓPICO 2 | HETEROSCEDASTICIDADE
Podemos ver no Quadro 15 que a hipótese de homoscedasticidade
é rejeitada (leia o p – valor). Com isso, empregamos três testes estatísticos e
chegamos à mesma conclusão. Os resíduos do modelo 2.4 são heteroscedásticos.
Na prática, poderíamos empregar apenas o teste de White, que além de ser o mais
empregado em verificações empíricas, é também o mais robusto.
Há uma série de outros testes que podem ser empregados para verificar a
existência de homoscedasticidade. Pindyck e Rubinfeld (2004), Gujarati e Porter
(2011), Maddala (2003), entre outros, apresentam os testes de Goldfeld-Quandt,
Park, Glejser e Koenker-Bassett. Porém, optamos por seguir Greene (2012, p. 315),
apresentando os testes de White e Breucsh-Pagan, e acrescentando o teste de
Goldfeld-Quandt.
QUADRO 15 – RESULTADO DO TESTE DE WHITE
Teste de White para a heteroscedasticidade
MQO, usando as observações 1-526
Variável dependente: uhat^2
coeficiente
erro padrão
razão-t
p-valor
-------------------------------------------------------const
21,1175
12,8198
1,647
0,1001
educ
−4,12530
2,12211
−1,944
0,0524 *
sq_educ
0,254284
0,0885068
2,873
0,0042 ***
R-quadrado não-ajustado = 0,044184
Estatística de teste: TR^2 = 23,240557,
com p-valor = P(Qui-quadrado(2) > 23,240557) = 0,000009
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
FONTE: O autor
4 RESOLVENDO O PROBLEMA DA HETEROSCEDASTICIDADE
– O MÉTODO DOS MÍNIMOS QUADRADOS
GENERALIZADOS
Agora que sabemos que o nosso modelo estimado tem problema de
heteroscedasticidade, precisamos saber o que fazer para gerar estimadores não
tendenciosos, consistentes e eficientes. Antes de apresentar as técnicas empregadas
para superar o problema da heteroscedasticidade, é importante sabermos por quê
devemos nos preocupar com a sua existência. Vimos na Unidade 2 que:
y = Xβ + u
2.9
201
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Em 2.9 aplicamos o método de mínimos quadrados ordinários e obtemos
a estimativa do vetor de parâmetros β:
β̂ = ( X ′X ) X' y
−1
2.10
Vimos também na Unidade 2 que, o estimador em 2.10 é obtido por
amostragem e deve ser não tendencioso. Dito de outra forma, à medida que
obtemos diversas amostras, em média o valor estimado do parâmetro tende ao
verdadeiro valor encontrado na população:
E  β̂  = β
2.11
Além de não viesado, ele também é eficiente, ou seja, tem variância
mínima:
Var  β̂  = σ 2 ( X ′X )
−1
2.12
Também vimos que, pelas propriedades dos estimadores de mínimos
quadrados, a matriz de variância e covariância é dada por:
E εε ′|X  = σ 2 I
2.13
E pode ser escrita como:
2
E εε ′|X=
 σ Ω
2.14
Em que a matriz Ω tem em sua diagonal principal ωi, e supondo que os
erros são homoscedásticos, ωi = 1, para cada i = 1, 2, ..., n, ou seja, é a mesma
matriz identidade que geralmente representamos por I, quando assume valor de
1 para cada elemento da diagonal principal.
Já sabemos que se a hipótese da homoscedasticidade não se confirmar,
dizemos que estamos diante do problema da heteroscedasticidade, ou seja, a
variância dos erros não é um número finito e constante, como gostaríamos, e essa
violação de uma das hipóteses básicas do modelo de regressão traz as seguintes
implicações, conforme Hill, Judge e Griffiths (2010, p. 276):
202
TÓPICO 2 | HETEROSCEDASTICIDADE
1. Os estimadores do vetor de parâmetros β permanecem não tendenciosos,
porém agora são ineficientes (deixam de ser os melhores estimadores lineares
não tendenciosos).
2. Como as variâncias estimadas dos parâmetros são tendenciosas, os erros
padrão são incorretos, nos levando a estimar intervalos de confiança e fazer
testes de hipótese enganosos.
A ineficiência pode ser vista facilmente a partir de 2.10:
β̂ = ( X ′X ) X' y
−1
2.10
Sabemos por definição que y = Xβ + ε, podemos fazer a substituição em
2.10 para obter:
=
βˆ
( X′X )
−1
X′ ( X β + ε )
2.15
βˆ = ( X ′X ) X ′X β + ( X ′X ) X ′ε
−1
−1
2.16
Por definição, (X'X)–1 X'X = I, logo,
βˆ = β + ( X ′X ) X ′ε
−1
2.17
Assim,
βˆ − β = ( X ′X ) X ′ε
−1
2.18
Podemos obter a variância de β̂1 como:
'
'
−1
−1
Var  βˆ  = E  βˆ − β   βˆ − β  = E ( X ′X ) X ′ε  ( X ′X ) X ′ε 

 

2.19
E finalmente,
Var  βˆ  = E[( X ′X ) X'εε ' X ( X ′X ) ]
−1
−1
203
2.20
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Em termos de 2.14, escrevemos E[εε'] = Ω, e, portanto:
Var  βˆ 
=
( X′X )
−1
X' ΩX ( X ′X )
−1
2.21
Em 2.11 e 2.17, vemos claramente que, na presença de heteroscedasticidade,
se ε tem distribuição normal:
−1
−1
βˆ ~ N  β , ( X ′X ) X ′ΩX ( X ′X ) 

2.22

Se os erros forem homoscedásticos, sabemos que em 2.21, (X'X)–1X'X = I,
−1
portanto, Var  β̂  = Ω ( X ′X ) , com Ω = σ2I. Mas, se os erros forem heteroscedásticos,
a variância é dada por 2.21, com Ω tendo na sua diagonal principal ωi assumindo
valores diferentes de 1. Claramente, o resultado em 2.21 é bem diferente daquele
−1
que obteríamos na presença de erros homoscedásticos, ou seja, Var  β̂  = σ 2 ( X ′X ) .
Feitas essas considerações iniciais, devemos agora corrigir esse problema,
e assim, estimaremos β, usando o método de mínimos quadrados ponderados. O
primeiro passo é identificar a sua origem, mas, para isso, precisamos conhecer σi2,
ou seja, os valores de ωi na matriz Ω.
Supondo que conhecemos σi2, podemos aplicar o método de mínimos
quadrados ponderados seguindo os seguintes procedimentos:
Yi = β1 + β2X2i + εi
2.23
Cujos erros εi são heteroscedásticos, apresentando Var(εi) = σi2. Seguindo
Gujarati e Porter (2011, p. 376), podemos reescrever 2.23 como:
Yi = β1X1i + β2X2i + εi
2.24
Em que X1i = 1 para cada i = 1, 2, ..., n. Devemos dividir 2.24 pela raiz
quadrada de σi2 (ou seja, o seu desvio padrão) para obter:
X 
X  ε 
=β  1i  + β 2  2 i  +  i 
σi
 σi 
 σi   σi 
Yi
2.25
204
TÓPICO 2 | HETEROSCEDASTICIDADE
Para melhor visualizarmos, podemos reescrever como:
Yi* = β1* X1* i + β 2* X2* i + ε i*
2.26
Estimar 2.26 por mínimos quadrados ordinários é o que chamamos de
estimação por mínimos quadrados ponderados. Isso significa que ponderamos as
variáveis pelo desvio padrão σi. Porém, isso só é possível se realmente tivermos
acesso a toda a população, ou seja, se soubermos o valor de σi .
Como na prática não temos esse acesso, podemos usar outros ponderadores.
Caso o desenho do gráfico de dispersão dos resíduos e da variável explicativa
2
revelar que a variância de εi seja algum padrão, por exemplo, Var ε i  = σ Xi,
Var ε i  = σ 2 Xi2 ou Var ε i  = σ 2 Xi , fazemos a transformação dos dados de forma
que o novo termo de erro tenha variância constante.
Isso é fácil de se observar porque:
Var ε i = σ 2 Xi → σ 2=
Var ε i = σ 2 Xi2 → σ 2=
2
 σ 2 Xi → σ=
Var ε=
i
Var ε i 
Xi
Var ε i 
Xi2
Var ε i 
Xi
2.27
2.28
2.29
Para saber qual o padrão da variância heteroscedástico, você pode plotar
os resíduos quadrados contra a variável explicativa, Xi.
Como aplicação prática, vamos retomar o nosso modelo 2.4:
wagei =
β1 + β 2 educi + ε i
2.4
Primeiramente rodamos o modelo por mínimos quadrados ordinários
e salvamos os resíduos quadrados, como fizemos no Gráfico 4. Podemos notar
que é difícil identificar um padrão bem definido e, portanto, como exercício,
tentaremos a opção 2.29, escolhendo educi como peso para o modelo 2.4.
205
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Você deve ter em mente que o Gretl tem uma rotina pronta para estimar
pelo método de mínimos quadrados ponderados. Ele usa como padrão a raiz
quadrada do peso que você escolher, ou seja, se o peso for Xi, o Gretl usará
W = 1 / Xi . Infelizmente o programa não tem uma rotina pronta para você
montar os pesos da forma como quiser. Porém, ainda assim é possível fazer isso
através da digitação de script específico no console do Gretl.
Começamos pela tela inicial do Gretl, em que você deve escolher o menu
“Acrescentar” e depois selecionar “Definir nova variável”. Escreva na janela que
abriu a expressão W = 1/educ.
Depois de definido o peso, podemos estimar a equação 2.30:
wagei
educi
= β1
1
educi
+ β2
educi
educi
+ εi
1
2.30
educi
Ou, de forma mais simples:
wagei* =
β1* + β 2 educi* + ε i*
=
wagei*
Em que
2.31
wagei
1
=
=
, β1* β1
, educi*
educi
educi
educi
=
e ε i* ε i
educi
1
educi
.
A estimação é feita através do menu “Modelo”, “Outros modelos
lineares” e “Mínimos quadrados ponderados”. A Figura 3 apresenta a tela com a
especificação do modelo 2.31.
206
TÓPICO 2 | HETEROSCEDASTICIDADE
FIGURA 3 – ESPECIFICAÇÃO DO MODELO POR MÍNIMOS QUADRADOS PONDERADOS
FONTE: Adaptado de Gretl (2018)
Preencha as informações conforme a Figura 3 e clique em “Ok” para
estimar o modelo. Os resultados são apresentados no Quadro 16, os quais você
deve comparar com o Quadro 12. Perceba que agora a constante é positiva,
diferente do resultado obtido anteriormente, porém, permanece estatisticamente
não significativo ao nível de 10%.
Em termos numéricos, o coeficiente estimado da variável educi sofreu
pequena redução e permanece estatisticamente significativo ao nível de 1%.
Vamos deixar para você comparar os critérios de informação de Akaike e Schwarz.
207
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 16 – SEQUÊNCIA DE COMANDOS PARA ESTIMAÇÃO POR MÍNIMOS QUADRADOS
PONDERADOS
Modelo 2: WLS, usando as observações 1-526 (n = 524)
Observações ausentes ou incompletas foram ignoradas: 2
Variável dependente: wage
Variável usada como peso: W
coeficiente
erro padrão
razão-t
p-valor
---------------------------------------------------------const
0,300476
0,556291
0,5401
0,5893
educ
0,444437
0,0455620
9,755
9,21e-021 ***
Estatísticas baseadas nos dados ponderados:
Soma resíd. quadrados
448,2860
R-quadrado
0,154179
F(1, 522)
95,15159
Log da verossimilhança −702,6360
Critério de Schwarz
1417,795
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
0,926707
0,152558
9,21e-21
1409,272
1412,610
Estatísticas baseadas nos dados originais:
Média var. dependente
Soma resíd. quadrados
5,905134
5996,897
D.P. var. dependente
E.P. da regressão
3,697024
3,389441
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
FONTE: O autor
A dúvida que fica é se esse procedimento resolveu o problema da
heteroscedasticidade. Podemos aplicar novamente o teste de White para verificar
isso, porém, na tela do modelo de mínimos quadrados ponderados não será
possível rodar uma rotina pronta com o teste. Teremos que fazer isso de forma
manual.
Para fazer isso, volte à tela do modelo 2.31, selecione o menu “Salvar”
e depois “Resíduos quadrados”. Na tela inicial do Gretl, selecione o menu
“Acrescentar” e na sequência escolha “Definir nova variável”. Na tela que abrir,
você escreve a fórmula educ_b = educ/sqrt(educ). Essa variável educ_b é a variável
educi*, a qual não foi preciso criar antes porque o Gretl fez de forma automática
para rodar o modelo 2.31.
Agora você deve clicar sobre essa variável e selecionar o menu “Acrescentar”
e depois “Quadrados das variáveis selecionadas”. Feito isso, rode o modelo 2.8,
redefinido conforme 2.32, pelo método de mínimos quadrados ordinários:
208
TÓPICO 2 | HETEROSCEDASTICIDADE
εˆ i2 =
γ + δ 1 educi* + δ 2 educ* i2 + υi
2.32
Os resultados estão no Quadro 17:
QUADRO 17 – TESTE DE WHITE PARA O MODELO DE MÍNIMOS QUADRADOS PONDERADOS
Modelo 3: MQO, usando as observações 1-526 (n = 524)
Observações ausentes ou incompletas foram ignoradas: 2
Variável dependente: usq2
coeficiente
erro padrão
--------------------------------------------------------const
75,2348
46,9679
educ_b
−55,3531
27,9810
sq_educ_b
10,4315
4,16927
Média var. dependente
11,44446
Soma resíd. quadrados
470027,3
R-quadrado
0,045035
F(2, 521)
12,28477
Log da verossimilhança −2524,876
Critério de Schwarz
5068,537
razão-t
p-valor
1,602
−1,978
2,502
0,1098
0,0484
0,0127
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
**
**
30,67728
30,03604
0,041369
6,12e-06
5055,752
5060,759
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
FONTE: O autor
Para testar a hipótese nula de que os erros são homoscedásticos,
multiplicamos o R2 pelo tamanho da amostra e comparamos o resultado com
uma tabela Qui-Quadrado, com dois graus de liberdade (número de regressores
menos a constante). O resultado está em 2.33:
=
n.R2 524
=
* 0 , 045035 23 , 59834
2.33
Recorrendo a uma tabela de distribuição Qui-Quadrado ou ao menu
“Ferramentas” e “Tabelas estatísticas” do Gretl, vemos que o valor crítico para
1% de significância estatística é 10,5966. Portanto, rejeitamos a hipótese nula
de homoscedasticidade, ou seja, o nosso procedimento não foi suficiente para
resolver o nosso problema.
Gujarati e Porter (2011, p. 399) sugerem uma transformação logarítmica para
resolver o problema de heteroscedasticidade. A vantagem de se usar logaritmos
é o fato de que essa técnica comprime as escalas e isso pode ser suficiente para
resolver o nosso problema. A questão é que não pode haver valores negativos
ou zeros. Nesse caso, o Gretl gera valores ausentes. Felizmente, o próprio Gretl
desconsidera esses valores na hora de rodar a regressão, portanto, contanto que
209
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
tenhamos uma base suficientemente grande, pode valer a pena perder alguns
graus de liberdade, mas corrigir o problema da heteroscedasticidade.
Na tela inicial, selecione as variáveis wage e educ. No menu, escolha
“Acrescentar” e depois “Logaritmo das variáveis selecionadas”. Rode o modelo
2.34 por mínimos quadrados ordinários:
ln wagei =
β1 + β 2 ln educi + ε i
2.34
O resultado está no Quadro 18, já com o teste de White. Veja que os
coeficientes estimados são ambos estatisticamente significativos ao nível de 5%
de significância estatística. O coeficiente βˆ 2 mede a elasticidade do salário em
relação aos anos de educação, ou seja, um aumento de 1% no tempo de educação
proporciona uma renda 0,82% maior.
QUADRO 18 – ESTIMAÇÃO DO MODELO LOGARÍTMICO POR MÍNIMOS QUADRADOS
ORDINÁRIOS
Modelo 4: MQO, usando as observações 1-526 (n = 524)
Observações ausentes ou incompletas foram ignoradas: 2
Variável dependente: l_wage
coeficiente
erro padrão
razão-t
p-valor
---------------------------------------------------------const
−0,444677
0,217849
−2,041
0,0417
**
l_educ
0,825207
0,0864488
9,546
5,19e-020 ***
Média var. dependente
1,624714
Soma resíd. quadrados
125,9833
R-quadrado
0,148615
F(1, 522)
91,11881
Log da verossimilhança −370,0842
Critério de Schwarz
752,6914
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
0,531916
0,491271
0,146984
5,19e-20
744,1684
747,5061
Teste de White para a heteroscedasticidade Hipótese nula: sem heteroscedasticidade
Estatística de teste: LM = 8,134
com p-valor = P(Qui-quadrado(2) > 8,134) = 0,0171287
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
FONTE: O autor
Pelo teste de White, não podemos rejeitar a hipótese nula de que os
resíduos são homoscedásticos ao nível de 1% de significância estatística. Com isso,
superamos o problema da heteroscedasticidade para o modelo usado nesse tópico.
210
RESUMO DO TÓPICO 2
Neste tópico, você aprendeu que:
• A heteroscedasticidade é um fenômeno comum dos dados de corte por causa da
heterogeneidade dos indivíduos, ou seja, pessoas, famílias, firmas, estados etc.
• Na presença de heteroscedasticidade, os estimadores obtidos por mínimos
quadrados ordinários, apesar de serem lineares, não tendenciosos e consistentes,
deixam de ser os melhores estimadores lineares não tendenciosos e deixam de
ter variância mínima.
• Para detectar a presença de heteroscedasticidade foram desenvolvidos
métodos informais (visualização através de gráficos) e formais (através de
testes estatísticos).
• Plotando um gráfico de dispersão dos quadrados dos resíduos contra a variável
explicativa, devemos procurar a existência de algum padrão de comportamento.
Se os resíduos forem homoscedásticos, o gráfico de dispersão terá os pontos
totalmente aleatórios, enquanto na presença de heteroscedasticidade esses
pontos seguirão algum padrão de comportamento.
• Dentre os testes formais que podem ser implementados para verificar a existência
de resíduos heteroscedásticos podemos destacar os testes de Goldfeld-Quandt,
Breusch-Pagan-Godfrey e o teste geral de heteroscedasticidade de White.
• A hipótese nula desses testes é que os resíduos são homoscedásticos.
• Ao detectar a presença de heteroscedasticidade teremos que usar outro método
econométrico para estimar os parâmetros da regressão. Nesse caso, usamos o
método dos mínimos quadrados generalizados.
211
AUTOATIVIDADE
Para essa autoatividade, você voltará aos dados do arquivo Wage1.gdt,
usado no Tópico 2. Vamos modificar o modelo 2.4, incluindo a variável exper
junto à variável educ como variáveis explicativas do modelo:
wagei =
β1 + β 2 educi + β 3 experi + ε i
2.35
Estimamos o modelo de regressão 2.35, e obtivemos os seguintes
resultados:
Modelo 1: MQO, usando as observações 1-526
Variável dependente: wage
coeficiente
erro padrão
razão-t
p-valor
---------------------------------------------------------const
−3,39054
0,766566
−4,423
1,18e-05 ***
educ
0,644272
0,0538061
11,97
2,28e-029 ***
exper
0,0700954
0,0109776
6,385
3,78e-010 ***
Média var. dependente
5,896103
Soma resíd. quadrados
5548,160
R-quadrado
0,225162
F(2, 523)
75,98998
Log da verossimilhança −1365,969
Critério de Schwarz
2750,733
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
3,693086
3,257044
0,222199
1,07e-29
2737,937
2742,948
Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância
estatística.
1 Salve os resíduos quadrados, gerados por essa regressão e plote um gráfico
de dispersão, colocando no eixo Y os resíduos quadrados e no eixo X a
variável wage.
2 Volte ao modelo estimado e rode o teste de Breusch-Pagan para a
heteroscedasticidade. Com base no resultado desse teste, informe se os
resíduos são homoscedásticos ou heteroscedásticos.
3 Rode agora o teste de White. O resultado desse teste é o mesmo encontrado
no teste de Breusch-Pagan?
4 Faça uma última modificação no modelo, incluindo a Dummy female como
variável explicativa, transformando os dados variável dependente, wage, em
logaritmos. Rode a regressão e o teste de White. Qual o resultado do teste de
heteroscedasticidade após essa transformação?
212
TÓPICO 3
UNIDADE 3
AUTOCORRELAÇÃO
1 INTRODUÇÃO
Na Unidade 3 estamos relaxando três premissas do modelo clássico de
regressão linear, tornando-o mais próximo daquilo que o econometrista enfrenta
diariamente. Começamos estudando a multicolinearidade, depois vimos a
heteroscedasticidade e agora falaremos de correlação serial ou autocorrelação.
A multicolinearidade pode ocorrer tanto em dados de corte quanto
em séries temporais. Em função da heterogeneidade dos dados de corte, a
heteroscedasticidade ocorre com mais frequência neste tipo de dados, mas isso
não significa que não ocorra também em séries temporais. A correlação serial,
por sua vez, ocorre exclusivamente em séries de tempo e ocorre com frequência,
motivo pelo qual devemos dar uma atenção especial a isso.
A ideia por trás da autocorrelação é o fato de que as séries temporais sofrem
determinados choques que alteram a sua trajetória. Em modelos de regressão,
esses choques são capturados pelos resíduos e sua influência pode ser carregada
por vários períodos. Assim, um choque nos preços em janeiro, por exemplo, afeta
em partes a inflação medida naquele mês. No entanto, no mês seguinte os agentes
econômicos revisam o seu preço com base na inflação passada e sua expectativa
para o futuro. Com isso, o choque de janeiro também irá influenciar a inflação de
fevereiro, e de forma cumulativa a de março, e assim sucessivamente.
Essa característica é comum das séries macroeconômicas e ainda mais
nas séries financeiras, tais como retorno de ações, taxa de câmbio, juros, inflação,
entre outros. A saída neste caso é aplicar o método dos mínimos quadrados
generalizados que vimos no tópico anterior.
Queremos alertá-lo novamente que em Econometria I não estamos sendo
tão rigorosos com as séries temporais como estamos sendo com os dados de corte.
O estudo de séries temporais é uma área muito específica dentro da econometria,
dado a natureza particular dessas séries. Por esse motivo, você estudará esse tema
com muito mais rigor em Econometria II, e então terá a oportunidade de revisar
tudo o que aprendeu em Econometria I, porque o conhecimento nesse ramo da
ciência econômica é cumulativo e sempre utilizado.
213
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
2 A NATUREZA DA CORRELAÇÃO SERIAL
Suponha o seguinte modelo de regressão linear:
Yt =+
β1 β 2 X2 t + ε t
3.1
Em que Yt é a variável dependente, β1 e β2 são os parâmetros do modelo,
X2t a variável explicativa e εt o termo de erro (que em séries temporais chamamos
de inovações), o qual pelas hipóteses do modelo clássico, E[εt|X] = 0, Var[εt|X] =
σ2 e a cov[εt, εt–1] = 0 para todo t ≠ 0.
A autocorrelação ocorre quando relaxamos a hipótese de covariância
igual a zero. Neste caso, precisamos descobrir qual o processo gerador da série
de erros. Como exemplo, podemos supor que os erros foram gerados por um
processo autorregressivo de primeira ordem, AR(1), como em 3.2.
=
ε t ρε t −1 + υt
3.2
Perceba que, neste caso, o termo de erro, εt, depende do seu valor no
período anterior, mais um componente aleatório com distribuição normal, média
zero, variância constante e não autocorrelacionado. Em séries temporais, quando
vt tem variância igual a 1, nós dizemos que vt é um ruído branco, ou white noise,
e essa condição nos permite suprimir |X das nossas equações, porque neste caso,
E[ε|X] = E[ε].
Vamos voltar a 3.2 e recuar um período no tempo:
=
ε t −1 ρε t − 2 + υt −1
3.3
Substituindo 3.3 em 3.2 temos:
ε=
ρ ( ρε t − 2 + υt −1 ) + υt
t
3.4
ε t = ρ 2ε t − 2 + ρυt −1 + υt
3.5
Podemos continuar avançando no passado e substituindo recursivamente
as equações. No final, veremos que o termo de erro da equação 3.1 tem uma certa
persistência ou inércia, medida por ρ das equações 3.2 a 3.5. Conforme Hill,
Judge e Griffiths (2010, p. 303), chamamos ρ de “[...] parâmetro autorregressivo
que determina quão rapidamente o efeito de um choque se dissipa”.
214
TÓPICO 3 | AUTOCORRELAÇÃO
É importante impor uma restrição a esse parâmetro. Como teremos a
oportunidade de estudar em Econometria II, um processo autorregressivo, como
3.2, para não se tornar um processo explosivo, ρ deve ser menor do que 1 em
módulo. Dito de outra forma, –1 < ρ < 1, ou, .
Outra característica importante é que, apesar de serem autocorrelacionados,
os erros continuam com média zero. Porém,
2
Var ( ε=
σ=
t)
ε
σ υ2
1− ρ2
3.6
Veja que a variância dos resíduos da equação 3.2, σ v2, está relacionada
2
à variância dos resíduos da equação 3.1, σ ε . Como em 3.2 os erros vt são
homoscedásticos, em 3.1 os erros também serão, como pode ser visto em 3.6.
A covariância em 3.1, na presença de correlação serial, será dada por:
Cov ε t ,ε t − k  = σ ε2 ρ k
3.7
Em que k representa a distância de tempo entre os erros.
A autocovariância é melhor representada com o auxílio da álgebra
matricial. Conforme Greene (2012, p. 949), podemos representar 3.7 por E[εε'] =
σ2Ω. Como Ω é uma função de |t – k|, podemos definir a autocovariância como:
Cov ε t ,ε t − k  =Cov ε t + k ,ε t  =σ 2 Ωt ,t − k =γ k =γ − k
3.8
Se σ2Ωt,t = Υ0, a correlação entre εt e εt – k é a autocorrelação de εt, dada por:

Corr ε t ,ε t − k=
Cov ε t ,ε t − k 
γ
k
= =
ρ=
ρ− k
k
γ
Var ε t  Var ε t − k 
0
3.9
Por simplificação, reescrevemos 3.9 como:
E εε ′ = Γ = γ 0 R = σ 2 Ω
3.10
215
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
Assim, Γ é a matriz de autocovariância, R é a matriz de autocorrelação e
o coeficiente de autocorrelação é dado por ρtk =
γ t−k
γ 0 , que decai gradualmente ao
longo do tempo. Agora podemos representar a matriz de variância e covariância
como:
 1

2
 ρ
συ
2
E εε ′=
= σ Ω=  ρ 2

1− ρ2
 
 ρ T −1

ρ
ρ2
ρ
1
ρ
1


ρ
T −2
ρ T −3
ρ 3 … ρ T −1 

ρ 2 … ρ T −2 
ρ … ρ T −3 

 … ρ 
1 
… ρ
3.11
Perceba que na diagonal principal continuamos com números 1,
garantindo a variância constante e homoscedástica. As demais posições deveriam
ser preenchidas por zeros, mas agora temos valores representando a correlação
entre períodos, ou seja, as autocorrelações.
O que quisemos apresentar a você é o caso simples em que o termo de
erro na equação 3.1 segue um padrão autorregressivo de primeira ordem, AR(1).
Porém, como você terá a oportunidade de estudar em Econometria II, esse
processo pode seguir outros padrões, por exemplo, AR(2) , AR(3) , AR(p) . Mas
também poderia ser um processo de média móvel, representada por MA(1) para
o caso de ordem 1, ou MA(q) no caso de ordem q. Poderia, ainda, ser um processo
ARMA(p, q), cujas matrizes seriam diferentes de 3.11, porém estamos omitindo
nesse Livro de Estudos para não nos alongarmos desnecessariamente.
Para finalizar nossa análise, lembre-se de que, no Tópico 2, representamos
a regressão pelo modelo 2.9, e a estimativa do vetor dos parâmetros por 2.10.
Vimos também que os estimadores β̂ permaneciam não tendenciosos na presença
de heteroscedasticidade, porém ineficientes, como visto na equação 2.21:
=
Var  βˆ 
( X′X )
−1
X' ΩX ( X ′X )
−1
2.21
No caso de correlação serial, o problema permanece por causa de Ω.
Assim, as consequências da heteroscedasticidade e da correlação serial são
as mesmas, ou seja, geram parâmetros não viesados, mas ineficientes e com
variâncias viesadas. Por esse motivo não estimamos os parâmetros do modelo
de regressão por Mínimos Quadrados Ordinários, mas por Mínimos Quadrados
Generalizados.
216
TÓPICO 3 | AUTOCORRELAÇÃO
E por que os erros são autocorrelacionados? Muitos são os motivos que
levam o modelo a gerar séries de erros correlacionados, dentre os quais podemos
citar a inércia, muito comum em séries financeiras, e os ciclos econômicos, comuns
em séries macroeconômicas. Porém, não podemos descartar a possibilidade do
nosso modelo estar especificado de forma incorreta, quer seja pela sua forma
funcional, ou pela omissão de uma variável estritamente relevante ou a inclusão
de uma variável irrelevante como variável explicativa.
3 DETECTANDO O PROBLEMA DA CORRELAÇÃO SERIAL
Existem alguns testes estatísticos que podemos empregar para fins de
verificação da existência de autocorrelação. Esses testes são baseados na hipótese
de que se os termos de erro populacional são correlacionados, então podemos
detectá-los quando estimamos por mínimos quadrados ordinários (GREENE,
2012, p. 962).
Para ver como funcionam esses testes, começaremos com o modelo 3.12:
Areat =
β1 + β 2 Pr ecot −1 + β 3Timet + ε t
3.12
Em que Areat se refere à área colhida de milho no ano t, em hectares,
Precot – 1 se refere à cotação internacional do milho em US$/tonelada no ano
imediatamente anterior, t – 1, Timet é uma variável de tendência temporal, β1,
β2 e β3 são os parâmetros do modelo e εt é o termo de erro, o qual esperamos que
tenha distribuição normal, com média zero e variância constante.
Os dados anuais foram obtidos no IpeaData e estão disponíveis no Quadro
19, referente ao período de 1957 até 2015:
QUADRO 19 – DADOS SOBRE COTAÇÃO INTERNACIONAL DO MILHO E ÁREA PLANTADA
NO BRASIL
Data
Preço
Área
Time
Data
Preço
Área
Time
1957
55,8683
6.095.085
1
1958
49,7358
5.790.350
2
1987
75,5225
13.503.431
31
1988
106,9500
13.169.003
32
1959
50,7842
6.189.107
3
1989
111,3690
12.931.784
33
1960
49,5717
6.681.165
4
1990
109,2810
12.023.771
34
1961
47,7008
6.885.740
5
1991
107,4730
13.580.647
35
1962
48,6533
7.347.881
6
1992
104,2120
13.886.814
36
1963
53,7708
7.957.633
7
1993
102,0410
12.876.384
37
1964
54,7217
8.105.894
8
1994
107,7800
14.522.806
38
1965
55,2475
8.771.318
9
1995
123,4530
14.182.486
39
217
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
1966
58,0025
8.703.169
10
1996
164,5230
12.505.585
40
1967
54,1642
9.274.327
11
1997
117,1720
12.825.504
41
1968
47,5058
9.584.754
12
1998
101,6170
11.234.423
42
1969
51,9658
9.653.757
13
1999
90,2942
12.418.490
43
1970
58,2642
9.858.108
14
2000
88,2192
12.648.005
44
1971
58,2975
10.550.489
15
2001
89,6092
12.912.390
45
1972
55,7375
10.538.943
16
2002
99,3342
12.304.986
46
1973
97,4692
9.923.570
17
2003
105,1870
13.343.992
47
1974
132,3770
10.672.450
18
2004
111,7780
12.864.838
48
1975
119,5480
10.854.687
19
2005
98,4057
12.249.101
49
1976
112,2640
11.117.570
20
2006
121,5890
12.997.372
50
1977
95,3692
11.797.411
21
2007
163,2590
14.010.838
51
1978
100,7490
11.124.827
22
2008
223,2480
14.747.249
52
1979
115,5780
17.378.885
23
2009
165,5420
14.144.321
53
1980
125,7160
11.451.297
24
2010
186,0070
12.963.080
54
1981
130,6030
11.520.336
25
2011
291,7810
13.605.369
55
1982
108,0990
12.619.531
26
2012
298,4100
15.065.288
56
1983
135,9830
10.705.979
27
2013
258,9570
15.708.367
57
1984
135,8200
12.018.446
28
2014
192,8810
15.843.121
58
1985
112,3310
11.798.349
29
2015
169,7850
15.406.010
59
1986
87,7917
12.465.836
30
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018.
A estimação do modelo 3.12 está no Quadro 20, adiante. Perceba que
fizemos a estimação com uma base de dados contendo 59 observações, porém,
usando a variável Preço defasada um período, nossa base reduz de 59 para 58
observações. Mesmo assim, como temos uma base grande, reduzimos as chances
de termos uma regressão espúria por conta da micronumerosidade, ou seja, por
termos uma amostra com poucos graus de liberdade.
Para estimar 3.12 usando uma variável explicativa defasada, no menu
principal do Gretl selecione “Modelo”, e na sequência “Mínimos Quadrados
Ordinários”. Na tela que abrir, informe a variável Area como dependente e
escolha as variáveis Preco e Time como variáveis explicativas. Após elencar todas
as variáveis, na parte de baixo da tela de especificação do modelo, selecione
“defasagens”, e na tela que abrir, para a variável Preco informe 1, como na Figura
4, que o Gretl se encarregará de transformar a sua variável Precot na variável
Precot – 1.
218
TÓPICO 3 | AUTOCORRELAÇÃO
FIGURA 4 – ESPECIFICAÇÃO DO MODELO COM DEFASAGEM
FONTE: O autor
Volte sua atenção ao Quadro 20 novamente. Observe que no modelo
estimado, o coeficiente ˆ , que mede a mudança na área plantada quando a cotação
internacional do milho no ano anterior sofre variação, não é estatisticamente
significativo. Esperávamos uma correlação positiva e estatisticamente significativa
entre a variável Área e Preço, indicando que os produtores brasileiros modificam
suas estratégias de plantio em função da cotação internacional do grão na safra
anterior. Dito de outra forma, quanto maior o preço no ano anterior, maior será
o incentivo ao produtor aumentar a sua área plantada, visando a um lucro maior
(sofisma da composição).
219
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 20 – ESTIMAÇÃO DO MODELO 3.12 POR MÍNIMOS QUADRADOS ORDINÁRIOS
Modelo 1: MQO, usando as observações 1958-2015 (T = 58)
Variável dependente: Area
coeficiente
erro padrão
razão-t
p-valor
--------------------------------------------------------------const
7.679.350
400.854
19,16
0,0000 ***
Preco_1
6.641,16
4.796,75
1,385
0,1718
time
109.708
16.137,1
6,798
0,0000 ***
Média var. dependente
11755470
Soma resíd. quadrados
1,01e+14
R-quadrado
0,723912
F(2, 55)
72,10579
Log da verossimilhança −899,5708
Critério de Schwarz
1811,323
rô
0,441231
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
Durbin-Watson
2528447
1352490
0,713872
4,25e-16
1805,142
1807,549
1,056431
Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018.
Por outro lado, as outras duas variáveis são estatisticamente significativas.
Isso levanta a suspeita de que talvez o modelo não esteja corretamente especificado,
ou que podemos ter algum outro problema, porque intuitivamente, esperaríamos
uma relação positiva e estatisticamente significativa entre o preço e a área colhida
dessa commodity.
Podemos começar a nossa análise comparando os resíduos com o tempo.
Para isso, na tela do modelo estimado escolha “Gráficos”, na sequência selecione
“Gráfico dos resíduos” e depois escolha “Comparado com o tempo”. O resultado
é apresentado no Gráfico 6.
Veja no gráfico o comportamento dos resíduos no tempo. Os valores
começam com uma série negativa e com tendência de alta. Em determinado
momento, 1967, os valores se tornam positivos e “andam de lado”, porém isso
dura até 1978 e em 1979 temos um dado bem discrepante. Se olharmos a tabela,
veremos que há um saldo na área colhida de 11 milhões de hectares em 1978
para 17 milhões de hectares em 1979. Trata-se de um dado discrepante, motivado
provavelmente por um erro de medição ou informação incorretamente compilada.
220
TÓPICO 3 | AUTOCORRELAÇÃO
GRÁFICO 6 – GRÁFICO DOS RESÍDUOS COMPARADOS COM O TEMPO
FONTE: O autor
Podemos começar então o nosso trabalho, resolvendo esse problema de
dado discrepante. Para isso, substitua o valor da área plantada de 1979 pela média
dos anos 1978 e 1980. Esse valor é obtido por:
(11.124.827 + 11.451.297 ) = 11.288.062
2
3.13
Com a base corrigida, estimamos novamente o modelo de regressão. O
resultado está no Quadro 21.
O Gráfico 7 apresenta o gráfico dos resíduos contra o tempo. Agora que
eliminamos o problema dos dados discrepantes, podemos ver que nos anos iniciais
da nossa amostra os resíduos são negativos, crescendo e se tornando positivos
a partir de 1967. A partir de 1996 se tornam negativos novamente, mudando o
padrão apresentado no período anterior.
221
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 21 – ESTIMAÇÃO DO MODELO 3.12 POR MÍNIMOS QUADRADOS ORDINÁRIOS COM
DADOS DISCREPANTES CORRIGIDOS
Modelo 2: MQO, usando as observações 1958-2015 (T = 58)
Variável dependente: Area
coeficiente
erro padrão
razão-t
p-valor
--------------------------------------------------------------const
7,51320e+06
303372
24,77
1,66e-031 ***
Preco_1
5887,42
3630,24
1,622
0,1106
time
114429
12212,8
9,370
5,45e-013 ***
Média var. dependente
11650456
Soma resíd. quadrados
5,76e+13
R-quadrado
0,826620
F(2, 55)
131,1108
Log da verossimilhança −883,4098
Critério de Schwarz
1779,001
rô
0,681523
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
Durbin-Watson
2414719
1023582
0,820315
1,18e-21
1772,820
1775,227
0,546694
Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018.
GRÁFICO 7 – GRÁFICO DOS RESÍDUOS COMPARADOS COM O TEMPO
FONTE: O autor
Esse gráfico mostra claramente um comportamento compatível com
resíduos autocorrelacionados de forma positiva. Se não o fossem, teríamos algo
semelhante ao que vimos no Gráfico 5, ou seja, um comportamento aleatório,
sem padrão definido. A diferença é que no Gráfico 5 você plotou os resíduos
quadrados contra a variável explicativa, enquanto que no Gráfico 7 você plotou
os resíduos contra o tempo.
222
TÓPICO 3 | AUTOCORRELAÇÃO
Para nos certificarmos da existência ou não de correlação serial, aplicaremos
primeiro o teste de Durbin-Watson, que é o mais famoso dos testes de autocorrelação,
e é gerado automaticamente pela maioria dos programas econométricos. Para
entender a intuição desse teste, considere o seguinte modelo de regressão:
Yt =
β 1 + β 2 Xt + ε t
3.14
Vamos considerar que os erros, ao invés de serem bem-comportados,
seguem um processo autorregressivo de primeira ordem:
=
ε t ρε t −1 + υt
3.15
Em 3.15, υt tem distribuição normal, condição indispensável para
obtermos a estatística de Durbin-Watson. Esse termo de erro υt também carrega
as características desejadas de média zero e variância constante σ υ2.
Você deve perceber que a autocorrelação significa que os resíduos ε do
período t são correlacionados com os resíduos ε do período anterior, t – 1. Isso
quer dizer que, se ρ for estatisticamente significativo, os resíduos do modelo 3.14
são correlacionados. Por outro lado, se ρ não for estatisticamente significativo,
ρε t −1 = 0 e, portanto, εt = υt, não temos problema de correlação serial.
Intuitivamente você já deve ter pensado em salvar os resíduos e fazer
a estimação de 3.15 por mínimos quadrados ordinários. Neste caso, você
trabalharia com a hipótese nula H 0 : ρ = 0, caso os resíduos em 3.14 não fossem
correlacionados. A hipótese alternativa seria H1 : ρ ≠ 0, indicando que os resíduos
de 3.14 apresentam problemas de autocorrelação.
O problema é que não podemos usar o teste t tradicional para averiguar
se o coeficiente estimado ρ tem significância estatística (e consequentemente
problema de correlação serial). A saída dada por Durbin e Watson (1951, p. 168) é
estimar 3.14, obter os resíduos e estimar 3.15, comparando o resultado com uma
tabela criada pelos autores, baseada na estatística d:
∑ (εˆ
d=
∑
T
t =2
t
− εˆ t −1 )
2
3.16
T
εˆ 2
t =1 t
A estatística d está dentro de uma faixa numérica entre 0 e 4. Valores
próximos de 2 indicam que não há presença de correlação serial de primeira
ordem. Ela permite também sabermos se a correlação serial é positiva, caso em que
d < 2, ou se a correlação serial é negativa, quando d > 2 .
223
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
O teste possui algumas especificidades, por exemplo, o fato de não poder
ser empregado quando a variável dependente defasada estiver figurando como
variável explicativa, o modelo de regressão deve incluir o intercepto e os erros em
3.4 devem ter distribuição normal.
Durbin e Watson (1951) construíram sua própria tabela estatística, com um
limite superior, dl, e um limite inferior, du, que pode ser consultada em qualquer
livro de econometria, estatística ou na própria internet.
Para o nosso bem, o Gretl fornece tanto a estatística d de 3.16 quanto o
valor de ρ de 3.15. Retorne ao Quadro 21 e veja a última linha daquele quadro. Ali
temos rô = 0,681523 e temos Durbin – Watson = 0,546694. Vamos comparar o valor
de d com a tabela de Durbin-Watson, cuja reprodução parcial está na Figura 5.
Na parte superior da tabela estão os graus de liberdade do numerador, que
se refere à quantidade de coeficientes estimados em 3.16, excluindo a constante.
Como temos a constante mais dois coeficientes β̂ , k' = 2. Na lateral esquerda está
o tamanho da amostra, que no nosso caso é 58 (porque estamos trabalhando com
a variável Precot – 1, ou seja, defasada um período).
FIGURA 5 – REPRODUÇÃO DA TABELA DE DURBIN-WATSON PARA 5% DE SIGNIFICÂNCIA
ESTATÍSTICA
n
k' = 1
k' = 2
k' = 3
k' = 4
dL
dU
dL
dU
dL
dU
dL
dU
15
1.08
1.36
0.95
1.54
0.82
1.75
0.69
1.97
16
1.10
1.37
0.98
1.54
0.86
1.73
0.74
1.93
17
1.13
1.38
1.02
1.54
0.90
1.71
0.78
1.90
18
1.16
1.39
1.05
1.53
0.93
1.69
0.82
1.87
19
1.18
1.40
1.08
1.53
0.97
1.68
0.86
1.85
20
1.20
1.41
1.10
1.54
1.00
1.68
0.90
1.83
55
1.53
1.60
1.49
1.64
1.45
1.68
1.41
1.72
60
1.55
1.62
1.51
1.65
1.48
1.69
1.44
1.73
65
1.57
1.63
1.54
1.66
1.50
1.70
1.47
1.73
70
1.58
1.64
1.55
1.67
1.52
1.70
1.49
1.74
75
1.60
1.65
1.57
1.68
1.54
1.71
1.51
1.74
80
1.61
1.66
1.59
1.69
1.56
1.72
1.53
1.74
85
1.62
1.67
1.60
1.70
1.57
1.72
1.55
1.75
90
1.63
1.68
1.61
1.70
1.59
1.73
1.57
1.75
95
1.64
1.69
1.62
1.71
1.60
1.73
1.58
1.75
100
1.65
1.69
1.63
1.72
1.61
1.74
1.59
1.76
FONTE: Adaptado de Durbin e Watson (1959, p. 173)
224
TÓPICO 3 | AUTOCORRELAÇÃO
Como podemos ver, não existe um valor tabelado para d quando o
tamanho da amostra é de 58 observações. Nesse caso, podemos obter um valor
próximo, como n = 60, e verificamos que dl = 1,51 e du = 1,65. Se você preferir,
pode obter o valor exato para 58 observações através do Gretl. Basta procurar no
menu “Ferramentas” e depois “Tabelas estatísticas”. A tabela está representada
por “DW”, e você informa primeiro o tamanho da amostra e depois o número de
regressores (exceto a constante). O resultado neste caso é dl = 1,5052 e du = 1,6475.
As regras de decisão funcionam da seguinte forma:
1. Se 0 < d < dl, rejeitamos a H0: ausência de autocorrelação positiva.
2. Se 4 – dl < d < 4 , rejeitamos a H0: ausência de autocorrelação negativa.
3. Se du < d < 4 – du, não rejeitamos a H0: ausência de autocorrelação.
Há ainda dois casos em que não há decisão a tomar, ou seja, não sabemos
se tem ou não autocorrelação de primeira ordem, quando dl ≤ d ≤ du e quando 4 –
du ≤ d ≤ 4 – dl.
Como no nosso caso a estatística d = 0,546694, e dl = 1,5052, ou seja, 0 < d
< dl, rejeitamos a hipótese nula de ausência de autocorrelação positiva em favor
da hipótese alternativa, H1, ou seja, o resultado da estimação do nosso modelo
apresenta correlação serial positiva.
O Gráfico 8 apresenta esse padrão de comportamento em que há
autocorrelação serial positiva. Trata-se de uma adaptação do gráfico de dispersão
gerado pelo Gretl, em que acrescentamos alguns elementos para fins didáticos.
Os dados dos resíduos foram obtidos a partir da tela de resultado (Quadro
21) selecionando o menu “Salvar” e depois “Resíduos”. A série de resíduos
defasada foi obtida a partir da janela principal do Gretl, clicando sobre a variável
“uhat1”, selecionando o menu “Acrescentar” e depois “Defasagens das variáveis
selecionadas”.
225
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
GRÁFICO 8 – GRÁFICO DE DISPERSÃO DE RESÍDUOS AUTOCORRELACIONADOS
FONTE: O autor
Perceba que os dados estão dispersos da direita para a esquerda e
de forma ascendente. Dito de outra maneira, eles partem do quadrante IV,
crescendo para o quadrante II. Através desse gráfico fica clara a dependência
linear entre os resíduos presentes e os resíduos defasados. É exatamente esse o
comportamento que se espera encontrar quando se tem em mãos uma série de
resíduos autocorrelacionados.
Há várias críticas ao uso do teste de Durbin-Watson, por exemplo, o fato
de que só é válido quando não incluirmos no modelo de regressão a variável
dependente defasada. Suponha que chegássemos à conclusão que a área colhida
no ano anterior seria um dos componentes capazes de explicar a área colhida na
safra atual. Neste caso, teríamos que reescrever o modelo 3.12 da seguinte forma:
Areat = β1 + β2Precot – 1 + β3Timet + β4Areat – 1 + εt
3.17
Estimando 3.17, não poderíamos empregar o teste de Durbin-Watson para
fins de verificação da existência de correlação serial. Nesse caso, o Gretl reporta
outra estatística de teste, derivada da estatística d, trata-se da estatística h de
Durbin, dada por:
226
TÓPICO 3 | AUTOCORRELAÇÃO
h = ρˆ
n
(1 − n) Var ( βˆ
4
3.18
)
Essa estatística segue uma distribuição normal padrão, e tem como hipótese
nula a ausência de autocorrelação. Porém, ela mantém a limitação de só testar
autocorrelação de primeira ordem que a estatística de Durbin-Watson carrega.
Outro problema ocorre quando dl ≤ d ≤ du ou quando 4 – du ≤ d ≤ 4 – dl.
Nesse caso, o resultado cai em uma zona de indecisão, em que não podemos
concluir se existe ou não problema de autocorrelação de primeira ordem.
E, finalmente, se supusermos que 3.15 tivesse duas defasagens da variável
εt, digamos ε t = ρε t −1 + ρε t − 2 + υt, ou mais defasagens ainda, digamos p defasagens
caracterizando um processo autorregressivo de ordem p, AR(p), o teste DurbinWatson não poderia ser aplicado. Modelos com processos geradores dos resíduos
mais complexos exigem outros tipos de testes baseados em Multiplicador de
Lagrange, como o teste de Breusch-Godfrey (BG), que veremos a seguir.
Voltemos novamente ao modelo de regressão 3.14:
Yt = β1 + β2Xt + εt
3.14
Agora vamos supor que o termo de erro segue um processo autorregressivo
de ordem p, AR(p):
=
ε t ρ1ε t −1 + ρ 2ε t − 2 + …+ ρ pε t − p + υt
3.19
( )
Em que υt é um ruído branco, ou seja, E(υt) = 0,E υt2 = 1 e E(υt, υt – j) = 0.
Aqui devemos estimar 3.19 e testar a hipótese nula de que H 0 : ρ1 = ρ 2 = … = ρ p = 0
, ou seja, de que não há correlação serial. O teste tem uma estatística n.R2 ~ χ p2, em
que n é o tamanho da amostra, p é o número de defasagens em 3.19. Se o valor
calculado for maior do que o valor da tabela com p graus de liberdade, rejeitamos
a hipótese nula, ou seja, pelo menos um dos ρ p em 3.19 é estatisticamente diferente
de zero.
Vamos aplicar esse teste no nosso exemplo. Primeiro estimamos 3.17, cujos
resultados estão disponíveis no Quadro 22. Perceba que o coeficiente estimado βˆ 4
é estatisticamente significativo, ou seja, a área plantada e colhida na safra anterior
influencia a área plantada a ser colhida na safra atual.
227
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
DICAS
Como dissemos antes, o teste d de Durbin-Watson não serve para verificar a
existência de autocorrelação, porém o Gretl nos forneceu o resultado da estatística h de
Durbin. Como esse teste não é tão poderoso quanto o teste BG que estamos estudando
agora, nós o deixaremos de lado. Caso queira, você poderá encontrar facilmente na literatura
econométrica informações sobre esse teste, para isso, leia Gujarati e Porter (2011, p. 438).
• GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed.
Porto Alegre: AMGH, 2011. 924 p. Tradução: Denise Durante, Mônica Rosemberg, Maria
Lúcia G. L. Rosa. – Edição do Kindle.
QUADRO 22 – RESULTADO DA ESTIMAÇÃO DE 3.17 POR MÍNIMOS QUADRADOS ORDINÁRIOS
Modelo 4: MQO, usando as observações 1958-2015 (T = 58)
Variável dependente: Area
coeficiente
erro padrão
razão-t
p-valor
----------------------------------------------------------------const
2.431.260
701.109
3,468
0,0010 ***
Preco_1
3.888,42
2.558,99
1,520
0,1345
time
28.173,3
14.209,3
1,983
0,0525 *
Area_1
0,690385
0,0907566
7,607
0,0000 ***
Média var. dependente
11650456
Soma resíd. quadrados
2,78e+13
R-quadrado
0,916306
F(3, 54)
197,0694
Log da verossimilhança −862,2884
Critério de Schwarz
1740,819
rô
−0,131252
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Critério de Akaike
Critério Hannan-Quinn
h de Durbin
2414719
717718,5
0,911656
4,66e-29
1732,577
1735,787
−1,383168
Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018.
Para fazer o teste BG, na tela do modelo estimado você deve ir em “Testes”
e na sequência escolher “Autocorrelação”. Escolha a ordem de defasagem, que por
padrão o Gretl apresentará uma defasagem, mas você poderá testar defasagens
superiores a esta.
O resultado do teste apresentado no Quadro 23 pode lhe causar um pouco
de confusão porque você está apenas começando a sua jornada no mundo da
econometria. Felizmente o Gretl, para facilitar a nossa vida, grava na janela do
modelo estimado o resultado desse teste em forma mais fácil de compreender:
228
TÓPICO 3 | AUTOCORRELAÇÃO
Teste LM para autocorrelação até a ordem 1 Hipótese nula: sem autocorrelação
Estatística de teste: LMF = 1,70334
com p-valor = P(F(1, 53) > 1,70334) = 0,197489
Perceba que o teste LM relatado nada mais é do que o teste BreuschGodfrey, pois esse teste utiliza a técnica de Multiplicador de Lagrange na
sua estrutura. É apresentada a hipótese nula de ausência de autocorrelação, e
podemos ver pelo p – valor que não podemos rejeitar H0: sem autocorrelação. Isso
nos leva a concluir novamente que devemos investir um tempo considerável na
especificação correta dos nossos modelos econométricos, assim como na correta
definição e tratamento adequado das variáveis, pois assim evitamos problemas
estatísticos de outra natureza, tais como heteroscedasticidade, multicolinearidade
e autocorrelação.
Além disso, queremos lembrá-lo de que fizemos o teste BG para
autocorrelação de primeira ordem. Fizemos isso porque o teste de DurbinWatson, na presença da variável dependente defasada, não é aplicável. Vamos
deixar para você averiguar, como exercício, se existe presença de autocorrelação
de segunda e/ou de terceira ordem.
QUADRO 23 – TESTE DE BREUSCH-GODFREY PARA O MODELO 3.17
Teste de Breusch-Godfrey para autocorrelação de primeira-ordem
MQO, usando as observações 1958-2015 (T = 58)
Variável dependente: uhat
coeficiente
erro padrão
razão-t
p-valor
------------------------------------------------------------const
−783919
919789
−0,8523
0,3979
Preco_1
−365,680
2557,88
−0,1430
0,8869
time
−12970,4
17264,8
−0,7513
0,4558
Area2_1
0,106289
0,121504
0,8748
0,3856
uhat_1
−0,238444
0,182698
−1,305
0,1975
R-quadrado não-ajustado = 0,031138
Estatística de teste: LMF = 1,703344,
com p-valor = P(F(1,53) > 1,70334) = 0,197
Estatística alternativa: TR^2 = 1,805995,
com p-valor = P(Qui-quadrado(1) > 1,806) = 0,179
Ljung-Box Q' = 1,04114,
com p-valor = P(Qui-quadrado(1) > 1,04114) = 0,308
FONTE: O autor
229
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
4 RESOLVENDO O PROBLEMA DA CORRELAÇÃO
SERIAL – MÉTODO DOS MÍNIMOS QUADRADOS
GENERALIZADOS
Para superar o problema da autocorrelação nós empregamos o método
dos mínimos quadrados generalizados. Através desse método, produzimos “[...]
intervalos de confiança menores, mais informativos do que os intervalos de mínimos
quadrados” (HILL; GRIFFITHS; JUDGE, 2010, p. 307).
Quando falamos em método dos mínimos quadrados generalizados,
estamos nos referindo a uma série de técnicas econométricas que podem ser
empregadas, ou seja, um conjunto amplo de modelos de regressão capaz de
estimar coeficientes com as características desejáveis, tais como a ausência de
autocorrelação.
Por isso, podemos partir de uma simples transformação de variáveis, e
aqui “simples” é apenas um eufemismo, até o emprego de técnicas avançadas,
como as estimativas por máxima verossimilhança. Tudo dependerá da natureza
da autocorrelação e do nosso conhecimento relativo à matriz Ω, ou seja, de ρ .
Como vimos, o primeiro e indispensável passo para evitar esse problema
passa, necessariamente, pela correta especificação do modelo. Por isso, ao
identificar a presença de autocorrelação, devemos focar nossa atenção na
especificação das variáveis (especialmente nas variáveis proxy), na assertividade
dos dados coletados para evitar o problema da discrepância, no tamanho da
amostra e, finalmente, se o modelo está corretamente especificado.
Digamos que já tenhamos verificado tudo isso e mesmo assim detectamos
a presença de autocorrelação, como no modelo 3.20, com os erros de 3.21:
Yt =+
β1 β 2 X2 t + ε t
3.20
Em que εt é o termo de erro autocorrelacionado, dado por:
=
ε t ρε t −1 + υt
3.21
Com υt~N(0, σ2).
Substituindo 3.21 em 3.20 obtemos:
Yt =
β1 + β 2 X2 t + ρε t −1 + υt
3.22
230
TÓPICO 3 | AUTOCORRELAÇÃO
Agora, em 3.22, εt não está mais presente, ao invés disso temos ela própria
defasada um período, εt – 1, e outro termo de erro, dado por υt. Sabemos que, por
definição, podemos escrever εt = Yt – β1 – β2X2t. Dessa forma, podemos resolver
3.20 como:
ε t = Yt − β1 − β 2 X2 t
3.23
Defasando um período, temos:
ε t −1 = Yt −1 − β1 − β 2 X2 t −1
3.24
Substituindo 3.24 em 3.22, teremos:
Yt = β1 + β 2 X2 t + ρ ( Yt −1 − β1 − β 2 X2 t −1 ) + υt
3.25
Yt =β1 + β 2 X2 t + ρ Yt −1 − ρβ1 − ρβ 2 X2 t −1 + υt
3.26
Podemos reorganizar 3.26 para:
Yt − ρ Yt −1 =β1 − ρβ1 + β 2 X2 t − ρβ 2 X2 t −1 + υt
3.27
Yt − ρ Yt −1= β1 ( 1 − ρ ) + β 2 ( X2 t − ρ X2 t −1 ) + υt
3.28
Para facilitar nosso entendimento, podemos reescrever 3.28 como:
Yt* =
β1* + β 2 X2* t + υt
3.29
*
Em que Yt=
Yt − ρ Yt −1,=
β1* β1 ( 1 − ρ ) e =
X2* t
(X
2t
− ρ X2 t −1 ).
Como podemos observar nas equações anteriores, é necessário sabermos
o valor exato de ρ para podermos estimar 3.29. Como isso não é possível, pois
teríamos que ter acesso a toda a população de dados, procuramos estimar ρ
através de:
231
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
T
∑ εˆ
ρˆ =
∑
t =2 t
T
× εˆ t −1
3.30
εˆ 2
t =2 t
Conforme Cochrane e Orcutt (1949, p. 35), se rodarmos a regressão de 3.29
por mínimos quadrados ordinários, obteremos estimadores BLUE. Para fazer
isso, precisamos seguir um procedimento iterativo conforme os passos descritos
na sequência:
1. Estimamos o modelo 3.20 por mínimos quadrados ordinários.
2. Salvamos os resíduos gerados e então obtemos ρ̂ pela equação 3.30.
3. Introduzimos esse resultado em 3.29 e rodamos a regressão por mínimos
quadrados ordinários.
4. Com os resultados obtidos no passo 3, repetimos os passos 2 e 3 até que as
mudanças em ρ̂ seja um valor próximo de zero (COCHRANE; ORCUTT, 1949,
p. 53).
Esse procedimento pode ser feito com o uso do Gretl. Para tanto,
voltaremos ao nosso exemplo dado por 3.12 e dados do Quadro 19. A diferença
é que agora estimaremos o modelo usando outro caminho dentro do Gretl. No
menu inicial selecione “Modelo”, depois “Série temporal”, na sequência escolha
“Erros AR (GLS)” e depois “AR(1)”. Preencha as informações conforme a Figura
6, clicando em “ok” para confirmar.
232
TÓPICO 3 | AUTOCORRELAÇÃO
FIGURA 6 – ESTIMAÇÃO DO MODELO DE REGRESSÃO POR COCHRANE-ORCUTT
FONTE: Adaptado de Gretl (2018)
Os resultados são vistos no Quadro 24. Note que, ao superar o problema de
correlação serial de primeira ordem, o coeficiente estimado β̂ 2 é estatisticamente
significativo ao nível de 5% de significância estatística.
233
UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS
QUADRO 24 – RESULTADO DA ESTIMAÇÃO DO MODELO 3.12 POR COCHRANE-ORCUTT
Executando cálculo iterado de rô...
ITER
1
2
3
4
5
RÔ
0,68152
0,68777
0,68829
0,68833
0,68834
SQR
2,49100e+013
2,49073e+013
2,49073e+013
2,49073e+013
2,49073e+013
Modelo 1: Cochrane-Orcutt, usando as observações 1959-2015 (T = 57)
Variável dependente: Area
rho = 0,688338
coeficiente
erro padrão
razão-t
p-valor
-------------------------------------------------------------const
8.008.610
657.575
12,18
0,0000 ***
Preco_1
9.205,20
3.657,39
2,517
0,0148 **
time
91.776,40
20.113,00
4,563
0,0000 ***
Estatísticas baseadas nos dados rô-diferenciados:
Média var. dependente 11753265
Soma resíd. quadrados 2,49e+13
R-quadrado
0,916255
F(2, 54)
25,22715
rô
−0,095691
D.P. var. dependente
E.P. da regressão
R-quadrado ajustado
P-valor(F)
Durbin-Watson
2304561
679151,2
0,913153
1,83e-08
2,178760
Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%.
FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 31 ago. 2018.
Há outros métodos iterativos, tais como Prais e Winsten (1954) e Hildreth
e Lu (1960), os quais possuem rotinas prontas no Gretl, como pudemos ver na
Figura 6. Deixaremos para você a tarefa de estimar por estes dois métodos e
comparar os resultados com os do Quadro 24. Esses métodos de estimação são
chamados na literatura econométrica como Mínimos Quadrados Generalizados
Factíveis, ou em inglês, FGLS (Feasible Generalized Least Squares).
234
RESUMO DO TÓPICO 3
Neste tópico, você aprendeu que:
• As consequências da heteroscedasticidade e da correlação serial são as mesmas,
ou seja, geram parâmetros não viesados, mas ineficientes e com variâncias
viesadas. Por esse motivo não estimamos os parâmetros do modelo de
regressão por Mínimos Quadrados Ordinários, mas por Mínimos Quadrados
Generalizados.
• São os motivos que levam o modelo a gerar séries de erros correlacionados,
dentre os quais podemos citar a inércia, os ciclos econômicos, o modelo
especificado de forma incorreta, quer seja pela sua forma funcional, ou pela
omissão de uma variável estritamente relevante ou a inclusão de uma variável
irrelevante como variável explicativa.
• A detecção da autocorrelação se dá através de métodos informais, como o
gráfico de dispersão dos resíduos contra os resíduos defasados, ou o gráfico dos
resíduos contra o tempo, e métodos formais, como os testes de Durbin-Watson
e Breush-Godfrey, ambos sob a hipótese nula de que não há autocorrelação.
• A estatística de Durbin-Watson tem algumas limitações, tais como só detectar
a presença de correlação serial de primeira ordem, não poder ser empregado
quando a variável dependente defasada estiver figurando como variável
explicativa, o modelo de regressão deve incluir o intercepto e os erros devem
ter distribuição normal.
• Para modelos com processos geradores dos resíduos mais complexos do que
AR(1), devemos empregar testes baseados em Multiplicador de Lagrange,
como o teste de Breusch-Godfrey (BG).
• Para superar o problema da autocorrelação nós empregamos o método dos
mínimos quadrados generalizados ou o processo iterativo proposto por
Cochrane e Orcutt (1949).
235
AUTOATIVIDADE
Para essa autoatividade, considere os dados do Quadro 24. Trata-se de
uma adaptação da tabela B-16, do Economic Report of the President, que relaciona
o salário-hora e a produtividade dos Estados Unidos para o período de 1969 até
2017. Nesse quadro, o salário-hora se refere à remuneração por hora, dividida
pelo índice de preços ao consumidor. Os dados se referem aos números índices
com 2009 = 100.
QUADRO 24 – RELAÇÃO ENTRE SALÁRIO-HORA E PRODUTIVIDADE
Ano
Salário-Hora
Produtividade
Ano
Salário-Hora
Produtividade
1969
64,1
29,6
1994
80,8
66,2
1970
65,1
29,5
1995
80,9
68,3
1971
66,2
30,7
1996
81,6
71,5
1972
68,1
32,7
1997
83,1
75,3
1973
69,2
34,9
1998
86,8
79,2
1974
68,2
34,4
1999
89,1
83,6
1975
69,1
34,0
2000
92,1
87,3
1976
70,6
36,3
2001
93,6
87,9
1977
71,6
38,4
2002
94,2
89,5
1978
72,5
40,8
2003
95,6
92,3
1979
72,7
42,3
2004
97,5
96,5
1980
72,4
41,9
2005
97,7
100,1
1981
72,4
43,1
2006
98,3
103,3
1982
73,3
41,8
2007
99,8
105,5
1983
73,4
44,1
2008
98,7
104,2
1984
73,6
48,0
2009
100,0
100,0
1985
74,8
50,2
2010
100,2
103,2
1986
77,7
52,0
2011
99,2
105,3
1987
77,9
53,9
2012
99,8
108,4
1988
79,2
56,2
2013
99,7
110,8
1989
78,2
58,3
2014
100,8
114,4
1990
79,1
59,3
2015
103,7
118,4
1991
79,9
58,9
2016
103,4
120,3
1992
82,7
61,4
2017
102,8
123,5
1993
81,9
63,2
FONTE: <https://www.gpo.gov/fdsys/pkg/ERP-2018/xls/ERP-2018-table16.xls>. Acesso em:
30 jun. 2018.
236
1 Com base no Quadro 24, estime o seguinte modelo de regressão por mínimos
quadrados ordinários, interpretando o significado da estatística de DurbinWatson:
Salarioht =
β1 + β 2 Pr odutividadet + ut
(1)
2 Plote um gráfico de dispersão colocando no eixo Y os resíduos e no eixo X os
resíduos defasados um período. Como você interpreta esse gráfico?
3 Faça o teste de Breusch-Godfrey para verificar a existência de autocorrelação
de segunda ordem nos resíduos. O resultado do teste confirma a existência
de resíduos autocorrelacionados de segunda ordem?
4 Caso o resultado do teste de Breusch-Godfrey da equação anterior indique
a existência de autocorrelação, aplique o procedimento de Cochrane-Orcutt
para resolver o problema.
237
238
REFERÊNCIAS
ANDRADE, Carlos Henrique C. Manual de Introdução ao Pacote
Econométrico Gretl. 2013. Disponível em: <https://www.ufrgs.br/ppge/textospara-discussao/>. Acesso em: 15 abr. 2018.
ATLAS BRASIL. Atlas do Desenvolvimento Humano no Brasil. 2018.
Disponível em: <www.atlasbrasil.org.br>. Acesso em: 29 ago. 2018.
BCB – Banco Central do Brasil. 2018. Disponível em: <www.bcb.gov.br>. Acesso
em: 29 ago. 2018.
BELSLEY, Davi A.; KUH, Edwin; WELSCH, Roy E. Regression diagnostics.
Identifying influential data and sources of collinearity. Wiley-Interscience, 1980.
300 p.
BORÇA JUNIOR, Gilberto Rodrigues; TORRES FILHO, Ernani Teixeira.
Analisando a Crise do Subprime. Revista do Bndes, Rio de Janeiro, v. 30, n. 15,
p. 129-159, dez. 2008.
CARVALHO, Fernando J. Cardim de et al. Economia monetária e financeira. 3.
ed. Rio de Janeiro: Campus, 2015. 423 p.
CHOW, Gregory C. Tests of Equality Between Sets of Coefficients in Two Linear
Regressions. Econometrica 28, n. 3, p. 591-605. 1960.
COCHRANE, D.; ORCUTT, G. H. Applications of least-squares regressions
to relationships containing autocorrelated error terms. Journal of American
Statistical Association, v. 44, p. 32-61, 1949.
COTTRELL, Allin; LUCCHETTI, Riccardo “jack”. Gretl User’s Guide: Gnu
Regression, Econometrics and Time-series Library. 2018. 394 p.
D'ARIENZO, Carlos Cesar. Métodos quantitativos em contabilidade: a
Contabilometria. 2011. Disponível em: <http://www.administradores.com.
br/artigos/economia-e-financas/metodos-quantitativos-em-contabilidade-acontabilometria-7/60532/>. Acesso em: 17 jun. 2018.
DIEBOLD, Francis X. Elements of forecasting. 4. ed. Mason: Thomson, 2007.
366 p.
DURBIN, J.; WATSON, G. S. Testing for serial correlation in least-squares
regression. Biometrika, v. 38, p. 159-171, 1951.
239
ERP – Economic report of the president. ERP Tabela 16. 2018. Disponível em:
<https://www.gpo.gov/fdsys/pkg/ERP-2018/xls/ERP-2018-table16.xls>. Acesso
em: 30 jun. 2018.
FRISCH, Ragnar. Statistical confluence analysis by means of complete
regression systems. Institute of Economics, Oslo University, n. 5, 1934.
GALTON, Francis. Family likeness in stature. Londres: Proceedings of Royal
Society, v. 40, p. 42-72, 1886.
GREENE, William H. Econometric analysis: International edition. 7. ed.
London: Pearson Education Limited, 2012. 1241 p.
GRETL – Gnu Regression, Econometrics and Time-series Library. 2018.
Disponível em: <http://gretl.sourceforge.net/pt.html>. Acesso em: 22 ago. 2018.
GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso
eletrônico]. 5. ed. Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise
Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. – Edição do Kindle.
HILL, R. Carter; GRIFFITHS, William E.; JUDGE, George G. Econometria. 3. ed.
São Paulo: Saraiva, 2010. 471 p.
HOFFMANN, Rodolfo. Estatística para economistas. 3. ed. São Paulo: Pioneira
Thomson, 2002. 430 p.
KEYNES, John Maynard. A teoria geral do emprego, do juro e da moeda. São
Paulo: Editora Nova Cultural, 1996. 352 p.
KRUGMAN, Paul; WELLS, Robin. Introdução à economia. Rio de Janeiro:
Elsevier, 2007. 823 p.
LONGLEY, J. An appraisal of least-squares programs from the point of the user.
Journal of the American Statistical Association, v. 62, p. 819-841, 1967.
MADDALA, Gangadharrao Soundalyarao. Introdução à econometria. 3. ed. Rio
de Janeiro: LTC, 2003. 345 p.
MARSHALL, Alfred. Princípios de economia: Tratado introdutório. São Paulo:
Editora Nova Cultural, 1996. 368 p.
ROOS, Charles F. Constitution of the Econometric Society. Econometrica 1, n. 1,
1933, p. 106-08. Disponível em: <http://www.jstor.org/stable/1912239>. Acesso
em: 22 ago. 2018.
SARTORIS, Alexandre. Estatística e introdução à econometria [recurso
eletrônico]. 2. ed. São Paulo: Saraiva, 2013.
240
SCHUMPETER, JOSEPH. The Common Sense of Econometrics. Econometrica,
v. 1, n. 1, p. 5-12, jan. 1933. JSTOR. Disponível em: <http://dx.doi.
org/10.2307/1912225>. Acesso em: 22 ago. 2018.
SHEWHART, W. A. The Rôle of Statistical Method in Economic Standardization.
Econometrica 1, n. 1, 1933, p. 23-35.
TAYLOR, John B. Princípios de macroeconomia. São Paulo: Ática, 2007. 512 p.
PINDYCK, Robert S.; RUBINFELD, Daniel L. Econometria. Modelos e
aplicações. 4. ed. Rio de Janeiro: Elsevier, 2004. 726 p.
PROBST, Elisiana Renata. A evolução da mulher no marcado do trabalho. RH
Portal. 2015. Disponível em: <http://www.rhportal.com.br/artigos-rh/a-evoluoda-mulher-no-mercado-de-trabalho/>. Acesso em: 29 maio 2018.
THE HERITAGE FOUNDATION. Index of Economic Freedom. 2018.
Disponível em: <https://www.heritage.org>. Acesso em: 29 maio 2018.
WHITE, Halbert. A Heteroskedasticity-Consistent Covariance Matrix Estimator
and a Direct Test for Heteroskedasticity. Econometrica, v. 48, n. 4, p. 817-838,
1980.
WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem
moderna. 6. ed. São Paulo: Cengage Learning, 2016. 848 p.
241
Download