EAE0325 – Econometria II Professora: Fabiana Fontes Rocha

EAE0325 – Econometria II
Professora: Fabiana Fontes Rocha
Gabarito Primeira Lista Teórica de Exercícios
Bloco 1 – Assinalar se as afirmativas a seguir são verdadeiras (V) ou falsas (F)
Exercício 1 – Sobre o modelo de probabilidade linear
é uma variável binária assumindo somente os valores 0 e 1 é correto afirmar que:
, onde y
1. A probabilidade de sucesso {P(Y=1/X)}, é igual à esperança condicional de y
{E(Y/X)},sendo assim a probabilidade de resposta linear nos parâmetros V
2.
pode ser interpretado como a mudança em y devido ao aumento de uma unidade
em , mantendo os demais fatores fixos F
No modelo de probabilidade linear,
mede a mudança prevista na probabilidade de
sucesso quando muda, mantendo os demais fatores fixos.
3. O modelo de probabilidade linear, em geral, será homoscedástico. F
Quando y é uma variável binária, a variância condicional em x, é dada por Var
(y/x)=p(x).[1- p(x)], onde p(x) é a probabilidade de sucesso: P(Y=1/X). Assim, exceto no
caso onde a probabilidade independe das variáveis explicativas, haverá
heteroscedasticidade no modelo de probabilidade linear.
4. Uma das limitações do modelo de probabilidade linear é que as probabilidades
previstas pelo modelo podem estar abaixo de zero ou acima de 1. V
Exercício 2 - Com relação aos modelos logit e probit de resposta binária, podemos afirmar
que:
1. Eles evitam as limitações do MPL ao proporem modelos em que a probabilidade de
resposta são funções não lineares dos parâmetros, que assumem valores apenas no
intervalo de zero a um. No modelo logit,a função utilizada é a logística. Já no modelo
probit, utiliza-se a função de distribuição acumulada da normal. V
2. Utilizamos o método de mínimos quadrados ordinários na estimação desses tipos de
modelo de resposta binária. F
Devido à natureza não-linear desses modelos, não é possível a utilização do método
de mínimos quadrados ordinários. Podemos, entretanto, utilizar outros métodos de
estimação que possibilitem a incorporação dessas não-linearidades, como Non Linear
Least Squares ou o estimador de máxima verossimilhança.
3. Os efeitos relativos de duas variáveis explicativas contínuas sempre irão depender dos
valores em que estamos avaliando essas variáveis. F
Efeitos relativos de duas variáveis quaisquer
é dado por:
Exercício 3 – Sobre os modelos Tobit para solução de canto, podemos afirmar que:
1. O modelo Tobit é utilizado quando temos uma variável dependente que assuma valor
zero para uma fração significativa da população e seja aproximadamente contínua para
os demais valores da variável. V
2. A estimação por MQO no caso de variáveis com solução de canto levará a estimadores
consistentes dos parâmetros. F
Vemos que o valor de y condicional a y>0 é dado por:
onde
(
(
(
( |
( ),
é a razão de Mills inversa. Essa equação nos mostra que o uso
do MQO somente para observações
poderá levar a uma inconsistência dos
estimadores, pois a razão de Mills inversa é uma variável omitida, e em geral ela será
relacionada às variáveis explicativas.
3. Quando temos variáveis de contagem assumindo um número pequeno de valores
devemos utilizar o modelo Tobit. F
Devemos usar modelos específicos de regressão de dados de contagem. O modelo
estudado adequado nesse caso é o modelo de regressão de Poisson.
4. Ao estimarmos um modelo de solução de canto por MQO teremos um viés de variável
omitida, sendo essa variável omitida a razão de Mills inversa. V
Exercício 4 – Com relação ao Modelo de Regressão de Poisson podemos afirmar que:
1. É usado quando temos variáveis de contagem como variáveis dependentes, ou seja,
uma variável que assume valores inteiros não-negativos, assumindo um número
relativamente pequeno de valores. O valor esperado pode ser nesse caso modelado
como uma função exponencial dos parâmetros. V
2. Utilizando o valor esperado na forma exponencial, o log do valor esperado é linear, e
assim a mudança proporcional exata no valor esperado é dado por 100 . F
100 é aproximadamente a porcentagem de mudança em E(y/x) dado o aumento de
uma unidade em . A mudança proporcional exata no valor esperado será dada por:
(
) – 1]
3. A variável de contagem assume uma distribuição de Poisson, cuja distribuição é
determinada inteiramente pela média, sendo necessária somente a especificação de
E(Y/X). V
4. A estimação de quase-máxima verossimilhança será utilizada quando não assumirmos
que a distribuição de Poisson é inteiramente válida. Os erros padrão obtidos na
estimação por máxima verossimilhança estarão corretos. F
Quando usamos a estimação de máxima verossimilhança de Poisson, mas não
assumimos que a distribuição de Poisson esteja inteiramente correta, chamamos a
análise de estimação de quase-máxima verossimilhança. Ao menos que a hipótese de
variância de Poisson seja válida (ou seja, variância igual à média), os erros padrão
terão que ser ajustados.
Exercício 5 – Com relação aos Modelos de Regressão Censurada e Truncada é correto
afirmar que:
1. Nos modelos de regressão censurada e truncada lidamos com um problema de falta de
dados, no qual temos informações se as observações foram censuradas ou não. F
Nos modelos de regressão censurada lidamos com um problema de falta de dados, no
qual temos informações se as observações foram censuradas ou não. Nos modelos de
regressão truncada não observamos qualquer que informação que seja sobre um certo
segmento da população.
2.
O modelo de regressão censurada pode ser analisado de forma análoga ao Tobit. F
Apesar das semelhanças do Tobit e do modelo de regressão censurada há uma
importante diferença entre os problemas que esses modelos lidam: o Tobit é usado
para modelar uma variável dependente que possui um certo padrão (acumulada no
zero, e aproximadamente contínua em valores positivos); já o modelo de regressão
censurada lida com um problema de coleção dos dados, por algum motivo os dados
são censurados.
3. No modelo de regressão normal censurada podemos interpretar os coeficientes da
mesma forma que em um modelo de regressão linear sob amostragem aleatória. V
4. Assim como no MQO, no modelo de regressão normal censurada, a violação das
hipóteses de homoscedasticidade ou não normalidade dos erros gera inconsistência
dos estimadores. F
No modelo de regressão normal censurada a violação das hipóteses de
homoscedasticidade ou não normalidade dos erros irá, em geral, gerar inconsistência
dos estimadores. No MQO, a violação das hipóteses de homoscedasticidade ou não
normalidade dos erros não gera inconsistência dos estimadores. Todavia, sem a
hipótese de homoscedasticidade os estimadores das variâncias {
( ̂ } serão
viesados, o MQO não será mais BLUE, e as estatísticas de inferência estatística não
serão assintoticamente válidas. A hipótese de normalidade dos erros só será
problemática em amostras pequenas.
Bloco 2 – Questões dissertativas
Exercício 1 (Wooldridge) – Defina grad como uma variável dummy informando se um
estudante-atleta de uma grande universidade se formará em cinco anos. Sejam nmem e sat a
nota média no Ensino Médio e a nota do exame SAT, respectivamente. Defina estudo como o
número de horas gastas por semana em uma sala de estudo organizada. Suponha que,
usando os dados de 420 estudantes-atletas, obtenha-se o seguinte modelo logit:
̂(
Onde (
|
(
(
(
é a função logit.
Mantendo fixos nmem em 3,0 e sat em 1200, compute a diferença estimada na probabilidade
de formatura de alguém que passou dez horas por semana em uma sala de estudo e de
alguém que passou cinco horas por semana.
Primeiramente, devemos computar a probabilidade estimada em nmem=3, sat em 1200 e
educ=10 e subtrair desse número a probabilidade estimada em nmem=3, sat em 1200 e
educ=5. Na obtenção da primeira probabilidade, começamos computando a função linear e
̂
substituindo na função logit.
.
Substituindo na função logit teremos: exp(0,319)/ [1+ exp(0,319)] = 0,579. Para alguém que
passou cinco horas por semana na sala de estudo teremos:
0,283. Substituindo esse valor na função logística chegamos ao valor 0,570. Assim,
a diferença estimada na probabilidade de formatura de alguém que passou dez horas por
semana em uma sala de estudo e de alguém que passou cinco horas por semana, dadas as
demais características, é dada por 0,579 - 0,570 = 0,009, ou seja, 0,9 pontos percentuais a
mais.
Exercício 2 – Descreva como encontrar/interpretar o efeito parcial das variáveis explicativas
sobre o valor esperado da variável dependente nos seguintes modelos:
a) Probit e Logit
Variáveis aproximadamente contínuas: efeito parcial sobre a probabilidade de resposta
é dado pela derivada parcial:
(
(
, onde g(.) é a função densidade de
probabilidade da normal (Probit) ou da logística (Logit). Na estimação do efeito parcial
de sobre a probabilidade de resposta, o usual é usarmos os coeficientes estimados
e os valores médios das explicativas no cálculo do fator de ajuste: ( ̅ ̂ )
Variáveis explicativas discretas: efeito sobre a probabilidade de resposta de
ir de
(
para (
+1) é dado por: (
(
, onde G(.) é a função de distribuição acumulada da normal no Probit e a
função logística no Logit. Como dito no caso das contínuas, ao estimarmos a alteração
na probabilidade prevista usaremos coeficientes estimados e os valores médios das
explicativas.
b) Tobit
Variáveis aproximadamente contínuas: o efeito parcial de
dado por:
( |
(
, onde
(
sobre o valor esperado é
é a função de distribuição acumulada da
normal padrão. Com essa fórmula, poderemos fazer comparações aproximadas das
estimativas do Tobit e do MQO. Em geral, avaliamos as variáveis explicativas em seus
valores médios para obter um fator de ajuste comum { usamos como fator de ajuste
̅̂
( ̂ }.
Variáveis explicativas discretas: O efeito parcial de uma variável explicativa discreta
deve ser obtido estimando-se E(y/x) a partir da equação:
(
, onde
(
é a fda da normal padrão e
( |
( )
( é a fdp da normal padrão. Se a
variável explicativa for uma dummy, por exemplo, primeiro calculamos a estimativa de
E(y/x) com x=1, usando os valores médios das demais explicativas ou outros valores
de interesse, e depois calculamos essa estimativa para x=0, e subtraímos os valores
encontrados.
c) Modelo de Regressão de Poisson
Como no modelo de regressão de Poisson especificamos o valor esperado na forma
exponencial, o log do valor esperado é linear. Assim, 100
é aproximadamente a
porcentagem de mudança em E(y/x) dado o aumento de uma unidade em . A
mudança proporcional exata no valor esperado será dada por:
(
) – 1].
Não podemos comparar diretamente as magnitudes das estimativas de Poisson de
uma função exponencial com as estimativas de MQO de uma função linear. Para as
variáveis explicativas contínuas, uma comparação aproximada do efeito parcial é dada
por:
( |
(
. Como nos outros casos estudados, usaremos os
coeficientes estimados e as médias das variáveis explicativas para compararmos as
estimativas de Poisson e MQO.
Exercício 3 (Wooldridge) – Considere uma função de poupança familiar para a população de
todas as famílias dos Estados Unidos:
Onde:
Tamfam = tamanho da família
Educ = anos de escolaridade do chefe da família
Idade = idade do chefe da família
Assuma que:
( |
.
a) Suponha que a amostra inclua apenas famílias cuja idade do chefe é superior a 25
anos. Se usarmos o MQO em tal amostra, obteremos estimadores não viesados dos
? Explique.
O MQO será não viesado, pois estamos selecionando a amostra com em uma variável
explicativa exógena. A função de regressão da população para poup é a mesma
função de regressão da subpopulação com idade>25.
b) Agora, suponha que nossa amostra inclua somente casais sem filhos. Podemos
estimar todos os parâmetros na equação de poupança? Quais podemos estimar?
Assumindo que estado civil e o número de crianças afeta a poupança somente através
do tamanho da família, esse será outro exemplo de seleção amostral exógena. Nesse
caso, será a subpopulação de pessoas casadas sem filhos e teremos sempre
tamfam=2. Como não há variação no tamanho da família, não poderemos estimar o
parâmetro . Agora o intercepto nessa subpopulação será
dado por
, e essa será a estimativa que podemos obter. Mas assumindo que
as demais variáveis explicativas variam nessa subpopulação e que a amostra de
pessoas casadas sem filhos é suficientemente grande, podemos estimar
consistentemente os demais estimadores.
c) Suponha que excluamos de nossa amostra as famílias que poupam mais de 25.000
dólares por anos. O MQO produzirá estimadores consistentes dos
Nesse caso, estaríamos selecionando a amostra com base na variavel dependente, o
que faz com que o MQO seja viesado e inconstente na estimação dos
do modelo
populacional. No lugar do MQO deveríamos usar um modelo de regressão truncada.
Exercício 4 – Descreva o procedimento de ajuste dos erros-padrão da estimação de quase
máxima verossimilhança do modelo de Poisson. Quando esse ajuste será necessário?
Deveremos ajustar os erros-padrão sempre que não considerarmos válida a hipótese de
variância de Poisson (média é igual à variância). Um ajuste simples é possível quando
( |
assumimos que a variância é proporcional à média:
( | , sendo
um
parâmetro desconhecido. Sob essa hipótese, o procedimento de ajustes dos erros-padrão é o
seguinte:
1) Seja ̂ a estimação de quase máxima verossimilhança de Poisson, e defina os
resíduos como ̂
̂, onde ̂
( ̂ .
∑
é dado por: (
̂ ̂.
̂
3) Definindo ̂ como a raiz quadrada de , multiplicaremos os erros padrões habituais de
Poisson por ̂.
2) O estimador consistente de
Exercício 5 – Quando o MQO aplicado a uma amostra selecionada levará a estimadores
inconsistentes? Descreva o procedimento de correção de seleção amostral proposto por
Heckman. Como posso testar o viés de seleção?
Se a seleção amostral for exógena, ou seja, se a amostra for determinada somente por uma
variável explicativa exógena, o MQO será consistente na amostra selecionada. Desde que haja
variação suficiente na subpopulação, a seleção exógena não gera problemas tão graves,
apesar dos estimadores se tornarem ineficientes. Quando a seleção amostra é endógena, isto
é, seleção de amostra com base na variável dependente haverá inconsistência no MQO.
Vamos agora analisar as propriedades estatísticas do MQO usando uma amostra selecionada,
ou seja, quando nosso indicador de seleção
. Podemos considerar a equação:
. Quando
, teremos o modelo populacional de uma extração aleatória, e se
, a equação nada nos dirá sobre os parâmetros. Essa equação nos possibilitará a
verificar a consistência dos estimadores em de uma amostra selecionada. Para a consistência
dos estimadores as variáveis explicativas devem ser não correlacionadas com o erro, podemos
escrever nesse caso essa hipótese como: (
. Se
for independente de (
(
teremos:
(
(
. ( fizemos a hipótese de não correlação das
explicativas com o erro). Sendo assim, se a seleção for feita de forma aleatória, o MQO será
consistente. Se depender das variáveis de controle e de outros termos aleatórios que sejam
independentes do erro e das variáveis de controle, ainda assim, o MQO será consistente.
Método Heckit de Correção da Seleção Amostral:
Dados:
subconjunto de z.
e
, onde z é um vetor de variáveis exógenas, e x é um
1) Usando todas as observações da amostra, estimar um modelo Probit de sobre
e
com as estimativas obtidas calcular a razão inversa de Mills para cada observação ( ̂ .
2) Usando
a
amostra
selecionada,
computar
a
seguinte
regressão:
̂.
Um teste possível do viés de seleção amostral é verificar se na segunda etapa do método de
̂ , o coeficiente de ̂ é estatisticamente
correção amostral, na regressão de
significativo. Se esse coeficiente não for estatisticamente significativo a níveis muito altos de
significância, isso será um indício que não há problema de seleção na amostra.
Exercício 6 (Wooldridge) – Suponha que você seja contratado por uma universidade para
estudar os fatores que determinam se os alunos admitidos na universidade efetivamente
matricularam-se na universidade. Você recebe uma grande amostra aleatória dos alunos que
foram admitidos no ano anterior. Também são disponibilizadas informações sobre se cada
aluno decidiu matricular-se, o desempenho no Ensino Médio, a renda familiar, o auxílio
financeiro oferecido, raça e variáveis geográficas. Alguém lhe diz “Qualquer análise desses
dados conduzirá a resultados viesados, pois não se trata de uma amostra aleatória de todos os
candidatos às universidades, mas somente aqueles que se candidataram nessa universidade”.
Qual a sua opinião sobre essa crítica?
Para o propósito imediato de descobrir as variáveis que determinam se os alunos admitidos na
universidade decidiram se matricular, não haverá um problema de seleção amostral. A
população de interesse é alunos admitidos em uma determinada universidade. Dessa forma, é
apropriado especificar um modelo para esse grupo, no caso provavelmente usando um modelo
de probabilidade linear, probit ou a logit. Assim, a estimação por MQO ou máxima
verossimilhança produzirá estimadores consistentes.
Se a universidade espera que o perfil dos candidatos mude em um future próximo, então
haverá um problema de seleção amostral. Os estudantes que se candidatam no presente
deverão ser sistematicamente diferentes dos alunos que irão se candidatar no futuro.