EAE0325 – Econometria II Professora: Fabiana Fontes Rocha Gabarito Primeira Lista Teórica de Exercícios Bloco 1 – Assinalar se as afirmativas a seguir são verdadeiras (V) ou falsas (F) Exercício 1 – Sobre o modelo de probabilidade linear é uma variável binária assumindo somente os valores 0 e 1 é correto afirmar que: , onde y 1. A probabilidade de sucesso {P(Y=1/X)}, é igual à esperança condicional de y {E(Y/X)},sendo assim a probabilidade de resposta linear nos parâmetros V 2. pode ser interpretado como a mudança em y devido ao aumento de uma unidade em , mantendo os demais fatores fixos F No modelo de probabilidade linear, mede a mudança prevista na probabilidade de sucesso quando muda, mantendo os demais fatores fixos. 3. O modelo de probabilidade linear, em geral, será homoscedástico. F Quando y é uma variável binária, a variância condicional em x, é dada por Var (y/x)=p(x).[1- p(x)], onde p(x) é a probabilidade de sucesso: P(Y=1/X). Assim, exceto no caso onde a probabilidade independe das variáveis explicativas, haverá heteroscedasticidade no modelo de probabilidade linear. 4. Uma das limitações do modelo de probabilidade linear é que as probabilidades previstas pelo modelo podem estar abaixo de zero ou acima de 1. V Exercício 2 - Com relação aos modelos logit e probit de resposta binária, podemos afirmar que: 1. Eles evitam as limitações do MPL ao proporem modelos em que a probabilidade de resposta são funções não lineares dos parâmetros, que assumem valores apenas no intervalo de zero a um. No modelo logit,a função utilizada é a logística. Já no modelo probit, utiliza-se a função de distribuição acumulada da normal. V 2. Utilizamos o método de mínimos quadrados ordinários na estimação desses tipos de modelo de resposta binária. F Devido à natureza não-linear desses modelos, não é possível a utilização do método de mínimos quadrados ordinários. Podemos, entretanto, utilizar outros métodos de estimação que possibilitem a incorporação dessas não-linearidades, como Non Linear Least Squares ou o estimador de máxima verossimilhança. 3. Os efeitos relativos de duas variáveis explicativas contínuas sempre irão depender dos valores em que estamos avaliando essas variáveis. F Efeitos relativos de duas variáveis quaisquer é dado por: Exercício 3 – Sobre os modelos Tobit para solução de canto, podemos afirmar que: 1. O modelo Tobit é utilizado quando temos uma variável dependente que assuma valor zero para uma fração significativa da população e seja aproximadamente contínua para os demais valores da variável. V 2. A estimação por MQO no caso de variáveis com solução de canto levará a estimadores consistentes dos parâmetros. F Vemos que o valor de y condicional a y>0 é dado por: onde ( ( ( ( | ( ), é a razão de Mills inversa. Essa equação nos mostra que o uso do MQO somente para observações poderá levar a uma inconsistência dos estimadores, pois a razão de Mills inversa é uma variável omitida, e em geral ela será relacionada às variáveis explicativas. 3. Quando temos variáveis de contagem assumindo um número pequeno de valores devemos utilizar o modelo Tobit. F Devemos usar modelos específicos de regressão de dados de contagem. O modelo estudado adequado nesse caso é o modelo de regressão de Poisson. 4. Ao estimarmos um modelo de solução de canto por MQO teremos um viés de variável omitida, sendo essa variável omitida a razão de Mills inversa. V Exercício 4 – Com relação ao Modelo de Regressão de Poisson podemos afirmar que: 1. É usado quando temos variáveis de contagem como variáveis dependentes, ou seja, uma variável que assume valores inteiros não-negativos, assumindo um número relativamente pequeno de valores. O valor esperado pode ser nesse caso modelado como uma função exponencial dos parâmetros. V 2. Utilizando o valor esperado na forma exponencial, o log do valor esperado é linear, e assim a mudança proporcional exata no valor esperado é dado por 100 . F 100 é aproximadamente a porcentagem de mudança em E(y/x) dado o aumento de uma unidade em . A mudança proporcional exata no valor esperado será dada por: ( ) – 1] 3. A variável de contagem assume uma distribuição de Poisson, cuja distribuição é determinada inteiramente pela média, sendo necessária somente a especificação de E(Y/X). V 4. A estimação de quase-máxima verossimilhança será utilizada quando não assumirmos que a distribuição de Poisson é inteiramente válida. Os erros padrão obtidos na estimação por máxima verossimilhança estarão corretos. F Quando usamos a estimação de máxima verossimilhança de Poisson, mas não assumimos que a distribuição de Poisson esteja inteiramente correta, chamamos a análise de estimação de quase-máxima verossimilhança. Ao menos que a hipótese de variância de Poisson seja válida (ou seja, variância igual à média), os erros padrão terão que ser ajustados. Exercício 5 – Com relação aos Modelos de Regressão Censurada e Truncada é correto afirmar que: 1. Nos modelos de regressão censurada e truncada lidamos com um problema de falta de dados, no qual temos informações se as observações foram censuradas ou não. F Nos modelos de regressão censurada lidamos com um problema de falta de dados, no qual temos informações se as observações foram censuradas ou não. Nos modelos de regressão truncada não observamos qualquer que informação que seja sobre um certo segmento da população. 2. O modelo de regressão censurada pode ser analisado de forma análoga ao Tobit. F Apesar das semelhanças do Tobit e do modelo de regressão censurada há uma importante diferença entre os problemas que esses modelos lidam: o Tobit é usado para modelar uma variável dependente que possui um certo padrão (acumulada no zero, e aproximadamente contínua em valores positivos); já o modelo de regressão censurada lida com um problema de coleção dos dados, por algum motivo os dados são censurados. 3. No modelo de regressão normal censurada podemos interpretar os coeficientes da mesma forma que em um modelo de regressão linear sob amostragem aleatória. V 4. Assim como no MQO, no modelo de regressão normal censurada, a violação das hipóteses de homoscedasticidade ou não normalidade dos erros gera inconsistência dos estimadores. F No modelo de regressão normal censurada a violação das hipóteses de homoscedasticidade ou não normalidade dos erros irá, em geral, gerar inconsistência dos estimadores. No MQO, a violação das hipóteses de homoscedasticidade ou não normalidade dos erros não gera inconsistência dos estimadores. Todavia, sem a hipótese de homoscedasticidade os estimadores das variâncias { ( ̂ } serão viesados, o MQO não será mais BLUE, e as estatísticas de inferência estatística não serão assintoticamente válidas. A hipótese de normalidade dos erros só será problemática em amostras pequenas. Bloco 2 – Questões dissertativas Exercício 1 (Wooldridge) – Defina grad como uma variável dummy informando se um estudante-atleta de uma grande universidade se formará em cinco anos. Sejam nmem e sat a nota média no Ensino Médio e a nota do exame SAT, respectivamente. Defina estudo como o número de horas gastas por semana em uma sala de estudo organizada. Suponha que, usando os dados de 420 estudantes-atletas, obtenha-se o seguinte modelo logit: ̂( Onde ( | ( ( ( é a função logit. Mantendo fixos nmem em 3,0 e sat em 1200, compute a diferença estimada na probabilidade de formatura de alguém que passou dez horas por semana em uma sala de estudo e de alguém que passou cinco horas por semana. Primeiramente, devemos computar a probabilidade estimada em nmem=3, sat em 1200 e educ=10 e subtrair desse número a probabilidade estimada em nmem=3, sat em 1200 e educ=5. Na obtenção da primeira probabilidade, começamos computando a função linear e ̂ substituindo na função logit. . Substituindo na função logit teremos: exp(0,319)/ [1+ exp(0,319)] = 0,579. Para alguém que passou cinco horas por semana na sala de estudo teremos: 0,283. Substituindo esse valor na função logística chegamos ao valor 0,570. Assim, a diferença estimada na probabilidade de formatura de alguém que passou dez horas por semana em uma sala de estudo e de alguém que passou cinco horas por semana, dadas as demais características, é dada por 0,579 - 0,570 = 0,009, ou seja, 0,9 pontos percentuais a mais. Exercício 2 – Descreva como encontrar/interpretar o efeito parcial das variáveis explicativas sobre o valor esperado da variável dependente nos seguintes modelos: a) Probit e Logit Variáveis aproximadamente contínuas: efeito parcial sobre a probabilidade de resposta é dado pela derivada parcial: ( ( , onde g(.) é a função densidade de probabilidade da normal (Probit) ou da logística (Logit). Na estimação do efeito parcial de sobre a probabilidade de resposta, o usual é usarmos os coeficientes estimados e os valores médios das explicativas no cálculo do fator de ajuste: ( ̅ ̂ ) Variáveis explicativas discretas: efeito sobre a probabilidade de resposta de ir de ( para ( +1) é dado por: ( ( , onde G(.) é a função de distribuição acumulada da normal no Probit e a função logística no Logit. Como dito no caso das contínuas, ao estimarmos a alteração na probabilidade prevista usaremos coeficientes estimados e os valores médios das explicativas. b) Tobit Variáveis aproximadamente contínuas: o efeito parcial de dado por: ( | ( , onde ( sobre o valor esperado é é a função de distribuição acumulada da normal padrão. Com essa fórmula, poderemos fazer comparações aproximadas das estimativas do Tobit e do MQO. Em geral, avaliamos as variáveis explicativas em seus valores médios para obter um fator de ajuste comum { usamos como fator de ajuste ̅̂ ( ̂ }. Variáveis explicativas discretas: O efeito parcial de uma variável explicativa discreta deve ser obtido estimando-se E(y/x) a partir da equação: ( , onde ( é a fda da normal padrão e ( | ( ) ( é a fdp da normal padrão. Se a variável explicativa for uma dummy, por exemplo, primeiro calculamos a estimativa de E(y/x) com x=1, usando os valores médios das demais explicativas ou outros valores de interesse, e depois calculamos essa estimativa para x=0, e subtraímos os valores encontrados. c) Modelo de Regressão de Poisson Como no modelo de regressão de Poisson especificamos o valor esperado na forma exponencial, o log do valor esperado é linear. Assim, 100 é aproximadamente a porcentagem de mudança em E(y/x) dado o aumento de uma unidade em . A mudança proporcional exata no valor esperado será dada por: ( ) – 1]. Não podemos comparar diretamente as magnitudes das estimativas de Poisson de uma função exponencial com as estimativas de MQO de uma função linear. Para as variáveis explicativas contínuas, uma comparação aproximada do efeito parcial é dada por: ( | ( . Como nos outros casos estudados, usaremos os coeficientes estimados e as médias das variáveis explicativas para compararmos as estimativas de Poisson e MQO. Exercício 3 (Wooldridge) – Considere uma função de poupança familiar para a população de todas as famílias dos Estados Unidos: Onde: Tamfam = tamanho da família Educ = anos de escolaridade do chefe da família Idade = idade do chefe da família Assuma que: ( | . a) Suponha que a amostra inclua apenas famílias cuja idade do chefe é superior a 25 anos. Se usarmos o MQO em tal amostra, obteremos estimadores não viesados dos ? Explique. O MQO será não viesado, pois estamos selecionando a amostra com em uma variável explicativa exógena. A função de regressão da população para poup é a mesma função de regressão da subpopulação com idade>25. b) Agora, suponha que nossa amostra inclua somente casais sem filhos. Podemos estimar todos os parâmetros na equação de poupança? Quais podemos estimar? Assumindo que estado civil e o número de crianças afeta a poupança somente através do tamanho da família, esse será outro exemplo de seleção amostral exógena. Nesse caso, será a subpopulação de pessoas casadas sem filhos e teremos sempre tamfam=2. Como não há variação no tamanho da família, não poderemos estimar o parâmetro . Agora o intercepto nessa subpopulação será dado por , e essa será a estimativa que podemos obter. Mas assumindo que as demais variáveis explicativas variam nessa subpopulação e que a amostra de pessoas casadas sem filhos é suficientemente grande, podemos estimar consistentemente os demais estimadores. c) Suponha que excluamos de nossa amostra as famílias que poupam mais de 25.000 dólares por anos. O MQO produzirá estimadores consistentes dos Nesse caso, estaríamos selecionando a amostra com base na variavel dependente, o que faz com que o MQO seja viesado e inconstente na estimação dos do modelo populacional. No lugar do MQO deveríamos usar um modelo de regressão truncada. Exercício 4 – Descreva o procedimento de ajuste dos erros-padrão da estimação de quase máxima verossimilhança do modelo de Poisson. Quando esse ajuste será necessário? Deveremos ajustar os erros-padrão sempre que não considerarmos válida a hipótese de variância de Poisson (média é igual à variância). Um ajuste simples é possível quando ( | assumimos que a variância é proporcional à média: ( | , sendo um parâmetro desconhecido. Sob essa hipótese, o procedimento de ajustes dos erros-padrão é o seguinte: 1) Seja ̂ a estimação de quase máxima verossimilhança de Poisson, e defina os resíduos como ̂ ̂, onde ̂ ( ̂ . ∑ é dado por: ( ̂ ̂. ̂ 3) Definindo ̂ como a raiz quadrada de , multiplicaremos os erros padrões habituais de Poisson por ̂. 2) O estimador consistente de Exercício 5 – Quando o MQO aplicado a uma amostra selecionada levará a estimadores inconsistentes? Descreva o procedimento de correção de seleção amostral proposto por Heckman. Como posso testar o viés de seleção? Se a seleção amostral for exógena, ou seja, se a amostra for determinada somente por uma variável explicativa exógena, o MQO será consistente na amostra selecionada. Desde que haja variação suficiente na subpopulação, a seleção exógena não gera problemas tão graves, apesar dos estimadores se tornarem ineficientes. Quando a seleção amostra é endógena, isto é, seleção de amostra com base na variável dependente haverá inconsistência no MQO. Vamos agora analisar as propriedades estatísticas do MQO usando uma amostra selecionada, ou seja, quando nosso indicador de seleção . Podemos considerar a equação: . Quando , teremos o modelo populacional de uma extração aleatória, e se , a equação nada nos dirá sobre os parâmetros. Essa equação nos possibilitará a verificar a consistência dos estimadores em de uma amostra selecionada. Para a consistência dos estimadores as variáveis explicativas devem ser não correlacionadas com o erro, podemos escrever nesse caso essa hipótese como: ( . Se for independente de ( ( teremos: ( ( . ( fizemos a hipótese de não correlação das explicativas com o erro). Sendo assim, se a seleção for feita de forma aleatória, o MQO será consistente. Se depender das variáveis de controle e de outros termos aleatórios que sejam independentes do erro e das variáveis de controle, ainda assim, o MQO será consistente. Método Heckit de Correção da Seleção Amostral: Dados: subconjunto de z. e , onde z é um vetor de variáveis exógenas, e x é um 1) Usando todas as observações da amostra, estimar um modelo Probit de sobre e com as estimativas obtidas calcular a razão inversa de Mills para cada observação ( ̂ . 2) Usando a amostra selecionada, computar a seguinte regressão: ̂. Um teste possível do viés de seleção amostral é verificar se na segunda etapa do método de ̂ , o coeficiente de ̂ é estatisticamente correção amostral, na regressão de significativo. Se esse coeficiente não for estatisticamente significativo a níveis muito altos de significância, isso será um indício que não há problema de seleção na amostra. Exercício 6 (Wooldridge) – Suponha que você seja contratado por uma universidade para estudar os fatores que determinam se os alunos admitidos na universidade efetivamente matricularam-se na universidade. Você recebe uma grande amostra aleatória dos alunos que foram admitidos no ano anterior. Também são disponibilizadas informações sobre se cada aluno decidiu matricular-se, o desempenho no Ensino Médio, a renda familiar, o auxílio financeiro oferecido, raça e variáveis geográficas. Alguém lhe diz “Qualquer análise desses dados conduzirá a resultados viesados, pois não se trata de uma amostra aleatória de todos os candidatos às universidades, mas somente aqueles que se candidataram nessa universidade”. Qual a sua opinião sobre essa crítica? Para o propósito imediato de descobrir as variáveis que determinam se os alunos admitidos na universidade decidiram se matricular, não haverá um problema de seleção amostral. A população de interesse é alunos admitidos em uma determinada universidade. Dessa forma, é apropriado especificar um modelo para esse grupo, no caso provavelmente usando um modelo de probabilidade linear, probit ou a logit. Assim, a estimação por MQO ou máxima verossimilhança produzirá estimadores consistentes. Se a universidade espera que o perfil dos candidatos mude em um future próximo, então haverá um problema de seleção amostral. Os estudantes que se candidatam no presente deverão ser sistematicamente diferentes dos alunos que irão se candidatar no futuro.