Estimação de Máxima Verossimilhança Econometria Estimação de Máxima Verossimilhança Define uma classe de estimadores com base em uma distribuição particular que por hipótese gerou as variáveis aleatórias observadas. Principal vantagem dos estimadores de Máxima Verossimilhança: dentre os estimadores consistentes e assintoticamente normais, todos têm propriedades assintóticas ótimas. Principal desvantagem: não são estimadores robustos a falhas nas hipóteses sobre a distribuição das variáveis aleatórias. Estimadores muito dependentes de hipóteses particulares. EMV EMV A distribuição de uma variável aleatória observada é escrita como função dos parâmetros a serem estimados P(yi|dados,β) = densidade de probabilidade| parâmetros. A função de verossimilhança é construída com base na densidade. Construção: Função de densidade de probabilidade conjunta da amostra observada – geralmente um produto quando os dados vêm de uma amostra aleatória. O log da função de verossimilhança: log-L(θ θ|dados) Equações de verossimilhanças: (1/n)Σi ∂logf(yi| θ)/∂θ θEMV = 0. “Condição de primeira ordem” para maximização Uma condição de momento – seu análogo é o resultado fundamental - E[∂log-L/∂θ θ] = 0. Tempo médio antes da falha Estimando o tempo médio antes da falha, θ, de lâmpadas. yi = vida útil da lâmpada. f(yi|θ)=(1/θ θ)exp(-yi/θ) L(θ)=Πi f(yi|θ)= θ-N exp(-Σyi/θ θ) logL (θ)=-Nlog (θ) - Σyi/θ Equação de verossimilhança: ∂logL(θ)/∂θ=-N/θ + Σyi/θ2 =0 Note que: ∂logf(yi|θ)/∂θ = -1/θ + yi/θ2 Como E[yi]= θ, E[∂logf(θ)/∂θ]=0. Propriedades do EMV Aproximação linear de taylor para a condição de primeira ordem: g(θ θML) = 0 ≈ g(θ θ) + H(θ θ) (θ θML - θ) (sob condições de regularidade, termos de ordem superior tendem a zero quando a amostra cresce) 1) Consistência 2) Normalidade assintótica 3) Eficiência: o limite inferior de Cramer – Rao é atingido (versão assintótica de Gauss Markov) 4) Invariância. A estimação de funções não linearers dos parâmetros é relativamente fácil. 1 Modelo linear normal Definição da função de verossimilhança – densidade conjunta dos dados observados, escrita como função dos parâmetros que gostaríamos de estimar. Definição do estimador de máxima verossimilhança como a função dos dados observados que maximiza a função de verossimilhança ou seu logarítimo. Para o modelo: yi = β′x β′ i + εi, onde εi ~ N[0,σ2], os EMV para β e σ2 são: b = (X′′X)-1X′′y e s2 = e′′e/n. MQO é o EMV para as inclinações, mas a estimativa da variância não faz a correção pelos gl, sendo um EMV viesado. Modelo linear normal Log da função de verossimilhança = Σi log f(yi|θ θ) = soma dos logs das densidades. Para o modelo de regressão linear com termos de erro normalmente distribuídos, temos: log-L = Σi [ - ½log2π -½logσ2 - ½(yi – xi′β) ′β 2/σ2 ]. Equações de verossimilhança O estimador é definido conforme: ∂log-L/∂θ θ to 0. (equação de verossimilhança) O vetor de derivadas da funçao de verossimilhança é a função score. Para o modelo de regressão, g = [∂log-L/∂β β , ∂log-L/∂σ2]’ = ∂log-L/∂β β = Σi [(1/σ2)xi(yi - xi′β) ′β ] 2 ∂log-L/∂σ = Σi [-1/(2σ2) + (yi - xi′β) ′β 2/(2σ4)] Para o modelo de regressão linear , a primeira derivada é: (1/σ2)X′′(y - Xβ β) (K×1) e (1/2σ2) Σi [(yi - xi′β )2/σ2 - 1] (1×1) Equações de momento Note que g = Σi gi é um vetor aleatório e que cada termo na soma tem esperança igual a zero. Desta forma, E[(1/n)g] = 0. O estimador é encontrado se acharmos o θ que torne a média amostral dos gs igual a 0. β,σ2)] = 0. E[gi(β (1/n)Σi gi(b ,s2) = 0. Exemplo: E[xi] = µ E[xi - µ] = 0. Estimamos µ achando a função dos dados que dá (1/n)Σi (xi - m) = 0, (média amostral). Condições de regularidade importantes: primeira derivada tem valor esperado igual a 0. Matriz informacional O negativo da matriz de segundas derivadas da log-verossimilhança, -H = − ∑i ∂ 2 log − f i ∂θ ∂θ ' Hessiana do modelo linear ∂ 2 log− L ∂β ∂β ' ∂ log− L − = - 2 ∂ log− L ∂θ∂θ ' 2 ∂σ ∂β ' Matriz de informação. É uma matriz aleatória. ∂ 2 log− L ∂β ∂σ2 2 ∂ log− L ∂σ2 ∂σ2 2 1 ∑ ∑ x xi ' xi (y i − xi ' β ) i i terão Elementos fora esperança 1 da diagonal σ2 iigual a zero! = σ2 1 σ2 ∑ (y − x ' β )x ' i i i i 1 2σ4 ∑ (y − x ' β) 2 i i i 2 Estimação da matriz informação 1 σ2 ∑ i xi x′i -E[H]= 0 0′ n 2σ4 Testes de Hipóteses clássicos Razão de verossimilhança: Baseado na proposição de que restrições podem ser “ruins” Será que a redução no critério (log da verossimilhança) é alto? Multiplicador de Lagrange: Examinar as condições de primeira ordem. Se o gradiente é significativamente “não zero” para o estimador restrito. Wald: já visto. 3