Estimação de Máxima Verossimilhança EMV EMV Tempo médio

Propaganda
Estimação de Máxima
Verossimilhança
Econometria
Estimação de Máxima Verossimilhança
Define uma classe de estimadores com base em uma
distribuição particular que por hipótese gerou as
variáveis aleatórias observadas.
Principal vantagem dos estimadores de Máxima
Verossimilhança: dentre os estimadores
consistentes e assintoticamente normais, todos
têm propriedades assintóticas ótimas.
Principal desvantagem: não são estimadores robustos a
falhas nas hipóteses sobre a distribuição das variáveis
aleatórias. Estimadores muito dependentes de
hipóteses particulares.
EMV
EMV
A distribuição de uma variável aleatória
observada é escrita como função dos
parâmetros a serem estimados
P(yi|dados,β) = densidade de probabilidade|
parâmetros.
A função de verossimilhança é construída
com base na densidade.
Construção: Função de densidade de
probabilidade conjunta da amostra observada
– geralmente um produto quando os dados
vêm de uma amostra aleatória.
O log da função de verossimilhança: log-L(θ
θ|dados)
Equações de verossimilhanças:
(1/n)Σi ∂logf(yi| θ)/∂θ
θEMV = 0.
“Condição de primeira ordem” para
maximização
Uma condição de momento – seu análogo é o
resultado fundamental - E[∂log-L/∂θ
θ] = 0.
Tempo médio antes da falha
Estimando o tempo médio antes da falha, θ, de
lâmpadas. yi = vida útil da lâmpada.
f(yi|θ)=(1/θ
θ)exp(-yi/θ)
L(θ)=Πi f(yi|θ)= θ-N exp(-Σyi/θ
θ)
logL (θ)=-Nlog (θ) - Σyi/θ
Equação de verossimilhança:
∂logL(θ)/∂θ=-N/θ + Σyi/θ2 =0
Note que: ∂logf(yi|θ)/∂θ = -1/θ + yi/θ2
Como E[yi]= θ, E[∂logf(θ)/∂θ]=0.
Propriedades do EMV
Aproximação linear de taylor para a condição de primeira ordem:
g(θ
θML) = 0 ≈ g(θ
θ) + H(θ
θ) (θ
θML - θ)
(sob condições de regularidade, termos de ordem superior tendem a zero
quando a amostra cresce)
1) Consistência
2) Normalidade assintótica
3) Eficiência: o limite inferior de Cramer – Rao é atingido (versão assintótica de Gauss
Markov)
4) Invariância. A estimação de funções não linearers dos parâmetros é relativamente
fácil.
1
Modelo linear normal
Definição da função de verossimilhança – densidade
conjunta dos dados observados, escrita como função
dos parâmetros que gostaríamos de estimar.
Definição do estimador de máxima verossimilhança como a
função dos dados observados que maximiza a função
de verossimilhança ou seu logarítimo.
Para o modelo:
yi = β′x
β′ i + εi, onde εi ~ N[0,σ2],
os EMV para β e σ2 são:
b = (X′′X)-1X′′y e s2 = e′′e/n.
MQO é o EMV para as inclinações, mas a estimativa da
variância não faz a correção pelos gl, sendo um EMV
viesado.
Modelo linear normal
Log da função de verossimilhança
= Σi log f(yi|θ
θ)
= soma dos logs das densidades.
Para o modelo de regressão linear com termos de
erro normalmente distribuídos, temos:
log-L = Σi [ - ½log2π
-½logσ2
- ½(yi – xi′β)
′β 2/σ2 ].
Equações de verossimilhança
O estimador é definido conforme:
∂log-L/∂θ
θ to 0. (equação de verossimilhança)
O vetor de derivadas da funçao de verossimilhança é a função score. Para o
modelo de regressão,
g = [∂log-L/∂β
β , ∂log-L/∂σ2]’
= ∂log-L/∂β
β = Σi [(1/σ2)xi(yi - xi′β)
′β ]
2
∂log-L/∂σ = Σi [-1/(2σ2) + (yi - xi′β)
′β 2/(2σ4)]
Para o modelo de regressão linear , a primeira derivada é:
(1/σ2)X′′(y - Xβ
β)
(K×1)
e
(1/2σ2) Σi [(yi - xi′β )2/σ2 - 1]
(1×1)
Equações de momento
Note que g = Σi gi é um vetor aleatório e que cada termo na soma
tem esperança igual a zero. Desta forma, E[(1/n)g] = 0. O
estimador é encontrado se acharmos o θ que torne a média
amostral dos gs igual a 0.
β,σ2)] = 0.
E[gi(β
(1/n)Σi gi(b ,s2) = 0.
Exemplo:
E[xi] = µ
E[xi - µ] = 0.
Estimamos µ achando a função dos dados que dá (1/n)Σi (xi - m) = 0,
(média amostral).
Condições de regularidade importantes: primeira derivada tem valor
esperado igual a 0.
Matriz informacional
O negativo da matriz de segundas derivadas da
log-verossimilhança,
-H = − ∑i
∂ 2 log − f i
∂θ ∂θ '
Hessiana do modelo linear
 ∂ 2 log− L

∂β ∂β '
∂ log− L
−
= - 2
 ∂ log− L
∂θ∂θ '

2
 ∂σ ∂β '

Matriz de informação. É uma matriz aleatória.
∂ 2 log− L 

∂β ∂σ2 
2
∂ log− L 

∂σ2 ∂σ2 
2
1
∑

∑
x xi '
xi (y i − xi ' β )
i i terão
Elementos fora
esperança
1 da diagonal
σ2 iigual a zero! 
=

σ2  1
 σ2
∑ (y − x ' β )x '
i
i
i
i
1
2σ4
∑ (y − x ' β)
2
i
i
i



2
Estimação da matriz informação
1
 σ2 ∑ i xi x′i
-E[H]= 

0


0′ 

n 
2σ4 
Testes de Hipóteses clássicos
Razão de verossimilhança:
Baseado na proposição de que restrições podem ser
“ruins”
Será que a redução no critério (log da
verossimilhança) é alto?
Multiplicador de Lagrange:
Examinar as condições de primeira ordem.
Se o gradiente é significativamente “não zero” para o
estimador restrito.
Wald: já visto.
3
Download