Modelos de regressão Bayesianos para análise de taxas e

Modelos de regressão Bayesianos para análise de taxas e
proporções contínuas
Leandro Tavares Correia 1 3
Heleno Bolfarine 1
Cibele Queiroz da-Silva 2
1
Introdução
A modelagem estatística para dados contínuos de proporções tem sido o foco de muitos
estudos. Alguns exemplos de dados contínuos de proporções incluem taxa de desemprego,
mortalidade por acidentes de trânsito, etc. Modelos de regressão lineares e não lineares usuais
não são adequados para este tipo de conjunto de dados. Algumas diferentes alternativas têm sido
propostas para modelar proporções contínuas com a possibilidade de relacioná-las a variáveis
exógenas, como o uso de transformações na variável resposta (vide Aitchison, 1982), censura
na variável resposta ou assumindo uma distribuição para a variável resposta que está restrita a
intervalos limitados. Os modelos de regressão tobit e regressão beta são de interesse particular
deste trabalho.
Dados de proporções pode incluir uma quantidade não desprezível de zeros e/ou uns. Nesta
situação, a distribuição beta em si não providencia uma descrição satisfatória dos dados, uma
vez que ela não permite probabilidade positiva para nenhum ponto do intervalo [0, 1]. Para
contornar este problema, Ospina (2008) propôs uma versão com mistura contínua-discreta do
modelo apresentado por Ferrari e Cribari-Neto (2004) , utilizando a distribuição beta para definir
a componente contínua da distribuição e a componente discreta é definida por uma Bernoulli ou
uma distribuição degenerada em zero ou um.
Para o modelo tobit duplamente censurado, inflações de zeros e uns também podem ser consideradas utilizando a extensão do modelo de misturas proposto por Moulton e Halsey (1995),
onde os valores extremos podem vir de uma componente discreta ou de uma censura da componente contínua. Neste modelo é considerado que os excessos de zeros e/ou uns são provenientes
de um modelo do tipo Bernoulli que liga os possíveis excessos de zeros e/ou uns a um grupo
de covariáveis que podem influenciar a probabilidade de sua ocorrência e a resposta contínua
é modelada utilizando a distribuição normal com função de ligação como utilizado usualmente
na classe de modelo lineares generalizados. Extensões dos modelos tobit duplamente censurados envolvendo assimetria, utilizando a classe de distribuições potência (Pewsey et al., 2012)
também serão apresentadas.
1 IME
- USP.
3 Agradecimento
2 Est
ao CNPq pelo apoio financeiro. e-mail: [email protected]
- UnB.
1
As vantagens da análise Bayesiana são bem conhecidas e incluem a elicitação de conhecimentos a priori, evitam o uso de aproximações assintóticas e a estimação prática de funções dos
parâmetros por meio de técnicas de MCMC. Também discutimos algumas técnicas Bayesianas
de diagnóstico como resíduos Bayesianos (Paolino et al., 2003) e medidas de influência baseadas
na divergência-q como porposta por Peng e Dey (1995).
2
Modelos de regressão
Para a análise Bayesiana de modelos de regressão, considerando θ o conjunto de parâmetros
e π(θ) a priori conjunta, estamos intressados em obter a distribuição a posteriori π(θ|y), onde
π(θ|y) ∝ L(θ; y) × π(θ). Como nos modelos abaixo as distribuições a posteriori não possuem
forma fechama, utilizaremos procedimentos MCMC.
2.1
O modelo tobit normal duplamente censurado
Vamos considerar a seguinte composição dos dados para o modelo tobit duplamente censurado e inflacionado de zeros e uns: yi = 0, com probabilidade δ0i ; yi = 1, com probabilidade
δ1i ; e com probabilidade 1 − δ0i − δ1i ,



y∗ ,

 i
yi = 0,



1,
se 0 < y∗i < 1;
se y∗i ≤ 0;
(1)
se y∗i ≥ 1;
onde i = 1, . . . , n e y∗i ∼ N(µi , σ2 ).
Considerando as variáveis auxiliares: I0i = 1{0} (yi ) e I1i = 1{1} (yi ), temos para y = (y1 , . . . , yn )0 ,
a função de verossimilhança escrita como:
I0i
−µi
L(µ, σ , δ0 , δ1 ; y) = ∏ δ0i + (1 − δ0i − δ1i )Φ
σ
i=1
I1i
1 − µi
× δ1i + (1 − δ0i − δ1i ) 1 − Φ
σ
1−I0i −I1i
1
yi − µi
× (1 − δ0i − δ1i ) φ
,
σ
σ
2
n
onde Φ(.) e φ(.) correspondem a função de distribuição acumulada e função de densidade da
distribuição normal padrão.
2
2.2
Modelo tobit normal-potência duplamente censurada e inflacionada
de zeros e/ou uns
Com o intuito de incorporar aumentar a flexibilidade do modelo tobit normal incorporando
assimetria, utilizamos o modelo tobit normal-potência, onde a variável latente do modelo tobit, y∗i segue uma distribuição NP(α, µi , σ2 ) da classe de distribuições potência explorada por
Pewsey et al. (2012). Neste caso, tomando Yi∗ ∼ NP(α, µi , σ2 ) temos que sua função de distribuição acumulada é dada por
F(y∗i ) = Φ
y∗i − µi
σ
α
µi , y∗i ∈ R,
,
α, σ ∈ R+ ,
i = 1, . . . , n.
E derivando a função acima obtemos a função de densidade NP(α, µi , σ2 ), dada por
f (y∗i ) =
∗
∗
yi − µi
yi − µi α−1
α
φ
Φ
,
σ
σ
σ
µi , y∗i ∈ R,
α, σ ∈ R+ .
A função de verossimilhança segue da mesma forma que o caso tobit normal, substituindo Φ(.)
por F(.) e φ(.) por f (.).
2.3
Modelo beta inflacionado de zeros e uns
A variável explicativa yi segue a distribuição BIZU(µ, φ) apresentada em Ospina (2008).
Considere novamente as variáveis indicadoras auxiliares I0i e I1i apresentadas anteriormente,
fY (yi ; µi , φ) a função de densidade B (µi , φ) (Ferrari e Cribari-Neto, 2004), δ0i = P(yi = 0),
δ1i = P(yi = 1) e 1 − δ0i − δ1i = P(yi ∈ (0, 1)).
A função de verossimilhança segue da forma: L(µ, φ, δ0 , δ1 ; y) = L1 (δ0 , δ1 )L2 (µ, φ), onde
temos:
n
L1 (δ0 , δ1 ) =
∏ δI0i0i δI1i1i (1 − δ0i − δ1i)1−I0i−I1i ,
i=1
L2 (µ, φ) =
∏
fY (yi ; µi , φ).
i:yi ∈(0,1)
2.4
Função de ligação
Para a análise de regressão dos modelos, vamos considerar as funções de ligação g(µi ) e
H(δ0i , δ1i ) = (h0 (δ0i , δ1i ), h1 (δ0i , δ1i )), tais que:
µi
g(µi ) = log
1 − µi
3
= xTi β = ηi
δ0i
= vTi ρ = ζ0i
h0 (δ0i , δ1i ) = log
1 − δ0i − δ1i
δ1i
h1 (δ0i , δ1i ) = log
= zTi γ = ζ1i .
1 − δ0i − δ1i
3
Métodos Bayesianos de diagnóstico
Para critério de comparação entre os modelos, considere θ o conjunto de parâmetros, D(θ) =
−2 ∑ni=1 f (yi |θ), θ( j) como o j-ésimo elemento da amostra a posteriori de θ, j ∈ {1, . . . , M}, e
( j)
d
D̄ = ∑M
j=1 D(θ )/M. Com base nessas medidas temos o critério: DIC = D̄ + ρˆD , onde ρD
corresponde ao número efetivo de parâmetros, ρD = Eθ|y {D(θ)} − D(Eθ|y {θ}). E os critérios
[ = D̄ + 2ϑ e EBIC
[ = D̄ + ϑ log(n), onde ϑ corresponde ao número de parâmetros do
EAIC
modelo. Pelos três critérios, o melhor ajuste é considerado pela menor estatística.
Outro critério é considerado com base no CPOi = p(yi |y(−i) ), que pode ser estimado por
o−1
n
1
d i = 1 ∑M
, e com ele é calculada a medida a log-pseudo verossimilhança
CPO
M j=1 f (yi |θ( j) )
d i ), em que o melhor ajuste é considerado pela maior esmarginal, LMPL = ∑n = log(CPO
i=1
tatística.
A análise de resíduos pode ser feita com base nos resíduos Bayesianos padronizados sugeridos por Paolino et al. (2003),
yi − E(yi |y)
,
ri = p
Var(yi |y)
i = 1 . . . , n.
Utilizaremos medidas de influência para modelos de regressão Bayesianos (ver Peng e Dey,
1995).
Para a análise de diagnóstico considerando deleção de casos, consideremos a função de
perturbação introduzida por Weiss (1996). Seja então π[θ|y(−i) ] e π[θ|y] as distribuições a posteriori de θ sem a i-ésima observação e com todos os dados, respectivamente, então a função de
perturbação é definida por
π[θ|y(−i) ]
.
mi (θ) =
π[θ|y]
Além disso, consideraremos a medida de divergência-g entre duas densidades π1 e π2 avaliada em θ sugerida por Csiszár (1967), que é dada por
π1 (θ)
dg (π1 , π2 ) = Eθ|y g
,
π2 (θ)
onde que g(.) é uma função convexa tal que g(1) = 0. É possível obter algumas medidas de
divergências específicas, considerando particulares funções g(.). Por exemplo:
• Divergência de Kullback-Leibler - g(π1 , π2 ) = − log ππ21 ;
4
• Distância-χ2 - g(π1 , π2 ) =
4
π1
π2
−1
2
.
Resultados e discussões
A partir de estudos de simulação e aplicações a dados reais podemos notar a forte competitividade entre os modelos de regressão beta inflacionado e os modelos tobit duplamente
censurado e inflacionado para modelagem de dados contínuos em [0, 1], ressaltando que os
modelos podem ser facilmente descolados para qualquer intervalo fechado [a, b].
O modelo tobit mostrou-se superior ao modelo beta inflacionado na presença de dados próximos da borda [0, 1], uma vez que a distribuição beta possui restrições em sua densidade para
os valores que se aproximam das extremidade do intervalo. Com isso, as observações próximas
as extremidades apresentam influência acima da desejada na estimação dos parâmetros e em
alguns cados podendo trazer problemas de identificabilidade na função de verossimilhança.
Outra vantagem do modelo tobit é a possibilidade de interpretação dos valores extremos tanto
como inflação, como também podem ser interpretados como censura.
Referências
Aitchison, J. (1982). The statistical analysis of compositional data. Jornal of Royal Statistic Societ.
Series B (Methodological) 44(2), 139–177.
Csiszár, I. (1967). Information-type measures of diference of probability distributions and indirect observations. Studia Scientiarum Mathematicarum Hungarica 2, 299–318.
Ferrari, S. e Cribari-Neto, F. (2004). Beta regression for modeling rates and proportions. Jornal of
Applied Statistics 10, 1–18.
Moulton, L. e Halsey, N. (1995). A mixture model with detection limits for regression analyses of
antibody response to vaccine. Biometrics 51, 1570–78.
Ospina, R. (2008). Modelos de regressão beta inflacionados. Ph. D. thesis, Universidade de São Paulo,
Brasil.
Paolino, C., Amaral, M. e Murteira, B. (2003). Estatística Bayesiana. Fundação Calouste Gulbenkian.
Peng, F. e Dey, D. (1995). Bayesian analysis of outlier problems using divergence measures. The
Canadian Journal of Statistics 27, 859–870.
Pewsey, A., Gómez, H. e Bolfarine, H. (2012). Likelihood-based inference for distributions of fractional
order statistics. Test 21, 775–789.
Weiss, R. (1996). An approach to bayesian sensitivity analysis. Journal of the Royal Statistical Society:
Series B 58, 739–750.
5