Modelos de regressão Bayesianos para análise de taxas e proporções contínuas Leandro Tavares Correia 1 3 Heleno Bolfarine 1 Cibele Queiroz da-Silva 2 1 Introdução A modelagem estatística para dados contínuos de proporções tem sido o foco de muitos estudos. Alguns exemplos de dados contínuos de proporções incluem taxa de desemprego, mortalidade por acidentes de trânsito, etc. Modelos de regressão lineares e não lineares usuais não são adequados para este tipo de conjunto de dados. Algumas diferentes alternativas têm sido propostas para modelar proporções contínuas com a possibilidade de relacioná-las a variáveis exógenas, como o uso de transformações na variável resposta (vide Aitchison, 1982), censura na variável resposta ou assumindo uma distribuição para a variável resposta que está restrita a intervalos limitados. Os modelos de regressão tobit e regressão beta são de interesse particular deste trabalho. Dados de proporções pode incluir uma quantidade não desprezível de zeros e/ou uns. Nesta situação, a distribuição beta em si não providencia uma descrição satisfatória dos dados, uma vez que ela não permite probabilidade positiva para nenhum ponto do intervalo [0, 1]. Para contornar este problema, Ospina (2008) propôs uma versão com mistura contínua-discreta do modelo apresentado por Ferrari e Cribari-Neto (2004) , utilizando a distribuição beta para definir a componente contínua da distribuição e a componente discreta é definida por uma Bernoulli ou uma distribuição degenerada em zero ou um. Para o modelo tobit duplamente censurado, inflações de zeros e uns também podem ser consideradas utilizando a extensão do modelo de misturas proposto por Moulton e Halsey (1995), onde os valores extremos podem vir de uma componente discreta ou de uma censura da componente contínua. Neste modelo é considerado que os excessos de zeros e/ou uns são provenientes de um modelo do tipo Bernoulli que liga os possíveis excessos de zeros e/ou uns a um grupo de covariáveis que podem influenciar a probabilidade de sua ocorrência e a resposta contínua é modelada utilizando a distribuição normal com função de ligação como utilizado usualmente na classe de modelo lineares generalizados. Extensões dos modelos tobit duplamente censurados envolvendo assimetria, utilizando a classe de distribuições potência (Pewsey et al., 2012) também serão apresentadas. 1 IME - USP. 3 Agradecimento 2 Est ao CNPq pelo apoio financeiro. e-mail: [email protected] - UnB. 1 As vantagens da análise Bayesiana são bem conhecidas e incluem a elicitação de conhecimentos a priori, evitam o uso de aproximações assintóticas e a estimação prática de funções dos parâmetros por meio de técnicas de MCMC. Também discutimos algumas técnicas Bayesianas de diagnóstico como resíduos Bayesianos (Paolino et al., 2003) e medidas de influência baseadas na divergência-q como porposta por Peng e Dey (1995). 2 Modelos de regressão Para a análise Bayesiana de modelos de regressão, considerando θ o conjunto de parâmetros e π(θ) a priori conjunta, estamos intressados em obter a distribuição a posteriori π(θ|y), onde π(θ|y) ∝ L(θ; y) × π(θ). Como nos modelos abaixo as distribuições a posteriori não possuem forma fechama, utilizaremos procedimentos MCMC. 2.1 O modelo tobit normal duplamente censurado Vamos considerar a seguinte composição dos dados para o modelo tobit duplamente censurado e inflacionado de zeros e uns: yi = 0, com probabilidade δ0i ; yi = 1, com probabilidade δ1i ; e com probabilidade 1 − δ0i − δ1i , y∗ , i yi = 0, 1, se 0 < y∗i < 1; se y∗i ≤ 0; (1) se y∗i ≥ 1; onde i = 1, . . . , n e y∗i ∼ N(µi , σ2 ). Considerando as variáveis auxiliares: I0i = 1{0} (yi ) e I1i = 1{1} (yi ), temos para y = (y1 , . . . , yn )0 , a função de verossimilhança escrita como: I0i −µi L(µ, σ , δ0 , δ1 ; y) = ∏ δ0i + (1 − δ0i − δ1i )Φ σ i=1 I1i 1 − µi × δ1i + (1 − δ0i − δ1i ) 1 − Φ σ 1−I0i −I1i 1 yi − µi × (1 − δ0i − δ1i ) φ , σ σ 2 n onde Φ(.) e φ(.) correspondem a função de distribuição acumulada e função de densidade da distribuição normal padrão. 2 2.2 Modelo tobit normal-potência duplamente censurada e inflacionada de zeros e/ou uns Com o intuito de incorporar aumentar a flexibilidade do modelo tobit normal incorporando assimetria, utilizamos o modelo tobit normal-potência, onde a variável latente do modelo tobit, y∗i segue uma distribuição NP(α, µi , σ2 ) da classe de distribuições potência explorada por Pewsey et al. (2012). Neste caso, tomando Yi∗ ∼ NP(α, µi , σ2 ) temos que sua função de distribuição acumulada é dada por F(y∗i ) = Φ y∗i − µi σ α µi , y∗i ∈ R, , α, σ ∈ R+ , i = 1, . . . , n. E derivando a função acima obtemos a função de densidade NP(α, µi , σ2 ), dada por f (y∗i ) = ∗ ∗ yi − µi yi − µi α−1 α φ Φ , σ σ σ µi , y∗i ∈ R, α, σ ∈ R+ . A função de verossimilhança segue da mesma forma que o caso tobit normal, substituindo Φ(.) por F(.) e φ(.) por f (.). 2.3 Modelo beta inflacionado de zeros e uns A variável explicativa yi segue a distribuição BIZU(µ, φ) apresentada em Ospina (2008). Considere novamente as variáveis indicadoras auxiliares I0i e I1i apresentadas anteriormente, fY (yi ; µi , φ) a função de densidade B (µi , φ) (Ferrari e Cribari-Neto, 2004), δ0i = P(yi = 0), δ1i = P(yi = 1) e 1 − δ0i − δ1i = P(yi ∈ (0, 1)). A função de verossimilhança segue da forma: L(µ, φ, δ0 , δ1 ; y) = L1 (δ0 , δ1 )L2 (µ, φ), onde temos: n L1 (δ0 , δ1 ) = ∏ δI0i0i δI1i1i (1 − δ0i − δ1i)1−I0i−I1i , i=1 L2 (µ, φ) = ∏ fY (yi ; µi , φ). i:yi ∈(0,1) 2.4 Função de ligação Para a análise de regressão dos modelos, vamos considerar as funções de ligação g(µi ) e H(δ0i , δ1i ) = (h0 (δ0i , δ1i ), h1 (δ0i , δ1i )), tais que: µi g(µi ) = log 1 − µi 3 = xTi β = ηi δ0i = vTi ρ = ζ0i h0 (δ0i , δ1i ) = log 1 − δ0i − δ1i δ1i h1 (δ0i , δ1i ) = log = zTi γ = ζ1i . 1 − δ0i − δ1i 3 Métodos Bayesianos de diagnóstico Para critério de comparação entre os modelos, considere θ o conjunto de parâmetros, D(θ) = −2 ∑ni=1 f (yi |θ), θ( j) como o j-ésimo elemento da amostra a posteriori de θ, j ∈ {1, . . . , M}, e ( j) d D̄ = ∑M j=1 D(θ )/M. Com base nessas medidas temos o critério: DIC = D̄ + ρˆD , onde ρD corresponde ao número efetivo de parâmetros, ρD = Eθ|y {D(θ)} − D(Eθ|y {θ}). E os critérios [ = D̄ + 2ϑ e EBIC [ = D̄ + ϑ log(n), onde ϑ corresponde ao número de parâmetros do EAIC modelo. Pelos três critérios, o melhor ajuste é considerado pela menor estatística. Outro critério é considerado com base no CPOi = p(yi |y(−i) ), que pode ser estimado por o−1 n 1 d i = 1 ∑M , e com ele é calculada a medida a log-pseudo verossimilhança CPO M j=1 f (yi |θ( j) ) d i ), em que o melhor ajuste é considerado pela maior esmarginal, LMPL = ∑n = log(CPO i=1 tatística. A análise de resíduos pode ser feita com base nos resíduos Bayesianos padronizados sugeridos por Paolino et al. (2003), yi − E(yi |y) , ri = p Var(yi |y) i = 1 . . . , n. Utilizaremos medidas de influência para modelos de regressão Bayesianos (ver Peng e Dey, 1995). Para a análise de diagnóstico considerando deleção de casos, consideremos a função de perturbação introduzida por Weiss (1996). Seja então π[θ|y(−i) ] e π[θ|y] as distribuições a posteriori de θ sem a i-ésima observação e com todos os dados, respectivamente, então a função de perturbação é definida por π[θ|y(−i) ] . mi (θ) = π[θ|y] Além disso, consideraremos a medida de divergência-g entre duas densidades π1 e π2 avaliada em θ sugerida por Csiszár (1967), que é dada por π1 (θ) dg (π1 , π2 ) = Eθ|y g , π2 (θ) onde que g(.) é uma função convexa tal que g(1) = 0. É possível obter algumas medidas de divergências específicas, considerando particulares funções g(.). Por exemplo: • Divergência de Kullback-Leibler - g(π1 , π2 ) = − log ππ21 ; 4 • Distância-χ2 - g(π1 , π2 ) = 4 π1 π2 −1 2 . Resultados e discussões A partir de estudos de simulação e aplicações a dados reais podemos notar a forte competitividade entre os modelos de regressão beta inflacionado e os modelos tobit duplamente censurado e inflacionado para modelagem de dados contínuos em [0, 1], ressaltando que os modelos podem ser facilmente descolados para qualquer intervalo fechado [a, b]. O modelo tobit mostrou-se superior ao modelo beta inflacionado na presença de dados próximos da borda [0, 1], uma vez que a distribuição beta possui restrições em sua densidade para os valores que se aproximam das extremidade do intervalo. Com isso, as observações próximas as extremidades apresentam influência acima da desejada na estimação dos parâmetros e em alguns cados podendo trazer problemas de identificabilidade na função de verossimilhança. Outra vantagem do modelo tobit é a possibilidade de interpretação dos valores extremos tanto como inflação, como também podem ser interpretados como censura. Referências Aitchison, J. (1982). The statistical analysis of compositional data. Jornal of Royal Statistic Societ. Series B (Methodological) 44(2), 139–177. Csiszár, I. (1967). Information-type measures of diference of probability distributions and indirect observations. Studia Scientiarum Mathematicarum Hungarica 2, 299–318. Ferrari, S. e Cribari-Neto, F. (2004). Beta regression for modeling rates and proportions. Jornal of Applied Statistics 10, 1–18. Moulton, L. e Halsey, N. (1995). A mixture model with detection limits for regression analyses of antibody response to vaccine. Biometrics 51, 1570–78. Ospina, R. (2008). Modelos de regressão beta inflacionados. Ph. D. thesis, Universidade de São Paulo, Brasil. Paolino, C., Amaral, M. e Murteira, B. (2003). Estatística Bayesiana. Fundação Calouste Gulbenkian. Peng, F. e Dey, D. (1995). Bayesian analysis of outlier problems using divergence measures. The Canadian Journal of Statistics 27, 859–870. Pewsey, A., Gómez, H. e Bolfarine, H. (2012). Likelihood-based inference for distributions of fractional order statistics. Test 21, 775–789. Weiss, R. (1996). An approach to bayesian sensitivity analysis. Journal of the Royal Statistical Society: Series B 58, 739–750. 5