FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 • Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram extensões dos modelos lineares clássicos e permitem analisar a relação funcional entre um conjunto de variáveis independentes e uma variável dependente com distribuição pertencente à família exponencial de distribuições. 2 • Uma variável aleatória Y tem distribuição pertencente à família exponencial uni-paramétrica se sua função (densidade) de probabilidade puder ser expressa na forma: fY ( y ;θ ) = h( y ) exp{η (θ ) t ( y ) − b(θ ) }, (1) sendo θ um parâmetro escalar e h(⋅),η (⋅), t (⋅), b(⋅) são funções reais conhecidas. • Diversas distribuições conhecidas podem ser expressas conforme (1), sendo, portanto, pertencentes à família exponencial uni-paramétrica: binomial, Poisson, exponencial, geométrica, normal, gama e normal inversa, dentre outras (as três últimas com a suposição de que um dos parâmetros é conhecido). 3 • A família exponencial multi-paramétrica é uma generalização da versão uni-paramétrica, caracterizada por uma função (densidade) de probabilidade da forma: k fY ( y ; θ ) = h( y ) exp ∑ηi (θ ) ti ( y ) − b(θ ) , i =1 sendo θ um vetor de parâmetros e h(⋅),ηi (⋅), ti (⋅), b(⋅) funções reais conhecidas • Diversas distribuições conhecidas são pertencentes à família exponencial multi-paramétrica, dentre elas: Normal, gama, beta, Weibull e multinomial. 4 • A forma canônica da família exponencial é definida a partir de (1), quando η (θ ) e t ( y ) são funções do tipo identidade, produzindo: fY ( y ;θ ) = h( y ) exp{θ y − b(θ ) }, (2) configurando um sub-conjunto da família apresentada em (1). • Para um modelo linear generalizado, admite-se a família exponencial uni-paramétrica, na forma canônica, com a introdução de um parâmetro φ > 0 , associado à dispersão da distribuição: y θ − b(θ ) fY ( y ;θ ) = exp + c( y, φ ) , φ (3) em que θ e φ são parâmetros escalares, denominados parâmetro canônico e parâmetro de dispersão, respectivamente, enquanto b(⋅) e c(⋅) são funções reais conhecidas. 5 • A introdução de φ , conforme descrito em (3), permite contemplar algumas distribuições biparamétricas pertencentes à família exponencial. • Dentre as distribuições uni-paramétricas pertencentes à família de distribuição apresentada em (3) podemos destacar a distribuição binomial (com n conhecido) e a distribuição de Poisson; • Já entre as distribuições bi-paramétricas podemos destacar a distribuição normal, a gama, a binomial negativa e a normal inversa. • Modelos lineares generalizados para as distribuições relacionadas nos dois tópicos anteriores serão apresentados. Diversas extensões dos MLG’s (inclusive para outras distribuições) estão disponíveis. 6 Nota 1 – A expressão apresentada em (3) pode ser apresentada numa forma mais geral substituindo φ por a(φ ), sendo a(⋅) uma função real conhecida. A título de ilustração, pode-se ter: a(φ ) = φ , ω em que ω desempenha o papel de um peso associado a cada observação. Exercício 1 - Cada exemplo apresentado na sequência refere-se a uma distribuição que pode ser expressa conforme (3). Fica como exercício identificar os parâmetros canônicos e de dispersão (θ e φ ), além das funções b(⋅) e c(⋅) . Nota 2 – Recomendo bastante cuidado quanto à diferença entre parametrizações e notações n as referências bibliográficas sugeridas. 7 Exemplo 1 – Seja Y uma variável aleatória que representa a proporção de sucessos em n ensaios de Bernoulli com mesma probabilidade ( π ), ou seja: Y= X , tal que X ~ Binomial (n, π ) n Neste caso, verifica-se facilmente que Y é uma variável aleatória discreta, com sua massa de probabilidades sobre o conjunto {0,1 n , 2 n,..., (n − 1) n ,1}, com E (Y ) = µ = π , Var (Y ) = π (1 − π ) n e função de probabilidades: n n −ny fY ( y; n, µ ) = µ ny (1 − µ ) , y = 0, 1 n , 2 n , K , (n − 1) n , 1 ; n ∈ N ∗ ; 0 < µ < 1. ny Nota – A distribuição binomial é uma distribuição de probabilidades discreta, usada habitualmente para modelar a contagem de “sucessos” em n realizações independentes e igualmente prováveis de um experimento (fenômeno) com dois desfechos possíveis, ou com um número maior de resultados, classificados em duas categorias. 8 2 3 4 5 0.6 1 2 3 4 5 0 2 3 n=10,π=0,10 n=10,π=0,50 n=10,π=0,90 6 8 10 5 8 10 0.3 0.0 0.1 0.2 P(X=x) 0.3 0.0 0.1 0.2 P(X=x) 0.3 0.2 4 4 0.4 x 0.4 x 0.1 2 1 x 0.0 0 0.4 0.0 0 0.4 1 0.2 P(X=x) 0.4 0.0 0.2 P(X=x) 0.4 0.2 0.0 P(X=x) 0 P(X=x) n=5,π=0,90 0.6 n=5,π=0,50 0.6 n=5,π=0150 0 2 4 x 6 8 10 x 0 2 4 6 x Figura 1 – Gráficos das funções de probabilidades para a distribuição binomial, considerando diferentes valores para n e π . 9 Exemplo 2 – Seja Y uma variável aleatória com distribuição de Poisson de parâmetro µ. e−µ µ y f Y ( y; µ ) = , y = 0,1,2,... ; µ > 0. y! Nota – A distribuição de Poisson é uma distribuição de probabilidades discreta, usada com frequência para modelar a contagem de ocorrências de determinado evento em unidades de tempo ou espaço. 10 0 5 10 15 20 0.32 0.00 0.08 0.16 P(X=x) 0.24 0.32 0.24 0.00 0.08 0.16 P(X=x) 0.00 0.08 0.16 P(X=x) 0.24 0.32 0.40 µ=10 0.40 µ=5 0.40 µ=1 0 5 10 x 15 20 x 0 5 10 15 20 x Figura 2 – Gráficos das funções de probabilidades para a distribuição Poisson, considerando diferentes valores para µ . 11 Exemplo 3 – Seja Y uma variável aleatória com distribuição Normal de parâmetros µ e σ 2 : ( ) f Y y; µ , σ 2 = 1 2 ( exp− y − µ ) , σ > 0. 2 2σ 2πσ 2 1 Nota – A distribuição Normal é uma distribuição de probabilidades contínua que fundamenta a teoria de modelos lineares. Dentre suas principais propriedades, destacam-se sua simetria, seu suporte no conjunto dos reais e o fato de locação e dispersão serem determinadas por parâmetros distintos. 12 0.4 2 0.2 0.0 0.1 fX(x) 0.3 µ=-3, σ =1 2 µ=0, σ =1 2 µ=3, σ =1 -6 -4 -2 0 2 4 6 0.0 0.1 0.2 0.3 0.4 fX(x) x (a) 2 µ=0, σ =1 2 µ=0, σ =4 2 µ=0, σ =9 -6 -4 -2 0 2 4 6 x (b) Figura 3 – Gráficos das funções densidade de probabilidades para a distribuição Normal, considerando diferentes valores para µ e σ 2 . 13 Exemplo 4 – Seja Y uma variável aleatória com distribuição Gama de média µ e parâmetro de forma ν: ν ν ∞ x −1 − t µ yν fY ( y; µ ,ν ) = yν −1 exp− , y > 0 , µ > 0 , ν > 0 , sendo Γ ( x ) = t e dt , x > 0 . ∫ 0 Γ(ν ) µ Nota – Talvez você se lembre da distribuição Gama sob outras parametrizações. Uma usual é a seguinte: β α α −1 − βy f ( y; α , β ) = y e , y > 0 , α > 0 , β > 0. Γ(α ) Repare a identidade das duas distribuições se tomarmos µ = α β e ν = α . Nota – A distribuição Gama é uma distribuição de probabilidades contínua, com suporte no conjunto dos reais positivos, que serve para a modelagem probabilística de diversas variáveis aleatórias com distribuição assimétrica. 14 1.2 µ=1, ν=2 µ=2, ν=2 µ=4, ν=2 µ=1, ν=2 µ=1, ν=1 µ=1, ν=0,5 1.0 0.6 0.8 fX(x) fX(x) 0.4 0.6 0.4 0.2 0.2 0.0 0.0 0 1 2 3 4 5 0 x 2 4 6 8 10 x Figura 4 – Gráficos das funções densidade de probabilidades para a distribuição Gama, considerando diferentes valores para µ e ν . 15 Exemplo 5 – Seja Y uma variável aleatória com distribuição Normal Inversa de média µ e parâmetro de forma λ, denotada por Y ~ NI (µ , λ ) , com função densidade de probabilidade dada por: f Y ( y; µ , φ ) = λ ( y − µ )2 exp− , y > 0 , µ > 0 . 2 3 2 y µ 2πy λ1 2 Nota – A distribuição Normal Inversa é uma distribuição de probabilidades contínua, com suporte no conjunto dos reais positivos, que também serve para a modelagem probabilística de variáveis aleatórias com distribuição assimétrica. Apresenta algumas propriedades distintas com relação à distribuição Gama, como o fato de sua variância aumentar a uma taxa mais rápida conforme sua média. Além disso, sua assimetria aumenta com o valor de µ e diminui com o aumento de λ. 16 2.0 µ=1, λ=1 µ=1, λ=0,5 µ=0,5, λ=1 µ=2, λ=0,5 µ=0,5, λ=2 fX(x) 1.5 1.0 0.5 0.0 0 1 2 3 4 5 x Figura 4 – Gráficos das funções densidade de probabilidades para a distribuição Normal Inversa, considerando diferentes valores para µ e λ . 17 Exemplo 6 – Seja Y uma variável aleatória com distribuição binomial negativa de parâmetros µ e k, denotada por Y ~ BN (µ , k ) , com função de probabilidade dada por: Γ(k + y ) µ y k k fY ( y ; µ , k ) = , y = 0,1,2,...; k > 0; µ > 0. Γ(k ) y! (µ + k )k + y Nota – A distribuição Binomial Negativa é uma distribuição de probabilidades discreta que é usualmente aplicada à modelagem de variáveis referentes a contagens. É uma alternativa à distribuição de Poisson quando a variância da distribuição aumenta mais rapidamente conforme aumenta a média. 18 k=2;µ=10 0.3 0.3 0.2 0.2 0.2 P(X=x) 0.3 0.1 0.1 0.1 0.0 0.0 0.0 0 10 20 30 40 50 0 4 8 12 16 20 0 12 x k=2;µ=5 k=5;µ=5 k=10;µ=5 0.3 0.2 0.2 0.2 P(X=x) 0.3 0.1 0.1 0.1 0.0 0.0 0.0 10 8 x 0.3 0 4 x P(X=x) P(X=x) k=2;µ=5 P(X=x) P(X=x) k=2;µ=2 20 30 40 50 0 4 8 x 12 x 16 20 0 4 8 12 x Figura 6 – Gráficos da distribuição de probabilidades Binomial Negativa. 19 16 20 16 20 Algumas propriedades da família exponencial de distribuições • Considere uma variável aleatória cuja função (densidade) de probabilidades pode ser expressa na forma: θ y − b(θ ) fY ( y ;θ , φ ) = exp + c ( y; φ ) . φ Decorrem as seguintes propriedades: • A função geradora de momentos de Y é dada por: b(φ t + θ ) − b(θ ) M Y (t ;θ ;φ ) = exp ; φ 20 • A média e a variância de Y são dadas, respectivamente, por: d b(θ ) d 2b(θ ) dµ (θ ) E (Y ) = µ = = b′(θ ) ; Var (Y ) = φ = ' ' ( ) = . b φ θ φ dθ dθ dθ2 Nota - Repare que a variância de Y é fatorada em dois componentes: o primeiro corresponde a um parâmetro de dispersão (φ ) , enquanto o segundo representa a dependência da variância com relação à média da distribuição V (µ ) = dµ , ao qual chamamos função de variância. dθ • A distribuição de Y é univocamente determinada pela função de variância (ou seja, cada função de variância é única para uma particular distribuição). 21 • Para uma amostra aleatória Y1 , Y2 ,..., Yn de fY ( y;θ , φ ) . A distribuição conjunta fica dada por: θ y − b(θ ) fY ( y;θ , φ ) = ∏ fY ( yi ;θ , φ ) = ∏ exp i + c( yi ;φ ) = φ i =1 i =1 n n n y − nb ( ) θ θ ∑ i n i =1 = exp exp∑ c( yi ;φ ), φ i =1 que, pelo teorema da fatoração de Neyman-Fisher, indica a existência de uma estatística suficiente para θ ( ∑i =1 yi ), se φ for conhecido. n • Como consequência, dois conjuntos de dados produzindo igual valor para a estatística suficiente produzirão inferências idênticas baseadas na verossimilhança (trataremos disso mais adiante). Exercício 2 – Para cada distribuição dos exemplos 1-6, determine a média, a variância e a função de variância. Avalie a forma como a variância está relacionada à média da distribuição com base em V (µ ) . 22