Aula 4 - Familia Exponencial de Distribuições

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES
1
• Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972),
configuram extensões dos modelos lineares clássicos e permitem analisar a relação funcional
entre um conjunto de variáveis independentes e uma variável dependente com distribuição
pertencente à família exponencial de distribuições.
2
• Uma variável aleatória Y tem distribuição pertencente à família exponencial uni-paramétrica se sua
função (densidade) de probabilidade puder ser expressa na forma:
fY ( y ;θ ) = h( y ) exp{η (θ ) t ( y ) − b(θ ) },
(1)
sendo θ um parâmetro escalar e h(⋅),η (⋅), t (⋅), b(⋅) são funções reais conhecidas.
• Diversas distribuições conhecidas podem ser expressas conforme (1), sendo, portanto, pertencentes
à família exponencial uni-paramétrica: binomial, Poisson, exponencial, geométrica, normal, gama e
normal inversa, dentre outras (as três últimas com a suposição de que um dos parâmetros é
conhecido).
3
• A família exponencial multi-paramétrica é uma generalização da versão uni-paramétrica,
caracterizada por uma função (densidade) de probabilidade da forma:
 k

fY ( y ; θ ) = h( y ) exp ∑ηi (θ ) ti ( y ) − b(θ )  ,
 i =1

sendo θ um vetor de parâmetros e h(⋅),ηi (⋅), ti (⋅), b(⋅) funções reais conhecidas
• Diversas distribuições conhecidas são pertencentes à família exponencial multi-paramétrica, dentre
elas: Normal, gama, beta, Weibull e multinomial.
4
• A forma canônica da família exponencial é definida a partir de (1), quando η (θ ) e t ( y ) são funções do
tipo identidade, produzindo:
fY ( y ;θ ) = h( y ) exp{θ y − b(θ ) },
(2)
configurando um sub-conjunto da família apresentada em (1).
• Para um modelo linear generalizado, admite-se a família exponencial uni-paramétrica, na forma
canônica, com a introdução de um parâmetro φ > 0 , associado à dispersão da distribuição:
 y θ − b(θ )

fY ( y ;θ ) = exp
+ c( y, φ )  ,
φ


(3)
em que θ e φ são parâmetros escalares, denominados parâmetro canônico e parâmetro de dispersão,
respectivamente, enquanto b(⋅) e c(⋅) são funções reais conhecidas.
5
• A introdução de φ , conforme descrito em (3), permite contemplar algumas distribuições biparamétricas pertencentes à família exponencial.
• Dentre as distribuições uni-paramétricas pertencentes à família de distribuição apresentada em (3)
podemos destacar a distribuição binomial (com n conhecido) e a distribuição de Poisson;
• Já entre as distribuições bi-paramétricas podemos destacar a distribuição normal, a gama, a
binomial negativa e a normal inversa.
• Modelos lineares generalizados para as distribuições relacionadas nos dois tópicos anteriores serão
apresentados. Diversas extensões dos MLG’s (inclusive para outras distribuições) estão disponíveis.
6
Nota 1 – A expressão apresentada em (3) pode ser apresentada numa forma mais geral substituindo φ
por a(φ ), sendo a(⋅) uma função real conhecida. A título de ilustração, pode-se ter:
a(φ ) =
φ
,
ω
em que ω desempenha o papel de um peso associado a cada observação.
Exercício 1 - Cada exemplo apresentado na sequência refere-se a uma distribuição que pode ser
expressa conforme (3). Fica como exercício identificar os parâmetros canônicos e de dispersão (θ e φ ),
além das funções b(⋅) e c(⋅) .
Nota 2 – Recomendo bastante cuidado quanto à diferença entre parametrizações e notações n as
referências bibliográficas sugeridas.
7
Exemplo 1 – Seja Y uma variável aleatória que representa a proporção de sucessos em n ensaios de
Bernoulli com mesma probabilidade ( π ), ou seja:
Y=
X
, tal que X ~ Binomial (n, π )
n
Neste caso, verifica-se facilmente que Y é uma variável aleatória discreta, com sua massa de
probabilidades sobre o conjunto {0,1 n , 2 n,..., (n − 1) n ,1}, com E (Y ) = µ = π , Var (Y ) = π (1 − π ) n e função
de probabilidades:
n
n −ny
fY ( y; n, µ ) =   µ ny (1 − µ ) , y = 0, 1 n , 2 n , K , (n − 1) n , 1 ; n ∈ N ∗ ; 0 < µ < 1.
 ny 
Nota – A distribuição binomial é uma distribuição de probabilidades discreta, usada habitualmente
para modelar a contagem de “sucessos” em n realizações independentes e igualmente prováveis de um
experimento (fenômeno) com dois desfechos possíveis, ou com um número maior de resultados,
classificados em duas categorias.
8
2
3
4
5
0.6
1
2
3
4
5
0
2
3
n=10,π=0,10
n=10,π=0,50
n=10,π=0,90
6
8
10
5
8
10
0.3
0.0
0.1
0.2
P(X=x)
0.3
0.0
0.1
0.2
P(X=x)
0.3
0.2
4
4
0.4
x
0.4
x
0.1
2
1
x
0.0
0
0.4
0.0
0
0.4
1
0.2
P(X=x)
0.4
0.0
0.2
P(X=x)
0.4
0.2
0.0
P(X=x)
0
P(X=x)
n=5,π=0,90
0.6
n=5,π=0,50
0.6
n=5,π=0150
0
2
4
x
6
8
10
x
0
2
4
6
x
Figura 1 – Gráficos das funções de probabilidades para a distribuição binomial, considerando
diferentes valores para n e π .
9
Exemplo 2 – Seja Y uma variável aleatória com distribuição de Poisson de parâmetro µ.
e−µ µ y
f Y ( y; µ ) =
, y = 0,1,2,... ; µ > 0.
y!
Nota – A distribuição de Poisson é uma distribuição de probabilidades discreta, usada com frequência
para modelar a contagem de ocorrências de determinado evento em unidades de tempo ou espaço.
10
0
5
10
15
20
0.32
0.00
0.08
0.16
P(X=x)
0.24
0.32
0.24
0.00
0.08
0.16
P(X=x)
0.00
0.08
0.16
P(X=x)
0.24
0.32
0.40
µ=10
0.40
µ=5
0.40
µ=1
0
5
10
x
15
20
x
0
5
10
15
20
x
Figura 2 – Gráficos das funções de probabilidades para a distribuição Poisson, considerando
diferentes valores para µ .
11
Exemplo 3 – Seja Y uma variável aleatória com distribuição Normal de parâmetros µ e σ 2 :
(
)
f Y y; µ , σ 2 =
 1
2
(
exp−
y − µ ) , σ > 0.
2
 2σ

2πσ 2
1
Nota – A distribuição Normal é uma distribuição de probabilidades contínua que fundamenta a teoria
de modelos lineares. Dentre suas principais propriedades, destacam-se sua simetria, seu suporte no
conjunto dos reais e o fato de locação e dispersão serem determinadas por parâmetros distintos.
12
0.4
2
0.2
0.0
0.1
fX(x)
0.3
µ=-3, σ =1
2
µ=0, σ =1
2
µ=3, σ =1
-6
-4
-2
0
2
4
6
0.0 0.1 0.2 0.3 0.4
fX(x)
x
(a)
2
µ=0, σ =1
2
µ=0, σ =4
2
µ=0, σ =9
-6
-4
-2
0
2
4
6
x
(b)
Figura 3 – Gráficos das funções densidade de probabilidades para a distribuição Normal,
considerando diferentes valores para µ e σ 2 .
13
Exemplo 4 – Seja Y uma variável aleatória com distribuição Gama de média µ e parâmetro de forma
ν:
ν
ν 
 
∞ x −1 − t
µ
 yν 
fY ( y; µ ,ν ) =   yν −1 exp−
,
y
>
0
,
µ
>
0
,
ν
>
0
,
sendo
Γ
(
x
)
=
t e dt , x > 0 .

∫
0
Γ(ν )
µ


Nota – Talvez você se lembre da distribuição Gama sob outras parametrizações. Uma usual é a
seguinte:
β α α −1 − βy
f ( y; α , β ) =
y e , y > 0 , α > 0 , β > 0.
Γ(α )
Repare a identidade das duas distribuições se tomarmos µ = α β e ν = α .
Nota – A distribuição Gama é uma distribuição de probabilidades contínua, com suporte no conjunto
dos reais positivos, que serve para a modelagem probabilística de diversas variáveis aleatórias com
distribuição assimétrica.
14
1.2
µ=1, ν=2
µ=2, ν=2
µ=4, ν=2
µ=1, ν=2
µ=1, ν=1
µ=1, ν=0,5
1.0
0.6
0.8
fX(x)
fX(x)
0.4
0.6
0.4
0.2
0.2
0.0
0.0
0
1
2
3
4
5
0
x
2
4
6
8
10
x
Figura 4 – Gráficos das funções densidade de probabilidades para a distribuição Gama, considerando
diferentes valores para µ e ν .
15
Exemplo 5 – Seja Y uma variável aleatória com distribuição Normal Inversa de média µ e parâmetro
de forma λ, denotada por Y ~ NI (µ , λ ) , com função densidade de probabilidade dada por:
f Y ( y; µ , φ ) =
 λ ( y − µ )2 
exp−
, y > 0 , µ > 0 .
2
3
2
y
µ
2πy


λ1 2
Nota – A distribuição Normal Inversa é uma distribuição de probabilidades contínua, com suporte no
conjunto dos reais positivos, que também serve para a modelagem probabilística de variáveis aleatórias
com distribuição assimétrica. Apresenta algumas propriedades distintas com relação à distribuição
Gama, como o fato de sua variância aumentar a uma taxa mais rápida conforme sua média. Além disso,
sua assimetria aumenta com o valor de µ e diminui com o aumento de λ.
16
2.0
µ=1, λ=1
µ=1, λ=0,5
µ=0,5, λ=1
µ=2, λ=0,5
µ=0,5, λ=2
fX(x)
1.5
1.0
0.5
0.0
0
1
2
3
4
5
x
Figura 4 – Gráficos das funções densidade de probabilidades para a distribuição Normal Inversa,
considerando diferentes valores para µ e λ .
17
Exemplo 6 – Seja Y uma variável aleatória com distribuição binomial negativa de parâmetros µ e k,
denotada por Y ~ BN (µ , k ) , com função de probabilidade dada por:
Γ(k + y ) µ y k k
fY ( y ; µ , k ) =
, y = 0,1,2,...; k > 0; µ > 0.
Γ(k ) y! (µ + k )k + y
Nota – A distribuição Binomial Negativa é uma distribuição de probabilidades discreta que é
usualmente aplicada à modelagem de variáveis referentes a contagens. É uma alternativa à distribuição
de Poisson quando a variância da distribuição aumenta mais rapidamente conforme aumenta a média.
18
k=2;µ=10
0.3
0.3
0.2
0.2
0.2
P(X=x)
0.3
0.1
0.1
0.1
0.0
0.0
0.0
0
10
20
30
40
50
0
4
8
12
16
20
0
12
x
k=2;µ=5
k=5;µ=5
k=10;µ=5
0.3
0.2
0.2
0.2
P(X=x)
0.3
0.1
0.1
0.1
0.0
0.0
0.0
10
8
x
0.3
0
4
x
P(X=x)
P(X=x)
k=2;µ=5
P(X=x)
P(X=x)
k=2;µ=2
20
30
40
50
0
4
8
x
12
x
16
20
0
4
8
12
x
Figura 6 – Gráficos da distribuição de probabilidades Binomial Negativa.
19
16
20
16
20
Algumas propriedades da família exponencial de distribuições
• Considere uma variável aleatória cuja função (densidade) de probabilidades pode ser expressa na
forma:
 θ y − b(θ )

fY ( y ;θ , φ ) = exp
+ c ( y; φ )  .
φ


Decorrem as seguintes propriedades:
• A função geradora de momentos de Y é dada por:
 b(φ t + θ ) − b(θ )
M Y (t ;θ ;φ ) = exp
;
φ


20
• A média e a variância de Y são dadas, respectivamente, por:
d b(θ )
d 2b(θ )
dµ (θ )
E (Y ) = µ =
= b′(θ ) ; Var (Y ) = φ
=
'
'
(
)
=
.
b
φ
θ
φ
dθ
dθ
dθ2
Nota - Repare que a variância de Y é fatorada em dois componentes: o primeiro corresponde a um
parâmetro de dispersão (φ ) , enquanto o segundo representa a dependência da variância com
relação à média da distribuição V (µ ) =
dµ
, ao qual chamamos função de variância.
dθ
• A distribuição de Y é univocamente determinada pela função de variância (ou seja, cada função de
variância é única para uma particular distribuição).
21
• Para uma amostra aleatória Y1 , Y2 ,..., Yn de fY ( y;θ , φ ) . A distribuição conjunta fica dada por:
 θ y − b(θ )

fY ( y;θ , φ ) = ∏ fY ( yi ;θ , φ ) = ∏ exp i
+ c( yi ;φ )  =
φ


i =1
i =1
n
n
 n

y
−
nb
(
)
θ
θ
 ∑ i

n

i =1
= exp
 exp∑ c( yi ;φ ),
φ
i =1





que, pelo teorema da fatoração de Neyman-Fisher, indica a existência de uma estatística suficiente
para θ ( ∑i =1 yi ), se φ for conhecido.
n
• Como consequência, dois conjuntos de dados produzindo igual valor para a estatística suficiente
produzirão inferências idênticas baseadas na verossimilhança (trataremos disso mais adiante).
Exercício 2 – Para cada distribuição dos exemplos 1-6, determine a média, a variância e a função de
variância. Avalie a forma como a variância está relacionada à média da distribuição com base em V (µ ) .
22