An introduction to dependence and copula theory - Imecc

Tipos de Dependência entre Variáveis Aleatórias e Teoria
de Cópulas
Autor: Márcio Luis Lanfredi Viola
Supervisora: Profa. Dra. Verónica Andrea González-López
Instituto de Matemática, Estatística e Computação Científica (IMECC-UNICAMP)
Dezembro/2009
Sumário
1 Tipos de Dependência entre Variáveis Aleatórias
1
1.1
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Funções Totalmente Positivas e Totalmente Negativas . . . . . . . . . . . . .
2
1.3
Dependência do Quadrante Positivo (e Negativo) e do Octante . . . . . . .
9
1.3.1
Variáveis Aleatórias Estocasticamente Crescentes e Decrescentes,
Dependência Crescente na Cauda à Direita e Dependência Decrescente na Cauda à Esquerda
. . . . . . . . . . . . . . . . . . . . . . . . .
12
1.4
Variáveis Aleatórias Negativamente Associadas . . . . . . . . . . . . . . . . .
17
1.5
Implicações e Contra-exemplos envolvendo os Conceitos de Dependência .
19
1.6
Tabelas referentes ao Capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2 Teoria de Cópulas
27
2.1
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.2
Cópula e Teorema de Sklar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.3
Cópulas Arquimedianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
2.4
Cópulas Multivariadas e a Transformada de Laplace . . . . . . . . . . . . . .
45
3 Variável BIPIT
55
3.1
Variáveis PIT e BIPIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.2
Propriedades da função K . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4 Tau de Kendall
4.1
67
Concordância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
67
5 Kendall Plot
79
5.1
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
5.2
Construção do Kendall Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
5.2.1
QQplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
5.2.2
Kendall Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
Resultados e Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
5.3
Referências Bibliográficas
94
ii
Lista de Figuras
2.1
Scatterplots: Dados exponenciais independentes (primeira figura); dados exponenciais
independentes transformados pelas acumuladas (segunda figura). . . . . . . . . . . .
30
2.2
Gerador φ não estrito e pseudo-inversa φ[−1] para a cópula Arquimediana W . . . . .
44
2.3
Gerador φ estrito e pseudo-inversa φ[−1] para a cópula Arquimediana Π. . . . . . . .
45
3.1
QQplot entre a amostra Hi = H(xi , yi ) da BIPIT H associada distribuição normal
bivariada do Exemplo 3.1 e uma amostra {U1 , . . . , U100 } com distribuição U (0, 1). . .
3.2
56
QQplot das amostras das BIPITS H e H1 : {H1 , . . . , Hn } e {H11 , . . . , H1n } respectivamente, n = 100, onde Hi = H(ui , vi ) = ui vi sendo ui , vi amostras de U (0, 1)
e H1i = H(x1i , y1i ) = F1 (x1i )G1 (y1i ) sendo x1i com distribuição exp(2) e y1i com
distribuição exp(10). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3
57
Funções distribuição de Kendall das cópulas M (linha cheia preta), W (linha cheia
cinza) e família de Gumbel para θ = {1, 3, 7} (primeira figura); família de Clayton
para θ = {1, 3, 4} (segunda figura). . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4
64
Funções λ(v), v ∈ I, das cópulas M (linha cheia preta), W (linha cheia cinza)
e família de Gumbel para θ = {1, 3, 7} (primeira figura); família de Clayton para
θ = {1, 3, 4}. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
65
QQplots referentes Exemplo 4.5: H0i = Π(ui , vi ), H1i = C−0.5 (ui , vi ), H2i = C2 (ui , vi )
com Cθ cópula de Clayton com parâmetro θ (A linha com ponto e tracejado é a diagonal principal do gráfico). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
77
5.1
b (dnpe) ≡ K −1 (p) proveniente
Gráficos da inversa da função distribuição K −1 (p) vs. H
n
de n = 100 pseudo-observações da cópula 4.2.12 (primeira figura); e Wdnpe:n,K =
E(H(dnpe) ), n = 100, sob hipótese da mesma cópula (segunda figura). . . . . . . . . .
5.2
88
Kendall Plot sob hipótese nula de independência para a amostra {(x1 , y1 ), . . . , (x100 , y100 )}
sendo xi com distribuição exp(2) e yi com distribuição exp(10) com {xi } gerados de
forma independente de {yi }. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3
Kendall Plot sob hipótese nula de independência de n = 100 pares de observações do
vetor aleatório (X, Y ) com Y = 1 − X. . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4
90
Kendall Plot sob hipótese nula de independência, de n = 100 pares de observações
do vetor aleatório (X, Y ) com Y = X. . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5
89
91
Kendall Plot sob hipótese nula de cópula de Clayton θ = 2 (Wi:n,K0 referente a
Clayton com θ = 2) de amostras aleatórias de tamanho n = 100 associadas a cópula
de Clayton com os respectivos parâmetros θ = {0.5, 2, 5}. . . . . . . . . . . . . . . . .
iv
92
Lista de Tabelas
6.1
Função de probabilidade conjunta de (X1 , X2 , X3 , X4 ) . . . . . . . . . . . . . . . . .
24
6.2
Função de probabilidade conjunta de X e Y . . . . . . . . . . . . . . . . . . . . . . .
24
6.3
Função de probabilidade conjunta de X e Y . . . . . . . . . . . . . . . . . . . . . . .
24
6.4
Função de probabilidade conjunta de X e Y . . . . . . . . . . . . . . . . . . . . . . .
24
6.5
Função de probabilidade conjunta de (Y1 , Y2 ) . . . . . . . . . . . . . . . . . . . . . .
25
3.1
Algumas famílias paramétricas de cópulas Arquimedianas com seus geradores e espaços paramétricos (*na cópula de Clayton o gerador é estrito se θ ≥ 0, caso contrário
é não estrito). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1
Cópulas Arquimedianas da Tabela 3.1 com os respectivos geradores φ e funções distriuição K. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1
44
62
Medida de associação τ de Kendall expressa em função do parâmetro θ para algumas
famílias de cópulas Arquimedianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
70
2
Capítulo 1
Tipos de Dependência entre Variáveis
Aleatórias
1.1
Introdução
Os conceitos e análise de dependência são necessários para o entendimento do modelo a ser
considerado e quando este pode ser aplicado. Isto inclui a análise da estrutura de dependência
conveniente ao modelo e se a dependência do modelo aumenta quando os parâmetros multivariados
aumentam, isto é, um modelo multivariado pode ser analisado a partir das estruturas de dependência
que ele consiga cobrir em relação ao universo das estruturas de dependência possíveis. Assim,
as propriedades de dependência são importantes para a avaliação da adequação de um modelo
particular perante uma dada aplicação ou um conjunto de dados. No entanto, na prática, pode ser
difícil a comprovação das propriedades teóricas assumidas pelos modelos.
O estudo dos vários tipos de dependência é importante pois um dado modelo de cópula pode ser
mais adequado para um tipo de dependência pretendido do que para outro. Por exemplo, há modelos
de cópula que modelam dependências positivas (limitante superior de Fréchet [25]) enquanto que
há modelos de cópula que modelam dependências negativas (limitante inferior de Fréchet [25]).
Há várias formas para definir dependências sendo que há conceitos que podem ser considerados
mais fortes como, por exemplo, dependência M T P2 ou M RR2 , e outros que podem ser considerados
1
2
mais fracos como, por exemplo, dependência PQD ou NQD.
1.2
Funções Totalmente Positivas e Totalmente Negativas
As definições dadas a seguir referem-se à funções gerais sendo que a função densidade ou a função
de probabilidade são casos particulares. Nesta seção, por simplicidade, serão dadas as definições e
propriedades utilizando-se funções contínuas. O caso discreto é análogo.
Definição 1.1. Seja uma função f (x) uma função não-negativa definida em χ = χ1 × χ2 × ... × χn
onde cada χi é totalmente ordenado, satisfazendo
f (x ∨ y)f (x ∧ y) ≥ f (x)f (y)
(2.1)
onde ∨ e ∧ são operações definidas como sendo
x ∨ y = (max(x1 , y1 ), ...., max(xn , yn ))
e
x ∧ y = (min(x1 , y1 ), ...., min(xn , yn ));
∀x, y onde x = (x1 , ..., xn ) e y = (y1 , ..., yn ). A função densidade que satisfizer (2.1) será denominada função multivariada totalmente positiva de ordem 2 (“multivariate totally positive of order 2”)
denotada por M T P2 . Um vetor aleatório X = (X1 , ..., Xn ) de n componentes será chamado M T P2
se sua função densidade for M T P2 [27].
A função f (x) que satisfizer a desigualdade (2.1) considerando-se ≤ no lugar de ≥ será chamada
função multivariada totalmente negativa de ordem 2 (“multivariate reverse rule of order 2”) denotada
por M RR2 [28].
Para a análise das definições acima será considerado o caso n = 2. Para este caso, será dada
uma interpretação para cada um dos conceitos citados.
Definição 1.2. Seja uma função f (x, y) não-negativa de duas variáveis definidas em χ = χ1 × χ2
sendo χ1 e χ2 totalmente ordenados. A função será totalmente positiva de ordem r, denotada por
T Pr , se para todo x1 < ... < xm , y1 < .... < ym , xi ∈ χ1 , yi ∈ χ2 , 1 ≤ m ≤ r, o determinante da
matriz quadrada de ordem r, |f (xi , yi )|i,j=1,...,m , 1 ≤ m ≤ r, é definido como sendo [26]
3
|f (xi , yi )|i,j=1,2,...,m
f (x , y ) f (x , y ) ... f (x , y )
1 1
1 2
1 m
f (x2 , y1 ) f (x2 , y2 ) ... f (x2 , ym )
.
.
.
= .
.
.
.
.
.
f (xm , y1 ) f (xm , y2 ) ... f (xm , ym )
(2.2)
for não-negativo.
Quando r = 2, a partir da condição de que o determinante (2.2) seja não-negativo, obtém-se
f (x1 , x2 )f (y1 , y2 ) − f (x1 , y2 )f (y1 , x2 ) ≥ 0 para toda escolha x1 < x2 , y1 < y2 , xi ∈ χ1 , yi ∈ χ2 ,
i = 1, 2. Neste caso, a função f (x, y) será totalmente positiva de ordem 2 (“totally positive of order
2”) [27]. Este conceito foi generalizado por meio da Definição 1.1.
Uma função f (x, y), não-negativa, de duas variáveis reais, definidas em χ1 × χ2 sendo χ1 e χ2
totalmente ordenados será totalmente negativa de ordem 2 (“reverse rule of order 2”), denotado por
RR2 se f (x1 , x2 )f (y1 , y2 ) − f (x1 , y2 )f (y1 , x2 ) ≤ 0 para toda escolha x1 < x2 e y1 < y2 , xi ∈ χ1 ,
yi ∈ χ2 , i = 1, 2 [28].
Quando a função f for uma função densidade, o seu domínio será real, ou seja, χi = R,
i = 1, ...., n.
A condição de dependência positiva f (x1 , x2 )f (y1 , y2 ) ≥ f (x1 , y2 )f (y1 , x2 ) significa que é mais
provável que ocorram dois pares com componentes assumindo valores grande-grande ou pequenopequeno do que dois pares com componentes assumindo valores grande-pequeno ou pequeno-grande.
Os conceitos T P2 e RR2 podem ser estendidos. Considere µ uma medida de probabilidade nos
conjuntos de Borel em Rn . Se I1 , ..., In forem intervalos em R, define-se µ
e(I1 , ..., In ) = µ(I1 ×...×In ).
Se I e J forem intervalos em R, I < J se x ∈ I, y ∈ J implicar em x < y . Define-se [2, 23]:
Definição 1.3. Seja µ
e uma medida de probabilidade em R2 . Esta medida será RR2 se
0
0
0
0
0
0
µ
e(I1 , I2 )e
µ(I1 , I2 ) ≤ µ
e(I1 , I2 )e
µ(I1 , I2 ) para todos os intervalos I1 < I1 , I2 < I2 em R.
Definição 1.4. Seja µ
e uma medida de probabilidade em Rn , n ≥ 2. Esta medida será RR2 aos
pares se µ
e(I1 , ..., In ) for RR2 nos pares Ii , Ij para todo 1 ≤ i < j ≤ n sendo que as demais variáveis
(intervalos) são mantidas fixas. As v.a. X1 , ..., Xn (ou o vetor aleatório X ou sua f.d.a F) serão
RR2 aos pares se sua correspondente medida de probabilidade em Rn for RR2 aos pares.
4
A seguir, serão apresentadas algumas propriedades referentes ao conceito M T P2 . A demonstração das propriedades podem ser encontradas em [27]. As propriedades 1 à 4 são úteis para a
obtenção de funções densidade M T P2 a partir de outras funções densidade M T P2 e as propriedades
5 à 7 são úteis para a obtenção de funções densidade M T P2 a partir de funções densidade P F2 e/ou
T P2 .
1. Seja f uma função densidade M T P2 em χ. Então a função densidade marginal, ϕ, em
Qk
i=1 χi
dada por
Z
Z
ϕ(x1 , ..., xk ) =
....
χn
f (x1 , ..., xk , xk+1 , ..., xn )dxk+1 ...dxn
χk+1
é M T P2 ;
2. Se f e g forem funções densidade M T P2 . Então, a função f g será M T P2 ;
3. Sejam χ =
Qn
i=1 χi ,
ξ=
Qn
i=1 ξi ,
ζ=
Qn
i=1 ζi
onde χi , ξi e ζi são espaços totalmente ordenados.
Sejam f e g funções densidade M T P2 , respectivamente, em ξ × χ e χ × ζ. Define-se,
R
h(y, z) = χ f (y, x)g(x, z)dσ(x), σ = σ1 × ... × σn . Então, h é uma função M T P2 em ξ × ζ;
4. Se f (x) for M T P2 , x ∈ χ, ϕ1 , ..., ϕn forem todas funções crescentes (ou todas funções decrescentes), respectivamente, em χ1 , ..., χn e {φk (xk )}nk=1 forem funções positivas. Então, a
Q
função ψ(x) = ψ(x1 , ..., xn ) = ( ni=1 φi (xk ))f (ϕ1 (x1 ), ..., ϕn (xn )) será M T P2 em χ;
5. Seja X = (X1 , ..., Xn ) um vetor aleatório composto por variáveis aleatórias X1 , ..., Xn independentes onde cada Xi , i = 1, ..., n, possui função densidade, fXi , P F2 1 . Seja Y = (Y1 , ..., Yn )
um vetor aleatório com função densidade conjunta, fY , M T P2 em Rn e suponha que X e Y
são independentes. Então, Z = X + Y possui uma função densidade M T P2 ;
6. Seja X = (X1 , ..., Xn ) um vetor aleatório composto por variáveis aleatórias X1 , ..., Xn independentes onde cada Xi , i = 1, ..., n, possui função densidade, fXi , P F2 e seja Xo uma v.a.
independente de X possuindo função densidade fXo . Define-se Zi = Xi + Xo , i = 1, ..., n.
Então, a função densidade conjunta de Z = (Z1 , ..., Zn ) é M T P2 ;
1
Uma função f (x) definida em (−∞, ∞) é P Fr (“Pólya frequency function of order r) se f (x − y) for T Pr ,
−∞ < x, y < ∞ [26].
5
7. Seja X = (X1 , ..., Xn ) um vetor aleatório composto por variáveis aleatórias X1 , ..., Xn independentes onde cada Xi , i = 1, ..., n possui função densidade, fXi . Seja Xo uma variável aleatória
positiva. Se, para i = 1, ..., n, fXi (u/v) for T P2 em −∞ < u < ∞ e v > 0, ou fXi (uv) for
T P2 em −∞ < u < ∞ e v > 0, então ambos os vetores aleatórios Z = (X1 Xo , ..., Xn Xo ) e
W = (X1 /Xo , ..., Xn /Xo ) terão funções densidade M T P2 ;
8. Seja X = (X1 , ..., Xn ) um vetor aleatório possuindo densidade conjunta M T P2 . Sejam ψ e ϕ,
ambas funções crescentes (ou ambas funções decrescentes), em Rn . Então,
E[ϕ(X)ψ(X)] ≥ (E[ϕ(X)])(E[ψ(X)]).
Vale observar que, utilizando-se as propriedades 1 e 2, obtém-se a propriedade 3 e que da
propriedade 2, obtém-se: Variáveis aleatórias independentes possuem função densidade conjunta
M T P2 .
Da propriedade 1 obtém-se: Se X = (X1 , ..., Xn ) for M T P2 então qualquer subconjunto formado
pelas componentes de X, por exemplo, (Xi , ..., Xk ) será M T P2 onde 2 ≤ i, k < n
E, da propriedade 8, obtém-se que
Cov(ϕ(X), ψ(X)) ≥ 0
(2.3)
a qual sugere a seguinte definição [11, 27]:
Definição 1.5. Seja X = (X1 , ..., Xn ) um vetor aleatório satisfazendo a expressão (2.3) para qualquer par de funções crescentes (ou decrescentes) ψ e ϕ. As componentes de X, X1 , ..., Xn , são
denominadas variáveis aleatórias associadas.
Utilizando-se a definição anterior, obtém-se o seguinte resultado:
Teorema 1.1. Seja X = (X1 , ..., Xn ) um vetor aleatório formado por v.a. associadas e sejam
ϕ1 , ..., ϕk funções não-negativas em Rn sendo todas crescentes (ou todas decrescentes). Então,
" k
#
k
Y
Y
E
ϕi (X) ≥
E [ϕi (X)]
(2.4)
i=1
i=1
6
Demonstração: Para a demonstração consulte [27].
Em particular, se ϕi (X) = ϕi (Xi ), i = 1, ..., n, a expressão (2.4) do teorema anterior fornece
E[ϕ1 (X1 )...ϕn (Xn )] ≥
n
Y
E[ϕi (Xi )]
(2.5)
i=1
Especialmente, a expressão (2.5) permite demonstrar
Q
Q
P (X1 ≥ c1 , ..., Xn ≥ cn ) ≥ ni=1 P (Xi ≥ ci ) e P (X1 ≤ c1 , ..., Xn ≤ cn ) ≥ ni=1 P (Xi ≤ ci ). Na
próxima seção, tais desigualdades designarão outros tipos de dependência.
Vale observar que a partir do conceito de dependência M T P2 obteve-se o conceito de variáveis
aleatórias associadas. Com isso, o conceito de dependência M T P2 é mais forte do que o conceito
de variáveis aleatórias associadas no sentido de que o primeiro implica no segundo.
A seguir, serão apresentadas algumas propriedades referentes à v.a. associadas [11].
1. Um subconjunto de v.a. associadas é associado;
2. Se dois conjuntos de v.a. associadas forem independentes, então a união será um conjunto de
v.a. associadas;
3. Funções não-decrescentes de v.a. associadas são associadas;
4. Um conjunto formado por uma única v.a. é associado;
5. Variáveis aleatórias independentes são associadas;
(k)
(k)
(k)
6. Se T(k) = (T1 , ..., Tn ) for um vetor aleatório com Ti , i = 1, ..., n, associadas para cada k
e T(k) → T, em distribuição, então as componentes do vetor aleatório T = (T1 , ..., Tn ) serão
associadas.
Serão apresentados, a seguir, alguns exemplos de funções densidade M T P2 [27].
• Exemplo 1: Seja X = (X1 , ..., Xn ) uma amostra aletória formada por variáveis aleatórias i.i.d.
Xi , possuindo função densidade f . Então, a densidade conjunta das estatísticas de ordem
X1,n , ..., Xn,n é M T P2 ;
7
P
• Exemplo 2: Considere que X = (X1 , ..., Xn ) ∼ N (0, ). Esta distribuição será M T P2 se e
P
somente se − −1 possuir elementos fora da diagonal não-negativos;
• Exemplo 3: A função densidade da Distribuição Logística Multivariada é definida como sendo
(
f (x1 , ..., xn ) = n!exp −
n
X
)(
1+
xi
i=1
n
X
)−(m+1)
−xi
e
i=1
O Núcleo Generalizado de Cauchy é dado por
k(y) =
(1 +
1
Pn
α
i=1 yi )
onde yi > 0, i = 1, ..., n. Este núcleo é T P2 em cada par de variáveis. Com isso, a Distribuição
Logística Multivariada é M T P2 pelas propriedades 2 e 4 referentes à função densidade M T P2 ;
• Exemplo 4: Seja X1 , ..., Xn v.a. independentes com Xi ∼ Gama(αi , βi ), αi ≥ 1, βi > 0,
i = 1, ..., n. A função densidade fXi (x) = ci xαi −1 e−βi x , x > 0 é P F2 . Se Xo for independente de X1 , ..., Xn , Xo ∼ Gama(αo , βo ), então o vetor Z = (X1 + Xo , ...., Xn + Xo ) possui
Distribuição Gamma Multivariada e, pela propriedade 6 referente à função densidade M T P2 ,
tem-se que a sua densidade conjunta será M T P2 ;
• Exemplo 5: Seja X1 , ..., Xn v.a. independentes com Xi ∼ Gama(αi , βi ), αi > 0, βi > 0,
i = 1, ..., n. A função densidade fXi (u/v) = ci (u/v)αi −1 e−βi (u/v) , é T P2 para u e v positivos.
Se Xo for independente de X1 , ..., Xn e Xi ∼ χ2νi , então o vetor
Z = ((X1 /ν1 )(Xo /νo )−1 , ...., (Xn /νn )(Xo /νo )−1 ) possuirá Distribuição F Multivariada e, pela
propriedade 7 referente à função densidade M T P2 , tem-se que a sua densidade conjunta será
M T P2 ;
• Exemplo 6: Seja X = (X1 , ..., Xn ) ∼ N (0, I) e S ∼ χ2 , X e S independentes.
Seja
Z = (Z1 , ..., Zn ) = (X1 /S, ..., Xn /S). O vetor aleatório Z possui Distribuição de Cauchy
multivariada. Então, (|Z1 |, ..., |Zn |) possui densidade conjunta M T P2 considerando o mesmo
argumento do exemplo prévio desde que e−u
2 /v 2
é T P2 com u > 0, v > 0.
A seguir, serão apresentadas algumas propriedades referentes às funções M RR2 [28].
8
1. Se f e g forem funções M RR2 . Então, a função f g será M RR2 ;
2. Se f (x) for M RR2 com x ∈ χ e ϕ1 , ..., ϕn forem todas funções crescentes (ou todas funções decrescentes), respectivamente, em χ1 , ..., χn . Então, a função ψ(x) = ψ(x1 , ..., xn )=f (ϕ1 (x1 ), ...ϕn (xn ))
será M RR2 em χ;
A seguir, serão apresentados alguns exemplos de distribuições M RR2 [28].
• Exemplo 1: Seja X = (X1 , ..., Xn ) um vetor aleatório composto por v.a. independentes tais
P
P
que Xi ∼ Binomial(ni , pi ), ni=1 pi = 1, ni=1 Xi = N . A distribuição de X é dada por
n
Y x
N!
Pn
PX (x) = Qn
pi i
x
!
(N
−
x
)!
i
i
i=1
i=1
1−
n
X
i=1
!N −Pni=1 xi
pi
(2.6)
i=1
onde x = (x1 , ..., xn ) representa um dado valor que o vetor aleatório X assume e pi ≥ 0,
i = 1, ..., n. Esta distribuição é denominada Distribuição Multinomial e, pode-se mostrar, que
esta é M RR2 ;
• Exemplo 2: Seja X = (X1 , ..., Xn ) um vetor aleatório. A função de probabilidade da Distribuição Hipergeométrica Multivariada é dada por
"
PX (x) =
com
Pn
i=1 xi
Qn
i=1
Mi
!#
xi
= m, 0 ≤ xi ≤ Mi , i = 1, ..., n e
M−
m−
Pn
Pn
i=1 Mi
Pn
i=1 xi
i=1 Mi
!
M
!−1
(2.7)
m
= M onde x = (x1 , ..., xn ) representa
um dado valor que o vetor aleatório X assume. Esta distribuição é M RR2 ;
• Exemplo 3: Seja X = (X1 , ..., Xn ) um vetor aleatório. A função densidade da Distribuição de
Dirichlet é dada por

θ0 −1
P
n
n
X
Y
Γ( nj=0 θj )
θ −1
1 −
f (x) = Qn
xj 
xj j
Γ(θ
)
j
j=0
j=1
onde
Pn
j=1 xj
(2.8)
j=1
≤ 1, 0 ≤ xj e θj ≥ 1, j = 0, .., n sendo Γ(.) a Função Gama. A Distribuição de
Dirichlet é M RR2 .
9
1.3
Dependência do Quadrante Positivo (e Negativo) e do Octante
Considere X um vetor aleatório de dimensão n (n ≥ 2) com f.d.a. F . Define-se a dependência do
octante superior positivo (“positive upper orthant dependent”) e a dependência do octante inferior
positivo (“positive lower orthant dependent”) [25] como sendo:
Definição 1.6. X = (X1 , ..., Xn ) ou F possuem dependência do octante superior positivo (PUOD)
Q
se P (Xi > ai , i = 1, ..., n) ≥ ni=1 P (Xi > ai ), ∀a = (a1 , ..., an ) ∈ Rn .
Definição 1.7. X = (X1 , ..., Xn ) ou F possuem dependência do octante inferior positivo (PLOD)
Q
se P (Xi ≤ ai , i = 1, ..., n) ≥ ni=1 P (Xi ≤ ai ), ∀a = (a1 , ..., an ) ∈ Rn .
Se X verifica as Definições 1.6 e 1.7 então X ou F possuem dependência do octante positivo(“positive orthant dependent”) denotada por POD.
Intuitivamente, a expressão da Definição 1.6 significa que é mais provável que X1 , ..., Xn assumam, simultaneamente, valores grandes comparado com o vetor de v.a. independentes com as
mesmas correspondentes distribuições marginais univariadas.
Similarmente, serão enunciados os conceitos de dependência do octante inferior negativo (“negative lower orthant dependent”), dependência do octante superior negativo (“negative upper orthant
dependent”) e dependência do octante negativo (“negative orthant dependent”) [25].
Definição 1.8. X = (X1 , ..., Xn ) ou F possuem dependência do octante superior negativo (NUOD)
Q
se P (Xi > ai , i = 1, ..., n) ≤ ni=1 P (Xi > ai ), ∀a = (a1 , ..., an ) ∈ Rn .
Definição 1.9. X = (X1 , ..., Xn ) ou F possuem dependência do octante inferior negativo (NLOD)
Q
se P (Xi ≤ ai , i = 1, ..., n) ≤ ni=1 P (Xi ≤ ai ), ∀a = (a1 , ..., an ) ∈ Rn .
Se X verifica as Definições 1.8 e 1.9 então X ou F possuem dependência do octante negativo
(NOD).
As expressões que compõem as definições 1.6 e 1.7, em geral, para n ≥ 3, não se equivalem (veja
um contra-exemplo na seção 3.2.5). Porém, para n = 2, elas se equivalem. Isto, também, vale para
as definições 1.8 e 1.9. Com isso, definições acima se reduzem, para n = 2, às seguintes:
Seja X = (X1 , X2 ) um vetor aleatório bivariado com f.d.a. F . Então, define-se a dependência
do quadrante positivo (“positive quadrant dependent”) [30, 25] como sendo:
10
Definição 1.10. X ou F possuem dependência do quadrante positivo (PQD) se
P (X1 > a1 , X2 > a2 ) ≥ P (X1 > a1 )P (X2 > a2 ), ∀a1 , a2 ∈ R, ou equivalentemente,
P (X1 ≤ a1 , X2 ≤ a2 ) ≥ P(X1 ≤ a1 ) P(X2 ≤ a2 ), ∀a1 , a2 ∈ R.
A expressão da definição 1.10 representa uma condição de dependência positiva e significa que é
mais provável que X1 e X2 assumam, conjuntamente, valores grandes ou pequenos comparado com
0
d
0
0
d
0
0
0
X1 e X2 onde X1 = X1 e X2 = X2 sendo X1 e X2 ) v.a. independentes.
Similarmente, será apresentada a dependência do quadrante negativo(“negative quadrant dependent”)
[30, 25] definido a seguir.
Definição 1.11. X ou F possuem dependência do quadrante negativo (NQD) se
P (X1 > a1 , X2 > a2 ) ≤ P (X1 > a1 )P (X2 > a2 ), ∀a1 , a2 ∈ R, ou equivalentemente,
P (X1 ≤ a1 , X2 ≤ a2 ) ≤ P(X1 ≤ a1 ) P(X2 ≤ a2 ), ∀a1 , a2 ∈ R.
A seguir, serão apresentadas algumas propriedades referentes ao conceito de dependência PQD
e NQD [30].
1. O vetor de v.a. (X, X) será PQD para todo X;
2. Se o vetor de v.a. (X, Y ) for PQD, então o vetor (X, −Y ) será NQD;
3. Se o vetor de v.a. (X, Y ) for PQD então o vetor (r(X), s(Y )) será PQD se r e s forem funções
não-decrescentes;
4. Sejam (X1 , Y1 ), ..., (Xn , Yn ) pares independentes de v.a. com funções de distribuição F1 , ...., Fn .
Sejam r e s funções de n variáveis e sejam X = r(X1 , ..., Xn ) e Y = s(Y1 , ..., Yn ). Então:
(a) (X, Y ) será PQD se, para cada i, as seguintes condições forem válidas:
2
i. Fi é PQD e r, s são concordantes
2
para a i-ésima coordenada ou;
ii. Fi é NQD e r, s são discordantes
3
para a i-ésima coordenada.
Duas funções reais r e s de n variáveis independentes serão concordantes para a i-ésima coordenada se,
considerando-as funções da i-ésima coordenada, deixando as demais fixas, ambas são funções não-decrescentes ou
ambas são funções não-crescentes.
3
Duas funções reais r e s de n variáveis independentes serão concordantes para a i-ésima coordenada se,
considerando-as funções da i-ésima coordenada, deixando as demais fixas, uma das funções é não-decrescente e a
outra é não-crescente.
11
(b) (X, Y ) será NQD se, para cada i, as seguintes condições forem válidas:
i. Fi é PQD e r, s são discordantes para a i-ésima coordenada ou;
ii. Fi é NQD e r, s são concordantes para a i-ésima coordenada.
5. Sejam (X1 , Y1 ), ..., (Xn , Yn ) pares independentes de v.a. com funções de distribuição F1 , ...., Fn .
Sejam U e V v.a. independentes e independentes de (X1 , Y1 ), ..., (Xn , Yn ) e sejam
X = r(U, X1 , ..., Xn ) e Y = s(V, X1 , ..., Xn ). Então, as conclusões dos ítens (a) e (b) na
propriedade 4. continuam válidas.
6. Se (X, Y ) for PQD e se existirem E(XY ), E(X) e E(Y ), então E(XY ) ≥ E(X)E(Y ).
A seguir, serão apresentados alguns exemplos de v.a. PQD [30]. As justificativas dos exemplos
baseiam-se nas propriedades anteriores.
• Exemplo 1: Para qualquer v.a. X e para qualquer função não-decrescente s, o vetor (X, s(X))
será PQD;
• Exemplo 2: (X = U + aZ, Y = V + bZ) será PQD se as constantes a e b tiverem o mesmo
sinal para quaisquer v.a. independentes U , V e Z;
• Exemplo 3: Para quaisquer v.a. independentes X e V , (X, Y = X + V ) será PQD;
• Exemplo 4: (X = r(U, Z), Y = s(V, Z)) será PQD se U , V e Z forem v.a. independentes e r
e s forem funções não-decrescentes em Z (arbitrárias para as demais v.a.).
Agora, serão apresentadas algumas propriedades relativas ao conceito NOD [8]:
1. Qualquer conjunto de v.a. independentes será NOD;
2. Qualquer subconjunto de tamanho ≥ 2 formado por v.a. NOD será NOD;
3. Se X1 , ..., Xn forem v.a. NOD e ϕ1 , ..., ϕn forem funções Borel-mensuráveis crescentes com
valores reais. Então, ϕ1 (X1 ), ..., ϕn (Xn ) serão v.a. NOD;
4. A união de conjuntos independentes de v.a. NOD será NOD.
12
Também, serão apresentados alguns exemplos de distribuições NOD [23].
• Exemplo 1: A Distribuição Multinomial dada por (2.6) é NOD;
• Exemplo 2: A Distribuição Hipergeométrica Multivariada dada por (2.7) é NOD;
• Exemplo 3: A Distribuição de Dirichlet dada por (2.8) é NOD.
1.3.1
Variáveis Aleatórias Estocasticamente Crescentes e Decrescentes,
Dependência Crescente na Cauda à Direita e Dependência Decrescente
na Cauda à Esquerda
Denotando-se =(F1 , ..., Fn ) como a classe das distribuições multivariadas que possuem funções
de distribuição marginais F1 , ..., Fn , considere X = (X1 , X2 ) um vetor aleatório bivariado possuindo
f.d.a F ∈ =(F1 , F2 ). Define-se:
Definição 1.12. A variável aleatória X2 será estocasticamente crescente (“stochastically increasing”),
denotada por SI, em X1 ou a distribuição condicional F2|1 será estocasticamente crescente (↑) se
P (X2 > x2 |X1 = x1 ) = 1 − F2|1 (x2 |x1 ) ↑ x1 , ∀x2 [25].
Se, na Definição 1.12, trocarmos os índices 1 por 2 e 2 por 1, ter-se-á que X1 será SI em X2 ou
F1|2 será SI.
A expressão da definição 1.12 representa uma condição de dependência positiva e significa que
a probabilidade de que X2 ultrapasse um limiar x2 é crescente quando X1 aumentar.
Se, na Definição 1.12, trocarmos ↑ por ↓, a variável aleatória X2 será estocasticamente decrescentes (“stochastically decreasing”), denotada por SD, em X1 [25].
Há dois conceitos de dependência que podem ser considerados como uma extensão multivariada
do conceito SI (Definição 1.12): dependência positiva através da ordenação estocástica (“positive dependence through the stochastic ordering”) e dependência condicionalmente crescente em sequência
(“conditional increasing in sequence”)[8].
Definição 1.13. O vetor aleatório (X1 , ..., Xn ) possuirá dependência positiva através da ordenação
estocástica, denotada por PDS, se [X1 , ..., Xi−1 |Xi = xi ] for estocasticamente crescente quando xi
aumentar, para todo i = 1, ..., n.
13
Definição 1.14. O vetor aleatório (X1 , ..., Xn ) possuirá dependência condicionalmente crescente
em sequência, denotada por CIS, se Xi for estocasticamente crescente em X1 , ..., Xi−1 , isto é, se
P (Xi > xi |X1 = x1 , ..., Xi−1 = xi−1 ) ↑ (for crescente em) x1 , ..., xi−1 , ∀xi , i = 1, ..., n.
Note que, para n = 2, PDS equivale à X2 SI em X1 e X1 SI em X2 . Da mesma forma, CIS
equivale à SI.
Os conceitos de v.a. PDS e CIS possuem as seguintes versões para dependência negativa:
dependência negativa através da ordenação estocástica (“negative dependence through the stochastic
ordering”) e dependência condicionalmente decrescente em sequência (“conditional decreasing in
sequence”).
Definição 1.15. O vetor aleatório (X1 , ..., Xn ) possuirá dependência negativa através da ordenação
estocástica, denotada por NDS, se [X1 , ..., Xi−1 |Xi = xi ] for estocasticamente decrescente em xi ,
para todo i = 1, ..., n [23].
Definição 1.16. O vetor aleatório (X1 , ..., Xn ) possuirá dependência condicionalmente decrescente
em sequência, denotada por CDS, se P (Xi > xi |X1 = x1 , ..., Xi−1 = xi−1 ) ↓ (for decrescente em)
x1 , ..., xi−1 , ∀xi , i = 1, ..., n [8].
Para v.a. CDS (veja a Definição 1.16) e NOD (veja as Definições 1.8 e 1.9), tem-se a seguinte
propriedade [23]: Sejam Xo , X1 , ..., Xn v.a. independentes sendo que cada v.a. possui função densidade ou função de probabilidade P F2 . Então, para x fixo, as v.a. condicionais
(X1 , ..., Xn |Xo + X1 + ... + Xn = x) são RR2 aos pares e, consequentemente, serão CDS e NOD.
Nas Definições 1.14 e 1.16, ao invés, das v.a. X1 , ..., Xi−1 serem condicionadas, respectivamente,
aos valores fixo x1 , ..., xi−1 , pode-se considerar X1 , ..., Xi−1 condicionadas, respectivamente, em
X1 > x1 , ..., Xi−1 > xi−1 ou X1 ≤ x1 , ..., Xi−1 ≤ xi−1 . Dessa forma, tem-se as seguintes definições
[8].
Definição 1.17. As v.a. X1 , ..., Xn serão crescentes na cauda à direita em sequência (“right-tail
increasing in sequence”), denotada por RTIS, se P (Xi > xi |X1 > x1 , ..., Xi−1 > xi−1 ) ↑ (for
crescente em) x1 , ..., xi−1 , ∀xi , i = 1, ..., n.
14
Definição 1.18. As v.a. X1 , ..., Xn serão crescentes na cauda à esquerda em sequência (“left-tail
decreasing in sequence”), denotada por LTIS, se P (Xi ≤ xi |X1 ≤ x1 , ..., Xi−1 ≤ xi−1 ) ↑ x1 , ..., xi−1 ,
∀xi , i = 1, ..., n.
Se n = 2, a Definição 1.17 torna-se: A v.a. X2 será crescente na cauda à direita (“right-tail
increasing”), denotada por RTI, em X1 se P (X2 > x2 |X1 > x1 ) =
1−F (x1 ,x2 )
1−F1 (x1 )
↑ x1 , ∀x2 [25].
Se n = 2, a Definição 1.18 torna-se: A v.a. X2 será crescente na cauda à esquerda (“left-tail
incresing”), denotada por LTI, em X1 se P (X2 ≤ x2 |X1 ≤ x1 ) =
F (x1 ,x2 )
F1 (x1 )
↑ x1 , ∀x2 [8].
As expressões nas Definições 1.17 e 1.18 são condições de dependência positiva. Pela Definição
1.17, para o caso em que n = 2, tem-se que é mais provável que X2 assuma valores grandes quando
X1 aumentar. E, pela Definição 1.18, para o caso em que n = 2, tem-se que é mais provável que X2
assuma valores pequenos quando X1 diminuir.
Se, nas Definições 1.17 e 1.18, a monocidade ↑ for trocada por ↓, ter-se-á os conceitos referentes
à dependência negativa.
Se, na Definição 1.17, a monocidade ↑ for trocada por ↓ tem-se que as v.a. X1 , ..., Xn serão
decrescentes na cauda à direita em sequência (“right-tail decreasing in sequence”), denotada por
RTDS, ou seja, P (Xi > xi |X1 > x1 , ..., Xi−1 > xi−1 ) ↓ x1 , ..., xi−1 , ∀xi , i = 1, ..., n [8] sendo que,
para n = 2, a v.a. X2 será decrescente na cauda à direita (“right-tail decresing”), denotada por
RTD, em X1 , ou seja, P (X2 > x2 |X1 > x1 ) =
F (x1 ,x2 )
F1 (x1 )
↓ x1 , ∀x2 [8, 25].
Se, na Definição 1.18, a monocidade ↑ for trocada por ↓ tem-se que as v.a. X1 , ..., Xn serão
decrescentes na cauda à esquerda em sequência (“left-tail decreasing in sequence”), denotada por
LTDS, se P (Xi ≤ xi |X1 ≤ x1 , ..., Xi−1 ≤ xi−1 ) ↓ x1 , ..., xi−1 , ∀xi , i = 1, ..., n [8] sendo que, para
n = 2, a v.a. X2 será decrescente na cauda à esquerda (“left-tail decreasing ”), denotada por LTD,
em X1 , ou seja, P (X2 ≤ x2 |X1 ≤ x1 ) =
F (x1 ,x2 )
F1 (x1 )
↓ x1 , ∀x2 [8, 25].
A seguir, algumas propriedades referentes às dependências SI, SD, CDS, RTDS, RTD serão
dadas [8]:
1. X2 será SD em X1 se e somente se X2 for SI em −X1 . Além disso, X2 será SD em X1 se e
somente se −X2 for SI em X1 ;
2. Seja o vetor aleatório (X, Y ) possuindo função densidade f (x, y) satisfazendo
15
f (x , y ) f (x , y )
1 1
1 2
f (x2 , y1 ) f (x2 , y2 )
≤0
para cada escolha x1 < x2 , y1 < y2 . Então, Y será SD em X;
3. Sejam:
(a) (X1 , ..., Xn ) um vetor aleatório possuindo função densidade f (x1 , ..., xn ) que satisfaz
f (x , ..., x , ..., x , ..., x ) f (x , ..., x , ..., x0 , ..., x )
1
i
j
n
1
i
n
j
f (x1 , ..., x0 , ..., xj , ..., xn ) f (x1 , ..., x0 , ..., x0 , ..., xn )
i
i
j
≤0
0
(3.9)
0
para cada par de variáveis permanecendo as demais fixas onde xi < xi e xj < xj ;
(b) Todas as funções de densidade marginais fk (x1 , ..., xk ), 1 ≤ k < n satisfazendo (3.9) para
cada par de variáveis permanecendo as demais fixas.
Então, (X1 , ..., Xn ) será CDS e cada permutação de (X1 , ..., Xn ) será CDS;
4. Seja o vetor aleatório (X1 , ..., Xn ) CDS. Então, E(ϕ(Xi )|X1 = x1 , ..., Xi−1 = xi−1 ) será decrescente em x1 , ..., xi−1 para cada função integrável crescente ϕ;
5. Seja a sequência {Xn , n ≥ 1} de vetores aleatórios CDS p-dimensionais com f.d.a. {Hn , n ≥ 1}
tais que Hn → H fracamente quando n → ∞ onde H é a f.d.a. do vetor aleatório p-dimensional
X. Então, X será CDS;
6. Qualquer conjunto de v.a. independentes é RTDS;
7. Qualquer subconjunto de v.a. RTDS é RTDS;
8. Se X1 , ..., Xn forem v.a. RTDS e ϕ1 , ..., ϕn forem funções Borel-mensuráveis crescentes, então
ϕ1 (X1 ), ..., ϕn (Xn ) será RTDS;
9. Seja X = (X1 , X2 ). Então, X2 é RTD em X1 ⇔ P (X2 ≥ x2 |X1 > x1 ) ↓ x1 para todo
x2 ⇔ E(ϕ(X2 )|X1 > x1 ) ↓ x1 para toda função real ϕ crescente;
16
10. Seja X2 v.a. RTD na v.a. X1 e seja Z uma v.a. independente de (X1 , X2 ). Definindo
X = X1 + aZ e Y = X2 + bZ, a e b constantes, tem-se que Y é RTD em X;
11. Seja a sequência {Xn , n ≥ 1} de vetores aleatórios RTDS p-dimensionais com f.d.a.
{Hn , n ≥ 1} tais que Hn → H fracamente quando n → ∞ onde H é a f.d.a. do vetor aleatório
p-dimensional X. Então, X será RTDS;
12. Seja (U, V ) RTD e seja Z uma v.a. independente de (U, V ). Definindo ϕ1 e ϕ2 , funções
Borel-mensuráveis que mapeiam R2 em R com ϕ1 (u, .) crescente em u e ϕ2 (., v) crescente em
v. Então, (X, Y ) é RTD onde X = ϕ1 (U, Z) e Y = ϕ2 (Z, V );
13. Sejam X = (X1 , ..., Xn ) um vetor aleatório formado por v.a. RTDS, ϕl : R → R uma função
Borel-mensurável crescente para cada l = 1, ..., n. Sejam Z = (Z1 , ...Zn ) um vetor aleatório
formado por v.a. RTDS sendo X e Z independentes. Definindo Yl = ϕl (Xl ) + Zl , l = 1, ..., n,
tem-se que Y1 , ..., Yn são RTDS;
14. Sejam
(a) Seja (X1 , ..., Xn ) um vetor aleatório tal que F n (x1 , ..., xn ) = P (X1 > x1 , ..., Xn > xn )
satisfaça:
i.
F (x , ..., x , ..., x , ..., x ) F ((x , ..., x , ..., x0 , ..., x )
i
j
n
n
1
i
n
n 1
j
0
0
0
F n (x1 , ..., x , ..., xj , ..., xn ) F n ((x1 , ..., x , ..., x , ..., xn )
i
i
j
≤0
0
(3.10)
0
para cada par de variáveis permanecendo as demais fixas xi < xi e xj < xj ;
ii. Se F k (x1 , ..., xk ) = P (X1 > x1 , ..., Xk > xk ), 1 ≤ k < n, verificar (3.10) para cada
par de variáveis permanecendo as demais fixas;
Então, (X1 , ..., Xn ) será RTDS e qualquer permutação de (X1 , ..., Xn ) será RTDS;
A seguir, serão apresentados alguns exemplos relativos à alguns conceitos de dependência apresentados nesta seção [8, 23]:
• Exemplo 1: A Distribuição Multinormal com vetor de médias µ = (µ1 , ..., µn ) e matriz de
P
variância-covariância
definida positiva é CDS;
17
• Exemplo 2: A Distribuição Multinomial dada por (2.6) é CDS e NDS;
• Exemplo 3: A Distribuição de Dirichlet dada por (2.8) é CDS.
1.4
Variáveis Aleatórias Negativamente Associadas
Definição 1.19. As variáveis aleatórias X1 , ..., Xn possuem associação negativa (“negative association”),
denotada por NA, se para cada par de subconjuntos disjuntos A1 , A2 de {1, ..., n} tem-se
Cov(ϕ(Xi , i ∈ A1 ), ψ(Xj , j ∈ A2 )) ≤ 0
(4.11)
sempre que ϕ e ψ forem funções crescentes [23].
Vale observar que (4.11) continua válida se ϕ e ψ forem funções decrescentes.
A seguir, serão apresentadas algumas propriedades referentes ao conceito de v.a. NA [23].
1. Sejam A1 , ..., Am subconjuntos disjuntos de índices {1, ..., n} e φ, ..., φm funções crescentes e
positivas. Se as variáveis aleatórias, X1 , ..., Xn , forem NA, então:
E
"m
Y
#
φi (Xj , j ∈ Ai ) ≤
i=1
m
Y
E[φi (Xj , j ∈ Ai )]
i=1
2. Um subconjunto de duas ou mais v.a. NA é NA;
3. Um conjunto de v.a. independentes é NA;
4. Funções crescentes definidas em subconjuntos disjuntos de um conjunto de v.a. NA são NA;
5. A união de conjuntos independentes de v.a. NA é NA;
6. Sejam X1 , ..., Xn v.a. independentes e suponha que a esperança condicional
P
P
E(φ(Xi , i ∈ A)| i∈A Xi ) seja crescente em i∈A Xi , para cada função crescente φ e para
cada subconjunto apropriado A de índices {1, ..., n}. Então, a distribuição condicional de
P
X1 , ..., Xn dado
Xi é NA, quase certamente;
18
7. Sejam X1 , ..., Xn v.a. independentes possuindo funções densidade P F2 . Então, a distribuição
P
condicional conjunta de X1 , ..., Xn dado
Xi é NA, quase certamente.
Uma consequência da propriedade 1 é a dada a seguir: Se A1 , A2 forem subconjuntos disjuntos
de índices {1, ..., n} e x1 , ..., xn ∈ R. Então,
P (Xi ≤ xi , i = 1, ..., n) ≤ P (Xi ≤ xi , i ∈ Ai )P (Xj ≤ xj , j ∈ A2 )
e
P (Xi > xi , i = 1, ..., n) ≤ P (Xi > xi , i ∈ Ai )P (Xj > xj , j ∈ A2 );
Então, em particular, X1 , ..., Xn são NOD.
A seguir serão apresentados alguns exemplos de distribuições NA [23].
• Exemplo 1: Seja x = (x1 , ..., xn ) um conjunto de n números reais. Uma distribuição de
permutação é a distribuição conjunta do vetor X = (X1 , ..., Xn ) que assume os valores de
todas a n! permutações de x com igual probabilidade, sendo cada probabilidade igual à
1
n! ,
n > 1. Temos que uma distribuição de permutação é NA;
• Exemplo 2: A Distribuição Multinomial dada por (2.6) é NA;
• Exemplo 3: A Distribuição Hipergeométrica Multivariada dada por (2.7) é NA;
• Exemplo 4: Seja X = (X1 , .., Xn ) uma amostra aleatória de uma população. Seja Ri o posto
de Xi , i = 1, ..., n. Como R = (R1 , ..., Rn ) possui distribuição de permutação, tem-se que R
será NA;
• Exemplo 5: Variáveis aleatórias que possuem distribuições normais negativamente correlacionadas são NA;
• Exemplo 6: A Distribuição de Dirichlet dada por (2.8) é NA.
19
1.5
Implicações e Contra-exemplos envolvendo os Conceitos de Dependência
Teorema 1.2. Todos os tipos de dependências, definidos nas seções anteriores, são invariantes com
respeito às transformações estritamente crescentes sobre as componentes do vetor aleatório.
Demonstração: Para a demonstração consulte [25].
Teorema 1.3. Relações para o caso bivariado:
(a) densidade T P2 ⇒ SI ⇒ LTD, RTI;
(b) LTD ou RTI ⇒ associação ⇒ PQD;
(c) densidade T P2 ⇒ f.d.a. T P2 e função de sobrevivência T P2 ;
(d) f.d.a T P2 ⇒ LTD e função de sobrevivência T P2 ⇒ RTI.
Demonstração: Para a demonstração consulte [25].
Pelo teorema anterior, observa-se que a dependência T P2 é uma dependência forte pois esta
implica nas dependências SI, LTD, RTI, associação e PQD entre v.a. . A dependência mais fraca é
a PQD.
Teorema 1.4. Relações para o caso multivariado:
(a) um subvetor aleatório de um vetor aleatório associado é associado;
(b) associação ⇒ PUOD e PLOD;
20
(c) PDS ⇒ PUOD e PLOD;
(d) CIS ⇒ associação.
Demonstração: Para a demonstração consulte [25].
A seguir, serão dadas outras implicações entre os conceitos de dependência:
1. Um par de v.a. NQD é NA [23];
2. Um par de v.a. NA é NOD [23];
3. RTDS equivale à NUOD [8];
4. LTI equivale à NQD. Porém, para n ≥ 3, LTIS não implica em NUOD [8];
5. RTIS implica em PUOD [8];
6. Se (X1 , X2 ) for SD, ele será também RTD.
Na sequência, serão dados exemplos de implicações que não são válidas. Na seção 1.6 são
mostradas as tabelas utilizadas em alguns contra-exemplos.
• Contra-Exemplo 1: Para n ≥ 3, NUOD e NLOD não se equivalem [23]
Sejam as v.a. X1 , X2 e X3 assumindo valores (0, 1, 1), (1, 0, 1), (1, 1, 0) e (0, 0, 0) sendo que
cada valor assume a probabilidade 1/4. Então,
P (X1 > 0, X2 > 0, X3 > 0) = 0 <
1
= P (X1 > 0)P (X2 > 0)P (X3 > 0)
8
mas
P (X1 ≤ 0, X2 ≤ 0, X3 ≤ 0) =
1
1
> = P (X1 ≤ 0)P (X2 ≤ 0)P (X3 ≤ 0);
4
8
• Contra-Exemplo 2: Nem v.a. NUOD e nem v.a. NLOD implica em v.a. NA [23]
No contra-exemplo seguinte, X = (X1 , X2 , X3 , X4 ) será NOD mas não será NA.
21
Seja o vetor aleatório X = (X1 , X2 , X3 , X4 ) onde cada v.a. Xi possui Distribuição de Bernoulli
com P (Xi = 1) = 0, 5, i = 1, ..., 4. Considere os pares (X1 , X2 ) e (X3 , X4 ) possuindo a mesma
distribuição bivariada. A função de probabilidade conjunta de (X1 , X2 , X3 , X4 ) é dada pela
Tabela 6.1.
Pode-se verificar que todas as condições NLOD e NUOD são válidas.
Porém, P (Xi = 1, i = 1, ..., 4) > P (X1 = X2 = 1)P (X3 = X4 = 1) viola o conceito NA;
• Contra-Exemplo 3: RTD não implica em LTI [8]
Sejam (X, Y ) duas v.a. tendo função de probabilidade conjunta dada pela Tabela 6.2.
Como P (Y > 0|X ≥ 0) =
3
10 ,
P (Y > 0|X ≥ 1) =
44
165 ,
P (Y > 0|X ≥ 2) =
30
165
e
P (Y > 0|X ≥ 3) = 0 tem-se que Y é RTD em X.
Porém, P (Y = 0|X ≤ 0) =
3
5
>
5
9
= P (Y = 0|X ≤ 1) e, assim, Y não é LTI em X;
• Contra-Exemplo 4: LTI não equivale à RTD [8]
Para mostrar que LTI não implica em RTD, considere (X, Y ) duas v.a. tendo distribuição
conjunta de probabilidade dada pela Tabela 6.3.
Como P (Y = 0|X ≤ 0) = 52 , P (Y = 0|X ≤ 1) = 12 , P (Y = 0|X ≤ 2) =
P (Y = 0|X ≤ 3) =
3
5
3
5
e
tem-se que Y é LTI em X.
Porém, P (Y = 1|X > 1) = 0, 30 < 0, 40 = P (Y = 1|X > 2) e, assim, Y não é RTD em X;
• Contra-Exemplo 5: Para n ≥ 3, LTIS não equivale à NUOD [8]
Considere as v.a. X, Y e Z tais que Z condicionado em X ≤ x e Y ≤ y, possui função
densidade
P (Z ≤ z|X ≤ x, Y ≤ y) = 1 − exp{−z(x + y)}
(5.12)
com z > 0. As v.a. X e Y possuem função de distribuição conjunta dada pela Tabela 6.3.
Desde que lado direito de (5.12) é crescente em x e y e, a partir do exemplo supra-citado,
(X, Y ) é LTI e a sequência (X, Y, Z) é LTIS.
22
Porém, desde que
P (Z ≤ z|X ≤ x) = 1 − exp{−z(x + 1)}
e
P (Z ≤ z|Y ≤ y) = 1 − exp{−z(y + 3)}
segue que
P (X > 2, Y > 0, Z > 2) = e−8 −1, 35e−6 +0, 45e−4 > 0, 1e−8 = P (X > 2)P (Y > 0)P (Z > 2);
• Contra-Exemplo 6: CDS não implica em RTDS [8]
Para mostrar que CDS não implica em RTDS, considere X1 , X2 e X3 v.a. tais que
fX3 |X1 ,X2 (x3 |x1 , x2 ) = x2 e−x2 x3
com x3 > 0. As v.a. X1 e X2 possuem função de probabilidade conjunta dada pela Tabela
6.4.
Como P (X2 > 1|X1 = 0) = 1, P (X2 > 1|X1 = 1) = 31 , P (X2 > 1|X1 = 2) = 14 ,
P (X2 > 2|X1 = 0) = 31 , P (X2 > 2|X1 = 1) =
1
3
e P (X2 > 2|X1 = 2) = 0 tem-se que X2 é
SD em X1 . Além disso, como P (X3 > x|X1 = x1 , X2 = x2 ) = exp{−x2 x} ↓ x2 tem-se que
(X1 , X2 , X3 ) é CDS.
Por outro lado, utilizando-se a identidade
P (C|A ∪ B) = P (C|A)
P (B)
P (A)
+ P (C|B)
P (A) + P (B)
P (A) + P (B)
quando P (A ∩ B) = 0, P (A) > 0 e P (B) > 0, obtém-se
P (X3 > x|X1 > 0, X2 > 1) =
=
1
P (X3 > x|X1 = 1, X2 = 3) + P (X3 > x|X1 = 2, X2 = 2) =
2
1 −3x
e
+ e−2x
2
enquanto que P (X3 > x|X1 > 1, X2 > 1) = P (X3 > x|X1 = 2, X2 = 2) = e−2x .
23
Como P (X3 > x|X1 > 1, X2 > 1) > P (X3 > x|X1 > 0, X2 > 1), ∀x > 0 tem-se que
(X1 , X2 , X3 ) não é RTDS;
• Contra-Exemplo 7: NA não implica em RR2 aos pares, CDS ou NDS [23]
No contra-exemplo seguinte, será mostrado que Y é NA mas não é RR2 aos pares, CDS ou
NDS.
Seja X = (X1 , X2 , X3 ) um vetor aleatório possuindo uma função de probabilidade multinomial
trivariada f com probabilidades p1 , p2 e p3 estritamente positivas e X1 + X2 + X3 = 3.
Considere o vetor aleatório induzido Y = (Y1 , Y2 ) onde Y1 = X1 X2 e Y2 = X3 . A função de
probabilidade conjunta de (Y1 , Y2 ) será denotada por g e é dada pela Tabela 6.5.
A Distribuição Multinomial é RR2 aos pares, CDS e NDS [2, 28]. Será mostrado que a função
de probabilidade conjunta g não é nem RR2 , nem CDS e nem NDS.
Pela função de probabilidade conjunta g de (Y1 , Y2 ) obtém-se que
g(0, 0) g(0, 1)
P (x) = g(1, 0) g(1, 1)
>0
Então, conclui-se que g não é RR2 .
Notando que P (Y2 > 0|Y1 = 0) = 1 − P (Y2 = 0|Y1 = 0) < 1 enquanto que
P (Y2 > 0|Y1 = 1) = 1 − P (Y2 = 0|Y1 = 1) = 1, conclui-se que Y não é CDS.
Como, para um vetor bivariado, CDS equivale à NDS, segue que Y não é NDS.
Pelas propriedades 7 e 4 da seção 1.4, conclui-se, respectivamente, que X é NA e Y é NA.
Portanto, NA não implica em RR2 aos pares, CDS ou NDS já que Y é NA mas não é RR2 ,
CDS ou NDS.
Além das implicações, citadas anteriormente, que não são válidas, tem-se, também, que CIS não
implica RTIS [8], RTIS não implica CIS [8].
1.6
Tabelas referentes ao Capítulo
24
Tabela 6.1: Função de probabilidade conjunta de (X1 , X2 , X3 , X4 )
Y /X
(0,0)
(0,1)
(1,0)
(1,1)
(0,0)
0,0577
0,0623
0,0623
0,0577
(0,1)
0,0623
0,0677
0,0677
0,0623
(1,0)
0,0623
0,0677
0,0677
0,0623
(1,1)
0,0577
0,0623
0,0623
0,0577
Tabela 6.2: Função de probabilidade conjunta de X e Y
Y /X
0
1
2
3
0
0,15
0,10
0,20
0,25
1
0,10
0,10
0,10
0
Tabela 6.3: Função de probabilidade conjunta de X e Y
Y /X
0
1
2
3
0
0,10
0,15
0,20
0,15
1
0,15
0,10
0,05
0,10
Tabela 6.4: Função de probabilidade conjunta de X e Y
Y /X
0
1
2
1
0
0,20
0,30
2
0,20
0
0,10
3
0,10
0,10
0
25
Tabela 6.5: Função de probabilidade conjunta de (Y1 , Y2 )
Y /X
0
1
2
0
f (0, 3, 0) + f (3, 0, 0)
0
f (1, 2, 0) + f (2, 1, 0)
1
f (0, 2, 1) + f (2, 0, 1)
f (1, 1, 1)
0
2
f (0, 1, 2) + f (1, 0, 2)
0
0
3
f (0, 0, 3)
0
0
26
Capítulo 2
Teoria de Cópulas
2.1
Introdução
Desde que Joe (1997) [25] e Nelsen (1999) [31] pela primeira vez introduziram o conceito de cópulas para uso em modelagem padrão, tem havido um interesse crescente nesta abordagem. Cópulas
tornaram-se uma ferramenta popular de modelagem multivariada em muitos domínios onde a dependência multivariada é de interesse e o uso da habitual normalidade multivariada está em questão.
Em ciências autuárias cópulas são usadas na modelagem de mortalidade e perdas [13, 14, 15]. Em
finanças, cópulas são usadas na classificação de crédito e modelagem de risco [3, 9, 7]. Em estudos
biomédicos, cópulas são utilizadas na modelagem de eventos correlacionados e riscos competitivos
[37]. Em engenharia, cópulas são utilizadas no controle de processo multivariado e modelagem
hidrológica [16].
Quando se fala em modelagem de dependência, hoje em dia um dos primeiros temas a ser levado
em consideração é a recente teoria de cópulas discutida por Joe [25] e Nelsen [31]. Esta teoria
se torna atrativa devido às cópulas abrangerem um grande leque de estruturas de dependência e
conseguirem modelar completamente a estrutura de dependência dos dados.
A modelagem através da distribuição normal é amplamente utilizada por sua simplicidade
analítica e fácil estimação da matriz de correlação, seu único parâmetro de dependência, e por
conta da vasta gama de estruturas que podem ser modeladas por esta distribuição. Porém algumas
27
28
de suas característica, de simetria e curtose, por exemplo, limitam sua utilização. Como Embrechts
et. al. [10] mostram, há muitos obstáculos à suposição de normalidade. Para os mercados de crédito
e financeiro, o principal é a característica de pequena probabilidade em eventos extremos conjuntos.
Evidências empíricas sugerem que no comportamento destes mercados verificam-se eventos extremos
mais prováveis que os previstos pela distribuição normal, não só nas marginais, mas também em
dimensões superiores. Neste contexto, a modelagem através das cópulas torna-se atraente devido a
sua maior variedade de estruturas de dependência.
A cópula é uma distribuição multivariada cujas marginais são U (0, 1). Seja o vetor aleatório
U = (U1 , . . . , Ud ) ∈ Id com cópula d-dimensional C, temos
C(u1 , . . . , ud ) = P (U1 ≤ u1 , . . . , Ud ≤ ud ), (u1 , . . . , ud ) ∈ Id
e combinado com o fato de que qualquer v.a. contínua pode ser transformada por sua acumulada
para uma v.a. com distribuição U (0, 1), cópulas podem ser usadas para fornecer uma estrutura de
dependência multivariada separadamente das distribuições marginais. Seja H uma f.d.a. de X =
(X1 , . . . , Xd ) com marginais F1 , . . . , Fd , Sklar [36] mostrou que existe uma cópula C d-dimensional
tal que para todo xi ∈ Dom Fi ,
H(x1 , . . . , xd ) = C(F1 (x1 ), . . . , Fd (xd ))
(1.1)
Como visto, com cópulas pode-se trabalhar a estrutura de dependência em um contexto multivariado, porém esta dissertação trata apenas do contexto bidimensional, apresentando todos os
resultados para esta dimensão. Também não há impedimento para se trabalhar com o Kendall Plot,
objeto central da tese, em um contexto multivariado, por uma questão de exemplificação trabalha-se
em um contexto bivariado.
A função cópula C associada ao vetor aleatório (X, Y ) também é conhecida como função dependência, já que a cópula contém toda informação de dependência entre as variáveis X e Y . Desta
maneira a utilização da equação (1.1) possibilita trabalhar com a estrutura de dependência de
(X, Y ) de forma livre de medida de escala e locação, restringindo-se apenas ao intervalo [0, 1]. A
característica da informação de dependência que a cópula contém pode ser vista através do seguinte
exemplo.
29
Exemplo 2.1. São geradas duas amostras, de forma independente. Sejam (x1 . . . x100 ) e (y1 . . . y100 )
pseudo observações independentes com distribuição F1 (x) = 1 − exp(−2x) e F2 (y) = 1 − exp(−10y)
respectivamente. Observando o scatterplot de X e Y na Figura 2.1 vê-se que não fica evidente a
independência entre essas variáveis. Porém, ao plotar (F1 (xi ), F2 (yi )), as amostras transformadas
pelas respectivas acumuladas F1 e F2 , fica evidente a independência entre X e Y . Visto que a cópula
é a distribuição conjunta entre F1 (X) e F2 (Y ). Mostra-se que a cópula evidencia a verdadeira independência existente entre X e Y e como a forma das marginais pode produzir uma falsa impressão
de dependência.
Como a cópula é uma função de (U1 , ..., Un ) onde Ui = Fi (Xi ), i = 1, .., n, observa-se que quando
se tem valores observados de duas v.a. X e Y , a cópula modela a ordem dos valores observados das
v.a. X e Y pois considera-se a f.d.a. de cada v.a. sendo que a ordem da amostra é algo inerente à
esta função. Esta ordem é evidenciada através do Gráfico de Dispersão dos valores uniformizados
F1 (x) e F2 (y).
2.2
Cópula e Teorema de Sklar
Definição 2.1. Sejam S1 e S2 subconjuntos não vazios de R̄, função H : S1 × S2 → R e o retângulo
B = [x1 , x2 ] × [y1 , y2 ], (xi , yi ) ∈ Dom H com i, j = 1, 2, . . .. Define-se H-volume de B como
VH (B) = H(x2 , y2 ) + H(x2 , y1 ) − H(x1 , y2 ) + H(x1 , y1 )
(2.2)
Definição 2.2. Uma função H bidimensional é bicrescente se VH (B) ≥ 0, ∀B, com VH (B) dado
pela Definição 2.1.
Exemplo 2.2. Uma função não decrescente marginalmente pode não ser bicrescente. Seja H : I2 →
I definida por H(x, y) = max(x, y), temos VH (I2 ) = −1, ou seja, H não é bicrescente.
Exemplo 2.3. Uma função pode ser bicrescente e decrescente em alguns de seus argumentos. Seja
H : I2 → I definida por H(x, y) = (2x − 1)(2y − 1). Note que VH (B) pode ser reescrito como
VH (B) = (y2 − y1 )(4x2 − 4x1 ) ≥ 0, pois x1 ≤ x2 e y1 ≤ y2 no retângulo B, logo H é bicrescente.
Porém H é uma função decrescente de x para cada y ∈ (0, 1/2) e função decrescente de y para cada
x ∈ (0, 1/2).
30
Figura 2.1: Scatterplots: Dados exponenciais independentes (primeira figura); dados exponenciais
independentes transformados pelas acumuladas (segunda figura).
31
Definição 2.3. Uma aplicação H : S1 × S2 → R é aplanada se H(x, a1 ) = 0 = H(a1 , y), ∀(x, y) ∈
S1 × S2 , onde ai = min{z : z ∈ Si }.
Definição 2.4. Uma subcopula é uma função C 0 com as seguintes propriedades:
1. Dom C 0 = S1 × S2 , onde S1 e S2 são subconjuntos de I contendo 0 e 1;
2. C 0 é aplanada e bicrescente;
3. C 0 é marginalmente uniforme, ou seja, para todo u ∈ S1 e v ∈ S2 ,
C 0 (u, 1) = u e C 0 (1, v) = v
(2.3)
Exemplo 2.4. Sejam S1 = S2 = {0, 1}. A função C 0 : S1 × S2 7−→ R definida por
C 0 (0, 0) = C 0 (0, 1) = C 0 (1, 0) = 0 e C 0 (1, 1) = 1
é a mais simples subcopula.
Definição 2.5. Uma cópula é uma subcopula cujo domíno é I2 .
Exemplo 2.5. As funções W, M : I2 → I dadas por W (u, v) = max(u + v − 1, 0) e M (u, v) =
min(u, v) são exemplos particulares de cópulas denotadas respectivamente por M e W . É trivial
mostrar que a função M (u, v) é aplanada e marginalmente uniforme. Para verificar que esta função é
bicrescente, considere o retângulo B = [x1 , x2 ] × [y1 , y2 ], x1 , x2 , y1 e y2 ∈ I, para o caso y2 ≥ x2 ≥ x1
e x1 ≤ y1 ≤ x2 e desta maneira
VM (B) = M (x2 , y2 ) − M (x2 , y1 ) − M (x1 , y2 ) + M (x1 , y1 ) = x2 − y1 ≥ 0
Para os demais casos a demonstração é análoga. A cópula W pertence a classe das cópulas
Arquimedianas e será vista na próxima seção.
Como toda cópula é uma subcopula, os próximos conceitos são apresentados para subcopulas,
logo válidos paracópulass.
Teorema 2.1. Uma subcopula bidimensional C 0 é marginalmente não decrescente.
32
Demonstração. Primeiro, provemos que a aplicação t → C 0 (t, y2 ) − C 0 (t, y1 ), y1 , y2 ∈ I, y1 ≤ y2 é
não decrescente. Consideremos T (t) = C 0 (t, y2 )−C 0 (t, y1 ), se t1 ≤ t2 , ti ∈ I, temos T (t2 )−T (t1 ) ≥ 0,
pois
T (t2 ) − T (t1 ) = C 0 (t2 , y2 ) − C 0 (t2 , y1 ) − C 0 (t1 , y2 ) + C 0 (t1 , y1 ) = VC0 (B)
onde B = [t1 , t2 ] × [y2 , y1 ]. Como C 0 é bicrescente, então VC0 (B) ≥ 0, logo a aplicação é não
decrescente. Analogamente verifica-se que a aplicação T ∗ (t) = C 0 (x2 , t) − C 0 (x1 , t), x1 , x2 ∈ I, x1 ≤
x2 é não decrescente. Agora, seja x1 = y1 = 0 nas aplicações T e T ∗ , como C 0 é aplanda, segue que
C 0 é marginalmente não decrescente.
Teorema 2.2. Seja C 0 uma subcopula. Então para todo (u, v) ∈ Dom C 0 ,
max(u + v − 1, 0) ≤ C 0 (u, v) ≤ min(u, v)
(2.4)
Demonstração. Como C 0 é aplanada, marginalmente uniforme e não decrescente temos
0 = C 0 (0, v) ≤ C 0 (u, v) ≤ C 0 (1, v) = v
e
0 = C 0 (u, 0) ≤ C 0 (u, v) ≤ C 0 (u, 1) = u
(2.5)
Logo,
C 0 (u, v) ≤ min(u, v)
Como C 0 também é bicrescente, então VC 0 (B) ≥ 0. Sendo B = [u, 1] × [v, 1] temos
VC 0 (B) = C 0 (1, 1) + C 0 (u, v) − C 0 (u, 1) − C 0 (1, v)
= 1 + C 0 (u, v) − u − v ≥ 0
(2.6)
Portanto pelas equações (2.5) e (2.6), temos C 0 (u, v) ≥ max(u + v − 1, 0).
Conforme Exemplo 2.5, os limites na equação (2.4) são as cópulas M e W . Então para toda
cópula C e para todo (u, v) ∈ I2 ,
W (u, v) ≤ C(u, v) ≤ M (u, v)
(2.7)
A desigualdade (2.7) é denominada desigualdade dos limites de Frechét, a cópula M é nomeada por
limite superior de Frechét e a cópula W por limite inferior de Frechét.
A ligação entre funções distribuição multivariada e suas marginais univariadas é feita pelo Teorema de Sklar apresentado a seguir, por meio das cópulas. O nome cópula foi escolhido para enfatizar
a maneira como a cópula une uma função distribuição conjunta às suas marginais univariadas.
33
Teorema 2.3. Seja H uma função distribuição conjunta com marginais F e G. Então existe uma
cópula C tal que para todo x, y ∈ R̄,
H(x, y) = C(F (x), G(y))
(2.8)
Se F e G são contínuas, então C é única; caso contrário, C é unicamente determinada em Im(F ) ×
Im(G). Inversamente, se C é uma cópula e F e G são f.d.a., então a função H definida pela equação
(2.8) é uma função distribuição conjunta com marginais F e G.
Demonstração. A prova segue dos lemas 2.1 e 2.2 apresentados a seguir.
Lema 2.1. Seja H uma função distribuição conjunta com marginais F e G. Então existe uma única
subcopula C 0 tal que
1. Dom C 0 = Im(F ) × Im(G);
2. ∀x, y ∈ R̄, H(x, y) = C 0 (F (x), G(y))
Demonstração. Sejam (x1 , y1 ), (x2 , y2 ) ∈ Dom H. Pela desigualdade triangular, temos
|H(x2 , y2 ) − H(x1 , y1 )| ≤ |H(x2 , y2 ) − H(x1 , y2 )| + |H(x1 , y2 ) − H(x1 , y1 )|
Considere x1 ≤ x2 . Como H é uma função distribuição conjunta, então
0 ≤ H(x2 , y2 ) − H(x1 , y2 ) ≤ F (x2 ) − F (x1 )
por H ser marginalmente decrescente, aplanada, H(x, ∞) = F (x) e H(∞, y) = G(y). Uma desigualdade análoga é válida quando x2 ≤ x1 . Portanto segue que para qualquer x1 , x2 ∈ S1 ,
|H(x2 , y2 ) − H(x1 , y2 )| ≤ |F (x2 ) − F (x1 )|. Similarmente para qualquer y1 , y2 ∈ S2 , |H(x1 , y2 ) −
H(x1 , y1 )| ≤ |G(y2 ) − G(y1 )|, logo
|H(x2 , y2 ) − H(x1 , y1 )| ≤ |F (x2 ) − F (x1 )| + |G(y2 ) − G(y1 )|
(2.9)
Desta forma, segue que se F (x1 ) = F (x2 ) e G(y1 ) = G(y2 ), então H(x1 , y1 ) = H(x2 , y2 ) e consequentemente o conjunto de pares {(F (x), G(y)), H(x, y)} permite definir uma função
C0
(F (x), G(y)) → H(x, y)
34
sendo C 0 única com domínio Im(F ) × Im(G). A prova que a função C 0 é uma subcopula segue
diretamente das propriedades da distribuição conjunta H [22]. Para cada u ∈ Im(F ), existe um
x ∈ R̄ tal que F (x) = u, então
C 0 (u, 1) = C 0 (F (x), G(∞)) = H(x, ∞) = F (x) = u
C 0 (u, 0) = C 0 (F (x), G(−∞)) = H(x, −∞) = 0
Como H é bicrescente por definição, logo C 0 é bicrescente.
Lema 2.2. Seja C 0 uma subcopula. Então existe uma cópula C tal que C(u, v) = C 0 (u, v), ∀(u, v) ∈
Dom C 0 ; isto é, qualquer subcopula pode ser extendida a umacópulaa. A extensão é geralmente não
única.
Demonstração. Da equação (2.9) e usando o item 2. do Lema 2.1, concluímos que C 0 é uniformemente contínua em seu domínio Im(F ) × Im(G), ou seja,
|C 0 (u2 , v2 ) − C 0 (u1 , v1 )| ≤ |u2 − u1 | + |v2 − v1 |
Denotemos Im(F ) por S1 e Im(G) por S2 .
Da continuidade de C 0 podemos estender C 0 a uma função C 00 , ainda subcopula, com domínio
em S̄1 × S̄2 , onde S̄1 é o fecho de S1 e S̄2 é o fecho de S2 . O próximo passo é estender a subcopula C 00
a uma função C com domínio em I2 . Para este fim, seja (a, b) ∈ I2 , e sejam a1 e a2 , respectivamente,
o menor e o maior elemento de S̄1 que satisfaça a1 ≤ a ≤ a2 ; e sejam b1 e b2 , respectivamente, o
menor e o maior elemento de S̄2 que satisfaça b1 ≤ b ≤ b2 . Se a ∈ S̄1 , defina a1 = a2 = a; e se
b ∈ S̄2 , defina b1 = b2 = b. Desta maneira, sejam
(
λ1 =
1, se a1 = a2
(
µ1 =
(a − a1 )/(a2 − a1 ), se a1 < a2
(b − b1 )/(b2 − b1 ), se b1 < b2
1, se b1 = b2
e define-se
C(a, b) = (1 − λ1 )(1 − µ1 )C 00 (a1 , b1 ) + (1 − λ1 )µ1 C 00 (a1 , b2 )
+ λ1 (1 − µ1 )C 00 (a2 , b1 ) + λ1 µ1 C 00 (a2 , b2 ).
(2.10)
35
É trivial que Dom C = I2 e que C(a, b) = C 00 (a, b), ∀(a, b) ∈ Dom C 00 . Como λ1 e µ1 são
lineares em a e b, a forma C(a, b) da equação (2.10) é bilinear em (a, b) propriedade que permite
demonstrar que C é aplanada e marginalmente uniforme. Conforme Definição 2.5, para C ser uma
cópula falta provar que C é bicrescente. Seja (c, d) outro ponto em I2 tal que c ≥ a e d ≥ b, e
sejam c1 , d1 , c2 , d2 , λ2 , µ2 relacionados a c e d assim como a1 , b1 , a2 , b2 , λ1 , µ1 são relacionados a a e
b. Deve-se provar que VC (B) ≥ 0 para o retângulo B = [a, c]×[b, d]. Diversos casos são considerados
para esta prova. O mais simples dos casos é aquele em que não existe ponto em S̄1 estritamente
entre a e c e não há ponto em S̄2 estritamente entre b e d, então temos c1 = a1 , c2 = a2 , d1 = b1 e
d2 = b2 . Substituindo a equação (2.10) e os termos correspondentes para C(a, d), C(c, b) e C(c, d)
na expressão dada pela equação (2.2) para VC (B), temos
VC (B) = VC ([a, c] × [b, d]) = (λ2 − λ1 )(µ2 − µ1 )VC ([a1 , a2 ] × [b1 , b2 ]),
de que segue que VC (B) ≥ 0 neste caso, pois c ≥ a e d ≥ b implica λ2 ≥ λ1 e µ2 ≥ µ1 .
Outro caso de interesse é quando pelo menos um ponto está em S̄1 estritamente entre a e c, e
pelo menos um ponto está em S̄2 estritamente entre b e d, então a < a2 ≤ c1 < c e b < b2 ≤ d1 < d.
Para este caso, substituindo a equação (2.10) e os termos correspondentes para C(a, d), C(c, b) e
C(c, d) na expressão dada pela equação (2.2) para VC (B) e reordenando os termos temos
VC (B) = (1 − λ1 )µ2 VC ([a1 , a2 ] × [d1 , d2 ]) + µ2 VC ([a2 , c1 ] × [d1 , d2 ])
+ λ2 µ2 VC ([c1 , c2 ] × [d1 , d2 ]) + (1 − λ1 )VC ([a1 , a2 ] × [b2 , d1 ])
+ VC ([a2 , c1 ] × [b2 , d1 ]) + λ2 VC ([c1 , c2 ] × [b2 , d1 ])
+ (1 − λ1 )(1 − µ1 )VC ([a1 , a2 ] × [b1 , b2 ])
+ (1 − µ1 )VC ([a2 , c1 ] × [b1 , b2 ]) + λ2 (1 − µ1 )VC ([c1 , c2 ] × [b1 , b2 ]).
O lado direito da expressão acima é a soma de combinações de nove quantidades não negativas, representadas por C-volumes, com coeficientes não negativos, logo é não negativa. Os casos
remanescentes são similares, que completam a prova.
Antes de apresentar o próximo resultado é necessária a definição de quasi-inversa.
Definição 2.6. Seja F uma função distribuição acumulada. Então a quasi-inversa de F é qualquer
função F (−1) com domínio em I tal que
36
1. Se t ∈ Im(F ), então F (−1) (t) = x com x ∈ R tal que F (x) = t, ou seja, ∀t ∈ Im(F ),
F (F (−1) (t)) = t;
2. Se t ∈
/ Im(F ), então
F (−1) (t) = inf{x|F (x) ≥ t} = sup{x|F (x) ≤ t}.
Corolário 2.1. Sejam H, F, G e C 0 como no Lema 2.1, e sejam F (−1) e G(−1) as quasi-inversas de
F e G, respectivamente. Então para qualquer (u, v) ∈ Dom C 0 ,
C 0 (u, v) = H(F (−1) (u), G(−1) (v))
(2.11)
Sejam x ∈ Dom(F ) e y ∈ Dom(G) conforme Teorema 2.3 se u = F (x) e v = G(y), então
x = F (−1) (u) e y = G(−1) (v). Quando F e G são contínuas o Corolário 2.1 é válido para cópulas
e temos U, V com distribuição U (0, 1) onde U = F (X) e V = G(Y ). Deste modo a cópula C é
distribuição conjunta do vetor aleatório (U, V ) com marginais U (0, 1).
Exemplo 2.6. Um método para construção de cópulas é resultante do último corolário. Seja H a
distribuição da independência
H(x, y) = F (x)G(y)
(2.12)
com marginais F (x) = 1 − exp(−2x) e G(y) = 1 − exp(−y), onde as respectivas quasi-inversas são
dada por
(
F
(−1)
(u) =
(
G
(−1)
(v) =
,
− log(1−u)
2
se
x≥0
0, c.c.
− log(1 − v),
se
x≥0
0, c.c.
Logo, a cópula associada a H é dada por
C(u, v) = H(F (−1) (u), G(−1) (v))
= F {F (−1) (u)}G{G(−1) (v)}
= [1 − e−2 log(1−u)/2 ][1 − e− log(1−v) ]
= uv
37
Esta cópula recebe a notação especial Π e é denominada cópula produto. Sua estrutura caracteriza
a independência entre as v. a. X e Y quando as f.d.a. F e G são contínuas. Note que se a conjunta
H é definida pela equação (2.12), a estrutura de dependência entre as v.a. X e Y independe de suas
marginais, pois
C(u, v) = H(F (−1) (u), G(−1) (v)) = F {F (−1) (u)}G{G(−1) (v)} = uv
pela definição de quasi-inversa (Definição 2.6).
Muito da utilidade de cópulas no estudo de estatísticas não paramétricas deriva do fato que sob
transformações monótonas estritas de v.a. as cópulas são invariantes, ou são alteradas de modo
previsível como visto nos próximos dois resultados.
Teorema 2.4. Sejam X e Y v.a. contínuas com cópula CX,Y . Se α e β são funções estritamente
crescentes na Im(X) e Im(Y ) respectivamente, então Cα(X),β(Y ) = CX,Y .
Demonstração. Sejam F1 , G1 , F2 e G2 as respectivas distribuições de X, Y, α(X) e β(Y ), respectivamente. Assim, para qualquer x, y ∈ R̄,
Cα(X),β(Y ) (F2 (x), G2 (y)) = P [α(X) ≤ x, β(Y ) ≤ y] = P [X ≤ α−1 (x), Y ≤ β −1 (y)]
= CX,Y (F1 (α−1 (x)), G1 (β −1 (y))) = CX,Y (F2 (x), G2 (y))
Desde que X e Y são contínuas, Im(F2 ) = Im(G2 ) = I, logo segue que Cα(X),β(Y ) = CX,Y em
I2 .
Quando pelo menos uma função, α ou β, é estritamente decrescente, a cópula das v.a. α(X) e
β(Y ) é uma simples transformação de CX,Y .
Teorema 2.5. Sejam X, Y v.a. contínuas com cópula CX,Y e α e β funções estritamente monótonas
na Im(X) e Im(Y ) resprectivamente.
1. Se α é estritamente crescente e β é estritamente decrescente, então
Cα(X),β(Y ) (u, v) = u − CX,Y (u, 1 − v), u, v ∈ I.
38
2. Se α é estritamente decrescente e β é estritamente crescente, então
Cα(X),β(Y ) (u, v) = v − CX,Y (1 − u, v), u, v ∈ I.
3. Se α e β ambas são estritamente decrescentes, então
Cα(X),β(Y ) (u, v) = u + v − 1 + CX,Y (1 − u, 1 − v), u, v ∈ I.
Demonstração. Sejam F1 , G1 , F2 e G2 as distribuições de X, Y, α(X) e β(Y ) respectivamente. Tomemos
u ∈ Im(F2 ) e v ∈ Im(G2 ) tais que u = F2 (x) para algum x ∈ Im(F2 ) = I (devido a v.a. α(X) ser
contínua) e v = G2 (y) para algum y ∈ Im(G2 ) = I (devido a v.a. β(X) ser contínua).
Demonstração item 1.:
(2.8)
Cα(X),β(Y ) (u, v) = Cα(X),β(Y ) (F2 (x), G2 (y)) = P (α(X) ≤ x, β(Y ) ≤ y)
= P (X ≤ α−1 (x), Y ≥ β −1 (y))
(2.13)
Como,
F2 (x) = P (α(X) ≤ x) = P (X ≤ α−1 (x)) = F1 (α−1 (x))
= P (X ≤ α−1 (x), Y ≤ β −1 (y)) + P (X ≤ α−1 (x), Y ≥ β −1 (y))
(2.14)
e
G2 (y)
=
P (β(Y ) ≤ y) = P (Y ≥ β −1 (y)) = 1 − G1 (β −1 (y))
⇒ G1 (β −1 (y)) = 1 − G2 (y)
(2.15)
temos
P (X ≤ α−1 (x), Y ≤ β −1 (y)) = CX,Y (F1 (α−1 (x)), G1 (β −1 (y)))
= CX,Y (F2 (x), 1 − G2 (y))
= CX,Y (u, 1 − v)
onde a segunda igualdade se refere às equações (2.14) e (2.15).
(2.16)
39
Substituindo a equação (2.16) na equação (2.14)
F2 (x)
=
P (X ≤ α−1 (x), Y ≥ β −1 (y)) + CX,Y (u, 1 − v)
⇒ P (X ≤ α−1 (x), Y ≥ β −1 (y)) = u − CX,Y (u, 1 − v)
(2.17)
Desta forma, substituindo a equação (2.17) na equação (2.13), se completa a prova.
Demonstração item 2.: análoga a demonstração item 1.
Demonstração item 3.:
(2.8)
Cα(X),β(Y ) (u, v) = Cα(X),β(Y ) (F2 (x), G2 (y)) = P (α(X) ≤ x, β(Y ) ≤ y)
= P (X ≥ α−1 (x), Y ≥ β −1 (y))
= 1 − [P (X ≤ α−1 (x)) + P (Y ≤ β −1 (y)) − P (X ≤ α−1 (x), Y ≤ β −1 (y))]
= 1 − F1 (α−1 (x)) − G1 (β −1 (y)) + P (X ≤ α−1 (x), Y ≤ β −1 (y))
(2.18)
Reescrevendo F1 (α−1 (x)), temos
F1 (α−1 (x)) = 1 − P (X ≥ α−1 (x)) = 1 − P (α(X) ≤ x) = 1 − F2 (x)
(2.19)
e, analogamente
G1 (β −1 (y)) = 1 − G2 (y)
(2.20)
Substituindo as equações (2.19) e (2.20) na equação (2.18) e utilizando o Teorema 2.3,
Cα(X),β(Y ) (u, v) = 1 − [1 − F2 (x)] − [1 − G2 (y)] + CX,Y (F1 (α−1 )(x), G1 (β −1 (y))
= u + v − 1 + CX,Y (1 − u, 1 − v)
2.3
Cópulas Arquimedianas
O termo cópula Arquimediana foi mencionado pela primeira vez na literatura estatística em dois
artigos de Genest & Mackay (1986ab) [17] e [18]. Cópulas Arquimedianas também são mencionadas
por Schweizer and Sklar (1983) [34], mas sem o nome Arquimediana.
40
A Classe das cópulas Arquimedianas abrange uma grande variedade de estruturas de dependência, incluindo estruturas próprias de estudos financeiros. Algumas questões em finanças exigem
modelos que permitem uma forte dependência entre as perdas extremas (por exemplo, bolsas em
colapso) e ganhos extremos. Em particular, as cópulas Arquimedianas podem assumir dependência
caudal assimétrica, sendo uma propriedade a favor de sua aplicação à modelagem de dados com
estrutura de dependênica assimétrica.
Em estudos financeiros um aspecto importante a ser analisado é a dependência caudal. Dependência caudal inferior e superior entre dois mercados financeiros existe quando a probabilidade
de valores conjuntos negativos (positivos) em eventos extremos é maior que a que poderia ser prevista a partir das distribuições marginais. Recentes estudos empíricos mostram que períodos de
turbulência e calma em finanças são caracterizados por diferentes níveis de dependência caudal,
sendo a dependência mais forte sobre a cauda inferior do que na cauda superior.
As cópulas Arquimedianas podem ser construídas facilmente e a forma fechada para sua expressão é simples. Estas facilidades se devem ao fato da representação da cópula Arquimediana
permitir reduzir o estudo de cópula multivariada ao estudo de uma função univariada denotada por
gerador de uma cópula Arquimediana φ. A seguir esta função é apresentada com mais detalhes.
Definição 2.7. Seja φ : I → [0, ∞] uma função contínua e estritamente decrescente tal que φ(1) = 0.
A pseudo-inversa de φ é a função φ[−1] : [0, ∞] → I dada por
(
φ[−1] (t) =
φ−1 (t), se 0 ≤ t ≤ φ(0)
0, se φ(0) ≤ t ≤ ∞
Note que φ[−1] é contínua e não crescente em [0, ∞], e estritamente decrescente em [0, φ(0)].
Além disso,
φ[−1] (φ(u)) = u, ∀u ∈ I
(3.21)
e
(
[−1]
φ(φ
(t)) =
t, se 0 ≤ t ≤ φ(0)
φ(0), se φ(0) ≤ t ≤ ∞
Finalmente, se φ(0) = ∞, então φ[−1] = φ−1 .
= min(t, φ(0))
41
Lema 2.3. Seja φ e φ[−1] como na Definição 2.7. Seja a função C : I2 → I dada por
C(u, v) = φ[−1] (φ(u) + φ(v))
(3.22)
Então C satisfaz duas das três condições para uma cópula, é aplanada e marginalmente uniforme.
Demonstração.
C(u, 0) = φ[−1] (φ(u) + φ(0)) = 0
A última igualdade segue da definição de pseudo-inversa, pois φ(u) + φ(0) ≥ φ(0) sendo φ uma
função que assume somente valores positivos.
(3.21)
C(u, 1) = φ[−1] (φ(u) + φ(1)) = φ[−1] (φ(u)) = u
(3.23)
Analogamente, por simetria, C(0, v) = 0 e C(1, v) = v.
O seguinte lema apresenta uma condição necessária e suficiente para que a função C na equação
(3.22) seja bicrescente, e portanto, uma cópula.
Lema 2.4. Sejam φ,φ[−1] e C satisfazendo as hipóteses do Lema 2.3. Então C é bicrescente, se e
somente se, sempre que u1 ≤ u2 ,
C(u2 , v) − C(u1 , v) ≤ u2 − u1
(3.24)
Demonstração. (⇒)
VC ([u1 , u2 ] × [v, 1]) = C(u1 , v) + C(u2 , 1) − C(u1 , 1) − C(u2 , v) ≥ 0 ⇔ u2 − u1 ≥ C(u2 , v) − C(u1 , v)
Então, a equação (3.24) é equivalente à condição VC ([u1 , u2 ]×[v, 1]) ≥ 0 que é sempre válida quando
C é bicrescente.
(⇐) Considere C satisfazendo a equação (3.24). Sejam v1 , v2 ∈ I, v1 ≤ v2 , temos C(0, v2 ) = 0 ≤
v1 ≤ v2 = C(1, v2 ). Como C é contínua, desde que φ e φ[−1] também são, existe t ∈ I tal que
C(t, v2 ) = v1 , ou seja, φ(v2 ) + φ(t) = φ(v1 ). Então
C(u2 , v1 ) − C(u1 , v1 )
=
φ[−1] (φ(u2 ) + φ(v1 )) − φ[−1] (φ(u1 ) + φ(v1 ))
=
φ[−1] (φ(u2 ) + φ(v2 ) + φ(t)) − φ[−1] (φ(u1 ) + φ(v2 ) + φ(t))
=
φ[−1] (φ(C(u2 , v2 )) + φ(t)) − φ[−1] (φ(C(u1 , v2 )) + φ(t))
=
C(C(u2 , v2 ), t) − C(C(u1 , v2 , t))
(3.24)
≤
C(u2 , v2 ) − C(u1 , v2 ) ⇔ VC ([u1 , u2 ] × [v1 , v2 ]) ≥ 0
42
O próximo teorema mostra que a condição da função C ser bicrescente dada pelo Lema 2.4
também encontra-se relacionada com uma propriedade da função φ, bem como as outras duas
condições para que C seja uma cópula (Lema 2.3).
Deste modo, somente a estrutura da função φ pode determinar se a função C da equação (3.22)
é ou não uma cópula.
Teorema 2.6. Sejam φ e φ[−1] como na Definição 2.7. Então a função C : I2 → I dada pela
equação (3.22) é uma cópula se e somente se φ é convexa.
Demonstração. Como consequência do Lema 2.4 é necessário provar que a equação (3.24) é válida
se e somente se φ é convexa.
(⇒) Observe que a equação (3.24) é equivalente a
u1 + φ[−1] (φ(u2 ) + φ(v)) ≤ u2 + φ[−1] (φ(u1 ) + φ(v))
para u1 ≤ u2 , se denotarmos a = φ(u1 ), b = φ(u2 ) e c = φ(v), então a equação (3.24) também é
equivalente a
φ[−1] (a) + φ[−1] (b + c) ≤ φ[−1] (b) + φ[−1] (a + c)
(3.25)
onde a ≥ b, por φ ser decrescente, e c ≥ 0.
Supondo a equação (3.24) válida, ou seja, supondo que φ[−1] satisfaça a equação (3.25). Sejam
s, t ∈ [0, ∞] tais que 0 ≤ s ≤ t. Se definirmos a = (s + t)/2, b = s e c = (t − s)/2 na equação (3.25),
temos
[−1]
φ
s+t
2
≤
φ[−1] (s) + φ[−1] (t)
2
Logo φ[−1] é mid-convexa, e desde que φ[−1] é contínua segue que φ[−1] é convexa. O fato de φ[−1]
convexa implica na convexidade de φ.
(⇐) Assuma φ[−1] convexa. Sejam a, b, c ∈ I tais que a ≥ b e c ≥ 0; e seja
0 ≤ γ = (a−b)/(a−b+c) ≤ 1. Deste modo temos a = (1−γ)b+γ(a+c) e b+c = γb+(1−γ)(a+c).
Logo por definição de função convexa,
φ[−1] (a) ≤ (1 − γ)φ[−1] (b) + γφ[−1] (a + c)
43
e
φ[−1] (b + c) ≤ γφ[−1] (b) + (1 − γ)φ[−1] (a + c)
Somando as duas últimas igualdades resulta na equação (3.25), que completa a prova.
Cópulas da forma apresentada na equação (3.22) são denominadas Cópulas Arquimedianas. A
função φ é denominada gerador de uma cópula Arquimediana. Se φ(0) = ∞, φ é denominada
gerador estrito. Conforme Definição 2.7, φ[−1] = φ−1 e C(u, v) = φ−1 (φ(u) + φ(v)) é denominada
cópula Arquimediana estrita. Se φ(0) < ∞, φ é denominada gerador não estrito.
Cópulas Arquimedianas podem ser contruídas usando o Teorema 2.6 - apenas encontrando
funções φ com propriedades que satisfaçam sua hipótese - e definindo as correspondentes cópulas via equação (3.22). Em outras palavras, a cópula Arquimediana C é unicamente determinada
pelo gerador φ.
Exemplo 2.5.(continuação) Seja φ(t) = 1 − t, ∀t ∈ I, um gerador não estrito (Figura 2.2).
De acordo com a Definição 2.7 φ[−1] (t) = φ−1 (t) = 1 − t, ∀t ∈ I e 0 para t > 1, ou seja, φ[−1] (t) =
max(1 − t, 0). Gerando a cópula C via equação (3.22), temos
φ−1 (φ(u) + φ(v)) = max(1 − [(1 − u) + (1 − v)], 0) = max(u + v − 1, 0) = W (u, v)
Sendo então a cópula limite inferior de Frechét uma cópula Arquimediana.
Exemplo 2.6.(continuação) Seja φ(t) = − ln(t), ∀t ∈ I, um gerador estrito (Figura 2.3).
Segue da Definição 2.7 que φ[−1] (t) = φ−1 (t) = exp(−t), 0 ≤ t < ∞. Pela equação (3.22), temos
φ−1 (φ(u) + φ(v)) = exp(−[(− ln u) + (− ln v)]) = uv = Π(u, v)
Deste modo a cópula produto Π é também Arquimediana.
Exemplo 2.7. Uma grande variedade de famílias paramétricas de cópulas pertence a classe das
cópulas Arquimedianas. Nelsen [31] apresenta uma lista extensa com as famílias de cópulas Arquimedianas mais comuns. Algumas destas famílias são apresentadas na Tabela 3.1.
As quatro cópulas apresentam diferenças distintas com relação a estrutura de dependência que
representam. A família de Gumbel apresenta dependência caudal superior, a família de Clayton
apresenta dependência caudal inferior, a família de cópulas 4.2.12 apresenta ambas dependências
caudais e a família de Frank não apresenta dependência caudal, é simétrica em relação a diagonal
secundária.
1.0
0.8
0.6
0.0
0.2
0.4
phi^[−1](t)
0.6
0.4
0.0
0.2
phi(t)
0.8
1.0
44
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.5
1.0
1.5
t
2.0
2.5
3.0
t
Figura 2.2: Gerador φ não estrito e pseudo-inversa φ[−1] para a cópula Arquimediana W .
nome
Cθ (u, v)
Clayton
max [u−θ + v −θ − 1]−1/θ
exp(−[(− ln u)θ
Gumbel
4.2.12
(1
(− ln v)θ ]1/θ )
−θu
−θv −1)
− 1θ ln 1 + (e −1)(e
e−θ −1
+ [(u−1 − 1)θ + (u−1 − 1)θ ]1/θ )−1
Frank
+
φθ (t)
θ∈
estrito
t−θ −1
θ
[−1, ∞]\{0}
θ ≥ 0∗
(− ln t)θ
[1, ∞)
sim
(−∞, ∞)\{0}
sim
[1, ∞)
sim
− ln
e−θv −1
e−θ −1
θ
1
t −1
Tabela 3.1: Algumas famílias paramétricas de cópulas Arquimedianas com seus geradores e espaços
paramétricos (*na cópula de Clayton o gerador é estrito se θ ≥ 0, caso contrário é não estrito).
Nelsen [31] não apresenta nenhum nome especial para a última cópula da Tabela 3.1, logo esta
dissertação refere-se a esta cópula conforme notação deste autor.
0.6
0.4
0.0
0.0
0.5
0.2
1.0
1.5
phi(t)
2.0
phi^[−1](t)
2.5
0.8
3.0
3.5
1.0
45
0.0
0.5
1.0
1.5
2.0
2.5
3.0
0
t
1
2
3
4
t
Figura 2.3: Gerador φ estrito e pseudo-inversa φ[−1] para a cópula Arquimediana Π.
2.4
Cópulas Multivariadas e a Transformada de Laplace
Conforme já mencionado, para a construção de distribuições contínuas multivariadas, pode-se
utilizar as suas funções densidade marginais univariadas e uma estrutura de dependência multivariada, ou seja, a função de distribuição acumulada conjunta FX pode ser obtida através de suas funções
de distribuição acumulada marginais e da cópula que é uma estrutura de dependência dada por uma
distribuição CX associada à X. Em outras palavras, a cópula é a distribuição multivariada de um
vetor aleatório composto por distribuições marginais univariadas U (0, 1). Para uma distribuição mvariada F ∈ =(F1 (x1 ), ..., Fm (xm )), onde Fj é a j-ésima função de distribuição marginal univariada,
a cópula associada à F é uma função distribuição C : [0, 1]m −→ [0, 1] que satisfaz
F (x) = C(F1 (x1 ), ..., Fm (xm ))
onde x ∈ Rm [25].
(4.26)
46
Se F é uma função de distribuição contínua m-variada com marginais univariadas F1 , ..., Fm e
−1 , então C(u) = F (F −1 (u ), ..., F −1 (u )) é única e verifica (4.26).
funções quantis F1−1 , ..., Fm
1
m
m
1
Nesta seção, serão utilizadas mistura de potência das f.d.a. univariadas e a Transformada de
Laplace para a construção de uma cópula C. A seguir será definida a Transformada de Laplace.
Definição 2.8. Seja M uma função de distribuição acumulada de uma v.a. não-negativa. A
Transformada de Laplace é definida por
Z
∞
φ(s) =
e−sw dM (w)
(4.27)
0
onde s ≥ 0 [25].
Se πo for a massa de M em 0, então lims→∞ φ(s) = φ(∞) = πo . Durante o capítulo, será
assumido que as Transformadas de Laplace correspondem à transformadas de v.a. positivas, isto é,
M (0) = 0 ou, em termos de φ(s), φ(∞) = 0. Isto é devido ao fato de que exp{−φ−1 (F (x))} será
uma f.d.a. quando F for uma f.d.a. univariada.
Observa-se que a transformada φ é contínua, estritamente decrescente e satisfaz φ(0) = 1. Então,
o funcional inverso φ−1 é estritamente decrescente e satisfaz φ−1 (0) = ∞ e φ−1 (1) = 0.
Além disso, φ possui derivadas contínuas de todas as ordens e derivadas com sinais alternados,
isto é, (−1)i φ(i) (s) ≥ 0 para todo s ≥ 0 onde φ(i) representa a i-ésima derivada. Esta propriedade
de alternância de sinais na derivada é denominada completamente monótona.
Seja Lm = {φ : [0, ∞) → [0, 1]|φ(0) = 1, φ(∞) = 0, (−1)j φ(j) ≥ 0, j = 1, ..., m}, m = 1, 2, ..., a
classe das funções diferenciáveis, estritamente decrescentes. Considerando a classe
L∗n = {w : [0, ∞) → [0, ∞)|w(0) = 0, w(∞) = ∞, (−1)j−1 w(j) ≥ 0, j = 1, ..., n}, n = 1, 2, ...,
tem-se que as funções em L∗n são, usualmente, composições da forma ψ −1 ◦ φ com ψ, φ ∈ L1 . As
composições do tipo ψ −1 ◦ φ ∈ L∗∞ aparecerão na construção de cópulas trivariadas.
A seguir serão apresentados alguns teoremas sobre a classe L∗∞ . Estes são úteis pois nos fornecem
a imagem das funções que são o domínio das Transformadas de Lapace. Isto nos possibilita verificar
se o domínio das expresões utilizadas na construção de cópulas é [0, ∞).
Teorema 2.7. Seja χ uma Transformada de Laplace. Então χα é completamente monótona para
todo α > 0 se e somente se −ln(χ) ∈ L∗∞ .
47
Demonstração: Para a demonstração consulte [25].
Teorema 2.8. Se ψ é uma Transformada de Laplace tal que −ln(ψ) ∈ L∗∞ e φ é outra Transformada
de Laplace, então η(s) = φ(−ln(ψ(s))) é uma Transformada de Laplace.
Demonstração: Para a demonstração consulte [25].
Seja F uma dada f.d.a. univariada. Então, existe uma única f.d.a. G tal que
∞
Z
Gα (x)dM (α)
F (x) =
(4.28)
0
Comparando (4.27) e (4.28) podemos escrever
Z
F (x) =
∞
Gα (x)dM (α) = φ(−ln(G(x)))
(4.29)
0
−1 (F (x))
Da expressão (4.29) obtemos G(x) = e−φ
−φ−1 (F (x))
G(x) = e
. Para simplificar a notação, o valor x em
será suprimido.
−1 (F
Considerando a classe bivariada =(F1 , F2 ), seja Gj = e−φ
j)
, j = 1, 2. Então, a expressão a
seguir é uma f.d.a. em =(F1 , F2 ):
Z
∞
Gα1 Gα2 dM (α) = φ(−ln(G1 ) − ln(G2 )) = φ(φ−1 (F1 ) + φ−1 (F2 ))
(4.30)
0
A cópula obtida considerando que F1 e F2 assumem valores da distribuição U (0, 1) é
C(u1 , u2 ) = φ(φ−1 (u1 ) + φ−1 (u2 ))
A forma (4.31) é denominada Cópula Arquimediana e possui a seguinte propriedade:
Teorema 2.9. A cópula (4.31) possui densidade T P2 .
Demonstração: Para a demonstração consulte [25].
(4.31)
48
O teorema anterior fornece a dependência da cópula arquimediana. Como ela possui dependência T P2 , que é uma dependência forte, então, ela, também, possui dependência SI, LTD, RTI, PQD.
Porém, ela poderá ser adequada na modeladem de variáveis aleatórias T P2 e não ser adequada na
modelagem de variáveis aleatórias que possuem algum tipo de dependência mais fraco, por exemplo,
v.a. SI.
Para m f.d.a. univariadas, F1 , ..., Fm , uma extensão simples é dada pela f.d.a. multivariada
P
−1
F = φ( m
j=1 φ (Fj )) cuja Cópula Arquimediana é,
m
X
C(u) = φ(
φ−1 (uj ))
(4.32)
j=1
Uma generalização trivariada de (4.31), no sentido de obter-se mais estruturas de dependência
pois a expressão seguinte envolverá duas Transformadas de Laplace diferentes e, consequentemente,
envolverá mais que um parâmetro, ao contrário da expressão (4.32) que envolve apenas uma Transformada de Laplace, é dada por
C(u) = ψ(ψ −1 ◦ φ[φ−1 (u1 ) + φ−1 (u2 )] + ψ −1 (u3 ))
(4.33)
onde ψ, φ são Transformadas de Laplace e ν = ψ −1 ◦ φ ∈ L∗∞ .
Note que (4.33) possui funções de distribuição marginais bivariadas nas coordenadas (1, 2) da
forma (4.31) com Transformada de Laplace φ e funções de distribuição marginais bivariadas nas
coordenadas (1, 3) e (2, 3) da forma (4.31) com Transformada de Laplace ψ. Observe que (4.32)
é um caso especial de (4.33) quando ψ = φ. A representação em forma de mistura de funções de
distribuição de (4.33), que generaliza (4.30), é
Z
∞Z ∞
C(u) =
0
−1
onde G1 = G2 = e−φ
0
Gβ1 (u1 )Gβ2 (u2 )dM2 (β, α)Gα3 (u3 )dM1 (α)
−1
(4.34)
e G3 = e−ψ , M1 é a distribuição correspondente à ψ, M2 (.; α) é a
−1 (−α−1 ln(z)).
distribuição com Transformada de Laplace χα definida por χ−1
α (z) = ν
A expressão (4.34) segue da seguinte representação:
49
Z
∞
Gα12 (u1 , u2 )Gα3 (u3 )dM1 (α)
0
onde M1 e G3 foram definidas anteriormente e G12 (u1 , u2 ) = exp(−ν[φ−1 (u1 ) + φ−1 (u2 )]).
As seguintes famílias uniparamétrica de Transformada de Laplace (TL) podem ser utilizadas
para a construção de cópulas com o uso das expressões apresentadas anteriormente:
• TLA: φθ (s) = exp(−s1/θ ), θ ≥ 1;
• TLB (gamma): φθ (s) = (1 + s)−1/θ , θ ≥ 0;
• TLC (série de potência): φθ (s) = 1 − (1 − e−s )1/θ , θ > 0;
• TLD (série logarítmica): φθ (s) = −θ−1 ln(1 − (1 − e−θ )e−s ), θ > 0.
As correspondentes transformadas inversas são dadas por:
θ
• TLA: φ−1
θ (t) = (−ln(t)) ;
−θ − 1;
• TLB: φ−1
θ (t) = t
θ
• TLC: φ−1
θ (t) = −ln(1 − (1 − t) );
• TLD: φ−1
θ (t) = −ln
1−e−θt
1−e−θ
.
onde t = φ(s).
A fim de motivar a construção das Transformadas de Laplace observa-se que a família TLD é
obtida através de uma v.a. cuja função de probabilidade possui a expressão
(1−e−θ )i
,
iθ
i = 1, 2, ... .
Similarmente, a família TLC é obtida através de uma v.a. cuja função de probabilidade é θ−1 para
Q
−1
i = 1 e θ−1 i−1
j=1 (j − θ ) para i = 2, 3, ... .
Além das famílias de Transformadas de Laplace mostradas anteriormente, Joe [25] apresenta
outras famílias.
50
Considerando-se as famílias TLA, TLB, TLC e TLC, pode-se mostrar que −ln(φθ ) ∈ L∗∞ . Para
as famílias TLA e TLB, a demonstração é direta. E, para as famílias TLC e TLD, demonstra-se
utilizando o Teorema 2.7. Para as demonstrações destes fatos consulte [25].
As famílias de Transformada de Laplace citadas anteriormente podem ser aplicadas na equação
(4.31) obtendo-se os modelos de cópulas bivariadas a seguir.
• Família B1 : Modelo de Frank [12]
Este modelo utiliza a Transformada de Laplace φ como sendo a família TLD. A cópula associada à este modelo é dada por
C(u, v; δ) = −δ
−1
ln
η − (1 − e−δu )(1 − e−δv )
η
onde η = 1 − e−δ , 0 ≤ δ < ∞.
A função densidade associada à este modelo de cópula é,
c(u, v; δ) =
δηe−δ(u+v)
(η − (1 − e−δu )(1 − e−δv ))2
Esta família possui, entre outras, as seguintes propriedades: SI, densidade T P2 , reflexão
simétrica
1
[25].
Este modelo engloba o caso das variáveis aleatórias serem independentes quando δ → 0.
• Família B2 : Modelo de Kimeldorf e Sampson [29]
Este modelo utiliza a Transformada de Laplace φ como sendo a família TLB. A cópula associada a este modelo é dada por
C(u, v; δ) = (u−δ + v −δ − 1)−1/δ
para 0 ≤ δ < ∞.
1
c(u, v|δ) = c(1 − u, 1 − v|δ), 0 < u, v < 1
51
A sua função densidade é dada por:
c(u, v; δ) = (1 + δ)(uv)−δ−1 (u−δ + v −δ − 1)−2−1/δ
Esta família possui, entre outras, as seguintes propriedades: SI, densidade T P2 [25].
Este modelo engloba o caso das v.a. serem independentes quando δ → 0.
• Família B3 : Modelo de Joe [24]
Este modelo utiliza a Transformada de Laplace φ como sendo a família TLC. A cópula associada a este modelo é dada por
C(u, v; δ) = 1 − (uδ + v δ − uδ v δ )1/δ
para 1 ≤ δ < ∞ onde u = 1 − u e v = 1 − v.
A sua função densidade é,
c(u, v; δ) = uδ−1 v δ−1 [δ − 1 + u−δ + v −δ − uδ v δ ](uδ + v δ − uδ v δ )−2+1/δ
Esta família possui, entre outras, as seguintes propriedades: SI, densidade T P2 [25].
Este modelo engloba o caso das v.a. serem independentes quando δ = 1.
• Família B4 : Modelo de Gumbel [21]
Este modelo utiliza a Transformada de Laplace φ como sendo a família TLA. A cópula associada a este modelo é dada por
C(u, v; δ) = exp(−(e
uδ + veδ )1/δ )
para 1 ≤ δ < ∞ onde u
e = −ln(u) e ve = −ln(v).
52
A função densidade associada à este modelo de cópula é dada por:
c(u, v; δ) = C(u, v; δ)(uv)−1
(e
uve)δ−1
[(e
uδ + veδ )1/δ + δ − 1]
(e
uδ + veδ )2−1/δ
Esta família possui, entre outras, as seguintes propriedades: SI, densidade T P2 [25].
Este modelo engloba o caso das v.a. serem independentes quando δ = 1.
Joe [25] apresenta outros modelos de cópulas bivariadas além de extendê-los para variáveis
aleatórias com dependência negativa.
• Família M1 : Generalização da família B2
Este modelo utiliza as Transformadas de Laplace ψθ1 e φθ2 como sendo a família TLB. A
cópula associada a este modelo é dada por
C(u1 , u2 , u3 ; θ1 , θ2 ) =
para θ1 ≤ θ2 , θ1 ≥ 0 e θ2 ≥ 0.
2
u−θ
1
+
2
u−θ
2
−1/θ1
θ1 /θ2
−θ1
−1
+ u3 − 1
53
• Família M2 : Generalização da família B4
Este modelo utiliza as Transformadas de Laplace ψθ1 e φθ2 como sendo a família TLA. A
cópula associada a este modelo é dada por
( 1/θ1 )
θ1 /θ2
C(u1 , u2 , u3 ; θ1 , θ2 ) = exp − [−ln(u1 )]θ2 + [−ln(u2 )]θ2
+ [−ln(u3 )]θ1
para θ1 < θ2 , θ1 ≥ 1 e θ2 ≥ 1.
54
Capítulo 3
Variável BIPIT
3.1
Variáveis PIT e BIPIT
Sabe-se que se X é v.a. unidimensional com f.d.a. F contínua, temos U = F (X), a v.a. transformada pela acumulada, com distribuição U (0, 1). Porém, para maiores dimensões isto geralmente não
acontece. Suponha (X, Y ) com f.d.a. H, seja H = H(X, Y ), a v.a. transformada pela acumulada
conjunta, geralmente a f.d.a. K de H não é U (0, 1).
Exemplo 3.1. Seja {(x1 , y1 ), . . . , (x100 , y100 )} uma amostra aleatória de uma distribuição H normal
bivariada com média µ = (0, 0) e matrix de covariância
Σ=
1
0.3
0.3
1
!
Tomemos a v.a. H = H(X, Y ). O QQplot entre a amostra aleatória da v.a. H calculada
por Hi = H(xi , yi ) e uma amostra com distribuição U (0, 1) pode-se concluir que H não seque
distribuição U (0, 1) (Figura 3.1).
O estudo da v.a. H e de sua f.d.a. K é importante, pois ambas contém informação de dependência sob H(X, Y ), já que dependem apenas da cópula associada a H pelo Teorema 2.3, e não das
marginais F e G,
K(t) = P (H(X, Y ) ≤ t) = P (C(F (X), G(Y )) ≤ t) = P (C(U, V ) ≤ t)
55
56
QQplot
0.4
0.0
0.2
U_(i)
0.6
0.8
●
●
●
●
●
●
●●
●● ●
●●
●
●
●●●
●
●
●
●
●●
●
●● ●
●
●
●●
●
●●●●●●
●
●
●
●●
0.0
0.2
●
●●●
●●
●
●
●
●●
●
0.4
0.6
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●
0.8
1.0
H_(i)
Figura 3.1: QQplot entre a amostra Hi = H(xi , yi ) da BIPIT H associada distribuição normal
bivariada do Exemplo 3.1 e uma amostra {U1 , . . . , U100 } com distribuição U (0, 1).
contando que a cópula contém toda informação da estrutura de dependência de (X, Y ). Por sua
importância para o estudo de estruturas de dependência é necessário nomear a v.a. H pela seguinte
definição.
Definição 3.1. Sejam X,Y v.a. com f.d.a. F e G respectivamente e (X, Y ) vetor aleatório bidimensional com f.d.a. H. Então U = F (X) (V = G(Y )) e H = H(X, Y ) são denominadas respectivamente PIT e BIPIT.
O Exemplo 3.2 evidencia que a BIPIT independe das marginais, fato que se observa pelo Teorema
de Sklar (1.1). Deste modo assumiremos sem perda de generalidade o par aleatório (X, Y ) com
marginais U (0, 1) ao trabalharmos com conceito de BIPIT.
Exemplo 3.2. Sejam as BIPIT’s H, H1 associadas aos vetores aleatórios (U, V ) e (X1 , Y1 ), respectivamente, com f.d.a. independência H. Sejam U, V com distribuição marginal U (0, 1) e X1 , Y1 com
marginais F1 e G1 exponenciais λ = 2 e λ = 10 respectivamente. Conforme QQ-plot da Figura 3.2,
57
H e H1 são identicamente distribuídas, evidenciando que a estrutura de dependência da BIPIT é
invariante sob as marginais.
0.4
0.0
0.2
H_(i)
0.6
0.8
●
●
●
●
●
●
●● ●●
●●
●
●●●
●
●●●
●
●
●●
●
●
●
●● ●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
0.0
0.2
0.4
0.6
●
●
0.8
H_(1i)
Figura 3.2: QQplot das amostras das BIPITS H e H1 : {H1 , . . . , Hn } e {H11 , . . . , H1n } respectivamente, n = 100, onde Hi = H(ui , vi ) = ui vi sendo ui , vi amostras de U (0, 1) e H1i = H(x1i , y1i ) =
F1 (x1i )G1 (y1i ) sendo x1i com distribuição exp(2) e y1i com distribuição exp(10).
Os seguintes teoremas apresentam uma expressão para o cálculo da função distribuição K da
BIPIT H = C(X, Y ).
Teorema 3.1. Seja (X, Y ) um vetor aleatório com f.d.a. C e seja K a f.d.a. da v.a. BIPIT,
H ≡ C(X, Y ). Então
Z
1
E(I{C(x, Y ) ≤ v}|X = x)dx
K(v) =
0
(1.1)
58
Demonstração.
K(v) = P (C(X, Y ) ≤ v) = E[I{C(X, Y ) ≤ v}]
= E(E[I{C(x, Y ) ≤ v}|X = x])
Z 1
=
E(I{C(x, Y ) ≤ v}|X = x)dx.
(1.2)
0
Teorema 3.2. Sejam Cx (y) ≡ C(x, y) estritamente crescente e inversível e yx,v ≡ Cx−1 (v), ∀0 ≤
v ≤ x, 0 < x < 1. Então,
Z
K(v) = v +
1
C ∗ (x, yx,v )dx ≡ v − λ(v)
(1.3)
v
onde, C ∗ (x, y) ≡
∂C(x,y)
∂x
R1
e λ(v) ≡ −
v
C ∗ (x, yx,v )dx.
Demonstração. Pela equação (1.1) K(v) pode ser escrito como
Z
K(v) =
|0
v
Z 1
E(I{C(x, Y ) ≤ v}|X = x)dx +
E(I{C(x, Y ) ≤ v}|X = x)dx .
v
{z
} |
{z
}
(1)
(2)
De acordo com o Teorema 2.2 toda cópula C é limitada superiormente pela cópula maximal
M (x, y) = min(x, y). Então, ∀ 0 ≤ x ≤ v, C(x, y) ≤ v, logo I{C(x, Y ) ≤ v} = 1 para a região de
integração da integral (1). Desta maneira a integral (1) é igual a v. A integral (2) pode ser reescrita
como
Z
1
P (C(x, Y ) ≤ v|X = x)dx
v
Conforme hipótese, C(x, yx,v ) = v para x fixo, e C é marginalmente não decrescente, logo temos
a equivalência C(x, Y ) ≤ v ⇔ Y ≤ yx,v . Então
Z 1
Z 1
P (C(x, Y ) ≤ v|X = x)dx =
P (Y ≤ yx,v |X = x)dx
v
v
Z 1 Z yx,v
=
c(x, y)dy dx
v
0
Z 1
=
C ∗ (x, yx,v )dx
v
59
onde c é a densidade de C, c(u, v) ≡
∂2C
∂u∂v (u, v).
Exemplo 3.3. Cópula Produto: Π(x, y) = xy ; x, y ∈ I
Sem a aplicação do Teorema 3.2 temos,
Z
1
v
X≤
y
P
KΠ (v) = P (XY ≤ v) =
dy
0
Z 1
Z v
v
1dy +
=
dy = v − v ln v
v y
0
Usando o Teorema 3.2 temos Π∗ (x, y) = y e Π(x, yx,v ) = v, então yx,v = xv . Logo,
Z
1
Π∗ (x, yx,v )dx =
v
Z
1
Z
yx,v dx =
v
v
1
v
dx = −v ln v
x
Portanto, KΠ (v) = v − v ln v.
Exemplo 3.4. Cópula Maximal: M (x, y) = min(x, y) ; x, y ∈ I
Observe que KM (v) deve ser calculada através de uma mistura de cópulas, Cα (x, y) = (1 − α)xy +
α min(x, y), 0 ≤ α ≤ 1, chamada Família de Fréchet, porque a Cópula M não satisfaz a hipótese
do Teorema 3.2 pois Mx (y) não é estritamente crescente . Quando α → 1, temos KCα (v) → v e
segue que KM (v) = v.
No Teorema 3.2 yx,v ≡ Cx−1 (v), 0 ≤ v ≤ x, 0 < x < 1 fixo, representa a segunda coordenada
dos pontos do conjunto de nível v da cópula C dado por
{(x, yx,v ) ∈ I2 |C(x, yx,v ) = v}
Conforme Nelsen [31], para uma cópula Arquimediana este conjunto de nível v consiste dos pontos
(x, yx,v ) pertencentes a curva
φ(x) + φ(yx,v ) = φ(v), (x, yx,v ) ∈ I2 , v > 0
(1.4)
A curva (1.4) pode ser reescrita expressando yx,v em função de x por
yx,v = Lv (x) = φ[−1] (φ(v) − φ(x)) = φ−1 (φ(v) − φ(x))
sendo a última igualdade garantida pela Definição 2.7.
(1.5)
60
Para v = 0, o conjunto {(x, yx,v ) ∈ I2 |C(x, yx,v ) = 0} é chamado conjunto zero de C e denotado
por Z(C). Para as cópulas Arquimedianas com gerador estrito, por exemplo para família de Frank
(Tabela 3.1), Z(C) é composto pelos dois segmentos de reta {0}×I e I×{0} de acordo com Definição
2.5. Para as cópulas Arquimedianas com gerador não estrito, por exemplo para família de Clayton
θ ≥ 0 (Tabela 3.1), Z(C) tem área positiva e é limitado pelos segmentos {0} × I e I × {0} e pela
curva φ(x) + φ(yx,v ) = φ(0), isto é, yx,v = L0 (x) chamada curva zero de C.
O Corolário a seguir fornece ferramentas para facilitar o cálculo da f.d.a. K de BIPIT assoaciada
a uma classe particular de cópulas, as cópulas Arquimedianas que serão o foco desta dissertação.
Em sua demonstração é usado o conceito de curva de nível de cópulas Arquimedianas.
Corolário 3.1. Seja C uma cópula Arquimediana gerada por φ ∈ Ω. A f.d.a. K da v.a. BIPIT,
H ≡ C(X, Y ), é dada por:
K(v) = v −
φ(v)
φ0 (v + )
(1.6)
onde, φ0 (v + ), denota a derivada a direita de φ em v e Ω o espaço dos geradores φ.
Demonstração. Utilizaremos o Teorema 3.2 para demonstrar que λ(v) =
φ(v)
φ0 (v)
usando os conceitos
de curva de nível e conjunto de nível de uma cópula Arquimediana C.
∂C(x, y)
∂φ(y)
0
0
C ∗ (x, y) ≡
= φ0 (x) +
φ[−1] (φ(x) + φ(y)) = φ0 (x)φ[−1] (φ(x) + φ(y))
∂x
∂x
então,
0
(1.5)
0
C ∗ (x, yx,v ) = φ0 (x)φ[−1] (φ(x) + φ(yx,v )) = φ0 (x)φ[−1] (φ(v)) =
φ0 (x)
φ0 (φ−1 (φ(v)))
=
φ0 (x)
.
φ0 (v)
para v > 0.
Para o caso v = 0 temos (x, yx,v ), os pontos pertencentes ao conjunto zero da cópula C, dados
não somente pela curva L0 (x) da equação (1.5), mas pertencentes ao conjunto
{(x, yx,v )|x ∈ I e yx,v = 0} ∪ {(x, yx,v )|y ∈ I e x = 0} ∪ {(x, yx,v )|φ(x) + φ(yx,v ) ≥ φ(0)}
|
{z
} |
{z
} |
{z
}
(1)
(2)
(3)
61
Se (x, yx,v ) ∈ (1), temos
0
0
C ∗ (x, yx,v ) = φ0 (x)φ[−1] (φ(x) + φ(yx,v )) = φ0 (x)φ[−1] (φ(x) + φ(0))
φ0 (x)
φ0 (x)
=
=
φ0 (0)
φ0 (φ[−1] (φ(x) + φ(0)))
usando a Definição 2.7. Por simetria, para o conjunto (2) segue idêntico resultado.
E se (x, yx,v ) ∈ (3), temos
φ(x) + φ(yx,v ) ≥ φ(x) + φ(0) − φ(x) = φ(0)
então,
0
C ∗ (x, yx,v ) = φ0 (x)φ[−1] (φ(x) + φ(yx,v ))
φ0 (x)
=
φ0 (φ[−1] (φ(x) + φ(yx,v )))
φ0 (x)
=
φ0 (0)
usando a Definição 2.7.
Deste modo segue que,
Z
λ(v) = −
v
1
φ0 (x)
φ(v)
dx = 0
, v ∈ I.
0
φ (v)
φ (v)
Logo, para v ∈ I temos K(v) = v − λ(v) = v −
Se φ não for diferenciável em v, temos φ0 (v) ≡
Concluindo, K(v) = v −
φ(v)
φ0 (v + )
φ(v)
φ0 (v) considerando φ diferenciável em v.
φ0 (v + ), pois v ≤ x por hipótese do Teorema
3.2.
para qualquer gerador φ de cópula Arquimediana C.
Exemplo 3.5. A Tabela 1.1 apresenta as funções distribuição K, calculadas por meio do Corolário
3.1, de algumas cópulas Arquimedianas.
Como visto no Exemplo 2.7, a cópula de Clayton C−1 é a cópula minimal W , então substituindo
θ = −1 na função distribuição K de Clayton temos
KW (v) = 1, ∀v ∈ [0, 1]
62
cpula
Clayton
φθ (v)
Kθ (v)
v −θ −1
v + vθ (1 − v θ )
θ
Gumbel
(− ln v)θ
Frank
−1
− ln ee−θ −1
θ
1
v −1
4.2.12
−θv
v ln v
θ
−θv
θe−θv ln e −θ −1
v−
v+
v+
e
−1
e−θv −1
v 2 ( v1 −1)
θ
Tabela 1.1: Cópulas Arquimedianas da Tabela 3.1 com os respectivos geradores φ e funções distriuição K.
Do mesmo modo usando θ = 1 na função distribuição K de Gumbel temos
KΠ (v) = v − v ln v, ∀v ∈ [0, 1]
3.2
Propriedades da função K
Esta seção apresenta propriedades para K relativas a uma ordenação estocástica definida a seguir.
Definição 3.2. A ordem estocástica ordinária entre duas v.a. contínuas X1 e X2 com f.d.a. F1 e
F2 respectivamente é denotada por X1 ≺st X2 equivalente a
F1 (x) ≥ F2 (x), ∀x ∈ R.
Definição 3.3. A ordem estocástica de Kendall entre dois vetores aleatórios contínuos (X1 , Y1 ) e
(X2 , Y2 ) com f.d.a. H1 e H2 respectivamente e denotada como
(X1 , Y1 ) ≺k (X2 , Y2 ) ou H1 (X1 , Y1 ) ≺st H2 (X2 , Y2 )
representa a ordenação estocástica entre as BIPIT’s H1 ≡ H1 (X1 , Y1 ) e H2 = H2 (X2 , Y2 ), ou seja,
H1 ≺st H2 .
Esta ordem estocástica é chamada Kendall devido a estar associada ao coeficiente populacional
da medida de associação tau de Kendall estudada no próximo capítulo. Também existe uma associação entre a função K e a medida tau de Kendall, que será apresentada no próximo capítulo, por
isso K é chamada frequentemente de função distribuição de Kendall [32].
63
O teorema abaixo valida os limites de Frechét também para a ordem estocástica de Kendall.
Teorema 3.3. Sejam K a f.d.a. da v.a. BIPIT H ≡ C(X, Y ) e a função λ(v), v ∈ I, definida pelo
Teorema 2.3.
KM (v) ≤ K(v) ≤ KW (v), ou seja, v ≤ K(v) ≤ 1, v ∈ I;
(2.7)
λW (v) ≤ λ(v) ≤ λM (v), ou seja, v − 1 ≤ λ(v) ≤ 0, v ∈ I.
(2.8)
Demonstração. Equação (2.7): É trivial que K(v) ≤ 1 com K(v) f.d.a. Sendo C(x, y) não deR1
crescente marginalmente, temos C ∗ (x, y) positiva, logo λ(v) ≡ − v C ∗ (x, yx,v )dx ≤ 0, deste modo
K(v) = v − λ(v) ≥ v.
Equação (2.8): Provada equação (2.7) temos
v ≤ K(v) ≤ 1 ⇔ v ≤ v − λ(v) ≤ 1 ⇔ v − 1 ≤ λ(v) ≤ 0
Corolário 3.2. Os limites de Frechét são válidos para a ordem estocástica de Kendall
W ≺k C ≺k M
Exemplo 3.6. As Figuras 3.3 e 3.4 ilustram o Teorema 3.3 e o Corolário 3.2 mostrando KM ≤
K ≤ KW e λW (v) ≤ λ(v) ≤ λM (v) para as funções K das cópulas de Gumbel e Clayton. Além de
também ilustrarem a ordenação estocástica de Kendall para as famílias de Clayton e Gumbel com
θ ≤ θ∗ ⇒ KCθ ≥ KCθ∗ , ou seja Cθ ≺k Cθ∗ .
Tal ordenação é confirmada através das formas analíticas das funções K apresentadas no Exemplo 3.5 para a fámília de Clayton e Gumbel.
0.6
0.4
theta=1
theta=3
theta=7
0.0
0.2
K(v)
0.8
1.0
64
0.0
0.2
0.4
0.6
0.8
1.0
0.6
0.4
theta=1
theta=3
theta=4
0.0
0.2
K(v)
0.8
1.0
v
0.0
0.2
0.4
0.6
0.8
1.0
v
Figura 3.3: Funções distribuição de Kendall das cópulas M (linha cheia preta), W (linha cheia
cinza) e família de Gumbel para θ = {1, 3, 7} (primeira figura); família de Clayton para θ = {1, 3, 4}
(segunda figura).
1.0
65
0.0
−1.0
−0.5
lambda(v)
0.5
theta=1
theta=3
theta=7
0.0
0.2
0.4
0.6
0.8
1.0
1.0
v
0.0
−1.0
−0.5
lambda(v)
0.5
theta=1
theta=3
theta=7
0.0
0.2
0.4
0.6
0.8
1.0
v
Figura 3.4: Funções λ(v), v ∈ I, das cópulas M (linha cheia preta), W (linha cheia cinza) e família
de Gumbel para θ = {1, 3, 7} (primeira figura); família de Clayton para θ = {1, 3, 4}.
66
Capítulo 4
Tau de Kendall
Este capítulo explorará a cópula como objeto de estudo de dependência ou associação entre
duas variáveis por meio do coeficiente tau de Kendall. Porém, primeiramente, será apresentado o
conceito e algumas propriedades desta medida de associação.
4.1
Concordância
Informalmente, um par de variáveis aleatórias é concordante se grandes valores de uma variável
estão associados a grandes valores da outra variável ou se pequenos valores de uma variável estão
associados a pequenos valores da outra variável. E o par é discordante caso contrário. Formalmente,
concordância é definida por:
Definição 4.1. Sejam (x, y) e (x̃, ỹ) duas observações de um vetor (X, Y ) de v.a. contínuas. Diz-se
que estas observações são
concordantes se
(y − ỹ)
>0
(x − x̃)
discordantes se
(y − ỹ)
<0
(x − x̃)
Tau de Kendall é uma medida de associação definida em termos da concordância pela diferença
entre a probabilidade dos pares concordantes e discordantes.
67
68
Definição 4.2. Sejam (X1 , Y1 ) e (X2 , Y2 ) vetores aleatórios i.i.d. com a mesma f.d.a. H. Então
o coeficiente populacional Tau de Kendall de um vetor (X, Y ) de v.a. contínuas com f.d.a. H é
definido por
τ ≡ P [(X1 − X2 )(Y1 − Y2 ) > 0] − P [(X1 − X2 )(Y1 − Y2 ) < 0]
(1.1)
Teorema 4.1. Sejam (X1 , Y1 ), (X2 , Y2 ) vetores independentes de v.a. contínuas com função distribuição conjunta H1 , H2 respectivamente, com marginais comuns F (de X1 , X2 ) e G (de Y1 , Y2 ),
C1 , C2 as respectivas cópulas de (X1 , Y1 ) e (X2 , Y2 ) e seja
Q ≡ P [(X1 − X2 )(Y1 − Y2 ) > 0] − P [(X1 − X2 )(Y1 − Y2 ) < 0]
denominada função de concordância, então
ZZ
Q ≡ Q(C1 , C2 ) ≡ 4
C2 (u, v)dC1 (u, v) − 1
I2
Demonstração. Como P [(X1 − X2 )(Y1 − Y2 ) < 0] = 1 − P [(X1 − X2 )(Y1 − Y2 ) > 0], a função Q
pode ser reescrita por Q = 2P [(X1 − X2 )(Y1 − Y2 ) > 0] − 1, onde
P [(X1 − X2 )(Y1 − Y2 ) > 0] = P (X1 > X2 , Y1 > Y2 ) + P (X1 < X2 , Y1 < Y2 )
{z
} |
{z
}
|
(1)
(2)
ZZ
(1) = P (X2 < X1 , Y2 < Y1 ) =
P (X2 < x, Y2 < y)dC1 (F (x), G(y))
2
R
ZZ
ZZ
=
C2 (F (x), G(y))dC1 (F (x), G(y)) =
C2 (u, v)dC1 (u, v)
R2
I2
ZZ
(2) = P (X2 > X1 , Y2 > Y1 ) =
P (X2 > x, Y2 > y)dC1 (F (x), G(y))
R2
ZZ
=
[1 − F (x) − G(y) + C2 (F (x), G(y))] dC1 (F (x), G(y))
2
Z ZR
ZZ
=
[1 − u − v + C2 (u, v)] dC1 (u, v) =
C2 (u, v)dC1 (u, v)
I2
I2
A última igualdade segue de U, V serem U (0, 1), logo E(U ) = E(V ) = 21 .
Deste modo,
ZZ
P [(X1 − X2 )(Y1 − Y2 ) > 0] = 2
C2 (u, v)dC1 (u, v)
I2
69
Então segue que
ZZ
C2 (u, v)dC1 (u, v) − 1
Q=4
I2
O próximo resultado estabelece uma ligação entre a medida tau de Kendall entre duas v.a. X
e Y e a cópula C associada a estas variáveis por meio da função de concordância.
Teorema 4.2. Sejam X, Y v.a. contínuas com cópula C e seja H ≡ C(F (X), G(Y )) a sua v.a.
BIPIT com f.d.a. K. O coeficiente populacional tau de Kendall é dado por
ZZ
τ ≡ Q(C, C) ≡ 4
C(u, v)dC(u, v) − 1 = 4E(C(U, V )) − 1
(1.2)
I2
e pode ser reescrito por
1
Z
τ =3−4
K(t)dt
(1.3)
0
Demonstração. A prova da equação (1.2) segue da Definição 4.2 e do Teorema 4.1.
Da equação (1.2) temos
1
Z
τ = 4E(H) − 1 = 4
Z
1 − K(t)dt − 1 = 3 − 4
0
1
K(t)dt
0
Como a v.a. BIPIT H ∈ [0, 1] não assume valores negativos, então E(H) =
R1
0
1 − K(t)dt
Assim como a função distribuição K de uma BIP IT associada a uma cópula Arquimediana é
expressa em função do gerador φ, tau de Kendall também é expresso em função de φ para cópulas
Arquimedianas.
Corolário 4.1. Sejam X, Y v.a. contínuas com cópula Arquimediana C gerada por φ. O coeficiente
populacional τ de Kendall é dado por
Z
τ =1+4
0
1
φ(t)
dt
φ0 (t)
(1.4)
Demonstração. Seja a BIPIT H ≡ C(F (X), G(Y )) com f.d.a. K. Pelo Teorema 4.2, equação (1.3)
(1.6)
Z
τ = 3−4
1
t−
0
φ(t)
dt = 1 + 4
φ0 (t)
Z
0
1
φ(t)
dt
φ0 (t)
70
Exemplo 4.1. Se Cθ é um membro da família de Frank (Tabela 3.1), devido a complexidade
de resolução da integral na equação (1.4), o cálculo de τ torna-se mais adequado via integração
numérica. Para as demais famílias Arquimedianas citadas nesta dissertação a integral na equação
(1.4) é de simples resolução, sendo então possível encontrar uma função de θ que expresse a medida
de associação τ de Kendall, tais expressões encontram-se na Tabela 1.1.
f amília Arquimediana
τ = f (θ)
Clayton
θ
θ+2
τ = θ−1
θ
2
τ = 1 − 3θ
τ=
Gumbel
4.2.12
Tabela 1.1: Medida de associação τ de Kendall expressa em função do parâmetro θ para algumas
famílias de cópulas Arquimedianas.
Exemplo 4.2. Desde que a cópula M possui como suporte a diagonal v = u em I 2 e possui
marginais U (0, 1), segue que se g é função integrável cujo domínio é I 2 , então
ZZ
Z
g(u, v)dM (u, v) =
I2
1
g(u, u)du
0
Similarmente, desde que W possui como suporte a diagonal secundária v = 1 − u, temos
ZZ
Z 1
g(u, v)dW (u, v) =
g(u, 1 − u)du
I2
0
Logo, temos
ZZ
Z
uvdΠ(u, v) − 1 = 4
τΠ = Q(Π, Π) = 4
I2
1
uvdudv − 1 = 0
0
ZZ
τM = Q(M, M ) = 4
Z
1
min(u, v)dM (u, v) − 1 = 4
I2
udu − 1 = 1
0
ZZ
τW = Q(W, W ) = 4
Z
max(u + v − 1, 0)dW (u, v) − 1 = 4
I2
1
0du − 1 = −1
0
A cópula M é chamada cópula maximal por estabelecer relação de dependência perfeitamente
positiva entre as variáveis X, Y , como pode ser evidenciado pelo valor τM = 1, ou seja, probabilidade
71
1 de que X e Y sejam concordantes. O contrário acontece para a cópula W , chamada cópula minimal
por estabelecer relação de dependência perfeitamente negativa entre as variáveis X, Y , τW = −1, ou
seja, a discordância das variáveis X e Y é certa. O Teorema a seguir mostra a unicidade da relação
de dependência perfeita negativa e positiva com respeito às cópulas.
Teorema 4.3. O coeficiente populacional tau de Kendal associado a cópula C pela equação (1.2) é
igual a 1, se e somente se, a cópula C é M . E τ = −1, se e somente se, C = W .
Demonstração. (⇐) A prova que τW e τM são iguais a −1 e 1 respectivamente segue do Exemplo
4.2.
(⇒) Agora considerando X, Y, X 0 , Y 0 com distribuição U (0, 1) e sejam (X, Y ) e (X 0 , Y 0 ) i.i.d.
com f.d.a. cópula C. A seguir a demonstração será dada como consequência de uma sequência de
afirmações:
a) τ = 1 ⇒ C = M
1. τ = 1 ⇒ X = Y com probabilidade 1;
2. X = Y ⇒ C(x, y) = min(x, y)
b) τ = −1 ⇒ C = W
1. τ = −1 ⇒ Y = 1 − X com probabilidade 1;
2. Y = 1 − X ⇒ C(x, y) = max(x + y − 1, 0)
Demonstração a):
72
τ = 1 ⇒ P [(X − X 0 )(Y − Y 0 ) > 0] = 1
ZZ
⇒
[P (X > x, Y > y) + P (X < x, Y < y)] dC(x, y) = 1
2
Z ZI
⇒
[1 − FX (x) − FY (y) + 2C(x, y)] dC(x, y) = 1
2
Z ZI
⇒
[2C(x, y) + 1 − x − y] dC(x, y) = 1
2
Z ZI
[2C(x, y) + 1 − x − y] dC(x, y) = 1 ⇒ 2C(x, y) + 1 − x − y = 1
⇒
I2
⇒ C(x, y) =
x+y
2
Aplicando os limites de Fréchet,
C(x, y) =
x+y
≤ min(x, y) ⇔ X = Y com probabilidade 1
2
logo,
C(x, y) = P (X ≤ x, Y ≤ y, X = Y ) = P (X ≤ min(x, y)) = min(x, y)
Demonstração b):
τ = −1 ⇒ P [(X − X 0 )(Y − Y 0 ) < 0] = 1
ZZ
⇒
[P (X > x, Y < y) + P (X < x, Y > y)] dC(x, y) = 1
I2
Como,
P (X > x) = P (X > x, Y < y) + P (X > x, Y > y)
⇒ P (X > x, Y < y) = (1 − x) − C(x, y) = y − C(x, y)
e,
P (X < x) = P (X < x, Y < y) + P (X < x, Y > y)
(1.5)
73
⇒ P (X < x, Y > y) = x − C(x, y)
Substituindo na equação (1.5), temos
x + y − 2C(x, y) = 1 ⇒ C(x, y) =
x+y−1
2
Por limites de Fréchet,
max(x + y − 1, 0) ≤
x+y−1
⇔ Y = 1 − X com probabilidade 1
2
logo,
C(x, y) = P (X < x, Y < y, Y = 1 − X) = P (1 − y ≤ X ≤ x)
(
x + y − 1, se 0 ≤ 1 − y ≤ x ≤ 1
= F (x) − F (1 − y) =
0, se caso contrario.
com F denotando a f.d.a. da v.a. X.
Desta forma temos, C(x, y) = max(x + y − 1, 0).
Exemplo 4.3. O caso particular θ = −1 da família de Clayton é a cópula minimal, pois para este
caso τ = −1 conforme Exemplo 4.1.
No início deste capítulo foi visto que o tau de Kendall é uma medida de associação expressa em
termos da concordância, agora veremos que este coeficiente também é uma medida de concordância
que apresenta as propriedades desta.
Definição 4.3. Uma medida numérica κ de associação entre duas v.a. contínuas X e Y cuja cópula
é C é uma medida de concordância se satisfaz as seguintes propriedades
1. κ é definida para todo par X, Y de v.a. contínuas;
2. −1 ≤ κX,Y ≤ 1, κX,X = 1 e κX,−X = −1;
3. κX,Y = κY,X ;
4. Se X, Y são independentes, então κX,Y = 0;
5. κ−X,Y = κX,−Y = −κX,Y ;
74
6. Se C1 e C2 são cópulas tais que C1 (u, v) ≤ C2 (u, v), ∀(u, v) ∈ I2 , então κC1 ≤ κC2 ;
7. Se {(Xn , Yn )} é uma sequência de v.a. contínuas com cópulas Cn , e se {Cn } converge ponto
a ponto a C, então limn→∞ κCn = κC .
Teorema 4.4. Se X, Y são v.a. contínuas com cópula C, então o coeficiente populacional τ de
Kendall satisfaz as propriedades da Definição 4.3, enquadrando-se como medida de concordância.
Demonstração. Cada item da Definição 4.3 é demonstrado separadamente. 2. Como τ é definido
na equação (1.1) por uma diferença de probabilidades, então −1 ≤ τ ≤ 1 e utilizando demonstração
do Teorema 4.5 temos τX,X = τM e τX,−X = τW e por sua vez, pelo Teorema 4.3, temos τM = 1 e
τW = −1.
3. Como CX,Y = CY,X , e por (3.1) temos τ como função da cópula C, então τX,Y = τY,X .
4. Vide Exemplo 4.2.
5. Seja W = −X, pelo Teorema 2.5 temos que CW,Y é dada em função de CX,Y por CW,Y (u, v) =
v − CX,Y (1 − u, v),logo
ZZ
τW,Y = Q(CW,Y , CW,Y ) = 4
−v + CX,Y (1 − u, v)dCX,Y (1 − u, v) − 1
I2
Aplicando a transformação z = 1 − u,
Z 1Z 1
ZZ
4
v − CX,Y (z, v)dCX,Y (z, v) − 1 = −4
CX,Y (z, v)dCX,Y (z, v) + 1 = −τX,Y
I2
0 0
A última igualdade deve-se ao fato de que Z = 1 − U é U (0, 1), pois U é U (0, 1).
Analogamente temos τX,−Y = −τX,Y .
6. Segue da definição de τ dada pelo Teorema 4.2 e pela função concordância Q (Teorema 4.1) ser
não decrescente em cada argumento.
7. Seja τ ≡ Q(C, C) conforme Teorema 4.2, como Cn → C e Cn é limitada pela cópula Maximal
M , usando o Teorema da Convergência Dominada de Lebesgue temos
ZZ
ZZ
lim τn = lim 4
Cn (u, v)dCn (u, v) − 1 = 4
C(u, v)dC(u, v) − 1 = Q(C, C) = τ
n→∞
n→∞
I2
I2
Pelo Exemplo 4.2 foi visto que τW = −1 e τM = 1. Mas o resultado abaixo nos permite verificar
que se uma v.a. Y é uma função crescente da v.a. X, existindo então uma dependência perfeita
75
positiva entre estas variáveis então caracteriza-se CX,Y = M . De maneira análoga, para Y função
decrescente de X caracteriza-se CX,Y = W . Por meio da medida de concordância τ verifica-se este
resultado.
Teorema 4.5. Seja κ medida de concordância para v.a. contínuas X e Y .
1. Se Y é quase certamente uma função crescente de X, então κX,Y = κM = 1;
2. Se Y é quase certamente uma função decrescente de X, então κX,Y = κW = −1;
Demonstração. Primeiro, por intermédio de τ , como um particular exemplo de medida de concordância, se provam que se Y é quase certamente uma função crescente de X sendo (X, Y ) com
cópula C, então C = M e que se Y é quase certamente uma função decrescente de X, então C = W .
Sejam (X, Y ) e (X1 , Y1 ) duas realizações i.i.d. com f.d.a. H, f não decrescente, X = f (Y ) e
X1 = f (Y1 ) com probabilidade 1.
Como P [(X − X1 )(Y − Y1 ) ≥ 0] + P [(X − X1 )(Y − Y1 ) < 0] = 1, pela equação (1.1) temos
τ = 2P [(X − X1 )(Y − Y1 ) ≥ 0] − 1, onde
P [(X − X1 )(Y − Y1 ) ≥ 0] = P [(X − X1 )(Y − Y1 ) ≥ 0, Y = f (X), Y1 = f (X1 )]
= P [(X − X1 )(f (X) − f (X1 )) ≥ 0] = 1
A última igualdade deve-se ao fato de f não decrescente.
Logo, τ = 2 × 1 − 1 = 1 e pelo Teorema 4.3 temos C = M . Considerando f não crescente, do
mesmo modo, obtém-se τ =-1, e consequentemente, C = W .
Pelo item 6. da Definição 4.3 e pelos limites de Fréchet, W ≤ C ≤ M , temos κW ≤ κ ≤ κM e
como pelo item 2., −1 ≤ κ ≤ 1, então κM = 1 e κW = −1.
A medida de concordância tau de Kendall nomeia o método gráfico de ajuste de cópulas apresentado no próximo capítulo, chamado Kendall Plot. Embora o Kendall Plot seja detalhado no
próximo capítulo, há a necessidade de uma breve introdução de seu conceito neste capítulo para a
justificativa de seu nome. O Kendall Plot pode ser interpretado como um teste gráfico de cópulas
baseado em um QQplot entre duas v.a. BIPIT’s H ≡ C(U, V ) e H0 ≡ C0 (U, V ) com cópulas C
76
desconhecida e C0 conhecida. Se o QQplot diagnosticar H e H0 identicamente distribuídas, então
a BIPIT H está associada a cópula C0 . Caso contrário, o Kendall Plot revela uma informação a
respeito entre a relação dos coeficientes populacionais τ de Kendall associados às cópulas C e C0 .
Esta relação entre τ de Kendall e Kendall Plot se deve ao fato da associação entre τ e K por τ ser
uma função de K (Teorema 4.2). Então pela equação (1.3) temos,
K(w) ≥ K0 (w), ∀ 0 ≤ w ≤ 1 ⇒ τ ≤ τ0
(1.6)
ou então, conforme Definição 3.3 temos,
(X, Y ) ≺k (X0 , Y0 ) ⇒ τ ≤ τ0
(1.7)
Assim justificando o nome da ordem ≺k como ordem estocástica de Kendall.
No contexto do QQplot as v.a. BIPIT’s H e H0 são vistas como quantis de suas respectivas
distribuições K e K0 , ou seja, os n pontos (Hi , H0i ) do QQplot são dados por Hi = K −1 (pi ) e
H0i = K0−1 (pi ), ∀ 0 = p1 < . . . < pn = 1. Como K e K0 são f.d.a., logo a implicação (1.6) é
equivalente a
Hi ≤ H0i , ∀ 1 ≤ i ≤ n ⇒ τ ≤ τ0
(1.8)
Exemplo 4.4. A recíproca da equação (1.8) nem sempre é válida. Seja a cópula C dada por
C(u, v) = min(CM (u, v), 1/4 + CW (u, v)) com KC (t) = max(t, (3/4) bt + 3/4c) (Nelsen (2003) [32]),
temos Π(u, v) ≤ C(u, v), ∀ (u, v) ∈ I2 , deste modo pela propriedade 6. da Definição 4.3, temos
τΠ ≤ τC , porém KC (1/e) = 3/4 > 2/e = KΠ (1/e), ou seja, não é verdade que Π ≺k C.
Exemplo 4.5. Conforme Exemplo 3.6 a família de Clayton segue a ordem estocástica de Kendall, ou
seja, θ ≤ θ∗ ⇒ Cθ ≺k Cθ∗ , então pela implicação (1.7) temos τθ ≤ τθ∗ . A Figura 4.1 mostra o QQplot
de (H0 , H1 ) e (H0 , H2 ) com H0 v.a. BIPIT associada a cópula Π, H1 e H2 as v.a. BIPIT associadas
a cópula de Clayton com θ1 = −0.5 e θ2 = 2 respectivamente. Conforme ordenação estocástica
de Kendall para a família de Clayton, observa-se que os gráficos referentes a θ1 = −0.5 e θ2 = 2
encontram-se respectivamente abaixo e acima da diagonal principal, ou seja, H(1i) ≤ H0i ≤ H(2i) ,
caracterizando τθ1 < τ0 < τθ2 . De maneira geral, sendo H v.a. BIPIT de uma determinada cópula
C, os QQplot’s (H0 , H) situados acima da diagonal principal revelam uma estrutrua de dependência
77
positiva para H e situados abaixo revelam uma estrutura de dependência negativa, já que τ0 = 0
pois é associado a cópula Π (Definição 4.3 item 4.).
0.4
0.2
H_(1i)
0.6
0.8
QQplot
0.0
(H_0,H_1)
(H_0,H_2)
0.0
0.2
0.4
0.6
0.8
H_(0i)
Figura 4.1: QQplots referentes Exemplo 4.5: H0i = Π(ui , vi ), H1i = C−0.5 (ui , vi ), H2i = C2 (ui , vi )
com Cθ cópula de Clayton com parâmetro θ (A linha com ponto e tracejado é a diagonal principal
do gráfico).
78
Capítulo 5
Kendall Plot
5.1
Introdução
Em meio a um recente estudo de ferramentas para o ajuste de cópulas ainda há a necessidade
de um mecanismo simples e eficiente para a modelagem de dependência. A motivação para a
criação deste mecanismo partiu do mais simples modo para o ajuste de distribuições: o gráfico
QQplot. Porém em cópulas trabalha-se num contexto multivariado diferentemente do QQplot.
Este problema é resolvido usando a v.a. BIPIT que traduz um problema multivariado ao contexto
univariado preservando as características da estrutura de dependência dos dados. Neste contexto
Genest & Frave (2007) utilizam o gráfico QQplot usando a v.a. BIPIT para a modelagem de cópulas
e denominam esta ferramenta gráfica por Kendall Plot. Assim como o QQplot padrão compara os
quantis amostrais aos quantis teóricos da normal padrão, o gráfico proposto compara os quantis
amostrais aos quantis teóricos sob hipótese nula de uma específica função distribuição K de uma
v.a. BIPIT H associada a uma cópula C. Quando os quantis teóricos sob hipótese nula referem-se a
cópula da independência Π (Exemplo 2.6), o gráfico proposto mostra se há evidência de dependência
entre as variáveis. Esta foi a primeira proposta do Kendall Plot sugerida por Genest e Boies(2003).
Este capítulo também apresenta a relação existente entre a medida de concordância tau de
Kendall e o gráfico Kendall Plot, sendo por essa razão o gráfico denominado desta maneira.
79
80
5.2
Construção do Kendall Plot
O Kendall Plot é uma adaptação do gráfico de normalidade. Sua construção é similar ao QQplot,
porém usando o conceito de BIPIT.
5.2.1
QQplot
Uma maneira gráfica de verificar se uma amostra aleatória univariada X1 , . . . , Xn é Gaussiana
é comparar os quantis amostrais com os quantis teóricos de uma normal padrão. O QQplot é o
gráfico dos pares (Zdnpi e:n , X(dnpi e) ), onde dnpi e denota o menor inteiro maior ou igual a npi , a
sequêcia {X(dnpi e) }, 0 ≤ p1 < . . . < pn ≤ 1 corresponde às estatísticas de ordem da amostra e
Zdnpe:n ≡ E(Z(dnpi e) ) onde {Z1 , . . . , Zn } é uma amostra aleatória com distribuição normal padrão.
Sendo Fn a f.d.a. empírica da v.a. X dada por
Fn (Xi ) =
1
#{j 6= i : Xj ≤ Xi }
n−1
(2.1)
observa-se que a estatística de ordem X(i) ≡ X(dnpi e) é definida como o pi -quantil amostral de uma
amostra de tamanho n. Mais especificamente, de acordo com a equação (2.1), para todo 1 ≤ i ≤ n
e denotando i ≡ dnpi e, temos
Fn (X(i) ) =
i−1
≡ pi
n−1
(2.2)
com 0 = p1 < . . . < pn = 1. E de acordo com Sen & Singer [35], sendo F a f.d.a da v.a. X, temos
X(dnpe) → F −1 (p), ∀p ∈ [0, 1]
em probabilidade e quase certamente quando n → ∞(para demonstração veja apêndice 2). Ou seja,
é garantida a convergência do quantil amostral ao quantil teórico da distribuição. Deste modo a
convergência de Zdnpe:n ≡ E(Z(dnpe) ) ao quantil teórico da normal padrão é garantida pelo Teorema
da Convergência Dominada [22]
lim E Z(dnpe)
n→∞
= E
lim Z(dnpe)
n→∞
= E[φ−1 (p)] = φ−1 (p)
81
pois ∀n, |Z(dnpe) | ≤ Y , com v.a. Y seguindo distribuição Exp(λ), λ ∼
= 0.
Logo, para n suficientemente grande se os pontos (Z(dnpi e) , X(dnpi e) ), 0 = p1 < . . . < pn = 1
concentram-se sob a diagonal principal, então pode-se concluir que a f.d.a. da v.a. X é a f.d.a. da
normal padrão.
O QQplot é utilizado não somente para verificar se uma amostra aleatória univariada {X1 , . . . , Xn }
com distribuição desconhecida F segue distribuição normal, mas também para testar se esta amostra
segue qualquer outra distribuição F0 , isto é,
H0 : F (x) = F0 (x), ∀ x ∈ Dom F
H1 : F (x) 6= F0 (x), para pelo menos um valor de x ∈ Dom F
O procedimento para este teste também é baseado em uma comparação quantílica, assim como
para o teste com a distribuição normal padrão sob hipótese nula. Considere pi , 0 = p1 < . . . < pn =
1. Para cada pi há dois quantis a considerar: E(Y(dnpi e) ) sob hipótese de que Y segue distribuição
F0 , o pi -quantil teórico sob hipótese nula, e conforme equação (2.2) Fn−1 (pi ) = X(i) ≡ Xdnpi e , o pi quantil amostral. Logo, se para n suficientemente grande o gráfico dos pares (E(Y(dnpi e) ), Fn−1 (pi )),
concentra-se sob a diagonal principal, então a v.a. X segue distribuição F0 .
5.2.2
Kendall Plot
Seja uma amostra aleatória bivariada (X1 , Y1 ), . . . , (Xn , Yn ). É necessário transformar esta
amostra bivariada em uma amostra univariada que contenha as mesmas informações de dependência da amostra original para que se possa trabalhar com o conceito do QQplot com a finalidade
de ajustar estruturas de dependência, ou seja, cópulas. A melhor maneira de transformar dados
bivariados em univariados preservando a estrutura de dependência é utilizar a BIPIT desses dados.
b definida pela
Como desconhece-se a distribuição dos dados, se trabalha com a BIPIT empírica H
distribuição empírica Hn dada por
b i ≡ Hn (Xi , Yi ) =
H
1
#{j 6= i : Xj ≤ Xi , Yj ≤ Yi }
n−1
(2.3)
Desta maneira a hipótese a ser testada pelo Kendall Plot é dada por
H00 : K(H) = K0 (H), ∀H ∈ I
H01 : K(H) 6= K0 (H), para pelo menos um valor de H ∈ I
(2.4)
82
onde K é a f.d.a. desconhecida da BIPIT H e K0 a f.d.a. a ser testada.
A hipótese (2.4) funciona como hipótese auxiliar, pois o objetivo principal é testar a estrutura
de dependência dos dados, logo
H0 : C = C0 vs. H1 : C 6= C0
(2.5)
onde a BIPIT H está associada a cópula desconhecida C com distribuição desconhecida K e C0 com
distribuição K0 é a cópula a ser testada. Sob a hipótese nula a BIPIT H está associada a cópula
C0 e segue distribuição K0 , portanto a estrutura de dependência dos dados bivariados associados a
H é modelada pela cópula C0 .
Deve-se tomar cuidado ao usar o Kendall Plot, pois as hipóteses (2.4) e (2.5) não são equivalentes,
a não rejeição de H00 não implica na não rejeição de H0 . Temos H0 ⊂ H00 , pois a implicação
C 6= C ∗ ⇒ K 6= K ∗ é falsa e para sua verificação veja exemplo a seguir.
Exemplo 5.1. Considere uma distribuição pertencente a classe de distribuições do valor-extremo,
cujas cópulas (veja Capéraà, Fougéres e Genest (1997, 2000) [4] e [5]) são da forma
log(u)
CA (u, v) = exp log(uv)A
log(uv)
para alguma função convexa A : [0, 1] → [1/2, 1], tal que A(0) = A(1) = 0 e A(w) ≥ max(w, 1 −
w), ∀ 0 ≤ w ≤ 1 e sendo a função A definida como gerador da cópula do valor-extremo C. De
acordo com Ghoudi, Khoudraji e Rivest [20] a v.a. BIPIT H = CA (U, V ) é distribuída por
KA (w) = w − (1 − τA )w log(w), ∀ 0 ≤ w ≤ 1
onde
Z
τA =
0
1
w(1 − w) 0
dA (w)
A(w)
é o valor populacional de tau de Kendall, desde que A é convexa. Então, se duas distribuições
do valor-extremo com geradores A 6= A∗ verificam τA = τA∗ , logo KA = KA∗ , ou seja, a cópula
do valor-extremo CA não é unicamente determinada por sua f.da. KA . Mas esta questão não
será preocupante nesta dissertação, já que trabalhamos com a classe de cópulas Arquimedianas
bivariadas para a qual as hipóteses (2.4) e (2.5) são equivalentes, já que para esta família a cópula
83
C é unicamente determinada pela função K. Este fato se deve a função distribuição K de uma
cópula Arquimediana C ser definida em função do gerador φ desta cópula (Corolário 3.1). E pela
construção de uma cópula Arquimediana (equação 3.22) observa-se que o gerador φ a determina
unicamente.
Assim como o QQplot, o Kendall Plot realiza uma comparação quantílica. Compara-se os
quantis amostrais de K aos quantis teóricos de K0 sob hipótese nula. Os pi -quantis amostrais são
b (dnp e) ≡ H
b (i) e os pi -quantis teóricos denotados por Wdnp e:n,K = E(H 0
representados por H
)≡
i
i
0
(dnpi e)
Wi:n,K0 sendo pi definido como na equação (2.2). Os resultados da próxima seção permitem verificar
b (dnp e) e E(H 0
que H
i
(dnpi e) ) realmente representam o pi -quantil amostral e teórico da distribuição sob
hipótese nula K0 .
0 ≤ . . . ≤ H 0 estatísticas de ordem de uma amostra aleatória H 0 , . . . , H 0 da BIPIT
Sejam H(1)
n
1
(n)
H 0 com distribuição K0 , pela definição de densidade de uma estatística de ordem em Casella &
Berger [6].
Wi:n,K0 ≡
0
E(H(i)
)
n−1
=n
i−1
Z
1
w{K0 (w)}i−1 {1 − K0 (w)}n−i dK0 (w)
(2.6)
0
A integral em questão não possui primitiva, portanto foi calculada por integração numérica
através do comando integrate do software estatístico R. Este comando realiza integração numérica
para variável unidimensional através de um método de quadratura adaptativa baseado nas rotinas
dqags e dqagi em Piessens & Doncker-Kapenga [33]. Este algoritmo não funciona bem para integrandos que assumem valores constantes (em particular, próximos de zero) em todo seu domínio.
O integrando em questão é composto por um produto de potências (que dependem de n) de valores
entre 0 e 1, apresentando então valores muito próximos de zero em todo seu domínio, e sendo decrescente em n. Portanto para grandes valores de n, por exemplo n > 200, para algumas funções
K0 , por exemplo Kπ , a integração usando integrate não corresponde ao valor esperado. Como o
Kendall Plot, assim como o QQplot, é uma ferramenta assintótica foi necessário recorrer a outro
método de integração adaptativa para o cálculo de Wi:n,K0 para um grande tamanho amostral. Veja
apêndice 4 para maiores detalhes do método de integração numérica.
Os passos para construção do Kendall Plot, listados a seguir, são semelhantes ao do QQplot.
b i como na equação (2.3);
1. Para cada 1 ≤ i ≤ n, calcula-se a BIPIT empírica H
84
bi: H
b (1) ≤ . . . ≤ H
b (n) , igualdades são possíveis;
2. Ordena-se H
3. Para cada 1 ≤ i ≤ n, calcula-se Wi:n,K0 pela equação (2.6);
b (i) ), 1 ≤ i ≤ n.
4. Plotar os pares (Wi:n,K0 , H
5.3
Resultados e Fundamentos
Esta seção apresenta os resultados teóricos necessários para a validade do Kendall Plot como
método assintótico para comparação de quantis, bem como exemplos decorrentes da teoria para
auxiliar na interpretação do gráfico Kendall Plot. Um dos resultados evidencia a relação existente
entre Kendall Plot e τ de Kendall.
b1, . . . , H
b n calculados pela equação (2.3) realizações da BIPIT H = H(X, Y )
Definição 5.1. Sejam H
com função distribuição de Kendall K. A função distribuição empírica Kn dos Hi ’s é dada por
n
Kn (v) =
1X b
I{Hi ≤ v}
n
(3.7)
i=1
Teorema 5.1. A função distribuição empírica de Kendall Kn converge em probabilidade à função
distribuição de Kendall K sendo a convergência válida também para as inversas, ou seja,
p
Kn (v) → K(v)
e
p
Kn−1 (p) → K −1 (p), ∀v, p ∈ I
quando n → ∞.
b1, . . . , H
b n },
Demonstração. Seja (X1 , Y1 ), . . . , (Xn , Yn ) uma amostra aleatória com f.d.a. cópula C e {H
calculados pela equação (2.3), realizações da BIPIT H = C(X, Y ). Provemos que a distribuição
b i , P (H
b i ≤ v), converge a K(v) = P {C(X, Y ) ≤ v} e que a função distribuição empírica Kn
de H
b i ’s, dada pela equação (3.7), é um estimador √n-consistente de K(v), ou seja, no limite a
dos H
esperança do estimador converge a esperança de K(v) e no limite a variância do estimador é nula.
Consequentemente seguem as convergências em probabilidade.
b 1 ≤ v}] = P (H
b 1 ≤ v)
E{Kn (v)} = E[I{H
(3.8)
Dados X1 e Y1 com distribuição U (0, 1) sendo (X1 , Y1 ) com f.d.a. cópula C. Seja (x1 , y1 )
b 1 é distribuida de
uma realização de (X1 , Y1 ), pela equação (2.3) temos que a quantidade (n − 1)H
85
acordo com uma binomial com parâmetros (n − 1) e C(x1 , y1 ). Desta maneira a função geradora de
b 1 é dada por {1 − C(x1 , y1 ) + C(x1 , y1 )et/(n−1) }(n−1) . Como
momentos condicional a (x1 , y1 ) de H
b 1 = Cn (X1 , Y1 ) → C(X1 , Y1 ) quando n tende ao infinito, onde Cn denota a cópula empírica, segue
H
do teorema da convergência dominada de Lebesgue que E(etH1 ) converge a E{etC(X1 ,Y1 ) } quando n
b 1 tem a mesma distribuição que C(X1 , Y1 ), ou seja,
tende ao infinito. Portanto, assintoticamente, H
b
b 1 ≤ v) = K(v)
lim P (H
n→∞
(3.9)
Logo, pela equação (3.8) temos
E[Kn (v)] → K(v)
quando n → ∞.
"
n
1X b
I{Hi ≤ v}
V ar[Kn (v)] = V ar
n
#
i=1
b 1 ≤ v}]/n + (n − 1)Cov(I{H
b 1 ≤ v}, I{H
b 2 ≤ v})/n
= V ar[I{H
b 1 ≤ v} e I{H
b 2 ≤ v} v.a. de Bernoulli identicamente distribuídas com parâmetro p(v) =
sendo I{H
b 1 ≤ v), logo a variância de Kn (v) pode ser escrita como
P (H
b 1 ≤ v, H
b 2 ≤ v) − p(v)2 ]/n
p(v){1 − p(v)}/n + (n − 1)[P (H
(3.10)
Usando o termo de ordem 1/n da transformada de Laplace-Stieljes bivariada [1] de
b 1 ≤ v1 , H
b 2 ≤ v2 ) − P (H
b 1 ≤ v1 )P (H
b 2 ≤ v2 )
P (H
(3.11)
b 1 ≤ v, H
b 2 ≤ v) − P (H
b 1 ≤ v)2 = k(v){k(v)R(v) − 2vK(v)}/n + o(1/n)
P (H
(3.12)
mostra-se que
onde K(v) = 1 − K(v), k(v) = K 0 (v) é a densidade de H = C(X, Y ) e
R(v) = E[C{min(X1 , X2 ), min(Y1 , Y2 )} − v 2 |C(X1 , Y1 ) = C(X2 , Y2 ) = v]
Para detalhes veja Genest & Rivest [19].
86
b 1 no limite é dada por K(v)(equação 3.9) e substituindo a equação
Como a distribuição de H
(3.12) na equação (3.10), então uma aproximação de ordem o(1/n) para a variância de Kn (v) é
dada por
[K(v)K(v) + k(v){k(v)R(v) − 2vK(v)}]/n
E deste modo
lim V ar[Kn (v)] = 0
n→∞
e completa-se a prova.
O corolário a seguir é de extrema importância para a característica assintótica do Kendall Plot
b (dnpe) e Wdnpe:n,K convergem ao p-quantil teórico da verdadeira distribuição K e
mostrando que H
ao p-quantil teórico sob hipótese nula de distribuição K0 respectivamente.
b1, . . . , H
b n } realizações da BIPIT H, {H1 , . . . , Hn } amostra aleatória de
Corolário 5.1. Sejam {H
H com f.d.a. K, Kn como na Definição 5.1 e 0 ≤ p ≤ 1, então
p
b (dnpe) = Kn−1 (p) →
H
K −1 (p)
(3.13)
Wdnpe:n,K ≡ E H(dnpe) → K −1 (p)
(3.14)
e
quando n → ∞.
Demonstração. Demonstração da equação (3.13):
b (dnpe) = K −1 (p), logo a convergência segue do
De acordo com a Definição 5.1 pode-se considerar H
n
Teorema 5.1. Demonstração da equação (3.14):
lim Wdnpe:n,K
n→∞
≡
lim E H(dnpe) = E lim H(dnpe)
n→∞
−1
= E[K
n→∞
(p)] = K
−1
(p)
Por |H(dnpe) | ≤ 1, ∀n e a convergência quase certa,
n→∞
H(dnpe) → K −1 (p)
demonstrada por Sen & Singer [35] (veja Apêndice .2), a igualdade entre limite da esperança e
esperança do limite é garantida pelo Teorema da Convergência Dominada [22].
87
b (dnpe) ≡ K −1 (p) e Wdnpe:n,K ≡
Exemplo 5.2. A Figura 5.1 ilustra a convergência da BIPIT empírica H
n
E(H(dnpe) ) a K −1 (p), inversa da distribuição acumulada da BIPIT H. Usa-se no exemplo a BIPIT
H associada a cópula 4.2.12 (Tabela 3.1) que possibilita o cálculo direto da inversa K −1 (p). Esta
cópula Arquimediana torna-se uma exceção frente que a distribuição das demais cópulas Arquimedianas não apresentam uma forma fechada para o cálculo da inversa da distribuição.
O Corólário 5.1 confirma o mencionado na seção 5.2.2, ou seja, que os elementos do Kendall
b (i) e Wi:n,K ≡ E(H 0 ), representam respectivamente o pi -quantil da distribuição K (desconPlot, H
0
(i)
hecida)e o pi -quantil da distribuição sob a hipótese nula K0 para n suficientemente grande. Logo, se
b (i) ) concentram-se sob a diagonal principal evidencia-se que a BIPIT H segue
os pontos (Wi:n,K0 , H
distribuição K0 , ou seja, a não rejeição da hipótese nula do Kendall Plot. Este fato é verificado
formalmente através do corolário abaixo.
b (i) ) do gráfico Kendall Plot concentram-se ao longo da curva
Corolário 5.2. Os pares (Wi:n,K0 , H
p 7→ K −1 {K0 (p)}, ∀p ∈ I.
(3.15)
Demonstração. Reparametrizando p = K0 (w) temos w = K0−1 (p), w ∈ I, então
(K0−1 (p), K −1 (p)) = (w, K −1 {K0 (w)})
logo os pontos do Kendall Plot se comportam como os pontos do gráfico w 7→ K −1 {K0 (w)}.
Exemplo 2.1 (continuação)
b (i) ), 1 ≤ i ≤ n, de acordo com a equação (3.15) concentra-se ao
O gráfico dos pontos (Wi:n,K0 , H
longo da diagonal principal sob a hipótese nula, ou seja, quando K = K0 . A Figura 5.2 mostra o
Kendall Plot dos dados simulados no Exemplo 2.1 sob a hipótese nula de independência, ou seja,
K0 (v) = KΠ (v) (veja Exemplo 3.3), evidenciando independência nos dados.
b (i) ), 1 ≤ i ≤ n, de acordo com a equação (3.15)
Exemplo 5.3. O gráfico dos pontos (Wi:n,K0 , H
b (i) = 0, 1 ≤ i ≤ n - quando o vetor aleatório (X, Y ) testado
concentra-se sob o eixo horizontal - H
está associado a cópula minimal W (veja Exemplo 2.5). Como KW (v) = 1, ∀v ∈ I (Exemplo 3.5),
−1
de acordo com a definição de quasi-inversa (Definição 2.6) temos KW
(p) = 0, ∀p ∈ I. A Figura 5.3
apresenta o Kendall Plot para as observações do vetor aleatório (X, Y ) sendo Y = 1 − X que de
acordo com demonstração do Teorema 4.3, CX,Y = W .
0.6
0.4
0.0
0.2
K^{−1}
0.8
1.0
88
●●●
●●
●●
●
●●●
●●
●●●
●●
0.0
●
●●
●●
●
●
●
●
●●
●●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●●
●
●●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●●●
●
●●
0.2
0.4
0.6
0.8
●●
1.0
0.6
0.4
0.0
0.2
K^{−1}
0.8
1.0
K_n^{−1}
●
●●
●●
●●
●
●
●●
●●
●●
●
●
●●
●●
●●
●●
●
●●
●●
●●
●●●
●
●
●
●●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.0
0.2
0.4
0.6
0.8
1.0
W_{i:n,K}
b (dnpe) ≡ K −1 (p) proveniente de
Figura 5.1: Gráficos da inversa da função distribuição K −1 (p) vs. H
n
n = 100 pseudo-observações da cópula 4.2.12 (primeira figura); e Wdnpe:n,K = E(H(dnpe) ), n = 100,
sob hipótese da mesma cópula (segunda figura).
89
Figura
5.2:
Kendall
Plot
sob
hipótese
nula
de
independência
para
a
amostra
{(x1 , y1 ), . . . , (x100 , y100 )} sendo xi com distribuição exp(2) e yi com distribuição exp(10)
com {xi } gerados de forma independente de {yi }.
b (i) ), 1 ≤ i ≤ n, de acordo com a equação (3.15)
Exemplo 5.4. O gráfico dos pontos (Wi:n,K0 , H
concentra-se sob a curva K0 (p) quando o vetor aleatório (X, Y ) sendo testado está associado a
−1
cópula maximal M (veja Exemplo 2.5), pois KM
(p) = p, ∀p ∈ I (Exemplo 3.4). A Figura 5.4
apresenta o Kendall Plot para as observações do vetor aleatório (X, Y ) sendo Y = X que de acordo
com demonstração do Teorema 4.3, CX,Y = M .
Teorema 5.2. Seja a BIPIT H associada a cópula C desconhecida. Se o gráfico do Kendall Plot,
b (i) ≤ Wi:n,K , ∀ 1 ≤ i ≤ n para n suficientemente grande,
sob hipótese nula C = C0 , apresenta H
0
90
Figura 5.3: Kendall Plot sob hipótese nula de independência de n = 100 pares de observações do
vetor aleatório (X, Y ) com Y = 1 − X.
então τC ≤ τC0 .
b (i) e Wi:n,K evidenciadas pelo Corolário 5.1 e
Demonstração. De acordo com as convergências de H
pela relação entre v.a. BIPIT e tau de Kendall estabelecida na equação (1.8), para n suficientemente
grande temos
b (i) ≤ Wi:n,K , ∀ 1 ≤ i ≤ n ⇒ τC ≤ τC
H
0
0
A recíproca da equação (3.16) nem sempre é válida, veja Exemplo 4.4.
(3.16)
91
Figura 5.4: Kendall Plot sob hipótese nula de independência, de n = 100 pares de observações do
vetor aleatório (X, Y ) com Y = X.
Exemplo 5.5. Simulamos três amostras aleatórias de tamanho n = 150 da cópula de Clayton
com os respectivos parâmetros θ = {0.5, 2, 5} e construímos os Kendall Plot’s sob hipótese nula
de Clayton θ = 2 (Figura 5.5). Conforme esperado o plot dos dados com θ = 2 encontra-se sob a
diagonal principal, e observa-se que os dados com θ = 0.5 e θ = 5 encontram-se respectivamente
abaixo e acima do plot para θ = 2, conforme esperado de acordo com a ordenação estocástica de
Kendall para a família de Clayton (veja Exemplo 4.5).
92
Figura 5.5: Kendall Plot sob hipótese nula de cópula de Clayton θ = 2 (Wi:n,K0 referente a Clayton
com θ = 2) de amostras aleatórias de tamanho n = 100 associadas a cópula de Clayton com os
respectivos parâmetros θ = {0.5, 2, 5}.
93
94
Referências Bibliográficas
[1] Abramowitz, M., and Stegun, I. E. Handbook of Mathematical Functions. New York,
USA: Dover, 1972.
[2] Block, H. W., Savits, T. H., and Shahed, M. Some concepts of negative dependence.
The Annals of Probability, 10 (1982), 765–772.
[3] Bouyè, E., Durrleman, V., Bikeghbali, A., Riboulet, G., and T., R. Copulas for
finance Ű a reading guide and some applications. Working paper, Goupe de Recherche Opérationnelle, Crédit Lyonnais (2000).
[4] Capéeraà, P., Fougères, A. L., and Genest, C. A nonparametric estimation procedure
for bivariate extreme value copulas. Biometrika 84 (1997), 567–577.
[5] Capéeraà, P., Fougères, A. L., and Genest, C. Bivariate distributions with given
extreme value attractor. Journal of Multivariate Analysis 72 (2000), 30–49.
[6] Casella, G., and Berger, R. L. Statistical Inference. Belmont, California, USA: Duxbury
Press, 1990.
[7] Cherubini, U., Luciano, E., and Vecchiato, W. Copula Methods in Finance. John Wiley
& Sons, 2004.
[8] Ebrahimi, N., and Ghosh, M. Multivariate negative dependence. Communications in
Statistics, 4 (1981), 307–337.
95
96
[9] Embrechts, P., Lindskog, F., and McNeil, A. Modelling Dependence with Copulas and
Applications to Risk Management. Handbook of Heavy Tailed Distribution in Finance. Elsevier,
2003.
[10] Embrechts, P., McNeil, A., and Straumann, D. Correlation and dependence in risk
management: properties and pitfalls. Risk Management: Value at Risk and Beyond. Cambridge:
Cambridge University Press, 2002.
[11] Esary, J. D., Proschan, F., and Walkup, D. W. Association of random variables, with
applications. The Annals of Mathematical Statistics 44 (1967), 1466–1474.
[12] Frank, M. J. On the simultaneous associativity of f (x, y) and x + y − f (x, y). Aequationes
Mathematicae 19 (1979), 194–226.
[13] Frees, E., Carriere, J., and Valdez, E. Annuity valuation with dependent mortality.
Journal of Risk and Insurance 63 (1996), 229–261.
[14] Frees, E., and Valdez, E. Understanding relationships using copulas. North American
Actuarial Journal 2, 1 (1998), 1–25.
[15] Frees, E., and Wang, P. Credibility using copulas. North American Actuarial Journal 9, 2
(2005), 31–48.
[16] Genest, C., and Frave, A. C. Everything you always wanted to know about copula modeling but were afraid to ask. Journal of Hydrologic Engineering 12 (2007), 347–368.
[17] Genest, C., and MacKay, J. Copules archimédiennes et familles de lois bidimensionnelles
dont les marges sont données. Canad. J. Statist. 14 (1986a), 145–159.
[18] Genest, C., and MacKay, J. The joy of copulas: Bivariate distributions with uniform
marginals. Amer. Statist. 40 (1986b), 280–285.
[19] Genest, C., and Rivest, L. P. Statistical inference procedures for bivariate archimedean
copulas. Journal of the American Statistical Association 88 (1993), 1034–1043.
[20] Ghoudi, K., Khoudraji, A., and Rivest, L. Propriétés statistiques des copules de valeurs
extrêmes bidimensionnelles. The Canadian Journal of Statistics 26 (1998), 187–197.
97
[21] Gumbel, E. J. Distributions des valeurs extrêmes en plusieurs dimensions. Publ. Inst. Statist.
Univ. Paris 9 (1960), 171–173.
[22] James, B. R. Probabilidade: um Curso em Nível Intermediário, 2a ed. Projeto Euclides. Rio
de Janeiro, Brasil: IMPA, 2002.
[23] Joag-Dev, K., and Proschan, F. Negative association of random variables with applications. The Annals of Statistics 11 (1983), 286–295.
[24] Joe, H. Parametric family of multivariate distributions with given margins. Journal of Multivariate Analysis 46 (1993), 262–282.
[25] Joe, H. Multivariate Models and Dependence Concepts. Chapman & Hall, 1997.
[26] Karlin, S. Total Positivity, vol. I. California, USA: Stanford University Press, 1968.
[27] Karlin, S., and Rinnot, Y. Classes of orderings of measures and related correlation inequalities, i. multivariate totally positive distributions. Journal of Multivariate Analysis 10
(1980), 467–498.
[28] Karlin, S., and Rinnot, Y. Classes of orderings of measures and related correlation inequalities, ii. multivariate reverse rule distributions. Journal of Multivariate Analysis 10 (1980),
499–516.
[29] Kimeldorf, G., and Sampson, A. R. Uniform representations of bivariate distributions.
Comm. statist. 4 (1975), 617–627.
[30] Lehmann, E. L. Some concepts of dependence. The Annals of Mathematical Statistics 37
(1966), 1137–1153.
[31] Nelsen, R. An Introduction to Copulas. Lecture Notes in Statistics 139. New York, USA:
Springer-Verlag, 1999.
[32] Nelsen, R., Quesada-Molina, J., Rodrigues-Lallena, J., and Ubeda-Flores, M.
Kendall distribution functions. Statistics & Probability Letters 65 (2003), 263–268.
98
[33] Piessens, R., Doncker-Kapenga, E., Ü berhuber, C., and Kahaner, D. Quadpack: a
subroutine package for automatic integration. New York, USA: Springer-Verlag, 1983.
[34] Schweizer, B., and Sklar, A. Probabilistic Metric Spaces. New York, USA: North-Holland,
1983.
[35] Sen, P. K., and Singer, J. M. Large Sample Methods in Statistics: an introduction with
applications. New York, USA: Chapman and Hall, 1993.
[36] Sklar, A. Fonctions de répartition à n dimensions et leurs marges. Publ. Inst. Statist. Univ.
Paris 8 (1959), 229–231.
[37] Wang, W., and Wells, M. T. Model selection and semiparametric inference for bivariate
failure-time data. J. Amer. Statist. Assoc. 95 (2000), 62–72.