Arquivo para

ISSN 0104-0499
UNIVERSIDADE FEDERAL DE SÃO CARLOS
CENTRO DE CIÊNCIAS EXATAS E
TECNOLÓGICAS
AJUSTE E COMPARAÇÃO DAS DISTRIBUIÇÕES
-ESTÁVEL E NORMAL ASSIMÉTRICA
Walkiria M. de Oliveira Macerau
Luís A. Milan
RELATÓRIO TÉCNICO
DEPARTAMENTO DE ESTATÍSTICA
TEORIA E MÉTODO– SÉRIE A
Outubro/2011
nº 247
Ajuste e Comparação das Distribuições
α-estável e Normal assimétrica
Walkiria M. de Oliveira Macerau e Luís A. Milan
Departamento de Estatística
Universidade Federal de São Carlos
Resumo
As distribuições assimétricas tem experimentado grande desenvolvimento nos tempos recentes. Elas são
muito versáteis e tem sido utilizadas na modelagem de dados financeiros, sistema de comunicação e
genéticos entre outras aplicações. Dentre essas distribuições a Normal assimétrica (Azzalini, 1986) tem
recebido mais atenção dos pesquisadores (Arrelano-Valle et al., (2005), Gupta et al., (2004) e Genton et
al., (2000)). Neste trabalho apresentamos uma alternativa à Normal assimétrica, a distribuição α-estável
estudada por Nolan (2009) e proposta por Gonzalez et al., (2009) no contexto de dados genéticos. Com o
objetivo de comparar as distribuições α-estável e Normal assimétrica, realizamos um estudo por meio de
simulações para encontrar um modelo com um melhor se ajuste. Os resultados encontrados na simulação
indicam que a distribuição Normal assimétria apresenta-se com um melhor ajuste, além de ser um modelo
mais parcimonioso com apenas três parâmetros.
Palavras-chave: Distribuições assimétricas, α-estável, Normal assimétrica.
1
Introdução
Em estatística assimetria significa que os valores de um lado da distribuição tendem
a estar mais concentrados do que valores que estão do outro lado. A assimetria pode ser
positiva ou negativa, assimetria positiva indica que a cauda do lado direito da distribuição
(ou da função densidade de probabilidade) é maior que o lado esquerdo, assimetria negativa indica que a cauda do lado esquerdo é maior que o lado direito.
As distribuições assimétricas tem sido bastante utilizadas nos tempos recentes na
modelagem de dados financeiro e de economia, sistema de comunicação e genéticos. Em
geral esses tipos de dados possuem caudas pesadas e um grau de concentração em torno
da média, e as distribuições simétricas não conseguem modelar essas características.
As vantagens das distribuições assimétricas são a manutenção da escala original das
observações e a interpretação dos parâmetros estimados. Nem sempre as transformações
disponíveis eliminam por completo a assimetria, em outras palavras, torna dados com
distribuição geradoras assimétricas em simétricas.
A distribuição Normal assimétrica (ou Skew-Normal) bastante estudada por Azzalini (1986) tem recebido grande atenção dos pesquisadores (Arrelano-Valle et al., (2005),
Gupta et al., (2004) e Genton et al., (2000), ela é uma classe distribuição de probabilidade
contínua que estende a distribuição Normal permitindo a presença de assimetria. Uma
1
alternativa à Normal assimétrica é a distribuição α-estável proposta por Gonzalez et al.,
(2009) no contexto de dados genéticos.
Nolan (2009) caracteriza as distribuições estáveis ou α-estável pela assimetria, caudas pesadas e suas propriedades matemáticas. Essa classe de distribuição foi caracterizada
por Paul Lévy (1925), em geral as distribuições estáveis não possuem uma forma fechada
para sua função densidade de probabilidade, quando isto ocorre sua função característica
é utilizada. Existem três casos onde é possível escrever sua função densidade, são eles as
distribuições Normal, Cauchy e Lévy.
A distribuição α-estável consegue descrever um grau de concentração das observações
em torno da média e também a assimetria, independente do tamanho da amostra. Outra
razão para utilizar essa classe de distribuição é a generalização do Teorema Central do
Limite que garante que soma de variáveis aleatórias estáveis i.i.d. são estáveis (Nolan
(2009)).
Neste trabalho apresentamos um estudo comparativo com dados simulados utilizando as distribuições α-estável e Normal assimétrica. A motivação desse estudo está
ligado a busca de uma distribuição que consiga modelar dados assimétricos de uma forma
mais parcimoniosa.
Este relatório está dividido em seis seções. Na seção 1 apresentamos uma introdução
sobre as distribuições utilizadas na literatura para modelar dados assimétricos. Na seção
2 uma descrição das distribuições utilizadas nesse estudo. Na seção 3 os procedimentos
utilizados nas simulações e também os resultados encontrados. Na seção 4 as aplicações
em banco de dados reais e os resultados. Nas seções 5 e 6 as considerações finais e os
agradecimentos, respectivamente. Por último apresentamos as referências bibliográficas.
2
2.1
Distribuições utilizadas no estudo
Distribuição α-estável
Segundo Nolan (2005) a razão para o termo estável está na virtude das variáveis
aleatórias manterem sua forma na adição, ou seja, se X1 , X2 , . . . , Xn são variáveis aleatórias
estáveis independentes identicamente distribuidas, então para todo n,
d
X 1 + X 2 + · · · + X n = cn X + d n ,
(1)
em que X também é uma variável aleatória estável, para qualquer constante cn > 0 e
dn , a equação (1) é chamada de estritamente estável se dn = 0 para todo n. Pode-se
usar o termo soma de estáveis para enfatizar a estabilidade sobre a adição. A classe que
satifaz (1) é descrita para quatro parâmetros (α, β, γ, δ), em geral elas não possuem forma
fechada para função densidade de probabilidade e função de densidade acumulada.
O parâmetro α é chamado de indexador de estabilidade ou expoente característico,
ele define o nível da intensidade local, α ∈ (0, 2]; β é o parâmetro de assimetria (se β =
2
0 a distribuição é simétrica, se β = +1 a distribuição é assimétrica positiva, e se β = -1
a distribuição é assimétrica negativa), β ∈ [−1, +1]. Os parâmetros α e β determinam a
forma da distribuição. γ é o parâmetro de dispersão ou de escala, γ ≥ 0. δ é o parâmetro
de locação, δ ∈ (−∞, +∞).
Figura 1: Densidade da distribuição α-estável com paramêtros δ = 0 e γ = 1. (a) β = 0; α = 0.5 (preto),
α = 1 (vermelho), α = 1.5 (verde), α = 2 (azul). (b) α = 1.5; β = -1 (preto), β = 0 (vermelho), β = 0.5
(verde), β = 1 (azul).
A Figura 1 mostra o comportamento da função densidade de probabilidade de uma
distribuição α-estável com α variando e β = 0, e β variando e α = 1.5. O parâmetro α
controla o grau de concentração em torno da média (ou grau de intensidade local) e o
parâmetro β a assimetria.
Existem duas parametrizações para a distribuição α-estável que serão denotadas por
S(α, β, γ, δ0 ; 0) e S(α, β, γ, δ1 ; 1). Os parâmetros α, β e γ tem a mesma interpretação nas
duas parametrizações, somente δ é diferente.
Definição 2.1. Uma variável aleatória X é S(α, β, γ, δ0 ; 0) se sua função característica
for dada por

(senu)(|γu|1−α −1)]+iδu
e−γ α |u|α [1+iβ (tan πα
2 )
para (α 6= 1),
E [exp (iuX)] =
(2)
2
e−γ|u|[1+iβ π (senu)ln(γ|u|)]+iδu
para (α = 1).
Definição 2.2. Uma variável aleatória X é S(α, β, γ, δ1 ; 1) se sua função característica
for dada por

(senu)]+iδu
e−γ α |u|α [1−iβ (tan πα
2 )
para (α 6= 1),
E [exp (iuX)] =
(3)
2
e−γ|u|[1+iβ π (senu)ln|u|]+iδu
para (α = 1).
3
Os parâmetros de locação δ0 e δ1 são dados por


δ + βγtan πα , (α 6= 1),
δ − βγtan πα , (α 6= 1),
1
0
2
2
δ0 =
δ1 =
π
δ1 + β π γlnγ, (α =

6 1),
δ0 − β 2 γlnγ, (α =
6 1).
2
(4)
Se β = 0 as parametrizações coincidem. Quando α 6= 1 e β 6= 0, as parametrizações diferem para uma mudança em βγtan πα
. Um modelo S(α, β, γ, δ1 ; 1) → ∞ se
2
[sen(α − 1)β] > 0 ou S(α, β, γ, δ1 ; 1) → −∞ se α → 1. Quando α = 1 o modelo
S(α, β, γ, δ0 ; 0) é um modelo pertencente à uma simples família de escala.
Neste trabalho, por simplicidade algébrica vamos utilizar a parametrização
S(α, β, γ, δ1 ; 1) e denominar a distribuição de α-estável.
As distribuições Normal, Cauchy e Lévy também satisfazem a propriedade (1), e
para esses casos é possível escrever a função densidade de probabilidade, e verificar diretamente que elas fazem parte da família de distribuições estáveis.
Exemplo 2.1. Distribuição Normal ou Gaussiana. X ∼ N (µ, σ 2 ) se sua função densidade
de probabilidade for dada por
(
)
(x − µ)2
1
exp −
, para − ∞ < x < ∞.
(5)
f(x) = √
2σ 2
2πσ
A Normal é uma distribuição α-estável com parâmetros α = 2 e β = 0, ou seja,
√
√
N (µ, σ 2 ) = S(2, 0, σ/ 2, 0; 0) ou N (µ, σ 2 ) = S(2, 0, σ/ 2, 0; 1).
Exemplo 2.2. Distribuição de Cauchy. X ∼ Cauchy(γ, δ) se sua função densidade de
probabilidade for dada por
f(x) =
1
γ
, para − ∞ < x < ∞.
π γ 2 + (x − δ)2
(6)
A Cauchy é uma distribuição α-estável com parâmetros α = 1 e β = 0, ou seja,
Cauchy(γ, δ) = S(1, 0, γ, δ; 0) ou Cauchy(γ, δ) = S(1, 0, γ, δ; 1).
Exemplo 2.3. Distribuição de Lévy. X ∼ Lévy(γ, δ) se sua função densidade de probabilidade for dada por
r
γ
γ
1
f(x) =
exp −
, para δ < x < ∞.
(7)
2π (x − δ)3/2
2 (x − δ)
A Lévy é uma distribuição α-estável com parâmetros α = 1/2 e β = 1, ou seja,
Lévy(γ, δ) = S(1/2, 1, γ, γ + δ; 0) ou Lévy(γ, δ) = S(1/2, 1, γ, δ; 1).
4
2.2
Distribuição Normal assimétrica
A classe de distribuição Normal assimétrica foi introduzida por Azzalini (1986), ela
é uma classe distribuição de probabilidade contínua que extende a distribuição Normal
permitindo a presença de assimetria. Sua função densidade de probabilidade é dada por
fX (x; α) = 2φ(x)Φ(αx).
(8)
Observamos que a distribuição Normal pode ser recuperada em (8) quando α = 0.
E quando α > 0 a distribuição Normal assimétrica é assimétrica à direita e quando α < 0
é assimétrica à esquerda. A assimetria é limitada ao intervalo (-1, 1).
Para adicionar os parâmetros de localização e escala utilizamos a transformação
x=
x−ξ
.
ω
(9)
Podemos dizer que uma variável aleatória X tem distribuição Normal assimétrica
com parâmetros (ξ, ω, α), se a sua função densidade de probabilidade é dada por
2
x−ξ
x−ξ
fX (x; α, ξ, ω) = φ
Φ α
,
(10)
ω
ω
ω
onde ξ é o parâmetro de localização, ω é o parâmetro de escala e α é o parâmetro de
forma.
Figura 2: Densidade da distribuição Normal assimétrica com paramêtros ξ = 0. (a) ω = 1; α = -1 (preto),
α = 0 (vermelho), α = 0.5 (verde), α = 1 (azul). (b) α = 1; ω = 0.5 (preto), ω = 1 (vermelho), ω = 1.5
(verde), ω = 2 (azul).
A Figura 2 mostra o comportamento da função densidade de probabilidade de uma
distribuição Normal assimétrica com α variando e ω = 1, e ω variando e α = 0. O
parâmetro α controla a assimetria e o parâmetro ω o grau da intensidade local.
5
3
3.1
Estudo de Simulação
Geração dos dados
Simulamos observações com distribuição α-estável e modelamos com as distribuições
α-estável e Normal assimétrica, em seguida repetimos o mesmo procedimento com a distribuição Normal assimétrica. Realizamos as simulações com diferentes tamanhos de
amostras e diferentes graus de assimetria.
A geração dos número aleatórios da distribuição α-estável foi realizada através de
uma função implementada por Diethelm Wuertz, onde essa função usa a abordagem de
Nolan (2009). Essa função descrita por Nolan (2009) podem ser encontrada na librarys
fBasics do software R (R 2.11.1, 2011). E a geração de números aleatório da distribuição
Normal assimétrica utiliza a abordagem de Azzalini (1986). A função para gerar números
aleatórios com distribuição Normal assimétria poder ser encontrada na librarys VGAM
do software R (R 2.11.1, 2011).
Os parâmetros das distribuições foram estimados pelo método de máxima verossimilhança. Para a distribuição α-estável elaboramos uma função a qual denominamos
asFit que utiliza a função optim do R, e comparamos os resultados com a função stableFit
implementada na librarys fBasics. E para a distribuição Normal assimétrica utilizamos a
função snFit que também utiliza a função optim, e baseado na função stableFit criamos
uma função para estimar os parâmetros a qual denominamos de snormFit.
3.2
Resultados da Simulação
Utilizando as funções asFit e snFit observamos que para observações geradas com
distribuição α-estável, não foi possível estimar os parâmetros da distribuição Normal
assimétrica, para amostras grandes (n = 10000), e quando a distribuição geradora é a
Normal assimétrica a função não consegue estimar os parâmetros da α-estável para todos
os tamanhos de amostra.
Observamos que o parâmetro influenciador na estimação, para o caso de observações
geradas de uma distribuição α-estável é o α, o que já era esperado, pois, este parâmetro
define o nível da intensidade local. Quando α é menor que 1.5 não é possível estimar os
parâmetro da Normal assimétrica para tamanhos de amostras maiores que 100. Quando
α é maior que 1.7 não é possível estimar os parâmetro da α-estável para amostras de
tamanho 30 e 100. E quanto mais próximo de 2 for o valor de α mais difícil é estimar os
parâmetros da distribuição. E em todos os possíveis valores de α descritos acima, não foi
possível estimar os parâmetros para a distribuição Normal assimétrica.
6
Quando as observações são geradas com distribuição Normal assimétrica, o parâmetro
influenciador também é o α. Quanto mais próximo de 1 mais possível a estimação dos
parâmetros das duas distribuições, o que indica que é necessário que os dados sejam
praticamente normalmente distribuídos, ou seja, quando mais a distribuição geradora dos
dados cai no caso particular da distribuição Normal, mais possível é a estimação dos
parâmetro. No entanto, não é esse o nosso objetivo.
Procuramos então simular observações com valores de parâmetros que não fossem
caso particular da Normal e nos fornecessem o máximo de resultados, utilizando as funções
asFit e snFit, uma vez que essa função fornece a matriz hessiana que é muito útil para o
nosso estudo. Em casos onde essas funções não conseguiram fazer a estimação, utilizamos
as funções stableFit e snormFit que utilizam a nlminb, pois elas apresentam resultados
parecidos, com diferença apenas na terceira casa decimal após a vírgula.
Após essa análise tomamos alguns valores fixo para os parâmetros de uma distribuição α-estável e geramos observações ão para os tamanhos de amostras 30, 100, 1000
e 10000.
A Tabela 1 apresenta a estimativa dos parâmetros e o erro padrão, a Figura 3 apresenta os histogramas das distribuições e a Figura 4 os gráficos das ditribuições empírica
dos dados com as densidades téorica, α-estável estimada e Normal assimétrica estimada,
para cada tamanho de amostra.
Tabela 1: Estimativa dos parâmetros da distribuição α-estável.
Parâmetros
α
β
γ
δ
Valores
1.65
0.40
0.30
0.20
n = 30
1.6375 (0.6965)
-0.3220 (1.2621)
0.2326 (0.1026)
0.1558 (0.1911)
Estimativas (Erro padrão)
n = 100
n = 1000
1.6740 (0.3570) 1.6749 (0.0868)
0.6897 (0.7968) 0.4749 (0.2330)
0.3040 (0.0625) 0.2783 (0.0161)
0.1602 (0.1309) 0.1950 (0.0366)
7
n=
1.6462
0.3895
0.3018
0.2010
10000
(0.0300)
(0.0715)
(0.0059)
(0.0129)
Figura 3: Histograma dos dados gerados com distribuição α-estável (preto) e modelados com α-estável
(vermelho) e Normal assimétrica (azul): (a) n = 30, (b) n = 100, (c) n = 1000 e (d) n = 10000.
Figura 4: Distribuição empírica para os dados gerados com distribuição α-estável (preto) e modelados
com α-estável (vermelho) e Normal assimétrica (azul): (a) n = 30, (b) n = 100, (c) n = 1000 e (d) n =
10000.
Observamos por meio da Figura 3 que a medida que o tamanho da amostra aumenta
a distribuição α-estável estimada apresenta um comportamento melhor quando comparada
com a distribuição geradora dos dados (α-estável). Já a distribuição Normal assimétrica
estimada apresenta um comportamento melhor somente para as amostras de tamanho
30 e 1000. Os gráficos das distribuições empíricas (Figura 4) apresenta que a somente
para amostra de tamanho 100 é que a distribuição Normal assimétrica, possui um pior
comportamento quando comparada com a distribuição α-estável.
8
O mesmo procedimento tomamos com a distribuição Normal assimétrica, simulamos
dados com distribuição Normal assimétrica com os valores dos parâmetros fixos e amostras
de tamanho 30, 100, 1000 e 10000.
A Tabela 2 apresenta as estimativas dos parâmetros e o erro padrão, a Figura 5
apresenta os histogramas, e a Figura 6 o gráfico das distribuições empírica dos dados,
com as densidades téorica, α-estável estimada e Normal assimétrica estimada para cada
tamanho de amostra.
Tabela 2: Estimativa dos parâmetros da distribuição Normal assimétrica.
Parâmetros
ξ
ω
α
Valores
-0.20
0.50
0.70
n = 30
-0.5060 (1.2791)
0.5612 (0.6320)
0.7565 (4.2668)
Estimativas (Erro padrão)
n = 100
n = 1000
-0.0313 (6.7239) -0.1793 (0.2458)
0.4164 (0.0714)
0.4831 (0.1045)
0.0079 (20.2358) 0.6118 (0.8426)
n = 10000
-0.2274 (0.0504)
0.5108 (0.0263)
0.8126 (0.1935)
Figura 5: Histograma dos dados gerados com distribuição Normal assimétrica (preto) e modelados com
α-estável (vermelho) e Normal assimétrica (azul): (a) n = 30, (b) n = 100, (c) n = 1000 e (d) n = 10000.
9
Figura 6: Distribuição empírica para os dados gerados com distribuição Normal assimétrica (preto) e
modelados com α-estável (vermelho) e Normal assimétrica (azul): (a) n = 30, (b) n = 100, (c) n = 1000
e (d) n = 10000.
Observamos por meio da Figura 5 que a medida que o tamanho da amostra aumenta as distribuições α-estável estimada e Normal assimétrica estimada apresenta um
bom comportamento quando comparada com a distribuição geradora dos dados (Normal
assimétrica). O mesmo resultado foi observado nas distribuições empíricas (Figura 6).
Fixamos o tamanho das amostras em 1000 observações, e simulamos dados com
distribuição α-estável com parâmetros de assimetria (β) igual à -0.9, 0, 0.5 e 0.9.
A Tabela 3 apresenta as estimativas dos parâmetros e o erro padrão, a Figura 7
apresenta o histograma, e a Figura 8 o gráfico das distribuições empírica das observações
geradas com distribuição α-estável, e modelados com as distribuições α-estável e Normal
assimétrica com as variação no parâmetro β.
Tabela 3: Estimativa dos parâmetros da distribuição α-estável, com parâmetros α=1.65,
γ=0.3, δ=0 e variações no parâmetro β.
Parâmetros
α
β
γ
δ
β = -0.9
1.7204 (0.0835)
-0.8396 (0.1851)
0.2896 (0.0159)
0.0361 (0.0371)
Estimativas (Erro padrão)
β=0
β = 0.5
1.6257 (0.0907) 1.6249 (0.0946)
0.0312 (0.2365) 0.4330 (0.2108)
0.3018 (0.0183) 0.3008 (0.0185)
0.0046 (0.0413) 0.0067 (0.0426)
10
β = 0.9
1.6160 (0.0923)
0.8648 (0.1332)
0.2902 (0.0174)
0.0069 (0.0462)
Figura 7: Histograma dos dados gerados com distribuição α-estável (preto) e modelados com α-estável
(vermelho) e Normal assimétrica (azul): n = 1000; α = 1.65; γ = 0.3; δ = 0; (a) β = -0.9, (b) β = 0, (c)
β = 0.5, (d) β = 0.9.
Figura 8: Distribuição empírica para os dados gerados com distribuição α-estável (preto) e modelados
com α-estável (vermelho) e Normal assimétrica (azul): n = 1000; α = 1.65; γ = 0.3; δ = 0; (a) β = -0.9,
(b) β = 0, (c) β = 0.5, (d) β = 0.9.
Visualizando a Figura 7 observamos que a distribuição α-estável estimada apresenta
um melhor comportamento comparada com a Normal assimétria estimada, em todas as
variações do parâmetro de assimetria β. O que também é observado nos gráficos da
distribuição empírica dos dados (Figura 8).
11
O mesmo procedimento tomamos para a distribuição Normal assimétrica, fixamos o
tamanho da amostra em 1000 observações e simulamos dados com parâmetros de assimetria (α) igual à -1, 0, 0.5 e 1.
Apresentamos as estimativas desta simulação na Tabela 4, os histograma na Figura
9, e o gráfico das distribuições empírica na Figura 10. Onde os dados foram gerados de
uma distribuição Normal assimétrica, e modelados com as distribuições α-estável e Normal assimétrica com variações no parâmetro α.
Tabela 4: Estimativa dos parâmetros da distribuição Normal assimétrica, com parâmetros ξ = 0, ω = 0.4 e variações no parâmetro α.
Parâmetros
ξ
ω
α
α = -1
-0.2992 (0.6499)
0.3389 (0.1447)
0.2889 (2.5768)
Estimativas (Erro padrão)
α=0
α = 0.5
-0.0127 (2.2079) 0.1377 (2.3372)
0.4090 (0.0209) 0.3681 (0.0174)
0.0061 (6.7652) 0.0034 (7.9569)
α=1
0.0086 (0.0897)
0.4217 (0.0535)
0.9999 (0.5045)
Figura 9: Histograma de dados gerados com distribuição Normal assimétrica (preto) e modelados com
α-estável (vermelho) e Normal assimétrica (azul): n = 1000; ψ = 0; ω = 0.4; (a) α = -1, (b) α = 0, (c)
α = 0.5, (d) α = 1.
12
Figura 10: Distribuição empírica para os dados gerados com distribuição Normal assimétrica (preto) e
modelados com α-estável (vermelho) e Normal assimétrica (azul): n = 1000; ψ = 0; ω = 0.3; (a) α = -1,
(b) α = 0, (c) α = 0.5, (d) α = 1.
Observamos por meio das Figuras 9 e 10 observamos que tanto a distribuição Normal
assimétrica estimada, quanto a distribuição α-estável estimada conseguir modelar os dados
gerados em todas as variações do parâmetro de assimetria α.
4
4.1
Aplicação em dados reais
Descrição dos dados
Na aplicação deste trabalho utilizamos dois diferentes bancos de dados. O primeiro
são dados de expressão gênica, de um experimento muito conhecido na literatura de
microarrays, o “Swirl Zebrafish” (Ferreira & Filho (2009)), esse experimento foi realizado
utilizando o peixe “Zebrafish” como um organismo modelo para o estudo do crescimento em
vertebrados. O segundo banco de dados consiste em histórico de cotações do IBOVESPA,
do período de 01 janeiro de 1990 à 31 dezembro de 1997.
13
4.2
Dados de Expressão Gênica
Inicialmente estimamos via máxima verossimilhança os parâmetros das distribuições
α-estável e Normal assimétrica para os dados de expressão gênica, os resultados estão descrito na Tabela 5. Construímos o histograma para os dados (Figura 11) modelamos com
os parâmetros estimados das distribuições. A distribuição empírica dos dados apresentada
na Figura 12 mostra que a distribuição Normal assimétrica apresenta um melhor ajuste.
Tabela 5: Estimativa e Intervalos de Confiança para os parâmetros:
Dados de Expressão Gênica - “Zebrafish”.
Distribuições
α-estável
Normal assimétrica
Parâmetros
α
β
γ
δ
ξ
ω
α
Estimativas
1.9160
0.2257
0.3103
-0.2888
-0.6112
0.5789
0.9999
2.5%
1.9053
0.1160
0.3076
-0.2940
-0.6265
0.5694
0.9393
97.5%
1.9267
0.3354
0.3130
-0.2837
-0.5958
0.5884
1.0605
Figura 11: Histograma dos dados de expressão gênica - “Zebrafish”.
14
Figura 12: Distribuição empírica para os dados de expressão gênica - “Zebrafish”.
Figura 13: Dados de expressão gênica - “Zebrafish”: (a) Histograma e (b) Distribuição empírica.
4.3
Descrição do índice BOVESPA
Fizemos o gráfico da série original (Figura 14(a)) dos dados do índice BOVESPA,
onde também observamos uma tendência cíclica, ou seja, não estácionáriedade na média
e variância. E o comportamento da FAC indicando um decaimento lento. Para esses dados tomamos dois métodos para tornar a série estacionária, o operador diferença (Figura
14(a)) e a transformação logaritma da série (Figura 14(c)), ou seja, razão entre o dia
atual e o anterior, conforme descrito em Morettin (2008) e Taylor (1986), observamos que
a estacionáriedade na média foi obtida e o comportamento a FAC indica que a ausência
de autocorrelação dos dados para ambas as transformações.
15
Figura 14: Gráfico da série e Função de autocorrelação dados do índice BOVESPA: (a) Dados originais,
b) Dados com diferenciação e (c) Retorno da série.
Os parâmetros para ambas distribuições também foram estimados via máxima verossimilhança para os dados do índice BOVESPA, a Tabela 6 apresenta os resultados encontrados. Também construímos o histograma para os dados (Figura 15) modelamos com os
parâmetros estimados das distribuições. A distribuição empírica dos dados apresentada
na Figura 16 mostra que a distribuição Normal assimétrica apresenta um melhor ajuste.
Tabela 6: Estimativa e Intervalos de Confiança (95%) para os parâmetros: Dados do índice
BOVESPA.
Distribuições
α-estável
Normal assimétrica
Parâmetros
α
β
γ
δ
ξ
ω
α
Dados com
Estimativas
1.7789
0.2976
0.0240
1.0086
0.9812
0.0479
0.9999
diferenciação
2.5%
97.5%
1.6997 1.8581
0.0805 0.5147
0.0229 0.0251
1.0067 1.0105
0.9761 0.9863
0.0447 0.0510
0.7539 1.2459
16
Retorno dos dados
Estimativas
2.5%
97.5%
1.8110
1.7335
1.8886
0.3200
0.0856
0.5544
0.0241
0.0230
0.0252
0.0082
0.0064
0.0100
-0.0164
-0.0224 -0.0105
0.0459
0.0425
0.0492
0.8545
0.5942
1.1147
Figura 15: Histograma de dados do índice BOVESPA: (a) Dados com diferenciação e (b) Retorno dos
dados.
Figura 16: Distribuição empírica para os dados do índice BOVESPA: (a) Dados com diferenciação e (b)
Retorno dos dados.
5
Considerações finais
Nesse relatório apresentamos algumas características da distribuição α-estável e Normal assimétrica. Observamos que essas distribuições proporcionam flexibilidade para
modelar dados com um certo grau de concentração em torno da média e caudas pesadas.
O estudo de simulação mostrou que a distribuição Normal assimétrica para amostras
pequenas consegue modelar dados gerados com distrituição α-estável, entretanto para
amostras maiores o mesmo não ocorre. A distribuição Normal assimétria também não
teve um bom resultado para as amostras com alterações no parâmetro de assimetria.
Já distribuição α-estável apresentou um resultado melhor, tanto quando a distribuição
geradora era α-estável quanto Normal assimétria. Isso já era esperado, uma vez que essa
distribuição possui um parâmetro a mais.
17
A análise de dados reais mostrou que ambas distribuições conseguiram modelar as
observações tanto para os dados financeiros do IBOVESPA quanto os dados de expressão
gênica “Zebrafish”. A escolha de qual modelo utilizar nesse casso, seria a distribuição
Normal assimétrica, pois é um modelo mais parcimonioso quando comparado com a distribuição α-estável.
6
Agradecimentos
Agradecemos à CAPES pelo apoio financeiro recebido pela autora que permitiu o
desenvolvimento deste trabalho.
18
Referências
[1] Arrelano-Valle, R. B.; Bolfarine, H.; Lacho, V. H.; (2005); Skew-normal Linear Mixed
Models. Journal of Data Science. 3, 415-438.
[2] Azzalini, A.; (1985); A Class of Distributions which Includes the Normal Ones. Scand
Journal Statist. 12, 171-178.
[3] Ferreira Filho, D.; Leandro, R. A.; (2009); Análise de Microarray usando o R e o
Biocondutor. Tutorial apresentado no 54◦ RBRAS e 13◦ SEAGRO.
[4] Genton, M. G.; He, L.; Liu, X.; (2001); Moments of skew-normal randon vectors and
their quadratic forms. Statistics & Probability Letters. 51, 319-325.
[5] Gonzalez, D. S.; Kuruoglu, E. E.; Ruiz, D. P.; (2009); Modelling and Assessing
Differential Gene Expression Using the Alpha Stable Distribuiton. The International
Journal of Biostatistics. 5(1), 16.
[6] Gupta, A. K.; Nguyen, T. T.; Sanqui, J. A. T; (2004); Characterization of the Skewnormal Distribution. The Institute of Statistical Mathematics 56, 351-360.
[7] IBOVESPA. Dados histórico de cotações. Disponível em:
<http://cotacoes.economia.uol.com.br/bolsas/index.html?indice=.BVSP>
em: 23 mar. 2011.
Acesso
[8] Lévy, P.; (1925); Calcul des Probabilites. Paris: Gauthier Villars.
[9] Magalhães, M. N.; (2006); Probabilidade e Variáveis Aleatórias. São Paulo: Edusp 2a Edição.
[10] Morettin, P. A.; (2008); Econometria Financeira. São Paulo: Editora Blucher.
[11] Nolan, J. P.; (2009); Stable Distributions: Models for Heavy Tailed Data. Capítulo
1. Disponível em: <http://academic2.american.edu/ jpnolan/stable/chap1.pdf.>
Acesso em: 1 mar. 2011.
[12] R. R-Project Software Version 2.11.1. Disponível em:
<http://www.r-project.org>.
[13] Stockute, R. & Johnson, P.; (2006); Laplace Distribution.
[14] Taylor, S.; (1986); Modelling Financial Time Series. New York: John Wiley & Sons.
PUBLICAÇÕES 2011
. LOUZADA-NETO, F.; MARCHI, V.; ROMAN, M.; “The Exponentiated ExponentialGeometric Distribution: A distribution with decreasing, increasing and unimodal hazard
function” Janeiro/2011 Nº 235
. LOUZADA-NETO, F; SUZUKI, A. K.; CANCHO, V. G.; “The FGM Long-Term
Bivariate Survival Copula Model: Modeling, Bayesian Estimation and case influence
diagnostics” Janeiro/2011 Nº 236
. CALSAVARA, V. F.; TOMAZELLA, V. L. D.; FOGO,
J. C.; “Modelos de
Sobrevivência com Fração de Cura para Dados de Tempo de Vida Weibull Modificada
Generalizada” Fevereiro/2011 Nº 237
. CALSAVARA, V. F.; TOMAZELLA, V. L. D.; FOGO, J. C.; “O Efeito do Termo de
Fragilidade no Modelo de Mistura Padrão”, Fevereiro/2011 Nº 238
. MILANI, E. A., TOMAZELLA, V. L. D., DIAS, T. C. M., LOUZADA, F. “The
generalized time-dependent logistic frailty model: na application to a population-based
prospective study of incidente cases of lung cancer diagnosed in Northern Ireland”
Março/2011 Nº 239
. DIAS, T. C. M., TOMAZELLA, V. L. D.,
MILANI, E. A. “Estimação Bayesiana
Objetiva do Modelo de Regressão de Feigl e Zelen” Abril/2011 Nº 240
. TOMAZELLA, V. L. D., SILVA, M. P. L., MARTINS, C. B. “Uma Introdução a
Análise de Referência: Inferência Sobre a Função de Sobrevivência do Modelo
Exponencial” Abril/2011 Nº 241
. PIRES, R. M., DINIZ, C. A. R. “Bayesian Estimation of Correlated Binomial Regression
Model” Maio/2011 Nº 242
. SALASAR, L. E. B., LEITE, J. G., LOUZADA, F. “Likelihood Functions for a Capturerecapture Model” Junho/2011 Nº 243
. RODRIGUES, A. S., POLPO A. C., DIAS, T. C. M., “Riscos Competitivos: uma
avaliação de métodos de estimação” Julho/2011 Nº 244
. CONCEIÇÃO K. S., ANDRADE M. G., LOUZADA F., “A Bayesian Approach for the
Zero Modied PoissonModel: An Application to a Brazilian Leptospirosis Notication Data”
Julho/2011 Nº 245
. CONCEIÇÃO, K. S., ANDRADE, M. G., LOUZADA, F., “Divergence Measure between
Posterior Densities in a Bayesian Approach for Zero-Modied Poisson Distributions”
Agosto/2011 Nº 246