ISSN 0104-0499 UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS AJUSTE E COMPARAÇÃO DAS DISTRIBUIÇÕES -ESTÁVEL E NORMAL ASSIMÉTRICA Walkiria M. de Oliveira Macerau Luís A. Milan RELATÓRIO TÉCNICO DEPARTAMENTO DE ESTATÍSTICA TEORIA E MÉTODO– SÉRIE A Outubro/2011 nº 247 Ajuste e Comparação das Distribuições α-estável e Normal assimétrica Walkiria M. de Oliveira Macerau e Luís A. Milan Departamento de Estatística Universidade Federal de São Carlos Resumo As distribuições assimétricas tem experimentado grande desenvolvimento nos tempos recentes. Elas são muito versáteis e tem sido utilizadas na modelagem de dados financeiros, sistema de comunicação e genéticos entre outras aplicações. Dentre essas distribuições a Normal assimétrica (Azzalini, 1986) tem recebido mais atenção dos pesquisadores (Arrelano-Valle et al., (2005), Gupta et al., (2004) e Genton et al., (2000)). Neste trabalho apresentamos uma alternativa à Normal assimétrica, a distribuição α-estável estudada por Nolan (2009) e proposta por Gonzalez et al., (2009) no contexto de dados genéticos. Com o objetivo de comparar as distribuições α-estável e Normal assimétrica, realizamos um estudo por meio de simulações para encontrar um modelo com um melhor se ajuste. Os resultados encontrados na simulação indicam que a distribuição Normal assimétria apresenta-se com um melhor ajuste, além de ser um modelo mais parcimonioso com apenas três parâmetros. Palavras-chave: Distribuições assimétricas, α-estável, Normal assimétrica. 1 Introdução Em estatística assimetria significa que os valores de um lado da distribuição tendem a estar mais concentrados do que valores que estão do outro lado. A assimetria pode ser positiva ou negativa, assimetria positiva indica que a cauda do lado direito da distribuição (ou da função densidade de probabilidade) é maior que o lado esquerdo, assimetria negativa indica que a cauda do lado esquerdo é maior que o lado direito. As distribuições assimétricas tem sido bastante utilizadas nos tempos recentes na modelagem de dados financeiro e de economia, sistema de comunicação e genéticos. Em geral esses tipos de dados possuem caudas pesadas e um grau de concentração em torno da média, e as distribuições simétricas não conseguem modelar essas características. As vantagens das distribuições assimétricas são a manutenção da escala original das observações e a interpretação dos parâmetros estimados. Nem sempre as transformações disponíveis eliminam por completo a assimetria, em outras palavras, torna dados com distribuição geradoras assimétricas em simétricas. A distribuição Normal assimétrica (ou Skew-Normal) bastante estudada por Azzalini (1986) tem recebido grande atenção dos pesquisadores (Arrelano-Valle et al., (2005), Gupta et al., (2004) e Genton et al., (2000), ela é uma classe distribuição de probabilidade contínua que estende a distribuição Normal permitindo a presença de assimetria. Uma 1 alternativa à Normal assimétrica é a distribuição α-estável proposta por Gonzalez et al., (2009) no contexto de dados genéticos. Nolan (2009) caracteriza as distribuições estáveis ou α-estável pela assimetria, caudas pesadas e suas propriedades matemáticas. Essa classe de distribuição foi caracterizada por Paul Lévy (1925), em geral as distribuições estáveis não possuem uma forma fechada para sua função densidade de probabilidade, quando isto ocorre sua função característica é utilizada. Existem três casos onde é possível escrever sua função densidade, são eles as distribuições Normal, Cauchy e Lévy. A distribuição α-estável consegue descrever um grau de concentração das observações em torno da média e também a assimetria, independente do tamanho da amostra. Outra razão para utilizar essa classe de distribuição é a generalização do Teorema Central do Limite que garante que soma de variáveis aleatórias estáveis i.i.d. são estáveis (Nolan (2009)). Neste trabalho apresentamos um estudo comparativo com dados simulados utilizando as distribuições α-estável e Normal assimétrica. A motivação desse estudo está ligado a busca de uma distribuição que consiga modelar dados assimétricos de uma forma mais parcimoniosa. Este relatório está dividido em seis seções. Na seção 1 apresentamos uma introdução sobre as distribuições utilizadas na literatura para modelar dados assimétricos. Na seção 2 uma descrição das distribuições utilizadas nesse estudo. Na seção 3 os procedimentos utilizados nas simulações e também os resultados encontrados. Na seção 4 as aplicações em banco de dados reais e os resultados. Nas seções 5 e 6 as considerações finais e os agradecimentos, respectivamente. Por último apresentamos as referências bibliográficas. 2 2.1 Distribuições utilizadas no estudo Distribuição α-estável Segundo Nolan (2005) a razão para o termo estável está na virtude das variáveis aleatórias manterem sua forma na adição, ou seja, se X1 , X2 , . . . , Xn são variáveis aleatórias estáveis independentes identicamente distribuidas, então para todo n, d X 1 + X 2 + · · · + X n = cn X + d n , (1) em que X também é uma variável aleatória estável, para qualquer constante cn > 0 e dn , a equação (1) é chamada de estritamente estável se dn = 0 para todo n. Pode-se usar o termo soma de estáveis para enfatizar a estabilidade sobre a adição. A classe que satifaz (1) é descrita para quatro parâmetros (α, β, γ, δ), em geral elas não possuem forma fechada para função densidade de probabilidade e função de densidade acumulada. O parâmetro α é chamado de indexador de estabilidade ou expoente característico, ele define o nível da intensidade local, α ∈ (0, 2]; β é o parâmetro de assimetria (se β = 2 0 a distribuição é simétrica, se β = +1 a distribuição é assimétrica positiva, e se β = -1 a distribuição é assimétrica negativa), β ∈ [−1, +1]. Os parâmetros α e β determinam a forma da distribuição. γ é o parâmetro de dispersão ou de escala, γ ≥ 0. δ é o parâmetro de locação, δ ∈ (−∞, +∞). Figura 1: Densidade da distribuição α-estável com paramêtros δ = 0 e γ = 1. (a) β = 0; α = 0.5 (preto), α = 1 (vermelho), α = 1.5 (verde), α = 2 (azul). (b) α = 1.5; β = -1 (preto), β = 0 (vermelho), β = 0.5 (verde), β = 1 (azul). A Figura 1 mostra o comportamento da função densidade de probabilidade de uma distribuição α-estável com α variando e β = 0, e β variando e α = 1.5. O parâmetro α controla o grau de concentração em torno da média (ou grau de intensidade local) e o parâmetro β a assimetria. Existem duas parametrizações para a distribuição α-estável que serão denotadas por S(α, β, γ, δ0 ; 0) e S(α, β, γ, δ1 ; 1). Os parâmetros α, β e γ tem a mesma interpretação nas duas parametrizações, somente δ é diferente. Definição 2.1. Uma variável aleatória X é S(α, β, γ, δ0 ; 0) se sua função característica for dada por (senu)(|γu|1−α −1)]+iδu e−γ α |u|α [1+iβ (tan πα 2 ) para (α 6= 1), E [exp (iuX)] = (2) 2 e−γ|u|[1+iβ π (senu)ln(γ|u|)]+iδu para (α = 1). Definição 2.2. Uma variável aleatória X é S(α, β, γ, δ1 ; 1) se sua função característica for dada por (senu)]+iδu e−γ α |u|α [1−iβ (tan πα 2 ) para (α 6= 1), E [exp (iuX)] = (3) 2 e−γ|u|[1+iβ π (senu)ln|u|]+iδu para (α = 1). 3 Os parâmetros de locação δ0 e δ1 são dados por δ + βγtan πα , (α 6= 1), δ − βγtan πα , (α 6= 1), 1 0 2 2 δ0 = δ1 = π δ1 + β π γlnγ, (α = 6 1), δ0 − β 2 γlnγ, (α = 6 1). 2 (4) Se β = 0 as parametrizações coincidem. Quando α 6= 1 e β 6= 0, as parametrizações diferem para uma mudança em βγtan πα . Um modelo S(α, β, γ, δ1 ; 1) → ∞ se 2 [sen(α − 1)β] > 0 ou S(α, β, γ, δ1 ; 1) → −∞ se α → 1. Quando α = 1 o modelo S(α, β, γ, δ0 ; 0) é um modelo pertencente à uma simples família de escala. Neste trabalho, por simplicidade algébrica vamos utilizar a parametrização S(α, β, γ, δ1 ; 1) e denominar a distribuição de α-estável. As distribuições Normal, Cauchy e Lévy também satisfazem a propriedade (1), e para esses casos é possível escrever a função densidade de probabilidade, e verificar diretamente que elas fazem parte da família de distribuições estáveis. Exemplo 2.1. Distribuição Normal ou Gaussiana. X ∼ N (µ, σ 2 ) se sua função densidade de probabilidade for dada por ( ) (x − µ)2 1 exp − , para − ∞ < x < ∞. (5) f(x) = √ 2σ 2 2πσ A Normal é uma distribuição α-estável com parâmetros α = 2 e β = 0, ou seja, √ √ N (µ, σ 2 ) = S(2, 0, σ/ 2, 0; 0) ou N (µ, σ 2 ) = S(2, 0, σ/ 2, 0; 1). Exemplo 2.2. Distribuição de Cauchy. X ∼ Cauchy(γ, δ) se sua função densidade de probabilidade for dada por f(x) = 1 γ , para − ∞ < x < ∞. π γ 2 + (x − δ)2 (6) A Cauchy é uma distribuição α-estável com parâmetros α = 1 e β = 0, ou seja, Cauchy(γ, δ) = S(1, 0, γ, δ; 0) ou Cauchy(γ, δ) = S(1, 0, γ, δ; 1). Exemplo 2.3. Distribuição de Lévy. X ∼ Lévy(γ, δ) se sua função densidade de probabilidade for dada por r γ γ 1 f(x) = exp − , para δ < x < ∞. (7) 2π (x − δ)3/2 2 (x − δ) A Lévy é uma distribuição α-estável com parâmetros α = 1/2 e β = 1, ou seja, Lévy(γ, δ) = S(1/2, 1, γ, γ + δ; 0) ou Lévy(γ, δ) = S(1/2, 1, γ, δ; 1). 4 2.2 Distribuição Normal assimétrica A classe de distribuição Normal assimétrica foi introduzida por Azzalini (1986), ela é uma classe distribuição de probabilidade contínua que extende a distribuição Normal permitindo a presença de assimetria. Sua função densidade de probabilidade é dada por fX (x; α) = 2φ(x)Φ(αx). (8) Observamos que a distribuição Normal pode ser recuperada em (8) quando α = 0. E quando α > 0 a distribuição Normal assimétrica é assimétrica à direita e quando α < 0 é assimétrica à esquerda. A assimetria é limitada ao intervalo (-1, 1). Para adicionar os parâmetros de localização e escala utilizamos a transformação x= x−ξ . ω (9) Podemos dizer que uma variável aleatória X tem distribuição Normal assimétrica com parâmetros (ξ, ω, α), se a sua função densidade de probabilidade é dada por 2 x−ξ x−ξ fX (x; α, ξ, ω) = φ Φ α , (10) ω ω ω onde ξ é o parâmetro de localização, ω é o parâmetro de escala e α é o parâmetro de forma. Figura 2: Densidade da distribuição Normal assimétrica com paramêtros ξ = 0. (a) ω = 1; α = -1 (preto), α = 0 (vermelho), α = 0.5 (verde), α = 1 (azul). (b) α = 1; ω = 0.5 (preto), ω = 1 (vermelho), ω = 1.5 (verde), ω = 2 (azul). A Figura 2 mostra o comportamento da função densidade de probabilidade de uma distribuição Normal assimétrica com α variando e ω = 1, e ω variando e α = 0. O parâmetro α controla a assimetria e o parâmetro ω o grau da intensidade local. 5 3 3.1 Estudo de Simulação Geração dos dados Simulamos observações com distribuição α-estável e modelamos com as distribuições α-estável e Normal assimétrica, em seguida repetimos o mesmo procedimento com a distribuição Normal assimétrica. Realizamos as simulações com diferentes tamanhos de amostras e diferentes graus de assimetria. A geração dos número aleatórios da distribuição α-estável foi realizada através de uma função implementada por Diethelm Wuertz, onde essa função usa a abordagem de Nolan (2009). Essa função descrita por Nolan (2009) podem ser encontrada na librarys fBasics do software R (R 2.11.1, 2011). E a geração de números aleatório da distribuição Normal assimétrica utiliza a abordagem de Azzalini (1986). A função para gerar números aleatórios com distribuição Normal assimétria poder ser encontrada na librarys VGAM do software R (R 2.11.1, 2011). Os parâmetros das distribuições foram estimados pelo método de máxima verossimilhança. Para a distribuição α-estável elaboramos uma função a qual denominamos asFit que utiliza a função optim do R, e comparamos os resultados com a função stableFit implementada na librarys fBasics. E para a distribuição Normal assimétrica utilizamos a função snFit que também utiliza a função optim, e baseado na função stableFit criamos uma função para estimar os parâmetros a qual denominamos de snormFit. 3.2 Resultados da Simulação Utilizando as funções asFit e snFit observamos que para observações geradas com distribuição α-estável, não foi possível estimar os parâmetros da distribuição Normal assimétrica, para amostras grandes (n = 10000), e quando a distribuição geradora é a Normal assimétrica a função não consegue estimar os parâmetros da α-estável para todos os tamanhos de amostra. Observamos que o parâmetro influenciador na estimação, para o caso de observações geradas de uma distribuição α-estável é o α, o que já era esperado, pois, este parâmetro define o nível da intensidade local. Quando α é menor que 1.5 não é possível estimar os parâmetro da Normal assimétrica para tamanhos de amostras maiores que 100. Quando α é maior que 1.7 não é possível estimar os parâmetro da α-estável para amostras de tamanho 30 e 100. E quanto mais próximo de 2 for o valor de α mais difícil é estimar os parâmetros da distribuição. E em todos os possíveis valores de α descritos acima, não foi possível estimar os parâmetros para a distribuição Normal assimétrica. 6 Quando as observações são geradas com distribuição Normal assimétrica, o parâmetro influenciador também é o α. Quanto mais próximo de 1 mais possível a estimação dos parâmetros das duas distribuições, o que indica que é necessário que os dados sejam praticamente normalmente distribuídos, ou seja, quando mais a distribuição geradora dos dados cai no caso particular da distribuição Normal, mais possível é a estimação dos parâmetro. No entanto, não é esse o nosso objetivo. Procuramos então simular observações com valores de parâmetros que não fossem caso particular da Normal e nos fornecessem o máximo de resultados, utilizando as funções asFit e snFit, uma vez que essa função fornece a matriz hessiana que é muito útil para o nosso estudo. Em casos onde essas funções não conseguiram fazer a estimação, utilizamos as funções stableFit e snormFit que utilizam a nlminb, pois elas apresentam resultados parecidos, com diferença apenas na terceira casa decimal após a vírgula. Após essa análise tomamos alguns valores fixo para os parâmetros de uma distribuição α-estável e geramos observações ão para os tamanhos de amostras 30, 100, 1000 e 10000. A Tabela 1 apresenta a estimativa dos parâmetros e o erro padrão, a Figura 3 apresenta os histogramas das distribuições e a Figura 4 os gráficos das ditribuições empírica dos dados com as densidades téorica, α-estável estimada e Normal assimétrica estimada, para cada tamanho de amostra. Tabela 1: Estimativa dos parâmetros da distribuição α-estável. Parâmetros α β γ δ Valores 1.65 0.40 0.30 0.20 n = 30 1.6375 (0.6965) -0.3220 (1.2621) 0.2326 (0.1026) 0.1558 (0.1911) Estimativas (Erro padrão) n = 100 n = 1000 1.6740 (0.3570) 1.6749 (0.0868) 0.6897 (0.7968) 0.4749 (0.2330) 0.3040 (0.0625) 0.2783 (0.0161) 0.1602 (0.1309) 0.1950 (0.0366) 7 n= 1.6462 0.3895 0.3018 0.2010 10000 (0.0300) (0.0715) (0.0059) (0.0129) Figura 3: Histograma dos dados gerados com distribuição α-estável (preto) e modelados com α-estável (vermelho) e Normal assimétrica (azul): (a) n = 30, (b) n = 100, (c) n = 1000 e (d) n = 10000. Figura 4: Distribuição empírica para os dados gerados com distribuição α-estável (preto) e modelados com α-estável (vermelho) e Normal assimétrica (azul): (a) n = 30, (b) n = 100, (c) n = 1000 e (d) n = 10000. Observamos por meio da Figura 3 que a medida que o tamanho da amostra aumenta a distribuição α-estável estimada apresenta um comportamento melhor quando comparada com a distribuição geradora dos dados (α-estável). Já a distribuição Normal assimétrica estimada apresenta um comportamento melhor somente para as amostras de tamanho 30 e 1000. Os gráficos das distribuições empíricas (Figura 4) apresenta que a somente para amostra de tamanho 100 é que a distribuição Normal assimétrica, possui um pior comportamento quando comparada com a distribuição α-estável. 8 O mesmo procedimento tomamos com a distribuição Normal assimétrica, simulamos dados com distribuição Normal assimétrica com os valores dos parâmetros fixos e amostras de tamanho 30, 100, 1000 e 10000. A Tabela 2 apresenta as estimativas dos parâmetros e o erro padrão, a Figura 5 apresenta os histogramas, e a Figura 6 o gráfico das distribuições empírica dos dados, com as densidades téorica, α-estável estimada e Normal assimétrica estimada para cada tamanho de amostra. Tabela 2: Estimativa dos parâmetros da distribuição Normal assimétrica. Parâmetros ξ ω α Valores -0.20 0.50 0.70 n = 30 -0.5060 (1.2791) 0.5612 (0.6320) 0.7565 (4.2668) Estimativas (Erro padrão) n = 100 n = 1000 -0.0313 (6.7239) -0.1793 (0.2458) 0.4164 (0.0714) 0.4831 (0.1045) 0.0079 (20.2358) 0.6118 (0.8426) n = 10000 -0.2274 (0.0504) 0.5108 (0.0263) 0.8126 (0.1935) Figura 5: Histograma dos dados gerados com distribuição Normal assimétrica (preto) e modelados com α-estável (vermelho) e Normal assimétrica (azul): (a) n = 30, (b) n = 100, (c) n = 1000 e (d) n = 10000. 9 Figura 6: Distribuição empírica para os dados gerados com distribuição Normal assimétrica (preto) e modelados com α-estável (vermelho) e Normal assimétrica (azul): (a) n = 30, (b) n = 100, (c) n = 1000 e (d) n = 10000. Observamos por meio da Figura 5 que a medida que o tamanho da amostra aumenta as distribuições α-estável estimada e Normal assimétrica estimada apresenta um bom comportamento quando comparada com a distribuição geradora dos dados (Normal assimétrica). O mesmo resultado foi observado nas distribuições empíricas (Figura 6). Fixamos o tamanho das amostras em 1000 observações, e simulamos dados com distribuição α-estável com parâmetros de assimetria (β) igual à -0.9, 0, 0.5 e 0.9. A Tabela 3 apresenta as estimativas dos parâmetros e o erro padrão, a Figura 7 apresenta o histograma, e a Figura 8 o gráfico das distribuições empírica das observações geradas com distribuição α-estável, e modelados com as distribuições α-estável e Normal assimétrica com as variação no parâmetro β. Tabela 3: Estimativa dos parâmetros da distribuição α-estável, com parâmetros α=1.65, γ=0.3, δ=0 e variações no parâmetro β. Parâmetros α β γ δ β = -0.9 1.7204 (0.0835) -0.8396 (0.1851) 0.2896 (0.0159) 0.0361 (0.0371) Estimativas (Erro padrão) β=0 β = 0.5 1.6257 (0.0907) 1.6249 (0.0946) 0.0312 (0.2365) 0.4330 (0.2108) 0.3018 (0.0183) 0.3008 (0.0185) 0.0046 (0.0413) 0.0067 (0.0426) 10 β = 0.9 1.6160 (0.0923) 0.8648 (0.1332) 0.2902 (0.0174) 0.0069 (0.0462) Figura 7: Histograma dos dados gerados com distribuição α-estável (preto) e modelados com α-estável (vermelho) e Normal assimétrica (azul): n = 1000; α = 1.65; γ = 0.3; δ = 0; (a) β = -0.9, (b) β = 0, (c) β = 0.5, (d) β = 0.9. Figura 8: Distribuição empírica para os dados gerados com distribuição α-estável (preto) e modelados com α-estável (vermelho) e Normal assimétrica (azul): n = 1000; α = 1.65; γ = 0.3; δ = 0; (a) β = -0.9, (b) β = 0, (c) β = 0.5, (d) β = 0.9. Visualizando a Figura 7 observamos que a distribuição α-estável estimada apresenta um melhor comportamento comparada com a Normal assimétria estimada, em todas as variações do parâmetro de assimetria β. O que também é observado nos gráficos da distribuição empírica dos dados (Figura 8). 11 O mesmo procedimento tomamos para a distribuição Normal assimétrica, fixamos o tamanho da amostra em 1000 observações e simulamos dados com parâmetros de assimetria (α) igual à -1, 0, 0.5 e 1. Apresentamos as estimativas desta simulação na Tabela 4, os histograma na Figura 9, e o gráfico das distribuições empírica na Figura 10. Onde os dados foram gerados de uma distribuição Normal assimétrica, e modelados com as distribuições α-estável e Normal assimétrica com variações no parâmetro α. Tabela 4: Estimativa dos parâmetros da distribuição Normal assimétrica, com parâmetros ξ = 0, ω = 0.4 e variações no parâmetro α. Parâmetros ξ ω α α = -1 -0.2992 (0.6499) 0.3389 (0.1447) 0.2889 (2.5768) Estimativas (Erro padrão) α=0 α = 0.5 -0.0127 (2.2079) 0.1377 (2.3372) 0.4090 (0.0209) 0.3681 (0.0174) 0.0061 (6.7652) 0.0034 (7.9569) α=1 0.0086 (0.0897) 0.4217 (0.0535) 0.9999 (0.5045) Figura 9: Histograma de dados gerados com distribuição Normal assimétrica (preto) e modelados com α-estável (vermelho) e Normal assimétrica (azul): n = 1000; ψ = 0; ω = 0.4; (a) α = -1, (b) α = 0, (c) α = 0.5, (d) α = 1. 12 Figura 10: Distribuição empírica para os dados gerados com distribuição Normal assimétrica (preto) e modelados com α-estável (vermelho) e Normal assimétrica (azul): n = 1000; ψ = 0; ω = 0.3; (a) α = -1, (b) α = 0, (c) α = 0.5, (d) α = 1. Observamos por meio das Figuras 9 e 10 observamos que tanto a distribuição Normal assimétrica estimada, quanto a distribuição α-estável estimada conseguir modelar os dados gerados em todas as variações do parâmetro de assimetria α. 4 4.1 Aplicação em dados reais Descrição dos dados Na aplicação deste trabalho utilizamos dois diferentes bancos de dados. O primeiro são dados de expressão gênica, de um experimento muito conhecido na literatura de microarrays, o “Swirl Zebrafish” (Ferreira & Filho (2009)), esse experimento foi realizado utilizando o peixe “Zebrafish” como um organismo modelo para o estudo do crescimento em vertebrados. O segundo banco de dados consiste em histórico de cotações do IBOVESPA, do período de 01 janeiro de 1990 à 31 dezembro de 1997. 13 4.2 Dados de Expressão Gênica Inicialmente estimamos via máxima verossimilhança os parâmetros das distribuições α-estável e Normal assimétrica para os dados de expressão gênica, os resultados estão descrito na Tabela 5. Construímos o histograma para os dados (Figura 11) modelamos com os parâmetros estimados das distribuições. A distribuição empírica dos dados apresentada na Figura 12 mostra que a distribuição Normal assimétrica apresenta um melhor ajuste. Tabela 5: Estimativa e Intervalos de Confiança para os parâmetros: Dados de Expressão Gênica - “Zebrafish”. Distribuições α-estável Normal assimétrica Parâmetros α β γ δ ξ ω α Estimativas 1.9160 0.2257 0.3103 -0.2888 -0.6112 0.5789 0.9999 2.5% 1.9053 0.1160 0.3076 -0.2940 -0.6265 0.5694 0.9393 97.5% 1.9267 0.3354 0.3130 -0.2837 -0.5958 0.5884 1.0605 Figura 11: Histograma dos dados de expressão gênica - “Zebrafish”. 14 Figura 12: Distribuição empírica para os dados de expressão gênica - “Zebrafish”. Figura 13: Dados de expressão gênica - “Zebrafish”: (a) Histograma e (b) Distribuição empírica. 4.3 Descrição do índice BOVESPA Fizemos o gráfico da série original (Figura 14(a)) dos dados do índice BOVESPA, onde também observamos uma tendência cíclica, ou seja, não estácionáriedade na média e variância. E o comportamento da FAC indicando um decaimento lento. Para esses dados tomamos dois métodos para tornar a série estacionária, o operador diferença (Figura 14(a)) e a transformação logaritma da série (Figura 14(c)), ou seja, razão entre o dia atual e o anterior, conforme descrito em Morettin (2008) e Taylor (1986), observamos que a estacionáriedade na média foi obtida e o comportamento a FAC indica que a ausência de autocorrelação dos dados para ambas as transformações. 15 Figura 14: Gráfico da série e Função de autocorrelação dados do índice BOVESPA: (a) Dados originais, b) Dados com diferenciação e (c) Retorno da série. Os parâmetros para ambas distribuições também foram estimados via máxima verossimilhança para os dados do índice BOVESPA, a Tabela 6 apresenta os resultados encontrados. Também construímos o histograma para os dados (Figura 15) modelamos com os parâmetros estimados das distribuições. A distribuição empírica dos dados apresentada na Figura 16 mostra que a distribuição Normal assimétrica apresenta um melhor ajuste. Tabela 6: Estimativa e Intervalos de Confiança (95%) para os parâmetros: Dados do índice BOVESPA. Distribuições α-estável Normal assimétrica Parâmetros α β γ δ ξ ω α Dados com Estimativas 1.7789 0.2976 0.0240 1.0086 0.9812 0.0479 0.9999 diferenciação 2.5% 97.5% 1.6997 1.8581 0.0805 0.5147 0.0229 0.0251 1.0067 1.0105 0.9761 0.9863 0.0447 0.0510 0.7539 1.2459 16 Retorno dos dados Estimativas 2.5% 97.5% 1.8110 1.7335 1.8886 0.3200 0.0856 0.5544 0.0241 0.0230 0.0252 0.0082 0.0064 0.0100 -0.0164 -0.0224 -0.0105 0.0459 0.0425 0.0492 0.8545 0.5942 1.1147 Figura 15: Histograma de dados do índice BOVESPA: (a) Dados com diferenciação e (b) Retorno dos dados. Figura 16: Distribuição empírica para os dados do índice BOVESPA: (a) Dados com diferenciação e (b) Retorno dos dados. 5 Considerações finais Nesse relatório apresentamos algumas características da distribuição α-estável e Normal assimétrica. Observamos que essas distribuições proporcionam flexibilidade para modelar dados com um certo grau de concentração em torno da média e caudas pesadas. O estudo de simulação mostrou que a distribuição Normal assimétrica para amostras pequenas consegue modelar dados gerados com distrituição α-estável, entretanto para amostras maiores o mesmo não ocorre. A distribuição Normal assimétria também não teve um bom resultado para as amostras com alterações no parâmetro de assimetria. Já distribuição α-estável apresentou um resultado melhor, tanto quando a distribuição geradora era α-estável quanto Normal assimétria. Isso já era esperado, uma vez que essa distribuição possui um parâmetro a mais. 17 A análise de dados reais mostrou que ambas distribuições conseguiram modelar as observações tanto para os dados financeiros do IBOVESPA quanto os dados de expressão gênica “Zebrafish”. A escolha de qual modelo utilizar nesse casso, seria a distribuição Normal assimétrica, pois é um modelo mais parcimonioso quando comparado com a distribuição α-estável. 6 Agradecimentos Agradecemos à CAPES pelo apoio financeiro recebido pela autora que permitiu o desenvolvimento deste trabalho. 18 Referências [1] Arrelano-Valle, R. B.; Bolfarine, H.; Lacho, V. H.; (2005); Skew-normal Linear Mixed Models. Journal of Data Science. 3, 415-438. [2] Azzalini, A.; (1985); A Class of Distributions which Includes the Normal Ones. Scand Journal Statist. 12, 171-178. [3] Ferreira Filho, D.; Leandro, R. A.; (2009); Análise de Microarray usando o R e o Biocondutor. Tutorial apresentado no 54◦ RBRAS e 13◦ SEAGRO. [4] Genton, M. G.; He, L.; Liu, X.; (2001); Moments of skew-normal randon vectors and their quadratic forms. Statistics & Probability Letters. 51, 319-325. [5] Gonzalez, D. S.; Kuruoglu, E. E.; Ruiz, D. P.; (2009); Modelling and Assessing Differential Gene Expression Using the Alpha Stable Distribuiton. The International Journal of Biostatistics. 5(1), 16. [6] Gupta, A. K.; Nguyen, T. T.; Sanqui, J. A. T; (2004); Characterization of the Skewnormal Distribution. The Institute of Statistical Mathematics 56, 351-360. [7] IBOVESPA. Dados histórico de cotações. Disponível em: <http://cotacoes.economia.uol.com.br/bolsas/index.html?indice=.BVSP> em: 23 mar. 2011. Acesso [8] Lévy, P.; (1925); Calcul des Probabilites. Paris: Gauthier Villars. [9] Magalhães, M. N.; (2006); Probabilidade e Variáveis Aleatórias. São Paulo: Edusp 2a Edição. [10] Morettin, P. A.; (2008); Econometria Financeira. São Paulo: Editora Blucher. [11] Nolan, J. P.; (2009); Stable Distributions: Models for Heavy Tailed Data. Capítulo 1. Disponível em: <http://academic2.american.edu/ jpnolan/stable/chap1.pdf.> Acesso em: 1 mar. 2011. [12] R. R-Project Software Version 2.11.1. Disponível em: <http://www.r-project.org>. [13] Stockute, R. & Johnson, P.; (2006); Laplace Distribution. [14] Taylor, S.; (1986); Modelling Financial Time Series. New York: John Wiley & Sons. PUBLICAÇÕES 2011 . LOUZADA-NETO, F.; MARCHI, V.; ROMAN, M.; “The Exponentiated ExponentialGeometric Distribution: A distribution with decreasing, increasing and unimodal hazard function” Janeiro/2011 Nº 235 . LOUZADA-NETO, F; SUZUKI, A. K.; CANCHO, V. G.; “The FGM Long-Term Bivariate Survival Copula Model: Modeling, Bayesian Estimation and case influence diagnostics” Janeiro/2011 Nº 236 . CALSAVARA, V. F.; TOMAZELLA, V. L. D.; FOGO, J. C.; “Modelos de Sobrevivência com Fração de Cura para Dados de Tempo de Vida Weibull Modificada Generalizada” Fevereiro/2011 Nº 237 . CALSAVARA, V. F.; TOMAZELLA, V. L. D.; FOGO, J. C.; “O Efeito do Termo de Fragilidade no Modelo de Mistura Padrão”, Fevereiro/2011 Nº 238 . MILANI, E. A., TOMAZELLA, V. L. D., DIAS, T. C. M., LOUZADA, F. “The generalized time-dependent logistic frailty model: na application to a population-based prospective study of incidente cases of lung cancer diagnosed in Northern Ireland” Março/2011 Nº 239 . DIAS, T. C. M., TOMAZELLA, V. L. D., MILANI, E. A. “Estimação Bayesiana Objetiva do Modelo de Regressão de Feigl e Zelen” Abril/2011 Nº 240 . TOMAZELLA, V. L. D., SILVA, M. P. L., MARTINS, C. B. “Uma Introdução a Análise de Referência: Inferência Sobre a Função de Sobrevivência do Modelo Exponencial” Abril/2011 Nº 241 . PIRES, R. M., DINIZ, C. A. R. “Bayesian Estimation of Correlated Binomial Regression Model” Maio/2011 Nº 242 . SALASAR, L. E. B., LEITE, J. G., LOUZADA, F. “Likelihood Functions for a Capturerecapture Model” Junho/2011 Nº 243 . RODRIGUES, A. S., POLPO A. C., DIAS, T. C. M., “Riscos Competitivos: uma avaliação de métodos de estimação” Julho/2011 Nº 244 . CONCEIÇÃO K. S., ANDRADE M. G., LOUZADA F., “A Bayesian Approach for the Zero Modied PoissonModel: An Application to a Brazilian Leptospirosis Notication Data” Julho/2011 Nº 245 . CONCEIÇÃO, K. S., ANDRADE, M. G., LOUZADA, F., “Divergence Measure between Posterior Densities in a Bayesian Approach for Zero-Modied Poisson Distributions” Agosto/2011 Nº 246