UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXTAS E DA TERRA-CCET PROGRAMA DE PÓS-GRADUAÇÃO EM MATEMÁTICA APLICADA E ESTATÍSTICA - PPGMAE DISSERTAÇÃO DE MESTRADO CARACTERIZAÇÃO ESTATÍSTICA DE EXTREMOS DE PROCESSOS SÍSMICOS VIA DISTRIBUIÇÃO GENERALIZADA DE PARETO. ESTUDO DE CASO: JOÃO CÂMARA – RN. Autor: Raimundo Nonato Castro da Silva Orientador: Prof. Dr. Paulo Sérgio Lucio Co-orientador: Prof. Dr. Aderson Farias do Nascimento Natal – RN, Dezembro de 2008 UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXTAS E DA TERRA-CCET PROGRAMA DE PÓS-GRADUAÇÃO EM MATEMÁTICA APLICADA E ESTATÍSTICA - PPGMAE DISSERTAÇÃO DE MESTRADO CARACTERIZAÇÃO ESTATÍSTICA DE EXTREMOS DE PROCESSOS SÍSMICOS VIA DISTRIBUIÇÃO GENERALIZADA DE PARETO. ESTUDO DE CASO: JOÃO CÂMARA – RN. Autor: Raimundo Nonato Castro da Silva Dissertação de mestrado apresentada em 5 de dezembro de 2008, para a obtenção do título de Mestre em Matemática Aplicada e Estatística pelo Programa de Pós-Graduação em Matemática Aplicada e Estatística (PPGMAE) da Universidade Federal do Rio Grande do Norte (UFRN). Comissão Examinadora: Prof. Dr. Paulo Sérgio Lucio (Orientador) Prof. Dr. Aderson Farias do Nascimento (Co-orientador) Prof. Dr. Walter Eugênio de Medeiros Profa. Dra. Sílvia Maria de Freitas Natal – RN, Dezembro de 2008 1 AGRADECIMENTOS Agradeço a todos que contribuíram, direta ou indiretamente, para a realização deste trabalho. Ao meu orientador, Prof. Paulo Sérgio Lucio, pela sua paciência e atenção. À minha família, especialmente, meus pais. A todos os meus amigos, especialmente, Francisco Marcio Barboza e Daniel Matos de Carvalho pelas discussões matemáticas e estatísticas e pelas dicas no R. Ao PPGMAE pela oportunidade de cursar o mestrado. 2 SUMÁRIO 1– Introdução.................................................................................................... 6 2 – A Filosofia da Teoria de Valores Extremos............................................. 9 2.1 – A Distribuição Generalizada de Valores Extremos (GEV)................................9 2.2 – Inferência sobre os Parâmetros da GEV...........................................................13 2.2.1 – Estimação dos quantis extremos da GEV...........................................19 2.3 – A Distribuição Generalizada de Pareto (GPD)..................................................19 2.3.1 - Seleção de um Limiar...........................................................................24 2.4 – Inferência sobre os Parâmetros da GPD...........................................................25 2.5 - Relação entre a Distribuição q-Exponencial e a GPD.......................................26 3 – Alguns Métodos de Estimação dos Parâmetros da GPD.......................29 3.1 - Máxima Verossimilhança (MLE)..........................................................................29 3.2 - Máxima Verossimilhança Penalizada (MPLE)....................................................30 3.3 - Momentos (MOM).................................................................................................30 3.4 - Pickands (PICKANDS)…………..................................………..............................31 3.5 - Momentos Ponderado por Probabilidades: (PWMB e PWMU).........................31 3.6- Divergência Média da Densidade (MDPD)…...............................................…...32 3.7 - Mediana (MED).....................................................................................................32 3.8 - Melhor Qualidade do Ajuste (MGF)……….…….................................................33 3.9 – Máxima Entropia (POME)...................................................................................33 3.9.1 - Especificação das Restrições.............................................................35 3.9.2 - Construção da Função de Entropia....................................................35 3.9.3 - Relação entre os Parâmetros da GPD e as Restrições.....................36 4 – Diagnóstico de Adequação do Modelo....................................................40 4.1 – Teste de Adequação do Modelo...........................................................41 5 – Estudo de Caso: João Câmara – RN........................................................43 5.1 – Caracterização do Município e o Sismo Histórico...........................................43 5.2 – Análise dos Dados..............................................................................................46 5.3 - Reconstrução de Extremos via Simulação de Monte Carlo.............................51 6 – Considerações Finais................................................................................55 Referencias Bibliográficas……….....……....................……………………..…57 Apêndices.........................................................................................................60 3 RESUMO O objetivo desse trabalho é fazer uma breve discussão dos métodos de estimação dos parâmetros da distribuição generalizada de Pareto (GPD). Sendo abordadas as seguintes técnicas: máxima verossimilhança (MLE), máxima verossimilhança penalizada (MPLE), métodos dos momentos (moments), Pickands (Pickands), momentos ponderados pela probabilidade: viesado e não-viesado (PWMB, PWMU), divergência média da densidade (MDPD), melhor qualidade do ajuste (MGF), mediana (MED) e o método da máxima entropia (POME), técnica que neste trabalho receberá uma maior atenção. A título de ilustração foram feitos ajustes para a distribuição generalizada de Pareto, para uma seqüência de sismos intraplacas, ocorridos no município de João Câmara, NE Brasil que foi monitorado continuamente durante dois anos (1987 e 1988). Verificou-se que o MLE e o POME foram os métodos mais eficientes, dando basicamente os mesmos erros médios quadráticos. Com base no limiar de 1,5º foi estimado o risco sísmico para o município, sendo estimado o nível de retorno para os sismos de intensidade 1,5º, 2,0º, 2,5º, 3,0º e para o sismo mais intenso já registrado no município, ocorrido em novembro de 1986 que teve a magnitude de 5,2º. Palavras-Chave: Eventos Extremos, Simulação Estocástica, Máxima Entropia, Risco Sísmico. 4 ABSTRACT The work is to make a brief discussion of methods to estimate the parameters of the Generalized Pareto distribution (GPD). Being addressed the following techniques: Moments (moments), Maximum Likelihood (MLE), Biased Probability Weighted Moments (PWMB), Unbiased Probability Weighted Moments (PWMU), Mean Power Density Divergence (MDPD), Median (MED), Pickands (PICKANDS), Maximum Penalized Likelihood (MPLE), Maximum Goodness-of-fit (MGF) and the Maximum Entropy (POME) technique, the focus of this manuscript. By way of illustration adjustments were made for the Generalized Pareto distribution, for a sequence of earthquakes intraplacas which occurred in the city of João Câmara in the northeastern region of Brazil, which was monitored continuously for two years (1987 and 1988). It was found that the MLE and POME were the most efficient methods, giving them basically mean squared errors. Based on the threshold of 1.5 degrees was estimated the seismic risk for the city, and estimated the level of return to earthquakes of intensity 1.5°, 2.0°, 2.5°, 3.0° and the most intense earthquake never registered in the city, which occurred in November 1986 with magnitude of about 5.2º. Key-words: Extreme Events, Stochastic Simulation, Maximum Entropy, Seismic Hazard. 5 CAPÍTULO 1: INTRODUÇÃO De forma geral, a previsão probabilística da ocorrência de eventos extremos é de vital importância para o planejamento das atividades sujeitas a seus efeitos adversos, e uma das formas de modelar esses eventos, é utilizar a teoria de valores extremos (TEV) proposta por Fisher e Tippett (1928). Onde segundo essa teoria, existem três tipos de distribuições assintóticas de valores extremos, a do tipo I conhecida como Gumbel, a do tipo II conhecida com Fréchet e a do tipo III conhecida com Weibull. Outra forma para esse tipo de modelagem é utilizar um importante teorema limite conhecido como distribuições acima de um limiar (Peaks-overThreshold - POT), conhecido como teorema de Gnedenko-Pickands-Balkema-Haan (1941). De uma forma geral, o POT, refere-se à distribuição dos eventos condicionados por valores acima de um limiar pré-fixado. Esse teorema garante que sob certas condições (domínio de atração do máximo), que o limite dessa distribuição é a distribuição generalizada de Pareto (GPD), observa-se então que a idéia é estimar a cauda da distribuição, tanto na TEV como no POT. Os sismos1 podem ser considerados como um exemplo de eventos extremos, uma vez que não é um fenômeno que ocorre normalmente, sua presença quando ocorre, aparece nas caudas da distribuição, dessa forma, tanto a TEV como o POT, podem ser utilizados para modelar esses tipos de evento. Se a modelagem do sismo for através dos máximos observados em períodos de tempo, a abordagem deve ser feita através da TEV, mas Coles (2001) diz que na prática surge um problema em particular ao se escolher essa teoria. Escolhida a distribuição o grau de incerteza não poderá ser medido, uma vez, que se aceita o modelo, dessa forma não podendo ser medido o grau de incerteza, mesmo que esse possa ser significativo. Portanto, Jenkinson (1955) unificou os três tipos de distribuições assintóticas, numa única família conhecida como a distribuição de valores extremos Generalizadas (GEV), onde a mesma se baseia nos máximos de um bloco. Outra alternativa seria selecionar um limiar e a analisar os sismos acima dele, nesse caso seria utilizada a distribuição generalizada de Pareto (GPD), esse método tem a vantagem de não deixar extremos fora das análises, por que Patutikof et. al (1999) quando fez uma revisão dos métodos de análise de extremos, utilizando a teoria clássica, observou que a mesma só considera o máximo dentro de cada época, isso faz com que outros extremos que tenham sido observados naquela época, sejam ignorados. 6 Os abalos sísmicos1 quando ocorrem, podem causar grandes impactos na sociedade. No município de João Câmara, situado no estado do Rio Grande do Norte, por exemplo, em novembro de 1986 ocorreu um sismo que atingiu a magnitude de 5,22 graus na escala de Ricther3, sendo um dos maiores já registrado no Brasil. Sismos de intensidades moderadas, como o ocorrido em João Câmara, podem causar danos nas estruturas de casas e prédios, queda nas redes de transmissão de energia elétrica e a vibração de estruturas e equipamentos. A importância dos efeitos deste fenômeno geofísico está, portanto, intimamente ligado ao desenvolvimento da tecnologia dos materiais e da engenharia estrutural. Segundo Pisarenko et al. (2008), os sismos passaram a ser um grande problema á medida que as construções tornaram-se mais altas e os tsunamis começaram a ocorrer. Este manuscrito foi desenvolvido com o objetivo principal de apresentar a metodologia para se ajustar a distribuição generalizada de Pareto aos dados sísmicos do município de João Câmara, sendo feita também uma reconstrução das séries de sismos via simulações de monte Carlo, para obter a probabilidade de ocorrência diária de sismos acima de 1,5º na escala Ricther e estimar o período de retorno para os sismos de intensidade 1,5º, 2,5º, 3,0º e o sismo histórico de 5,2º na escala Ricther. O texto encontra-se estruturado em seis capítulos. No presente capítulo é feita a justificativa do trabalho e delineado o seu objetivo, segue-se no capítulo 2 - A filosofia da teoria de valores extremos, onde foi feita uma revisão de literatura sobre a distribuição de extremos generalizadas (GEV), a distribuição generalizada de Pareto (GPD) bem como a seleção de um limiar e por fim a relação entre a distribuição qexponencial e a GPD. No capítulo 3 – Métodos de estimação dos parâmetros da distribuição generalizada de Pareto, mostramos vários métodos de estimação dos parâmetro da GPD dando um maior destaque ao método da máxima entropia (POME). 1 Um sismo, também chamado de terremoto, é um fenômeno de vibração brusca e passageira da superfície da Terra, resultante de movimentos subterrâneos de placas rochosas, de atividade vulcânica, ou por deslocamentos (migração) de gases no interior da Terra, principalmente metano. O movimento é causado pela liberação rápida de grandes quantidades de energia sob a forma de ondas sísmicas. 2 Na faixa de 5,0-5,9 um sismo é considerado moderado, podendo causar danos maiores em edifícios mal concebidos em zonas restritas. Provocam danos ligeiros nos edifícios bem construídos, sua freqüência é da ordem de 800 por ano 3 É uma escala logarítmica utilizada para medir a magnitude dos abalos sísmicos. Foi criada pelos sismógrafos Beno Gutenberg e Charles Francis Richter que estudavam os sismos da Califórnia e colocada em prática em 1935. A escala Richter varia de 0 a 9 graus de acordo com a extensão do movimento do solo medindo ondas do tipo P e S. Ondas do tipo P são ondas primárias que se espalham por movimentos de compressão e dilatação do local que pode ser em terra firme ou em oceanos e mares. São as ondas sísmicas mais rápidas, cuja velocidade adquirida no solo varia entre a adquirida em água. Ondas do tipo S são ondas secundárias que se espalham por movimentos ondulatórios para cima e para baixo alterando a forma dos elementos. As ondas S se desenvolvem somente no solo com velocidade inferior às ondas P. 7 No capítulo 4 – Diagnóstico de adequação do modelo, são mostradas técnicas para verificar e testar o ajuste do modelo. No capítulo 5 – Estudo de caso: João Câmara-RN, apresentamos os principais resultados obtidos pelo ajuste da GPD aos sismos observados de forma continua no município durante o período de 23/05/1987 a 07/07/1988. No capítulo 6 – Considerações finais, apresentam-se os aspectos que se mostraram mais significativos no decorrer do estudo no que se refere aos resultados obtidos, bem como se incluem algumas sugestões sobre o que poderá ser a continuação iniciada com esse trabalho. Nos apêndices constam rotinas no R para ilustrar as distribuições GEV e GPD e para fazer a analise dos dados, bem como os ajustes para os outros métodos que se mostraram menos eficiente para estimar os da distribuição generalizada de Pareto, cuja a inclusão no texto parece desaconselhável por tornar a leitura menos agradável ou pelas informações nelas apresentadas não se considerar essencial para a compreensão do texto. 8 CAPÍTULO 2: A FILOSOFIA DA TEORIA DE VALORES EXTREMOS A teoria de valores extremos tem como objetivo o estudo estatístico de fenômenos de risco elevado com impactos catastróficos, que surgem em diversos ramos das Ciências tais como a Meteorologia e a Climatologia. Valores extremos podem ser considerados aqueles eventos raros que ocorrem nas caudas das distribuições (fenômenos caudais), isto é, distantes do aglomerado ou da aglomeração (média e mediana) do amontoado da distribuição. Não há, todavia, uma definição que possa ser considerada universal de eventos extremos! Em muitas instâncias, eventos extremos podem ser definidos como aqueles eventos que excedem em magnitude a algum limiar ou patamar ou podem ser definidos como o máximo (ou mínimo) de uma variável aleatória em determinado período. 2.1 A distribuição Generalizada de Valores Extremos (GEV) Seja X uma variável aleatória, assumindo valores nos reais. A freqüência relativa com que estes valores ocorrem define a distribuição de freqüência ou distribuição de probabilidade de X e é especificada pela função de distribuição acumulada dada por: Fx (x) = P( X ≤ x) , Fx (x) é uma função não-decrescente de x, e 0 ≤ Fx (x) ≤ 1 para todo o x. Em geral, estamos interessados em variáveis aleatórias continuas, para o qual P( X = x) = 0 para todo x, isto é, as probabilidades pontuais são nulas. Neste caso, Fx (.) é uma função continua e tem uma função inversa x(.), a função quantil de X. Dado qualquer valor zp, 0 < z p < 1, x(zp) é o único valor que satisfaz: Fx (x(zp )) = zp Para uma probabilidade p, x(p) é o quantil da probabilidade não excedente p, isto é, o valor tal que a probabilidade de X não exceder x(p) é p. O objetivo da análise de freqüência é estimar corretamente os quantis da distribuição de uma variável aleatória. A abordagem clássica da teoria de valores extremos consiste em caracterizar as caudas (superior ou inferior) da distribuição de Fx a partir da distribuição do máximo. Assim, definimos Mn = max( X1,.....,Xn ) como o máximo de um conjunto de n variáveis aleatórias independentes e identicamente distribuídas. Para obter-se a distribuição do mínimo usa-se a relação: min( X1,.....,Xn ) = − max( X1,.....,Xn ) 9 Na teoria a função de distribuição exata do máximo pode ser obtida para todos os valores de n, da seguinte forma: n n FMn = P(Mn ≤ x) = P( X1 ≤ x,.......,Xn ≤ x) = ∏ P( Xi ≤ x) = [Fx ( X )] , i =1 para x ∈ ℜ e n ∈ N . Todavia, este resultado não é útil na prática, visto que não conhecemos a função de distribuição de Fx . Segundo Coles (2001), uma possibilidade é utilizar técnicas estatísticas para estimar Fx para dados observados, e substituir esta estimativa na equação acima. Infelizmente, pequenas discrepâncias na estimativa de Fx podem conduzir a substancias discrepâncias em [Fx ( X )] . n Uma alternativa é aceitar que Fx seja desconhecida, e olhar para as famílias aproximadas dos modelos de [Fx ( X )] , que pode ser estimado com base somente em n dados extremos. Isto é similar a prática usual de aproximar a distribuição da média amostral pela distribuição normal, como justificado pelo teorema central do limite (TCL). Além disso, podemos pensar que o comportamento assintótico de Mn pode estar relacionado com a cauda de Fx próximo do limite superior do suporte da distribuição de X, pois os valores do máximo são aqueles que se localizam perto desse limite. Dessa maneira, denotamos por: xFX = sup{x ∈ℜ : Fx (x) < 1}, o limite superior do suporte da distribuição de Fx . Observamos que, para todo x < x Fx , P(Mn ≤ x) = P[Fx ( X )] ,→ 0 , n → ∞ , n e, no caso de xFx < ∞ , temos para x > xFx que: P(Mn ≤ x) = P[Fx ( X )] = 1, n logo, à medida que n cresce a distribuição de Mn é degenerada4 sendo, portanto, um resultado que não fornece muita informação. Esta dificuldade pode ser sanada considerando-se uma seqüência de constantes σ n > 0 e μ n tais que: M n* = M n − μn σn convirja para uma função não-degenerada, para n → ∞ . O teorema seguinte fornece o resultado de convergência em distribuição para o máximo centrado e normalizado. 4 Em matemática, uma distribuição degenerada é a distribuição de probabilidade de uma variável aleatória discreta cujo suporte consiste de somente um valor. 10 Teorema (Fisher – Tippett, 1928): seja ( Xn ) uma seqüência de variáveis aleatórias independentes e identicamente distribuídas. Se existirem seqüência de constantes normalizadoras σ n > 0 e μ n e uma distribuição não-degenerada H tal que: M n − μn σn d ⎯ ⎯→ H, d ⎯→ representa convergência em distribuição, então H é do tipo de uma das onde ⎯ três funções de distribuição: i -Tipo I de Gumbel: ⎧ ⎡ (x − μ )⎤ ⎫ H I ( x) = exp⎨− exp ⎢− ⎬, x ∈ ℜ ; σ ⎥⎦ ⎭ ⎣ ⎩ ii -Tipo II de Fréchet: H II ( x) = 0, se x ≤ 0 ⎧⎪ ⎡ ( x − μ )⎤ −ξ ⎫⎪ H Ii ( x) = exp⎨− ⎢ ⎬ , se x > 0 ; ⎪⎩ ⎣ σ ⎥⎦ ⎪⎭ iii -Tipo III de Weibull: ⎧⎪ ⎡ ( x − μ ) ⎤ ξ ⎫⎪ H III ( x) = exp⎨− ⎢− ⎬ , se x ≤ 0 σ ⎥⎦ ⎪⎭ ⎪⎩ ⎣ H III ( x) = 1, se x > 0 . A prova do teorema de Fisher-Tippett não será apresentada aqui, no entanto, uma demonstração rigorosa desse resultado é apresentada por Gnedenko (1943). Ainda sob o ponto de vista da modelagem as três distribuições de valores extremos H I (x), H II (x) e H III (x) sejam bem diferentes, do ponto de vista matemático estão bastante relacionadas. Pode-se mostrar que se X>0, então: X ~ H II ( x) ⇔ ln( X ξ ) ~ H I ( x) ⇔ − X −1 ~ H III ( x) . Coles (2001), afirma que existem dois problemas na prática a serem resolvidos, primeiramente uma técnica para escolher qual das três famílias é a mais apropriada, em seguida, tomada tal decisão e feito a conclusão, presumem que a escolha esteja correta e não é medido o grau de incerteza, embora essa possa ser significativa. Dessa forma Jenkinson (1951), mostrou que as três famílias poderiam ser unificadas em uma única família, a família de valores extremos generalizadas, dada da seguinte forma: 11 1 ⎧ − ⎫ ξ μ x ⎡ ⎤ − ⎪ ⎞ ⎪. ⎛ H(x) = exp⎨− ⎢1+ ξ ⎜ ⎟⎥ ⎬ σ ⎠⎦ ⎪ ⎝ ⎪ ⎣ ⎩ ⎭ Definida no conjunto ⎧⎨ x : 1 + ξ (x − μ ) > 0⎫⎬ , sendo que os parâmetros satisfazem, σ ⎩ ⎭ − ∞ < μ < ∞, σ > 0 e − ∞ < ξ < ∞ , o modelo é tri-paramérico, sendo um parâmetro de localização, um de escala e um de forma, onde o parâmetro ξ é quem determina a forma da distribuição, quando: ξ > 0 tem-se a distribuição de Fréchet, ξ < 0 obtem-se a de Weibull. Sendo que o limite de F(x) quando ξ → 0 , a distribuição assume a seguinte forma: ⎡ ⎧ ⎛ x − μ ⎞⎫⎤ H(x) = exp⎢− exp⎨− ⎜ ⎟⎬⎥ , − ∞ < x < ∞ , σ ⎝ ⎠⎭⎦ ⎩ ⎣ que representa a função de distribuição da Gumbell, com parâmetros de localização e escala μ e σ, respectivamente, sendo σ>0. Dessa forma, em vez de se ter que escolher uma família inicialmente, para depois estimar os parâmetros, a inferência se faz diretamente sobre o parâmetro de forma ξ . A Figura 1, onde no apêndice B mostramos a rotina no R para gerar a mesma, apresenta os gráficos da função de distribuição para ξ = −1,5 (Weibull), ξ tendendo a zero (Gumbel) e ξ = 1,5 (Fréchet), com μ = 0 e σ = 0,4761 . Para se encontrar a função densidade de probabilidade (f.d.p.) da função generalizada de valores extremos (GEV), deriva-se a função de distribuição da GEV em relação à x, obtendo-se: ⎛1+ξ ⎞ 1 ⎟⎟ −⎜⎜ − ⎫ ⎧ 1 ⎡ ⎧ ⎛ x − μ ⎞⎫⎤ ⎝ ξ ⎠ ⎪ ⎡ ⎛ x − μ ⎞⎤ ξ ⎪ , h(x) = ⎢1+ξ⎨−⎜ exp⎨− ⎢1+ξ⎜ ⎟⎥ ⎬ ⎟⎬⎥ σ ⎣ ⎩ ⎝ σ ⎠⎭⎦ ⎪ ⎣ ⎝ σ ⎠⎦ ⎪ ⎩ ⎭ onde − ∞ < x < μ − σ , para ξ < 0 , que corresponde a densidade da Weibull e ξ μ −σ < x < ∞ , para ξ > 0 , gerando-se a densidade da Fréchet, por fim quando o ξ limite para ξ tendendo a zero, tem-se: h( x) = 1 ⎧ ⎛ x−μ⎞ ⎡ ⎛ x − μ ⎞⎤⎫ ⎟ exp⎢− exp⎜ − ⎟ ⎬ , definida em −∞ < x < ∞ ⎨exp⎜ − σ⎩ ⎝ σ ⎠ ⎣ σ ⎠⎥⎦⎭ ⎝ gerando a função densidade da Gumbel. 12 Figura 1: Ilustração das três funções de distribuições acumuladas da família de valores extremos generalizados (GEV). A Figura 2 apresenta os gráficos da função densidade de probabilidade da GEV para ξ = −0,4 (Weibull), ξ tendendo a zero (Gumbel) e ξ = 0,4 (Fréchet), com μ = 12 e σ = 2 , onde observa-se que o parâmetro ξ é quem determina a natureza das caudas da distribuição. Fazendo-se uso de uma linguagem mais informal, o caso ξ > 0 é o caso das “caudas pesada” no qual 1 − H ( x) ~ x − 1 ξ , ξ < 0 é o caso das “caudas leves”, em que a distribuição tem um ponto final finito (o menor valor de x para o qual H(x) =1) em que x=μ− σ . Se ξ = 0 , as caudas da distribuição estão entre leves e pesadas, na qual μ 1 − H ( x) decresce exponencialmente para grandes valores de x. Isto mostra que em aplicações as três famílias são bastante diferentes nos extremos. Quanto às aplicações, a distribuição GEV tem sido utilizada em vários estudos, por exemplo, Hosking e Wallis (1997) utilizou a GEV para análise de freqüências de vazões, por outro lado, Bautista (2002) utilizou a GEV para analisar as velocidades máximas do vento. 2.2 Inferência sobre os Parâmetros da GEV Para se fazer inferências sobre os parâmetros da GEV, Coles (2001) afirma que foram propostas várias técnicas, entre elas, incluem-se métodos gráficos, estimação pelo método dos momentos, máxima verossimilhança. Cada uma destas técnicas apresenta pontos fortes e fracos. Coles (2001) afirma que o método da máxima verossimilhança é o mais atraente devido as suas características, contanto 13 que as condições de regularidades sejam satisfeitas, ou seja, a função de verossimilhança seja monótona crescente. Figura 2: Ilustração das funções densidade de probabilidades das três formas da família de valores extremos generalizados (GEV). Smith (1985) observou que dependendo da estimativa do parâmetro de forma pelo método da máxima verossimilhança, essas condições nem sempre são observadas, uma vez que: • Se ξ > −0,5 , os estimadores de máxima verossimilhança são regulares, tendo suas propriedades assintóticas habituais; • Se, − 1 < ξ < −0,5 o estimador de máxima verossimilhança é geralmente encontrado, porém as condições de regularidades não são observadas; • Se, ξ < −1 não é possível obter os estimadores de máxima verossimilhança. Hosking et al (1985b), ao utilizar simulações computacionais para estimar os parâmetros da GEV pelo método da máxima verossimilhança através do processo interativo de Newton-Raphson, observaram que poderia existir problemas de convergência, pelo fato das condições de regularidades não serem atendidas. Sendo que esse caso é muito raro, pois só ocorre quando ξ < −0,5 , que de acordo com Coles (2001), corresponde ao caso onde a cauda superior é muito curta. Hosking et. al. (1985b) também mostraram que ao se trabalhar com dados reais o valor de ξ ∈ (−0,5;0,5) , esses resultados foram confirmados através de simulações 14 computacionais por Brabson e Patutikof (2000), onde concluíram que o valor de ξ ∈ (−0,5;0,5) , portanto a eficiência das estimativas de máxima verossimilhança dos parâmetros na prática, não apresenta maiores problemas. Todavia, além do estimador de máxima verossimilhança, outros métodos têm sido utilizados para estimar os parâmetros da GEV, podemos citar de acordo Hosking et. al. (1985b), por exemplo: método dos momentos, probabilidades ponderadas, método dos momentos L, onde os mesmos mostraram-se mais eficientes que o método da máxima verossimilhança, no que tange ao viés e as variâncias amostrais, em amostras cujos tamanhos variam entre 15 e 100. Porém, conforme Smith (2001), nenhum dos métodos citados permite a generalização como faz o método da máxima verossimilhança, portanto desenvolveremos agora esse método. X 1 ,..., X n são uma série de realizações aleatórias Considerando que independentes, identicamente distribuídas e ordenadas, com função densidade de probabilidade da GEV, a função de verossimilhança L(θ ) = L(μ , σ , ξ ) = n ∏ h( x ;θ ) é i i =1 dada por: 1 ⎛ 1+ ξ ⎞ ⎧n ⎧ ⎧ − ⎜⎜ − ⎫⎫ ⎟⎟ ⎫ ξ ⎝ ξ ⎠ ⎤ ⎡ ⎤ ⎪⎡ ⎪ ⎪ ⎪ − − μ μ ⎞ ⎛x ⎞ ⎪⎪ , L(θ ) = L( μ, σ , ξ ) = n ∏ ⎨⎢1 + ξ ⎛⎜ xi ⎬ exp⎨∑ ⎨− ⎢1 + ξ ⎜ i ⎟⎥ ⎟ ⎥ ⎬⎬ σ i =1 ⎪⎣ ⎝ σ ⎠⎦ ⎝ σ ⎠ ⎦ ⎪⎪ ⎪ ⎪ i =1 ⎪ ⎣ ⎭⎭ ⎩ ⎭ ⎩ ⎩ 1 n que para ξ < 0 , assume valores diferentes de zero, se todos os valores de xi (i = 1,2,..., n) forem menores do que μ− σ σ , ou seja, se μ − > x n , sendo xn o maior ξ ξ valor da série de observações, e para ξ > 0 , se todos os valores de xi forem maiores que μ − (i = 1,2,..., n) σ σ , ou seja, μ − < x1 o menor valor da série de ξ ξ observações. Caso contrário L(θ ) = 0 . É mais conveniente (de forma matemática, dada a monotonicidade da função) tomar o logaritmo e trabalhar com o logaritmo da função verossimilhança, que é dado por: ⎛1+ ξ ⎞ n ⎡ ⎛ x − μ ⎞⎤ n ⎡ ⎛ xi − μ ⎞ ⎤ l ( μ, σ , ξ ) = ln[L( μ, σ , ξ )] = − n ln σ − ⎜ ⎟∑ ln ⎢1 + ξ ⎜ i ⎟⎥ − ∑ ⎢1 + ξ ⎜ ⎟⎥ ⎝ σ ⎠⎦ i =1 ⎣ ⎝ σ ⎠⎦ ⎝ ξ ⎠ i =1 ⎣ − 1 ξ 15 1 − ⎫ ⎧ ξ ⎡ ⎤ ⎤ − μ ⎛1+ ξ ⎞ ⎡ ⎪ ⎛x ⎞ ⎛ − μ⎞ ⎪, = ∑ ⎨− ln σ − ⎜ ⎟ ln ⎢1 + ξ ⎜ i ⎟⎥ − ⎢1 + ξ ⎜ xi ⎟⎥ ⎬ ⎝ σ ⎠⎦ ⎣ ⎝ ξ ⎠ ⎣ i =1 ⎪ ⎝ σ ⎠⎦ ⎪ ⎩ ⎭ n para μ − σ σ > x n e ξ < 0 ou μ − < x1 se ξ > 0 . Caso contrário o l ( μ, σ , ξ ) não ξ ξ existe! Os estimadores de máxima verossimilhança de μ , σ e ξ são obtidos maximizando o logaritmo da função verossimilhança l ( μ, σ , ξ ) em relação a cada parâmetro e a raiz obtida, a sua solução. Assim: ∂ ∂ ∂ l ( μ, σ , ξ )μ = μ0 = 0 ; l ( μ, σ , ξ )σ =σ 0 = 0 ; l ( μ, σ , ξ )ξ =ξ 0 = 0 ∂σ ∂ξ ∂μ ou, seja: ^ 1 ⎛ − ⎞ ⎜ 1 + ξ − wi ξ^ ⎟ ⎟=0 ^ ∑⎜ ^ i =1 ⎜ ⎟ σ ⎝ σ ⎠ 1 n ^ 1 ⎧⎛ ⎞ ⎡⎛ ^ ⎞ −^⎤⎫ 1 μ ξ − + − ⎜ ⎟ ⎜ ⎟ x w i i ⎪ ⎢ ξ⎥⎪ n 1 n ⎪⎝ ⎠ ⎣⎝ ⎠ ⎦⎪ = 0 − ^ + 2 ∑⎨ ⎬ ^ w i =1 ⎪ i ⎪ σ σ ⎪⎩ ⎪⎭ ^ ^ ⎫ ⎧ ⎡ ⎛ ⎞⎤ ⎛ ⎞ ^ − − μ μ ⎜ xi ⎟ ⎥ ⎜ xi ⎟⎪ ⎛ ⎞ n ⎪ 1 ⎢ 1 μ − ⎪⎛ ⎪ ⎟ ⎝ ⎠⎥ − ⎝ ⎠ = 0 , sendo = 1 + ξ ⎜ xi −^ ⎞ ⎢ ( ) − − 1 ln ⎟ ⎜ w w w ⎨ ⎬ i i ξ i ∑ ^ ^ ^ ^ ⎜ ⎟⎟ . ^2 ⎠ ⎝ ⎜ ⎢ ⎥ i =1 ⎪ ⎪ ξ σ wi σ wi ⎝ σ ⎠ ⎢⎣ ξ ⎥⎦ ⎪⎩ ⎪⎭ Como este sistema de equações não possui solução analítica, utilizaram-se procedimentos iterativos para obter as estimativas dos parâmetros de máxima verossimilhança usando a matriz de informação de Fisher, M . A fórmula interativa é, −1 ( ) para j ≥ 0 , θ ( j +1) = θ ( j ) + M ⎛⎜ θ ⎞⎟ grad l θ j onde θ = ( μ, σ , ξ ) com: ^ ⎝ ⎠ ⎡ ⎛ 2 l ⎞⎤ ⎛ ∂2 l ⎞ ⎛ ∂2 l ⎞ ⎟⎟ − E ⎜⎜ ∂ ⎟⎟⎥ ⎢ − E ⎜⎜ 2 ⎟⎟ − E ⎜⎜ ⎝ ∂σ ⎠ ⎝ ∂μ ∂σ ⎠ ⎝ ∂ξ ∂σ ⎠⎥ ⎢ 2 2 ⎛∂ l⎞ ⎛ ∂2 l ⎞⎥ ⎛ ∂l ∂l ∂l ⎞ ⎛ ^ ⎞ ⎢ ⎛ ∂ l ⎞⎟ ⎜ ⎟ ⎜⎜ ⎟⎟ ⎥ , − − E E − grad l (θ ) = ⎜⎜ − ,− ,− ⎟⎟ e M ⎜ θ ⎟ = ⎢− E ⎜⎜ ⎜ ∂μ 2 ⎟ ∂ ∂ ξ μ ⎝ ⎠ ⎢ ⎝ ∂μ ∂σ ⎟⎠ ⎝ ∂μ ∂σ ∂ξ ⎠ ⎝ ⎠⎥ ⎝ ⎠ 2 2 ⎢ ⎛ ∂2 l ⎞ ⎛ l⎞ ⎥ ⎛ l ⎞ ⎟⎟ − E ⎜⎜ ∂ ⎟⎟ − E ⎜⎜ ∂ 2 ⎟⎟ ⎥ ⎢− E ⎜⎜ ⎢⎣ ⎝ ∂ξ ∂σ ⎠ ⎝ ∂ξ ∂μ ⎠ ⎝ ∂ξ ⎠ ⎥⎦ onde os elementos de M podem ser expressos em termos da função gama: Γ(r ) = ∫ e− x xr −1 dx e ψ (r ) = d log Γ(r ) dr 16 como: ⎛ ∂2 l ⎞ n E ⎜⎜ − 2 ⎟⎟ = 2 2 [1 − 2Γ(2 − ξ ) + p ] ⎝ ∂σ ⎠ σ ξ ⎛ ∂2 l ⎞ n ⎟⎟ = 2 [ p − Γ(2 − ξ )] E ⎜⎜ − ⎝ ∂σ ∂μ ⎠ σ ξ 2 ⎛ {1 − Γ(2 − ξ )} − q − l ⎞ n ⎡ E ⎜⎜ − ∂ ⎟⎟ = 2 ⎢1 − γ − ξ ⎝ ∂σ ∂ξ ⎠ σ ξ ⎣ p⎤ ξ ⎥⎦ ⎛ ∂2 l ⎞ n E ⎜⎜ − 2 ⎟⎟ = 2 p ⎝ ∂μ ⎠ σ ⎛ ∂2 l ⎞ n ⎡ p⎤ ⎟⎟ = E ⎜⎜ − q+ ⎥ ⎢ ξ⎦ ⎝ ∂μ ∂ξ ⎠ σξ ⎣ 2 ⎛ ∂2 l ⎞ n ⎡ π 2 ⎛ 1⎞ 2q p ⎤⎥ E ⎜⎜ − 2 ⎟⎟ = 2 ⎢ + ⎜1 − γ − ⎟ + + 2 , ξ ξ 6 ⎢ ξ ∂ ξ ξ ⎥ ⎝ ⎠ ⎝ ⎠ ⎣ ⎦ sendo p = (1 − ξ ) Γ(1 − 2ξ ) , 2 (1 − ξ )⎫ ⎧ q = Γ(2 − ξ )⎨ψ (1 − ξ ) − ⎬ ξ ⎭ ⎩ e γ = 0.5772157 a constante de Eüler. No procedimento iterativo, fixa-se um valor inicial arbitrário ξ 0 para ξ , e sugerem-se como valores iniciais μ0 e σ 0 para μ e σ , valores tais que E ( X ) = X e Var ( X ) = s 2 , sendo X a média e s 2 a variância da série de observações (amostrais). Considerando-se a função densidade de probabilidade, obtém-se: E(X ) = μ + σ [Γ(1 − ξ ) − 1] , se ξ < 1 , ξ e 2 1 Var ( X ) = σ 2 [Γ(1 − 2ξ ) − Γ2 (1 − ξ )] , se ξ < , 2 ξ sendo as seguintes expressões para os valores iniciais: ξ0 σ0 = s Γ(1 − 2 ξ 0 ) − Γ2 (1 − ξ 0 ) 2 μ0 = x − 2 Γ(1 − ξ 0 ) − 1 s ξ0 ( ) x = − Γ 1 − − 1 [ ] . ξ σ0 0 Γ(1 − 2 ξ 0 ) − Γ2 (1 − ξ 0 ) ξ0 ξ0 17 Jenkinson (1955) sugeriu que se devia usar a matriz informação de Fisher para amostras completas, entretanto para amostras censuradas estas esperanças não existem no sentido usual, e foi observado num número de estudos simulados, que a ⎛^⎞ ⎝ ⎠ convergência para θ é consideravelmente mais rápida, usando a matriz V ⎜ θ ⎟ ao ⎛ ⎝ ^ ⎞ ⎠ ⎛ ⎝ ^ ⎞ ⎠ invés da matriz M ⎜ θ ⎟ . Assim é usual aproximar a matriz M ⎜ θ ⎟ por esta nova ⎛^⎞ ⎝ ⎠ matriz V ⎜ θ ⎟ , descrita por: ⎡ ⎛ ∂2 l ⎞ ⎛ 2 l ⎞⎤ ⎛ ∂2 l ⎞ ⎟⎟ − ⎜⎜ ∂ ⎟⎟⎥ ⎢ − ⎜⎜ 2 ⎟⎟ − ⎜⎜ ⎝ ∂μ ∂σ ⎠ ⎝ ∂ξ ∂σ ⎠⎥ ⎢ ⎝ ∂σ ⎠ 2 2 ⎛∂ l⎞ ⎛ ∂2 l ⎞⎥ ⎛ ^ ⎞ ⎢ ⎛ ∂ l ⎞⎟ ⎜ ⎟ ⎜⎜ ⎟⎟ ⎥ . − − V ⎜ θ ⎟ = ⎢− ⎜⎜ ⎜ ∂μ2 ⎟ ∂ ∂ ξ μ ⎝ ⎠ ⎢ ⎝ ∂μ ∂σ ⎟⎠ ⎝ ⎠⎥ ⎝ ⎠ 2 2 ⎢ ⎛ ∂2 l ⎞ ⎛ l⎞ ⎥ ⎛ l ⎞ ⎟⎟ − ⎜⎜ ∂ ⎟⎟ − ⎜⎜ ∂ 2 ⎟⎟ ⎥ ⎢− ⎜⎜ ⎢⎣ ⎝ ∂ξ ∂σ ⎠ ⎝ ∂ξ ∂μ ⎠ ⎝ ∂ξ ⎠ ⎥⎦ Com esta nova matriz, o cálculo iterativo de θ , envolve rapidez computacional e converge para grad l < 10−3 em menos de 5 iterações. Para o caso particular da distribuição generalizada de valores extremos com ξ → 0 , temos a distribuição Gumbel, o logaritmo da função verossimilhança é dado por: l ( μ, σ ) = ⎧ n ⎛ −μ⎞ ⎛ xi − μ ⎞ ⎫ ⎟⎬ , e os estimadores de máxima ⎟ − exp⎜ − σ ⎠⎭ ⎝ ⎠ ∑ ⎨− ln σ − ⎜⎝ x σ i =1 ⎩ i verossimilhança de μ e σ são obtidos pela solução de: ∂ ∂ l ( μ, σ )μ = μ 0 = 0 ; l ( μ, σ )σ =σ 0 = 0 , ∂μ ∂σ ou seja ^ ⎧⎡ ⎫ ⎛ ⎞⎤ 1 ⎪⎢ n ⎪ ⎜ xi − μ ⎟⎥ − ^ ⎨ ∑ exp⎜ − ^ ⎟ − n ⎬ = 0 , ⎢ ⎥ ⎜ ⎪ σ ⎪⎩⎣ i =1 σ ⎟⎠⎦ ⎝ ⎭ ^ ^ ^ ⎧⎧ ⎡⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎤ ⎫ ⎫ 1 ⎪⎪ n ⎢⎜ xi − μ ⎟ ⎜ xi − μ ⎟ ⎜ xi − μ ⎟⎥ ⎪ ⎪ − ^ ⎨⎨∑ ⎜ ^ ⎟ − ⎜ ^ ⎟ exp ⎜ − ^ ⎟ ⎬ − n ⎬ = 0 . ⎢ ⎥ ⎜ σ ⎪⎩⎪⎩ i =1 ⎣⎜⎝ σ ⎟⎠ ⎜⎝ σ ⎟⎠ σ ⎟⎠⎦ ⎪⎭ ⎪⎭ ⎝ Mais uma vez, este sistema não possui solução analítica e deve-se usar o mesmo método iterativo descrito a cima para a obtenção da solução numérica, tomando como valores iniciais μ0 e σ 0 para μ e σ a soluções obtidas através do cálculo dos momentos. Para este caso tem-se: 18 E ( X ) = μ + γ σ , Var ( X ) = π σ , 6 2 2 com γ = 0.5772157 a constante de Eüler, logo μ0 = x − γ 6 6 s ≅ x − 0.45005 s , σ 0 = s ≅ 0.77970 s , π π que correspondem aos limites quando ξ 0 → 0 . 2.2.1 Estimação dos Quantis Extremos da GEV Após terem sido estimados os parâmetros da GEV, será possível obter a estimação de quantis ( z p ) as probabilidades (p), pois os mesmos dependem desses parâmetros, para isso basta inverter a função de distribuição de valores extremos, onde os quantis são dados da seguinte forma: zp = μ − [ ] σ −ξ 1 − {− log(1 − p )} , se ξ ≠ 0 ξ z p = μ − σ log{− log(1 − p )}, se ξ = 0 , ( ) onde: F z p = 1 − p . Sendo que z p , corresponde ao nível de retorno associado ao período de retorno 1 . p Coles (2001), define y p = − log(1 − p ) , e na expressão dos quantis, tem-se: zp = μ − [ ] σ −ξ 1 − y p , se ξ ≠ 0 ξ z p = μ − σ log y p , se ξ = 0 . Isso permite gerar um gráfico em escala logarítmica, onde no eixo das abscissas representa-se y p e no das ordenadas z p ou equivalentemente, o gráfico pode ser gerado com log y p contra z p , onde o mesmo relaciona a freqüência de eventos extremos, conforme o sinal do parâmetro de forma. 2.3 A Distribuição Generalizada de Pareto (GPD) Suponha X 1 ,...., X n variáveis aleatórias independentes e identicamente distribuídas, tendo função de distribuição FX . Seja x Fx o limite superior da distribuição de FX . Chamamos de um limiar alto um valor no suporte de X perto de x Fx . 19 Denominamos “excedentes” aqueles valores X i tais que X i > u . Denotamos por N u o número de excedentes do limiar u. Isto é, n N u = ∑1( X i >u ) , onde: 1( X i >u ) = 1 se X i > u , i =1 1( X i >u ) = 0 caso contrário. Os excessos (pontos excedentes) além do limiar u, denotados por Y1 ,...., Ynu são os valores X i − u ≥ 0 . A Figura 3 mostra as observações X 1 ,...., X 12 e os excessos além do limiar u=4. Esta abordagem se diferencia da abordagem clássica, pois a teoria clássica se baseia na análise do valor do máximo (ou mínimo) em uma época. Como será visto na definição que se segue, essa abordagem permite a análise de todos os dados disponíveis que excedem um limiar, porém esse limiar deverá garantir a distribuição assintótica de valores extremos, sem as quais não será possível fazer as inferências. Definição: Dado um limiar u, a distribuição dos valores de x acima de u é dada por: P{X > u + y | X > u} = 1 − F (u + y ) , y > 0, 1 − F (u ) (1) que representa a probabilidade do valor de x ultrapassa u por no máximo um montante y, onde y=x-u. Figura 3: Ilustração do gráfico de barras das observações de uma seqüência de variáveis aleatórias X 1 ,...., X 12 , onde se destacam os excessos acima do limiar u=4. 20 F Seja uma distribuição 1 − ⎫ ⎧ ⎪ ⎡ ⎛ x − μ ⎞⎤ ξ ⎪ F ( x ) = exp⎨− ⎢1 + ξ ⎜ ⎟⎥ ⎬ ⎝ σ ⎠⎦ ⎪ ⎪ ⎣ ⎩ ⎭ probabilidade para condicional, − generalizada de valor μ, σ > 0 qualquer extremo, ξ ∈ℜ. e X >u, quando tal que: Então sabendo-se a que 1 ⎡ ⎛ x − μ ⎞⎤ ξ n ln F ( x ) ≈ − ⎢1 + ξ ⎜ ⎟⎥ , e que para valores elevados de x se deve fazer uma ⎝ σ ⎠⎦ ⎣ expansão à Taylor de forma que ln F (x ) ≈ −{1 − F (x )}, substituindo e re-arranjando 1⎡ ⎛ u − μ ⎞⎤ para u , tem-se 1 − F (u ) ≈ ⎢1 + ξ ⎜ ⎟⎥ n⎣ ⎝ σ ⎠⎦ − − 1 ξ e de uma forma similar para y > 0 , 1 1⎡ ⎛ u + y − μ ⎞⎤ ξ 1 − F (u + y ) ≈ ⎢1 + ξ ⎜ ⎟⎥ . n⎣ σ ⎝ ⎠⎦ Desta forma, tem-se: P{X > u + y | X > u} = 1 − F (u + y ) = 1 − F (u ) 1⎡ ⎛ u + y − μ ⎞⎤ 1+ ξ⎜ ⎟⎥ ⎢ n⎣ σ ⎝ ⎠⎦ 1⎡ ⎛ u − μ ⎞⎤ 1+ ξ⎜ ⎟⎥ ⎢ n⎣ ⎝ σ ⎠⎦ − 1 ξ 1 − ξ =⎛ ⎜1 + ⎝ − ξ y⎞ ~ σ ⎟ ⎠ 1 ξ , ~ com σ = σ + ξ (u − μ ) . Assim, a função distribuição de (X − μ) , condicionada a X >u, é aproximadamente: H (y) = 1 − ⎛ ⎜1 + ⎝ ⎧ ⎛ ⎝ ~ ⎞ ⎠ ⎫ − ξ y⎞ ~ σ ⎟ ⎠ 1 ξ , ~ definida em ⎨ y : y > 0 e ⎜1 + ξ y σ ⎟ > 0⎬ , onde σ = σ + ξ (u − μ ) . ⎩ ⎭ Coles (2001) afirma que a família de distribuições definida acima é chamada família generalizada de Pareto. A função distribuição condicional é aproximadamente a distribuição generalizada de Pareto (GPD), que representa as três distribuições em uma só forma, sob a γ-parametrização: W ( x; γ) = 1 − (1 + γx ) −1 γ . Assim como as distribuições GEV são as distribuições limite para o máximo, as do tipo GPD são as formas paramétricas para distribuições limite de excessos (Teorema de Balkema-de 21 Haan). As distribuições generalizadas de Pareto são da forma Exponencial ( γ = 0 ), Pareto tipo II ( γ > 0 ) e Pareto comum ou Beta ( γ < 0 ). Os parâmetros da distribuição generalizada de Pareto para excessos que ultrapassam limiares (Peaks-over-Threshold - POT) são determinados por aqueles associados às distribuições generalizadas de valores extremos (GEV). No limite de F (x ) quando ξ →0 tem-se a distribuição acumulada ⎡ ⎛ x − μ ⎞⎤ F ( x ) = exp ⎢− exp⎜ − ⎟ , e a função distribuição de σ ⎠⎥⎦ ⎝ ⎣ ⎛ y⎞ X > u , é aproximadamente: H ( y ) = 1 − exp⎜ − ⎟ , com ⎝ σ⎠ (X − μ) , de Gumbel: condicional com y > 0. A Figura 4, onde a rotina para mostrar a ilustração encontra-se no apêndice B,, apresenta os gráficos da função de distribuição da GPD para ξ = −0,4 (Pareto comum ou Beta), ξ tendendo a zero (exponencial) e ξ = 0,4 (Pareto tipo II), todas com σ = 2 , observa-se que assim como na GEV o parâmetro ξ é quem determina as caudas da distribuição. Por fim, as distribuições GPD e GEV estão relacionadas da seguinte maneira: G ( x) = 1 + ln(H ( x) ) , ln(H ( x) ) > −1 . Esta relação explica por que as densidades da GPD possuem cauda extrema assintoticamente equivalente às de uma GEV. A Figura 5, onde também a rotina implementado no R esta no apêndice B, ilustra este fato e mostra a proximidade das caudas de algumas distribuições GPD com algumas GEV. 22 Figura 4: Ilustração da função densidade de probabilidade das três formas da distribuição generalizada de Pareto (GPD). Figura 5: Densidades da GPD e GEV. (a) Pareto comum (Beta) e Weibull, ambas com ξ = −0,2 ; (b) Pareto tipo II e Fréchet, ambas com ξ = 0,2 . As densidades da GEV todas possuem μ = 0 e todas as densidades possuem σ = 1 . 23 2.3.1 Seleção do Limiar Na escolha do limiar u nos deparamos com alguns problemas, pois um valor para u muito “alto” implicará em um número pequeno de observações na cauda, podendo resultar numa maior variabilidade dos estimadores. Porém, um limiar que não seja suficientemente alto não satisfaz as suposições teóricas e pode resultar em estimativas distorcidas, portanto uma idéia é monitorar os valores extremos como será descrito. Para a determinação do limiar recorre-se à análise gráfica da linearidade de n u observações que excedem os vários limiares u determinados na própria amostra. Assim, o gráfico de vida média residual, usado para a determinação visual de u é ⎧⎛ construído da seguinte forma: ⎨⎜⎜ u , ⎩⎝ 1 nu ⎞ nu ∑ (x − u )⎟⎟: u < x i i =1 ⎠ max ⎫ ⎬ , em que x1 , x2 ,..., xnu ⎭ consistem nas observações que excedem u e xmax é o valor mais elevado das observações. Na prática dois métodos são avaliados para esse propósito: uma técnica exploratória e a outra é avaliar a estabilidade dos parâmetros estimados, baseado no ajuste de uma gama de limiares de acordo com o gráfico descrito acima. Conforme Coles (2001), o primeiro método é baseado na média da distribuição da GPD. Se Y seguir uma distribuição generalizada de Pareto com parâmetros de escala e forma, σ , ξ , respectivamente, então: E ( y) = σ 1−ξ , desde que ξ < 1 , uma vez que se ξ ≥ 1 a esperança será infinita; e Var (Y ) = σ , com ξ < 1 . 1 − 2ξ 2 2 Seja u 0 o limiar mais baixo de uma série X 1 , X 2 ,..., X n arbitrária, então E (Y ) = E ( X − u 0 | X > u 0 ) = σ u0 com ξ < 1 , em que σ u 0 é o parâmetro de escala 1− ξ correspondente aos excessos do limiar u 0 . Mas se a distribuição de Pareto é válida para os excessos de u 0 , também é igualmente válido para os excessos de limiares u > u 0 , sujeitos a apropriada variação no parâmetro escala para σ u . Então, para: σ +ξu . u > u0 , E ( X − u | X > u ) = σ u = u 0 1− ξ 1− ξ Segundo Coles (2001), a GPD é um modelo razoável para os excessos acima do limiar u 0 , assim como para um limiar mais elevado u. Os parâmetros de forma das duas distribuições são idênticos. No entanto, o valor do parâmetro de escala para o 24 limiar u > u 0 é σ u = σ u 0 + ξ (u − u 0 ) , que varia com u a menos que ξ = 0 . Esta dificuldade pode ser remediada pela re-parametrização do parâmetro de escala como: * σ = σ u − ξ u e σ u = x (1 − ξ ) , com x a média dos excessos para de cada limiar u , e ξ determinado da média e do desvio padrão dos excessos de cada limiar u , e conseqüentemente as estimativas de ambos σ * e ξ serão constantes acima de u 0 , se u 0 é um limiar valido para os excessos que seguem uma GPD. Assim, são representados os gráficos de σ * e ξ versus u , juntamente com os intervalos de confiança que são obtidos pela matriz variância e covariância V para ξ e para σ * pelo método Delta, usando: ⎡ ∂ σ* ∂ σ* ⎤ Var (σ *) ≈ ∇σ *T V ∇ σ * , com ∇σ *T = ⎢ , ⎥ = [1,−u ] . ⎣ ∂ σ u ∂ξ ⎦ 2.4 Inferência sobre os Parâmetros da GPD A estimação dos parâmetros da GPD pode ser feitos por vários métodos, entre eles, tem-se o da máxima verossimilhança, Davison (1984), Hosking e Wallis (1987), método dos momentos, método da máxima entropia (POME) e o método dos momentos ponderados, Singh e Guo (1995), onde a eficiência de cada método depende da situação estudada, estes métodos serão detalhados no capítulo 3, sendo dada nesse capítulo somente uma abordagem baseada numa importante propriedade da GPD. Lin (2001) mostra que uma importante propriedade da distribuição generalizada de Pareto, ocorre quando ξ > −1 , onde a média de excessos, ao longo de um limiar, u, é uma função linear de u: E (X − u / X > u ) = σ − ξu , portanto o gráfico da linearidade da média de 1+ ξ excessos, poderá ser utilizado como um indicador da adequação do modelo da GPD. Essa propriedade permite estimar os parâmetros de forma e escala da distribuição generalizada de Pareto, da seguinte forma: Define-se a média de excessos de uma amostra (MEA), como uma função dada abaixo: 25 n e n (u ) = ∑ (X − u) i i =1 n ∑ 1{ i =1 + , no que diz respeito ao limiar u, onde o + garante que apenas xí > u } os valores positivos de (X i − u ) serão contados. Ou seja, a MEA é a soma dos excessos durante o limiar u, dividido pelo numero de pontos dos dados que excede ao limiar u. Dessa forma a média de excessos da amostra é o estimador empírico da média de excessos de um limiar (MEL), portanto, ξ e σ da GPD, podem ser determinado pela inclinação e o intercepto da MEA utilizando as seguintes equações: Inclinação= − ξ 1+ξ e Intercepto= σ 1+ ξ . 2.5 Relação entre a Distribuição q-Exponencial e a GPD Shalizi (2007), ao estudar o estimador de máxima verossimilhança da distribuição q-Exponencial, também conhecida como distribuição de T-salis, essa distribuição é definida através do complementar da função de distribuição, sendo mais conhecida como a função de sobrevivência, onde a mesma possui a seguinte forma: 1 ⎛ (1 − q )x ⎞ 1− q Pk ,q ( X ≥ x) = ⎜1 − ⎟ . k ⎠ ⎝ Essa reparametrização ajuda a simplificar a estimação dos parâmetros e fazer uma ligação com a distribuição de Pareto, para encontrar o estimador de máxima verossimilhança para a distribuição q-exponencial, portanto é mais fácil utilizar a reparametrização e no final retornar ao sistema inicial, caso seja desejado. Shalizi (2007), define a nova reparametrização, da seguinte forma θ = − σ = θ * k , para recuperar os parâmetros iniciais basta fazer: q = 1 + 1 θ e k= 1 e 1− q σ , logo θ a função de sobrevivência, em relação aos novos parâmetros, é: −θ x⎞ ⎛ Pθ ,σ ( X ≥ x) = ⎜1 + ⎟ , para se encontrar a função densidade de probabilidade, ⎝ σ⎠ basta derivar a função acima em relação à x, obtendo-se: 26 Pθ ,σ ( x) = x⎞ θ⎛ ⎜1 + ⎟ σ⎝ σ⎠ −θ −1 , onde a mesma possui uma distribuição de Pareto com parâmetro de forma α e ponto de corte y 0 . ⎛ y se P(y)=0, quando y < y 0 , P ( y ) ∝ ⎜⎜ ⎝ y0 ⎞ ⎟⎟ ⎠ −α −1 . Assim X tem uma distribuição q-exponencial e 1 + x σ , tem uma distribuição de Pareto com ponto de corte igual a 1 e parâmetro de forma θ , resultando em uma distribuição de Pareto do tipo II, sendo sua forma padrão: ⎛ (x − μ ) ⎞ Pθ ,σ ( x) = ⎜1 + ⎟ σ ⎠ ⎝ −α que é uma distribuição q-Exponencial quando μ = 0 e σ = θ . Neste capítulo foi vista a filosofia da teoria de valores extremos, através de uma revisão de literatura da GEV, bem como sobre as inferências a respeito dos seus parâmetros, dando maior ênfase ao estimador de máxima verossimilhança, uma vez, que de acordo com a revisão de literatura feita é o que tem mostrado melhor desempenho para estimar os parâmetros da GEV, em seguida foi feita uma revisão de literatura também para a GPD e mostrando a importante relação entre GEV e GPD, bem como a seleção do seu limiar e para encerrar foi vista uma relação importante entre a distribuição q-exponencial e a GPD, sendo gerada a partir de uma reparametrização na Pareto tipo II, esse artifício facilita bastante para encontrar o estimador de máxima veossimilhança da GPD quando o parâmetro de forma for positivo. Dessa forma, têm-se duas maneiras de se modelar o máximo de uma seqüência de variáveis aleatórias independentes e identicamente distribuídas: 1. Máximo em Bloco, onde se seleciona o máximo de cada período, porém nessa abordagem corre-se o risco de deixarmos alguns máximos de fora, dessa forma comprometendo as estimativas bem como previsões/predições; 2. Observações acima de um limiar u, nesse tipo de modelagem busca-se modelar a seqüências de variáveis aleatórias acima dele, onde a distribuição limite é a distribuição generalizada de Pareto, sendo que nesse modelo o problema consiste na escolha desse limiar, que pode ser feita por duas maneiras: uma através de técnicas exploratórias e a outra através de técnicas gráficas, olhando sempre a estabilização dos parâmetros e tomando o cuidado 27 na escolha do mesmo, para não violar a convergência assintótica e nem ficar com poucas observações acima do limiar selecionado. Assim, uma vez escolhido o modelo, no presente estudo a modelagem será via GPD, por essa razão na secção que trata das inferências dos parâmetros da GPD só foi abordado o método de estimação baseado na propriedade da linearidade da distribuição generalizada de Pareto, pois no capítulo 3 será visto os métodos de estimação dos parâmetros da GPD que foram utilizados no estudo de caso, sendo que o método estudado com mais detalhes foi o da máxima entropia (POM), uma vez que esse método tem sido bastante estudado nos últimos anos, e sempre mostrando estar entre os métodos mais eficientes de estimação dos parâmetros da GPD. 28 CAPÍTULO 3: ALGUNS MÉTODOS DE ESTIMAÇÃO DOS PARÂMETROS DA DISTRIBUIÇÃO GENERALIZADA DE PARETO (GPD) Vários métodos de estimação dos parâmetros da GPD já foram propostos, sendo que nos últimos anos o método da máxima entropia (POME) tem sido bastante utilizado por vários autores, em geral Sing e Guo (1995), Oztekin (2004), onde o POME sempre que comparado com outros métodos, obteve menor erro quadrático médio. Por essa razão nas próximas secções, serão mostrados todos os métodos utilizados no presente estudo, sendo que o da máxima entropia será desenvolvido de forma integral. 3.1 Método da Máxima Verossimilhança (MLE) Para se encontrar o estimador de máxima verossimilhança, precisamos encontrar o log da função de verossimilhança, que de acordo com Oztekim (2004) é: ⎛1− ξ ⎞ n ⎡ ξ ⎤ ⎟⎟∑ ⎢1 − ( xi − μ )⎥ , onde os L( xi , ξ , σ , μ ) = −n ln σ + ⎜⎜ ⎦ ⎝ ξ ⎠ i =1 ⎣ σ xi são valores observados na amostra e n o tamanho da amostra, o método se baseia na maximização dos parâmetros da equação acima. Para a maximização, Rheinboldt (1998), utilizou o método direto ou de NewtonRapson, para isso ele resolveu as equação parciais em relação a cada parâmetro desconhecido, onde as derivadas parciais em relação ao parâmetro de forma são dadas a seguir: xi − μ ξ ( xi − μ ) ⎞ ⎛ i =1 σ ⎜1 − ⎟ σ ⎝ ⎠ = 0, n ⎛ ξ ( xi − μ ) ⎞ ln⎜1 − ⎟ ∂L ∑ σ ⎠+ = i =1 ⎝ 2 ∂ξ ξ n (1 − ξ )∑ ξ ξ ( xi − μ ) ξ ( xi − μ ) ⎞ ⎛ i =1 σ ⎜1 − ⎟ σ ⎝ ⎠ = 0. n (1 − ξ )∑ ∂L n = − ∂ξ σ 2 ξ Sendo que Singh e Guo (1995) mostraram que o log da função de verossimilhança é viesado em relação ao parâmetro de localização μ, dessa forma não é possível encontrar o estimador de máxima verossimilhança para o parâmetro de localização. Para tanto será escolhido o menor valor da amostra para estimar o parâmetro de localização. 29 3.2 Método da Máxima Verossimilhança Penalizada (MPLE) Apesar do método da máxima verossimilhança ser um dos mais eficientes, ele apresenta sérios problemas em relação às especificidades dos modelos de sismos, uma vez que a severidade apresenta eventos extremos. Assim, existe um maior interesse na cauda da distribuição subjacente, sendo que o método da máxima verossimilhança pondera cada valor da distribuição igualmente, por outro lado esse efeito da ponderação igualitária é resolvido por intermédio do método da máxima verossimilhança penalizada. Coles e Dixon (1999), sugerem para o estimador de máxima verossimilhança penalizada usar a seguinte a função: f ( x) = 1 se xi ≤ 0 λ ⎛ ⎞ = exp⎜ − α ⎡⎢ 1 − 1⎤⎥ ⎟ , se 0 ≤ xi ≤ 1 ⎜ ⎝ ⎣1 − x i ⎦ ⎟⎠ = 0 se xi ≥ 1 , onde α e λ , são as constantes penalizadas. Coles e Dixon (1999) sugerem ainda que α = λ = 1 . 3.3 Método dos Momentos (MOM) As características das distribuições de probabilidades podem ser sumarizadas pelos momentos populacionais. O momento de primeira ordem, em relação à origem dos X, representa a média populacional (μ ) , e o momento central de ordem r=2 é, por definição, a variância (σ 2 ) de X. As quantidades que podem ser deduzidas do momento central de ordem 2 são o desvio-padrão (σ ) e o coeficiente de variação (CV). Para r>2, é usual descrever as características da função de distribuição através − r das razões adimensionais μ r e μ 2 2 , das quais se destacam os coeficientes de assimetria ( C s ) e de curtose (k), dados por: − 3 C s = μ 3 μ 2 2 e k = μ 4 μ 2−2 . Os momentos amostrais são estimados por quantidades similares, calculadas a partir dos dados de uma amostra de tamanho n. Por exemplo, o estimador natural de μ é a média aritmética ou o momento amostral de primeira ordem em relação à 30 n origem, - x= ∑ xi i =1 n , os momentos amostrais (m) de ordem (r) superior são estimadores viesados dos momentos populacionais de mesma ordem, entretanto podem ser corrigidos para produzir estimadores sem viés, por exemplo, para variância e assimetria, respectivamente: S2 = m3 n n2 m2 , C s = (n − 1)(n − 2) s 3 n −1 Portanto, de acordo com Hosking e Wallis (1987) os estimadores da distribuição generalizada de Pareto pelo método dos momentos (MOM), são: − x=μ+ σ (1 + ξ ) , S2 = σ2 2(1 − ξ )(1 − ξ ) , Cs = 2 (1 + 3ξ ) (1 + 2ξ )(1 + 2) [ ] − onde x, S 2 e C s , são a media a variância e a assimetria, respectivamente 3.4 Método de Pickands (Pickands) Os métodos de estimação do parâmetro de forma da distribuição generalizada de Pareto têm encontrados alguns problemas no que tange ao viés e a variância, com o intuito de amenizar esses problemas, Pickands (1975) propôs um estimador baseado em estatísticas robustas para o parâmetro de forma da GPD como pode ser visto a seguir: Seja X 1,n ,......, X n ,n , estatísticas de ordem para uma amostra independente de tamanho n e função de distribuição da GPD. O estimador de Pickands é: ξ= ⎛ X n − k +1, n − X n − 2 k +1, n 1 log⎜ log 2 ⎜⎝ X n − 2 k +1, n − X n − 4 k +1, n ⎞ n ⎟ , para k = 1,......, ⎟ 4 ⎠ onde Dekkers e Haan (1989), verificaram a consistência e a normalidade assintótica do estimador. 3.5 Método do Momento Ponderado pelas Probabilidades: viesado e não-viesado (PWMB, PWMU) Conforme Hosking e Wallis (1987), o estimador (PWMB), possui parâmetros especiais de forma e escala, esses parâmetros são chamados de “Diagrama de Posição”. Os mesmos recomendam que o parâmetro de forma inicialmente seja de 0,35, enquanto o de posição assuma o valor zero. Posteriormente, pode ser testado diferentes valores. 31 Para o PWMB, PWMU aproximados, Dupuis e Tsao (1998), propõem a utilização de estimadores híbridos, uma vez que o mesmo evita o fato de não possuir pontos viáveis. 3.6 Divergência Média da Densidade (MDPD) A estimação do parâmetro da distribuição generalizada de Pareto pelo MDPD foi proposta por Júarez e Schucany (2004), onde os mesmos recomendam para o parâmetro de forma da distribuição generalizada de Pareto (GPD) o valor de 0,1, nesse mesmo trabalho são recomendados valores pequenos para o parâmetro de forma. Para um α>0 o estimador para a GPD é o valor ⎛⎜ ξ α , σ α ⎞⎟ , que minimizam a ^ ^ ⎝ ⎠ equação abaixo: X ⎞ 1 ⎞1 n 1 ⎛ ⎛ H α (ξ , σ ) = α − ⎜1 + ⎟ ∑ α ⎜ 1 − ξ i ⎟ α ⎠ σ (1 + α − ξα ) ⎝ α ⎠ n i =1 σ ⎝ 1 (ξ −1 −1)α , sobre 1+α ⎫ ⎧ { X i }ξ < σ ,−∞ < ξ < 0, e,0 < ξ < ⎨(ξ , σ ) ∈ Θ : σ > 0, max ⎬ 1≤i ≤ n α ⎭ ⎩ A restrição max{X i }ξ < σ , deve-se à dependência do suporte dos parâmetros. A 1≤i ≤ n restrição ξ < 1+α α é necessária para as condições de regularidades da integral da GPD. 3.7 Método da Mediana (MED) Welsh e Peng (2001), no artigo “Robust Estimation of the Generalized Pareto Distribution”, utiliza o mesmo princípio que He e Fung (1999), quando eles propuseram o método da mediana para a distribuição de Weibull com dois parâmetros, sendo os mesmos da seguinte forma: σ= ξ ξ 2 −1 Mediana ( X i ) , onde X i , são os valores observados da variável aleatória. ⎡ ⎛ ξX i ⎢ log⎜1 + σ ⎝ Mediana ⎢ 2 ⎢ ξ ⎢ ⎣ ⎞ ⎟ ⎠ ⎤ (1 + ξ )X i ⎥⎥ = Z (ξ ) − σξ + ξ 2 X i ⎥ ⎥ ⎦ 32 ∫ ⎧⎪ ⎫⎪ log y 1+ ξ − 1− y ξ > z (ξ )⎬ ⎨ 0 < y <1, − ξ ⎪⎩ ⎪⎭ ξ2 ( ) dy = 1 . 2 3.8 Método da Melhor Qualidade do Ajuste (MGF) Para o estimador MGF, Luceño (2005), propõem o seguinte algoritmo para estimar os parâmetros de forma e escala, ξ e σ da distribuição generalizada de Pareto. São os seguintes passos no delineamento do pseudo-algoritmo: (1) Calcule ~ ξ =− ⎤ ⎡ xi 1 ln ⎢1 − ∑ ⎥ n −1 ⎣ max( x1 ,......, x n ) ⎦ e n ∑x 2 i i =1 z = 1− n −2 ; 2x ~ (2) se ξ < 0,75 e Z<0,2, calcule os MLEs padronizados para ξ e σ ; ~ ~ ~ (3) caso contrário estime ξ usando a equação do ξ e σ = ξ max( x1 ,........., x 2 ) . Segundo Luceño (2005), a justificativa para esse procedimento é que quando ξ é grande, a amplitude da GPD é 0 ≤ x ≤ σ e o método da máxima verossimilhança ξ ~ falha. Portanto para ξ uma alternativa é utilizar σ ~ ξ = max( x1 ,......, x n ) . 3.9 Método da Máxima Entropia (POME) Shannon (1948) definiu entropia como uma medida numérica de incerteza, ou reciprocamente o conteúdo de informação associou com uma distribuição de probabilidade, f ( x ; θ ) , sendo θ o vetor de parâmetros, utilizado para descrever uma 33 variável aleatória X. A função de entropia de Shanoon H ( f ) para X continua, é dada da seguinte forma: ∞ H ( f ) = − ∫ f ( x ; θ ) ln f ( x ; θ ) dx com −∞ ∞ ∫ f ( x;θ ) dx = 1 , (3) −∞ onde H ( f ) é a entropia para f ( x ; θ ) que pode ser vista como o valor médio de − ln f ( x ; θ ) . De acordo com Jaynes (1961), o viés mínimo da distribuição de X é o que maximiza a entropia sujeita a determinada informação ou que satisfaça o princípio da máxima entropia (POME). Portanto os parâmetros da distribuição podem ser obtidos alcançado o máximo de H ( f ) . O uso deste princípio pode gerar as distribuições de probabilidade menos viesadas em base de dados limitadas e incompletas discutidas por vários autores e pode ser aplicada a problemas diversos, por exemplo, Singh e Fiorentino (1992). Jaynes (1968) argumentou que o POME é o critério lógico e racional para escolher uma função especifica f ( x ; θ ) , que maximiza H ( f ) e satisfazendo a determinada informação que expressa como restrição. Em outras palavras, para determinar a informação, por exemplo, média, variância, assimetria, limite superior, limite inferior, entre outras, a distribuição derivada pelo princípio da máxima entropia é a que representa melhor a variável aleatória X; implicitamente, esta distribuição representa melhor a amostra da qual a informação foi retirada. Inversamente, se era desejado ajustar uma distribuição de probabilidade especifica a uma amostra de dados, então o POME pode especificar as restrições exclusivamente (ou a informação) precisando derivar daquela informação. Os parâmetros da distribuição são relacionados com essas restrições. Uma discussão excelente da razão matemática é determinada por Levine e Tribus (1979). Determinando m restrições linearmente independentes Ci , i = 1, 2........, m da seguinte forma: C i = ∫ w i ( x ) f ( x ; θ ) dx , i = 1, 2 ,......., m , (4) onde wi são algumas funções cuja média é calculada em cima de f ( x ; θ ) são especificadas, então o máximo de H ( f ) sujeito a equação (4) é determinada pela distribuição: m ⎡ ⎤ f ( x;θ ) = ⎢ − a 0 − ∑ a i wi ( x ) ⎥ , i =1 ⎣ ⎦ (5) 34 sendo ai , i = 0,1, 2,...., m os multiplicadores de lagrange, que são determinados pela equação (4) e (5). Inserindo a equação (5) na equação (3) gera-se a entropia de f ( x ; θ ) , em termos das restrições e multiplicadores de Lagrange. m H ( f ) = a0 + ∑ aiCi , (6) i =1 A maximização de H ( f ) estabelece o relacionamento entre as restrições e os multiplicadores de Lagrange. Dessa forma para estimar os parâmetros da GPD, pelo princípio da máxima entropia (POME), devem-se: I. Especificar as constantes apropriadas; II. Derivar a função de distribuição da entropia; III. Derivar em relação entre os multiplicadores de Lagrange e as restrições. Para uma formalização maior deste método veja Tribus (1969), Jaynes (1968), Levine e Tribus (1979) e Sing e Rajagopol (1986) 3.9.1 Especificação das Restrições A entropia para a distribuição generalizada de Pareto pode ser obtida inserindo a equação (6) na equação (13), obtendo: ∞ H ( f ) = ln ∫ μ ⎡1 ⎤ ⎡ ξ (x − μ )⎤ f ( x ; θ ) dx + ⎢ − 1⎥ ∫ ⎢1 − ⎥⎦ f ( x ; θ ) dx . (7) σ ⎣ξ ⎦μ ⎣ ∞ Comparando a equação (7) com a equação (6), as restrições adequadas para a equação 1, podem ser escritas conforme Singh & Rajagopal, (1986), como: ∞ ∫μ f ( x;θ ) dx = 1 , (8) ∞ e ⎡ ∫μ ln ⎢⎣1 − ⎡ ⎛ ξ (x − μ ) ⎞ ⎤ ξ (x − μ )⎤ f ( x ; σ ) = E ⎢ ln ⎜ 1 − ⎟ ⎥ . (9) ⎥ σ σ ⎠⎦ ⎦ ⎣ ⎝ Essas restrições são únicas e especificam as informações suficientes para a distribuição generalizada de Pareto (GPD). A primeira restrição especifica a probabilidade total. A segunda restrição especifica a média do logaritmo da razão inversa do parâmetro de escala para a de taxa de fracasso. Conceitualmente, isto define o valor esperado negativo da taxa de fracasso do parâmetro de escala. Os parâmetros da distribuição são relacionados com estas restrições. 3.9.2 Construção da Função de Entropia A função de distribuição de probabilidade da GPD correspondente ao princípio da máxima entropia (POME) e consistente com as equações (8) e (9), possui a seguinte forma: 35 ⎡ (x − μ ) ⎞ ⎤ , ⎛ f ( x ; θ ) = exp ⎢ − a 0 − a1 ln ⎜ 1 − ξ ⎟ σ ⎠ ⎥⎦ ⎝ ⎣ (10) onde: a 0 e a1 são os multiplicadores de Lagrange. A justificativa matemática para a equação (10) foi apresentada por Tribus (1969). Aplicando a equação da Distribuição de Valores Extremos com a restrição da probabilidade total, obtemos: ⎛ ⎡ ξ ( x − μ )⎤ ⎞ exp( a 0 ) = ∫ exp ⎜⎜ − a1 ln ⎢1 − ⎥⎦ ⎟⎟dx , (11) σ ⎣ ⎝ ⎠ μ ∞ que retorna a função de partição: exp( a 0 ) = σ 1 . ξ 1 − a1 (12) O zero do multiplicador de Lagrange é dado por: ⎛σ 1 a 0 = ln ⎜⎜ ⎝ ξ 1 − a1 ⎞ ⎟⎟ ⎠ (13) inserindo a equação (12) na equação (10), obtemos: ξ (x − μ ) ⎛ ξ (x − μ ) ⎞ f ( x;θ ) = ⎜1 − ⎟ σ σ ⎝ ⎠ − a1 . (14) Comparando a equação (14) com a equação (6), obtem-se: 1 − a1 = 1 ξ . (15) Tomando o logaritmo da equação (14), tem-se: ⎡ ξ (x − μ )⎤ ln f ( x ;θ ) = ln ξ + ln (1 − a1 ) − ln σ − a1 ln ⎢1 − ⎥⎦ (16) σ ⎣ Dessa forma, a entropia H ( f ) da GPD é: ⎧ ⎡ ξ (x − μ ) ⎤ ⎫ H ( f ) = − ln ξ − ln (1 − a1 ) + ln σ + a1 E ⎨ ln ⎢1 − ⎥⎦ ⎬ σ ⎩ ⎣ ⎭ (17) 3.9.3 Relação Entre os Parâmetros da GPD e as Restrições De acordo com Singh e Rajagopol (1986), a relação entre os parâmetros da GPD e as restrições é obtida através das derivadas parciais da entropia H ( f ) em relação aos multiplicadores de Lagrange, bem como a distribuição dos parâmetros e, em seguida, igualar a as derivadas a zero, e utilizar as restrições. Por fim utilizar as 36 derivadas parciais da equação (17), em relação à a1 , ξ , σ e μ separadamente e igualando as derivadas de cada equação em relação à zero, temos: ⎡⎛ 1 ∂H ξ (x − μ ) ⎞ ⎤ = + E ⎢⎜ 1 − ⎟⎥ = 0 σ ∂ a1 1 − a1 ⎠⎦ ⎣⎝ (18) ⎡⎛ ξ (x − μ ) ⎞ ⎤ ⎟⎥ ⎢⎜ 1 ∂H σ ⎟⎥ = 0 = − − a1 E ⎢ ⎜ ξ μ ( x ) − ξ ∂ξ ⎟⎥ ⎜ ⎢⎜ 1 − ⎟ σ ⎠ ⎦⎥ ⎣⎢ ⎝ (19) ⎡⎛ ξ (x − μ ) ⎞ ⎤ ⎟⎥ ⎢⎜ ∂H 1 σ ⎟⎥ = 0 = + a1 − E ⎢⎜ ( ) − ξ μ x ∂σ σ ⎜ ⎟⎥ ⎢⎜ 1 − ⎟ σ ⎠ ⎦⎥ ⎣⎢⎝ (20) ⎡⎛ ⎞⎤ ⎟⎥ ⎢⎜ 1 1 ∂H ⎟⎥ = 0 . = + a1 − E ⎢⎜ ∂μ σ ⎢ ⎜⎜ 1 − ξ ( x − μ ) ⎟⎟ ⎥ ⎢⎣ ⎝ σ ⎠ ⎥⎦ (21) Simplificando as equações (18) em relação a (21), temos, respectivamente: ⎡⎛ ξ (x − μ ) ⎞ ⎤ 1 E ⎢⎜ 1 − ⎟⎥ = − σ 1 − a1 ⎠⎦ ⎣⎝ (22) ⎡⎛ ξ (x − μ ) ⎞ ⎤ ⎟⎥ ⎢⎜ σ ⎟⎥ = 1 E ⎢⎜ ⎢ ⎜⎜ 1 − ξ ( x − μ ) ⎟⎟ ⎥ ξ a1 σ ⎠ ⎦⎥ ⎣⎢ ⎝ (23) ⎡⎛ ξ (x − μ ) ⎞ ⎤ ⎟⎥ ⎢⎜ σ ⎟⎥ = 1 ⎜ E⎢ ⎢ ⎜⎜ 1 − ξ ( x − μ ) ⎟⎟ ⎥ ξ a1 σ ⎠ ⎦⎥ ⎣⎢ ⎝ (24) ⎡⎛ ⎞⎤ ⎟⎥ ⎢⎜ 1 ⎟⎥ = 0 E ⎢⎜ ⎢ ⎜⎜ 1 − ξ ( x − μ ) ⎟⎟ ⎥ ⎢⎣ ⎝ σ ⎠ ⎥⎦ (25) Observa-se que a equação (25) não tem solução viável. As equações (23) e (24) são as mesmas. Para se obter uma solução única, será preciso adicionar equações, que serão obtidas através da diferenciação dos multiplicadores de lagrange e igualando a zero. Para finalizar em termos da equação (11), será escrita como: 37 ⎧ ⎡ ξ (x − μ )⎤ ⎫ a 0 = ln ∫ exp ⎨ − a1 ln ⎢1 − ⎥⎦ ⎬ dx , (26) σ ⎣ ⎩ ⎭ μ ∞ Diferenciando-se a equação (26), em relação à a1 , tem-se: ∞ ⎧ ∫μ exp ⎨⎩ − a ∂a 0 =− ∂ a1 ∞ 1 ⎡ ξ (x − μ )⎤ ⎫ ⎡ ξ ( x − μ )⎤ ln ⎢1 − ⎥⎦ ⎬ ln ⎢⎣1 − ⎥⎦ dx σ σ ⎣ ⎭ ⎡ ∫μ exp ⎢⎣ − a 0 ⎧ ξ ( x − μ )⎫ ⎤ ln ⎨1 − ⎬ ⎥ dx σ ⎩ ⎭⎦ ∞ ∂a 0 ⎧ ⎡ ξ ( x − μ )⎤ ⎫ ⎡ ξ ( x − μ ) ⎤ = − ∫ exp ⎨ − a 0 − a1 ln ⎢1 − ⎥⎦ ⎬ ln ⎢⎣1 − ⎥⎦ dx σ σ ∂ a1 ⎣ ⎩ ⎭ μ ∂a 0 ⎧ ⎡ ξ (x − μ )⎤ ⎫ = − E ⎨ ⎢1 − ⎥⎦ ⎬ . ∂ a1 σ ⎩⎣ ⎭ (27) De acordo com Tribus (1969): ∂ 2a0 ⎧ ⎡ ξ (x − μ )⎤ ⎫ = var ⎨ ln ⎢1 − 2 ⎥⎦ ⎬ σ ∂ a1 ⎩ ⎣ ⎭ (28) onde var [.] representa a variância da quantidade entre chaves. Da equação (12), temos: ⎛σ a 0 = ln ⎜⎜ ⎝ξ ⎞ ⎟⎟ − ln (1 − a1 ) (29) ⎠ diferenciando a equação (39) em relação à a1 , tem-se: ∂a 0 1 = ∂ a1 1 − a1 ∂ 2 a0 1 = 2 ∂ a 1 (1 − a1 )2 (30) (31) comparando a equação (40), com a equação, com a equação (37), obtem-se: ⎧ ⎡ ξ (x − μ )⎤ ⎫ 1 E ⎨ ln ⎢1 − ⎬=− ⎥ σ (1 − a1 )2 ⎦⎭ ⎩ ⎣ (32) Que por sua vez é igual à equação (32). Comparando a equação (41) com a equação (37), tem-se: ⎧ ⎡ ξ ( x − μ )⎤ ⎫ 1 var ⎨ ln ⎢1 − (33) ⎬=− ⎥ σ (1 − a1 )2 ⎦⎭ ⎩ ⎣ Portanto, a equação de estimação dos parâmetros da distribuição generalizada de Pareto pelo princípio da máxima entropia consiste das equações (22), (23) e (33). 38 Da equação (15), nota-se que a1 = 1 − 1 ξ , substituindo esse valor nas equações (22), (23) e (33), tem-se: ⎧ ⎡ ξ (x − μ )⎤ ⎫ E ⎨ ln ⎢1 − ⎥⎦ ⎬ = −ξ σ ⎩ ⎣ ⎭ ⎧ ⎡ ⎤⎫ ⎪⎪ ⎢ ⎥ ⎪⎪ 1 1 E ⎨ ln ⎢ =− ⎥ ⎬ ( ) 1−ξ ⎪ ⎢1 − ξ x − μ ⎥ ⎪ ⎪⎩ ⎣ σ ⎦ ⎪⎭ ⎡ ⎛ ξ ( x − μ ) ⎞⎤ 2 var ⎢ln⎜1 − ⎟⎥ = ξ . σ ⎠⎦ ⎣ ⎝ Nesse capítulo foi estudada a forma analítica dos métodos de estimação dos parâmetros da GPD, em relação ao estimador de máxima verossimilhança verificamos que o mesmo não possui solução analítica, devendo ser utilizados soluções numéricas para encontrá-los. O estimador de máxima entropia foi desenvolvido de forma integral, partindo desde a construção da função de entropia da GPD até encontrar a forma analítica dos mesmos, uma vez que esse método tem-se mostrado bastante eficiente para estimar os parâmetros da GPD. O capítulo 4 vem da necessidade de como em qualquer análise estatística verificar a qualidade do ajuste dos dados, por essa razão no capítulo seguinte serão abordados dois métodos para diagnosticar o ajuste do modelo aos dados. Um será através de métodos gráficos e o outro para testar realmente o ajuste, o qual será feito através do teste Anderson-Darling. 39 CAPÍTULO 4: DIAGNÓSTICO DE ADEQUAÇÃO DO MODELO Na prática, em geral, dispõe-se de dados de uma variável aleatória cuja distribuição da população é desconhecida. Assim, é necessário, identificar a distribuição de probabilidade com melhor aderência aos resultados experimentais. Em algumas situações, é possível utilizar informações de outras variáveis que descrevem fenômenos aleatórios similares. Dessa maneira, seria estimada uma possível distribuição de probabilidade, então o problema seria estabelecer um critério de aceitação ou rejeição do modelo. Por outro lado, em muitos casos não se tem idéia da distribuição da variável. Quando isso acontece os métodos gráficos, podem ser utilizados para ver se a distribuição de probabilidade se adere aos dados, conforme descrito a seguir. Coles (2001), os excessos do limiar u, x(1) ≤ .... ≤ x( k ) e um modelo estimado ^ H , o gráfico de probabilidades consiste dos pontos: ^ ⎧⎛ i ⎫ ⎞ , G ( x(i ) ) ⎟, i = 1,...., k ⎬ ⎨⎜ ⎠ ⎩⎝ k + 1 ⎭ ^ Onde G ( x) é dado de acordo com a equação (2). ^ O gráfico dos quantis, de acordo com Coles (2001), quando ξ ≠ 0 é constituído do conjunto de pontos: ⎧⎪⎛ ^ −1 ⎛ i ⎞ ⎫⎪ ⎞ ⎟, x (i ) ⎟⎟, i = 1,...., k ⎬ , onde ⎨⎜⎜ G ⎜ ⎪⎩⎝ ⎪⎭ ⎝ k +1⎠ ⎠ ^ −1 ^ σ G = u + ^ ⎛⎜ ( x − u ) −ξ − 1⎞⎟ ⎠ ξ⎝ ^ Coles (2001) afirma, ainda, que se o modelo estimado for razoável para os excessos de u, tanto o gráfico de probabilidades normal como os de quantis devem ser aproximadamente lineares. O nível de retorno, conforme Coles (2001) consiste do conjunto de pontos ^ ⎧⎛ ^ ⎞⎫ ⎨⎜ m, z m ⎟⎬ para valores grande de m, onde x m são estimativas de m-observaçoes do ⎠⎭ ⎩⎝ nível de retorno: 40 ⎡ ⎤ ξ σ ⎛ ^ ⎞ z m = u + ^ ⎢⎜ m ς u ⎟ − 1⎥ ⎢ ⎥ ⎠ ξ ⎣⎝ ⎦ ^ ^ ^ A escala utilizada é logarítmica, por tanto é de fundamental importância testar o ajuste do modelo, uma vez que a estimação errada do parâmetro de forma pode levar a previsão bastante distorcida da realidade. 4.1 Teste de Adequação do Modelo Os métodos gráficos descrito acima dão apenas um diagnóstico do ajuste do modelo, para confirmar a aderência dos dados é necessário testar realmente o ajuste, onde alguns testes de hipóteses não paramétricos podem ser utilizados para esse fim, uma vez que. Estes consideram a forma da distribuição da população em lugar dos parâmetros por esse motivo são chamados de testes não paramétricos, sendo que no caso de extremos, a idéia e pegar um teste que não seja sensível as caudas, como é o caso do teste de Anderson-Darling. O teste de Anderson-Darling é um dos testes estatísticos mais poderosos para detectar a aderência dos dados às distribuições caudais. É uma generalização do teste de Klmogorov-Smirnov (KS), porém dando mais peso às caudas. Ele é também uma alternativa ao teste Qui-Quadrado. Pode ser usado com tamanhos de amostra pequenos n ≤ 25 . O teste avalia, em geral, se a amostra vem de uma distribuição qualquer especificada. A fórmula para o teste estatístico A para avaliar se os dados (Y1 ,...., Yn ) , ordenados vêm de uma distribuição com função de distribuição F, é dado por: A 2 = − n − S , onde S =∑ 2k − 1 [ln F (Yk ) + ln(1 − F (Yn+1−k ))] n O teste estatístico pode então ser comparado contra os valores críticos da distribuição teórica (dependendo de qual função de distribuição Fx é usada) para determinar o valor-p. Por fim, depois de escolhido o método de estimação do máximo, onde presente estudo será através da escolha de um limiar u, portanto a modelagem será via GPD. Feito isso a idéia seguinte é escolher o limiar de acordo com os métodos sugeridos no capítulo 2 e em seguida estimar os parâmetros da distribuição generalizada de Pareto, pelos métodos vistos no capítulo 3, feito isso o 41 passo final será verificar a aderência dos dados a GPD, onde será feito um diagnóstico gráfico como descrito nesse capítulo e por último testado à aderência através do teste de Anderson Darling, que com foi descrito é o mais adequado para testar as caudas. No capítulo 5 será feito o estudo de caso no município de João Câmara, NE do Brasil, onde em 1986 foi registrado o maior sismo já catalogado no país. Os dados utilizados para esse estudo foram os sismos registrados de maneira continua por um sismógrafo eletrônico no período de 1987 a 1988. Pelo comportamento dos sismos, o modelo que aparece como candidato natural é o da GPD, por que a idéia e escolher um sismo e em seguida analisar todos aqueles acima dele. Dessa forma a idéia e escolher o limiar utilizando a técnica gráfica vista no capítulo 2, na secção relacionada à escolha do limiar e em seguida serão estimados os parâmetros da GPD, de acordo com os métodos estudados no capítulo 3 e comparados através do erro padrão, com o objetivo de identificar os métodos mais eficientes e por ultimo iremos verificar a aderência dos dados, sendo feito um diagnóstico de ajuste através de métodos gráficos e em seguida testada a aderência através do teste de Anderson Darling, pois como foi descrito nesse capítulo é o teste mais adequado para medir o ajuste das caudas. 42 CAPÍTULO 5: ESTUDO DE CASO: JOÃO CÂMARA – RN O município de João Câmara localizado no estado do Rio Grande do Norte, nordeste do Brasil, possui uma área 714,95 km2 e uma população de 30.423 habitantes segundo o IBGE (2007), sendo um dos municípios com maior atividade sísmica no país. A Figura 6 mostra as coordenadas geográficas do município, a legenda usada para a localidade pelo Instituto Brasileiro de Geográfica e Estatística é JoCra. Figura 6: Localização do município de João Câmara – RN, Brasil. 5.1 Caracterização do Município e o Sismo Histórico O município de João Câmara esta situado na mesorregião Agreste Potiguar e na microrregião Baixa Verde, limitando-se com os municípios de Parazinho, Touros, Pureza, Poço Branco, Bento Fernandes, Jardim de Angicos, Jandaíra e Pedra Preta, abrangendo uma área de 714,95 km2, inseridos nas folhas Pureza (SB.25-V-C-I) e João Câmara (SB.25-V-C-IV), na escala de 1:100.000, editadas pela SUDENE. A sede do Município tem uma altitude de 160m e apresenta coordenadas de 05º32’16,8’’ de latitude sul e 35º49’12,6’’ de longitude oeste, distando da capital cerca de 86 km, sendo seu acesso a partir de Natal, efetuado através da rodovia pavimentada BR-406. “O Nordeste brasileiro é a região onde ocorrem atividades sísmicas com maior freqüência. O registro desse tipo de fenômeno é conhecido, com segurança, desde 1724 (Salvador - BA). Há 200 anos, no dia 8 de agosto de 1808 ocorreu o tremor de 43 Açu, de magnitude estimada em 4.8, sentido no Rio Grande do Norte, Ceará, Piauí e Pernambuco. Desde então vários tremores ocorreram na região, geralmente na forma de enxames em que a atividade se prolonga por até 10 anos, causando muitas vezes danos em edificações, além de pânico e fuga da população como aconteceu em João Câmara (RN - 1950, 1986 e 1991), Caruaru (PE - 1967) e em Doutor Severiano/Pereiro (RN - 1968). Até o presente ocorreram três eventos de magnitude maior ou igual a 5.0 no Nordeste, todos causando grandes danos em edificações na área epicentral, com colapso de paredes: em Cascavel (CE), com magnitude 5.2 em 1980; e João Câmara (RN) por duas vezes, em 1986 (5.1) e em 1991 (5.0). Segundo Joaquim Mendes Ferreira, coordenador do Laboratório Sismológico da UFRN, que faz parte do recémcriado Departamento de Geofísica, o estudo da atividade sísmica se faz necessário para o planejamento do desenvolvimento da região, pois, através dele é possível avaliar com precisão o risco sísmico. Em julho de 1986 tem início a mais espetacular atividade sísmica ocorrida no Brasil, em João Câmara (RN), onde foram registrados entre 1986 e 1993 mais de 50 mil tremores, em sua maioria microtremores. Neste período, foram registrados dois tremores de magnitude igual ou superior a 5.0 e mais de 20 tremores de magnitude igual ou superior a 4.0, que causaram danos extensos a muitas edificações e pânico na população. Pesquisadores do país e do exterior acorreram ao local e, após o maior tremor, ocorrido em 30 de novembro de 1986, de magnitude 5.1, até o presidente da República na época, José Sarney, esteve lá.” Fonte: http://www.sbgf.org.br/publicacoes/boletins/boletim5_2008.pdf Danos significativos ocorreram tanto na área urbana como na rural fazendo com que grande parte da população abandonasse a cidade, bem como a presença do presidente da Republica na época. A Figura 7 ilustra a ação dos bombeiros no município depois da ocorrência do sismo histórico. Figura 7: Atuação dos bombeiros na área urbana de João Câmara, ocasionado pelo tremor de 30/11/86. 44 O sismo causou danos em muitas construções na área urbana da cidade, pois na época as construções de uma maneira geral não estavam preparadas para esse tipo de fenômeno, como pode ser visto na Figura 8. Figura 8: Danos na área urbana de João Câmara, ocasionado pelo tremor de 30/11/86. Na área rural os efeitos foram ainda mais fortes, como pode ser visto na Figura 9, pois as casas da área rural eram construídas de forma muito precária. Figura 9: Efeitos na zona rural do maior sismo ocorrido em João Câmara. O efeito do sismo causa grande repercussão nacional, tanto que na época até o presidente da república José Sarney e alguns de seus ministros visitaram a localidade, como pode ser visto na Figura 10. Ações da Secretaria de Defesa Civil, além de entidades estaduais e federais, ajudaram a minimizar os problemas dos habitantes locais. Os sismos destruíram ou danificaram 4.000 casas e 500 delas foram reconstruídas adotando certas normas anti-sísmicas, desenvolvidas pelo Batalhão de Engenharia do Exército. Os grupos de sismologia da UnB, USP e da UFRN desdobraram esforços para documentar, estudar e mesmo orientar as autoridades diante da constância dos abalos sísmicos. 45 Figura 10: Chefe da defesa civil presta esclarecimentos ao Presidente da República sobre a atividade sísmica de João Câmara. 5.2 Análise dos Dados A análise dos dados foi feita no programa R, versão 2.6, através do pacote POT, com exceção do método da máxima entropia, todos os outros estão implementados nesse pacote e para implementar o POME foi utilizada a função optim, para poder encontrar as estimativas desse método. Foram catalogados 2733 sismos forma continua no período de 23/05/1987 a 07/07/1988, o modelo utilizado foi o POT, pois a idéia era observar os sismos acima de um limiar, portanto a modelagem do sismo máximo foi feito através da distribuição generalizada de Pareto. Inicialmente selecionou-se o limiar, para essa seleção foi utilizada a técnica gráfica baseada na linearidade da função média dos excessos empíricos descrita no Capítulo 2 (sessão 2.3.1). Esse método auxilia na determinação do limiar u alto o suficiente para a aproximação da distribuição dos excessos por uma GPD seja justificada. Dessa forma, iremos escolher u tal que a partir dele os excessos é aproximadamente linear para x ≥ u . Além disso, foi feito também o gráfico de dispersão para que fosse verificada a dispersão dos dados em relação ao limiar escolhido. As Figuras 11 e 12 ilustram os procedimentos clássicos adotados para a seleção do limiar e a inspeção visual do processo pontual. Analisando a Figura 11 percebemos que fazer a escolha adequada do limiar por esse procedimento não é tarefa fácil. No entanto, pela Figura 11 podemos verificar que a linearidade começa um pouco antes de 1,5º. Por isso, para os dados dessa tomada, escolhemos u=1,4º. Na Figura 12 vemos que a escolha do limiar segue as recomendações de Coles (2001), uma vez que o limiar não é muito baixo, de forma que venha a afetar o comportamento assintótico, e nem muito alto de forma que fiquem poucos máximo para a análise. 46 Figura 11: Representação gráfica da vida média residual da variável aleatória sismos no município de Câmara – uma ferramenta para a seleção do limiar de valores extremos. Figura 12: Representação gráfica da dispersão temporal dos sismos no município de Câmara. A linha vermelha representao limiar selecionado. 47 Após a seleção do limiar u, passaremos a analisar os parâmetros da GPD, dando uma maior atenção ao parâmetro de forma (ξ ) , pois é ele quem define o tipo de distribuição generalizada de Pareto a utilizar para estimar os sismos, dessa forma na Tabela 1, são apresentadas as estimativas não só para o parâmetro de forma, mas também para o de escala (σ ) por todos os métodos vistos no Capítulo 3 bem como o erro padrão de cada. Como o parâmetro de forma define o tipo de distribuição, na tabela 1, vemos que a distribuição sugerida para modelar os sismos é a Pareto comum ou Beta e os métodos que se obtiveram melhor desempenho, foi o da máxima entropia e o da máxima verossimilhança, uma vez que obtiveram o menor erro padrão. Método Estimativa ^ ^ Erro Padrão ^ ^ ^ ξ σ u ξ σ POME -0,2998 0,4564 1,4340 0,0506 0,0455 MLE -0,2892 0,5820 1,4340 0,0555 0,0466 MPLE -0,2892 0,5820 1,4340 0,0555 0,0466 PICKANDS -0,4899 0,5496 1,8070 0,9124 0,8260 MOM -0,2163 0,4427 1,8070 0,0864 0,0522 PWMB -0,1737 0,4272 1,8070 0,1049 0,0554 PWMU -0,1682 0,4252 1,8070 0,10455 0,0551 MDPD -0,2766 0,4660 1,8070 0,3589 0,3245 MED -0,2356 0,5127 1,8070 0,2583 ,3015 MGF -0,2163 0,4427 1,8070 0,0864 0,0522 Tabela 1: Estimativa dos parâmetros da distribuição generalizada de Pareto, através dos métodos de estimação propostos bem como o erro padrão, dos parâmetros de forma e escala. Na Tabela 1 vimos que os métodos da máxima entropia e o da máxima verossimilhança, foram os mais eficientes, dessa forma, iremos verificar o ajuste da GPD por esses dois métodos. Nas figuras de 13 a 26 temos tem-se uma visão geral do ajuste da GPD. Nestas figuras, inicialmente tem-se o gráfico das probabilidades, onde no eixo das abscissas (x) são as probabilidades empíricas e no eixo das ordenadas (y) as probabilidades do modelo, caso os dados dêem um bom ajuste a GPD, esse gráfico deve ter um comportamento linear, o segundo gráfico é o gráfico QQ-Plot, sendo no eixo das abscissas (x) os quantis do modelo e no eixo das 48 ordenadas (y) os quantis empíricos, a análise é similar a do gráfico de probabilidades, se os dados tiverem um bom a juste a GPD, espera-se que esse gráfico tambem seja linear. O terceiro gráfico é o que mede o ajuste entre a distribuição teórica e a empírica, se os dados tiverem um bom ajuste espera-se que as duas curvas fiquem bem próximas e por fim temos o gráfico que estima os vários níveis de retorno associado aos períodos de retorno, esse gráfico ira permitir analisar o período de retorno dos sismos associado ao nível de retorno dos mesmos. Portanto as Figuras 13 e 14 mostram essas análises para os métodos da máxima entropia e da máxima verossimilhança respectivamente, sendo que esses diagnóstocos foram obtidos também para todos os outros métodos estudados como pode ser visto no Apêndice C. Figura 13: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto pelo método da Máxima Entropia( POME). 49 Figura 14: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto pelo método da Máxima Verossimilhança (MLE). Os diagnósticos das Figuras 13 e 14 nos fornecem indícios de que os sismos podem ser modelados via GPD utilizando os métodos POME e MLE, onde a cada dez dias espera-se que na localidade ocorra um sismo de 1,5º, já para o sismo de 2,0º o seu retorno esta previsto para cada cinqüenta dias, para o de 2,5º a cada quinhentos dias e para o de 3,0º a cada cinco mil dias como pode ser visto nos gráficos citados acima. Por fim, para o sismo mais intenso ocorrido na região o de 5,1º espera-se que ocorra a cada dez milhões e oitocentos mil dias (aproximadamente 300 anos), que devido à escala não aparece no gráfico, mas foi calculado no R, pelo pacote utilizado para a análise. Com o intuito de confirmar a adequação dos dados sísmicos a uma GPD aplicou-se do teste de Anderson Darling, para os dois métodos que se mostraram mais eficientes. Os p-valor são apresentados na Tabela 2, indicando que a distribuição generalizada de Pareto descreve os excessos dos sismos, dando evidencias estatísticas que a escolha do limiar foi satisfatória. Método Teste de Anderson Darling (p-valor) MLE 0,821 POME 0,815 Tabela 2: Testes para o ajuste dos dados a GPD estimada. 50 5.3 - Reconstrução de Extremos via Simulação Monte Carlo Para estudar o desempenho dos métodos de estimação para períodos mais longos (10,15 e 20 anos), foi feita uma reconstrução do sinal do sismo, utilizando simulações de Monte Carlo, tato pelo MLE como pelo POME para os períodos citados, como pode ser visto nos gráficos de 15 a 20, onde os mesmos dão indícios de um bom ajuste para períodos futuros. Sendo que essa reconstrução deve seguir o teorema de Nyquist-Shannon, onde o mesmo diz que para a reconstrução de um sinal a freqüência deve ser o dobro do espectro. Como o sismo é um sinal, tomou-se cuidado para verificar se o mesmo seguia esse procedimento, uma vez que o principio de reamostragem em sinal consiste da conversão de um sinal em uma seqüência numérica. Figura 15: Reconstrução dos sismos no Município de João Câmara, pelo método da Máxima Verossimilhança para um período de 10 anos. 51 Figura 16: Reconstrução dos sismos no Município de João Câmara, pelo método da Máxima Entropia para um período de 10 anos. Figura 17: Reconstrução dos sismos no Município de João Câmara, pelo método da Máxima Verossimilhança para um período de 15 anos. 52 Figura 18: Reconstrução dos sismos no Município de João Câmara, pelo método da Máxima Entropia para um período de 15 anos. Figura 19: Reconstrução dos sismo no Município de João Câmara, pelo método da Máxima Verossimilhança para um período de 20 anos. 53 Figura 20: Reconstrução dos sismos no Município de João Câmara, pelo método da Máxima Entropia para um período de 20 anos. 54 CAPÍTULO 6: CONSIDERAÇÕES FINAIS A análise dos valores dos sismos medidos de forma continua no sismógrafo digital no período de 23/05/1987 a 07/07/1988 no município de João Câmara - RN através da distribuição generalizada de Pareto permitiu verificar que para a estimação dos parâmetros, os métodos da máxima entropia e o da máxima verossimilhança são os mais eficientes. Pelo fato do parâmetro de forma ser negativo, não só pelos métodos mais eficientes, mas sim por todos os métodos em que os dados foram analisados, a distribuição mais adequada para fazer previsões/predições é a distribuição de Pareto comum ou Beta com um limiar estimado de 1,4º. Com esse ajuste, verificou-se que o período de retorno estimado de aproximadamente dez dias, prevê sismos de 1,5º, que não são sentidos pela população, por outro lado um sismo de 2,5º que já é percebido pela população estimase que ocorra a cada 500 dias, já o sismo histórico aquele que esta no imaginário popular ocorrido em novembro de 1986, é pouco provável, pois o seu nível de retorno é para 300 anos. Por tanto um dos pontos importantes concernentes aos eventos severos é caracterizá-los e entender com profundidade a sua natureza, origem e conseqüências. Este ponto é crucial para melhor previsibilidade e divulgação para usuários, seja em termos de alertas ou informações diversas para os órgãos competentes de apoio bem como para a população em geral. A utilização da teoria de valores extremos e do procedimento apresentado, especificamente para análise da ocorrência de sismos, apresenta a vantagem adicional de se obter uma distribuição que melhor se ajusta aos períodos de retorno, ou seja, previsões poderão ser feitas com mais segurança. Os dados sísmicos são raros e de difícil obtenção, necessitando de um grande esforço técnico para a sua realização e são fundamentais para a verificação das metodologias de previsão, por essa razão um dos limitadores do trabalho são justamente os dados, portanto ser faz necessária uma monitoração mais continua para que a qualidade das previsões/predições sejam mais confiáveis Desta forma, considerando a análise estatística realizada, as conclusões obtidas e as limitações existentes, fica como sugestão para trabalhos futuros verificar como a partir da distribuição generalizada de Pareto, como e com qual precisão, é possível estimar as durações de sismos máximos, além disso, se possível, verificar o ajuste da GPD num espaçamento uniforme (se possível), modelar o risco sísmico para 55 as regiões de maior intensidade sísmica no Rio Grande do Norte e no caso para todo o Nordeste brasileiro. Este trabalho representa uma primeira tentativa a nível local de se modelar sismos na região, haja vista que não se tem nenhum trabalho documentado nesse sentido. Espera-se que os resultados obtidos possam contribuir para o conhecimento do processo sísmico, a fim de orientar os impactos tanto desse tipo de evento tanto a nível técnico quanto econômico. 56 REFERÊNCIAS BIBLIOGRÁFICAS [1] Balkema, A.A. e Haan, L. de (1974). Residual life time at great age. Ann. Probab. 2, 792-804. [2] Bautista, E. A. L. A. (2002). Distribuição Generalizada de Valores Extremos no Estudo da Velocidade Máxima do Vento em Piracicaba, SP. Piracicaba -SP: ESALQ, Tese (Doutorado em Agronomia) - Escola Superior de Agricultura Luiz de Queiroz, p.47. [3] Brabson, B.B. e Palutikof, J.P. (2000). “Tests of the Generalized Pareto Distribution for predicting extreme wind speeds.” Journal of Applied Meteorology, p.39 . [4] Coles S. (2001). Introduction to Statistical Modelling of Extreme Values, Springer. [5] Coles, S. e Dixon. M. (1999). Likelihood-based inference for extreme value models, Extremes ,p. 23. [6] Davison, A. (1984). Modelling excesses over high thresholds, with an application, in J. de Oliveira, ed., 'Statistical Extremes e Applications', D. Reidel, p. 461-482. [7] Dekkers, A. L. ,M, de HaanL. (1989). On the estimation of the extreme value index and large quantile estimation, Ann, Statist, p.17. [8] Dupuis, D.J. e Tsao, M. (1998). A hydrid estimator for the Generalized Pareto and Extreme-Value distributions. Communications in Statistics: Theory and Methods, p.27. [9] Fisher, R.A., Tippett, L.H.C. (1928). Limiting forms of the frequency distribution of the largest or smallest member of a sample. Proceedings of the Cambridge Philosophical Society, p.180-190. [10] Gnedenko, B.V. (1943). Sur la distribution limite du terme maximum d’une serie aléatorie. Annales des Mathemátiques, p.423-453. [11] Haan, L. e Lin, T. (2001). On convergence toward an extreme value distribution in C [0,1]. Annalys of Prob. , p. 467-483. [12] He, X, e Fung, W,K. (1999), “Method of Medians for life time data with Weibull models”,Statistics in Medicine ,p. 1993-2009. [13] Hosking, J. R. M., Wallis, J. R., e Wood, E. F. (1985b),Estimation of the generalized extreme-value distribution by the method of probability-weighted moments. Technometrics, , p.251-261. [14] Hosking, J. and Wallis, J. (1987). 'Parameter and quantile estimation for the generalized Pareto distribution', Technometrics , p. 339-349. 57 [15] Jaynes, E. T. (1961), Probability Theory in Science and Engineering. McGraw-Hill, New York, USA. [16] Jaynes, E. T. (1968). Prior probabilities. IEEE Trans. Syst. Man. Cybern. (SSC-4), p. 227-241. [17] Jenkinson, A. F. (1955). The frequency distribution of the annual maximum (or minimum) of meteorological elements, Quarterly Journal of the Royal Meteorological Society, London, p.158-171. [18] Júarez S. F., William S. R. (2004), Robust and Efficient Estimation for the Generalized Pareto Distribution. [19] Luceño A. (2006), Fitting the generalized Pareto distribution to data using maximum goodness-of-,t estimators, Computational Statistics & Data Analysis, p.904917. [20] Levine, R. D. e Tribus, M. (1979). The Maximum Entropy Formalism. MIT Press, Cambridge, Massachusetts, USA. [21] Oztekin, T. (2004). Comparison of Parameter Estimation Methods for the ThreeParameter Generalized Pareto Distribution, University of Gaziosmanpaßa, Faculty of Agriculture, Agriculture Technology, Tokat – TURKEY. [22] Patutikof, J.P., Brabson, B.B., Lister, D.H. e Adcock, S.T. (1999). “A review of methods to calculate extreme wind speeds.” Meteorol. Appl. 6, p.119-132. [23] Pisarenko ,V.F., A. Sornette, D. Sornette e M.V. Rodkin (2008). Characterization of the Tail of the Distribution of Earthquake Magnitudes by combining the GEV and GPD descriptions of Extreme Value Theory. [24] Pickands III, J. (1975). Statistical inference using extreme order statistics. Ann. Statist. 3, p.119-131. [25] Rheinboldt, W.C. (1998). Methods for Solving Systems of Nonlinear Equations, SIAM, PA, USA. P.148. [26] Shalizi, C. R. (2007). Maximum Likelihood Estimation for q-Exponential (Tsallis) Distributions, Statistics Department, Carnegie Mellon University. [27] Shannon C. E. (1998). "Communication in the presence of noise", Proc. Institute of Radio Engineers, vol. 37, no.1, pp. 10-21, Jan. 1949. Reprint as classic paper in: Proc. IEEE, Vol. 86, No. 2. [28] Singh, V. P. e Rajagopal, A. K. (1986). A new method of parameter estimation for hydrologie frequency analysis. Hydrol. Sci. Technol. , p. 33-40. 58 [29] Singh, V. P. e H. Guo (1995). Parameter estimation for 3-parameter generalized pareto distribution by the principle of maximum entropy (POME), Department of Civil Engineering, Louisiana State University, Baton Rouge, Louisiana, USA. [30] Smith, R.L. (1985). Maximum likelihood estimation in a class of nonregular cases. Biometrika , p. 67-90. [31] Smith, R.L. (2001), Extreme Values. Chapter 8 in Environmental Statistics Lecture Notes v. 5, Univ. of North Carolina. [32] Singh, V. P. e Fiorentino, M. (1992). A historical perspective of entropy applications in water resources. In: Entropy and Energy Dissipation in Water Resources, ed. V. P. Singh & M. Fiorentino, Kluwer. Dordrecht, The Netherlands, p.2161. [33] Welsh, A.H. e Peng, L. (2001), Robust Estimate of the Generalized Pareto Distribution, Australia. 59 APÊNDICES 60 Apêndice A: Rotina no R para analise dos dados O programa abaixo foi utilizado para encontrar as estimativas, usando o pacote POT, sendo que para encontrar as estimativas pelo POME, utilizou-se a função optim. # ==========================================================# #ANÁLISEDEEVENTOSEXTREMOS # (SISMOS) # # # ==========================================================# # LEITURA DOS DADOS observações= read.table("F:/dados RN2.txt",header=T) # GRÁFICO DE DISPERSÃO plot(observações, ylab = "Sismos Observados em João Câmara", xlab = "Período", main = "João Câmara", type = "p") # THRESHOLD t = quantile(observações[,"obs"], prob=0.45, na.rm=T, names = F) abline(h=t, lty=2, col = 2) legend("topright", "Threshold", col = "red", lty = 2.5, box.lty = 0, cex=0.8) # CARREGANDO O PACOTE POT library(POT) # AJUSTANDO A GPD fitted = fitgpd(observações[,"obs"], thres = t, est = 'moments', corr = TRUE) # MÉDIA DE EVENTOS EXTREMOS mu <- fitted$nat / diff(range(observações[,"time"])) # ANÁLISE GRÁFICA p22 = par(mfrow=c(2,2)) plot(fitted, mu, main="Gráfico das Probabilidades", xlab = "Empírico", ylab="Modelo", which = 1) plot(fitted, mu, main="QQ-Plot", xlab = "Modelo", ylab="Empírico", which = 2) plot(fitted, mu, main="Densidade", xlab = "Quantil", ylab="Densidade", which = 3) plot(fitted, mu, main="Nível de Retorno", xlab = "Período de Retorno (Anos)", ylab="Nível de Retorno", which = 4) # plot(fitted, mu) # pp(fitted) # qq(fitted) # dens(fitted) # retlev(fitted) par(p22) 61 Apêndice B: Rotina no R para gerar as três formas das funções de distribuição da GEV #================================================================# # Ilustração das três funções de distribuições acumuladas da família de valores# #extremos generalizados (GEV) # #===============================================================# Wei = function(x,alfa,a,b){exp(-(-(x-b)/a)^alfa)} mal = function(x) x - x + 1 curve(Wei(x,-0.4,2,12),-10,10,ylab="Familia Generalizada de Valores Extremos", col = "blue") curve(mal(x),0,10, col = "blue", add = TRUE) #Gumbell Gum = function(x,a,b){exp(-exp(-(x-b)/a))} curve(Gum(x,2,12),-2,10,lty = 1,col = "green",ylab="GEV",add = TRUE) # Freechet Frec = function(x,alfa,a,b){exp(-((x-b)/a)^(-alfa))} curve(Frec(x,0.4,2,12),0,10, add=TRUE, col="black",lty = 1) legend(-7,.6,legend = c("Gumbel","Frechet","Weibul"), c("green","black","blue")) Rotina no R para as três formas das densidades da GEV #================================================================# # Ilustração das três densidades de probabilidade da família de valores # #extremos generalizados (GEV) # #===============================================================# curve((1/2.6)*(1+.3*((x-10)/2.6))^(-4.333333)*exp(-(1+.3*((x-10)/2.6))^(1/0.3)),1.3333,30,ylab="Frechet", col = "green",add=TRUE) curve((1/2.6)*(1-.3*((x-10)/2.6))^(2.333333)*exp(-(1-.3*((x10)/2.6))^(1/0.3)),2,30,ylab="Weibul", col = "red", add=TRUE) curve((1/2.6)*(exp(-((x-10)/2.6))*exp(-exp(-(x-10)/2.6))),2,30,ylab="Gumbel", col = "blue", add=TRUE) 62 Rotina no R para as ilustrar as observações acima de um excesso #=======================================# # Grafico de barras para ilustrar a formação da GPD # #=======================================# z<-rpois(100,5) plot(table(z), type = "h", col = "blue", lwd=12, main="rpois(100,lambda=5)") #=======================================# # Limiar # #=======================================# t = quantile(z[,"Xi"], prob=0.90, na.rm=T, names = F) abline(h=t, lty=2, col = 2) legend("topright", col = "blue", lty = 2, box.lty = 0, cex=0.8) Rotina no R para Ilustração da função densidade de probabilidade das três formas da distribuição generalizada de Pareto (GPD). #================================================================# # Ilustração das três densidades de probabilidade da distirbuição generalizada # #dePareto (GPD) # #================================================================# curve(-0.2*10*x^(1.2),1.3333,30,ylab="Pareto comum ou Beta", col = "green",add=TRUE) curve(0.2*10*x^(-0.8),1.3333,30,ylab="Pareto tipo II", col = "green",add=TRUE) curve(-10*exp^(-10),1.3333,30,ylab="Pareto comum ou Beta", col = "green",add=TRUE) 63 Rotina no R para Ilustração da convergência da GEV e GPD. #================================================================# # Ilustração da convergência da GEV (Frechet) e GPD (Pareto tipo II) # #dePareto (GPD) # #================================================================# curve(0.2*10*x^(-0.8),1.3333,30,ylab="Pareto tipo II", col = "blue",add=TRUE) curve((1/2.6)*(1+.3*((x-10)/2.6))^(-4.333333)*exp(-(1+.3*((x-10)/2.6))^(1/0.3)),1.3333,30,ylab="Frechet", col = "green",add=TRUE) #================================================================# # Ilustração da convergência da GEV (Weibul) e GPD (Beta) # #dePareto (GPD) # #================================================================# curve(-10*exp^(-10),1.3333,30,ylab="Pareto comum ou Beta", col = "blue",add=TRUE) curve((1/2.6)*(1-.3*((x-10)/2.6))^(2.333333)*exp(-(1-.3*((x10)/2.6))^(1/0.3)),2,30,ylab="Weibul", col = "red", add=TRUE) 64 Apêndice C: Ajuste dos dados pelo método de PICKANDS Mesmo possuindo a menor eficiência entre todos os métodos analisados, notase pelo o diagnóstico gráfico que os dados dão um bom ajuste a GPD por esse método, a vantagem teórica do método e o fato dele ser robusto. Figura 21: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto pelo método de Pickands. 65 Ajuste dos dados pelo método dos MOMENTOS O método dos momentos da um bom ajuste também para a GPD, e tem a vantagem de ser o terceiro método mais eficiente, como pode ser visto na Tabela 1. Figura 22: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto pelo método de momentos. 66 Ajuste dos dados pelo método da PWMB Esse método tabalha com uma ponderação no viés dos estimadores, a idéia dele e diminuir esse viés, sendo que no presente estudo ele não ficou entre os métodos mais eficientes, sendo que ser podemos notar na figura 23, que os dados dão um bom ajuste por esse modelo. Figura 23: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto pelo método das probabilidades ponderadas viesadas. 67 Ajuste dos dados pelo método da PWMU A ponderação desse método não em cima do viés, sendo que assim como o PWMB esse não está entre os métodos mais eficientes, porém ele da um bom ajuste aos dados, como pode ser visto na figura 24. Figura 24: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto pelo método das probabilidades ponderadas não-viesadas. 68 Ajuste dos dados pelo método da MDPD Depois do método de Pickands, esse foi o que mostrou a menor eficiência em relação aos outros, pois obteve o segundo maior erro padrão, porém o ajuste dos dados a esse método se mostram satisfatórios, como pode ser visto na figura 25. Figura 25: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto pelo método da divergência média da densidade. 69 Ajuste dos dados pelo método da MED Mesmo não estando entre os métodos mais eficientes de estimação na verdade foi o que obteve a terceira pior eficiência, o método da mediana que é um método robusto, mostra que os dados dão um bom ajuste como pode ser visto na figura 26. Figura 26: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto pelo método da mediana. 70