dissertação de mestrado caracterização estatística de

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIÊNCIAS EXTAS E DA TERRA-CCET
PROGRAMA DE PÓS-GRADUAÇÃO EM MATEMÁTICA APLICADA E
ESTATÍSTICA - PPGMAE
DISSERTAÇÃO DE MESTRADO
CARACTERIZAÇÃO
ESTATÍSTICA
DE
EXTREMOS
DE
PROCESSOS SÍSMICOS VIA DISTRIBUIÇÃO GENERALIZADA
DE PARETO. ESTUDO DE CASO: JOÃO CÂMARA – RN.
Autor: Raimundo Nonato Castro da Silva
Orientador: Prof. Dr. Paulo Sérgio Lucio
Co-orientador: Prof. Dr. Aderson Farias do Nascimento
Natal – RN, Dezembro de 2008
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIÊNCIAS EXTAS E DA TERRA-CCET
PROGRAMA DE PÓS-GRADUAÇÃO EM MATEMÁTICA APLICADA E
ESTATÍSTICA - PPGMAE
DISSERTAÇÃO DE MESTRADO
CARACTERIZAÇÃO
ESTATÍSTICA
DE
EXTREMOS
DE
PROCESSOS SÍSMICOS VIA DISTRIBUIÇÃO GENERALIZADA
DE PARETO. ESTUDO DE CASO: JOÃO CÂMARA – RN.
Autor: Raimundo Nonato Castro da Silva
Dissertação de mestrado apresentada
em 5 de dezembro de 2008, para a
obtenção do título de Mestre em
Matemática
Aplicada
e Estatística
pelo Programa de Pós-Graduação em
Matemática
Aplicada
e Estatística
(PPGMAE) da Universidade Federal
do Rio Grande do Norte (UFRN).
Comissão Examinadora:
Prof. Dr. Paulo Sérgio Lucio (Orientador)
Prof. Dr. Aderson Farias do Nascimento (Co-orientador)
Prof. Dr. Walter Eugênio de Medeiros
Profa. Dra. Sílvia Maria de Freitas
Natal – RN, Dezembro de 2008
1
AGRADECIMENTOS
Agradeço a todos que contribuíram, direta ou indiretamente, para a realização deste
trabalho.
Ao meu orientador, Prof. Paulo Sérgio Lucio, pela sua paciência e atenção.
À minha família, especialmente, meus pais.
A todos os meus amigos, especialmente, Francisco Marcio Barboza e Daniel Matos de
Carvalho pelas discussões matemáticas e estatísticas e pelas dicas no R.
Ao PPGMAE pela oportunidade de cursar o mestrado.
2
SUMÁRIO
1– Introdução.................................................................................................... 6
2 – A Filosofia da Teoria de Valores Extremos............................................. 9
2.1 – A Distribuição Generalizada de Valores Extremos (GEV)................................9
2.2 – Inferência sobre os Parâmetros da GEV...........................................................13
2.2.1 – Estimação dos quantis extremos da GEV...........................................19
2.3 – A Distribuição Generalizada de Pareto (GPD)..................................................19
2.3.1 - Seleção de um Limiar...........................................................................24
2.4 – Inferência sobre os Parâmetros da GPD...........................................................25
2.5 - Relação entre a Distribuição q-Exponencial e a GPD.......................................26
3 – Alguns Métodos de Estimação dos Parâmetros da GPD.......................29
3.1 - Máxima Verossimilhança (MLE)..........................................................................29
3.2 - Máxima Verossimilhança Penalizada (MPLE)....................................................30
3.3 - Momentos (MOM).................................................................................................30
3.4 - Pickands (PICKANDS)…………..................................………..............................31
3.5 - Momentos Ponderado por Probabilidades: (PWMB e PWMU).........................31
3.6- Divergência Média da Densidade (MDPD)…...............................................…...32
3.7 - Mediana (MED).....................................................................................................32
3.8 - Melhor Qualidade do Ajuste (MGF)……….…….................................................33
3.9 – Máxima Entropia (POME)...................................................................................33
3.9.1 - Especificação das Restrições.............................................................35
3.9.2 - Construção da Função de Entropia....................................................35
3.9.3 - Relação entre os Parâmetros da GPD e as Restrições.....................36
4 – Diagnóstico de Adequação do Modelo....................................................40
4.1 – Teste de Adequação do Modelo...........................................................41
5 – Estudo de Caso: João Câmara – RN........................................................43
5.1 – Caracterização do Município e o Sismo Histórico...........................................43
5.2 – Análise dos Dados..............................................................................................46
5.3 - Reconstrução de Extremos via Simulação de Monte Carlo.............................51
6 – Considerações Finais................................................................................55
Referencias Bibliográficas……….....……....................……………………..…57
Apêndices.........................................................................................................60
3
RESUMO
O objetivo desse trabalho é fazer uma breve discussão dos métodos de estimação dos
parâmetros da distribuição generalizada de Pareto (GPD). Sendo abordadas as
seguintes
técnicas:
máxima
verossimilhança (MLE),
máxima verossimilhança
penalizada (MPLE), métodos dos momentos (moments), Pickands (Pickands),
momentos ponderados pela probabilidade: viesado e não-viesado (PWMB, PWMU),
divergência média da densidade (MDPD), melhor qualidade do ajuste (MGF), mediana
(MED) e o método da máxima entropia (POME), técnica que neste trabalho receberá
uma maior atenção. A título de ilustração foram feitos ajustes para a distribuição
generalizada de Pareto, para uma seqüência de sismos intraplacas, ocorridos no
município de João Câmara, NE Brasil que foi monitorado continuamente durante dois
anos (1987 e 1988). Verificou-se que o MLE e o POME foram os métodos mais
eficientes, dando basicamente os mesmos erros médios quadráticos. Com base no
limiar de 1,5º foi estimado o risco sísmico para o município, sendo estimado o nível de
retorno para os sismos de intensidade 1,5º, 2,0º, 2,5º, 3,0º e para o sismo mais intenso
já registrado no município, ocorrido em novembro de 1986 que teve a magnitude de
5,2º.
Palavras-Chave: Eventos Extremos, Simulação Estocástica, Máxima Entropia, Risco
Sísmico.
4
ABSTRACT
The work is to make a brief discussion of methods to estimate the parameters of the
Generalized Pareto distribution (GPD). Being addressed the following techniques:
Moments (moments), Maximum Likelihood (MLE), Biased Probability Weighted
Moments (PWMB), Unbiased Probability Weighted Moments (PWMU), Mean Power
Density Divergence (MDPD), Median (MED), Pickands (PICKANDS), Maximum
Penalized Likelihood (MPLE), Maximum Goodness-of-fit (MGF) and the Maximum
Entropy (POME) technique, the focus of this manuscript. By way of illustration
adjustments were made for the Generalized Pareto distribution, for a sequence of
earthquakes intraplacas which occurred in the city of João Câmara in the northeastern
region of Brazil, which was monitored continuously for two years (1987 and 1988). It
was found that the MLE and POME were the most efficient methods, giving them
basically mean squared errors. Based on the threshold of 1.5 degrees was estimated
the seismic risk for the city, and estimated the level of return to earthquakes of intensity
1.5°, 2.0°, 2.5°, 3.0° and the most intense earthquake never registered in the city,
which occurred in November 1986 with magnitude of about 5.2º.
Key-words: Extreme Events, Stochastic Simulation, Maximum Entropy, Seismic
Hazard.
5
CAPÍTULO 1: INTRODUÇÃO
De forma geral, a previsão probabilística da ocorrência de eventos extremos é
de vital importância para o planejamento das atividades sujeitas a seus efeitos
adversos, e uma das formas de modelar esses eventos, é utilizar a teoria de valores
extremos (TEV) proposta por Fisher e Tippett (1928). Onde segundo essa teoria,
existem três tipos de distribuições assintóticas de valores extremos, a do tipo I
conhecida como Gumbel, a do tipo II conhecida com Fréchet e a do tipo III conhecida
com Weibull. Outra forma para esse tipo de modelagem é utilizar um importante
teorema limite conhecido como distribuições acima de um limiar (Peaks-overThreshold - POT), conhecido como teorema de Gnedenko-Pickands-Balkema-Haan
(1941). De uma forma geral, o POT, refere-se à distribuição dos eventos
condicionados por valores acima de um limiar pré-fixado. Esse teorema garante que
sob certas condições (domínio de atração do máximo), que o limite dessa distribuição
é a distribuição generalizada de Pareto (GPD), observa-se então que a idéia é estimar
a cauda da distribuição, tanto na TEV como no POT.
Os sismos1 podem ser considerados como um exemplo de eventos extremos,
uma vez que não é um fenômeno que ocorre normalmente, sua presença quando
ocorre, aparece nas caudas da distribuição, dessa forma, tanto a TEV como o POT,
podem ser utilizados para modelar esses tipos de evento.
Se a modelagem do sismo for através dos máximos observados em períodos
de tempo, a abordagem deve ser feita através da TEV, mas Coles (2001) diz que na
prática surge um problema em particular ao se escolher essa teoria. Escolhida a
distribuição o grau de incerteza não poderá ser medido, uma vez, que se aceita o
modelo, dessa forma não podendo ser medido o grau de incerteza, mesmo que esse
possa ser significativo. Portanto, Jenkinson (1955) unificou os três tipos de
distribuições assintóticas, numa única família conhecida como a distribuição de valores
extremos Generalizadas (GEV), onde a mesma se baseia nos máximos de um bloco.
Outra alternativa seria selecionar um limiar e a analisar os sismos acima dele,
nesse caso seria utilizada a distribuição generalizada de Pareto (GPD), esse método
tem a vantagem de não deixar extremos fora das análises, por que Patutikof et. al
(1999) quando fez uma revisão dos métodos de análise de extremos, utilizando a
teoria clássica, observou que a mesma só considera o máximo dentro de cada época,
isso faz com que outros extremos que tenham sido observados naquela época, sejam
ignorados.
6
Os abalos sísmicos1 quando ocorrem, podem causar grandes impactos na
sociedade. No município de João Câmara, situado no estado do Rio Grande do Norte,
por exemplo, em novembro de 1986 ocorreu um sismo que atingiu a magnitude de 5,22
graus na escala de Ricther3, sendo um dos maiores já registrado no Brasil.
Sismos de intensidades moderadas, como o ocorrido em João Câmara, podem
causar danos nas estruturas de casas e prédios, queda nas redes de transmissão de
energia elétrica e a vibração de estruturas e equipamentos. A importância dos efeitos
deste fenômeno geofísico está, portanto, intimamente ligado ao desenvolvimento da
tecnologia dos materiais e da engenharia estrutural. Segundo Pisarenko et al. (2008),
os sismos passaram a ser um grande problema á medida que as construções
tornaram-se mais altas e os tsunamis começaram a ocorrer.
Este manuscrito foi desenvolvido com o objetivo principal de apresentar a
metodologia para se ajustar a distribuição generalizada de Pareto aos dados sísmicos
do município de João Câmara, sendo feita também uma reconstrução das séries de
sismos via simulações de monte Carlo, para obter a probabilidade de ocorrência diária
de sismos acima de 1,5º na escala Ricther e estimar o período de retorno para os
sismos de intensidade 1,5º, 2,5º, 3,0º e o sismo histórico de 5,2º na escala Ricther.
O texto encontra-se estruturado em seis capítulos. No presente capítulo é feita
a justificativa do trabalho e delineado o seu objetivo, segue-se no capítulo 2 - A
filosofia da teoria de valores extremos, onde foi feita uma revisão de literatura sobre a
distribuição de extremos generalizadas (GEV), a distribuição generalizada de Pareto
(GPD) bem como a seleção de um limiar e por fim a relação entre a distribuição qexponencial e a GPD.
No capítulo 3 – Métodos de estimação dos parâmetros da distribuição
generalizada de Pareto, mostramos vários métodos de estimação dos parâmetro da
GPD dando um maior destaque ao método da máxima entropia (POME).
1
Um sismo, também chamado de terremoto, é um fenômeno de vibração brusca e passageira da superfície da Terra, resultante de
movimentos subterrâneos de placas rochosas, de atividade vulcânica, ou por deslocamentos (migração) de gases no interior da Terra,
principalmente metano. O movimento é causado pela liberação rápida de grandes quantidades de energia sob a forma de ondas
sísmicas.
2
Na faixa de 5,0-5,9 um sismo é considerado moderado, podendo causar danos maiores em edifícios mal concebidos em zonas
restritas. Provocam danos ligeiros nos edifícios bem construídos, sua freqüência é da ordem de 800 por ano
3
É uma escala logarítmica utilizada para medir a magnitude dos abalos sísmicos. Foi criada pelos sismógrafos Beno Gutenberg e
Charles Francis Richter que estudavam os sismos da Califórnia e colocada em prática em 1935. A escala Richter varia de 0 a 9 graus
de acordo com a extensão do movimento do solo medindo ondas do tipo P e S. Ondas do tipo P são ondas primárias que se espalham
por movimentos de compressão e dilatação do local que pode ser em terra firme ou em oceanos e mares. São as ondas sísmicas mais
rápidas, cuja velocidade adquirida no solo varia entre a adquirida em água. Ondas do tipo S são ondas secundárias que se espalham
por movimentos ondulatórios para cima e para baixo alterando a forma dos elementos. As ondas S se desenvolvem somente no solo
com velocidade inferior às ondas P.
7
No capítulo 4 – Diagnóstico de adequação do modelo, são mostradas técnicas
para verificar e testar o ajuste do modelo.
No capítulo 5 – Estudo de caso: João Câmara-RN, apresentamos os principais
resultados obtidos pelo ajuste da GPD aos sismos observados de forma continua no
município durante o período de 23/05/1987 a 07/07/1988.
No capítulo 6 – Considerações finais, apresentam-se os aspectos que se
mostraram mais significativos no decorrer do estudo no que se refere aos resultados
obtidos, bem como se incluem algumas sugestões sobre o que poderá ser a
continuação iniciada com esse trabalho.
Nos apêndices constam rotinas no R para ilustrar as distribuições GEV e GPD
e para fazer a analise dos dados, bem como os ajustes para os outros métodos que se
mostraram menos eficiente para estimar os da distribuição generalizada de Pareto,
cuja a inclusão no texto parece desaconselhável por tornar a leitura menos agradável
ou pelas informações nelas apresentadas não se considerar essencial para a
compreensão do texto.
8
CAPÍTULO 2: A FILOSOFIA DA TEORIA DE VALORES EXTREMOS
A teoria de valores extremos tem como objetivo o estudo estatístico de
fenômenos de risco elevado com impactos catastróficos, que surgem em diversos
ramos das Ciências tais como a Meteorologia e a Climatologia. Valores extremos
podem ser considerados aqueles eventos raros que ocorrem nas caudas das
distribuições (fenômenos caudais), isto é, distantes do aglomerado ou da aglomeração
(média e mediana) do amontoado da distribuição. Não há, todavia, uma definição que
possa ser considerada universal de eventos extremos! Em muitas instâncias, eventos
extremos podem ser definidos como aqueles eventos que excedem em magnitude a
algum limiar ou patamar ou podem ser definidos como o máximo (ou mínimo) de uma
variável aleatória em determinado período.
2.1 A distribuição Generalizada de Valores Extremos (GEV)
Seja X uma variável aleatória, assumindo valores nos reais. A freqüência
relativa com que estes valores ocorrem define a distribuição de freqüência ou
distribuição de probabilidade de X e é especificada pela função de distribuição
acumulada dada por:
Fx (x) = P( X ≤ x) , Fx (x) é uma função não-decrescente de x, e 0 ≤ Fx (x) ≤ 1 para todo o x.
Em geral, estamos interessados em variáveis aleatórias continuas, para o qual
P( X = x) = 0 para todo x, isto é, as probabilidades pontuais são nulas. Neste caso, Fx (.)
é uma função continua e tem uma função inversa x(.), a função quantil de X. Dado
qualquer valor zp, 0 < z p < 1, x(zp) é o único valor que satisfaz:
Fx (x(zp )) = zp
Para uma probabilidade p, x(p) é o quantil da probabilidade não excedente p,
isto é, o valor tal que a probabilidade de X não exceder x(p) é p. O objetivo da análise
de freqüência é estimar corretamente os quantis da distribuição de uma variável
aleatória.
A abordagem clássica da teoria de valores extremos consiste em caracterizar
as caudas (superior ou inferior) da distribuição de Fx a partir da distribuição do
máximo. Assim, definimos Mn = max( X1,.....,Xn ) como o máximo de um conjunto de n
variáveis aleatórias independentes e identicamente distribuídas. Para obter-se a
distribuição do mínimo usa-se a relação:
min( X1,.....,Xn ) = − max( X1,.....,Xn )
9
Na teoria a função de distribuição exata do máximo pode ser obtida para todos
os valores de n, da seguinte forma:
n
n
FMn = P(Mn ≤ x) = P( X1 ≤ x,.......,Xn ≤ x) = ∏ P( Xi ≤ x) = [Fx ( X )] ,
i =1
para x ∈ ℜ e n ∈ N . Todavia, este resultado não é útil na prática, visto que não
conhecemos a função de distribuição de
Fx . Segundo Coles (2001), uma
possibilidade é utilizar técnicas estatísticas para estimar Fx para dados observados, e
substituir esta estimativa na equação acima. Infelizmente, pequenas discrepâncias na
estimativa de Fx podem conduzir a substancias discrepâncias em [Fx ( X )] .
n
Uma alternativa é aceitar que Fx seja desconhecida, e olhar para as famílias
aproximadas dos modelos de [Fx ( X )] , que pode ser estimado com base somente em
n
dados extremos. Isto é similar a prática usual de aproximar a distribuição da média
amostral pela distribuição normal, como justificado pelo teorema central do limite
(TCL). Além disso, podemos pensar que o comportamento assintótico de Mn pode
estar relacionado com a cauda de Fx próximo do limite superior do suporte da
distribuição de X, pois os valores do máximo são aqueles que se localizam perto
desse limite. Dessa maneira, denotamos por:
xFX = sup{x ∈ℜ : Fx (x) < 1}, o limite superior do suporte da distribuição de
Fx .
Observamos que, para todo x < x Fx ,
P(Mn ≤ x) = P[Fx ( X )] ,→ 0 , n → ∞ ,
n
e, no caso de xFx < ∞ , temos para x > xFx que:
P(Mn ≤ x) = P[Fx ( X )] = 1,
n
logo, à medida que n cresce a distribuição de Mn é degenerada4 sendo, portanto, um
resultado que não fornece muita informação.
Esta dificuldade pode ser sanada considerando-se uma seqüência de
constantes σ n > 0 e μ n tais que:
M n* =
M n − μn
σn
convirja para uma função não-degenerada, para n → ∞ . O teorema seguinte fornece o
resultado de convergência em distribuição para o máximo centrado e normalizado.
4
Em matemática, uma distribuição degenerada é a distribuição de probabilidade de uma variável aleatória
discreta cujo suporte consiste de somente um valor.
10
Teorema (Fisher – Tippett, 1928): seja
( Xn )
uma seqüência de variáveis
aleatórias independentes e identicamente distribuídas. Se existirem seqüência de
constantes normalizadoras σ n > 0 e μ n e uma distribuição não-degenerada H tal que:
M n − μn
σn
d
⎯
⎯→
H,
d
⎯→
representa convergência em distribuição, então H é do tipo de uma das
onde ⎯
três funções de distribuição:
i -Tipo I de Gumbel:
⎧
⎡ (x − μ )⎤ ⎫
H I ( x) = exp⎨− exp ⎢−
⎬, x ∈ ℜ ;
σ ⎥⎦ ⎭
⎣
⎩
ii -Tipo II de Fréchet:
H II ( x) = 0, se x ≤ 0
⎧⎪ ⎡ ( x − μ )⎤ −ξ ⎫⎪
H Ii ( x) = exp⎨− ⎢
⎬ , se x > 0 ;
⎪⎩ ⎣ σ ⎥⎦ ⎪⎭
iii -Tipo III de Weibull:
⎧⎪ ⎡ ( x − μ ) ⎤ ξ ⎫⎪
H III ( x) = exp⎨− ⎢−
⎬ , se x ≤ 0
σ ⎥⎦ ⎪⎭
⎪⎩ ⎣
H III ( x) = 1, se x > 0 .
A prova do teorema de Fisher-Tippett não será apresentada aqui, no entanto, uma
demonstração rigorosa desse resultado é apresentada por Gnedenko (1943).
Ainda sob o ponto de vista da modelagem as três distribuições de valores
extremos H I (x), H II (x) e H III (x) sejam bem diferentes, do ponto de vista
matemático estão bastante relacionadas. Pode-se mostrar que se X>0, então:
X ~ H II ( x) ⇔ ln( X ξ ) ~ H I ( x) ⇔ − X −1 ~ H III ( x) .
Coles (2001), afirma que existem dois problemas na prática a serem resolvidos,
primeiramente uma técnica para escolher qual das três famílias é a mais apropriada,
em seguida, tomada tal decisão e feito a conclusão, presumem que a escolha esteja
correta e não é medido o grau de incerteza, embora essa possa ser significativa.
Dessa forma Jenkinson (1951), mostrou que as três famílias poderiam ser unificadas
em uma única família, a família de valores extremos generalizadas, dada da seguinte
forma:
11
1
⎧
− ⎫
ξ
μ
x
⎡
⎤
−
⎪
⎞ ⎪.
⎛
H(x) = exp⎨− ⎢1+ ξ ⎜
⎟⎥ ⎬
σ
⎠⎦ ⎪
⎝
⎪ ⎣
⎩
⎭
Definida no conjunto ⎧⎨ x : 1 + ξ (x − μ ) > 0⎫⎬ , sendo que os parâmetros satisfazem,
σ
⎩
⎭
− ∞ < μ < ∞, σ > 0 e − ∞ < ξ < ∞ , o modelo é tri-paramérico, sendo um parâmetro de
localização, um de escala e um de forma, onde o parâmetro ξ é quem determina a
forma da distribuição, quando: ξ > 0 tem-se a distribuição de Fréchet, ξ < 0 obtem-se
a de Weibull. Sendo que o limite de F(x) quando ξ → 0 , a distribuição assume a
seguinte forma:
⎡
⎧ ⎛ x − μ ⎞⎫⎤
H(x) = exp⎢− exp⎨− ⎜
⎟⎬⎥ , − ∞ < x < ∞ ,
σ
⎝
⎠⎭⎦
⎩
⎣
que representa a função de distribuição da Gumbell, com parâmetros de localização e
escala μ e σ, respectivamente, sendo σ>0.
Dessa forma, em vez de se ter que escolher uma família inicialmente, para
depois estimar os parâmetros, a inferência se faz diretamente sobre o parâmetro de
forma ξ . A Figura 1, onde no apêndice B mostramos a rotina no R para gerar a
mesma, apresenta os gráficos da função de distribuição para ξ = −1,5 (Weibull), ξ
tendendo a zero (Gumbel) e ξ = 1,5 (Fréchet), com μ = 0 e σ = 0,4761 .
Para se encontrar a função densidade de probabilidade (f.d.p.) da função
generalizada de valores extremos (GEV), deriva-se a função de distribuição da GEV
em relação à x, obtendo-se:
⎛1+ξ ⎞
1
⎟⎟
−⎜⎜
− ⎫
⎧
1 ⎡ ⎧ ⎛ x − μ ⎞⎫⎤ ⎝ ξ ⎠ ⎪ ⎡ ⎛ x − μ ⎞⎤ ξ ⎪ ,
h(x) = ⎢1+ξ⎨−⎜
exp⎨− ⎢1+ξ⎜
⎟⎥ ⎬
⎟⎬⎥
σ ⎣ ⎩ ⎝ σ ⎠⎭⎦
⎪ ⎣ ⎝ σ ⎠⎦ ⎪
⎩
⎭
onde − ∞ < x < μ − σ , para ξ < 0 , que corresponde a densidade da Weibull e
ξ
μ −σ
< x < ∞ , para ξ > 0 , gerando-se a densidade da Fréchet, por fim quando o
ξ
limite para ξ tendendo a zero, tem-se:
h( x) =
1 ⎧ ⎛ x−μ⎞ ⎡
⎛ x − μ ⎞⎤⎫
⎟ exp⎢− exp⎜ −
⎟ ⎬ , definida em −∞ < x < ∞
⎨exp⎜ −
σ⎩ ⎝ σ ⎠ ⎣
σ ⎠⎥⎦⎭
⎝
gerando a função densidade da Gumbel.
12
Figura 1: Ilustração das três funções de distribuições acumuladas da família de
valores extremos generalizados (GEV).
A Figura 2 apresenta os gráficos da função densidade de probabilidade da
GEV para ξ = −0,4 (Weibull), ξ tendendo a zero (Gumbel) e ξ = 0,4 (Fréchet), com
μ = 12 e σ = 2 , onde observa-se que o parâmetro ξ é quem determina a natureza
das caudas da distribuição.
Fazendo-se uso de uma linguagem mais informal, o caso ξ > 0 é o caso das
“caudas pesada” no qual 1 − H ( x) ~ x
−
1
ξ
, ξ < 0 é o caso das “caudas leves”, em que
a distribuição tem um ponto final finito (o menor valor de x para o qual H(x) =1) em que
x=μ−
σ
. Se ξ = 0 , as caudas da distribuição estão entre leves e pesadas, na qual
μ
1 − H ( x) decresce exponencialmente para grandes valores de x. Isto mostra que em
aplicações as três famílias são bastante diferentes nos extremos.
Quanto às aplicações, a distribuição GEV tem sido utilizada em vários estudos,
por exemplo, Hosking e Wallis (1997) utilizou a GEV para análise de freqüências de
vazões, por outro lado, Bautista (2002) utilizou a GEV para analisar as velocidades
máximas do vento.
2.2 Inferência sobre os Parâmetros da GEV
Para se fazer inferências sobre os parâmetros da GEV, Coles (2001) afirma
que foram propostas várias técnicas, entre elas, incluem-se métodos gráficos,
estimação pelo método dos momentos, máxima verossimilhança. Cada uma destas
técnicas apresenta pontos fortes e fracos. Coles (2001) afirma que o método da
máxima verossimilhança é o mais atraente devido as suas características, contanto
13
que as condições de regularidades sejam satisfeitas, ou seja, a função de
verossimilhança seja monótona crescente.
Figura 2: Ilustração das funções densidade de probabilidades das três formas da
família de valores extremos generalizados (GEV).
Smith (1985) observou que dependendo da estimativa do parâmetro de forma
pelo método da máxima verossimilhança, essas condições nem sempre são
observadas, uma vez que:
•
Se ξ > −0,5 , os estimadores de máxima verossimilhança são regulares, tendo
suas propriedades assintóticas habituais;
•
Se, − 1 < ξ < −0,5 o estimador de máxima verossimilhança é geralmente
encontrado, porém as condições de regularidades não são observadas;
•
Se, ξ < −1 não é possível obter os estimadores de máxima verossimilhança.
Hosking et al (1985b), ao utilizar simulações computacionais para estimar os
parâmetros da GEV pelo método da máxima verossimilhança através do processo
interativo de Newton-Raphson, observaram que poderia existir problemas de
convergência, pelo fato das condições de regularidades não serem atendidas. Sendo
que esse caso é muito raro, pois só ocorre quando ξ < −0,5 , que de acordo com
Coles (2001), corresponde ao caso onde a cauda superior é muito curta. Hosking et.
al. (1985b) também mostraram que ao se trabalhar com dados reais o valor de
ξ ∈ (−0,5;0,5) , esses resultados foram confirmados através de simulações
14
computacionais por Brabson e Patutikof (2000), onde concluíram que o valor de
ξ ∈ (−0,5;0,5) , portanto a eficiência das estimativas de máxima verossimilhança dos
parâmetros na prática, não apresenta maiores problemas.
Todavia, além do estimador de máxima verossimilhança, outros métodos têm sido
utilizados para estimar os parâmetros da GEV, podemos citar de acordo Hosking et. al.
(1985b), por exemplo: método dos momentos, probabilidades ponderadas, método dos
momentos L, onde os mesmos mostraram-se mais eficientes que o método da máxima
verossimilhança, no que tange ao viés e as variâncias amostrais, em amostras cujos
tamanhos variam entre 15 e 100. Porém, conforme Smith (2001), nenhum dos
métodos citados permite a generalização como faz o método da máxima
verossimilhança, portanto desenvolveremos agora esse método.
X 1 ,..., X n são uma série de realizações aleatórias
Considerando que
independentes, identicamente distribuídas e ordenadas, com função densidade de
probabilidade da GEV, a função de verossimilhança L(θ ) = L(μ , σ , ξ ) =
n
∏ h( x ;θ )
é
i
i =1
dada por:
1
⎛ 1+ ξ ⎞
⎧n ⎧
⎧
− ⎜⎜
− ⎫⎫
⎟⎟ ⎫
ξ
⎝ ξ ⎠
⎤
⎡
⎤
⎪⎡
⎪
⎪
⎪
−
−
μ
μ
⎞
⎛x
⎞ ⎪⎪ ,
L(θ ) = L( μ, σ , ξ ) = n ∏ ⎨⎢1 + ξ ⎛⎜ xi
⎬ exp⎨∑ ⎨− ⎢1 + ξ ⎜ i
⎟⎥
⎟ ⎥ ⎬⎬
σ i =1 ⎪⎣
⎝ σ ⎠⎦
⎝ σ ⎠ ⎦ ⎪⎪
⎪
⎪ i =1 ⎪ ⎣
⎭⎭
⎩
⎭
⎩ ⎩
1
n
que para ξ < 0 , assume valores diferentes de zero, se todos os valores de xi
(i = 1,2,..., n) forem menores do que
μ−
σ
σ
, ou seja, se μ − > x n , sendo xn o maior
ξ
ξ
valor da série de observações, e para ξ > 0 , se todos os valores de xi
forem maiores que μ −
(i = 1,2,..., n)
σ
σ
, ou seja, μ − < x1 o menor valor da série de
ξ
ξ
observações. Caso contrário L(θ ) = 0 .
É mais conveniente (de forma matemática, dada a monotonicidade da função)
tomar o logaritmo e trabalhar com o logaritmo da função verossimilhança, que é dado
por:
⎛1+ ξ ⎞ n ⎡
⎛ x − μ ⎞⎤ n ⎡
⎛ xi − μ ⎞ ⎤
l ( μ, σ , ξ ) = ln[L( μ, σ , ξ )] = − n ln σ − ⎜
⎟∑ ln ⎢1 + ξ ⎜ i
⎟⎥ − ∑ ⎢1 + ξ ⎜
⎟⎥
⎝ σ ⎠⎦ i =1 ⎣
⎝ σ ⎠⎦
⎝ ξ ⎠ i =1 ⎣
−
1
ξ
15
1
− ⎫
⎧
ξ
⎡
⎤
⎤
−
μ
⎛1+ ξ ⎞ ⎡
⎪
⎛x
⎞
⎛ − μ⎞ ⎪,
= ∑ ⎨− ln σ − ⎜
⎟ ln ⎢1 + ξ ⎜ i
⎟⎥ − ⎢1 + ξ ⎜ xi
⎟⎥ ⎬
⎝ σ ⎠⎦ ⎣
⎝ ξ ⎠ ⎣
i =1 ⎪
⎝ σ ⎠⎦ ⎪
⎩
⎭
n
para μ −
σ
σ
> x n e ξ < 0 ou μ − < x1 se ξ > 0 . Caso contrário o l ( μ, σ , ξ ) não
ξ
ξ
existe! Os estimadores de máxima verossimilhança de μ , σ e ξ são obtidos
maximizando o logaritmo da função verossimilhança l ( μ, σ , ξ ) em relação a cada
parâmetro e a raiz obtida, a sua solução. Assim:
∂
∂
∂
l ( μ, σ , ξ )μ = μ0 = 0 ;
l ( μ, σ , ξ )σ =σ 0 = 0 ;
l ( μ, σ , ξ )ξ =ξ 0 = 0
∂σ
∂ξ
∂μ
ou, seja:
^
1
⎛
− ⎞
⎜ 1 + ξ − wi ξ^ ⎟
⎟=0
^ ∑⎜
^
i =1 ⎜
⎟
σ ⎝
σ
⎠
1
n
^
1
⎧⎛
⎞ ⎡⎛ ^ ⎞
−^⎤⎫
1
μ
ξ
−
+
−
⎜
⎟
⎜
⎟
x
w
i
i
⎪
⎢
ξ⎥⎪
n 1 n ⎪⎝
⎠ ⎣⎝
⎠
⎦⎪ = 0
− ^ + 2 ∑⎨
⎬
^
w
i =1 ⎪
i
⎪
σ σ
⎪⎩
⎪⎭
^
^ ⎫
⎧
⎡
⎛
⎞⎤ ⎛
⎞
^
−
−
μ
μ
⎜ xi
⎟ ⎥ ⎜ xi
⎟⎪
⎛
⎞
n ⎪
1 ⎢ 1
μ
−
⎪⎛
⎪
⎟
⎝
⎠⎥ − ⎝
⎠ = 0 , sendo = 1 + ξ ⎜ xi
−^ ⎞
⎢
(
)
−
−
1
ln
⎟
⎜
w
w
w
⎨
⎬
i
i ξ
i
∑
^
^
^ ^
⎜
⎟⎟ .
^2
⎠
⎝
⎜
⎢
⎥
i =1 ⎪
⎪
ξ σ wi
σ wi
⎝ σ ⎠
⎢⎣ ξ
⎥⎦
⎪⎩
⎪⎭
Como este sistema de equações não possui solução analítica, utilizaram-se
procedimentos iterativos para obter as estimativas dos parâmetros de máxima
verossimilhança usando a matriz de informação de Fisher, M . A fórmula interativa é,
−1
( )
para j ≥ 0 , θ ( j +1) = θ ( j ) + M ⎛⎜ θ ⎞⎟ grad l θ j onde θ = ( μ, σ , ξ ) com:
^
⎝ ⎠
⎡
⎛ 2 l ⎞⎤
⎛ ∂2 l ⎞
⎛ ∂2 l ⎞
⎟⎟ − E ⎜⎜ ∂ ⎟⎟⎥
⎢ − E ⎜⎜ 2 ⎟⎟ − E ⎜⎜
⎝ ∂σ ⎠
⎝ ∂μ ∂σ ⎠
⎝ ∂ξ ∂σ ⎠⎥
⎢
2
2
⎛∂ l⎞
⎛ ∂2 l ⎞⎥
⎛ ∂l ∂l ∂l ⎞
⎛ ^ ⎞ ⎢ ⎛ ∂ l ⎞⎟
⎜
⎟
⎜⎜
⎟⎟ ⎥ ,
−
−
E
E
− grad l (θ ) = ⎜⎜ − ,− ,− ⎟⎟ e M ⎜ θ ⎟ = ⎢− E ⎜⎜
⎜ ∂μ 2 ⎟
∂
∂
ξ
μ
⎝ ⎠ ⎢ ⎝ ∂μ ∂σ ⎟⎠
⎝ ∂μ ∂σ ∂ξ ⎠
⎝
⎠⎥
⎝
⎠
2
2
⎢ ⎛ ∂2 l ⎞
⎛ l⎞ ⎥
⎛
l ⎞
⎟⎟ − E ⎜⎜ ∂ ⎟⎟ − E ⎜⎜ ∂ 2 ⎟⎟ ⎥
⎢− E ⎜⎜
⎢⎣ ⎝ ∂ξ ∂σ ⎠
⎝ ∂ξ ∂μ ⎠
⎝ ∂ξ ⎠ ⎥⎦
onde os elementos de M podem ser expressos em termos da função gama:
Γ(r ) = ∫ e− x xr −1 dx e ψ (r ) = d log Γ(r ) dr
16
como:
⎛ ∂2 l ⎞
n
E ⎜⎜ − 2 ⎟⎟ = 2 2 [1 − 2Γ(2 − ξ ) + p ]
⎝ ∂σ ⎠ σ ξ
⎛ ∂2 l ⎞
n
⎟⎟ = 2 [ p − Γ(2 − ξ )]
E ⎜⎜ −
⎝ ∂σ ∂μ ⎠ σ ξ
2
⎛
{1 − Γ(2 − ξ )} − q −
l ⎞
n ⎡
E ⎜⎜ − ∂ ⎟⎟ = 2 ⎢1 − γ −
ξ
⎝ ∂σ ∂ξ ⎠ σ ξ ⎣
p⎤
ξ ⎥⎦
⎛ ∂2 l ⎞ n
E ⎜⎜ − 2 ⎟⎟ = 2 p
⎝ ∂μ ⎠ σ
⎛ ∂2 l ⎞ n ⎡
p⎤
⎟⎟ =
E ⎜⎜ −
q+ ⎥
⎢
ξ⎦
⎝ ∂μ ∂ξ ⎠ σξ ⎣
2
⎛ ∂2 l ⎞ n ⎡ π 2 ⎛
1⎞
2q p ⎤⎥
E ⎜⎜ − 2 ⎟⎟ = 2 ⎢ + ⎜1 − γ − ⎟ +
+ 2 ,
ξ
ξ
6
⎢
ξ
∂
ξ
ξ ⎥
⎝
⎠
⎝
⎠
⎣
⎦
sendo
p = (1 − ξ ) Γ(1 − 2ξ ) ,
2
(1 − ξ )⎫
⎧
q = Γ(2 − ξ )⎨ψ (1 − ξ ) −
⎬
ξ ⎭
⎩
e
γ = 0.5772157
a
constante de Eüler.
No procedimento iterativo, fixa-se um valor inicial arbitrário ξ 0 para ξ , e
sugerem-se como valores iniciais μ0 e σ 0 para μ e σ , valores tais que E ( X ) = X e
Var ( X ) = s 2 , sendo X a média e s 2 a variância da série de observações (amostrais).
Considerando-se a função densidade de probabilidade, obtém-se:
E(X ) = μ +
σ
[Γ(1 − ξ ) − 1] , se ξ < 1 ,
ξ
e
2
1
Var ( X ) = σ 2 [Γ(1 − 2ξ ) − Γ2 (1 − ξ )] , se ξ < ,
2
ξ
sendo as seguintes expressões para os valores iniciais:
ξ0
σ0 = s
Γ(1 − 2 ξ 0 ) − Γ2 (1 − ξ 0 )
2
μ0 = x −
2
Γ(1 − ξ 0 ) − 1
s
ξ0
(
)
x
=
−
Γ
1
−
−
1
[
]
.
ξ
σ0
0
Γ(1 − 2 ξ 0 ) − Γ2 (1 − ξ 0 )
ξ0
ξ0
17
Jenkinson (1955) sugeriu que se devia usar a matriz informação de Fisher para
amostras completas, entretanto para amostras censuradas estas esperanças não
existem no sentido usual, e foi observado num número de estudos simulados, que a
⎛^⎞
⎝ ⎠
convergência para θ é consideravelmente mais rápida, usando a matriz V ⎜ θ ⎟ ao
⎛
⎝
^
⎞
⎠
⎛
⎝
^
⎞
⎠
invés da matriz M ⎜ θ ⎟ . Assim é usual aproximar a matriz M ⎜ θ ⎟ por esta nova
⎛^⎞
⎝ ⎠
matriz V ⎜ θ ⎟ , descrita por:
⎡ ⎛ ∂2 l ⎞
⎛ 2 l ⎞⎤
⎛ ∂2 l ⎞
⎟⎟ − ⎜⎜ ∂ ⎟⎟⎥
⎢ − ⎜⎜ 2 ⎟⎟ − ⎜⎜
⎝ ∂μ ∂σ ⎠
⎝ ∂ξ ∂σ ⎠⎥
⎢ ⎝ ∂σ ⎠
2
2
⎛∂ l⎞
⎛ ∂2 l ⎞⎥
⎛ ^ ⎞ ⎢ ⎛ ∂ l ⎞⎟
⎜
⎟
⎜⎜
⎟⎟ ⎥ .
−
−
V ⎜ θ ⎟ = ⎢− ⎜⎜
⎜ ∂μ2 ⎟
∂
∂
ξ
μ
⎝ ⎠ ⎢ ⎝ ∂μ ∂σ ⎟⎠
⎝
⎠⎥
⎝
⎠
2
2
⎢ ⎛ ∂2 l ⎞
⎛ l⎞ ⎥
⎛
l ⎞
⎟⎟ − ⎜⎜ ∂ ⎟⎟ − ⎜⎜ ∂ 2 ⎟⎟ ⎥
⎢− ⎜⎜
⎢⎣ ⎝ ∂ξ ∂σ ⎠
⎝ ∂ξ ∂μ ⎠
⎝ ∂ξ ⎠ ⎥⎦
Com esta nova matriz, o cálculo iterativo de θ , envolve rapidez computacional e
converge para grad l < 10−3 em menos de 5 iterações.
Para o caso particular da distribuição generalizada de valores extremos com
ξ → 0 , temos a distribuição Gumbel, o logaritmo da função verossimilhança é dado
por: l ( μ, σ ) =
⎧
n
⎛
−μ⎞
⎛ xi − μ ⎞ ⎫
⎟⎬ , e os estimadores de máxima
⎟ − exp⎜ −
σ ⎠⎭
⎝
⎠
∑ ⎨− ln σ − ⎜⎝ x σ
i =1
⎩
i
verossimilhança de μ e σ são obtidos pela solução de:
∂
∂
l ( μ, σ )μ = μ 0 = 0 ;
l ( μ, σ )σ =σ 0 = 0 ,
∂μ
∂σ
ou seja
^
⎧⎡
⎫
⎛
⎞⎤
1 ⎪⎢ n
⎪
⎜ xi − μ ⎟⎥
− ^ ⎨ ∑ exp⎜ − ^ ⎟ − n ⎬ = 0 ,
⎢
⎥
⎜
⎪
σ ⎪⎩⎣ i =1
σ ⎟⎠⎦
⎝
⎭
^
^
^
⎧⎧ ⎡⎛
⎞ ⎛
⎞
⎛
⎞⎤ ⎫ ⎫
1 ⎪⎪ n ⎢⎜ xi − μ ⎟ ⎜ xi − μ ⎟
⎜ xi − μ ⎟⎥ ⎪ ⎪
− ^ ⎨⎨∑ ⎜ ^ ⎟ − ⎜ ^ ⎟ exp ⎜ − ^ ⎟ ⎬ − n ⎬ = 0 .
⎢
⎥
⎜
σ ⎪⎩⎪⎩ i =1 ⎣⎜⎝ σ ⎟⎠ ⎜⎝ σ ⎟⎠
σ ⎟⎠⎦ ⎪⎭ ⎪⎭
⎝
Mais uma vez, este sistema não possui solução analítica e deve-se usar o
mesmo método iterativo descrito a cima para a obtenção da solução numérica,
tomando como valores iniciais μ0 e σ 0 para μ e σ a soluções obtidas através do
cálculo dos momentos. Para este caso tem-se:
18
E ( X ) = μ + γ σ , Var ( X ) = π σ ,
6
2
2
com γ = 0.5772157 a constante de Eüler, logo
μ0 = x − γ
6
6
s ≅ x − 0.45005 s , σ 0 =
s ≅ 0.77970 s ,
π
π
que correspondem aos limites quando ξ 0 → 0 .
2.2.1 Estimação dos Quantis Extremos da GEV
Após terem sido estimados os parâmetros da GEV, será possível obter a
estimação de quantis ( z p ) as probabilidades (p), pois os mesmos dependem desses
parâmetros, para isso basta inverter a função de distribuição de valores extremos,
onde os quantis são dados da seguinte forma:
zp = μ −
[
]
σ
−ξ
1 − {− log(1 − p )} , se ξ ≠ 0
ξ
z p = μ − σ log{− log(1 − p )}, se ξ = 0 ,
( )
onde: F z p = 1 − p . Sendo que z p , corresponde ao nível de retorno associado ao
período de retorno
1
.
p
Coles (2001), define y p = − log(1 − p ) , e na expressão dos quantis, tem-se:
zp = μ −
[
]
σ
−ξ
1 − y p , se ξ ≠ 0
ξ
z p = μ − σ log y p , se ξ = 0 .
Isso permite gerar um gráfico em escala logarítmica, onde no eixo das abscissas
representa-se y p e no das ordenadas z p ou equivalentemente, o gráfico pode ser
gerado com log y p contra z p , onde o mesmo relaciona a freqüência de eventos
extremos, conforme o sinal do parâmetro de forma.
2.3 A Distribuição Generalizada de Pareto (GPD)
Suponha
X 1 ,...., X n
variáveis
aleatórias
independentes
e
identicamente
distribuídas, tendo função de distribuição FX . Seja x Fx o limite superior da distribuição
de FX . Chamamos de um limiar alto um valor no suporte de X perto de x Fx .
19
Denominamos “excedentes” aqueles valores X i tais que X i > u . Denotamos por N u
o número de excedentes do limiar u. Isto é,
n
N u = ∑1( X i >u ) , onde: 1( X i >u ) = 1 se X i > u ,
i =1
1( X i >u ) = 0 caso contrário.
Os excessos (pontos excedentes) além do limiar u, denotados por Y1 ,...., Ynu são
os valores X i − u ≥ 0 . A Figura 3 mostra as observações X 1 ,...., X 12 e os excessos
além do limiar u=4.
Esta abordagem se diferencia da abordagem clássica, pois a teoria clássica se
baseia na análise do valor do máximo (ou mínimo) em uma época. Como será visto na
definição que se segue, essa abordagem permite a análise de todos os dados
disponíveis que excedem um limiar, porém esse limiar deverá garantir a distribuição
assintótica de valores extremos, sem as quais não será possível fazer as inferências.
Definição: Dado um limiar u, a distribuição dos valores de x acima de u é dada
por:
P{X > u + y | X > u} =
1 − F (u + y )
, y > 0,
1 − F (u )
(1)
que representa a probabilidade do valor de x ultrapassa u por no máximo um montante
y, onde y=x-u.
Figura 3: Ilustração do gráfico de barras das observações de uma seqüência de
variáveis aleatórias X 1 ,...., X 12 , onde se destacam os excessos acima do limiar u=4.
20
F
Seja
uma
distribuição
1
− ⎫
⎧
⎪ ⎡
⎛ x − μ ⎞⎤ ξ ⎪
F ( x ) = exp⎨− ⎢1 + ξ ⎜
⎟⎥ ⎬
⎝ σ ⎠⎦ ⎪
⎪ ⎣
⎩
⎭
probabilidade
para
condicional,
−
generalizada
de
valor
μ, σ > 0
qualquer
extremo,
ξ ∈ℜ.
e
X >u,
quando
tal
que:
Então
sabendo-se
a
que
1
⎡
⎛ x − μ ⎞⎤ ξ
n ln F ( x ) ≈ − ⎢1 + ξ ⎜
⎟⎥ , e que para valores elevados de x se deve fazer uma
⎝ σ ⎠⎦
⎣
expansão à Taylor de forma que ln F (x ) ≈ −{1 − F (x )}, substituindo e re-arranjando
1⎡
⎛ u − μ ⎞⎤
para u , tem-se 1 − F (u ) ≈ ⎢1 + ξ ⎜
⎟⎥
n⎣
⎝ σ ⎠⎦
−
−
1
ξ
e de uma forma similar para y > 0 ,
1
1⎡
⎛ u + y − μ ⎞⎤ ξ
1 − F (u + y ) ≈ ⎢1 + ξ ⎜
⎟⎥ .
n⎣
σ
⎝
⎠⎦
Desta forma, tem-se:
P{X > u + y | X > u} =
1 − F (u + y )
=
1 − F (u )
1⎡
⎛ u + y − μ ⎞⎤
1+ ξ⎜
⎟⎥
⎢
n⎣
σ
⎝
⎠⎦
1⎡
⎛ u − μ ⎞⎤
1+ ξ⎜
⎟⎥
⎢
n⎣
⎝ σ ⎠⎦
−
1
ξ
1
−
ξ
=⎛
⎜1 +
⎝
−
ξ y⎞
~
σ
⎟
⎠
1
ξ
,
~
com σ = σ + ξ (u − μ ) .
Assim, a função distribuição de
(X − μ) ,
condicionada a
X >u, é
aproximadamente:
H (y) = 1 − ⎛
⎜1 +
⎝
⎧
⎛
⎝
~
⎞
⎠
⎫
−
ξ y⎞
~
σ
⎟
⎠
1
ξ
,
~
definida em ⎨ y : y > 0 e ⎜1 + ξ y σ ⎟ > 0⎬ , onde σ = σ + ξ (u − μ ) .
⎩
⎭
Coles (2001) afirma que a família de distribuições definida acima é chamada
família generalizada de Pareto. A função distribuição condicional é aproximadamente a
distribuição generalizada de Pareto (GPD), que representa as três distribuições em
uma só forma, sob a γ-parametrização: W ( x; γ) = 1 − (1 + γx )
−1
γ
. Assim como as
distribuições GEV são as distribuições limite para o máximo, as do tipo GPD são as
formas paramétricas para distribuições limite de excessos (Teorema de Balkema-de
21
Haan). As distribuições generalizadas de Pareto são da forma Exponencial ( γ = 0 ),
Pareto tipo II ( γ > 0 ) e Pareto comum ou Beta ( γ < 0 ).
Os parâmetros da distribuição generalizada de Pareto para excessos que
ultrapassam limiares (Peaks-over-Threshold - POT) são determinados por aqueles
associados às distribuições generalizadas de valores extremos (GEV). No limite de
F (x )
quando
ξ →0
tem-se
a
distribuição
acumulada
⎡
⎛ x − μ ⎞⎤
F ( x ) = exp ⎢− exp⎜ −
⎟ , e a função distribuição de
σ ⎠⎥⎦
⎝
⎣
⎛ y⎞
X > u , é aproximadamente: H ( y ) = 1 − exp⎜ − ⎟ , com
⎝ σ⎠
(X − μ) ,
de
Gumbel:
condicional com
y > 0.
A Figura 4, onde a rotina para mostrar a ilustração encontra-se no apêndice B,,
apresenta os gráficos da função de distribuição da GPD para ξ = −0,4 (Pareto comum
ou Beta), ξ tendendo a zero (exponencial) e ξ = 0,4 (Pareto tipo II), todas com
σ = 2 , observa-se que assim como na GEV o parâmetro ξ é quem determina as
caudas da distribuição.
Por fim, as distribuições GPD e GEV estão relacionadas da seguinte maneira:
G ( x) = 1 + ln(H ( x) ) , ln(H ( x) ) > −1 .
Esta relação explica por que as densidades da GPD possuem cauda extrema
assintoticamente equivalente às de uma GEV. A Figura 5, onde também a rotina
implementado no R esta no apêndice B, ilustra este fato e mostra a proximidade das
caudas de algumas distribuições GPD com algumas GEV.
22
Figura 4: Ilustração da função densidade de probabilidade das três formas da
distribuição generalizada de Pareto (GPD).
Figura 5: Densidades da GPD e GEV. (a) Pareto comum (Beta) e Weibull, ambas com
ξ = −0,2 ; (b) Pareto tipo II e Fréchet, ambas com ξ = 0,2 . As densidades da GEV
todas possuem μ = 0 e todas as densidades possuem σ = 1 .
23
2.3.1 Seleção do Limiar
Na escolha do limiar u nos deparamos com alguns problemas, pois um valor
para u muito “alto” implicará em um número pequeno de observações na cauda,
podendo resultar numa maior variabilidade dos estimadores. Porém, um limiar que não
seja suficientemente alto não satisfaz as suposições teóricas e pode resultar em
estimativas distorcidas, portanto uma idéia é monitorar os valores extremos como será
descrito.
Para a determinação do limiar recorre-se à análise gráfica da linearidade de n u
observações que excedem os vários limiares u determinados na própria amostra.
Assim, o gráfico de vida média residual, usado para a determinação visual de u é
⎧⎛
construído da seguinte forma: ⎨⎜⎜ u ,
⎩⎝
1
nu
⎞
nu
∑ (x − u )⎟⎟: u < x
i
i =1
⎠
max
⎫
⎬ , em que x1 , x2 ,..., xnu
⎭
consistem nas observações que excedem u e xmax é o valor mais elevado das
observações.
Na prática dois métodos são avaliados para esse propósito: uma técnica
exploratória e a outra é avaliar a estabilidade dos parâmetros estimados, baseado no
ajuste de uma gama de limiares de acordo com o gráfico descrito acima.
Conforme Coles (2001), o primeiro método é baseado na média da distribuição
da GPD. Se Y seguir uma distribuição generalizada de Pareto com parâmetros de
escala e forma, σ , ξ , respectivamente, então:
E ( y) =
σ
1−ξ
, desde que ξ < 1 , uma vez que se ξ ≥ 1 a esperança será infinita; e
Var (Y ) =
σ , com ξ < 1 .
1 − 2ξ
2
2
Seja u 0 o limiar mais baixo de uma série X 1 , X 2 ,..., X n arbitrária, então
E (Y ) = E ( X − u 0 | X > u 0 ) =
σ u0
com ξ < 1 , em que σ u 0 é o parâmetro de escala
1− ξ
correspondente aos excessos do limiar u 0 . Mas se a distribuição de Pareto é válida
para os excessos de u 0 , também é igualmente válido para os excessos de limiares
u > u 0 , sujeitos a apropriada variação no parâmetro escala para σ u . Então, para:
σ +ξu
.
u > u0 , E ( X − u | X > u ) = σ u = u 0
1− ξ
1− ξ
Segundo Coles (2001), a GPD é um modelo razoável para os excessos acima
do limiar u 0 , assim como para um limiar mais elevado u. Os parâmetros de forma das
duas distribuições são idênticos. No entanto, o valor do parâmetro de escala para o
24
limiar u > u 0 é σ u = σ u 0 + ξ (u − u 0 ) , que varia com u a menos que ξ = 0 . Esta
dificuldade pode ser remediada pela re-parametrização do parâmetro de escala como:
*
σ = σ u − ξ u e σ u = x (1 − ξ ) , com x a média dos excessos para de cada limiar u , e ξ
determinado da média e do desvio padrão dos excessos de cada limiar u , e
conseqüentemente as estimativas de ambos σ * e ξ serão constantes acima de u 0 ,
se u 0 é um limiar valido para os excessos que seguem uma GPD. Assim, são
representados os gráficos de σ * e ξ versus u , juntamente com os intervalos de
confiança que são obtidos pela matriz variância e covariância V para ξ e para σ *
pelo método Delta, usando:
⎡ ∂ σ* ∂ σ* ⎤
Var (σ *) ≈ ∇σ *T V ∇ σ * , com ∇σ *T = ⎢
,
⎥ = [1,−u ] .
⎣ ∂ σ u ∂ξ ⎦
2.4 Inferência sobre os Parâmetros da GPD
A estimação dos parâmetros da GPD pode ser feitos por vários métodos, entre
eles, tem-se o da máxima verossimilhança, Davison (1984), Hosking e Wallis (1987),
método dos momentos, método da máxima entropia (POME) e o método dos
momentos ponderados, Singh e Guo (1995), onde a eficiência de cada método
depende da situação estudada, estes métodos serão detalhados no capítulo 3, sendo
dada nesse capítulo somente uma abordagem baseada numa importante propriedade
da GPD.
Lin (2001) mostra que uma importante propriedade da distribuição generalizada
de Pareto, ocorre quando ξ > −1 , onde a média de excessos, ao longo de um limiar,
u, é uma função linear de u:
E (X − u / X > u ) =
σ − ξu
, portanto o gráfico da linearidade da média de
1+ ξ
excessos, poderá ser utilizado como um indicador da adequação do modelo da GPD.
Essa propriedade permite estimar os parâmetros de forma e escala da
distribuição generalizada de Pareto, da seguinte forma:
Define-se a média de excessos de uma amostra (MEA), como uma função
dada abaixo:
25
n
e n (u ) =
∑ (X
− u)
i
i =1
n
∑ 1{
i =1
+
, no que diz respeito ao limiar u, onde o + garante que apenas
xí > u }
os valores positivos de
(X i − u )
serão contados. Ou seja, a MEA é a soma dos
excessos durante o limiar u, dividido pelo numero de pontos dos dados que excede ao
limiar u. Dessa forma a média de excessos da amostra é o estimador empírico da
média de excessos de um limiar (MEL), portanto, ξ e σ da GPD, podem ser
determinado pela inclinação e o intercepto da MEA utilizando as seguintes equações:
Inclinação= −
ξ
1+ξ
e
Intercepto=
σ
1+ ξ
.
2.5 Relação entre a Distribuição q-Exponencial e a GPD
Shalizi (2007), ao estudar o estimador de máxima verossimilhança da distribuição
q-Exponencial, também conhecida como distribuição de T-salis, essa distribuição é
definida através do complementar da função de distribuição, sendo mais conhecida
como a função de sobrevivência, onde a mesma possui a seguinte forma:
1
⎛ (1 − q )x ⎞ 1− q
Pk ,q ( X ≥ x) = ⎜1 −
⎟ .
k ⎠
⎝
Essa reparametrização ajuda a simplificar a estimação dos parâmetros e fazer
uma ligação com a distribuição de Pareto, para encontrar o estimador de máxima
verossimilhança para a distribuição q-exponencial, portanto é mais fácil utilizar a
reparametrização e no final retornar ao sistema inicial, caso seja desejado.
Shalizi (2007), define a nova reparametrização, da seguinte forma θ = −
σ = θ * k , para recuperar os parâmetros iniciais basta fazer: q = 1 +
1
θ
e k=
1
e
1− q
σ
, logo
θ
a função de sobrevivência, em relação aos novos parâmetros, é:
−θ
x⎞
⎛
Pθ ,σ ( X ≥ x) = ⎜1 + ⎟ , para se encontrar a função densidade de probabilidade,
⎝ σ⎠
basta derivar a função acima em relação à x, obtendo-se:
26
Pθ ,σ ( x) =
x⎞
θ⎛
⎜1 + ⎟
σ⎝ σ⎠
−θ −1
, onde a mesma possui uma distribuição de Pareto com
parâmetro de forma α e ponto de corte y 0 .
⎛ y
se P(y)=0, quando y < y 0 , P ( y ) ∝ ⎜⎜
⎝ y0
⎞
⎟⎟
⎠
−α −1
.
Assim X tem uma distribuição q-exponencial e 1 +
x
σ
, tem uma distribuição de
Pareto com ponto de corte igual a 1 e parâmetro de forma θ , resultando em uma
distribuição de Pareto do tipo II, sendo sua forma padrão:
⎛ (x − μ ) ⎞
Pθ ,σ ( x) = ⎜1 +
⎟
σ ⎠
⎝
−α
que é uma distribuição q-Exponencial quando μ = 0 e σ = θ .
Neste capítulo foi vista a filosofia da teoria de valores extremos, através de
uma revisão de literatura da GEV, bem como sobre as inferências a respeito dos seus
parâmetros, dando maior ênfase ao estimador de máxima verossimilhança, uma vez,
que de acordo com a revisão de literatura feita é o que tem mostrado melhor
desempenho para estimar os parâmetros da GEV, em seguida foi feita uma revisão de
literatura também para a GPD e mostrando a importante relação entre GEV e GPD,
bem como a seleção do seu limiar e para encerrar foi vista uma relação importante
entre a distribuição q-exponencial e a GPD, sendo gerada a partir de uma
reparametrização na Pareto tipo II, esse artifício facilita bastante para encontrar o
estimador de máxima veossimilhança da GPD quando o parâmetro de forma for
positivo.
Dessa forma, têm-se duas maneiras de se modelar o máximo de uma
seqüência de variáveis aleatórias independentes e identicamente distribuídas:
1. Máximo em Bloco, onde se seleciona o máximo de cada período, porém nessa
abordagem corre-se o risco de deixarmos alguns máximos de fora, dessa
forma comprometendo as estimativas bem como previsões/predições;
2. Observações acima de um limiar u, nesse tipo de modelagem busca-se
modelar a seqüências de variáveis aleatórias acima dele, onde a distribuição
limite é a distribuição generalizada de Pareto, sendo que nesse modelo o
problema consiste na escolha desse limiar, que pode ser feita por duas
maneiras: uma através de técnicas exploratórias e a outra através de técnicas
gráficas, olhando sempre a estabilização dos parâmetros e tomando o cuidado
27
na escolha do mesmo, para não violar a convergência assintótica e nem ficar
com poucas observações acima do limiar selecionado.
Assim, uma vez escolhido o modelo, no presente estudo a modelagem será via
GPD, por essa razão na secção que trata das inferências dos parâmetros da GPD só
foi abordado o método de estimação baseado na propriedade da linearidade da
distribuição generalizada de Pareto, pois no capítulo 3 será visto os métodos de
estimação dos parâmetros da GPD que foram utilizados no estudo de caso, sendo que
o método estudado com mais detalhes foi o da máxima entropia (POM), uma vez que
esse método tem sido bastante estudado nos últimos anos, e sempre mostrando estar
entre os métodos mais eficientes de estimação dos parâmetros da GPD.
28
CAPÍTULO 3: ALGUNS MÉTODOS DE ESTIMAÇÃO DOS PARÂMETROS
DA DISTRIBUIÇÃO GENERALIZADA DE PARETO (GPD)
Vários métodos de estimação dos parâmetros da GPD já foram propostos,
sendo que nos últimos anos o método da máxima entropia (POME) tem sido bastante
utilizado por vários autores, em geral Sing e Guo (1995), Oztekin (2004), onde o
POME sempre que comparado com outros métodos, obteve menor erro quadrático
médio. Por essa razão nas próximas secções, serão mostrados todos os métodos
utilizados no presente estudo, sendo que o da máxima entropia será desenvolvido de
forma integral.
3.1 Método da Máxima Verossimilhança (MLE)
Para se encontrar o estimador de máxima verossimilhança, precisamos
encontrar o log da função de verossimilhança, que de acordo com Oztekim (2004) é:
⎛1− ξ ⎞ n ⎡ ξ
⎤
⎟⎟∑ ⎢1 − ( xi − μ )⎥ , onde os
L( xi , ξ , σ , μ ) = −n ln σ + ⎜⎜
⎦
⎝ ξ ⎠ i =1 ⎣ σ
xi são valores observados na
amostra e n o tamanho da amostra, o método se baseia na maximização dos
parâmetros da equação acima.
Para a maximização, Rheinboldt (1998), utilizou o método direto ou de NewtonRapson, para isso ele resolveu as equação parciais em relação a cada parâmetro
desconhecido, onde as derivadas parciais em relação ao parâmetro de forma são
dadas a seguir:
xi − μ
ξ ( xi − μ ) ⎞
⎛
i =1
σ ⎜1 −
⎟
σ
⎝
⎠ = 0,
n
⎛ ξ ( xi − μ ) ⎞
ln⎜1 −
⎟
∂L ∑
σ
⎠+
= i =1 ⎝
2
∂ξ
ξ
n
(1 − ξ )∑
ξ
ξ ( xi − μ )
ξ ( xi − μ ) ⎞
⎛
i =1
σ ⎜1 −
⎟
σ
⎝
⎠ = 0.
n
(1 − ξ )∑
∂L n
= −
∂ξ σ
2
ξ
Sendo que Singh e Guo (1995) mostraram que o log da função de
verossimilhança é viesado em relação ao parâmetro de localização μ, dessa forma não
é possível encontrar o estimador de máxima verossimilhança para o parâmetro de
localização. Para tanto será escolhido o menor valor da amostra para estimar o
parâmetro de localização.
29
3.2 Método da Máxima Verossimilhança Penalizada (MPLE)
Apesar do método da máxima verossimilhança ser um dos mais eficientes, ele
apresenta sérios problemas em relação às especificidades dos modelos de sismos,
uma vez que a severidade apresenta eventos extremos. Assim, existe um maior
interesse na cauda da distribuição subjacente, sendo que o método da máxima
verossimilhança pondera cada valor da distribuição igualmente, por outro lado esse
efeito da ponderação igualitária é resolvido por intermédio do método da máxima
verossimilhança penalizada.
Coles e Dixon (1999), sugerem para o estimador de máxima verossimilhança
penalizada usar a seguinte a função:
f ( x) = 1 se xi ≤ 0
λ
⎛
⎞
= exp⎜ − α ⎡⎢ 1 − 1⎤⎥ ⎟ , se 0 ≤ xi ≤ 1
⎜
⎝
⎣1 − x i
⎦ ⎟⎠
= 0 se xi ≥ 1 ,
onde α e λ , são as constantes penalizadas. Coles e Dixon (1999) sugerem ainda
que α = λ = 1 .
3.3 Método dos Momentos (MOM)
As características das distribuições de probabilidades podem ser sumarizadas
pelos momentos populacionais. O momento de primeira ordem, em relação à origem
dos X, representa a média populacional (μ ) , e o momento central de ordem r=2 é, por
definição, a variância (σ 2 ) de X. As quantidades que podem ser deduzidas do
momento central de ordem 2 são o desvio-padrão (σ ) e o coeficiente de variação
(CV). Para r>2, é usual descrever as características da função de distribuição através
−
r
das razões adimensionais μ r e μ 2 2 , das quais se destacam os coeficientes de
assimetria ( C s ) e de curtose (k), dados por:
−
3
C s = μ 3 μ 2 2 e k = μ 4 μ 2−2 .
Os momentos amostrais são estimados por quantidades similares, calculadas a
partir dos dados de uma amostra de tamanho n. Por exemplo, o estimador natural de
μ é a média aritmética ou o momento amostral de primeira ordem em relação à
30
n
origem,
-
x=
∑ xi
i =1
n
, os momentos amostrais (m) de ordem (r) superior são estimadores
viesados dos momentos populacionais de mesma ordem, entretanto podem ser
corrigidos para produzir estimadores sem viés, por exemplo, para variância e
assimetria, respectivamente:
S2 =
m3
n
n2
m2 , C s =
(n − 1)(n − 2) s 3
n −1
Portanto, de acordo com Hosking e Wallis (1987) os estimadores da
distribuição generalizada de Pareto pelo método dos momentos (MOM), são:
−
x=μ+
σ
(1 + ξ )
, S2 =
σ2
2(1 − ξ )(1 − ξ )
, Cs =
2
(1 + 3ξ )
(1 + 2ξ )(1 + 2)
[
]
−
onde x, S 2 e C s , são a media a variância e a assimetria, respectivamente
3.4 Método de Pickands (Pickands)
Os métodos de estimação do parâmetro de forma da distribuição generalizada
de Pareto têm encontrados alguns problemas no que tange ao viés e a variância, com
o intuito de amenizar esses problemas, Pickands (1975) propôs um estimador
baseado em estatísticas robustas para o parâmetro de forma da GPD como pode ser
visto a seguir:
Seja X 1,n ,......, X n ,n , estatísticas de ordem para uma amostra independente de
tamanho n e função de distribuição da GPD. O estimador de Pickands é:
ξ=
⎛ X n − k +1, n − X n − 2 k +1, n
1
log⎜
log 2 ⎜⎝ X n − 2 k +1, n − X n − 4 k +1, n
⎞
n
⎟ , para k = 1,......,
⎟
4
⎠
onde Dekkers e Haan (1989), verificaram a consistência e a normalidade assintótica
do estimador.
3.5 Método do Momento Ponderado pelas Probabilidades: viesado e
não-viesado (PWMB, PWMU)
Conforme Hosking e Wallis (1987), o estimador (PWMB), possui parâmetros
especiais de forma e escala, esses parâmetros são chamados de “Diagrama de
Posição”. Os mesmos recomendam que o parâmetro de forma inicialmente seja de
0,35, enquanto o de posição assuma o valor zero. Posteriormente, pode ser testado
diferentes valores.
31
Para o PWMB, PWMU aproximados, Dupuis e Tsao (1998), propõem a
utilização de estimadores híbridos, uma vez que o mesmo evita o fato de não possuir
pontos viáveis.
3.6 Divergência Média da Densidade (MDPD)
A estimação do parâmetro da distribuição generalizada de Pareto pelo MDPD
foi proposta por Júarez e Schucany (2004), onde os mesmos recomendam para o
parâmetro de forma da distribuição generalizada de Pareto (GPD) o valor de 0,1,
nesse mesmo trabalho são recomendados valores pequenos para o parâmetro de
forma. Para um α>0 o estimador para a GPD é o valor ⎛⎜ ξ α , σ α ⎞⎟ , que minimizam a
^
^
⎝
⎠
equação abaixo:
X ⎞
1 ⎞1 n 1 ⎛
⎛
H α (ξ , σ ) = α
− ⎜1 + ⎟ ∑ α ⎜ 1 − ξ i ⎟
α ⎠
σ (1 + α − ξα ) ⎝ α ⎠ n i =1 σ ⎝
1
(ξ −1 −1)α
,
sobre
1+α ⎫
⎧
{
X i }ξ < σ ,−∞ < ξ < 0, e,0 < ξ <
⎨(ξ , σ ) ∈ Θ : σ > 0, max
⎬
1≤i ≤ n
α ⎭
⎩
A restrição max{X i }ξ < σ , deve-se à dependência do suporte dos parâmetros. A
1≤i ≤ n
restrição ξ <
1+α
α
é necessária para as condições de regularidades da integral da
GPD.
3.7 Método da Mediana (MED)
Welsh e Peng (2001), no artigo “Robust Estimation of the Generalized Pareto
Distribution”, utiliza o mesmo princípio que He e Fung (1999), quando eles propuseram
o método da mediana para a distribuição de Weibull com dois parâmetros, sendo os
mesmos da seguinte forma:
σ=
ξ
ξ
2 −1
Mediana ( X i ) ,
onde X i , são os valores observados da variável aleatória.
⎡ ⎛ ξX i
⎢ log⎜1 +
σ
⎝
Mediana ⎢
2
⎢
ξ
⎢
⎣
⎞
⎟
⎠
⎤
(1 + ξ )X i ⎥⎥
= Z (ξ )
−
σξ + ξ 2 X i ⎥
⎥
⎦
32
∫
⎧⎪
⎫⎪
log y 1+ ξ
−
1− y ξ > z (ξ )⎬
⎨ 0 < y <1, −
ξ
⎪⎩
⎪⎭
ξ2
(
)
dy =
1
.
2
3.8 Método da Melhor Qualidade do Ajuste (MGF)
Para o estimador MGF, Luceño (2005), propõem o seguinte algoritmo para
estimar os parâmetros de forma e escala, ξ e σ da distribuição generalizada de
Pareto. São os seguintes passos no delineamento do pseudo-algoritmo:
(1) Calcule
~
ξ =−
⎤
⎡
xi
1
ln ⎢1 −
∑
⎥
n −1
⎣ max( x1 ,......, x n ) ⎦
e
n
∑x
2
i
i =1
z = 1−
n
−2
;
2x
~
(2) se ξ < 0,75 e Z<0,2, calcule os MLEs padronizados para ξ e σ ;
~
~
~
(3) caso contrário estime ξ usando a equação do ξ e σ = ξ max( x1 ,........., x 2 ) .
Segundo Luceño (2005), a justificativa para esse procedimento é que quando
ξ é grande, a amplitude da GPD é 0 ≤ x ≤
σ
e o método da máxima verossimilhança
ξ
~
falha. Portanto para ξ uma alternativa é utilizar
σ
~
ξ
= max( x1 ,......, x n ) .
3.9 Método da Máxima Entropia (POME)
Shannon (1948) definiu entropia como uma medida numérica de incerteza, ou
reciprocamente o conteúdo de informação associou com uma distribuição de
probabilidade, f ( x ; θ ) , sendo θ o vetor de parâmetros, utilizado para descrever uma
33
variável aleatória X. A função de entropia de Shanoon H ( f ) para X continua, é dada
da seguinte forma:
∞
H ( f ) = − ∫ f ( x ; θ ) ln f ( x ; θ ) dx com
−∞
∞
∫ f ( x;θ ) dx = 1 ,
(3)
−∞
onde H ( f ) é a entropia para f ( x ; θ ) que pode ser vista como o valor médio de
− ln f ( x ; θ ) .
De acordo com Jaynes (1961), o viés mínimo da distribuição de X é o que
maximiza a entropia sujeita a determinada informação ou que satisfaça o princípio da
máxima entropia (POME). Portanto os parâmetros da distribuição podem ser obtidos
alcançado o máximo de H ( f ) . O uso deste princípio pode gerar as distribuições de
probabilidade menos viesadas em base de dados limitadas e incompletas discutidas
por vários autores e pode ser aplicada a problemas diversos, por exemplo, Singh e
Fiorentino (1992). Jaynes (1968) argumentou que o POME é o critério lógico e racional
para escolher uma função especifica f ( x ; θ ) , que maximiza H ( f ) e satisfazendo a
determinada informação que expressa como restrição. Em outras palavras, para
determinar a informação, por exemplo, média, variância, assimetria, limite superior,
limite inferior, entre outras, a distribuição derivada pelo princípio da máxima entropia é
a que representa melhor a variável aleatória X; implicitamente, esta distribuição
representa melhor a amostra da qual a informação foi retirada.
Inversamente, se era desejado ajustar uma distribuição de probabilidade
especifica a uma amostra de dados, então o POME pode especificar as restrições
exclusivamente (ou a informação) precisando derivar daquela informação. Os
parâmetros da distribuição são relacionados com essas restrições. Uma discussão
excelente da razão matemática é determinada por Levine e Tribus (1979).
Determinando m restrições linearmente independentes Ci , i = 1, 2........, m da
seguinte forma:
C i = ∫ w i ( x ) f ( x ; θ ) dx , i = 1, 2 ,......., m ,
(4)
onde wi são algumas funções cuja média é calculada em cima de
f ( x ; θ ) são
especificadas, então o máximo de H ( f ) sujeito a equação (4) é determinada pela
distribuição:
m
⎡
⎤
f ( x;θ ) = ⎢ − a 0 − ∑ a i wi ( x ) ⎥ ,
i =1
⎣
⎦
(5)
34
sendo ai , i = 0,1, 2,...., m os multiplicadores de lagrange, que são determinados pela
equação (4) e (5). Inserindo a equação (5) na equação (3) gera-se a entropia de
f ( x ; θ ) , em termos das restrições e multiplicadores de Lagrange.
m
H ( f ) = a0 + ∑ aiCi ,
(6)
i =1
A maximização de H ( f ) estabelece o relacionamento entre as restrições e os
multiplicadores de Lagrange. Dessa forma para estimar os parâmetros da GPD, pelo
princípio da máxima entropia (POME), devem-se:
I. Especificar as constantes apropriadas;
II. Derivar a função de distribuição da entropia;
III. Derivar em relação entre os multiplicadores de Lagrange e as
restrições.
Para uma formalização maior deste método veja Tribus (1969), Jaynes (1968), Levine
e Tribus (1979) e Sing e Rajagopol (1986)
3.9.1 Especificação das Restrições
A entropia para a distribuição generalizada de Pareto pode ser obtida inserindo
a equação (6) na equação (13), obtendo:
∞
H ( f ) = ln ∫
μ
⎡1
⎤ ⎡ ξ (x − μ )⎤
f ( x ; θ ) dx + ⎢ − 1⎥ ∫ ⎢1 −
⎥⎦ f ( x ; θ ) dx . (7)
σ
⎣ξ
⎦μ ⎣
∞
Comparando a equação (7) com a equação (6), as restrições adequadas para a
equação 1, podem ser escritas conforme Singh & Rajagopal, (1986), como:
∞
∫μ f ( x;θ ) dx = 1 , (8)
∞
e
⎡
∫μ ln ⎢⎣1 −
⎡ ⎛
ξ (x − μ ) ⎞ ⎤
ξ (x − μ )⎤
f ( x ; σ ) = E ⎢ ln ⎜ 1 −
⎟ ⎥ . (9)
⎥
σ
σ
⎠⎦
⎦
⎣ ⎝
Essas restrições são únicas e especificam as informações suficientes para a
distribuição generalizada de Pareto (GPD). A primeira restrição especifica a
probabilidade total. A segunda restrição especifica a média do logaritmo da razão
inversa do parâmetro de escala para a de taxa de fracasso. Conceitualmente, isto
define o valor esperado negativo da taxa de fracasso do parâmetro de escala. Os
parâmetros da distribuição são relacionados com estas restrições.
3.9.2 Construção da Função de Entropia
A função de distribuição de probabilidade da GPD correspondente ao princípio
da máxima entropia (POME) e consistente com as equações (8) e (9), possui a
seguinte forma:
35
⎡
(x − μ ) ⎞ ⎤ ,
⎛
f ( x ; θ ) = exp ⎢ − a 0 − a1 ln ⎜ 1 − ξ
⎟
σ ⎠ ⎥⎦
⎝
⎣
(10)
onde: a 0 e a1 são os multiplicadores de Lagrange. A justificativa matemática para a
equação (10) foi apresentada por Tribus (1969). Aplicando a equação da Distribuição
de Valores Extremos com a restrição da probabilidade total, obtemos:
⎛
⎡ ξ ( x − μ )⎤ ⎞
exp( a 0 ) = ∫ exp ⎜⎜ − a1 ln ⎢1 −
⎥⎦ ⎟⎟dx , (11)
σ
⎣
⎝
⎠
μ
∞
que retorna a função de partição:
exp( a 0 ) =
σ 1
.
ξ 1 − a1
(12)
O zero do multiplicador de Lagrange é dado por:
⎛σ 1
a 0 = ln ⎜⎜
⎝ ξ 1 − a1
⎞
⎟⎟
⎠
(13)
inserindo a equação (12) na equação (10), obtemos:
ξ (x − μ ) ⎛ ξ (x − μ ) ⎞
f ( x;θ ) =
⎜1 −
⎟
σ
σ
⎝
⎠
− a1
.
(14)
Comparando a equação (14) com a equação (6), obtem-se:
1 − a1 =
1
ξ
.
(15)
Tomando o logaritmo da equação (14), tem-se:
⎡ ξ (x − μ )⎤
ln f ( x ;θ ) = ln ξ + ln (1 − a1 ) − ln σ − a1 ln ⎢1 −
⎥⎦ (16)
σ
⎣
Dessa forma, a entropia H ( f ) da GPD é:
⎧ ⎡ ξ (x − μ ) ⎤ ⎫
H ( f ) = − ln ξ − ln (1 − a1 ) + ln σ + a1 E ⎨ ln ⎢1 −
⎥⎦ ⎬
σ
⎩ ⎣
⎭
(17)
3.9.3 Relação Entre os Parâmetros da GPD e as Restrições
De acordo com Singh e Rajagopol (1986), a relação entre os parâmetros da
GPD e as restrições é obtida através das derivadas parciais da entropia H ( f ) em
relação aos multiplicadores de Lagrange, bem como a distribuição dos parâmetros e,
em seguida, igualar a as derivadas a zero, e utilizar as restrições. Por fim utilizar as
36
derivadas parciais da equação (17), em relação à a1 , ξ , σ e μ separadamente e
igualando as derivadas de cada equação em relação à zero, temos:
⎡⎛
1
∂H
ξ (x − μ ) ⎞ ⎤
=
+ E ⎢⎜ 1 −
⎟⎥ = 0
σ
∂ a1 1 − a1
⎠⎦
⎣⎝
(18)
⎡⎛ ξ (x − μ ) ⎞ ⎤
⎟⎥
⎢⎜
1
∂H
σ
⎟⎥ = 0
= − − a1 E ⎢ ⎜
ξ
μ
(
x
)
−
ξ
∂ξ
⎟⎥
⎜
⎢⎜ 1 −
⎟
σ
⎠ ⎦⎥
⎣⎢ ⎝
(19)
⎡⎛ ξ (x − μ ) ⎞ ⎤
⎟⎥
⎢⎜
∂H
1
σ
⎟⎥ = 0
= + a1 − E ⎢⎜
(
)
−
ξ
μ
x
∂σ
σ
⎜
⎟⎥
⎢⎜ 1 −
⎟
σ
⎠ ⎦⎥
⎣⎢⎝
(20)
⎡⎛
⎞⎤
⎟⎥
⎢⎜
1
1
∂H
⎟⎥ = 0 .
= + a1 − E ⎢⎜
∂μ σ
⎢ ⎜⎜ 1 − ξ ( x − μ ) ⎟⎟ ⎥
⎢⎣ ⎝
σ
⎠ ⎥⎦
(21)
Simplificando as equações (18) em relação a (21), temos, respectivamente:
⎡⎛
ξ (x − μ ) ⎞ ⎤
1
E ⎢⎜ 1 −
⎟⎥ = −
σ
1 − a1
⎠⎦
⎣⎝
(22)
⎡⎛ ξ (x − μ ) ⎞ ⎤
⎟⎥
⎢⎜
σ
⎟⎥ = 1
E ⎢⎜
⎢ ⎜⎜ 1 − ξ ( x − μ ) ⎟⎟ ⎥ ξ a1
σ
⎠ ⎦⎥
⎣⎢ ⎝
(23)
⎡⎛ ξ (x − μ ) ⎞ ⎤
⎟⎥
⎢⎜
σ
⎟⎥ = 1
⎜
E⎢
⎢ ⎜⎜ 1 − ξ ( x − μ ) ⎟⎟ ⎥ ξ a1
σ
⎠ ⎦⎥
⎣⎢ ⎝
(24)
⎡⎛
⎞⎤
⎟⎥
⎢⎜
1
⎟⎥ = 0
E ⎢⎜
⎢ ⎜⎜ 1 − ξ ( x − μ ) ⎟⎟ ⎥
⎢⎣ ⎝
σ
⎠ ⎥⎦
(25)
Observa-se que a equação (25) não tem solução viável. As equações (23) e
(24) são as mesmas. Para se obter uma solução única, será preciso adicionar
equações, que serão obtidas através da diferenciação dos multiplicadores de lagrange
e igualando a zero. Para finalizar em termos da equação (11), será escrita como:
37
⎧
⎡ ξ (x − μ )⎤ ⎫
a 0 = ln ∫ exp ⎨ − a1 ln ⎢1 −
⎥⎦ ⎬ dx , (26)
σ
⎣
⎩
⎭
μ
∞
Diferenciando-se a equação (26), em relação à a1 , tem-se:
∞
⎧
∫μ exp ⎨⎩ − a
∂a 0
=−
∂ a1
∞
1
⎡ ξ (x − μ )⎤ ⎫ ⎡ ξ ( x − μ )⎤
ln ⎢1 −
⎥⎦ ⎬ ln ⎢⎣1 −
⎥⎦ dx
σ
σ
⎣
⎭
⎡
∫μ exp ⎢⎣ − a
0
⎧ ξ ( x − μ )⎫ ⎤
ln ⎨1 −
⎬ ⎥ dx
σ
⎩
⎭⎦
∞
∂a 0
⎧
⎡ ξ ( x − μ )⎤ ⎫ ⎡ ξ ( x − μ ) ⎤
= − ∫ exp ⎨ − a 0 − a1 ln ⎢1 −
⎥⎦ ⎬ ln ⎢⎣1 −
⎥⎦ dx
σ
σ
∂ a1
⎣
⎩
⎭
μ
∂a 0
⎧ ⎡ ξ (x − μ )⎤ ⎫
= − E ⎨ ⎢1 −
⎥⎦ ⎬ .
∂ a1
σ
⎩⎣
⎭
(27)
De acordo com Tribus (1969):
∂ 2a0
⎧ ⎡ ξ (x − μ )⎤ ⎫
= var ⎨ ln ⎢1 −
2
⎥⎦ ⎬
σ
∂ a1
⎩ ⎣
⎭
(28)
onde var [.] representa a variância da quantidade entre chaves. Da equação (12),
temos:
⎛σ
a 0 = ln ⎜⎜
⎝ξ
⎞
⎟⎟ − ln (1 − a1 ) (29)
⎠
diferenciando a equação (39) em relação à a1 , tem-se:
∂a 0
1
=
∂ a1 1 − a1
∂ 2 a0
1
=
2
∂ a 1 (1 − a1 )2
(30)
(31)
comparando a equação (40), com a equação, com a equação (37), obtem-se:
⎧ ⎡ ξ (x − μ )⎤ ⎫
1
E ⎨ ln ⎢1 −
⎬=−
⎥
σ
(1 − a1 )2
⎦⎭
⎩ ⎣
(32)
Que por sua vez é igual à equação (32). Comparando a equação (41) com a
equação (37), tem-se:
⎧ ⎡ ξ ( x − μ )⎤ ⎫
1
var ⎨ ln ⎢1 −
(33)
⎬=−
⎥
σ
(1 − a1 )2
⎦⎭
⎩ ⎣
Portanto, a equação de estimação dos parâmetros da distribuição generalizada
de Pareto pelo princípio da máxima entropia consiste das equações (22), (23) e (33).
38
Da equação (15), nota-se que a1 = 1 −
1
ξ
, substituindo esse valor nas equações (22),
(23) e (33), tem-se:
⎧ ⎡ ξ (x − μ )⎤ ⎫
E ⎨ ln ⎢1 −
⎥⎦ ⎬ = −ξ
σ
⎩ ⎣
⎭
⎧ ⎡
⎤⎫
⎪⎪ ⎢
⎥ ⎪⎪
1
1
E ⎨ ln ⎢
=−
⎥
⎬
(
)
1−ξ
⎪ ⎢1 − ξ x − μ ⎥ ⎪
⎪⎩ ⎣
σ
⎦ ⎪⎭
⎡ ⎛ ξ ( x − μ ) ⎞⎤
2
var ⎢ln⎜1 −
⎟⎥ = ξ .
σ
⎠⎦
⎣ ⎝
Nesse capítulo foi estudada a forma analítica dos métodos de estimação dos
parâmetros da GPD, em relação ao estimador de máxima verossimilhança verificamos
que o mesmo não possui solução analítica, devendo ser utilizados soluções
numéricas para encontrá-los.
O estimador de máxima entropia foi desenvolvido de forma integral, partindo
desde a construção da função de entropia da GPD até encontrar a forma analítica dos
mesmos, uma vez que esse método tem-se mostrado bastante eficiente para estimar
os parâmetros da GPD.
O capítulo 4 vem da necessidade de como em qualquer análise estatística
verificar a qualidade do ajuste dos dados, por essa razão no capítulo seguinte serão
abordados dois métodos para diagnosticar o ajuste do modelo aos dados. Um será
através de métodos gráficos e o outro para testar realmente o ajuste, o qual será feito
através do teste Anderson-Darling.
39
CAPÍTULO 4: DIAGNÓSTICO DE ADEQUAÇÃO DO MODELO
Na prática, em geral, dispõe-se de dados de uma variável aleatória cuja
distribuição da população é desconhecida. Assim, é necessário, identificar a
distribuição de probabilidade com melhor aderência aos resultados experimentais. Em
algumas situações, é possível utilizar informações de outras variáveis que descrevem
fenômenos aleatórios similares. Dessa maneira, seria estimada uma possível
distribuição de probabilidade, então o problema seria estabelecer um critério de
aceitação ou rejeição do modelo. Por outro lado, em muitos casos não se tem idéia da
distribuição da variável. Quando isso acontece os métodos gráficos, podem ser
utilizados para ver se a distribuição de probabilidade se adere aos dados, conforme
descrito a seguir.
Coles (2001), os excessos do limiar u, x(1) ≤ .... ≤ x( k ) e um modelo estimado
^
H , o gráfico de probabilidades consiste dos pontos:
^
⎧⎛ i
⎫
⎞
, G ( x(i ) ) ⎟, i = 1,...., k ⎬
⎨⎜
⎠
⎩⎝ k + 1
⎭
^
Onde G ( x) é dado de acordo com a equação (2).
^
O gráfico dos quantis, de acordo com Coles (2001), quando ξ ≠ 0 é constituído
do conjunto de pontos:
⎧⎪⎛ ^ −1 ⎛ i ⎞
⎫⎪
⎞
⎟, x (i ) ⎟⎟, i = 1,...., k ⎬ , onde
⎨⎜⎜ G ⎜
⎪⎩⎝
⎪⎭
⎝ k +1⎠
⎠
^ −1
^
σ
G = u + ^ ⎛⎜ ( x − u ) −ξ − 1⎞⎟
⎠
ξ⎝
^
Coles (2001) afirma, ainda, que se o modelo estimado for razoável para os
excessos de u, tanto o gráfico de probabilidades normal como os de quantis devem
ser aproximadamente lineares.
O nível de retorno, conforme Coles (2001) consiste do conjunto de pontos
^
⎧⎛ ^ ⎞⎫
⎨⎜ m, z m ⎟⎬ para valores grande de m, onde x m são estimativas de m-observaçoes do
⎠⎭
⎩⎝
nível de retorno:
40
⎡
⎤
ξ
σ ⎛ ^ ⎞
z m = u + ^ ⎢⎜ m ς u ⎟ − 1⎥
⎢
⎥
⎠
ξ ⎣⎝
⎦
^
^
^
A escala utilizada é logarítmica, por tanto é de fundamental importância testar o
ajuste do modelo, uma vez que a estimação errada do parâmetro de forma pode levar
a previsão bastante distorcida da realidade.
4.1 Teste de Adequação do Modelo
Os métodos gráficos descrito acima dão apenas um diagnóstico do ajuste
do modelo, para confirmar a aderência dos dados é necessário testar realmente o
ajuste, onde alguns testes de hipóteses não paramétricos podem ser utilizados
para esse fim, uma vez que. Estes consideram a forma da distribuição da
população em lugar dos parâmetros por esse motivo são chamados de testes não
paramétricos, sendo que no caso de extremos, a idéia e pegar um teste que não
seja sensível as caudas, como é o caso do teste de Anderson-Darling.
O teste de Anderson-Darling é um dos testes estatísticos mais poderosos
para detectar a aderência dos dados às distribuições caudais. É uma generalização do
teste de Klmogorov-Smirnov (KS), porém dando mais peso às caudas. Ele é também
uma alternativa ao teste Qui-Quadrado. Pode ser usado com tamanhos de amostra
pequenos n ≤ 25 .
O teste avalia, em geral, se a amostra vem de uma distribuição qualquer
especificada. A fórmula para o teste estatístico A para avaliar se os dados (Y1 ,...., Yn ) ,
ordenados vêm de uma distribuição com função de distribuição F, é dado por:
A 2 = − n − S , onde
S =∑
2k − 1
[ln F (Yk ) + ln(1 − F (Yn+1−k ))]
n
O teste estatístico pode então ser comparado contra os valores críticos da
distribuição teórica (dependendo de qual função de distribuição Fx é usada) para
determinar o valor-p.
Por fim, depois de escolhido o método de estimação do máximo, onde
presente estudo será através da escolha de um limiar u, portanto a modelagem
será via GPD. Feito isso a idéia seguinte é escolher o limiar de acordo com os
métodos sugeridos no capítulo 2 e em seguida estimar os parâmetros da
distribuição generalizada de Pareto, pelos métodos vistos no capítulo 3, feito isso o
41
passo final será verificar a aderência dos dados a GPD, onde será feito um
diagnóstico gráfico como descrito nesse capítulo e por último testado à aderência
através do teste de Anderson Darling, que com foi descrito é o mais adequado
para testar as caudas.
No capítulo 5 será feito o estudo de caso no município de João Câmara, NE
do Brasil, onde em 1986 foi registrado o maior sismo já catalogado no país. Os
dados utilizados para esse estudo foram os sismos registrados de maneira
continua por um sismógrafo eletrônico no período de 1987 a 1988. Pelo
comportamento dos sismos, o modelo que aparece como candidato natural é o da
GPD, por que a idéia e escolher um sismo e em seguida analisar todos aqueles
acima dele. Dessa forma a idéia e escolher o limiar utilizando a técnica gráfica
vista no capítulo 2, na secção relacionada à escolha do limiar e em seguida serão
estimados os parâmetros da GPD, de acordo com os métodos estudados no
capítulo 3 e comparados através do erro padrão, com o objetivo de identificar os
métodos mais eficientes e por ultimo iremos verificar a aderência dos dados, sendo
feito um diagnóstico de ajuste através de métodos gráficos e em seguida testada a
aderência através do teste de Anderson Darling, pois como foi descrito nesse
capítulo é o teste mais adequado para medir o ajuste das caudas.
42
CAPÍTULO 5: ESTUDO DE CASO: JOÃO CÂMARA – RN
O município de João Câmara localizado no estado do Rio Grande do Norte,
nordeste do Brasil, possui uma área 714,95 km2 e uma população de 30.423
habitantes segundo o IBGE (2007), sendo um dos municípios com maior atividade
sísmica no país. A Figura 6 mostra as coordenadas geográficas do município, a
legenda usada para a localidade pelo Instituto Brasileiro de Geográfica e Estatística é
JoCra.
Figura 6: Localização do município de João Câmara – RN, Brasil.
5.1 Caracterização do Município e o Sismo Histórico
O município de João Câmara esta situado na mesorregião Agreste Potiguar e
na microrregião Baixa Verde, limitando-se com os municípios de Parazinho, Touros,
Pureza, Poço Branco, Bento Fernandes, Jardim de Angicos, Jandaíra e Pedra Preta,
abrangendo uma área de 714,95 km2, inseridos nas folhas Pureza (SB.25-V-C-I) e
João Câmara (SB.25-V-C-IV), na escala de 1:100.000, editadas pela SUDENE. A sede
do Município tem uma altitude de 160m e apresenta coordenadas de 05º32’16,8’’ de
latitude sul e 35º49’12,6’’ de longitude oeste, distando da capital cerca de 86 km,
sendo seu acesso a partir de Natal, efetuado através da rodovia pavimentada BR-406.
“O Nordeste brasileiro é a região onde ocorrem atividades sísmicas com maior
freqüência. O registro desse tipo de fenômeno é conhecido, com segurança, desde
1724 (Salvador - BA). Há 200 anos, no dia 8 de agosto de 1808 ocorreu o tremor de
43
Açu, de magnitude estimada em 4.8, sentido no Rio Grande do Norte, Ceará, Piauí e
Pernambuco. Desde então vários tremores ocorreram na região, geralmente na forma
de enxames em que a atividade se prolonga por até 10 anos, causando muitas vezes
danos em edificações, além de pânico e fuga da população como aconteceu em João
Câmara (RN - 1950, 1986 e 1991), Caruaru (PE - 1967) e em Doutor Severiano/Pereiro
(RN - 1968). Até o presente ocorreram três eventos de magnitude maior ou igual a 5.0
no Nordeste, todos causando grandes danos em edificações na área epicentral, com
colapso de paredes: em Cascavel (CE), com magnitude 5.2 em 1980; e João Câmara
(RN) por duas vezes, em 1986 (5.1) e em 1991 (5.0). Segundo Joaquim Mendes
Ferreira, coordenador do Laboratório Sismológico da UFRN, que faz parte do recémcriado Departamento de Geofísica, o estudo da atividade sísmica se faz necessário para
o planejamento do desenvolvimento da região, pois, através dele é possível avaliar com
precisão o risco sísmico. Em julho de 1986 tem início a mais espetacular atividade
sísmica ocorrida no Brasil, em João Câmara (RN), onde foram registrados entre 1986 e
1993 mais de 50 mil tremores, em sua maioria microtremores. Neste período, foram
registrados dois tremores de magnitude igual ou superior a 5.0 e mais de 20 tremores
de magnitude igual ou superior a 4.0, que causaram danos extensos a muitas
edificações e pânico na população. Pesquisadores do país e do exterior acorreram ao
local e, após o maior tremor, ocorrido em 30 de novembro de 1986, de magnitude 5.1,
até o presidente da República na época, José Sarney, esteve lá.”
Fonte: http://www.sbgf.org.br/publicacoes/boletins/boletim5_2008.pdf
Danos significativos ocorreram tanto na área urbana como na rural fazendo
com que grande parte da população abandonasse a cidade, bem como a presença do
presidente da Republica na época. A Figura 7 ilustra a ação dos bombeiros no
município depois da ocorrência do sismo histórico.
Figura 7: Atuação dos bombeiros na área urbana de João Câmara, ocasionado pelo
tremor de 30/11/86.
44
O sismo causou danos em muitas construções na área urbana da cidade, pois
na época as construções de uma maneira geral não estavam preparadas para esse
tipo de fenômeno, como pode ser visto na Figura 8.
Figura 8: Danos na área urbana de João Câmara, ocasionado pelo tremor de
30/11/86.
Na área rural os efeitos foram ainda mais fortes, como pode ser visto na Figura
9, pois as casas da área rural eram construídas de forma muito precária.
Figura 9: Efeitos na zona rural do maior sismo ocorrido em João Câmara.
O efeito do sismo causa grande repercussão nacional, tanto que na época até
o presidente da república José Sarney e alguns de seus ministros visitaram a
localidade, como pode ser visto na Figura 10.
Ações da Secretaria de Defesa Civil, além de entidades estaduais e federais,
ajudaram a minimizar os problemas dos habitantes locais. Os sismos destruíram ou
danificaram 4.000 casas e 500 delas foram reconstruídas adotando certas normas
anti-sísmicas, desenvolvidas pelo Batalhão de Engenharia do Exército. Os grupos de
sismologia da UnB, USP e da UFRN desdobraram esforços para documentar, estudar
e mesmo orientar as autoridades diante da constância dos abalos sísmicos.
45
Figura 10: Chefe da defesa civil presta esclarecimentos ao Presidente da República
sobre a atividade sísmica de João Câmara.
5.2 Análise dos Dados
A análise dos dados foi feita no programa R, versão 2.6, através do pacote
POT, com exceção do método da máxima entropia, todos os outros estão
implementados nesse pacote e para implementar o POME foi utilizada a função optim,
para poder encontrar as estimativas desse método.
Foram catalogados 2733 sismos forma continua no período de 23/05/1987 a
07/07/1988, o modelo utilizado foi o POT, pois a idéia era observar os sismos acima
de um limiar, portanto a modelagem do sismo máximo foi feito através da distribuição
generalizada de Pareto. Inicialmente selecionou-se o limiar, para essa seleção foi
utilizada a técnica gráfica baseada na linearidade da função média dos excessos
empíricos descrita no Capítulo 2 (sessão 2.3.1). Esse método auxilia na determinação
do limiar u alto o suficiente para a aproximação da distribuição dos excessos por uma
GPD seja justificada. Dessa forma, iremos escolher u tal que a partir dele os excessos
é aproximadamente linear para x ≥ u . Além disso, foi feito também o gráfico de
dispersão para que fosse verificada a dispersão dos dados em relação ao limiar
escolhido. As Figuras 11 e 12 ilustram os procedimentos clássicos adotados para a
seleção do limiar e a inspeção visual do processo pontual.
Analisando a Figura 11 percebemos que fazer a escolha adequada do limiar
por esse procedimento não é tarefa fácil. No entanto, pela Figura 11 podemos verificar
que a linearidade começa um pouco antes de 1,5º. Por isso, para os dados dessa
tomada, escolhemos u=1,4º. Na Figura 12 vemos que a escolha do limiar segue as
recomendações de Coles (2001), uma vez que o limiar não é muito baixo, de forma
que venha a afetar o comportamento assintótico, e nem muito alto de forma que
fiquem poucos máximo para a análise.
46
Figura 11: Representação gráfica da vida média residual da variável aleatória sismos
no município de Câmara – uma ferramenta para a seleção do limiar de valores
extremos.
Figura 12: Representação gráfica da dispersão temporal dos sismos no município de
Câmara. A linha vermelha representao limiar selecionado.
47
Após a seleção do limiar u, passaremos a analisar os parâmetros da GPD,
dando uma maior atenção ao parâmetro de forma (ξ ) , pois é ele quem define o tipo
de distribuição generalizada de Pareto a utilizar para estimar os sismos, dessa forma
na Tabela 1, são apresentadas as estimativas não só para o parâmetro de forma, mas
também para o de escala (σ ) por todos os métodos vistos no Capítulo 3 bem como o
erro padrão de cada.
Como o parâmetro de forma define o tipo de distribuição, na tabela 1, vemos
que a distribuição sugerida para modelar os sismos é a Pareto comum ou Beta e os
métodos que se obtiveram melhor desempenho, foi o da máxima entropia e o da
máxima verossimilhança, uma vez que obtiveram o menor erro padrão.
Método
Estimativa
^
^
Erro Padrão
^
^
^
ξ
σ
u
ξ
σ
POME
-0,2998
0,4564
1,4340
0,0506
0,0455
MLE
-0,2892
0,5820
1,4340
0,0555
0,0466
MPLE
-0,2892
0,5820
1,4340
0,0555
0,0466
PICKANDS
-0,4899
0,5496
1,8070
0,9124
0,8260
MOM
-0,2163
0,4427
1,8070
0,0864
0,0522
PWMB
-0,1737
0,4272
1,8070
0,1049
0,0554
PWMU
-0,1682
0,4252
1,8070
0,10455
0,0551
MDPD
-0,2766
0,4660
1,8070
0,3589
0,3245
MED
-0,2356
0,5127
1,8070
0,2583
,3015
MGF
-0,2163
0,4427
1,8070
0,0864
0,0522
Tabela 1: Estimativa dos parâmetros da distribuição generalizada de Pareto, através
dos métodos de estimação propostos bem como o erro padrão, dos parâmetros de
forma e escala.
Na Tabela 1 vimos que os métodos da máxima entropia e o da máxima
verossimilhança, foram os mais eficientes, dessa forma, iremos verificar o ajuste da
GPD por esses dois métodos. Nas figuras de 13 a 26 temos tem-se uma visão geral
do ajuste da GPD. Nestas figuras, inicialmente tem-se o gráfico das probabilidades,
onde no eixo das abscissas (x) são as probabilidades empíricas e no eixo das
ordenadas (y) as probabilidades do modelo, caso os dados dêem um bom ajuste a
GPD, esse gráfico deve ter um comportamento linear, o segundo gráfico é o gráfico
QQ-Plot, sendo no eixo das abscissas (x) os quantis do modelo e no eixo das
48
ordenadas (y) os quantis empíricos, a análise é similar a do gráfico de probabilidades,
se os dados tiverem um bom a juste a GPD, espera-se que esse gráfico tambem seja
linear. O terceiro gráfico é o que mede o ajuste entre a distribuição teórica e a
empírica, se os dados tiverem um bom ajuste espera-se que as duas curvas fiquem
bem próximas e por fim temos o gráfico que estima os vários níveis de retorno
associado aos períodos de retorno, esse gráfico ira permitir analisar o período de
retorno dos sismos associado ao nível de retorno dos mesmos. Portanto as Figuras 13
e 14 mostram essas análises para os métodos da máxima entropia e da máxima
verossimilhança respectivamente, sendo que esses diagnóstocos foram obtidos
também para todos os outros métodos estudados como pode ser visto no Apêndice C.
Figura 13: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto
pelo método da Máxima Entropia( POME).
49
Figura 14: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto
pelo método da Máxima Verossimilhança (MLE).
Os diagnósticos das Figuras 13 e 14 nos fornecem indícios de que os sismos
podem ser modelados via GPD utilizando os métodos POME e MLE, onde a cada dez
dias espera-se que na localidade ocorra um sismo de 1,5º, já para o sismo de 2,0º o
seu retorno esta previsto para cada cinqüenta dias, para o de 2,5º a cada quinhentos
dias e para o de 3,0º a cada cinco mil dias como pode ser visto nos gráficos citados
acima. Por fim, para o sismo mais intenso ocorrido na região o de 5,1º espera-se que
ocorra a cada dez milhões e oitocentos mil dias (aproximadamente 300 anos), que
devido à escala não aparece no gráfico, mas foi calculado no R, pelo pacote utilizado
para a análise.
Com o intuito de confirmar a adequação dos dados sísmicos a uma GPD
aplicou-se do teste de Anderson Darling, para os dois métodos que se mostraram mais
eficientes. Os p-valor são apresentados na Tabela 2, indicando que a distribuição
generalizada de Pareto descreve os excessos dos sismos, dando evidencias
estatísticas que a escolha do limiar foi satisfatória.
Método
Teste de Anderson Darling (p-valor)
MLE
0,821
POME
0,815
Tabela 2: Testes para o ajuste dos dados a GPD estimada.
50
5.3 - Reconstrução de Extremos via Simulação Monte Carlo
Para estudar o desempenho dos métodos de estimação para períodos mais
longos (10,15 e 20 anos), foi feita uma reconstrução do sinal do sismo, utilizando
simulações de Monte Carlo, tato pelo MLE como pelo POME para os períodos citados,
como pode ser visto nos gráficos de 15 a 20, onde os mesmos dão indícios de um
bom ajuste para períodos futuros. Sendo que essa reconstrução deve seguir o
teorema de Nyquist-Shannon, onde o mesmo diz que para a reconstrução de um sinal
a freqüência deve ser o dobro do espectro. Como o sismo é um sinal, tomou-se
cuidado para verificar se o mesmo seguia esse procedimento, uma vez que o principio
de reamostragem em sinal consiste da conversão de um sinal em uma seqüência
numérica.
Figura 15: Reconstrução dos sismos no Município de João Câmara, pelo método da
Máxima Verossimilhança para um período de 10 anos.
51
Figura 16: Reconstrução dos sismos no Município de João Câmara, pelo método da
Máxima Entropia para um período de 10 anos.
Figura 17: Reconstrução dos sismos no Município de João Câmara, pelo método da
Máxima Verossimilhança para um período de 15 anos.
52
Figura 18: Reconstrução dos sismos no Município de João Câmara, pelo método da
Máxima Entropia para um período de 15 anos.
Figura 19: Reconstrução dos sismo no Município de João Câmara, pelo método da
Máxima Verossimilhança para um período de 20 anos.
53
Figura 20: Reconstrução dos sismos no Município de João Câmara, pelo método da
Máxima Entropia para um período de 20 anos.
54
CAPÍTULO 6: CONSIDERAÇÕES FINAIS
A análise dos valores dos sismos medidos de forma continua no sismógrafo
digital no período de 23/05/1987 a 07/07/1988 no município de João Câmara - RN
através da distribuição generalizada de Pareto permitiu verificar que para a estimação
dos parâmetros, os métodos da máxima entropia e o da máxima verossimilhança são
os mais eficientes. Pelo fato do parâmetro de forma ser negativo, não só pelos
métodos mais eficientes, mas sim por todos os métodos em que os dados foram
analisados, a distribuição mais adequada para fazer previsões/predições é a
distribuição de Pareto comum ou Beta com um limiar estimado de 1,4º.
Com esse ajuste, verificou-se que o período de retorno estimado de
aproximadamente dez dias, prevê sismos de 1,5º, que não são sentidos pela
população, por outro lado um sismo de 2,5º que já é percebido pela população estimase que ocorra a cada 500 dias, já o sismo histórico aquele que esta no imaginário
popular ocorrido em novembro de 1986, é pouco provável, pois o seu nível de retorno
é para 300 anos.
Por tanto um dos pontos importantes concernentes aos eventos severos é
caracterizá-los e entender com profundidade a sua natureza, origem e conseqüências.
Este ponto é crucial para melhor previsibilidade e divulgação para usuários, seja em
termos de alertas ou informações diversas para os órgãos competentes de apoio bem
como para a população em geral.
A utilização da teoria de valores extremos e do procedimento
apresentado, especificamente para análise da ocorrência de sismos, apresenta
a vantagem adicional de se obter uma distribuição que melhor se ajusta aos
períodos de retorno, ou seja, previsões poderão ser feitas com mais segurança.
Os dados sísmicos são raros e de difícil obtenção, necessitando de um grande
esforço técnico para a sua realização e são fundamentais para a verificação das
metodologias de previsão, por essa razão um dos limitadores do trabalho são
justamente os dados, portanto ser faz necessária uma monitoração mais continua para
que a qualidade das previsões/predições sejam mais confiáveis
Desta forma, considerando a análise estatística realizada, as conclusões
obtidas e as limitações existentes, fica como sugestão para trabalhos futuros verificar
como a partir da distribuição generalizada de Pareto, como e com qual precisão, é
possível estimar as durações de sismos máximos, além disso, se possível, verificar o
ajuste da GPD num espaçamento uniforme (se possível), modelar o risco sísmico para
55
as regiões de maior intensidade sísmica no Rio Grande do Norte e no caso para todo
o Nordeste brasileiro.
Este trabalho representa uma primeira tentativa a nível local de se modelar sismos
na região, haja vista que não se tem nenhum trabalho documentado nesse sentido.
Espera-se que os resultados obtidos possam contribuir para o conhecimento do
processo sísmico, a fim de orientar os impactos tanto desse tipo de evento tanto a
nível técnico quanto econômico.
56
REFERÊNCIAS BIBLIOGRÁFICAS
[1] Balkema, A.A. e Haan, L. de (1974). Residual life time at great age. Ann. Probab. 2,
792-804.
[2] Bautista, E. A. L. A. (2002). Distribuição Generalizada de Valores Extremos no
Estudo da Velocidade Máxima do Vento em Piracicaba, SP. Piracicaba -SP: ESALQ,
Tese (Doutorado em Agronomia) - Escola Superior de Agricultura Luiz de Queiroz,
p.47.
[3] Brabson, B.B. e Palutikof, J.P. (2000). “Tests of the Generalized Pareto Distribution
for predicting extreme wind speeds.” Journal of Applied Meteorology, p.39 .
[4] Coles S. (2001). Introduction to Statistical Modelling of Extreme Values, Springer.
[5] Coles, S. e Dixon. M. (1999). Likelihood-based inference for extreme value models,
Extremes ,p. 23.
[6] Davison, A. (1984). Modelling excesses over high thresholds, with an application, in
J. de Oliveira, ed., 'Statistical Extremes e Applications', D. Reidel, p. 461-482.
[7] Dekkers, A. L. ,M, de HaanL. (1989). On the estimation of the extreme value index
and large quantile estimation, Ann, Statist, p.17.
[8] Dupuis, D.J. e Tsao, M. (1998). A hydrid estimator for the Generalized Pareto and
Extreme-Value distributions. Communications in Statistics: Theory and Methods, p.27.
[9] Fisher, R.A., Tippett, L.H.C. (1928). Limiting forms of the frequency distribution of
the largest or smallest member of a sample. Proceedings of the Cambridge
Philosophical Society, p.180-190.
[10] Gnedenko, B.V. (1943). Sur la distribution limite du terme maximum d’une serie
aléatorie. Annales des Mathemátiques, p.423-453.
[11] Haan, L. e Lin, T. (2001). On convergence toward an extreme value distribution in
C [0,1]. Annalys of Prob. , p. 467-483.
[12] He, X, e Fung, W,K. (1999), “Method of Medians for life time data with Weibull
models”,Statistics in Medicine ,p. 1993-2009.
[13] Hosking, J. R. M., Wallis, J. R., e Wood, E. F. (1985b),Estimation of the
generalized extreme-value distribution by the method of probability-weighted moments.
Technometrics, , p.251-261.
[14] Hosking, J. and Wallis, J. (1987). 'Parameter and quantile estimation for the
generalized Pareto distribution', Technometrics , p. 339-349.
57
[15] Jaynes, E. T. (1961), Probability Theory in Science and Engineering. McGraw-Hill,
New York, USA.
[16] Jaynes, E. T. (1968). Prior probabilities. IEEE Trans. Syst. Man. Cybern. (SSC-4),
p. 227-241.
[17] Jenkinson, A. F. (1955). The frequency distribution of the annual maximum (or
minimum) of meteorological elements, Quarterly Journal of the Royal Meteorological
Society, London, p.158-171.
[18] Júarez S. F., William S. R. (2004), Robust and Efficient Estimation for the
Generalized Pareto Distribution.
[19] Luceño A. (2006), Fitting the generalized Pareto distribution to data using
maximum goodness-of-,t estimators, Computational Statistics & Data Analysis, p.904917.
[20] Levine, R. D. e Tribus, M. (1979). The Maximum Entropy Formalism. MIT Press,
Cambridge, Massachusetts, USA.
[21] Oztekin, T. (2004). Comparison of Parameter Estimation Methods for the ThreeParameter Generalized Pareto Distribution, University of Gaziosmanpaßa, Faculty of
Agriculture, Agriculture Technology, Tokat – TURKEY.
[22] Patutikof, J.P., Brabson, B.B., Lister, D.H. e Adcock, S.T. (1999). “A review of
methods to calculate extreme wind speeds.” Meteorol. Appl. 6, p.119-132.
[23] Pisarenko ,V.F., A. Sornette, D. Sornette e M.V. Rodkin (2008). Characterization of
the Tail of the Distribution of Earthquake Magnitudes by combining the GEV and GPD
descriptions of Extreme Value Theory.
[24] Pickands III, J. (1975). Statistical inference using extreme order statistics. Ann.
Statist. 3, p.119-131.
[25] Rheinboldt, W.C. (1998). Methods for Solving Systems of Nonlinear Equations,
SIAM, PA, USA. P.148.
[26] Shalizi, C. R. (2007). Maximum Likelihood Estimation for q-Exponential (Tsallis)
Distributions, Statistics Department, Carnegie Mellon University.
[27] Shannon C. E. (1998). "Communication in the presence of noise", Proc. Institute of
Radio Engineers, vol. 37, no.1, pp. 10-21, Jan. 1949. Reprint as classic paper in: Proc.
IEEE, Vol. 86, No. 2.
[28] Singh, V. P. e Rajagopal, A. K. (1986). A new method of parameter estimation for
hydrologie frequency analysis. Hydrol. Sci. Technol. , p. 33-40.
58
[29] Singh, V. P. e H. Guo (1995). Parameter estimation for 3-parameter generalized
pareto distribution by the principle of maximum entropy (POME), Department of Civil
Engineering, Louisiana State University, Baton Rouge, Louisiana, USA.
[30] Smith, R.L. (1985). Maximum likelihood estimation in a class of nonregular cases.
Biometrika , p. 67-90.
[31] Smith, R.L. (2001), Extreme Values. Chapter 8 in Environmental Statistics Lecture
Notes v. 5, Univ. of North Carolina.
[32] Singh, V. P. e Fiorentino, M. (1992). A historical perspective of entropy
applications in water resources. In: Entropy and Energy Dissipation in Water
Resources, ed. V. P. Singh & M. Fiorentino, Kluwer. Dordrecht, The Netherlands, p.2161.
[33] Welsh, A.H. e Peng, L. (2001), Robust
Estimate of the Generalized Pareto
Distribution, Australia.
59
APÊNDICES
60
Apêndice A: Rotina no R para analise dos dados
O programa abaixo foi utilizado para encontrar as estimativas, usando o pacote
POT, sendo que para encontrar as estimativas pelo POME, utilizou-se a função optim.
# ==========================================================#
#ANÁLISEDEEVENTOSEXTREMOS
# (SISMOS)
#
#
# ==========================================================#
# LEITURA DOS DADOS
observações= read.table("F:/dados RN2.txt",header=T)
# GRÁFICO DE DISPERSÃO
plot(observações, ylab = "Sismos Observados em João Câmara", xlab = "Período",
main = "João Câmara", type = "p")
# THRESHOLD
t = quantile(observações[,"obs"], prob=0.45, na.rm=T, names = F)
abline(h=t, lty=2, col = 2)
legend("topright", "Threshold", col = "red", lty = 2.5, box.lty = 0, cex=0.8)
# CARREGANDO O PACOTE POT
library(POT)
# AJUSTANDO A GPD
fitted = fitgpd(observações[,"obs"], thres = t, est = 'moments', corr = TRUE)
# MÉDIA DE EVENTOS EXTREMOS
mu <- fitted$nat / diff(range(observações[,"time"]))
# ANÁLISE GRÁFICA
p22 = par(mfrow=c(2,2))
plot(fitted, mu, main="Gráfico das Probabilidades", xlab = "Empírico", ylab="Modelo",
which = 1)
plot(fitted, mu, main="QQ-Plot", xlab = "Modelo", ylab="Empírico", which = 2)
plot(fitted, mu, main="Densidade", xlab = "Quantil", ylab="Densidade", which = 3)
plot(fitted, mu, main="Nível de Retorno", xlab = "Período de Retorno (Anos)",
ylab="Nível de Retorno", which = 4)
# plot(fitted, mu)
# pp(fitted)
# qq(fitted)
# dens(fitted)
# retlev(fitted)
par(p22)
61
Apêndice B:
Rotina no R para gerar as três formas das funções de
distribuição da GEV
#================================================================#
# Ilustração das três funções de distribuições acumuladas da família de valores#
#extremos generalizados (GEV)
#
#===============================================================#
Wei = function(x,alfa,a,b){exp(-(-(x-b)/a)^alfa)}
mal = function(x) x - x + 1
curve(Wei(x,-0.4,2,12),-10,10,ylab="Familia Generalizada de Valores Extremos", col =
"blue")
curve(mal(x),0,10, col = "blue", add = TRUE)
#Gumbell
Gum = function(x,a,b){exp(-exp(-(x-b)/a))}
curve(Gum(x,2,12),-2,10,lty = 1,col = "green",ylab="GEV",add = TRUE)
# Freechet
Frec = function(x,alfa,a,b){exp(-((x-b)/a)^(-alfa))}
curve(Frec(x,0.4,2,12),0,10, add=TRUE, col="black",lty = 1)
legend(-7,.6,legend = c("Gumbel","Frechet","Weibul"), c("green","black","blue"))
Rotina no R para as três formas das densidades da GEV
#================================================================#
# Ilustração das três densidades de probabilidade da família de valores
#
#extremos generalizados (GEV)
#
#===============================================================#
curve((1/2.6)*(1+.3*((x-10)/2.6))^(-4.333333)*exp(-(1+.3*((x-10)/2.6))^(1/0.3)),1.3333,30,ylab="Frechet", col = "green",add=TRUE)
curve((1/2.6)*(1-.3*((x-10)/2.6))^(2.333333)*exp(-(1-.3*((x10)/2.6))^(1/0.3)),2,30,ylab="Weibul", col = "red", add=TRUE)
curve((1/2.6)*(exp(-((x-10)/2.6))*exp(-exp(-(x-10)/2.6))),2,30,ylab="Gumbel", col =
"blue", add=TRUE)
62
Rotina no R para as ilustrar as observações acima de um
excesso
#=======================================#
# Grafico de barras para ilustrar a formação da GPD #
#=======================================#
z<-rpois(100,5)
plot(table(z), type = "h", col = "blue", lwd=12, main="rpois(100,lambda=5)")
#=======================================#
#
Limiar
#
#=======================================#
t = quantile(z[,"Xi"], prob=0.90, na.rm=T, names = F)
abline(h=t, lty=2, col = 2)
legend("topright", col = "blue", lty = 2, box.lty = 0, cex=0.8)
Rotina no R para Ilustração da função densidade de
probabilidade das três formas da distribuição generalizada de
Pareto (GPD).
#================================================================#
# Ilustração das três densidades de probabilidade da distirbuição generalizada
#
#dePareto (GPD)
#
#================================================================#
curve(-0.2*10*x^(1.2),1.3333,30,ylab="Pareto comum ou Beta", col =
"green",add=TRUE)
curve(0.2*10*x^(-0.8),1.3333,30,ylab="Pareto tipo II", col = "green",add=TRUE)
curve(-10*exp^(-10),1.3333,30,ylab="Pareto comum ou Beta", col =
"green",add=TRUE)
63
Rotina no R para Ilustração da convergência da GEV e GPD.
#================================================================#
# Ilustração da convergência da GEV (Frechet) e GPD (Pareto tipo II)
#
#dePareto (GPD)
#
#================================================================#
curve(0.2*10*x^(-0.8),1.3333,30,ylab="Pareto tipo II", col = "blue",add=TRUE)
curve((1/2.6)*(1+.3*((x-10)/2.6))^(-4.333333)*exp(-(1+.3*((x-10)/2.6))^(1/0.3)),1.3333,30,ylab="Frechet", col = "green",add=TRUE)
#================================================================#
# Ilustração da convergência da GEV (Weibul) e GPD (Beta)
#
#dePareto (GPD)
#
#================================================================#
curve(-10*exp^(-10),1.3333,30,ylab="Pareto comum ou Beta", col = "blue",add=TRUE)
curve((1/2.6)*(1-.3*((x-10)/2.6))^(2.333333)*exp(-(1-.3*((x10)/2.6))^(1/0.3)),2,30,ylab="Weibul", col = "red", add=TRUE)
64
Apêndice C:
Ajuste dos dados pelo método de PICKANDS
Mesmo possuindo a menor eficiência entre todos os métodos analisados, notase pelo o diagnóstico gráfico que os dados dão um bom ajuste a GPD por esse
método, a vantagem teórica do método e o fato dele ser robusto.
Figura 21: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto
pelo método de Pickands.
65
Ajuste dos dados pelo método dos MOMENTOS
O método dos momentos da um bom ajuste também para a GPD, e tem a
vantagem de ser o terceiro método mais eficiente, como pode ser visto na Tabela 1.
Figura 22: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto
pelo método de momentos.
66
Ajuste dos dados pelo método da PWMB
Esse método tabalha com uma ponderação no viés dos estimadores, a idéia
dele e diminuir esse viés, sendo que no presente estudo ele não ficou entre os
métodos mais eficientes, sendo que ser podemos notar na figura 23, que os dados dão
um bom ajuste por esse modelo.
Figura 23: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto
pelo método das probabilidades ponderadas viesadas.
67
Ajuste dos dados pelo método da PWMU
A ponderação desse método não em cima do viés, sendo que assim como o
PWMB esse não está entre os métodos mais eficientes, porém ele da um bom ajuste
aos dados, como pode ser visto na figura 24.
Figura 24: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto
pelo método das probabilidades ponderadas não-viesadas.
68
Ajuste dos dados pelo método da MDPD
Depois do método de Pickands, esse foi o que mostrou a menor eficiência em
relação aos outros, pois obteve o segundo maior erro padrão, porém o ajuste dos
dados a esse método se mostram satisfatórios, como pode ser visto na figura 25.
Figura 25: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto
pelo método da divergência média da densidade.
69
Ajuste dos dados pelo método da MED
Mesmo não estando entre os métodos mais eficientes de estimação na
verdade foi o que obteve a terceira pior eficiência, o método da mediana que é um
método robusto, mostra que os dados dão um bom ajuste como pode ser visto na
figura 26.
Figura 26: Ajuste dos sismos de João Câmara via distribuição generalizada de Pareto
pelo método da mediana.
70