M.H.R.H.A__A.T.D.1. – Trabalho 1 Índice Problemas P1 ………………………………………………………. 2 P2 ………………………………………………………. 4 P3 ………………………………………………………. 8 P4 ………………………………………………………. 12 P5 ………………………………………………………. 16 Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 1/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 Todos os cálculos de apoio à resolução dos problemas seguintes, estão apresentados no ficheiro ATD1_rui.xls. P1. Relativamente ao conjunto de dados constituídos pelos máximos anuais do Rio Paiva estime os parâmetros da distribuição ajustada, pelo método dos momentos ponderados de probabilidade. De acordo com os valores apresentados no ficheiro ATD1_rui.xls, em relação aos Dados do Rio Paiva, temos: Número de observações: n = 44 1 n Média: x xi = 302,75 n i 1 2 1 n Variância: s xi x = 160,79 n 1 i 1 2 n Mediana: X n 2 1:n = 276,50 Valor Máximo: 920 Valor Mínimo: 39 Aplicando o Método dos Momentos Ponderados de Probabilidade (Hosking, 1985), e considerando os momentos pesados r E X F X r e de estimadores centrados de : br r 1 n j 1 j 2... j r x j:n , n j 1 n 1n 2...n r Calculamos os seguintes estimadores de , , , no Modelo Generalizado de Valores Extremos através das fórmulas: 2 2b1 b0 ln 2 2b1 b0 ln 2 2.9554 ; 7.8590 3b2 b0 ln 3 3b2 b0 ln 3 2b1 b0 1 1 2 ; 1 1 ; b0 Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 2/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 Os valores dos parâmetros b 0 , b1 , b 2 e dos estimadores (parâmetros de distribuição ajustada) são os seguintes: b0 1 n x j:n x = 302,75 n j 1 1 n j 1 x j:n = 193,6094 n j 1 n 1 1 n j 1 j 2 b2 x j:n =145,3291 n j 1 n 1n 2 b1 2 2b1 b0 ln 2 2b1 b0 ln 2 2.9554 = -0,02394 Índice de cauda: 7.8590 3b2 b0 ln 3 3b2 b0 ln 3 Parâmetro de escala: 2b1 b0 1 1 2 = 124,5285 1 1 Parâmetro de Localização: b0 = 233,7558 O valor de é muito próximo de zero, o que significa que a Distribuição Generalizada de Extremos apresentada pode ser traduzida por uma função de distribuição de Gumbel. Uma outra forma de verificar esta hipótese é construindo um gráfico de papel de probabilidade, com base na função de i . Aplicado aos dados em questão (n = n 1 distribuição de Gumbel, onde se analisa a relação entre xi:n e ln ln 44), o gráfico em papel de probabilidade tem a seguinte representação: Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 3/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 Papel de Probabilidade Caudais Rio Paiva 6 5 2 R = 0,9334 -ln(-ln(i/(n+1))) 4 3 2 1 0 -1 0 100 200 300 400 500 600 700 800 900 1000 -2 x(i:n) Boa correlação (R = 0.966) dos dados a uma função linear, é correcto aceitar a hipótese de que os caudais máximos anuais pudessem ser bem modelados por uma distribuição de Gumbel. Por Gumbel ficaria: x G x exp e , x R x 233,7558 G x exp e 124,5285 , x R P2. Escreva as expressões analíticas da distribuição Generalizada de Extremos para mínimos e derive as expressões correspondentes para os quantis de probabilidade reduzida e para os períodos de retorno. Considerando (x1,x2,…,xn) uma amostra aleatória de X constituída por n observações independentes com função de distribuição Fx (x), de tal modo que sejam estatísticas ordinais: x1:n x2:n… xn:n Então: P(x1:n x) = P(min(x1, x2, …, xn) x) = 1-P(min (x1, x2, …, xn) x) = 1-P(X1 x, X2 x, …, xn x) Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 4/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 Como, P(X x) = F(x), que por definição de função de distribuição e tratando-se de observações independentes t: P X 1:n x 1 F x P(X x) = 1- F(x) n De onde podemos concluir que: P X 1:n x 1 F x n Atendendo à Lei Limite do Mínimo Amostral pode-se dizer que: min X i i 1...n máx X i i 1...n Ficando: P(x1:n x) = 1-P(min (x1, x2, …, xn) x) = 1-P( - máx(-Xi) x ) = 1-P( máx(-Xi) x ) Admitindo as igualdades anteriores e considerando a distribuição generalizada de valores extremos para mínimos análoga à de máximos, vem: x P X 1:n x G * * G x 1 G x onde Os parâmetros , são estimados usando a amostra de máximos ou de mínimos, e G x é a distribuição generalizada de valores extremos para mínimos, que se define (de acordo com o teorema de Gnedenko) por: 1 exp e x , x R, 0 G * x 1 * 1 exp 1 x , 1 x 0 Supondo que se têm N observações e k sub amostras de dimensão n k , e atendendo às expressões anteriores, temos: N 1 1 F x N k x * G* * 1 F ( x )N k G x k 1 F ( x ) G N ( x ) Vem então: Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 5/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 k x N 0 exp e , 1 F ( x) k exp 1 x 1 N , 0 Introduzindo os parâmetros de localização e escala , ,vem: k N x , 0 exp e 1 F ( x) k N 1 x exp 1 , 0 x 1 exp k e , N F( x ) k x 1 exp 1 N 0 1 , 0 É com base nesta função de distribuição que se determinam as expressões para os quantis de probabilidade reduzida e para os períodos de retorno. a) Expressões para o Período de Retorno Seja, T(u) o período de retomo de um nível U, que também se pode designar por número de observações independentes (Xi), em média, que é necessário decorrer até que se volte a observar um acontecimento que excede U, dado por Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 6/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 T u 1 1 F u Como as observações são independentes e admitindo que as observações seguem uma lei de distribuição geométrica, o período de retorno pode ser definido por: 1 , 0 v 1 1 exp k e N T(u)= 1 , 0 1 1 1 exp k 1 x N b) Expressões para os quantis de Probabilidade Reduzida Seja F(p) = P, onde p é a probabilidade de se observarem valores abaixo de p (quantil de probabilidade p), a expressão de F(x), sendo x = p vem: k P 1 exp e , 0 N P 1 k 1 exp 1 P , 0 N k P , 0 N e ln(1-p)= 1 k P , 0 1 N Da primeira parcela da expressão anterior, vem: k Ln(1-p)=- e N P Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 7/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 k p Ln Ln1 p ln N k p Ln ln 1 p ln N Pelo que a expressão para a determinação do quantil de probabilidade reduzida, quando = 0,é: p ln ln 1 p ln k N De modo análogo, para a segunda parcela, vem: 1 p k ln 1 p 1 N 1 p N ln 1 p 1 k N ln 1 p k p N 1 ln 1 p k p 1 p N ln 1 p 1 k Pelo que a expressão para a determinação do quantil de probabilidade reduzida quando 0 é: N p 1 ln 1 p k P3. Considere a variável estatística x. Relativamente a este conjunto de dados, admita válido o ajuste por uma distribuição Generalizada de Valores Extremos (caso possível construa o papel de probabilidade). Os resultados a seguir apresentados são resultados dos cálculos efectuados no ficheiro ATD1_rui.xls: Número de dados: n = 49 Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 8/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 Média: x 1 n xi = 18.42 n i 1 2 1 n Variância: s xi x = 0.996 n 1 i 1 2 n Mediana: X n 2 1:n = 18.5508 Valor Máximo: 19.5623 Valor Mínimo: 15.3525 Face a uma amostra de máximos, é válido o ajuste por uma distribuição de GEV – Gumbel, Fréchet ou Weibull – pode ser feito analisando um gráfico em papel de probabilidade, como primeiro teste de escolha estatística. O papel de probabilidade é construído com base na função de distribuição de Gumbel, onde se analisa a i . Aplicado aos dados, o gráfico em papel de probabilidade fica: n 1 relação entre xi:n e ln ln Papel de Probabilidade 5 -ln(-ln(i/(n+1))) 4 3 2 1 0 -115,0 15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0 -2 x(i:n) Analisando o gráfico, verifica-se que é ligeiramente arqueado com a concavidade voltada para cima, o que significa uma validação informal de um modelo Weibull. Outro método é o Teste de Gumbel, sendo este de escolha de Modelos Extremais, onde o primeiro passo será o de testar a hipótese =0 (H0), e o valor observado pela estatística do teste, que irá indicar um possível modelo, é dada por: Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 9/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 ln n ln ln 2 Wn ln ln nWn , ln ln n ln ln 2 Wn Onde X n:n X n 1:n 2 X n 1:n X 1:n 2 a) Realize o teste de hipótese H0 _ = 0 versus H1 _ ≠ 0. No caso de rejeitar a hipótese H0 construa outros testes com hipóteses alternativas adequadas. W49 0.2764 ln 49 ln ln 2 W49 ln ln 49 0,2764 = -2.4009 ln ln 49 ln ln 2 Então para o teste H0 : = 0 versus H1 : ≠ 0, temos a região crítica (sendo o nível de significância) C Wn g Wn g1 , onde g p representa o quantil de probabilidade p da distribuição de Gumbel, 2 2 definido por g p ln ln p . Adoptando um nível de significância = 0.05 ( 2 0.025 e 1 0.975 ), obtemos: 2 g 0.025 -1,3053 e para g 0.975 3,6762 , Sendo a região crítica deste teste dada por: C Wn 1.3053 Wn 3.6762, conclui-se que W 49 pertence à região crítica, logo rejeitamos H0 e o Modelo de Gumbel. Fazendo agora o teste para H0 : = 0 versus H1 : < 0, temos a região crítica C Wn g , onde para um nível de significância = 0.05, obtemos g 0.05 2,9702 (quantil de probabilidade p = da distribuição de Weibull); conclui-se que W 49 não pertence à região crítica, logo não rejeitamos H0 e aceitamos o Modelo de Weibull. b) Face aos resultados da alínea anterior estime os parâmetros da distribuição, se possível por dois métodos. A estimação dos parâmetros de distribuição pode ser feita através do ajustamento a um Modelo Extremal de Weibull: Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 10/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 x exp x; ; 0 x 0 x 1 E X 1 2 1 Var X 2 1 2 1 1 1 1 Moda se 1 se 0 1 Mediana ln 2 1 Admitindo que E X x 39.70 , Var X sn2 2.52 e que a mediana = X n 1 2 1:n = 40,053 e sabendo que , obtemos a seguinte solução para os parâmetros de distribuição do Modelo de Weibull: = 1.209 =-0.015 = -0.827 = 18.335 Assim a função de distribuição seria a seguinte: x x; ; exp x 40.827 2.6674 exp 1 . 270 Outro método para a estimação dos parâmetros de um Modelo Weibull é através do Método Máximo de Verosimilhança, mas é um método muito pesado em termos de cálculo e seria necessário utilizar algoritmos mais sofisticados que o Newton – Raphson. Sendo assim, um outro método de estimação dos parâmetros é o Método dos Momentos Ponderados de Probabilidade, já apresentado na resolução do P1. Para os dados em questão: Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 11/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 b0 1 n x j:n x = 18.42 n j 1 b1 1 n j 1 x j:n = 9.479 n j 1 n 1 b2 1 n j 1 j 2 x j:n =6.38 n j 1 n 1n 2 2 2b1 b0 ln 2 2b1 b0 ln 2 2.9554 = -0.827 Índice de cauda: 7.8590 3b2 b0 ln 3 3b2 b0 ln 3 Parâmetro de escala: 2b1 b 0 1 1 2 Parâmetro de Localização: b 0 = 1.094 = 18.335 1 1 Índice de cauda é < 0 verifica que estamos perante uma função de distribuição de Weibull: x x; ; exp x 39.436 10.776 exp 2.724 Problema 4. Considere a variável estatística y. Relativamente a este conjunto de dados construa a nova amostra correspondente de 30 excessos acima de um determinado nível elevado. Admita válido o ajuste por uma distribuição Generalizada de Pareto para a variável dos excessos acima do nível u considerado. Caso possível construa o papel de probabilidade. Os resultados a seguir apresentados são resultados dos cálculos efectuados no ficheiro ATD1_rui.xls: Número de dados: n = 199 Número de excessos (outra amostra): k = 30 Valor de y (n = 30): u = 27.2314 A nova amostra deverá ser constituída por 30 excessos, traduzidos pela subtracção do valor u = 27.2314 a cada um dos 30 valores máximos retirados da amostra anterior. Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 12/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 2 1 k xi = 10.295 k i 1 Média: x 1 k Variância: s xi x = 7.767 k 1 i 1 2 k O papel de probabilidade dá uma pré-validação do Modelo Generalizado de Pareto GP x , marcando x i:n i versus ln1 . Como podemos analisar no gráfico seguinte, a amostra escolhida pode ser n 1 aproximada por uma recta dos mínimos quadrados com uma razoável correlação (R = 0.9491). Papel de Probabilidade 4,00 3,50 R2 = 0,9491 -ln(1-i/(n+1)) 3,00 2,50 2,00 1,50 1,00 0,50 0,00 -0,50 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x(i:n) a) Estime os parâmetros da distribuição por dois processos distintos. Modelo Generalizado de Pareto O Modelo Generalizado de Pareto tem como função de distribuição: 1 x 1 1 GP x 0 EX 1. 1 , 1 1 x 0, x 0 x0 Var X 2 1 2 1 2 , 12 Estimação dos parâmetros através do Método dos Momentos: Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 13/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 Considerando: EX x ˆ 1 ˆ Var X sk2 10.295 ˆ 2 1 ˆ 1 2ˆ 2 7.767 Resolvendo este sistema de duas equações e duas incógnitas, obtêm-se os seguintes parâmetros: ̂ 75.392 ̂ -6.323 e Pode-se afirmar que os dados analisados podem seguir uma lei do tipo: x GP x 1 1 6.323 75.392 2. 1 6.323 Estimação dos parâmetros através do Método da Máxima Verosimilhança (M.M.V.) A partir da reparametrização , , obtêm-se as seguintes equações para o calculo dos parâmetros no M.M.V.: 1 n ln1 x i n j1 e xi n n 1 1 j1 1 x i Utilizando o método do ponto fixo para resolver este sistema de equações, e tomando como valor inicial o valor do parâmetro calculado no método dos momentos, obtemos: ˆ 0.997 ˆ 0.035 ˆ ˆ 28.78728 ˆ Pode-se afirmar que através do M.M.V., os dados analisados podem seguir uma lei do tipo: x GP x 1 1 0.997 28.78 Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 1 0.997 14/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 b) Estime o período de retorno de um nível qualquer u0 (à sua escolha) maior que o nível u considerado. O nível u da amostra é 15,037. Vai ser calculado o período de retorno para u0 = 20. A estimação do Período de Retorno para caso de máximos pode ser dada por: Tu 0 1 . 1 Fu 0 A fórmula anterior pode ser aproximada, no caso de k = 30 excessos entre N = 199 observações, por: u u N Tu 0 1 0 k 1 T u0 11,83 O período de retorno para o nível 20, é de aproximadamente 12 observações independentes. P5. Construa a amostra das maiores 50 observações da variável estatística z. Considere que este conjunto de dados é constituído pelas 50 maiores observações de uma amostra de dimensão 800. Considera-se: u = 19.4 mn = 12,5 n = 50 n-mn+1 = 39, corresponde a um z39:50 = 19.762 N = 799 n-kmn+1 = 26, corresponde a um z26:50 = 19.380 k=2 n-k2mn+1 = 1, corresponde a um z1:50 = 18.789 k2mn = 12.5 Use o método das maiores observações para estimar: a) O índice de cauda Para o caso do Método das Maiores Observações (M.M.O.), o índice de cauda pode ser estimado através da formulação para o Estimador de Pickands Generalizado: Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 15/16 Rui Terrível M.H.R.H.A__A.T.D.1. – Trabalho 1 ln ˆ n,k Z nmn 1:n Z nkmn 1:n Z nkmn 1:n Z nk 2m n 1:n onde ln k m n mn 0 n Aplicando a expressão aos dados em questão, obtemos o seguinte índice de cauda: ˆn,k -0.6304 b) O quantil de probabilidade 0.99 Sendo 0 , a expressão para o Estimador de Quantis Elevados, para o M.M.O. é a seguinte: 1p Z nmn 1:n Z nmn 1:n Z nkmn 1:n n 1 ln1 p m 1 k Sendo 1- p = 0.99, fica: 1 p 20.37 c) o período de retorno do nível u = 19.5. Sendo 0 , a expressão para Estimação dos Períodos de Retorno do Nível u dados por 1 , para o 1 Fu M.M.O. é a seguinte: u Z nmn 1:n m Fu exp 1 1 k Z nmn 1:n Z nkmn 1:n n 1 F 19.5 = 0.888 1 = 8.97 T 19.5 1 F 19.5 O período de retorno para o nível u = 19.5 é de aproximadamente 9 observações independentes. Mestrado Hidráulica Recursos Hídricos e Ambiente – F.C.T.U.C. 16/16 Rui Terrível