ESTATÍSTICA BÁSICA – Revisão Séries Temporais – introdução Climatologia II – ACA226 Prof. Humberto Rocha Referências sugeridas: 1- Estatística, P.L. Costa Neto, Ed. Edgard Blucher 2 - Statistical methods in the atmospheric sciences, D. Wilks (2ª ed. Elsevier 2006) Definições Aleatoriedade (latim alea = destino, sorte, aos dados Alea jacta est): condição sem uma ordem, propósito, previsibilidade. Processo aleatório: não há uma função que o determine exatamente (mas tem uma distribuição de probabilidade, por ex. lançar uma moeda repetidamente, haverá probabilidade de 50% cara e 50% coroa). Variáveis aleatórias (v.a.): aquelas às quais existe um número Real associado a cada evento (ou probabilidade de ocorrência); Série temporal : uma série de eventos discretos, ordenados no tempo. Universo (ou população): conjunto de todos os elementos (ou dados) com uma certa característica comum; Amostra: subconjunto do universo; Climatologia II - ACA226 (Iag/USP) Procedimentos para iniciar uma análise de séries temporais, visando um reconhecimento de padrão até o levantamento para identificar a qualidade dos dados: Inspeção visual por dispersão dos dados Detecção de erros (grosseiros, sistemáticos, aleatórios) Distribuição de Frequência (histogramas) Medidas de posição : Amplitude, Média, Mediana, é preciso reavaliar ? Moda Medidas de Dispersão: Variância ; Desvio padrão ; Coef. variação Climatologia II - ACA226 (Iag/USP) Inspeção Visual Dispersão dos dados Série temporal de uma v.a. Eventos são discretos É Periódica !? Tem a Média estacionária !? Outlier Amplitude de variação da série temporal 50 45 40 35 50 Y 45 Relação entre duas v.a. Y e X 40 35 30 25 30 20 25 15 20 10 15 5 10 0 0 20 40 60 80 100 X 5 0 0 10 20 30 40 Climatologia II - ACA226 (Iag/USP) 50 Distribuição de Frequências Tendo-se uma amostra de v.a., deve-se identificar inicialmente: N = no de dados (domínio, ou período se for série temporal) Máximo e mínimo Classe = subintervalos no domínio da amostra Define-se a amplitude da classe: Por ex arbitrar igual a 0,5 C (homogênea) Amostra: temperatura média durante 11 dias em SP Dia Tmed (C) 1 22,0 2 23,5 3 23,9 4 22,5 5 23,7 6 24,6 7 24,1 N=11 8 23,2 9 22,8 Max = 24,6 C 10 23,4 11 24,2 Min = 22,0 C Climatologia II - ACA226 (Iag/USP) i 1 2 3 4 4 5 Classe i 22,0-22,4 22,5-22,9 23,0-23,4 23,5-23,9 24,0-24,4 24,5-24,9 P(fi)% fi 1 2 2 3 2 1 P(fi) 1/11=0,091 2/11=0,183 2/11=0,185 3/11=0,278 2/11=0,181 1/11=0,091 fac 1 3 5 8 10 11 Pac(%) 1/11=9,1 3/11=27,3 5/11=45,5 8/11=72,7 10/11=90,9 11/11=100 (fi) 30 100 75 20 50 10 25 0 0 22 classe 23 24 fac Pac(%) Climatologia II - ACA226 (Iag/USP) fi (Prop) Área sob a curva da frequência relativa P f i é: n retângulos amplitude i i i f i amplitude amplitude f n amplitude i n n n Notas homogênea Definição das classes heterogêne a Homogênea: no de classes mínimo ~ 5.log n (sugestão inicial) Heterogênea: quando há desproporcionalidade. Exemplo = precipitação diária (mm dia-1) 16 7 1 Climatologia II - ACA226 (Iag/USP) 0,1 5 0,7 4 2,5 4,0 1ª Classe = 1 mm d-1 (por ex suprimindo os eventos de dias sem chuva) Função Densidade de Probabilidade (fdp) À uma v.a. x pode-se associar uma função f(x) proporcional à probabilidade de ocorrência de x tal que F(x) será uma fdp f ( x)dx 1 A probabilidadede de x ocorrer entre (a,b) é b Px a, b a área hachurada f ( x)dx abaixo da curva N f(x) Se (a,b) = (-, +) P=1 a b Climatologia II - ACA226 (Iag/USP) x Medidas de Posição Média (também chamada de primeiro momento) 1 n X xi n i 1 (Prop.1) Somando-se algebricamente uma constante c a uma v.a. xi, a média altera-se igualmente pela soma algébrica de c (Prop.2) multiplicando-se uma constante c a xi, a média fica multiplicada por c Zi X i C Xi Z X deslocamento da média, mantendo-se o padrão de variação Climatologia II - ACA226 (Iag/USP) Mediana : ordenando-se os n valores de uma v.a. xi em ordem crescente, a mediana (md) será igual n 1 , se n ímpar ao valor de ordem 2 n à média dos valores de ordem e 2 n 1, se n par 2 Moda : é o valor de máxima frequência 2 dy d y 0; 2 0 dx x m0 dx x m 0 m0 Exemplo de distribuição bimodal Climatologia II - ACA226 (Iag/USP) Histograma (exemplo anterior) P(fi) Pac 30 100.0 80.0 20 60.0 40.0 10 50% Mediana é o valor de X que corresponde a 50% de probabilidade de ocorrência do evento 20.0 0 2222 23 23 24 24 25 0.0 x 23,4 m0 23,75 md 23,5 Mediana divide o histograma em áreas iguais I II AI AII Climatologia II - ACA226 (Iag/USP) Climatologia II - ACA226 (Iag/USP) Assimetria de histogramas f(x) Simétrico x m0 md f x a f x a a constante a a x Assimetria positiva: predominam valores abaixo da média Assimetria negativa: predominam valores acima da média f(x) f(x) x x m0 md x x viés dos valores superiores x md m0 x viés dos valores inferiores Assimetria da fdp P I P II f x dx f x dx I Assimetria definida como II 1 n 3 aa xi x n i 1 aa ()0 áreaII () áreaI Climatologia II - ACA226 (Iag/USP) Quantis: divide o histograma em área iguais (chamados também de percentis ou fractis), ex: tercil, quartil... Quartil I II III AI IV AII AIII AIV Probabilid ade 1 4 Climatologia II - ACA226 (Iag/USP) Medidas de Dispersão 1) Desvio da média d xi x 2) Amplitude R xmax xmin 3) Variância: é o desvio quadrático médio (σ2 para universo, s2 para amostra) 1 2 xi x s n 1 i Unidade x 2 4) Desvio-Padrão: 2 Unidade x s s2 Achatamento do histograma s2 baixa 5) Coeficiente de variação: s2 alta s c.v. x Adimensional Climatologia II - ACA226 (Iag/USP) Séries temporais: sucessão de eventos no tempo, com decomposição em termos Estocástico e Determinístico padrão estocástico (grego stockhos = intuito, alvo; o alvo é acertado em diferentes pontos): eventos aleatórios cujo estado evolui para um valor não exatamente determinado, ou sejam inúmeras direções ou caminhos possíveis. exemplo:lançar de dados, trajetória do movimento Browniano padrão determinístico : eventos evoluem para um único caminho, geralmente uma função matemática que retorna valor único para cada forçante. determinístico = seno(t) alguns métodos estatísticos de análise de séries temporais: Determinísticos (Regressão Linear, Componentes Principais, Análise Espectral, ...) Estocásticos (modelo auto-regressivo AR, modelo de médias móveis MA, modelo ARIMA ...) regime estacionário • É um regime estocástico cuja distribuição de probabilidade não se altera quando deslocada no tempo, ou no espaço. Consequentemente, parâmetros como média, variância, não se alteram em uma série temporal. ex: Tendência linear indica alteração da média da série histórica; Salto da série indica dois segmentos distintos de tempo, com médias distintas entre si. A distribuição Normal fdp 1 Normal f x e 2 ( x )2 2 2 média de x x desvio padrão de x Sx quando média =0 desvio-padrão = 1 então chama-se distribuição Normal padrão (ou padronizada) Climatologia II - ACA226 (Iag/USP) Normalização ou Variável Normalizada Obedece à seguinte transformação na v.a. Xi Zi Também chamada variável reduzida ou padronizada (standardized) X i X s (Prop.) Média de Z é zero. Transformações Normalizantes a) y ln x (mais simples, pode ser insuficiente) b) y x 1 , tem - se que lim y ln x 0 0 , 1..... 0 ,4 Climatologia II - ACA226 (Iag/USP) Propriedades da Normalização (e vantagens) fdp(z) xi Simétrica x a 2s s s 2s zi a zi t extremos no período Mesmo padrão de oscilação t Variação positiva ou negativa em multiplos do desvio-padrão Conceito de anomalia da média Climatologia II - ACA226 (Iag/USP) Aderência de Dados : como a distribuição de uma amostra ajusta-se à uma distribuição teórica fdp log Normal f x 1 x 2 e ( Ln ( x ) ) 2 2 2 (quando a distribuição de Ln(x) é Normal) Ex: Precipitação diária geralmente não se ajusta à Normal ou se ajusta mais da log-Normal Nota: quantifica-se a aderência com testes específicos (como o teste do qui-quadrado, por exemplo, após aulas de Reg. Linear) Climatologia II - ACA226 (Iag/USP) Como duas v.a. variam simultaneamente ? 1 n 1 n cov x, y xi x yi y x' y 'i x' y ' n i 1 n i 1 Covariância de x,y (def): x 'i y x y 'i y Covariância alta (distante de zero) (e positiva) x' 0 x x' 0 Covariância baixa (aproxima-se de zero) y' 0 y i y' 0 x´ + - + - y´ + - - + x´y´ + + - - Climatologia II - ACA226 (Iag/USP) x se X e Y são variáveis aletatórios nãocorrelacionadas, então cov(X,Y) = 0