Aula1_RevEstatistica_4

Propaganda
ESTATÍSTICA BÁSICA – Revisão
Séries Temporais – introdução
Climatologia II – ACA226
Prof. Humberto Rocha
Referências sugeridas:
1- Estatística, P.L. Costa Neto, Ed. Edgard Blucher
2 - Statistical methods in the atmospheric sciences, D. Wilks (2ª ed. Elsevier 2006)
Definições
Aleatoriedade (latim alea = destino, sorte, aos dados Alea jacta est): condição sem uma ordem, propósito, previsibilidade.
Processo aleatório: não há uma função que o determine exatamente (mas tem uma distribuição de probabilidade, por ex. lançar uma
moeda repetidamente, haverá probabilidade de 50% cara e 50% coroa).
Variáveis aleatórias (v.a.): aquelas às quais existe um número Real associado a cada evento (ou
probabilidade de ocorrência);
Série temporal : uma série de eventos
discretos, ordenados no tempo.
Universo (ou população): conjunto de todos os elementos (ou dados)
com uma certa característica comum;
Amostra: subconjunto do universo;
Climatologia II - ACA226 (Iag/USP)
Procedimentos para iniciar uma análise de séries
temporais, visando um reconhecimento de padrão até o
levantamento para identificar a qualidade dos dados:
Inspeção visual por dispersão dos dados
Detecção de erros (grosseiros, sistemáticos, aleatórios)
Distribuição de Frequência (histogramas)
Medidas de posição :
Amplitude, Média, Mediana,
é preciso
reavaliar ?
Moda
Medidas de Dispersão: Variância ; Desvio padrão ; Coef. variação
Climatologia II - ACA226 (Iag/USP)
Inspeção Visual
Dispersão dos dados
Série temporal de uma v.a.
Eventos são discretos
É Periódica !?
Tem a Média estacionária !?
Outlier
Amplitude de variação
da série temporal
50
45
40
35
50
Y
45
Relação
entre duas
v.a. Y e X
40
35
30
25
30
20
25
15
20
10
15
5
10
0
0
20
40
60
80
100
X
5
0
0
10
20
30
40
Climatologia II - ACA226 (Iag/USP)
50
Distribuição de Frequências
Tendo-se uma amostra de v.a., deve-se
identificar inicialmente:
N = no de dados (domínio, ou período se for
série temporal)
Máximo e mínimo
Classe = subintervalos no domínio da
amostra
Define-se a amplitude da classe:
Por ex arbitrar igual a 0,5 C (homogênea)
Amostra: temperatura média
durante 11 dias em SP
Dia
Tmed (C)
1
22,0
2
23,5
3
23,9
4
22,5
5
23,7
6
24,6
7
24,1 N=11
8
23,2
9
22,8 Max = 24,6 C
10
23,4
11
24,2 Min = 22,0 C
Climatologia II - ACA226 (Iag/USP)
i
1
2
3
4
4
5
Classe i
22,0-22,4
22,5-22,9
23,0-23,4
23,5-23,9
24,0-24,4
24,5-24,9
P(fi)%
fi
1
2
2
3
2
1
P(fi)
1/11=0,091
2/11=0,183
2/11=0,185
3/11=0,278
2/11=0,181
1/11=0,091
fac
1
3
5
8
10
11
Pac(%)
1/11=9,1
3/11=27,3
5/11=45,5
8/11=72,7
10/11=90,9
11/11=100
(fi)
30
100
75
20
50
10
25
0
0
22
classe
23
24
fac
Pac(%)
Climatologia II - ACA226 (Iag/USP)
fi
(Prop) Área sob a curva da frequência relativa P  f i  
é:
n
 retângulos   amplitude i  
i
i
f i amplitude 
amplitude

f

n  amplitude

i
n
n
n
Notas
homogênea
Definição das classes 
heterogêne a
Homogênea: no de classes mínimo ~ 5.log n (sugestão inicial)
Heterogênea:
quando há desproporcionalidade.
Exemplo = precipitação diária (mm dia-1)
16
7
1
Climatologia II - ACA226 (Iag/USP)
0,1
5
0,7
4
2,5
4,0
1ª Classe = 1 mm d-1 (por ex
suprimindo os eventos de dias sem
chuva)
Função Densidade de Probabilidade (fdp)
À uma v.a. x pode-se associar uma função f(x)
proporcional à probabilidade de ocorrência de x tal que

F(x) será uma fdp 
 f ( x)dx  1

A probabilidadede de x
ocorrer entre (a,b) é
b
Px  a, b   
a
 área hachurada 

f ( x)dx 

 abaixo da curva 
N
f(x)
Se (a,b) = (-, +)  P=1
a b
Climatologia II - ACA226 (Iag/USP)
x
Medidas de Posição
Média (também chamada de primeiro momento)
1 n
X   xi
n i 1
(Prop.1) Somando-se algebricamente uma constante c a uma v.a. xi, a
média altera-se igualmente pela soma algébrica de c
(Prop.2) multiplicando-se uma constante c a xi, a média fica multiplicada
por c
Zi  X i  C
Xi
Z
X
deslocamento da média,
mantendo-se o padrão
de variação
Climatologia II - ACA226 (Iag/USP)
Mediana : ordenando-se os n valores de uma v.a. xi em ordem crescente, a
mediana (md) será igual
n  1
, se n ímpar
ao valor de ordem
2


n
à média dos valores de ordem   e
2


n 
  1, se n par
2 
Moda : é o valor de máxima frequência
2

dy
d
y
 
 0;  2 
0
 
 dx  x  m0
 dx  x  m
0
m0
Exemplo de distribuição bimodal
Climatologia II - ACA226 (Iag/USP)
Histograma (exemplo anterior)
P(fi)
Pac
30
100.0
80.0
20
60.0
40.0
10
50%
Mediana é o valor de X que
corresponde a 50% de
probabilidade de ocorrência do
evento
20.0
0
2222
23 23
24
24
25
0.0
x  23,4
m0  23,75
md  23,5
Mediana divide o histograma em
áreas iguais
I
II
 AI  AII 
Climatologia II - ACA226 (Iag/USP)
Climatologia II - ACA226 (Iag/USP)
Assimetria de histogramas
f(x)
Simétrico
x  m0  md
f x  a   f x  a 
a  constante
a
a
x
Assimetria positiva: predominam
valores abaixo da média
Assimetria negativa: predominam
valores acima da média
f(x)
f(x)
x
x
m0 md x
x  viés dos valores superiores
x md m0
x  viés dos valores inferiores
Assimetria da fdp
P  I   P  II  
 f x dx   f x dx
I
Assimetria definida como
II
1 n
3
aa    xi  x 
n i 1
aa  ()0  áreaII  () áreaI
Climatologia II - ACA226 (Iag/USP)
Quantis: divide o histograma em área iguais (chamados também de
percentis ou fractis), ex: tercil, quartil...
Quartil
I
II
III
 AI
IV
 AII  AIII  AIV 
Probabilid ade  1
4
Climatologia II - ACA226 (Iag/USP)
Medidas de Dispersão
1) Desvio da média
d  xi  x 
2) Amplitude
R  xmax  xmin 
3) Variância: é o desvio quadrático médio (σ2 para universo, s2 para amostra)
1
2
xi  x 
s 

n  1 i
Unidade  x 
2
4) Desvio-Padrão:
2
Unidade  x
s  s2
Achatamento do
histograma
s2 baixa
5) Coeficiente de variação:
s2 alta
s
c.v. 
x
Adimensional
Climatologia II - ACA226 (Iag/USP)
Séries temporais: sucessão de eventos no tempo, com decomposição em termos Estocástico e
Determinístico
padrão estocástico (grego stockhos = intuito, alvo; o alvo é acertado em diferentes
pontos): eventos aleatórios cujo estado evolui para um valor não exatamente determinado, ou
sejam inúmeras direções ou caminhos possíveis.
exemplo:lançar de dados, trajetória do movimento Browniano
padrão determinístico : eventos evoluem para um único caminho, geralmente uma função
matemática que retorna valor único para cada forçante.
determinístico = seno(t)
alguns métodos estatísticos de análise de séries temporais: Determinísticos (Regressão Linear, Componentes Principais,
Análise Espectral, ...)
Estocásticos (modelo auto-regressivo AR, modelo de médias móveis MA, modelo ARIMA ...)
regime estacionário
• É um regime estocástico cuja distribuição de probabilidade não se altera
quando deslocada no tempo, ou no espaço.
Consequentemente, parâmetros como média, variância, não se alteram em uma
série temporal.
ex:
Tendência linear indica alteração da média da série histórica;
Salto da série indica dois segmentos distintos de tempo, com médias
distintas entre si.
A distribuição Normal
fdp
1
Normal  f  x  
e
 2

( x   )2
2 2
   média de x  x

  desvio padrão de x  Sx
quando
média =0
desvio-padrão = 1
então
chama-se distribuição Normal
padrão (ou padronizada)
Climatologia II - ACA226 (Iag/USP)
Normalização ou Variável Normalizada
Obedece à seguinte transformação na v.a. Xi
Zi
Também chamada variável reduzida ou padronizada (standardized)

X

i
X
s
(Prop.) Média de Z é zero.
Transformações Normalizantes
a) y  ln x (mais simples, pode ser insuficiente)
b) y  x  1  , tem - se que lim y  ln x
 0
  0
,
1.....
0
,4

Climatologia II - ACA226 (Iag/USP)
Propriedades da Normalização (e vantagens)
fdp(z)
xi
Simétrica
x
a
 2s
s
s
 2s
zi
a
zi
t
extremos no período
 Mesmo padrão de oscilação
t
 Variação positiva ou negativa
em multiplos do desvio-padrão
 Conceito de anomalia da
média
Climatologia II - ACA226 (Iag/USP)
Aderência de Dados : como a distribuição de uma amostra ajusta-se à
uma distribuição teórica
fdp log Normal

f x  
1
x 2

e
( Ln ( x )   ) 2
2 2
(quando a distribuição de Ln(x) é
Normal)
Ex: Precipitação diária geralmente não se ajusta à Normal
ou se ajusta mais da log-Normal
Nota: quantifica-se a aderência com testes específicos (como o teste do qui-quadrado, por
exemplo, após aulas de Reg. Linear)
Climatologia II - ACA226 (Iag/USP)
Como duas v.a. variam simultaneamente ?
1 n
1 n
cov x, y    xi  x  yi  y     x' y 'i  x' y '
n i 1   n i 1
Covariância de x,y (def):
x 'i
y
x
y 'i
y
Covariância alta
(distante de zero)
(e positiva)
x' 0
x
x'  0
Covariância baixa
(aproxima-se de zero)
y'  0
y
i
y'  0
x´
+
-
+
-
y´
+
-
-
+
x´y´
+
+
-
-
Climatologia II - ACA226 (Iag/USP)
x
se X e Y são variáveis aletatórios nãocorrelacionadas, então cov(X,Y) = 0
Download