Aula2_RegLinear_4

Propaganda
Regressão Linear – conceitos e aplicação
Climatologia II – ACA226
Prof. Humberto Rocha
Regressão Linear Simples
Sejam 2 séries temporais xi e yi
pode-se descrever formalmente uma relação entre elas baseada em um
modelo linear tq :
yi    xi   i
Onde
y
 yi é chamada variável dependente

 xi é chamada variável independen te
 é chamada termo do erro aleatório
 i
y
  x  yˆ
yi
xi
x
y
^


yi
yi
x
 é o intercepto , " offset" , i.e. yx  0  

 é o coeficient e angular (inclinaçã o)
O modelo ajustado aos pontos da amostra é:
O erro ou resíduo é
i
x
xi
yˆ i    xi
 i   yi  yˆi 
Climatologia II - ACA226 (Iag/USP)
Hipóteses para o ajuste do modelo linear
y
i  x e y relacionam
- se linearment e? 
x
y
ii  var x   s x2  0 ?

x
iii  o erro aleatório  i deve ser tq :
a  tenha média zero, i.e   i  0
b  variância constante p/ quaisquer conjuntos de observaçõe s  s 2   2 cte
c as variáveis  i não são correlacio nados  cov i ,  j   0
d   i ~ N0,  2  distribuiç ão normal
Climatologia II - ACA226 (Iag/USP)
i  0
 i  Normal
i  0
i  0
i  0
0
Casos de
heterocedasticidade
s2 grande se x 
cov i ,  j   0
s2 grande se x 
cov i ,  j   0
 i correlacio nados negativame nte
Climatologia II - ACA226 (Iag/USP)
Cálculo dos parâmetros da regressão linear
Se ŷ i    xi é o modelo ajustado, calculam - se os coeficientes  , 
(chamados de parâmetros da regressão)
tal que a soma dos erros (ao quadrado)   i2    yi  yˆ i  seja a mínima possível,
2
utilizando o método dos mínimos quadrados :
N
N
seja a função f α,β     yi  yˆ i     yi    xi 
2
i 1
se f é mínima, então

2
i 1
f
f
 0;
0


N  xi yi   xi  yi
N  x   xi 
2
i
2
1

N
 y    x 
i
i
Climatologia II - ACA226 (Iag/USP)
Erro padrão do parâmetros da regressão
Sejam os parâmetros estimados ˆ , ˆ em amostras
grandes
(... universo)
define - se que :
o erro padrão da regressão :  2 

erro padrão de ˆ : var ˆ 
1
2

 i
n
2
2


x

x

i
x
n x  x 
2
erro padrão de ˆ : var ˆ    2

 
ˆ ~ N  , var ˆ
ou seja, 
ˆ ~ N , var ˆ 
i
2
i
No caso amostral



1
1
2
erro padrão s 2 
 y  yˆ i2




i
n - 2 i
n - 2


2
s

2
erro padrão de ˆ s 
2


x

x
i


2

x
i

2
2
erro padrão de ˆ sˆ  s n  x  x 2
i

Climatologia II - ACA226 (Iag/USP)
Confiança dos Parâmetros  , 
(1) Motivação do problema ...
(2) Por definição a v.a. t - student é

xn   
t
Sn / 
, com   n  1 graus de liberdade, tem a fdp :
  1 
  1 


2  2 
2   t 
1  
F t   
     
 . 
2
onde
F(t)
N 0,1
 alto
 baixo
função gamma n   n - 1!
-1
0
1 t
 0  parâmetro verdadeir o
ˆ
ˆ
   0   parâmetro estimado
(3) Aplicando t - student t 

S ˆ S ˆ  erro - padrão de 
ν  n  2 



F(t)
define - se um t c (crítico)
associado à probabilid ade de confiança do parâmetro,
IC
ou Indice de Confiança (IC) (ou seu complement o
NS  100% - IC, tal que se atribua t c NS ,
NS chamado de nível de significân cia.
NS
 tc
para
ˆ  

tc 
0

para
  0 
ˆ -  0
sˆ
para

  0


Climatologia II - ACA226 (Iag/USP)
Teste de hipótese
Hipótese nula (H0 ): β0 =0
Hipótese alternativa (H1 ): β0 ≠ 0
Climatologia II - ACA226 (Iag/USP)
x
y
x'  x  x
y'  y  y
21
15
15
9
12
18
6
12
4
3
3.5
2
3
3.5
2.5
2.5
7.5
1.5
1.5
-4.5
-1.5
4.5
7.5
-1.5
1
0
0.5
-1
0
0.5
-0.5
-0.5
yˆ  1,38  0,12 x
  1,38
ˆ
  0,12
S 2  0,11; S  0,33

Climatologia II - ACA226 (Iag/USP)
Aceitação do parâmetro estimado, a um
NS (%) estabelecido.
Pr = NS (em fração da unidade)
df são os graus de liberdade (= n-2, para
regressão linear simples )
Climatologia II - ACA226 (Iag/USP)
Erros no testes de hipótese
Erro tipo I: rejeito H0 incorretamente
Erro tipo II: aceito H0 incorretamente
Climatologia II - ACA226 (Iag/USP)
Verificaçã o simples deve ser feita também ao comparar o erro padrão,
S2 
1
 yˆ i  yi , que deve ser mínimo segundo o

n  2
MMQ, com a variável
S2y (variância de y) :
S2  0
 2
2
S  S y  OK
se 
2
2
S  S y  o erro é da mesma ordem da variância ,

então não ajuda nada
1
2
 yi  y   0,43
Sy 

n  1
S 2  0 ,11  S y2  OK
Climatologia II - ACA226 (Iag/USP)
O ajuste do modelo: o coeficiente da regressão R2
(também chamado coeficiente de determinação)
Qual a % da variância de yi explicada pela regressão?
yi
ŷi
yˆ i    xi ;
y
yi    xi   i
 yi  y    yi  yˆi    yˆi  y 
 i erro aleatório   yi  yˆ i 
2


y

y
 i

Variação total de y ou
Soma Total Quadrática
(STQ)
xi

2
ˆ


y

y
 i i

Variação residual ou
Soma dos Erros Quadráticos
(SEQ)

2
ˆ


y

y
 i

Variação explicada pela regressão yi
ou Soma da Regressão Quadrática
(SRQ)
Climatologia II - ACA226 (Iag/USP)
Modelo em variáveis de anomalias
 x'  x  x

 y'  y  y
y'
ŷ '
yˆ '   x '
x'
Climatologia II - ACA226 (Iag/USP)
Correlação espúria
R~0.1
R~0.95
R~0.1
y
Influência de
pontos singulares
(outliers)
xi , yi 
x
Climatologia II - ACA226 (Iag/USP)
Correlação amostral de (x,y) ou coeficiente de
correlação, ou coeficiente de Pearson
Rx , y
ˆ  0
 1 

  xi  x  yi  y 
n 1 
 

2
2
 xi  x    yi  y 
n 1
n 1
x , y 
 0  R xy  1
s xy2
covx, v 

var  x  var  y  s x s y
ˆ  0
x , y 
 -1  R xy  0
Climatologia II - ACA226 (Iag/USP)

erros quadrático s  0
R 1
sx
0  
sy
R xy indetermin ado
sy  0   0
R indetermin ado
Climatologia II - ACA226 (Iag/USP)
Climatologia II - ACA226 (Iag/USP)
R = 0,7
Climatologia II - ACA226 (Iag/USP)
Alguns índices de avaliação do modelo linear
 y^  y 
  i i 
n i 
1) Viés (bias) do modelo linear  1
Varia entre -∞ a +∞, sugere um erro sistemático (+) ou (-)
2) root-mean-square deviation (RMSD) ou root-mean-square error (RMSE)
é a raiz quadrada do erro médio quadrático (MSE = mean square error)
y  y 
i  i i 
n
^

y  y


2
i
Variação total de y ou
Soma Total Quadrática
(STQ)

 y  yˆ 


2
i
i
Variação residual ou
Soma dos Erros Quadráticos
(SEQ)

2
 yˆ  y 


2
i
Variação explicada pela regressão yi
ou Soma da Regressão Quadrática
(SRQ)
Climatologia II - ACA226 (Iag/USP)
Regressão Linear Múltipla
É o modelo de função linear entre uma variável dependente y e
uma série de variáveis independentes x1,...xk
yi   0  1 x1i   2 x2i  ...   k xk i    i
βj , (j=0,k), são os coeficientes de regressão parciais
Hipóteses supostas
i  y e x j ,  j , têm relação linear;
ii  x j e xl , l , j , não têm relação linear exata entre si,
i.e., multicolinearidade  a hipótese que comumente mais falha;
 i ~ N 0,  2  cte 
iii 
como na R.L. Simples
 j l não são correlacionados
Climatologia II - ACA226 (Iag/USP)
- Cálculo dos coeficientes de regressão parciais
- Estimativa do ajuste do modelo
R  1  1  R
2
2

n  1
 n  k   coeficiente corrigido de regressão
a) Se k  1  R 2  R 2 (regressão linear simples)
b) Se k  1  R 2  R 2
c) R 2 pode ser negativo
Climatologia II - ACA226 (Iag/USP)
Download