Regressão Linear – conceitos e aplicação Climatologia II – ACA226 Prof. Humberto Rocha Regressão Linear Simples Sejam 2 séries temporais xi e yi pode-se descrever formalmente uma relação entre elas baseada em um modelo linear tq : yi xi i Onde y yi é chamada variável dependente xi é chamada variável independen te é chamada termo do erro aleatório i y x yˆ yi xi x y ^ yi yi x é o intercepto , " offset" , i.e. yx 0 é o coeficient e angular (inclinaçã o) O modelo ajustado aos pontos da amostra é: O erro ou resíduo é i x xi yˆ i xi i yi yˆi Climatologia II - ACA226 (Iag/USP) Hipóteses para o ajuste do modelo linear y i x e y relacionam - se linearment e? x y ii var x s x2 0 ? x iii o erro aleatório i deve ser tq : a tenha média zero, i.e i 0 b variância constante p/ quaisquer conjuntos de observaçõe s s 2 2 cte c as variáveis i não são correlacio nados cov i , j 0 d i ~ N0, 2 distribuiç ão normal Climatologia II - ACA226 (Iag/USP) i 0 i Normal i 0 i 0 i 0 0 Casos de heterocedasticidade s2 grande se x cov i , j 0 s2 grande se x cov i , j 0 i correlacio nados negativame nte Climatologia II - ACA226 (Iag/USP) Cálculo dos parâmetros da regressão linear Se ŷ i xi é o modelo ajustado, calculam - se os coeficientes , (chamados de parâmetros da regressão) tal que a soma dos erros (ao quadrado) i2 yi yˆ i seja a mínima possível, 2 utilizando o método dos mínimos quadrados : N N seja a função f α,β yi yˆ i yi xi 2 i 1 se f é mínima, então 2 i 1 f f 0; 0 N xi yi xi yi N x xi 2 i 2 1 N y x i i Climatologia II - ACA226 (Iag/USP) Erro padrão do parâmetros da regressão Sejam os parâmetros estimados ˆ , ˆ em amostras grandes (... universo) define - se que : o erro padrão da regressão : 2 erro padrão de ˆ : var ˆ 1 2 i n 2 2 x x i x n x x 2 erro padrão de ˆ : var ˆ 2 ˆ ~ N , var ˆ ou seja, ˆ ~ N , var ˆ i 2 i No caso amostral 1 1 2 erro padrão s 2 y yˆ i2 i n - 2 i n - 2 2 s 2 erro padrão de ˆ s 2 x x i 2 x i 2 2 erro padrão de ˆ sˆ s n x x 2 i Climatologia II - ACA226 (Iag/USP) Confiança dos Parâmetros , (1) Motivação do problema ... (2) Por definição a v.a. t - student é xn t Sn / , com n 1 graus de liberdade, tem a fdp : 1 1 2 2 2 t 1 F t . 2 onde F(t) N 0,1 alto baixo função gamma n n - 1! -1 0 1 t 0 parâmetro verdadeir o ˆ ˆ 0 parâmetro estimado (3) Aplicando t - student t S ˆ S ˆ erro - padrão de ν n 2 F(t) define - se um t c (crítico) associado à probabilid ade de confiança do parâmetro, IC ou Indice de Confiança (IC) (ou seu complement o NS 100% - IC, tal que se atribua t c NS , NS chamado de nível de significân cia. NS tc para ˆ tc 0 para 0 ˆ - 0 sˆ para 0 Climatologia II - ACA226 (Iag/USP) Teste de hipótese Hipótese nula (H0 ): β0 =0 Hipótese alternativa (H1 ): β0 ≠ 0 Climatologia II - ACA226 (Iag/USP) x y x' x x y' y y 21 15 15 9 12 18 6 12 4 3 3.5 2 3 3.5 2.5 2.5 7.5 1.5 1.5 -4.5 -1.5 4.5 7.5 -1.5 1 0 0.5 -1 0 0.5 -0.5 -0.5 yˆ 1,38 0,12 x 1,38 ˆ 0,12 S 2 0,11; S 0,33 Climatologia II - ACA226 (Iag/USP) Aceitação do parâmetro estimado, a um NS (%) estabelecido. Pr = NS (em fração da unidade) df são os graus de liberdade (= n-2, para regressão linear simples ) Climatologia II - ACA226 (Iag/USP) Erros no testes de hipótese Erro tipo I: rejeito H0 incorretamente Erro tipo II: aceito H0 incorretamente Climatologia II - ACA226 (Iag/USP) Verificaçã o simples deve ser feita também ao comparar o erro padrão, S2 1 yˆ i yi , que deve ser mínimo segundo o n 2 MMQ, com a variável S2y (variância de y) : S2 0 2 2 S S y OK se 2 2 S S y o erro é da mesma ordem da variância , então não ajuda nada 1 2 yi y 0,43 Sy n 1 S 2 0 ,11 S y2 OK Climatologia II - ACA226 (Iag/USP) O ajuste do modelo: o coeficiente da regressão R2 (também chamado coeficiente de determinação) Qual a % da variância de yi explicada pela regressão? yi ŷi yˆ i xi ; y yi xi i yi y yi yˆi yˆi y i erro aleatório yi yˆ i 2 y y i Variação total de y ou Soma Total Quadrática (STQ) xi 2 ˆ y y i i Variação residual ou Soma dos Erros Quadráticos (SEQ) 2 ˆ y y i Variação explicada pela regressão yi ou Soma da Regressão Quadrática (SRQ) Climatologia II - ACA226 (Iag/USP) Modelo em variáveis de anomalias x' x x y' y y y' ŷ ' yˆ ' x ' x' Climatologia II - ACA226 (Iag/USP) Correlação espúria R~0.1 R~0.95 R~0.1 y Influência de pontos singulares (outliers) xi , yi x Climatologia II - ACA226 (Iag/USP) Correlação amostral de (x,y) ou coeficiente de correlação, ou coeficiente de Pearson Rx , y ˆ 0 1 xi x yi y n 1 2 2 xi x yi y n 1 n 1 x , y 0 R xy 1 s xy2 covx, v var x var y s x s y ˆ 0 x , y -1 R xy 0 Climatologia II - ACA226 (Iag/USP) erros quadrático s 0 R 1 sx 0 sy R xy indetermin ado sy 0 0 R indetermin ado Climatologia II - ACA226 (Iag/USP) Climatologia II - ACA226 (Iag/USP) R = 0,7 Climatologia II - ACA226 (Iag/USP) Alguns índices de avaliação do modelo linear y^ y i i n i 1) Viés (bias) do modelo linear 1 Varia entre -∞ a +∞, sugere um erro sistemático (+) ou (-) 2) root-mean-square deviation (RMSD) ou root-mean-square error (RMSE) é a raiz quadrada do erro médio quadrático (MSE = mean square error) y y i i i n ^ y y 2 i Variação total de y ou Soma Total Quadrática (STQ) y yˆ 2 i i Variação residual ou Soma dos Erros Quadráticos (SEQ) 2 yˆ y 2 i Variação explicada pela regressão yi ou Soma da Regressão Quadrática (SRQ) Climatologia II - ACA226 (Iag/USP) Regressão Linear Múltipla É o modelo de função linear entre uma variável dependente y e uma série de variáveis independentes x1,...xk yi 0 1 x1i 2 x2i ... k xk i i βj , (j=0,k), são os coeficientes de regressão parciais Hipóteses supostas i y e x j , j , têm relação linear; ii x j e xl , l , j , não têm relação linear exata entre si, i.e., multicolinearidade a hipótese que comumente mais falha; i ~ N 0, 2 cte iii como na R.L. Simples j l não são correlacionados Climatologia II - ACA226 (Iag/USP) - Cálculo dos coeficientes de regressão parciais - Estimativa do ajuste do modelo R 1 1 R 2 2 n 1 n k coeficiente corrigido de regressão a) Se k 1 R 2 R 2 (regressão linear simples) b) Se k 1 R 2 R 2 c) R 2 pode ser negativo Climatologia II - ACA226 (Iag/USP)