Slide 1 - ia ufrrj

Propaganda
 ANÁLISES
DE REGRESSÃO
Coeficiente de correlação






Coeficiente de correlação
linear produto momento,
segundo Pearson (r)
SPXY = xy -(x y) / n;
SQX = x2 - (x)2 / n;
SQY = y2 - (y)22 / n
r: -1 à +1;
r: 0, não há correlação
linear entre x e y.
r 
cov( x, y )
var( x ) var( y )
r 

( x  x )( y  y )
i
i
n1
( x  x )2 ( y  y )2
i
i
.
n1
n1
SPXY
SQX.SQY
Coeficiente de determinação


r2*100%: fração da
variância total de x e y
explicada pela relação
linear; ajuste da
distribuição dos pontos
em relação à reta.
teste usado para
verificar se a correlação
é ou não significativa,
com (n-2)g.l.
t  r
n 2
,
2
1 r
Coeficiente de correlação não
paramétrico, segundo Spearman (rS)




variáveis não possuem
distribuição normal
xi e yi ordenados por
postos (rank), segundo
os seus valores (x*i e
y*i)
di = x*i - y*i ;
n = número de pares
de valores x*i , y*i
6di2
r  1 3
s
n n


O coeficiente de correlação linear é
influenciado pela presença de valores
anômalos (outliers).
Grande diferença entre o coeficiente
de correlação linear e o coeficiente de
correlação por postos reflete tanto
uma relação não-linear como presença
de pares de valores extremos.
Regressão linear


Verificado pelo valor de r que ocorre uma
significante correlação linear entre duas variáveis
há necessidade de quantificar tal relação, o que é
feito pela análise de regressão.
Modelo: equação de uma reta que, disposta num
sistema de eixos cartesianos, com valores de yi
(variável dependente) na ordenada e xi (variável
independente) na abcissa, a soma dos quadrados
dos desvios verticais dos pontos em relação a ela
seja mínima.
equação da reta





Y = a + bX
onde yi é o valor estimado para um específico valor xi;
“b” revela a inclinação da reta, ou seja o acréscimo ou
decréscimo do valor de y em relação à x;
“a” localiza na ordenada o ponto de interseção da reta em
relação ao sistema de coordenada retangulares.
Utilizando o método dos mínimos quadrados, os valores da
equação da reta são determinados por:
b 
y 
SPXY
SQX
yi
n
a  y  bx
x 
xi
n
Eixo maior reduzido

Quando




não ocorre dependência entre variáveis
não há conhecimento de uma variável sem
erro
Desvios verticais dos pontos em relação
à reta: análise de regressão
Areas dos triângulos compreendidos
entre os pontos e a reta: eixo maior
reduzido


Y = a + bX
b   (Sy / Sx)
sendo o sinal de “b” o do correspondente r
b 
a 
SQY
SQX
y2  ( y )2 / n 1 / 2
 [
]
x2  ( x )2 / n
y  bx
Regressão curvilínea
Y *  a  a X  a X2  a X3  ...
0
1
2
3

potências crescentes de xi, variável independente e
coeficientes
xi e xi2: parábola com um único ponto de inflexão
com potências crescentes de xi, curva mais complexa
para ajuste
processo por etapas (stepwise)

O modelo para a regressão polinomial de grau k é



Y  
  X   X2  ...   Xk  
o
1 i
2 i
k i
cálculo dos coeficientes de
regressão 
 n

 xi
 
 k
xi
xi
xi2
x
2
i
3
i
x


xik  1 xik  2
[ â ]  [ X]  1[ Y ]
  yi 
 x  â0 
 yx 
  
i i 

 x   â1 
   yi xi2 
  




kk  


 xi   âk 
  yi xik 
k
i
k 1
i
Função quadrática
Função cúbica
Regressão múltipla




Testa dependências cumulativas de uma única variável dependente em relação
à diversas variáveis independentes:
Y = a1A + a2B + a3C + a4D + ...ε
A variância total de Y é em parte "explicada" pelas diversas variáveis X's e
o restante pela variabilidade devido ao erro ε
A proporção da variância dos Y observados "explicada" por uma equação de
regressão ajustada é representada pelo coeficiente de determinação R²,
variando entre 0 e 1
O termo "explicada" tem apenas um significado numérico não implicando
necessariamente em um conhecimento causa-efeito sobre o porque da relação
existente
É verificada a contribuição pura de cada variável independente por
comparações sucessivas entre os diversos resultados.
Regressão múltipla é multivariada no sentido de que mais de uma variável é
medida simultaneamente em cada observação; trata-se, porem de uma
técnica univariada, pois o estudo é em relação à variação da variável
dependente Y, sem que o comportamento das variáveis independentes, Xs,
seja objeto de análise.
30Grau
20 Grau
10Grau
Y
Y
Y
VARIÁVEL
2
X
X
X
0
CURVA DE 3 GRAU
PARABOLA
LINHA
Z
Z
Z
VARIÁVEL
3
X
X
X
PARABOLOIDE
PLANO
Y
Y
0
SUPERFÍCIE DE 3 GRAU
Y
Regressão polinomial


superfícies contínuas calculadas por critérios de
regressão polinomial, onde Zi é a variável dependente
em função linear das coordenadas X-Y dos pontos
amostrados e irregularmente distribuídos
o modelo para a representação da superfície pelo
método dos polinômios não ortogonais é:
zi ( X, Y )  [ a0  a1xi  a2 yi  a3 xi2  a4 xi yi  ...]  ei ( xi, yi )
onde zi(X,Y) é a variável mapeada em função das
coordenadas xi e yi e ei representa os resíduos, ou
seja, a fonte não-sistemática de variação.
Análise de superfícies de
tendência




Separação entre o aspecto estrutural (determinístico) e
o aspécto errático (casual): tendências regionais e
pequenas, aparentemente não ordenadas flutuações, que
se impõem aos padrões mais gerais.
Detecção de anomalias: resíduos, positivos e negativos,
de superfícies de baixo grau.
Modelagem por suavização: verificação da superfície de
mais alto grau possível que se ajuste aos dados.
A representação de uma superfície linear é dada por:
z( X, Y)  a0  a1xi  a2 yi  ei
Superfície de grau 1


para o cálculo dos
coeficientes ai,
dispõe-se os
dados num sistema
de equações
 n
normais

  xi
  yi
[A] = [XY]-1[Z]
 xi
 xi2
 xi yi
 yi 

 xi yi 
 yi2 
 a0 
  zi 
 


 a1     zi xi 
a 
  zi yi 
 2
Superfície de grau 2
 n
b0 

b 
  xi
 1
 y
b2 
i
   
2
  xi
b3 

b4 
  xi yi
 
  y2
b5 
i

 xi
 xi2
 xi yi
 xi3
 xi2 y
i
2
 xi yi
 yi
 xi y
i
2
 yi
 xi2 y
i
2
 xi yi
 yi
3
 xi2
 xi3
 xi yi
 xi2 yi
 xi2 yi
 xi4
 xi yi2
 xi3 yi
 xi3 yi
 xi2 yi2
2 2
 xi yi
 xi yi
3
 yi2 

 xi yi2 
 yi3 

2 2
 xi yi 

 xi yi3 
4
 yi 
1
  zi 



x
z
i i 

  yi zi 


2
  xi zi 
 x y z 
i i i


2
  yi zi 



procurar tecer considerações apenas em
relação à área coberta pelos pontos evitando
as extremidades dos mapas, pois a
extrapolação pode apresentar distorções;
o número de pontos deve ser maior que o
número de coeficientes do polinômio a ser
calculado;
o arranjo dos pontos, ainda que irregular, deve
ser casual e razoavelmente bem distribuído,
evitando agrupamentos;


Quando da inversão da matriz, por programas em
microcomputador, podem ocorrer problemas com os resultados
obtidos para superfícies de mais alto grau, isso porque em
sistemas com valores de diversos dígitos, tipo UTM, a
precisão computacional se deteriora exigindo formato de
dupla precisão.
Mesmo assim podem ocorrer limitações e, então, a solução é
a transformação das coordenadas xi e yi, conforme as
equações, que fornecem valores para as coordenadas entre 0
e 1 e não modifica a forma das superfícies:
x* 
xi  xmin
xmax  xmin
y* 
yi  ymin
ymax  ymin
80
80
60
60
40
40
20
20
20
40
60
80
20
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0
40
60
80
0
0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
0.6
0.8
1
Verificação do ajuste das
superfícies


COEFICIENTE DE DETERMINAÇÃO (r2)
Proporção da variação total da variável dependente “zi”
que é explicada pela variação das variáveis independentes
“xi” e “yi”

Variação total dos dados: SQT = Z2 – (Z)2/n
Variação devido à superfície calculada: SQP = Z*2–
(Z*)2/n
Variação devido aos resíduos: SQR = SQT - SQP

Porcentagem de ajuste da superfície: R2 = (SQP/SQT)100



O coeficiente de correlação “r” indica a relação entre
variáveis e “r2” indica o quanto uma variável “explica” a
outra, ou quanto a superfície calculada se ajusta aos
dados espaciais originais.
Exemplo
X 1 (km)
X 2 (km)
10.0
17.0
-665.0
21.0
89.0
-613.0
33.0
38.0
-586.0
35.0
20.0
-440.0
47.0
58.0
-544.0
60.0
18.0
-343.0
65.0
74.0
-455.0
82.0
93.0
-437.0
89.0
60.0
-354.0
97.0
15.0
-142.0
Y
539
482 
 10


539 36943 27030
 482 27030 31692
1
b0    4579 
  

. b1    211098
b2    232342
 0.670480  0.006174  0.004931   4579    621 


 


0
.
006174
0
.
000129

0
.
000016
.

211098


4
.
78


 

  0.004931  0.000016




0.000120  232337   1.96 
X 1 (km)
X 2 (km)
10.0
17.0
-665.0
-606.6
-58.3
21.0
89.0
-613.0
-695.7
82.7
33.0
38.0
-586.0
537.8
-48.1
35.0
20.0
-440.0
-492.8
52.8
47.0
58.0
-544.0
-510.2
-33.7
60.0
18.0
-343.0
-369.2
26.2
65.0
74.0
-455.0
-455.5
0.5
82.0
93.0
-437.0
-411.5
-25.4
89.0
60.0
-354.0
-313.0
-40.9
97.0
15.0
-142.0
-186.1
44.1
Y
Y (m)
(Y  Y ) (m)
90
80
-200
-240
-280
70
-320
-360
60
-400
-440
-480
50
-520
-560
-600
40
-640
-680
30
-720
-760
20
10
20
30
40
50
60
70
80
90
90
200
180
160
140
120
100
80
60
40
20
0
-20
-40
-60
-80
-100
-120
-140
-160
-180
-200
80
70
60
50
40
30
20
10
20
30
40
50
60
70
80
90
Download