ANÁLISES DE REGRESSÃO Coeficiente de correlação Coeficiente de correlação linear produto momento, segundo Pearson (r) SPXY = xy -(x y) / n; SQX = x2 - (x)2 / n; SQY = y2 - (y)22 / n r: -1 à +1; r: 0, não há correlação linear entre x e y. r cov( x, y ) var( x ) var( y ) r ( x x )( y y ) i i n1 ( x x )2 ( y y )2 i i . n1 n1 SPXY SQX.SQY Coeficiente de determinação r2*100%: fração da variância total de x e y explicada pela relação linear; ajuste da distribuição dos pontos em relação à reta. teste usado para verificar se a correlação é ou não significativa, com (n-2)g.l. t r n 2 , 2 1 r Coeficiente de correlação não paramétrico, segundo Spearman (rS) variáveis não possuem distribuição normal xi e yi ordenados por postos (rank), segundo os seus valores (x*i e y*i) di = x*i - y*i ; n = número de pares de valores x*i , y*i 6di2 r 1 3 s n n O coeficiente de correlação linear é influenciado pela presença de valores anômalos (outliers). Grande diferença entre o coeficiente de correlação linear e o coeficiente de correlação por postos reflete tanto uma relação não-linear como presença de pares de valores extremos. Regressão linear Verificado pelo valor de r que ocorre uma significante correlação linear entre duas variáveis há necessidade de quantificar tal relação, o que é feito pela análise de regressão. Modelo: equação de uma reta que, disposta num sistema de eixos cartesianos, com valores de yi (variável dependente) na ordenada e xi (variável independente) na abcissa, a soma dos quadrados dos desvios verticais dos pontos em relação a ela seja mínima. equação da reta Y = a + bX onde yi é o valor estimado para um específico valor xi; “b” revela a inclinação da reta, ou seja o acréscimo ou decréscimo do valor de y em relação à x; “a” localiza na ordenada o ponto de interseção da reta em relação ao sistema de coordenada retangulares. Utilizando o método dos mínimos quadrados, os valores da equação da reta são determinados por: b y SPXY SQX yi n a y bx x xi n Eixo maior reduzido Quando não ocorre dependência entre variáveis não há conhecimento de uma variável sem erro Desvios verticais dos pontos em relação à reta: análise de regressão Areas dos triângulos compreendidos entre os pontos e a reta: eixo maior reduzido Y = a + bX b (Sy / Sx) sendo o sinal de “b” o do correspondente r b a SQY SQX y2 ( y )2 / n 1 / 2 [ ] x2 ( x )2 / n y bx Regressão curvilínea Y * a a X a X2 a X3 ... 0 1 2 3 potências crescentes de xi, variável independente e coeficientes xi e xi2: parábola com um único ponto de inflexão com potências crescentes de xi, curva mais complexa para ajuste processo por etapas (stepwise) O modelo para a regressão polinomial de grau k é Y X X2 ... Xk o 1 i 2 i k i cálculo dos coeficientes de regressão n xi k xi xi xi2 x 2 i 3 i x xik 1 xik 2 [ â ] [ X] 1[ Y ] yi x â0 yx i i x â1 yi xi2 kk xi âk yi xik k i k 1 i Função quadrática Função cúbica Regressão múltipla Testa dependências cumulativas de uma única variável dependente em relação à diversas variáveis independentes: Y = a1A + a2B + a3C + a4D + ...ε A variância total de Y é em parte "explicada" pelas diversas variáveis X's e o restante pela variabilidade devido ao erro ε A proporção da variância dos Y observados "explicada" por uma equação de regressão ajustada é representada pelo coeficiente de determinação R², variando entre 0 e 1 O termo "explicada" tem apenas um significado numérico não implicando necessariamente em um conhecimento causa-efeito sobre o porque da relação existente É verificada a contribuição pura de cada variável independente por comparações sucessivas entre os diversos resultados. Regressão múltipla é multivariada no sentido de que mais de uma variável é medida simultaneamente em cada observação; trata-se, porem de uma técnica univariada, pois o estudo é em relação à variação da variável dependente Y, sem que o comportamento das variáveis independentes, Xs, seja objeto de análise. 30Grau 20 Grau 10Grau Y Y Y VARIÁVEL 2 X X X 0 CURVA DE 3 GRAU PARABOLA LINHA Z Z Z VARIÁVEL 3 X X X PARABOLOIDE PLANO Y Y 0 SUPERFÍCIE DE 3 GRAU Y Regressão polinomial superfícies contínuas calculadas por critérios de regressão polinomial, onde Zi é a variável dependente em função linear das coordenadas X-Y dos pontos amostrados e irregularmente distribuídos o modelo para a representação da superfície pelo método dos polinômios não ortogonais é: zi ( X, Y ) [ a0 a1xi a2 yi a3 xi2 a4 xi yi ...] ei ( xi, yi ) onde zi(X,Y) é a variável mapeada em função das coordenadas xi e yi e ei representa os resíduos, ou seja, a fonte não-sistemática de variação. Análise de superfícies de tendência Separação entre o aspecto estrutural (determinístico) e o aspécto errático (casual): tendências regionais e pequenas, aparentemente não ordenadas flutuações, que se impõem aos padrões mais gerais. Detecção de anomalias: resíduos, positivos e negativos, de superfícies de baixo grau. Modelagem por suavização: verificação da superfície de mais alto grau possível que se ajuste aos dados. A representação de uma superfície linear é dada por: z( X, Y) a0 a1xi a2 yi ei Superfície de grau 1 para o cálculo dos coeficientes ai, dispõe-se os dados num sistema de equações n normais xi yi [A] = [XY]-1[Z] xi xi2 xi yi yi xi yi yi2 a0 zi a1 zi xi a zi yi 2 Superfície de grau 2 n b0 b xi 1 y b2 i 2 xi b3 b4 xi yi y2 b5 i xi xi2 xi yi xi3 xi2 y i 2 xi yi yi xi y i 2 yi xi2 y i 2 xi yi yi 3 xi2 xi3 xi yi xi2 yi xi2 yi xi4 xi yi2 xi3 yi xi3 yi xi2 yi2 2 2 xi yi xi yi 3 yi2 xi yi2 yi3 2 2 xi yi xi yi3 4 yi 1 zi x z i i yi zi 2 xi zi x y z i i i 2 yi zi procurar tecer considerações apenas em relação à área coberta pelos pontos evitando as extremidades dos mapas, pois a extrapolação pode apresentar distorções; o número de pontos deve ser maior que o número de coeficientes do polinômio a ser calculado; o arranjo dos pontos, ainda que irregular, deve ser casual e razoavelmente bem distribuído, evitando agrupamentos; Quando da inversão da matriz, por programas em microcomputador, podem ocorrer problemas com os resultados obtidos para superfícies de mais alto grau, isso porque em sistemas com valores de diversos dígitos, tipo UTM, a precisão computacional se deteriora exigindo formato de dupla precisão. Mesmo assim podem ocorrer limitações e, então, a solução é a transformação das coordenadas xi e yi, conforme as equações, que fornecem valores para as coordenadas entre 0 e 1 e não modifica a forma das superfícies: x* xi xmin xmax xmin y* yi ymin ymax ymin 80 80 60 60 40 40 20 20 20 40 60 80 20 1 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 40 60 80 0 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Verificação do ajuste das superfícies COEFICIENTE DE DETERMINAÇÃO (r2) Proporção da variação total da variável dependente “zi” que é explicada pela variação das variáveis independentes “xi” e “yi” Variação total dos dados: SQT = Z2 – (Z)2/n Variação devido à superfície calculada: SQP = Z*2– (Z*)2/n Variação devido aos resíduos: SQR = SQT - SQP Porcentagem de ajuste da superfície: R2 = (SQP/SQT)100 O coeficiente de correlação “r” indica a relação entre variáveis e “r2” indica o quanto uma variável “explica” a outra, ou quanto a superfície calculada se ajusta aos dados espaciais originais. Exemplo X 1 (km) X 2 (km) 10.0 17.0 -665.0 21.0 89.0 -613.0 33.0 38.0 -586.0 35.0 20.0 -440.0 47.0 58.0 -544.0 60.0 18.0 -343.0 65.0 74.0 -455.0 82.0 93.0 -437.0 89.0 60.0 -354.0 97.0 15.0 -142.0 Y 539 482 10 539 36943 27030 482 27030 31692 1 b0 4579 . b1 211098 b2 232342 0.670480 0.006174 0.004931 4579 621 0 . 006174 0 . 000129 0 . 000016 . 211098 4 . 78 0.004931 0.000016 0.000120 232337 1.96 X 1 (km) X 2 (km) 10.0 17.0 -665.0 -606.6 -58.3 21.0 89.0 -613.0 -695.7 82.7 33.0 38.0 -586.0 537.8 -48.1 35.0 20.0 -440.0 -492.8 52.8 47.0 58.0 -544.0 -510.2 -33.7 60.0 18.0 -343.0 -369.2 26.2 65.0 74.0 -455.0 -455.5 0.5 82.0 93.0 -437.0 -411.5 -25.4 89.0 60.0 -354.0 -313.0 -40.9 97.0 15.0 -142.0 -186.1 44.1 Y Y (m) (Y Y ) (m) 90 80 -200 -240 -280 70 -320 -360 60 -400 -440 -480 50 -520 -560 -600 40 -640 -680 30 -720 -760 20 10 20 30 40 50 60 70 80 90 90 200 180 160 140 120 100 80 60 40 20 0 -20 -40 -60 -80 -100 -120 -140 -160 -180 -200 80 70 60 50 40 30 20 10 20 30 40 50 60 70 80 90