Ajuste de Curvas, Regressão e Correlação

Propaganda
UNIVERSIDADE DE PERNAMBUCO
ESCOLA POLITÉCNICA DO RECIFE
TRADUÇÃO DO CAPÍTULO 9 DO LIVRO
Spiegel, M, Schiller, J & Srinivisan, A. SHAUM’S EASY OUTLINES:
Probability and Statistics. Crash Course. McGraw-Hill, New York,
2001
RECIFE – 2010
Capitulo 9
Ajuste de Curvas, Regressão e Correlação
Muito frequentemente é constatado a existência de uma relação entre duas
variáveis( ou mais) e se deseja expressar tal relação sob forma matemática,
estabelecendo-se uma equação entre as variáveis. O primeiro passo para isso é a
coleta de dados exibindo os valores correspondente das variáveis. Por exemplo, sejam
x e y, respectivamente, altura e o peso de adultos de qualquer sexo. Uma amostra de
n indivíduos acusaria alturas x1,x 2,..., xn e os correspondentes pesos y1,y2,..., yn . Um
próximo passo é traçar os pontos ( x1, y1), (x2,y2)....(xn,yn) em um sistema de
coordenadas retangulares. O conjunto chama-se diagrama de dispersão.
A partir do diagrama de dispersão é visualizado uma curva aproximativa dos
dados.Curva essa chamada curva aproximadora. Na figura 9.1, por exemplo, os dados
parecem bem aproximados por uma linha reta , é nós dizemos que há uma relação
linear entre as variáveis. Na figura 9.2, conquanto exista uma relação entre as variáveis
, tal relacionamento não é linear, diz-se então que há uma relação não-linear entre as
variáveis. Na figura 9.3 não há nenhuma relação entre as variáveis.
O problema de determinar equações de curvas que se ajustem a determinados
conjuntos de dados observados é chamado ajustamento de curvas, ou simplesmente
ajustamento. Na prática, frequentemente o próprio diagrama de dispersão sugere o tipo de
curva a ser adotado. Para a Figura 9-1, poderíamos usar uma linha reta :
Y= a + bx
Enquanto que, para a fig, 9-2, tentaríamos uma parábola, ou uma curva quadrática
Y= a + bx + cx2
Algumas vezes ajuda a montar o diagrama, em termos de variáveis transformadas. Por
exemplo, se log y VS. log x trata uma linha reta, nós poderíamos testar log y= a +bx como uma
equação que se aproxima da curva.
Regressão
Um dos principais objetivos do ajustamento é estimar uma das variáveis ( variável
dependente) em função da outra ( Variavel independente). Processo esse designado regressão.
Se y deve ser estimado em função de x por meio de uma equação, equação essa denominada
equação de regressão de y sobre x e a curva correspondente é a curva de regressão de y sobre
x.
O método dos mínimos quadrados
Geralmente, mais de uma curva é ajustada a determinado conjunto de dados.
Para evitar critérios individuais na escolha de retas, parábolas, etc..., é necessário
chegar-se a um acordo quanto ao que se deve entender por “ melhor reta”, “ melhor
parábola ”.
A fim de evitar uma possível definição, consideramos a fig 9-4, em que os
pontos dados são ( x1, y1),........, (x2, y2).
Para determinado valor de x, digamos x1, existira uma diferença ente o valor y1
e o correspondente valor “ajustado”, determinado pela curva C. Denotamos tal
diferença por d1, e chamamos de desvio, erro ou resíduo; seu valor pode ser positivo,
negativo ou zero. Analogamente, para os valores x2,........,xn obtemos os desvios
d2,....., dn.
Uma medida da “aderência ”, ou “validade do ajustamento “ da curva C aos dados do
problema é dada pela quantidade d12 + d22+........dn2. Se esta quantidade é pequena, o
ajustamento é bom; se é grande, o ajustamento é mau. Formulamos , então, a
Definição : De todas as curvas que se aproximam de determinados conjunto de
pontos, a curva que goza da propriedade
d12+ d22+.....+ dn2= mínimo ( é a melhor curva ajustadora)
Uma curva com esta propriedade se ajusta aos dados no sentido dos mínimos
quadrados, e é chamada curva de regressão de mínimos quadrados, ou simplesmente
curva de mínimos quadrados. Temos então reta de mínimo quadrados, parábolas de
mínimos quadrados, etc.
É usual empregar a definição acima quando x é a variável
independente e y é a variável dependente. Se x é variável dependente, modifica-se a
definição, considerando- se desvios horizontais ao invés de verticais; o que equivale a
permutar os eixos x e y. Essas duas definições conduzem em geral a duas curvas de
mínimos quadrados diferentes. A menos que se especifique o contrário,
consideraremos x como variável independente e y como variável dependente.
Você precisar saber
Outra possibilidade consiste em considerar distâncias perpendiculares dos pontos
observados à curva, em lugar de distâncias horizontais ou verticais. Tal processo,
entretanto,não é muito usado.
A reta de mínimos quadrados
Pela definição acima, pode mostrar que a reta de mínimos quadrados que aproxima,
ou ajusta, o conjunto de pontos ( x1, y1),........, (xn,yn) tem por equação:
Y= a + bx
(1)
Onde as constantes a e b são determinadas resolvendo-se o sistema
(2)
Chamado sistema de equações normais para a reta de mínimos quadrados. Note-se
que, para abreviar, usamos
em lugar de
As equações normais ( 2) podem ser facilmente memorizadas notando-se que,
formalmente, a primeira equação se obtém somando-se ambos os membros de (1), enquanto
que a segunda equação se obtém multiplicando-se primeiro ambos os membros de (1) por x e
somando-se em seguida. Obviamente, isto não é uma dedução das equações normais mas
apenas um processo para memorizá-las. Os valores de a e b obtidos (2) são dados por:
(3)
O resultado de b pode escrever-se também:
(4)
O traço superior indica média, isto é,
primeira equação de (2) por n dá:
. A divisão de ambos os membros da
(5)
Assim, se quisermos, podemos primeiro determinar b a partir de (3) e (4) e então usar (5) para
determinar
Isto equivale a escrever a reta de mínimos quadrados como
(6)
O resultado ( 6) mostra que a constante b, que é o coeficiente angular da rela (1), é a
constante fundamental para determinar a reta. De ( 6) vê-se também que a reta de mínimos
quadrados passa pelo ponto
, chamado centróide, ou centro de gravidade dos dados.
O coeficiente angular b da reta de regressão é independente da origem de
coordenadas. Isto significa que, se fizermos a transformação ( translação dos eixos) dada por:
(7)
Onde h e k são constantes quaisquer , então b será tambem dado por:
(8)
Onde x , y foram substituídos por x’, y’( por esse motivo dizemos que b é invariante
sob a transformação (7)). Note-se, todavia, que a ; intercepto da reta sobre o eixo 0x; depende
efetivamente da origem(assim, não é variante).
No caso particular em que
, ( 8) se simplifica para :
(9)
Os resultados (8) ou (9) são úteis para simplificar o trabalho de calculo na
determinação da reta de mínimos quadrados. As observações acima valem também para a
reta de regressão de x sobre y. Formalmente, os resultados se obtêm simplesmente
permutando x e y. Assim, por exemplo, a reta de mínimos quadrados de x sobre y é:
(10)
Note-se porém que, em geral, (10) não é a reta que ( 6).
Lembrança
Você deve tentar encontrar a equação por regressão linear somente se seus dados
tiverem uma relação linear.
Exemplo9.1 A Tabela 9-1 mostra o as respectivas alturas x e y da amostra de 12 pais e
seus respectivos filhos mais velhos. Encontre a regressão dos mínimos quadrados de y em x.
Altura x do Pai (polegadas)
Altura y do Filho (polegadas)
65 63 67 64 68 62 70 66 68 67 69 71
68 66 68 65 69 66 68 65 71 67 68 70
A linha de regressão de y em x é dada por y= ax+b que são obtidas resolvendo as
equações normais:
Os dados são computados como seguem abaixo:
Usando esses dados, a equação normal é encontrada:
Para tanto econtramos a=35.82 e b=0,476, então y=35,82+0,476x é a equação de
regressão linear.
A Reta de Mínimos quadrados em termos da
variância e covariância amostrais
As variâncias e covariâncias amostrais de x e y são dadas por
(11)
Em função dessas expressões, as retas de regressão de mínimos quadrados de y sobre x
e de x sobre y podem escrever-se respectivamente como:
e
(13)
(12)
Se definirmos formalmente o coeficiente de correlação amostral por
então (12) pode escrever-se :
(14)
Em razão do fato de
serem valores amostrais
padronizados ou escores padronizados, os resultados (14) proporcionam um modo muito
simples de memorizar as retas de regressão. È claro que as duas retas em ( 14) são distintas, a
menos que r= +- 1, quando então todos os pontos amostrais se encontram sobre um reta,
havendo assim correlação e regressão linear perfeitas.
É necessário notar também que, se as duas retas de regressão ( 14), se escrevem
como
respectivamente , então :
( 15)
Até agora não levamos em conta a significação precisa do coeficiente de correlação;
definimo-lo apenas formalmente em termos das variâncias e da covariância.
Erro de Padrão Estimado
Seja yest o valor estimado de y, correspondente a determinado valor de x, e obtido da
curva de regressão de y sobre x; então uma medida da dispersão em torno da curva de
regressão é dada por:
(16)
Que se chama erro padrão da estimativa de y sobre x. Como
,
Vemos que, de todas as possíveis curvas de regressão, a curva de mínimos quadrados é
a que apresenta menor erro padrão de estimativa. No caso de uma reta de regressão
, como a e b dados por (2), temos :
(17)
Ou
(18)
Podemos também exprimir
para a reta de mínimos quadrados em termos da
variância e do coeficiente de correlação como:
(19)
Donde, incidentalmente, decorre, como corolário, que
i.e.,
O erro padrão da estimativa goza de propriedades análogas às do desvio
padrão. Por exemplo, se construirmos pares de retas paralelas à reta de regressão de y sobre x,
às distancias de Sx.y, 2Sx.y e 3 Sx.y respectivamente, encontramos, para n suficientemente
grande, cerca de 68%, 95%, 99,7%, respectivamente, dos pontos amostrais compreendidos
entre pares de retas.
Assim como existe um estimador não-tendencioso da variância amostral, dado
por
existe também um estimador não tendencioso do quadrado do erro
padrão da estimativa. Este estimador é dado por
Por esta razão,
alguns estatísticos preferem tomar ( 16) com n-2 em lugar de n no denominador.
As observações acima modificam-se facilmente para a reta de regressão de x sobre
y ( quando então o erro padrão da estimativa se denota por S x,y) ou para regressão não-linear
ou múltipla.
O coeficiente de correlação linear
Até agora definimos formalmente o coeficiente de correlação mediante (13), mas
não examinamos sua significação. Para tal, notemos que, de (19) e das definições de Sy.x e Sy
temos:
(20)
Podemos agora mostrar que :
(21)
A quantidade a esquerda de ( 21) é chamada de variação total. O primeiro somatório à
direita de (21) é a variação não- explicativa, e o segundo somatório é a variação explicada.
Esta terminologia decorre do fato de que os desvios y- yest se comportam de maneira aleatória
ou imprevisível, enquanto que os desvios
são explicados pela reta de regressão de
mínimos quadrados e tendem, assim, a seguir um padrão definido. Decorre (20) e (21) que:
( 22)
Obs: O numerador é chamado de variação explicada e o denominador de variação
total.
Assim, r2 poded ser interpretado como fração da vaiação total que é explicada pela
reta de regressão de minimos quadrados. Em outras palavras, r mede quão bem a reta de
regressão de minimos quadrados se ajusta aos dados amostrais. Se a variação total é toda
explicada pela reta de regressão, isto é, se r2=1 ou r=+- , dizemos que há correlação linear
perfeita. Por outro lado, se a variação explicada é zero, isto é, se a variação total é toda ela
não- explicada, r=0. Na prática, a quantidade r2, por vezes denominada coeficiente de
determinação, situa-se entre 0 e 1.
O coeficiente de correlação pode ser calculado a partir de um dos dois resultados:
(23)
ou
(24)
Os quais, para regressão linear, são equivalentes. A formula (23) costuma chamar-se
formula do momento- produto para correlação linear.
(25)
e
(26)
Utilizando a transformação (7):
(27)
O que mostra que r é invariante por translação de eixo. Em particular se h=,
k=
, (27) se escreve:
(28)
Fórmula que costuma ser bastante útil nos calculos.
O coeficiente de correlação linear pode ser positivo ou negativo. Se r é positivo, y
tende aumentar com x( o coeficiente angular da reta de mínimos quadrados é positivo)
enquanto que se r é negativo, y tende a decrescer quando x cresce ( o coeficiente angular é
negativo). O sinal é automaticamente levado em conta se ussarmos o resultado ( 23), (25),
(26), (27) 2 (28). Contudo, ao utilizarmos (24) para obter r, devemos aplicar o sinal conveniente.
Coeficiente de correlação Generalizado
A definição (23) ( ou de suas formas equivalentes (35) a (28)) do coeficiente de
correlação envolve somente valores amostrais x, y. Consequentemente, dá o mesmo número
para todas as formas de curvas de regressão e é inoperante como medida de aderência de
ajustamento, exceto no caso da regressão linear, quando coincide com(24). Contudo, a ultima
definição, ou seja:
(29)
Obs: O numerador é chamado de variação explicada e o denominador variação total.
Reflete efetivamente a forma da curva de regressão (através de y est)e é, assim,
adequadra como definição de um coeficiente de correlação generelizada r. Utilizamos (29) para
obter coeficientes de correlação não-linear( que medem quão bem uma curva de regressão
não-linear se ajusta aos dados) ou, mediante generelização apropriada, coeficientes de
correlação multipla. A relação ( 19) entre o coeficiente de correlação e o erro padrão da
estimativa vale também para correlação não-linear.
Exemplo 9.2 Econtre o coeficiente de determinação e o coeficiente de correlação do
Exemplo 8.2
Relembre que a correlação de determinação é r2
Variação explicada
--------------------------Variação Total
O coeficiente de correlação é r.
Desde que y est aumenta quando x aumenta, a correlação é positiva,e podemos escrever
escrever r= 0.7027, ou r= 0.70 para duas significâncias figuradas.
Como coeficiente de correlação mede simplesmente quão bem determinada curva de
regressão ( ou superfície) se ajusta aos dados amostrais, não tem tem sentido utilizarmos um
coeficiente de correlação linear quando os dados não são lineares. Suponha-se, Contudo, que
apliquemos (23) a dados não lineares e obtenhamos um valor numérico consideravelmente
inferior a 1. Então a conclusão a ser tirada não é que exista pequena correlação, e sim que
existe pequena correlação linear. Na verdade, pode haver até uma grande correlação não
linear.
Correlação e Dependência
Sempre que duas variáveis aleatórias X e Y têm coeficientes de correlação diferente de
zero, sabemos que elas são dependentes no sentido probabilístico. Além disso, quando p≠ 0,
podemos utilizar uma equação da forma(6) para predizer o valor de Y a partir de X.
Você precisa saber
É Importante notar que correlação e dependência no sentido acima não implicam
necessariamente causal direta de X e Y. Os exemplos que seguem ilustram este fato.
Exxemplo 9.3
Download