Regressão e Correlação - Imecc

Propaganda
Análise de Regressão e Correlação
Prof. Victor Hugo Lachos Dávila
Departamento Estatı́stica
Universidade Estadual de Campinas, (UNICAMP-IMECC)
Campinas, Brasil
Análise de Regressão e Correlação – p. 1/2
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Análise de Regressão e Correlação – p. 2/2
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Análise de Regressão e Correlação – p. 2/2
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Número de cliente e vendas; e
Análise de Regressão e Correlação – p. 2/2
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Número de cliente e vendas; e
Tempo de estudo e nota na prova;
Análise de Regressão e Correlação – p. 2/2
Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Tempo de prática de esportes e ritmo cardíaco;
Resultado da produção e tempo do processo;
Número de cliente e vendas; e
Tempo de estudo e nota na prova;
Sob dois pontos de vista:
Explicitando a forma dessa relação: regressão.
Quantificando a força dessa relação: correlação.
Análise de Regressão e Correlação – p. 2/2
Exemplo 1
O gerente de uma cadeia de supermercados deseja
desenvolver um modelo com a finalidade de estimar as
vendas médias semanais (em milhares de dólares)
Y - Vendas semanais; e
X - Número de clientes.
Estas variáveis foram observadas em 20 supermercados
escolhidos aleatóriamente.
X
907
926
506
741
789
889
874
510
529
420
Y
11,20
11,05
6,84
9,21
9,42
10,08
9,45
6,73
7,24
6,12
X
679
872
924
607
452
729
794
844
1010
621
Y
7,63
9,43
9,46
7,64
6,92
8,95
9,33
10,23
11,77
7,41
Análise de Regressão e Correlação – p. 3/2
Diagrama de dispersão
Análise de Regressão e Correlação – p. 4/2
10
9
8
7
6
Vendas semanais
11
Diagrama de dispersão
400
500
600
700
800
900
1000
Numero de clientes
Análise de Regressão e Correlação – p. 4/2
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1 x
onde βo e β1 , são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeficientes de
regressão.
Análise de Regressão e Correlação – p. 5/2
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1 x
onde βo e β1 , são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeficientes de
regressão.
O valor real de Y será determinado pelo valor médio da
função linear (µY |x ) mais um termo que representa um erro
aleatório,
Análise de Regressão e Correlação – p. 5/2
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1 x
onde βo e β1 , são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeficientes de
regressão.
O valor real de Y será determinado pelo valor médio da
função linear (µY |x ) mais um termo que representa um erro
aleatório,
Y = µY |x + ε = β0 + β1 x + ε,
onde ε é o erro aleatório.
Análise de Regressão e Correlação – p. 5/2
Modelo de Regressão Linear Simples
Um modelo de regressão linear simples (MRLS) descreve
uma relação entre uma variável independente (explicativa
ou regressora) X e uma variável dependente (resposta) Y ,
nos termos seguintes:
(1)
Y = β0 + β1 X + ε,
onde β0 e β1 são constantes (parâmetros) desconhecidas
e ε é o erro aleatório.
Análise de Regressão e Correlação – p. 6/2
Suposições do MRLS
(i) E(ε) = 0 V ar(ε) = σ 2 (desconhecido).
(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada pelo
experimentador.
(iv) ε ∼ N (0, σ 2 )
Análise de Regressão e Correlação – p. 7/2
Suposições do MRLS
(i) E(ε) = 0 V ar(ε) = σ 2 (desconhecido).
(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada pelo
experimentador.
(iv) ε ∼ N (0, σ 2 )
Se (i)-(iv) se verificarem, então a variável dependente Yi é
uma v.a. com distribuição normal com variância σ 2 e
média µYi |xi , sendo
E(Y |Xi = x) = µYi |x = β0 + β1 x.
Análise de Regressão e Correlação – p. 7/2
Estimação dos parâmetros do MRLS
Suponha que tem-se n pares de observações
(x1 , y1 ), . . . , (xn , yn ).
Análise de Regressão e Correlação – p. 8/2
Estimação dos parâmetros do MRLS
Suponha que tem-se n pares de observações
(x1 , y1 ), . . . , (xn , yn ). A figura mostra uma representação
gráfica dos dados observados e um candidato para a linha
de regressão.
Análise de Regressão e Correlação – p. 8/2
Ao utilizar o modelo (1), é possível expressar as n
observações da amostra como:
(2)
yi = β0 + β1 xi + εi , i = 1, . . . , n.
E a soma de quadrados dos desvios das observações em
relação à linha de regressão é:
Q=
n
X
ε2i =
n
X
(yi − β0 − β1 xi )2 .
Análise de Regressão e Correlação – p. 9/2
Os estimadores de mínimos quadrados (EMQ) de β0 e β1
denotados por β̂0 e β̂1 devem satisfazer as seguintes
equações:
∂Q
|β̂0 ,β̂1
∂β0
n
X
= −2
(yi − β̂0 − β̂1 xi ) = 0,
∂Q
|β̂0 ,β̂1 = −2
∂β1
i=1
n
X
i=1
(yi − β̂0 − β̂1 xi )xi = 0.
Análise de Regressão e Correlação – p. 10/2
Após simplificar as expressões anteriores, tem-se:
β̂0 + β̂1
(3)
n
X
xi =
i=1
β̂0
n
X
i=1
xi + β̂1 x2i =
n
X
i=1
n
X
yi
xi y i .
i=1
As equações (3) recebem o nome de equações normais
de mínimos quadrados.
Análise de Regressão e Correlação – p. 11/2
A solução dessas equações fornece os EMQ, β̂0 e β̂1 ,
dados por:
β̂0 = ȳ − β̂1 x̄.
β̂1 =
n
P
i
xi y i −
i=1
n
P
i=1
n
P
x
onde x̄ =
n
i
i=1
x2i −
i=1
n
P
2
n
.
xi
i=1
n
n
P
y
i
i=1
P
P
n
n
x
y
i
e ȳ =
i=1
n
.
Análise de Regressão e Correlação – p. 12/2
Portanto, a linha de regressão estimada ou ajustada é :
ŷ = β̂0 + β̂1 x
e estima a média da variável dependente para um valor da
variável explicativa X = x, µY |x .
Note que cada par de observações satisfaz a relação:
yi = β̂0 + β̂1 xi + ei ,
i = 1, . . . , n
onde ei = yi − ŷi recebe o nome de resı́duo.
Análise de Regressão e Correlação – p. 13/2
Notações especiais no MRLS
Sxx
Sxy
=
=
=
n
X
n
X
i=1
i=1
(xi − x̄)2 =
P
2
n
xi
x2i −
n
X
n
X
i=1
n
i=1
(xi − x̄)(yi − ȳ) =
X
i=1
=
n
n
X
=
P
P
n
n
x
y
i=1
(xi − x̄)yi =
n
X
i
i
i=1
xi yi −
i=1
n
i=1
xi yi − nx̄ȳ,
P
2
n
i=1
Syy
x2i − nx̄2 ,
n
X
n
X
n
X
i=1
i=1
i=1
(yi − ȳ)2 =
(yi − ȳ)yi =
yi
yi2 −
i=1
n
=
n
X
yi2 − nȳ 2 .
i=1
Os EMQ de β0 e β1 em termos da notação acima são:
β̂0 = ȳ − β̂1 x̄,
β̂1 =
Sxy
.
Sxx
Análise de Regressão e Correlação – p. 14/2
Exemplo de aplicação
Sxx
=
n
X
x2i − n(x̄)2 = 11306209 − 20(731, 15)2 = 614603
i=1
n
Sxy
=
X
xi yi − n(x̄)(ȳ) = 134127, 90 − 20(8, 8055)(731, 15) = 5365, 08
i=1
n
Syy
=
X
yi2 − n(ȳ)2 = 1609, 0971 − 20(8, 8055) = 51, 3605.
i=1
As estimativas dos parâmetros do MRLS são:
β̂1 =
Sxy
5365, 08
=
= 0, 00873; β̂0 = ȳ−β̂1 x̄ = 8, 8055−(0, 00873)(731, 15) = 2, 423.
Sxx
614603
Portanto, a linha de regressão ajustada ou estimada para esses dados são:
ŷ = 2, 423 + 0, 00873x.
Análise de Regressão e Correlação – p. 15/2
11
10
9
Vendas semanais
8
7
6
400
500
600
700
800
900
1000
Numero de clientes
Análise de Regressão e Correlação – p. 16/2
Estimação de σ 2
Os resíduos,
ei = yi − ŷi
são empregados na estimação de σ 2 . A soma de
quadrados residuais ou soma de quadrados dos erros,
denotado por SQR é:
SQR =
n
X
i=1
e2i =
n
X
i=1
(yi − ŷi )2
Pode-se demonstrar que o valor esperado da soma de
quadrados dos residuais SQR, é dado por:
E(SQR) = (n − 2)σ 2
Análise de Regressão e Correlação – p. 17/2
Portanto,
SQR
ˆ
2
σ =
= QM R (Quadrado médio residual),
n−2
é um estimador não viciado de σ 2 ,
Uma fórmula mais conveniente para o cálculo da SQR é
dada por:
SQR = Syy − β̂1 Sxy .
Análise de Regressão e Correlação – p. 18/2
Exemplo
Com os dados do exemplo, é feita a estimação da
variância σ 2 . Nesse caso, Syy = 51, 3605, Sxy = 5365, 08 e
β̂1 = 0, 00873.
Portanto, a estimativa de σ 2 para o exemplo 1.
SQR
Syy − β̂1 Sxy
ˆ
2
σ =
=
n−2
n−2
51, 3605 − (0, 00873)(5365, 08)
= 0, 2513.
=
20 − 2
Análise de Regressão e Correlação – p. 19/2
Teste de hipóteses sobre β1
Suponha que se deseje testar a hipótese de que a
inclinação é igual a uma constante representada por β1,0 .
As hipóteses apropriadas são:
H0 : β1 = β1,0 , vs H1 : β1 6= β1,0
A estatística
β̂1 − β1,0
T =p
,
2
σ̂ /Sxx
tem distribuição t-Student com n − 2 graus de liberdade
sob H0 : β1 = β1,0 . Rejeita-se H0 se
|Tobs | > t1−α/2, n−2 .
Análise de Regressão e Correlação – p. 20/2
Teste de hipóteses sobre β0
H0 : β0 = β0,0 , vs H1 : β0 6= β0,0
A estatística
β̂0 − β0,0
T =q
σ̂ 2 [ n1 +
x̄2
]
Sxx
que tem distribuição t-Student com n − 2 graus de
liberdade. Rejeitamos a hipóteses nula se
|Tobs | > t1−α/2, n−2 .
Análise de Regressão e Correlação – p. 21/2
Teste de significância do MRLS
H0 : β1 = 0, vs H1 : β1 6= 0,
Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir que
não há nenhuma relação linear entre X e Y.
Análise de Regressão e Correlação – p. 22/2
Se H0 : β1 = 0 é rejeitado, implica que X tem importância
ao explicar a variabilidade de Y
Análise de Regressão e Correlação – p. 23/2
Exemplo
Teste de significância para o MRLS para os dados do
exemplo 1, com α = 0, 05.
As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0
Análise de Regressão e Correlação – p. 24/2
Exemplo
Teste de significância para o MRLS para os dados do
exemplo 1, com α = 0, 05.
As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0
Do exemplo tem-se:
β̂1 = 0, 00873, n = 20 Sxx = 614603, σ̂ 2 = 0, 2512,
De modo que a estatística de teste, é:
Tobs = p
β̂1
σ̂ 2 /Sxx
0, 00873
=p
= 13, 65.
0, 2513/614603
Análise de Regressão e Correlação – p. 24/2
Exemplo
Teste de significância para o MRLS para os dados do
exemplo 1, com α = 0, 05.
As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0
Do exemplo tem-se:
β̂1 = 0, 00873, n = 20 Sxx = 614603, σ̂ 2 = 0, 2512,
De modo que a estatística de teste, é:
Tobs = p
β̂1
σ̂ 2 /Sxx
0, 00873
=p
= 13, 65.
0, 2513/614603
Como Tobs = 13, 65 > t0,975,18 = 2, 101, rejeita-se a hipótese
H0 : β1 = 0.
Análise de Regressão e Correlação – p. 24/2
Adequação do modelo de regressão
Análise residual,
Análise de Regressão e Correlação – p. 25/2
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Análise de Regressão e Correlação – p. 25/2
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidos
como
ei = yi − ŷi , i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.
Análise de Regressão e Correlação – p. 25/2
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidos
como
ei = yi − ŷi , i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.
Resíduos padronizados
ei
,
di = √
QM R
i = 1, . . . , n
Análise de Regressão e Correlação – p. 25/2
Adequação do modelo de regressão
Análise residual,
Coeficiente de determinação
Os resíduos de um modelo de regressão são definidos
como
ei = yi − ŷi , i = 1, . . . , n
onde yi é uma observação real de Y e ŷi é o valor
correspondente estimado através do modelo de regressão.
Resíduos padronizados
ei
,
di = √
QM R
i = 1, . . . , n
Análise de Regressão e Correlação – p. 25/2
Análise de Regressão e Correlação – p. 26/2
Gráfico de resíduos do exemplo 1
Análise de Regressão e Correlação – p. 27/2
Coeficiente de Determinação
A quantidade:
SQR
R =1−
SQT
2
onde, SQT =
n
P
(Ŷi − Ȳ )2 , recebe o nome de coeficiente de
i=1
que é usado para julgar a adequação do
modelo de regressão.
Pode ser interpretado como a proporção da variabilidade
presente nas observações da variável resposta Y, que é
explicada pela variável independente X no modelo de
regressão.
determinação
Análise de Regressão e Correlação – p. 28/2
Exemplo
Para os dados dos supermercados do exemplo1,
determinar R2 .
Análise de Regressão e Correlação – p. 29/2
Exemplo
Para os dados dos supermercados do exemplo1,
determinar R2 . Da definição tem-se:
R2 = 0, 912
Análise de Regressão e Correlação – p. 29/2
Exemplo
Para os dados dos supermercados do exemplo1,
determinar R2 . Da definição tem-se:
R2 = 0, 912
Esse resultado significa que o modelo ajustado explicou
91,2% da variação na variável resposta Y (vendas
semanais). Isto é, 91,2% da variabilidade de Y é explicada
pela variável regressora X (número de clientes).
Análise de Regressão e Correlação – p. 29/2
Download