1 Correlação Linear Simples

Propaganda
Centro de Ciências e Tecnologia Agroalimentar - Campus Pombal
Disciplina: Estatística Básica - 2013 Aula 12
Professor: Carlos Sérgio
UNIDADE 8 - CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES (NOTAS DE AULA)
1
Correlação Linear Simples
1.1
Relação entre variáveis
Se desejarmos verificar a existência e o grau de relação entre variáveis então devemos
realizar o estudo da correlação entre essas variáveis.
Exemplos:
• O peso pode estar relacionado com a idade;
• O consumo das famílias pode estar relacionado com a renda;
• A demanda de um determinado produto estar relacionado com seu preço.
1.2
Medida de Correlação
O estudo da correlação tem por objetivo medir e avaliar o grau de relação entre as
variáveis X e Y através da disposição dos pontos (X, Y ) em torno de uma reta.
O instrumento de medida da correlação linear é dado pelo coeficiente de correlação
linear de Pearson, ou, simplesmente, coeficiente de correlação.
r=
cov(x, y)
Sx Sy
em que Sx e Sy são os desvios padrões das variáveis X e Y na amostra.
Como
sP
Sx =
n
i=1 (xi
−
n−1
x̄)2
sP
e Sy =
1
n
i=1 (yi
− ȳ)2
n−1
e a covariância cov(x, y) é dada por
Pn
cov(x, y) =
− x̄)(yi − ȳ)
Sx Sy
i=1 (xi
Para Calculo direto do coeficiente de correlação linear de Pearson, tem-se a seguinte
fórmula:
P P
xi yi − xi yi
r=p P 2
P
P
P
[n xi − ( xi )2 ] · [n yi2 − ( yi )2 ]
n
P
O campo de variação do coeficiente r situa-se entre −1 e +1.
−1 ≤ r ≤ 1
Sua interpretação dependerá do valor numérico e do sinal.
Figura 1: Diagramas de Dispersão.
2
Figura 2: Diagramas de Dispersão.
Figura 3: Diagramas de Dispersão.
2
Regressão Linear
• A análise de regressão linear apresenta como resultado uma equação matemática
que descreve um determinado relacionamento.
• A equação pode ser usada para estimar ou predizer valores de uma variável quando
se conhecem ou se supõem conhecidos valores de outra variável.
Definição: Constitui em tentativa de estabelecer uma equação matemática linear que
melhor descreva o relacionamento entre duas variáveis (uma dependente e outra independente).
A equação de regressão tem por finalidade estimar valores de uma variável, com base
em valores conhecidos da outra.
Modelo de regressão linear
Yi = α + βxi + εi
3
(1)
em que Yi é o valor estimado (variável dependente), xi é a variável independente, β é
o coeficiente de regressão (coeficiente angular), α é o coeficiente linear e εi é o resíduo
Observação: Chamamos (1) de modelo linear, pois este representa uma reta. Todavia,
em casos mais gerais, o termo linear refere-se ao modo como os parâmetros entram no
modelo, ou seja, de forma linear.
2.1
Pressuposições
• A relação entre X e Y é linear (os acrescimos em X produzem acrescimos proporcionais em Y e a razão de acrescimo é constante).
• Os valores de X são fixados arbitrariamente (X não é variável aleatória)
• εi é o erro aleatório, portanto uma variável aleatória com distribuição normal, com
média zero e variância constante σ 2 . [εi ∼ N (0, σ 2 )]. εi representa a variação de Y
que não é explicada pela variável independente X . Implica que yi ∼ N (α + βxi , σ 2 ).
• Se i 6= j , cov(εi , εj ) = 0, isto é, para duas observações distintas, os erros são
não-correlacionados (os erros são considerados independentes).
Exemplo
Vendas (×1000) X Lucro (×100)
obs
Vendas
Lucro
2.2
1
201
17
2
225
20
3
305
21
4
380
23
5
560
25
6
600
24
7
685
27
8
735
27
Método de estimação dos parâmetros α e β
• As estimativas dos parâmetros α e β dados por α̂ e β̂ , serão dados a partir de uma
amostra de n pares de valores (xi , yi ) que correspondem a n pontos no diagrama de
dispersão.
• O método mais usado para ajustar uma linha reta para um conjunto de pontos (xi , yi ),
i = 1, 2, . . . , n é o Método dos Mínimos Quadrados.
• O método dos mínimos quadrados consiste em adotar como estimativa dos parâmetros os valores que minimizam a soma dos quadrados dos desvios.
Caracteristicas:
4
Figura 4: Diagrama de Dispersão.
• A soma dos desvios verticais dos pontos em relação a reta é zero;
• A soma dos quadrados desses desvios é mínima.
Os valores α̂ e β̂ da reta de regressão ŷ = α̂ + β̂x serão estimados de tal forma que
minimizam a soma dos erros, dados por
εi = yi − (α + βxi ),
i = 1, 2, . . . , n
Obtemos, então, a quantidade de informação perdida pelo modelo ou soma dos quadrados dos erros (ou desvios)
SQ(α, β) =
n
X
n
X
ε2i =
i=1
{yi − (α + βxi )}2 .
i=1
Derivando em relação a α e β e igualando a zero, observa-se que as soluções α̂ e β̂
devem satisfazer.
nα̂ + β̂
n
X
xi =
n
X
i=1
α̂
n
X
i=1
xi + β̂
n
X
yi
i=1
x2i
=
i=1
n
X
xi y i
i=1
as quais produzem as soluções
α̂ = ȳ − β̂ x̄
(2)
Pn
xi yi − nx̄ȳ
β̂ = Pi=1
n
2
2
i=1 xi − nx̄
(3)
5
Para cada par de valores (xi , yi ) pode-se estabelecer o desvio εi = yi − ŷi = yi − (α̂ +
β̂xi )
Exemplo
Para facilitar os cálculos da reta de regressão, acrescenta-se três novas colunas na
tabela de dados.
obs
1
2
3
4
5
6
7
8
P
ȳ =
184
8
Vendas (xi )
201
225
305
380
560
600
685
735
3.691
= 23 e x̄ =
3691
8
Lucro (yi )
17
20
21
23
25
24
27
27
184
x2i
yi2
xi y i
40.401
50.625
93.025
144.400
313.600
360.000
469.225
540.225
2.011.501
289
400
441
529
625
576
729
729
4.318
3.417
4.500
6.405
8.740
14.000
14.400
18.495
19.845
89.802
= 461, 38
P
xi yi − nx̄ȳ
89.802 − 8 · (461, 38)(23)
β̂ = P 2
=
= 0, 0159
2
xi − nx̄
2.011.501 − 8(461, 38)2
α̂ = ȳ − β̂ x̄ = 23 − (0, 0159)(461, 38) = 15, 66
Logo,
ŷ = 0, 0159x + 15, 66
Partindo da reta de regressão pode-se afirmar que para uma venda de 400 mil pode-se
obter um lucro de ŷ = (0, 0159)(400.000) + 15, 66 = 22 mil.
3
Decomposição da variância total
A dispersão da variação aleatória "y "pode ser medida através da soma dos quadrados
dos desvios em relação a sua média ȳ . Essa soma de quadrados será denominada Soma
de Quadrados Total (SQTotal)
SQTotal =
n
X
(yi − ȳ)2
i=1
A SQTotal pode ser decomposta da seguinte forma:
6
Figura 5: Diagrama de Dispersão com a reta ajustada.
n
X
n
n
X
X
2
(yi − ȳ) =
(ŷi − ȳ) +
(yi − ŷi )2
2
i=1
i=1
i=1
Assim,
SQTotal = SQRegressão + SQResíduo
Fórmulas para cálculo:
n
n
n
X
2
X
X
2
2
SQTotal =
(yi − ȳ) = n
yi −
yi ,
i=1
i=1
i=1
com (n − 1) graus de liberdade.
n
n
n
n
X
X
X
X
2
SQRegressão =
(yi − ŷi ) = beta n
xi y i −
xi
yi ,
i=1
i=1
i=1
i=1
com 1 grau de liberdade.
4
Análise de Variância da Regressão
A Soma de Quadrados da Regressão (SQRegressão), segue uma distribuição χ2 com
um grau de liberdade, enquanto que a Soma de Quadrados do Resíduo (SQResíduo)
segue a mesma distribuição, porém com (n − 2) graus de liberdade. Portanto, o quociente
QM Regressão
SQRegressão/1
=
,
SQResíduo/n − 2
QM Resíduo
segue uma distribuição F de Snedecor com 1 e (n − 2) graus de liberdade.
7
Esse fato nos permite empregar a distribuição F de Snedecor para testar a significância
da regressão, através da chamada Análise de Variância, sintetizada no quadro a seguir.
Tabela 1: Tabela ANOVA para modelo de regressão
C. V.
g.l.
SQ
Regressão
1
SQReg
QM Reg =
SQReg
1
Resíduo
n−2
SQRes
QM Res =
SQRes
n−2
Total
QM
n − 1 SQTotal
F
QM Reg
QM Res
= Fcalc
-
Para testar a significância da regressão, formula-se as seguintes hipóteses:
H0 : β = 0 contra H1 : β 6= 0, em que β representa o coeficiente de regressão
paramétrico.
Se o valor de F , calculado a partir do quadro anterior, superar o valor teórico de F com
1 e (n − 2) graus de liberdade, para o nível de significância α, rejeita-se H0 e conclui-se
que a regressão é significativa.
Se Fcal > Fα,[1,(n−2)] , rejeita-se H0 .
Para o exemplo anterior,
ŷi = 0, 0159xi + 15, 66
n
n
n
h X
i
X
X
SQRegressão = β n
x i yi −
xi
yi =
i=1
i=1
i=1
SQRegressão = 0, 0159[8(89.802) − (3.691)(184)] = 624, 42
SQTotal = n
n
X
i=1
yi2 −
n
X
2
yi = 8(4.318) − (184)2 = 688
i=1
Comparando o Fcal = 58, 93 com o Ftab = F0,05;(1,6) = 5, 99
Conclui-se que a regressão de y sobre x segundo o modelo ŷi = 0, 0159xi + 15, 66 é
siginificativa ao nível de 5%.
Uma vez estabelecida e testada a equação de regressão, a mesma pode ser usada
para explicar o relacionamento entre as variáveis e também fazer predições dos valores de
y para os valores fixados x.
8
Tabela 2: Tabela ANOVA para modelo de regressão
C. V.
Regressão
Resíduo
Total
5
g.l.
SQ
QM
F
1
6
7
624,42
63,58
688,00
624,42
10,60
58,93
Coeficiente de determinação
Este coeficiente é uma medida da proporção da variação da variável resposta Y que é
explicada pela equação de regressão quando está envolvida a variável independente X .
O coeficiente de determinação é dado por
2
P
P
P
n ni=1 xi yi − ni=1 xi ni=1 yi
cov(x, y)
Pn
Pn 2
Pn
=
r 2 = Pn 2
2
2
[n i=1 xi − ( i=1 xi ) ] · [n i=1 yi − ( i=1 yi ) ]
Sxx Syy
O valor de r2 varia de 0 a 1.
No exemplo,
r2 =
[8(89.802) − (3.691)(184)]2
= 0, 908
[8(2.011.501) − (3.691)2 ] · [8(4.318) − (184)2 ]
indica que aproximadamente 91% da variação dos lucros estão relacionados com a
variação das vendas.
Exercícios
1. Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos
com mercadorias para famílias de 4 pessoas. O estudo se limitou a famílias com
renda líquida entre 8 e 20 salários mínimos. Obteve-se a seguinte equação:
ŷ = −1, 20 + 0, 40x
em que ŷ despesa mensal estimada com mercadorias e x renda líquida mensal.
Estimar a despesa de uma família com renda mensal líquida de 15 s.m.
9
2. Complete o esquema de cálculo do coeficiente de correlação para os valores das
variáveis xi e yi . Obtenha os parâmetros α e β da reta ajustada.
xi
yi
4
12
6
10
8
8
10
12
12
14
3. Os dados abaixo forma colhidos de cinco fábricas diferentes de uma determinada
indústria:
Produção xi
Custo total yi
12
80
4
44
6
51
11
70
8
61
a) Estime uma função linear para o custo total dessa indústria.
b) Determine o valor do coeficiente de determinação r2 .
c) Construa a tabela ANOVA e realize o teste de hipótese.
4. As notas de uma sala com nove estudantes em um relatório de meio de curso (x) e
em um exame final (y ) são as seguintes
xi
yi
77
82
50
66
71
78
72
34
81
47
94
85
96
99
99
99
67
68
a) Estime a reta de regressão linear
b) Estime a nota do exame final de um aluno que teve uma nota 85 no relatório de
meio de curso.
c) Determine o valor de r2 e interprete o resultado.
d) Construa a tabela ANOVA e realize o teste de hipótese.
10
Download