Parte 1

Propaganda
ANÁLISE DE REGRESSÃO E CORRELAÇÃO
Quando se consideram observações de 2 ou mais variáveis surge um ponto novo:
“O estudo das relações porventura existentes entre as variáveis.”
A análise de regressão e correlação compreendem a análise de dados amostrais para
saber se e como um certo conjunto de variáveis está relacionado com outra variável.
Análise de regressão: estuda o relacionamento entre uma variável chamada a variável
dependente e outras variáveis chamadas variáveis independentes. Este relacionamento é
representado por um modelo matemático , isto é, por uma equação que associa a variável
dependente com as variáveis independentes. Este modelo é designado por modelo de
regressão linear simples se define uma relação linear entre a variável dependente e uma
variável independente. Se em vez de uma, forem incorporadas várias variáveis
independentes, o modelo passa a denominar-se modelo de regressão linear múltipla.
1
Análise de correlação: dedica-se a inferências estatísticas das medidas de associação
linear que se seguem:
• coeficiente de correlação simples: mede a “força” ou “grau” de relacionamento
linear entre 2 variáveis.
• coeficiente de correlação múltiplo: mede a “força” ou “grau” de relacionamento
linear entre uma variável e um conjunto de outras variáveis.
As técnicas de análise de correlação e regressão estão intimamente ligadas.
2
ANÁLISE DE REGRESSÃO E CORRELAÇÃO SIMPLES
Notação:
Y→ variável dependente
X→ variável independente
Exemplos:
1. Relação entre o peso e a altura de um homem adulto
(X→altura; Y→peso)
2. Relação entre o preço do vinho e o montante da colheita em cada ano
(X→montante da colheita; Y→preço do vinho)
Pode suceder que dois homens adultos tenham a mesma altura e pesos diferentes e viceversa. No entanto, em média, quanto maior for a altura maior será o peso.
Relativamente ao segundo exemplo, pode também suceder que a colheitas iguais
correspondam preços diferentes e vice-versa. No entanto, em média, quanto maior for a
colheita menor será o preço do vinho.
É essa variação em média que vai ser estudada.
3
A Regressão Linear Simples constitui uma tentativa de estabelecer uma equação
matemática linear (recta) que descreva o relacionamento entre duas variáveis.
O MODELO de Regressão Linear Simples:
Y = β 0 + β1 X + ε
y = β 0 + β1 x
y
Y→ variável dependente
X→ variável independente
β0→ ordenada na origem
β1→ declive da recta
ε→ variável erro
altura
β0
compr
β1 =altura/comp
x
A partir dos dados disponíveis estimamos β0 e β1 e substituímos estes parâmetros teóricos
pelas suas estimativas b0 e b1 para obter a equação de regressão estimada.
4
DIAGRAMAS DE DISPERSÃO
Os dados para a análise de regressão e correlação simples são da forma:
(x1,y1), (x2,y2), …, (xi,yi), …, (xn,yn)
Com os dados constrói-se o diagrama de dispersão, este deve exibir uma tendência
linear para que se possa usar a regressão linear. Portanto este diagrama permite decidir
empiricamente se um relacionamento linear entre X e Y deve ser assumido.
Por análise do Diagrama de Dispersão pode-se também concluir (empiricamente) se o
grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo
como se situam os pontos em redor de uma recta imaginária que passa através do enxame
de pontos. A correlação é tanto maior quanto mais os pontos se concentram, com
pequenos desvios, em relação a essa recta. Mais, se o declive da recta é positivo,
concluímos que a correlação entre X e Y é positiva, i.e., os fenómenos variam no mesmo
sentido. Ao contrário, se o declive é negativo, então a correlação entre X e Y é negativa,
i.e., os fenómenos variam em sentido inverso.
5
Sugerem uma regressão não linear
(i.e., a relação entre as duas variáveis poderá ser descrita por uma equação não linear)
Y
Y
X
X
Sugerem uma regressão linear
Y - Peso
Y - Preço
(i.e., a relação entre as duas variáveis poderá ser descrita por uma equação linear)
X - Altura
Existência de correlação positiva (em média,
quanto maior for a altura maior será o peso)
X - Colheita
Existência de correlação negativa (em média,
quanto maior for a colheita menor será o preço)
6
EXEMPLO: Queremos estudar a relação entre a quilometragem de um carro usado e o
seu preço de venda
Diagrama de dispersão
Preço
Carros
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Total
Quilometragem
X (1000 Km)
40
30
30
25
50
60
65
10
15
20
55
40
35
30
505
Preço de
venda Y
(dezena de
Euros)
1000
1500
1200
1800
800
1000
500
3000
2500
2000
800
1500
2000
2000
21600
3500
3000
2500
2000
1500
1000
500
0
0
20
40
60
80
Quilometragem
Os dados sugerem uma relação linear entre a
quilometragem e o preço de venda. Existe uma
correlação negativa: em média, quanto maior
for a quilometragem menor será o preço de
venda.
7
ESTIMAÇÃO DOS COEFICIENTES DE REGRESSÃO
MÉTODO DOS MÍNIMOS QUADRADOS
Pretende-se determinar a recta de regressão que melhor se ajusta ao conjunto de dados
Y
Qual a recta que
melhor se ajusta?
x
Y
yˆ i = b0 + b1 xi
(x1,y1)
d1
d2
(x2,y2)
é o valor dado pela recta
(xi,yi)
di
di=yi-(b0+b1xi)
y=b0+b1x
x
resíduos
8
Objectivo: determinar b0 e b1 de modo a que os resíduos sejam tão pequenos quanto possível.
di = yi − yˆ i = yi − (b0 + b1 xi )
→ i-ésimo resíduo, isto é, a distância vertical do ponto
(xi,yi) à recta de regressão
O método dos mínimos quadrados consiste em escolher b0 e b1 de modo a minimizar a
soma dos quadrados dos resíduos di. Desta forma estamos essencialmente a escolher a
recta que se aproxima o mais possível de todos os pontos dos dados simultaneamente.
Soma dos quadrados
dos resíduos
n
=
n
SSE = ∑ di = ∑ ( yi − b0 − b1 xi ) 2
i =1
2
i =1
Para determinar b0 e b1 de modo a minimizar SSE:
n
⎧
n
∂
SSE
⎧
∑ xi yi − n x y
⎧ − 2 (y −b −b x ) = 0
=
0
⎪
∑ i 0 1i
⎪⎪ ∂b
⎪
⎪b1 = i =n1
i =1
0
⇔⎨
⇔L⇔ ⎨
2
⎨ ∂SSE
n
xi − n x 2
∑
⎪
⎪
= 0 ⎪− 2∑ ( yi − b0 − b1 xi ) xi = 0
i =1
⎪⎩ ∂b1
⎩ i =1
⎪b = y − b x
⎩ 0
1
x → média dos valores observados de X
y → média dos valores observados de Y
9
Atenção:
Um conjunto de pontos dá evidência de linearidade apenas para os valores de X
cobertos pelo conjunto de dados. Para valores de X que saem fora dos que foram cobertos
não há qualquer evidência de linearidade. Por isso é arriscado usar uma recta de regressão
estimada para predizer valores de Y correspondentes a valores de X que saem fora do
âmbito dos dados.
Y
X
âmbito dos dados
O perigo de extrapolar para fora do âmbito dos dados amostrais é que a mesma relação
possa não mais se verificar.
10
EXEMPLO: Estimação dos coeficientes de regressão
Preço de
venda Y
Quilometragem (dezena de
Carros X (1000 Km)
Euros)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
40
30
30
25
50
60
65
10
15
20
55
40
35
30
1000
1500
1200
1800
800
1000
500
3000
2500
2000
800
1500
2000
2000
Total
505
21600
XY
X2
Y2
40000
45000
36000
45000
40000
60000
32500
30000
37500
40000
44000
60000
70000
60000
1600
900
900
625
2500
3600
4225
100
225
400
3025
1600
1225
900
1000000
2250000
1440000
3240000
640000
1000000
250000
9000000
6250000
4000000
640000
2250000
4000000
4000000
x=
505
= 36.07
14
y=
21600
= 1542.85
14
640000 21825 39960000
x y − n x y 640000 − 14 × 36.07 × 1542.85
∑
i =1 i i
=
= −38.56
b1 =
n
2
2
2
21825 − 14 × 36.07
∑i =1 xi − n x
n
b0 = y − b1 x = 1542.85 − 38.56 × 36.07 = 2934
11
Recta de regressão estimada: y=2934-38.56 x
O preço esperado para um carro é de 2934 dezenas de Euros menos
38.56 dezenas de Euros por cada mil Km que o carro tenha andado.
Por exemplo, para um carro que tenha andado 20000 Km, a equação sugere o preço:
yˆ = 2934 − 38.56 × 20 = 2162.8 dezenas de Euros
O coeficiente de regressão estimado b1 (estimativa de β1), estima o efeito
sobre o valor médio da variável dependente Y de uma alteração unitária da
variável independente X.
Assim, em média, por cada 1000km que o carro tenha andado, o
preço de venda baixa 38.56 dezenas de Euros
Atenção:
b0=2934 não pode ser interpretado como sendo o preço previsto para um carro
novo, 0 Km, pois este valor de quilometragem encontra-se fora do âmbito dos
dados.
Trata-se de uma relação média, assim um carro com determinada
quilometragem não obterá necessariamente o preço de venda exacto indicado
pelo equação
12
QUALIDADE DO AJUSTAMENTO
COEFICIENTE DE CORRELAÇÃO E DE DETERMINAÇÃO
Seja y a média dos valores observados para a variável dependente.
Uma medida útil associada à recta de regressão é o grau em que as predições baseadas
na equação de regressão, ŷi , superam as predições baseadas em y . Isto é, se as predições
baseadas na recta não são melhores que as baseadas no valor médio y , então não adianta
dispormos de uma equação de regressão.
Se a dispersão (erro) associada à recta é muito menor que a dispersão (erro) associada a
y , as predições baseadas na recta serão melhores que as baseadas em y .
Dispersão em torno de y - Variação Total:
n
SST= ∑ ( yi − y ) 2 (Soma dos quadrados totais)
i =1
Dispersão em torno da recta de regressão – Variação não explicada:
n
n
SSE= ∑ ( yi − yˆ i ) = ∑ d i (Soma dos quadrados dos resíduos)
i =1
2
2
i =1
O ajustamento será tanto melhor quanto mais pequeno for SSE relativamente a SST.
13
Pode-se mostrar que:
n
n
n
∑ ( yi − y ) = ∑ ( yi − yˆ i ) + ∑ ( yˆ i − y ) 2
2
i =1
i =1
SST
SST
SSE
SSR
2
=
i =1
SSE
+
SSR
Soma dos quadrados totais – Variação Total
Soma dos quadrados dos resíduos – Variação não explicada
Soma dos quadrados da regressão – Variação explicada
Isto é:
Variação total de Y à
Variação que o ajustamento
volta da sua média =
não consegue explicar
+
Variação explicada
pelo ajustamento
14
Coeficiente de determinação –r2 =
SSR SST − SSE
SSE
= 1−
=
SST
SST
SST
r2 é a proporção de variação da variável dependente Y que é explicada pelo modelo,
isto é, pela equação de regressão ajustada, ou equivalentemente, é a proporção da variação
de Y explicada em termos lineares pela variável independente.
Note que:
• 0≤r2≤1;
• r2≅1 (próximo de 1) significa que grande parte da variação de Y é explicada
linearmente pela variável independente.
• r2≅0 (próximo de 0) significa que grande parte da variação de Y não é explicada
linearmente pela variável independente.
Neste sentido este coeficiente pode ser utilizado como uma medida da qualidade do
ajustamento, ou como medida da confiança depositada na equação de regressão como
instrumento de previsão:
r2≅0
modelo linear muito pouco adequado
r2≅1
modelo linear bastante adequado
15
n
r2 pode ser calculado a partir da seguinte fórmula: r 2 =
n
b0 ∑ yi + b1 ∑ yi xi − ny 2
i =1
i =1
n
∑ yi − ny 2
2
i =1
À raiz quadrada de r2 dá-se o nome de coeficiente de correlação simples
r = ± r2
(com o sinal do declive b1)
É uma medida do grau de associação linear entre as variáveis X e Y.
• -1≤r≤1;
• r>0 (positivo) indica que as duas variáveis tendem a variar no mesmo sentido, isto é,
em média um aumento na variável X provocará um aumento na variável Y;
• r<0 (negativo) indica que as duas variáveis tendem a variar em sentido inverso, isto
é, em média um aumento na variável X provocará uma diminuição na variável Y;
• r=1 e r=-1 indicam a existência de uma relação linear perfeita entre X e Y, positiva e
negativa respectivamente;
• r=0 indica a inexistência de qualquer relação ou tendência linear entre X e Y
podendo no entanto existir uma relação não linear entre elas. Isto é, é possível que as
duas variáveis estejam fortemente associadas (movimentos numa variável estão
associados a movimentos na outra) sem que o relacionamento seja linear.
16
r=1
Y
X
r=-1
Y
X
17
EXEMPLO: Determinação dos coeficientes de correlação e determinação
Preço de
venda Y
Quilometragem (dezena de
Carros X (1000 Km)
Euros)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
40
30
30
25
50
60
65
10
15
20
55
40
35
30
1000
1500
1200
1800
800
1000
500
3000
2500
2000
800
1500
2000
2000
Total
505
21600
r =
2
n
2
2
y
n
y
−
∑i =1 i
n
X2
Y2
40000
45000
36000
45000
40000
60000
32500
30000
37500
40000
44000
60000
70000
60000
1600
900
900
625
2500
3600
4225
100
225
400
3025
1600
1225
900
1000000
2250000
1440000
3240000
640000
1000000
250000
9000000
6250000
4000000
640000
2250000
4000000
4000000
x=
505
= 36.07
14
y=
21600
= 1542.85
14
b0=2934
b1=-38.56
640000 21825 39960000
b0 ∑i =1 yi + b1 ∑i =1 yi xi − ny 2
n
XY
2934 × 21600 − 38.56 × 640000 − 14 × 1542.852
=
= 0.809
2
39960000 − 14 × 1542.85
18
r2=0.809→ aproximadamente 81% da variação no preço de venda dos carros está
relacionada linearmente com a variação na quilometragem rodada, i.e., 81%
dessa variação é explicada por variações na quilometragem. 19% não é
explicada por variações na quilometragem e é resultante de outros factores
não considerados (que podem influir no preço de venda), como por exemplo:
− as condições gerais do carro;
− a localização/reputação do vendedor;
− a necessidade que o comprador tem do carro;
− o nº de registos de propriedade do carro
− etc.
r= − 0.809 = −0.899 → indica que o grau de relacionamento linear entre as variáveis é
forte. A correlação é negativa, pois um acréscimo na
quilometragem é, tendencialmente, acompanhado por um
decréscimo do preço de venda.
19
Download