Regressão e Correlação Linear Até o momento, vimos

Propaganda
Probabilidade e Estatística I – Antonio Roque – Aula 25
Regressão e Correlação Linear
Até o momento, vimos técnicas estatísticas em que se estuda uma variável de cada
vez, estabelecendo-se sua distribuição de freqüências, média, desvio padrão, etc. Em
muitos casos, porém, é necessário estudar duas ou mais variáveis ao mesmo tempo. Por
exemplo, pode-se obter mais informações estudando peso e altura juntos do que estudando
cada um separadamente; ou ainda, renda mensal junto com gastos com livros. Neste
capítulo veremos alguns métodos usados para estudar ao mesmo tempo duas variáveis.
Em geral estuda-se duas variáveis ao mesmo tempo com o objetivo de determinar se
há alguma relação entre elas e, se houver, qual o tipo dessa relação. Pode-se, por exemplo,
pesquisar uma relação entre idade e tempo de sobrevivência em casos de cirurgia, ou
procurar saber que tipo de relação (linear, exponencial ou outra) existe entre tempo de
permanência de um paciente num programa de atendimento domiciliar e os custos do
atendimento. Outras vezes estudam-se duas variáveis conjuntamente na expectativa de se
poder usar uma delas para prever a outra. Por exemplo, será que se pode prever o gasto de
uma família com balas e chocolates conhecendo-se a sua renda mensal?
Fundamentos
Quando se consideram duas variáveis aleatórias ao mesmo tempo, X e Y, as técnicas
estatísticas aplicadas são as de regressão e correlação. As duas técnicas estão relacionadas,
mas são usadas para diferentes propósitos.
O objetivo mais comum da análise de regressão é obter uma equação que possa ser
usada para prever ou estimar o valor de uma variável em função de um dado valor de uma
outra variável. A análise de correlação, por outro lado, é usada para se obter uma medida
do grau ou da força da associação entre duas variáveis.
Tanto para regressão como para correlação, os dados consistem de pares de medidas
selecionadas da população de interesse. Por exemplo, um comitê elaborador de vestibular
(FUVEST, p. ex.) pode querer saber se há alguma associação entre a média das notas
1
Probabilidade e Estatística I – Antonio Roque – Aula 25
obtidas na escola de 2º grau e a média das notas obtidas no exame vestibular. Os dados
podem ser arranjados como abaixo, onde o par de números (Xi, Yi) dá as médias das notas
do 2º grau e do vestibular para o i-ésimo aluno da amostra.
Média do 2º
Média do
grau
vestibular
1
X1
Y1
2
X2
Y2
ξ
ξ
ξ
n
Xn
Yn
Aluno
A decisão final sobre se é razoável ou não assumir que existe uma relação entre Y e
X será baseada na análise de regressão e correlação. Obtém-se uma equação matemática
expressando uma relação entre Y e X e usa-se testes de hipóteses para se decidir se a
equação é provável ou não. Caso a equação seja provável, ela pode ser usada para predizer
possíveis valores de Y a partir de valores de X.
Antes, porém, de se fazer uma análise de regressão para um conjunto de pares de
dados é importante escolher adequadamente quais as duas variáveis que se vai estudar
conjuntamente. Se, por exemplo, há o interesse em estudar o consumo de balas, biscoitos e
chocolates por família de uma dada região, deve-se inicialmente construir alguma hipótese
sobre quais variáveis podem estar associadas a ele. Por exemplo, algumas dessas variáveis
poderiam ser renda familiar, número de crianças na família, número de pessoas na família,
idade média da família, etc.
Uma vez determinadas as duas variáveis que serão estudadas, deve-se definir qual
será considerada como a variável dependente e qual será a variável independente. A
variável independente, em geral descrita por x, é a que vai determinar o comportamento da
outra variável, por isto chamada de dependente, em geral descrita por y. A variável
dependente (y) é aquela que queremos estudar e a variável independente (x) é aquela que,
segundo nossa hipótese, causa alguma modificação em y. Em textos de economia costuma-
2
Probabilidade e Estatística I – Antonio Roque – Aula 25
se chamar a variável independente de exógena, porque ela está fora do sistema em
estudo, e a variável dependente de endógena, porque ela faz parte do sistema em estudo.
Em muitos casos é fácil determinar, entre duas variáveis, qual deve ser a
independente e qual será a dependente. Usando de novo o exemplo do consumo familiar
de balas, biscoitos e chocolates, vemos que esta deve ser a variável dependente quando se
escolhe a renda familiar como outra variável, a qual seria então a variável independente.
Seria absurdo supor que é o consumo de guloseimas que determina a renda de uma
família. Agora, em um caso em que se quer estudar as variáveis vendas de jornais
sensacionalistas (tipo Notícias Populares) e vendas de bebidas alcoólicas em uma dada
região fica mais difícil decidir qual deve ser tratada como dependente e qual como
independente. Em casos como este a decisão sobre qual variável será a dependente e qual
será a independente depende do modelo teórico ou da interpretação adotada pelo
investigador, mas isto não irá influenciar os métodos de regressão e correlação descritos a
seguir.
O diagrama de dispersão
A técnica mais simples e provavelmente mais útil para estudar a relação entre duas
variáveis é o diagrama de dispersão. Em um diagrama de dispersão, cada um dos n pares
de observações (Xi,Yi), i = 1, ..., n, é representado graficamente como um único ponto. Os
Xs são colocados no eixo horizontal (abscissa) e os Ys são colocados no eixo vertical
(ordenada). Olhando para o arranjo dos pontos no gráfico, pode-se discernir um padrão
indicador da forma funcional subjacente aos dados. Algumas possíveis formas funcionais
estão indicadas a seguir:
Y
Y
X
a) linear
Y
X
b) não-linear
X
c) sem relação
3
Probabilidade e Estatística I – Antonio Roque – Aula 25
O caso (a) é o de uma relação linear entre Y e X, que pode ser representada por uma
reta. O caso (b) é o de uma relação curvilínea, ou não-linear, que pode ser representada por
uma função não-linear. O caso (c) é um em que não há relação entre Y e X: o valor de Y
(maior ou menor) não depende de X.
Nesta aula, só iremos considerar relações lineares.
Regressão linear simples
Como exemplo introdutório da análise de regressão, vamos considerar dados
relacionando pressão sangüínea sistólica com nível de dosagem de uma droga antihipertensão.
Nível de dosagem da droga
Pressão sangüínea sistólica média
(mg)
(mm Hg)
2
278
3
240
4
198
5
132
6
111
Olhando para os dados, vemos que alguma relação existe entre eles: quanto maior o
nível de dosagem, menor a pressão sangüínea. Estes dados estão mostrados no diagrama
de dispersão abaixo. Observe que nem todos os pontos caem exatamente sobre uma linha
reta, mas a tendência é que os valores de Y decresçam de uma maneira aproximadamente
linear à medida que os valores de X cresçam. Isto indica que a relação entre Y e X pode
ser linear e pode ser descrita por uma linha reta. Vamos tentar determinar uma “equação”
para essa reta.
4
Pressão sangüínea sistólica
Probabilidade e Estatística I – Antonio Roque – Aula 25
300
250
200
150
100
50
0
1
2
3
4
5
6
7
Nível de dosagem da droga anti-hipertensiva
Diagrama de dispersão para os dados da tabela acima.
Qualquer linha reta tem a forma geral: Y = a + bX , onde b dá a inclinação da linha e a
é o ponto onde a linha cruza o eixo Y. Para quaisquer dois pontos, é fácil determinar a
linha reta que os une; porém, para três ou mais pontos, como no caso em questão, é em
geral impossível encontrar uma linha reta que passe por todos os pontos. Neste caso, o que
se tenta fazer é encontrar a linha reta que melhor represente a configuração dos pontos.
Uma ilustração disto é dada pelo gráfico abaixo:
O chapéu sobre o Y, (Ŷ), indica que a reta da
figura, cuja equação é Yˆ = a + bX , é uma
estimativa para a hipotética reta verdadeira. As
distâncias dos pontos para a linha são dadas
por: d i = Yi − Yˆi , onde Yˆi = a + bX i . A reta
Ŷ = a + bX tenta minimizar as distâncias (ou
desvios, ou ainda resíduos) d i dos pontos para
ela: pode-se perceber isto visualmente.
Para o gráfico acima, d1 é positiva, d 2 é negativa e d 3 é positiva. Poderíamos somar
as três distâncias e tentar encontrar alguma maneira matemática de minimizar seu valor.
Porém, é comum que desvios em torno de algum valor se anulem quando somados, como
no caso do desvio médio.
5
Probabilidade e Estatística I – Antonio Roque – Aula 25
Para se medir o grau de adequação (ou ajuste) de uma linha reta a um conjunto de
pontos, é mais conveniente calcular a soma dos quadrados dos desvios. Esta é sempre uma
quantidade positiva e é a que se costuma usar para medir o ajuste dos pontos pela reta:
(
)
2
ˆ 2.
d
=
Y
−
Y
∑ i ∑ i i
O método usado para se encontrar a reta que mais se ajuste a um conjunto de pontos
utilizando a fórmula acima é chamado de método dos mínimos quadrados e a reta
calculada é chamada de reta de regressão. O método é chamado de “mínimos quadrados”
porque o seu objetivo é encontrar a reta Yˆ que minimize a soma dos quadrados da
equação. A discussão formal deste método não será feita aqui. Apenas os seus princípios
serão dados. Para uma dada reta Yˆ = a + bX , a soma dos quadrados dos desvios é escrita
como
(
Φ = ∑ Yi − Yˆ
) = ∑ (Y − a − bX ) .
2
2
i
i
Esta somatória pode ser vista como uma função dos parâmetros a e b, pois variando-se os
valores de a e de b altera-se o valor da soma dos quadrados dos desvios. Note que a forma
funcional desta função é a de um parabolóide (pois a dependência de maior ordem em a e
b é quadrática), de maneira que existe um par (a, b) para o qual ela tem um valor mínimo.
Pela teoria dos máximos e mínimos do Cálculo, o ponto de mínimo (a, b) é determinado
pela condição de que ele seja um extremo, ou seja
∂Φ
∂Φ
=0 e
= 0.
∂a
∂b
Calculando as derivadas chega-se a um sistema de equações algébricas com duas
incógnitas, a e b. Resolvendo esse sistema de equações chega-se aos valores de a e b:
b=
∑ (X
i
i
− X )(Yi − Y )
∑ (X
i
2
i
− X)
;
a = Y − bX ,
onde X e Y são as médias dos valores de X e Y, respectivamente. Há uma fórmula mais
simples para o cálculo de b, que pode ser obtida expandindo-se os termos entre parênteses.
O resultado (tente obtê-lo como exercício) é:
6
b=
Probabilidade e Estatística I – Antonio Roque – Aula 25
n∑ X i Yi − ∑ X i ∑ Yi
i
i
i
⎛
⎞
n∑ X i2 − ⎜ ∑ X i ⎟
i
⎝ i
⎠
2
,
onde n é o número de pares de pontos.
Voltando agora ao exemplo sobre pressão sangüínea sistólica, temos que a reta de
regressão que melhor se ajusta à amostra de pontos ( X i , Yi ) é dada por
Ŷ = a + bX
onde a e b são dados pelas fórmulas acima. Para calcular a reta de regressão devemos
montar uma tabela como a mostrada abaixo:
Dados para o cálculo da linha de regressão para nível de dosagem da droga (X) e pressão
sangüínea sistólica (Y):
n
X Y X2
Y2
1
2 278 4 77284 556
2
3 240 9 57600 720
3
4 198 16 39204 792
4
5 132 25 17424 660
5
6 111 36 12321 666
X.Y
Soma 20 959 90 203833 3394
A partir dos valores da tabela, calculamos:
Y =
∑ Y 959
=
= 191,8 ;
n
5
b=
X =
∑ X 20
=
= 4,0
n
5
5.3394 − 20.959
2210
=−
= −44,2 ;
2
50
5.90 − 20
a = Y − bX = 191,8 − (− 44 ,2)4,0 = 368,6
Ŷ = 368,6 − 44 ,2 X
7
Probabilidade e Estatística I – Antonio Roque – Aula 25
Ŷ=368,6 – 44,2 X
Gráfico
de
Ŷ=368,6-
44,2X
Conhecendo-se a equação para a reta, ela pode ser traçada determinando-se 2 pontos.
Por exemplo, para X = 2 e X = 7 a equação dá, respectivamente: Ŷ = 280,2 e Ŷ = 59,2 . É
assim que se traçou o gráfico acima. Note que a reta traçada representa bem os pontos do
gráfico de dispersão, pelo menos visualmente. Ainda nesta aula, quando tratarmos de
correlação linear, veremos como medir de maneira quantitativa a força desse ajuste linear
entre os pontos e a reta.
A variância em torno da linha de regressão
Assim como se pode definir uma variância (ou desvio padrão) de um conjunto de
pontos em torno de seu valor médio Y , também se pode definir uma variância (ou desvio
padrão) de um conjunto de pontos ordenados Yi em torno da sua linha de regressão Ŷ. Esta
2
quantidade, denotada por S XY
, é definida como
∑ (Y
i
2
S XY
=
− Yˆ
i
n−2
)
2
,
e a sua raiz quadrada, chamada de erro padrão da previsão, é dada por
2
.
S XY = S XY
Esta última quantidade é análoga ao desvio padrão visto nas aulas de estatística descritiva.
Ela dá uma medida do desvio “médio” dos valores observados Yi em relação ao valor
2
predito Ŷ pela linha de regressão. Note que a única diferença da definição de S XY
para a da
variância usual é que se dividiu por n − 2 ao invés de por n − 1.
8
Probabilidade e Estatística I – Antonio Roque – Aula 25
Para um conjunto grande de dados a computação de cada Yi − Yˆ é trabalhosa
(
)
quando deve ser feita manualmente. Existe, porém, uma fórmula algebricamente
2
equivalente par S XY
que simplifica os cálculos:
∑ (Y
i
2
S XY
=
i
2
2
− Y ) − b 2 ∑ (X i − X )
n−2
.
Com o uso da tabela para os dados de pressão sistólica temos:
2
S
2
XY
19904,4 − (− 44,2) × 10 368,0
2
=
=
= 122,7 ⇒ S XY = S XY
= 11,1
5−2
3
Da fórmula acima, vê-se que a variância em relação à reta Ŷ é igual à variância em
relação à média Y se b = 0 (inclinação nula) e se n for muito grande, de maneira que
n − 2 ≅ n − 1.
O coeficiente de correlação linear
Em geral, na análise de correlação, procura-se determinar a “força” de uma relação
funcional entre duas variáveis. A medida mais comumente usada para o grau de associação
linear entre Y e X é o chamado coeficiente de correlação de Pearson (ou simplesmente
coeficiente de correlação), denotado por r, e definido como
∑ (X − X )(Y − Y )
r=
n
2
∑ (X − X )
.
2
n
∑ (Y − Y )
n
O termo no numerador desta fórmula é chamado de covariância de X e Y. Note que ele se
parece muito com a variância, só que agora aparecem os desvios tanto de X como de Y em
relação às suas médias. A covariância mede a variação conjunta de X e Y em torno de suas
médias. Já o termo no denominador é o produto do desvio padrão de X pelo desvio padrão
de Y. Expandindo-se os termos entre parênteses, a fórmula do coeficiente de correlação
pode ser reescrita em uma forma mais fácil para o cálculo, que é a seguinte (tente obtê-la
como exercício):
9
r=
[n∑ X
Probabilidade e Estatística I – Antonio Roque – Aula 25
n∑ XY − ∑ X ∑ Y
2
2
][
2
− (∑ X ) n∑ Y 2 − (∑ Y )
]
Os valores de r estão sempre no intervalo − 1 ≤ r ≤ +1 . Um valor “grande” de r
(positivo ou negativo) indica uma forte relação linear entre X e Y. Um valor negativo de r
indica que grandes valores de X estão associados a baixos valores de Y, ou baixos valores
de X estão associados a grandes valores de Y (o produto
∑ (X − X )(Y − Y ) será negativo
nos dois casos). Já um valor positivo de r indica que grandes valores de X estão associados
a grandes valores de Y e que baixos valores de X estão associados a baixos valores de Y
(tanto
∑ (X − X ) como ∑ (Y − Y ) terão os mesmos sinais nos dois casos).
Os sinais de r e de b (a inclinação da reta Ŷ) são os mesmos: quando a inclinação da
reta é negativa, a correlação também é negativa, indicando uma relação inversa entre Y e
X. Igualmente, uma relação positiva existe entre Y e X quando r e b são positivos. Uma
relação positiva exata ocorre quando r = +1 (todos os pontos estão exatamente sobre a
reta), e uma relação negativa exata ocorre quando r = −1 (todos os pontos também estão
exatamente sobre a reta, só que ela tem inclinação negativa). Quando r = 0 , isto significa
que não há relação linear entre as variáveis Y e X. Note que r pode ser zero e ainda assim
existir possivelmente alguma relação funcional entre as duas variáveis, mas não-linear.
Diagramas de dispersão para os quais r = 0
Exercícios Exemplo
10
Probabilidade e Estatística I – Antonio Roque – Aula 25
1. Predizer a nota média de um estudante de uma universidade ao final do seu primeiro
ano com base na sua nota média do exame vestibular. Seleciona-se uma amostra de
interesse (por exemplo estudantes de Biologia da USP/Ribeirão) e toma-se suas notas
médias no vestibular e no primeiro ano da universidade. Constrói-se uma tabela, um
diagrama de dispersão e, caso se desconfie que haja uma relação linear, determina-se a
linha de regressão e o coeficiente de correlação.
Média do vestibular
Média do primeiro ano
(X)
(1≤C.R.≤5) (Y)
1
24
1,5
2
61
3,5
3
30
1,7
4
48
2,7
5
60
3,4
6
32
1,6
7
19
1,2
8
22
1,3
9
41
2,2
10
46
2,7
Estudante
Y =
∑ Yi = 21,8 = 2,18 ;
10
X =
10
∑X
=
10
2
2
∑ (Y − Y )
∑ (X − X ) = 2098,1;
∑ (X − X )(Y − Y ) = 116,16
383
= 38 ,3
10
= 6,54
Com o auxílio dos dados obtidos:
b=
∑ (X − X )(Y − Y ) = 116,16 = 0,05,
2098,1
∑ (X − X )
2
11
Probabilidade e Estatística I – Antonio Roque – Aula 25
a = Y − b X = 2,18 − (0,0554)(38,3) = 0,06 .
Então:
Yˆ = 0,06 + 0,05 X
Diagrama de dispersão para os dados do exemplo
Variância em torno de Ŷ:
S
2
XY
∑ (Y
=
2
y
2
− Y ) − b 2 ∑ (X i − X )
n−2
=
2
6,54 − (0,05 ) (2098,1)
=
= 0,012 ⇒
8
2
⇒ Erro padrão da previsão = S XY = S XY
= 0,11
Coeficiente de correlação:
r=
∑ (X − X )(Y − Y )
=
2
2
∑ (X − X ) ∑ (Y − Y )
116,16
(2098,1)(6,536)
= 0,99
(forte
relação
linear positiva)
Um estudante com média no vestibular = 40 teria, de acordo com a análise de regressão
feita, C.R. no 1º ano = Ŷ = 0,06+0,05 (40) = 2,27.
12
Probabilidade e Estatística I – Antonio Roque – Aula 25
2. A tabela abaixo fornece os valores médios, antes da 2ª Guerra Mundial, da ingestão
diária de calorias e da taxa de mortalidade infantil para alguns países selecionados.
Países
Nº de calorias por
pessoa por dia (X)
Taxa de
mortalidade infantil
por 1.000 (Y)
Argentina
2.730
98,8
Burma
2.080
202,1
Ceilão
1.920
182,8
Chile
2.240
240,8
Colômbia
1.860
155,6
Cuba
2.610
116,8
Egito
2.450
162,9
Índia
1.970
161,6
Uruguai
2.380
94,1
a) Faça o diagrama de dispersão para estes dados;
b) Calcule a reta de regressão para os dados e desenhe-a no diagrama;
c) Calcule o coeficiente de correlação.
X = 2249 ;
Y = 157 ;
2
∑ (X − X ) = 785289 ;
b=
∑ (X − X )(Y − Y ) = −67163 ;
2
∑ (Y − Y ) = 18740.
67163
∑ (X − X )(Y − Y )
=−
= −0,0855 ;
2
785289
∑ (X − X )
a = Y − bX = 157 − (− 0,0855)× 2249 = 349 ;
r=
Ŷ = 349 − 0,0855 X̂
− 67163
− 67163
∑ (X − X )(Y − Y )
=
=
= −0,5536
2
2
785289 × 18740 121311
∑ (X − X ) ∑ (Y − Y )
13
Probabilidade e Estatística I – Antonio Roque – Aula 25
250
230
210
190
170
150
130
110
90
1800
Reta de Regressão
2000
2200
2400
2600
2800
3. Os lucros de uma companhia no período de 1990 a 1994 são dados abaixo. Obtenha a
reta de regressão e o coeficiente de correlação para os dados. Com base na reta obtida,
estime o lucro para 1995.
Ano
(t)
Lucro
X (milhões
(X − X ) (Y − Y ) (X − X )2 (Y − Y )2 (X − X ) (Y − Y )
US$)
1990 0 2,3
-2
1991 1 2,9
-1
1992 2 5,2
0
1993 3 5,8
1994 4 6,1
-
4
4,67
4,32
1
2,43
1,56
0,74
0
0,55
0
1
1,34
1
1,80
1,34
2
1,64
4
2,69
3,28
2,16
1,56
Quando uma das variáveis é o ano, não é conveniente usá-la para fazer os cálculos
(isso os tornaria muito trabalhosos). É mais fácil definir uma outra variável X a partir do
tempo em anos. Por exemplo, aqui escolheu-se o ano de 1990 como o ano para o qual X =
0. A partir daí, acrescenta-se 1 à variável X para cada ano. Portanto:
X = 10 / 5 = 2 ;
⇒ ∑ (X − X )(Y − Y ) = 10 ,50;
Y = 22,3 / 5 = 4,46
2
∑ (X − X ) = 10;
⇒
2
∑ (Y − Y ) = 12 ,14 ⇒
14
Probabilidade e Estatística I – Antonio Roque – Aula 25
⇒b =
10 ,5
= 1,05;
10
a = Y − bX = 4,46 − 1,05 × 2 = 2,36 ⇒
⇒Ŷ = 2,36 + 1,05 X
r=
10 ,50
10 × 12 ,14
=
10 ,50
= 0,9528
11,02
A estimativa de lucros para 95 é:
1995 → x = 5 ⇒ Ŷ = 2,36 + 1,05 × 5 = 7,61
Lucro (milhões US$)
7
6
5
4
3
2
90
91
92
93
94
95
Ano
15
Download