ANÁLISE DE REGRESSÃO E CORRELAÇÃO Quando se consideram observações de 2 ou mais variáveis surge um ponto novo: “O estudo das relações porventura existentes entre as variáveis.” A análise de regressão e correlação compreendem a análise de dados amostrais para saber se e como um certo conjunto de variáveis está relacionado com outra variável. Análise de regressão: estuda o relacionamento entre uma variável chamada a variável dependente e outras variáveis chamadas variáveis independentes. Este relacionamento é representado por um modelo matemático , isto é, por uma equação que associa a variável dependente com as variáveis independentes. Este modelo é designado por modelo de regressão linear simples se define uma relação linear entre a variável dependente e uma variável independente. Se em vez de uma, forem incorporadas várias variáveis independentes, o modelo passa a denominar-se modelo de regressão linear múltipla. 1 Análise de correlação: dedica-se a inferências estatísticas das medidas de associação linear que se seguem: • coeficiente de correlação simples: mede a “força” ou “grau” de relacionamento linear entre 2 variáveis. • coeficiente de correlação múltiplo: mede a “força” ou “grau” de relacionamento linear entre uma variável e um conjunto de outras variáveis. As técnicas de análise de correlação e regressão estão intimamente ligadas. 2 ANÁLISE DE REGRESSÃO E CORRELAÇÃO SIMPLES Notação: Y→ variável dependente X→ variável independente Exemplos: 1. Relação entre o peso e a altura de um homem adulto (X→altura; Y→peso) 2. Relação entre o preço do vinho e o montante da colheita em cada ano (X→montante da colheita; Y→preço do vinho) Pode suceder que dois homens adultos tenham a mesma altura e pesos diferentes e viceversa. No entanto, em média, quanto maior for a altura maior será o peso. Relativamente ao segundo exemplo, pode também suceder que a colheitas iguais correspondam preços diferentes e vice-versa. No entanto, em média, quanto maior for a colheita menor será o preço do vinho. É essa variação em média que vai ser estudada. 3 A Regressão Linear Simples constitui uma tentativa de estabelecer uma equação matemática linear (recta) que descreva o relacionamento entre duas variáveis. O MODELO de Regressão Linear Simples: Y = β 0 + β1 X + ε y = β 0 + β1 x y Y→ variável dependente X→ variável independente β0→ ordenada na origem β1→ declive da recta ε→ variável erro altura β0 compr β1 =altura/comp x A partir dos dados disponíveis estimamos β0 e β1 e substituímos estes parâmetros teóricos pelas suas estimativas b0 e b1 para obter a equação de regressão estimada. 4 DIAGRAMAS DE DISPERSÃO Os dados para a análise de regressão e correlação simples são da forma: (x1,y1), (x2,y2), …, (xi,yi), …, (xn,yn) Com os dados constrói-se o diagrama de dispersão, este deve exibir uma tendência linear para que se possa usar a regressão linear. Portanto este diagrama permite decidir empiricamente se um relacionamento linear entre X e Y deve ser assumido. Por análise do Diagrama de Dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos em redor de uma recta imaginária que passa através do enxame de pontos. A correlação é tanto maior quanto mais os pontos se concentram, com pequenos desvios, em relação a essa recta. Mais, se o declive da recta é positivo, concluímos que a correlação entre X e Y é positiva, i.e., os fenómenos variam no mesmo sentido. Ao contrário, se o declive é negativo, então a correlação entre X e Y é negativa, i.e., os fenómenos variam em sentido inverso. 5 Sugerem uma regressão não linear (i.e., a relação entre as duas variáveis poderá ser descrita por uma equação não linear) Y Y X X Sugerem uma regressão linear Y - Peso Y - Preço (i.e., a relação entre as duas variáveis poderá ser descrita por uma equação linear) X - Altura Existência de correlação positiva (em média, quanto maior for a altura maior será o peso) X - Colheita Existência de correlação negativa (em média, quanto maior for a colheita menor será o preço) 6 EXEMPLO: Queremos estudar a relação entre a quilometragem de um carro usado e o seu preço de venda Diagrama de dispersão Preço Carros 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total Quilometragem X (1000 Km) 40 30 30 25 50 60 65 10 15 20 55 40 35 30 505 Preço de venda Y (dezena de Euros) 1000 1500 1200 1800 800 1000 500 3000 2500 2000 800 1500 2000 2000 21600 3500 3000 2500 2000 1500 1000 500 0 0 20 40 60 80 Quilometragem Os dados sugerem uma relação linear entre a quilometragem e o preço de venda. Existe uma correlação negativa: em média, quanto maior for a quilometragem menor será o preço de venda. 7 ESTIMAÇÃO DOS COEFICIENTES DE REGRESSÃO MÉTODO DOS MÍNIMOS QUADRADOS Pretende-se determinar a recta de regressão que melhor se ajusta ao conjunto de dados Y Qual a recta que melhor se ajusta? x Y yˆ i = b0 + b1 xi (x1,y1) d1 d2 (x2,y2) é o valor dado pela recta (xi,yi) di di=yi-(b0+b1xi) y=b0+b1x x resíduos 8 Objectivo: determinar b0 e b1 de modo a que os resíduos sejam tão pequenos quanto possível. di = yi − yˆ i = yi − (b0 + b1 xi ) → i-ésimo resíduo, isto é, a distância vertical do ponto (xi,yi) à recta de regressão O método dos mínimos quadrados consiste em escolher b0 e b1 de modo a minimizar a soma dos quadrados dos resíduos di. Desta forma estamos essencialmente a escolher a recta que se aproxima o mais possível de todos os pontos dos dados simultaneamente. Soma dos quadrados dos resíduos n = n SSE = ∑ di = ∑ ( yi − b0 − b1 xi ) 2 i =1 2 i =1 Para determinar b0 e b1 de modo a minimizar SSE: n ⎧ n ∂ SSE ⎧ ∑ xi yi − n x y ⎧ − 2 (y −b −b x ) = 0 = 0 ⎪ ∑ i 0 1i ⎪⎪ ∂b ⎪ ⎪b1 = i =n1 i =1 0 ⇔⎨ ⇔L⇔ ⎨ 2 ⎨ ∂SSE n xi − n x 2 ∑ ⎪ ⎪ = 0 ⎪− 2∑ ( yi − b0 − b1 xi ) xi = 0 i =1 ⎪⎩ ∂b1 ⎩ i =1 ⎪b = y − b x ⎩ 0 1 x → média dos valores observados de X y → média dos valores observados de Y 9 Atenção: Um conjunto de pontos dá evidência de linearidade apenas para os valores de X cobertos pelo conjunto de dados. Para valores de X que saem fora dos que foram cobertos não há qualquer evidência de linearidade. Por isso é arriscado usar uma recta de regressão estimada para predizer valores de Y correspondentes a valores de X que saem fora do âmbito dos dados. Y X âmbito dos dados O perigo de extrapolar para fora do âmbito dos dados amostrais é que a mesma relação possa não mais se verificar. 10 EXEMPLO: Estimação dos coeficientes de regressão Preço de venda Y Quilometragem (dezena de Carros X (1000 Km) Euros) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 40 30 30 25 50 60 65 10 15 20 55 40 35 30 1000 1500 1200 1800 800 1000 500 3000 2500 2000 800 1500 2000 2000 Total 505 21600 XY X2 Y2 40000 45000 36000 45000 40000 60000 32500 30000 37500 40000 44000 60000 70000 60000 1600 900 900 625 2500 3600 4225 100 225 400 3025 1600 1225 900 1000000 2250000 1440000 3240000 640000 1000000 250000 9000000 6250000 4000000 640000 2250000 4000000 4000000 x= 505 = 36.07 14 y= 21600 = 1542.85 14 640000 21825 39960000 x y − n x y 640000 − 14 × 36.07 × 1542.85 ∑ i =1 i i = = −38.56 b1 = n 2 2 2 21825 − 14 × 36.07 ∑i =1 xi − n x n b0 = y − b1 x = 1542.85 − 38.56 × 36.07 = 2934 11 Recta de regressão estimada: y=2934-38.56 x O preço esperado para um carro é de 2934 dezenas de Euros menos 38.56 dezenas de Euros por cada mil Km que o carro tenha andado. Por exemplo, para um carro que tenha andado 20000 Km, a equação sugere o preço: yˆ = 2934 − 38.56 × 20 = 2162.8 dezenas de Euros O coeficiente de regressão estimado b1 (estimativa de β1), estima o efeito sobre o valor médio da variável dependente Y de uma alteração unitária da variável independente X. Assim, em média, por cada 1000km que o carro tenha andado, o preço de venda baixa 38.56 dezenas de Euros Atenção: b0=2934 não pode ser interpretado como sendo o preço previsto para um carro novo, 0 Km, pois este valor de quilometragem encontra-se fora do âmbito dos dados. Trata-se de uma relação média, assim um carro com determinada quilometragem não obterá necessariamente o preço de venda exacto indicado pelo equação 12 QUALIDADE DO AJUSTAMENTO COEFICIENTE DE CORRELAÇÃO E DE DETERMINAÇÃO Seja y a média dos valores observados para a variável dependente. Uma medida útil associada à recta de regressão é o grau em que as predições baseadas na equação de regressão, ŷi , superam as predições baseadas em y . Isto é, se as predições baseadas na recta não são melhores que as baseadas no valor médio y , então não adianta dispormos de uma equação de regressão. Se a dispersão (erro) associada à recta é muito menor que a dispersão (erro) associada a y , as predições baseadas na recta serão melhores que as baseadas em y . Dispersão em torno de y - Variação Total: n SST= ∑ ( yi − y ) 2 (Soma dos quadrados totais) i =1 Dispersão em torno da recta de regressão – Variação não explicada: n n SSE= ∑ ( yi − yˆ i ) = ∑ d i (Soma dos quadrados dos resíduos) i =1 2 2 i =1 O ajustamento será tanto melhor quanto mais pequeno for SSE relativamente a SST. 13 Pode-se mostrar que: n n n ∑ ( yi − y ) = ∑ ( yi − yˆ i ) + ∑ ( yˆ i − y ) 2 2 i =1 i =1 SST SST SSE SSR 2 = i =1 SSE + SSR Soma dos quadrados totais – Variação Total Soma dos quadrados dos resíduos – Variação não explicada Soma dos quadrados da regressão – Variação explicada Isto é: Variação total de Y à Variação que o ajustamento volta da sua média = não consegue explicar + Variação explicada pelo ajustamento 14 Coeficiente de determinação –r2 = SSR SST − SSE SSE = 1− = SST SST SST r2 é a proporção de variação da variável dependente Y que é explicada pelo modelo, isto é, pela equação de regressão ajustada, ou equivalentemente, é a proporção da variação de Y explicada em termos lineares pela variável independente. Note que: • 0≤r2≤1; • r2≅1 (próximo de 1) significa que grande parte da variação de Y é explicada linearmente pela variável independente. • r2≅0 (próximo de 0) significa que grande parte da variação de Y não é explicada linearmente pela variável independente. Neste sentido este coeficiente pode ser utilizado como uma medida da qualidade do ajustamento, ou como medida da confiança depositada na equação de regressão como instrumento de previsão: r2≅0 modelo linear muito pouco adequado r2≅1 modelo linear bastante adequado 15 n r2 pode ser calculado a partir da seguinte fórmula: r 2 = n b0 ∑ yi + b1 ∑ yi xi − ny 2 i =1 i =1 n ∑ yi − ny 2 2 i =1 À raiz quadrada de r2 dá-se o nome de coeficiente de correlação simples r = ± r2 (com o sinal do declive b1) É uma medida do grau de associação linear entre as variáveis X e Y. • -1≤r≤1; • r>0 (positivo) indica que as duas variáveis tendem a variar no mesmo sentido, isto é, em média um aumento na variável X provocará um aumento na variável Y; • r<0 (negativo) indica que as duas variáveis tendem a variar em sentido inverso, isto é, em média um aumento na variável X provocará uma diminuição na variável Y; • r=1 e r=-1 indicam a existência de uma relação linear perfeita entre X e Y, positiva e negativa respectivamente; • r=0 indica a inexistência de qualquer relação ou tendência linear entre X e Y podendo no entanto existir uma relação não linear entre elas. Isto é, é possível que as duas variáveis estejam fortemente associadas (movimentos numa variável estão associados a movimentos na outra) sem que o relacionamento seja linear. 16 r=1 Y X r=-1 Y X 17 EXEMPLO: Determinação dos coeficientes de correlação e determinação Preço de venda Y Quilometragem (dezena de Carros X (1000 Km) Euros) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 40 30 30 25 50 60 65 10 15 20 55 40 35 30 1000 1500 1200 1800 800 1000 500 3000 2500 2000 800 1500 2000 2000 Total 505 21600 r = 2 n 2 2 y n y − ∑i =1 i n X2 Y2 40000 45000 36000 45000 40000 60000 32500 30000 37500 40000 44000 60000 70000 60000 1600 900 900 625 2500 3600 4225 100 225 400 3025 1600 1225 900 1000000 2250000 1440000 3240000 640000 1000000 250000 9000000 6250000 4000000 640000 2250000 4000000 4000000 x= 505 = 36.07 14 y= 21600 = 1542.85 14 b0=2934 b1=-38.56 640000 21825 39960000 b0 ∑i =1 yi + b1 ∑i =1 yi xi − ny 2 n XY 2934 × 21600 − 38.56 × 640000 − 14 × 1542.852 = = 0.809 2 39960000 − 14 × 1542.85 18 r2=0.809→ aproximadamente 81% da variação no preço de venda dos carros está relacionada linearmente com a variação na quilometragem rodada, i.e., 81% dessa variação é explicada por variações na quilometragem. 19% não é explicada por variações na quilometragem e é resultante de outros factores não considerados (que podem influir no preço de venda), como por exemplo: − as condições gerais do carro; − a localização/reputação do vendedor; − a necessidade que o comprador tem do carro; − o nº de registos de propriedade do carro − etc. r= − 0.809 = −0.899 → indica que o grau de relacionamento linear entre as variáveis é forte. A correlação é negativa, pois um acréscimo na quilometragem é, tendencialmente, acompanhado por um decréscimo do preço de venda. 19