Análise de Regressão e Correlação Prof. Victor Hugo Lachos Dávila Departamento Estatı́stica Universidade Estadual de Campinas, (UNICAMP-IMECC) Campinas, Brasil Análise de Regressão e Correlação – p. 1/2 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Análise de Regressão e Correlação – p. 2/2 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Resultado da produção e tempo do processo; Análise de Regressão e Correlação – p. 2/2 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Resultado da produção e tempo do processo; Número de cliente e vendas; e Análise de Regressão e Correlação – p. 2/2 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Resultado da produção e tempo do processo; Número de cliente e vendas; e Tempo de estudo e nota na prova; Análise de Regressão e Correlação – p. 2/2 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Tempo de prática de esportes e ritmo cardíaco; Resultado da produção e tempo do processo; Número de cliente e vendas; e Tempo de estudo e nota na prova; Sob dois pontos de vista: Explicitando a forma dessa relação: regressão. Quantificando a força dessa relação: correlação. Análise de Regressão e Correlação – p. 2/2 Exemplo 1 O gerente de uma cadeia de supermercados deseja desenvolver um modelo com a finalidade de estimar as vendas médias semanais (em milhares de dólares) Y - Vendas semanais; e X - Número de clientes. Estas variáveis foram observadas em 20 supermercados escolhidos aleatóriamente. X 907 926 506 741 789 889 874 510 529 420 Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12 X 679 872 924 607 452 729 794 844 1010 621 Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41 Análise de Regressão e Correlação – p. 3/2 Diagrama de dispersão Análise de Regressão e Correlação – p. 4/2 10 9 8 7 6 Vendas semanais 11 Diagrama de dispersão 400 500 600 700 800 900 1000 Numero de clientes Análise de Regressão e Correlação – p. 4/2 É razoável supor que a média da variável aleatória Y , está relacionada com X pela seguinte relação E(Y |X = x) = µY |x = β0 + β1 x onde βo e β1 , são respectivamente, o intercepto e a inclinação da reta e recebem o nome de coeficientes de regressão. Análise de Regressão e Correlação – p. 5/2 É razoável supor que a média da variável aleatória Y , está relacionada com X pela seguinte relação E(Y |X = x) = µY |x = β0 + β1 x onde βo e β1 , são respectivamente, o intercepto e a inclinação da reta e recebem o nome de coeficientes de regressão. O valor real de Y será determinado pelo valor médio da função linear (µY |x ) mais um termo que representa um erro aleatório, Análise de Regressão e Correlação – p. 5/2 É razoável supor que a média da variável aleatória Y , está relacionada com X pela seguinte relação E(Y |X = x) = µY |x = β0 + β1 x onde βo e β1 , são respectivamente, o intercepto e a inclinação da reta e recebem o nome de coeficientes de regressão. O valor real de Y será determinado pelo valor médio da função linear (µY |x ) mais um termo que representa um erro aleatório, Y = µY |x + ε = β0 + β1 x + ε, onde ε é o erro aleatório. Análise de Regressão e Correlação – p. 5/2 Modelo de Regressão Linear Simples Um modelo de regressão linear simples (MRLS) descreve uma relação entre uma variável independente (explicativa ou regressora) X e uma variável dependente (resposta) Y , nos termos seguintes: (1) Y = β0 + β1 X + ε, onde β0 e β1 são constantes (parâmetros) desconhecidas e ε é o erro aleatório. Análise de Regressão e Correlação – p. 6/2 Suposições do MRLS (i) E(ε) = 0 V ar(ε) = σ 2 (desconhecido). (ii) Os erros são não correlacionados (iii) A variável explicativa X é controlada pelo experimentador. (iv) ε ∼ N (0, σ 2 ) Análise de Regressão e Correlação – p. 7/2 Suposições do MRLS (i) E(ε) = 0 V ar(ε) = σ 2 (desconhecido). (ii) Os erros são não correlacionados (iii) A variável explicativa X é controlada pelo experimentador. (iv) ε ∼ N (0, σ 2 ) Se (i)-(iv) se verificarem, então a variável dependente Yi é uma v.a. com distribuição normal com variância σ 2 e média µYi |xi , sendo E(Y |Xi = x) = µYi |x = β0 + β1 x. Análise de Regressão e Correlação – p. 7/2 Estimação dos parâmetros do MRLS Suponha que tem-se n pares de observações (x1 , y1 ), . . . , (xn , yn ). Análise de Regressão e Correlação – p. 8/2 Estimação dos parâmetros do MRLS Suponha que tem-se n pares de observações (x1 , y1 ), . . . , (xn , yn ). A figura mostra uma representação gráfica dos dados observados e um candidato para a linha de regressão. Análise de Regressão e Correlação – p. 8/2 Ao utilizar o modelo (1), é possível expressar as n observações da amostra como: (2) yi = β0 + β1 xi + εi , i = 1, . . . , n. E a soma de quadrados dos desvios das observações em relação à linha de regressão é: Q= n X ε2i = n X (yi − β0 − β1 xi )2 . Análise de Regressão e Correlação – p. 9/2 Os estimadores de mínimos quadrados (EMQ) de β0 e β1 denotados por β̂0 e β̂1 devem satisfazer as seguintes equações: ∂Q |β̂0 ,β̂1 ∂β0 n X = −2 (yi − β̂0 − β̂1 xi ) = 0, ∂Q |β̂0 ,β̂1 = −2 ∂β1 i=1 n X i=1 (yi − β̂0 − β̂1 xi )xi = 0. Análise de Regressão e Correlação – p. 10/2 Após simplificar as expressões anteriores, tem-se: β̂0 + β̂1 (3) n X xi = i=1 β̂0 n X i=1 xi + β̂1 x2i = n X i=1 n X yi xi y i . i=1 As equações (3) recebem o nome de equações normais de mínimos quadrados. Análise de Regressão e Correlação – p. 11/2 A solução dessas equações fornece os EMQ, β̂0 e β̂1 , dados por: β̂0 = ȳ − β̂1 x̄. β̂1 = n P i xi y i − i=1 n P i=1 n P x onde x̄ = n i i=1 x2i − i=1 n P 2 n . xi i=1 n n P y i i=1 P P n n x y i e ȳ = i=1 n . Análise de Regressão e Correlação – p. 12/2 Portanto, a linha de regressão estimada ou ajustada é : ŷ = β̂0 + β̂1 x e estima a média da variável dependente para um valor da variável explicativa X = x, µY |x . Note que cada par de observações satisfaz a relação: yi = β̂0 + β̂1 xi + ei , i = 1, . . . , n onde ei = yi − ŷi recebe o nome de resı́duo. Análise de Regressão e Correlação – p. 13/2 Notações especiais no MRLS Sxx Sxy = = = n X n X i=1 i=1 (xi − x̄)2 = P 2 n xi x2i − n X n X i=1 n i=1 (xi − x̄)(yi − ȳ) = X i=1 = n n X = P P n n x y i=1 (xi − x̄)yi = n X i i i=1 xi yi − i=1 n i=1 xi yi − nx̄ȳ, P 2 n i=1 Syy x2i − nx̄2 , n X n X n X i=1 i=1 i=1 (yi − ȳ)2 = (yi − ȳ)yi = yi yi2 − i=1 n = n X yi2 − nȳ 2 . i=1 Os EMQ de β0 e β1 em termos da notação acima são: β̂0 = ȳ − β̂1 x̄, β̂1 = Sxy . Sxx Análise de Regressão e Correlação – p. 14/2 Exemplo de aplicação Sxx = n X x2i − n(x̄)2 = 11306209 − 20(731, 15)2 = 614603 i=1 n Sxy = X xi yi − n(x̄)(ȳ) = 134127, 90 − 20(8, 8055)(731, 15) = 5365, 08 i=1 n Syy = X yi2 − n(ȳ)2 = 1609, 0971 − 20(8, 8055) = 51, 3605. i=1 As estimativas dos parâmetros do MRLS são: β̂1 = Sxy 5365, 08 = = 0, 00873; β̂0 = ȳ−β̂1 x̄ = 8, 8055−(0, 00873)(731, 15) = 2, 423. Sxx 614603 Portanto, a linha de regressão ajustada ou estimada para esses dados são: ŷ = 2, 423 + 0, 00873x. Análise de Regressão e Correlação – p. 15/2 11 10 9 Vendas semanais 8 7 6 400 500 600 700 800 900 1000 Numero de clientes Análise de Regressão e Correlação – p. 16/2 Estimação de σ 2 Os resíduos, ei = yi − ŷi são empregados na estimação de σ 2 . A soma de quadrados residuais ou soma de quadrados dos erros, denotado por SQR é: SQR = n X i=1 e2i = n X i=1 (yi − ŷi )2 Pode-se demonstrar que o valor esperado da soma de quadrados dos residuais SQR, é dado por: E(SQR) = (n − 2)σ 2 Análise de Regressão e Correlação – p. 17/2 Portanto, SQR ˆ 2 σ = = QM R (Quadrado médio residual), n−2 é um estimador não viciado de σ 2 , Uma fórmula mais conveniente para o cálculo da SQR é dada por: SQR = Syy − β̂1 Sxy . Análise de Regressão e Correlação – p. 18/2 Exemplo Com os dados do exemplo, é feita a estimação da variância σ 2 . Nesse caso, Syy = 51, 3605, Sxy = 5365, 08 e β̂1 = 0, 00873. Portanto, a estimativa de σ 2 para o exemplo 1. SQR Syy − β̂1 Sxy ˆ 2 σ = = n−2 n−2 51, 3605 − (0, 00873)(5365, 08) = 0, 2513. = 20 − 2 Análise de Regressão e Correlação – p. 19/2 Teste de hipóteses sobre β1 Suponha que se deseje testar a hipótese de que a inclinação é igual a uma constante representada por β1,0 . As hipóteses apropriadas são: H0 : β1 = β1,0 , vs H1 : β1 6= β1,0 A estatística β̂1 − β1,0 T =p , 2 σ̂ /Sxx tem distribuição t-Student com n − 2 graus de liberdade sob H0 : β1 = β1,0 . Rejeita-se H0 se |Tobs | > t1−α/2, n−2 . Análise de Regressão e Correlação – p. 20/2 Teste de hipóteses sobre β0 H0 : β0 = β0,0 , vs H1 : β0 6= β0,0 A estatística β̂0 − β0,0 T =q σ̂ 2 [ n1 + x̄2 ] Sxx que tem distribuição t-Student com n − 2 graus de liberdade. Rejeitamos a hipóteses nula se |Tobs | > t1−α/2, n−2 . Análise de Regressão e Correlação – p. 21/2 Teste de significância do MRLS H0 : β1 = 0, vs H1 : β1 6= 0, Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir que não há nenhuma relação linear entre X e Y. Análise de Regressão e Correlação – p. 22/2 Se H0 : β1 = 0 é rejeitado, implica que X tem importância ao explicar a variabilidade de Y Análise de Regressão e Correlação – p. 23/2 Exemplo Teste de significância para o MRLS para os dados do exemplo 1, com α = 0, 05. As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0 Análise de Regressão e Correlação – p. 24/2 Exemplo Teste de significância para o MRLS para os dados do exemplo 1, com α = 0, 05. As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0 Do exemplo tem-se: β̂1 = 0, 00873, n = 20 Sxx = 614603, σ̂ 2 = 0, 2512, De modo que a estatística de teste, é: Tobs = p β̂1 σ̂ 2 /Sxx 0, 00873 =p = 13, 65. 0, 2513/614603 Análise de Regressão e Correlação – p. 24/2 Exemplo Teste de significância para o MRLS para os dados do exemplo 1, com α = 0, 05. As hipóteses são H0 : β0 = 0, vs H1 : β0 6= 0 Do exemplo tem-se: β̂1 = 0, 00873, n = 20 Sxx = 614603, σ̂ 2 = 0, 2512, De modo que a estatística de teste, é: Tobs = p β̂1 σ̂ 2 /Sxx 0, 00873 =p = 13, 65. 0, 2513/614603 Como Tobs = 13, 65 > t0,975,18 = 2, 101, rejeita-se a hipótese H0 : β1 = 0. Análise de Regressão e Correlação – p. 24/2 Adequação do modelo de regressão Análise residual, Análise de Regressão e Correlação – p. 25/2 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Análise de Regressão e Correlação – p. 25/2 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Os resíduos de um modelo de regressão são definidos como ei = yi − ŷi , i = 1, . . . , n onde yi é uma observação real de Y e ŷi é o valor correspondente estimado através do modelo de regressão. Análise de Regressão e Correlação – p. 25/2 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Os resíduos de um modelo de regressão são definidos como ei = yi − ŷi , i = 1, . . . , n onde yi é uma observação real de Y e ŷi é o valor correspondente estimado através do modelo de regressão. Resíduos padronizados ei , di = √ QM R i = 1, . . . , n Análise de Regressão e Correlação – p. 25/2 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Os resíduos de um modelo de regressão são definidos como ei = yi − ŷi , i = 1, . . . , n onde yi é uma observação real de Y e ŷi é o valor correspondente estimado através do modelo de regressão. Resíduos padronizados ei , di = √ QM R i = 1, . . . , n Análise de Regressão e Correlação – p. 25/2 Análise de Regressão e Correlação – p. 26/2 Gráfico de resíduos do exemplo 1 Análise de Regressão e Correlação – p. 27/2 Coeficiente de Determinação A quantidade: SQR R =1− SQT 2 onde, SQT = n P (Ŷi − Ȳ )2 , recebe o nome de coeficiente de i=1 que é usado para julgar a adequação do modelo de regressão. Pode ser interpretado como a proporção da variabilidade presente nas observações da variável resposta Y, que é explicada pela variável independente X no modelo de regressão. determinação Análise de Regressão e Correlação – p. 28/2 Exemplo Para os dados dos supermercados do exemplo1, determinar R2 . Análise de Regressão e Correlação – p. 29/2 Exemplo Para os dados dos supermercados do exemplo1, determinar R2 . Da definição tem-se: R2 = 0, 912 Análise de Regressão e Correlação – p. 29/2 Exemplo Para os dados dos supermercados do exemplo1, determinar R2 . Da definição tem-se: R2 = 0, 912 Esse resultado significa que o modelo ajustado explicou 91,2% da variação na variável resposta Y (vendas semanais). Isto é, 91,2% da variabilidade de Y é explicada pela variável regressora X (número de clientes). Análise de Regressão e Correlação – p. 29/2