Centro de Ciências e Tecnologia Agroalimentar - Campus Pombal Disciplina: Estatística Básica - 2013 Aula 12 Professor: Carlos Sérgio UNIDADE 8 - CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES (NOTAS DE AULA) 1 Correlação Linear Simples 1.1 Relação entre variáveis Se desejarmos verificar a existência e o grau de relação entre variáveis então devemos realizar o estudo da correlação entre essas variáveis. Exemplos: • O peso pode estar relacionado com a idade; • O consumo das famílias pode estar relacionado com a renda; • A demanda de um determinado produto estar relacionado com seu preço. 1.2 Medida de Correlação O estudo da correlação tem por objetivo medir e avaliar o grau de relação entre as variáveis X e Y através da disposição dos pontos (X, Y ) em torno de uma reta. O instrumento de medida da correlação linear é dado pelo coeficiente de correlação linear de Pearson, ou, simplesmente, coeficiente de correlação. r= cov(x, y) Sx Sy em que Sx e Sy são os desvios padrões das variáveis X e Y na amostra. Como sP Sx = n i=1 (xi − n−1 x̄)2 sP e Sy = 1 n i=1 (yi − ȳ)2 n−1 e a covariância cov(x, y) é dada por Pn cov(x, y) = − x̄)(yi − ȳ) Sx Sy i=1 (xi Para Calculo direto do coeficiente de correlação linear de Pearson, tem-se a seguinte fórmula: P P xi yi − xi yi r=p P 2 P P P [n xi − ( xi )2 ] · [n yi2 − ( yi )2 ] n P O campo de variação do coeficiente r situa-se entre −1 e +1. −1 ≤ r ≤ 1 Sua interpretação dependerá do valor numérico e do sinal. Figura 1: Diagramas de Dispersão. 2 Figura 2: Diagramas de Dispersão. Figura 3: Diagramas de Dispersão. 2 Regressão Linear • A análise de regressão linear apresenta como resultado uma equação matemática que descreve um determinado relacionamento. • A equação pode ser usada para estimar ou predizer valores de uma variável quando se conhecem ou se supõem conhecidos valores de outra variável. Definição: Constitui em tentativa de estabelecer uma equação matemática linear que melhor descreva o relacionamento entre duas variáveis (uma dependente e outra independente). A equação de regressão tem por finalidade estimar valores de uma variável, com base em valores conhecidos da outra. Modelo de regressão linear Yi = α + βxi + εi 3 (1) em que Yi é o valor estimado (variável dependente), xi é a variável independente, β é o coeficiente de regressão (coeficiente angular), α é o coeficiente linear e εi é o resíduo Observação: Chamamos (1) de modelo linear, pois este representa uma reta. Todavia, em casos mais gerais, o termo linear refere-se ao modo como os parâmetros entram no modelo, ou seja, de forma linear. 2.1 Pressuposições • A relação entre X e Y é linear (os acrescimos em X produzem acrescimos proporcionais em Y e a razão de acrescimo é constante). • Os valores de X são fixados arbitrariamente (X não é variável aleatória) • εi é o erro aleatório, portanto uma variável aleatória com distribuição normal, com média zero e variância constante σ 2 . [εi ∼ N (0, σ 2 )]. εi representa a variação de Y que não é explicada pela variável independente X . Implica que yi ∼ N (α + βxi , σ 2 ). • Se i 6= j , cov(εi , εj ) = 0, isto é, para duas observações distintas, os erros são não-correlacionados (os erros são considerados independentes). Exemplo Vendas (×1000) X Lucro (×100) obs Vendas Lucro 2.2 1 201 17 2 225 20 3 305 21 4 380 23 5 560 25 6 600 24 7 685 27 8 735 27 Método de estimação dos parâmetros α e β • As estimativas dos parâmetros α e β dados por α̂ e β̂ , serão dados a partir de uma amostra de n pares de valores (xi , yi ) que correspondem a n pontos no diagrama de dispersão. • O método mais usado para ajustar uma linha reta para um conjunto de pontos (xi , yi ), i = 1, 2, . . . , n é o Método dos Mínimos Quadrados. • O método dos mínimos quadrados consiste em adotar como estimativa dos parâmetros os valores que minimizam a soma dos quadrados dos desvios. Caracteristicas: 4 Figura 4: Diagrama de Dispersão. • A soma dos desvios verticais dos pontos em relação a reta é zero; • A soma dos quadrados desses desvios é mínima. Os valores α̂ e β̂ da reta de regressão ŷ = α̂ + β̂x serão estimados de tal forma que minimizam a soma dos erros, dados por εi = yi − (α + βxi ), i = 1, 2, . . . , n Obtemos, então, a quantidade de informação perdida pelo modelo ou soma dos quadrados dos erros (ou desvios) SQ(α, β) = n X n X ε2i = i=1 {yi − (α + βxi )}2 . i=1 Derivando em relação a α e β e igualando a zero, observa-se que as soluções α̂ e β̂ devem satisfazer. nα̂ + β̂ n X xi = n X i=1 α̂ n X i=1 xi + β̂ n X yi i=1 x2i = i=1 n X xi y i i=1 as quais produzem as soluções α̂ = ȳ − β̂ x̄ (2) Pn xi yi − nx̄ȳ β̂ = Pi=1 n 2 2 i=1 xi − nx̄ (3) 5 Para cada par de valores (xi , yi ) pode-se estabelecer o desvio εi = yi − ŷi = yi − (α̂ + β̂xi ) Exemplo Para facilitar os cálculos da reta de regressão, acrescenta-se três novas colunas na tabela de dados. obs 1 2 3 4 5 6 7 8 P ȳ = 184 8 Vendas (xi ) 201 225 305 380 560 600 685 735 3.691 = 23 e x̄ = 3691 8 Lucro (yi ) 17 20 21 23 25 24 27 27 184 x2i yi2 xi y i 40.401 50.625 93.025 144.400 313.600 360.000 469.225 540.225 2.011.501 289 400 441 529 625 576 729 729 4.318 3.417 4.500 6.405 8.740 14.000 14.400 18.495 19.845 89.802 = 461, 38 P xi yi − nx̄ȳ 89.802 − 8 · (461, 38)(23) β̂ = P 2 = = 0, 0159 2 xi − nx̄ 2.011.501 − 8(461, 38)2 α̂ = ȳ − β̂ x̄ = 23 − (0, 0159)(461, 38) = 15, 66 Logo, ŷ = 0, 0159x + 15, 66 Partindo da reta de regressão pode-se afirmar que para uma venda de 400 mil pode-se obter um lucro de ŷ = (0, 0159)(400.000) + 15, 66 = 22 mil. 3 Decomposição da variância total A dispersão da variação aleatória "y "pode ser medida através da soma dos quadrados dos desvios em relação a sua média ȳ . Essa soma de quadrados será denominada Soma de Quadrados Total (SQTotal) SQTotal = n X (yi − ȳ)2 i=1 A SQTotal pode ser decomposta da seguinte forma: 6 Figura 5: Diagrama de Dispersão com a reta ajustada. n X n n X X 2 (yi − ȳ) = (ŷi − ȳ) + (yi − ŷi )2 2 i=1 i=1 i=1 Assim, SQTotal = SQRegressão + SQResíduo Fórmulas para cálculo: n n n X 2 X X 2 2 SQTotal = (yi − ȳ) = n yi − yi , i=1 i=1 i=1 com (n − 1) graus de liberdade. n n n n X X X X 2 SQRegressão = (yi − ŷi ) = beta n xi y i − xi yi , i=1 i=1 i=1 i=1 com 1 grau de liberdade. 4 Análise de Variância da Regressão A Soma de Quadrados da Regressão (SQRegressão), segue uma distribuição χ2 com um grau de liberdade, enquanto que a Soma de Quadrados do Resíduo (SQResíduo) segue a mesma distribuição, porém com (n − 2) graus de liberdade. Portanto, o quociente QM Regressão SQRegressão/1 = , SQResíduo/n − 2 QM Resíduo segue uma distribuição F de Snedecor com 1 e (n − 2) graus de liberdade. 7 Esse fato nos permite empregar a distribuição F de Snedecor para testar a significância da regressão, através da chamada Análise de Variância, sintetizada no quadro a seguir. Tabela 1: Tabela ANOVA para modelo de regressão C. V. g.l. SQ Regressão 1 SQReg QM Reg = SQReg 1 Resíduo n−2 SQRes QM Res = SQRes n−2 Total QM n − 1 SQTotal F QM Reg QM Res = Fcalc - Para testar a significância da regressão, formula-se as seguintes hipóteses: H0 : β = 0 contra H1 : β 6= 0, em que β representa o coeficiente de regressão paramétrico. Se o valor de F , calculado a partir do quadro anterior, superar o valor teórico de F com 1 e (n − 2) graus de liberdade, para o nível de significância α, rejeita-se H0 e conclui-se que a regressão é significativa. Se Fcal > Fα,[1,(n−2)] , rejeita-se H0 . Para o exemplo anterior, ŷi = 0, 0159xi + 15, 66 n n n h X i X X SQRegressão = β n x i yi − xi yi = i=1 i=1 i=1 SQRegressão = 0, 0159[8(89.802) − (3.691)(184)] = 624, 42 SQTotal = n n X i=1 yi2 − n X 2 yi = 8(4.318) − (184)2 = 688 i=1 Comparando o Fcal = 58, 93 com o Ftab = F0,05;(1,6) = 5, 99 Conclui-se que a regressão de y sobre x segundo o modelo ŷi = 0, 0159xi + 15, 66 é siginificativa ao nível de 5%. Uma vez estabelecida e testada a equação de regressão, a mesma pode ser usada para explicar o relacionamento entre as variáveis e também fazer predições dos valores de y para os valores fixados x. 8 Tabela 2: Tabela ANOVA para modelo de regressão C. V. Regressão Resíduo Total 5 g.l. SQ QM F 1 6 7 624,42 63,58 688,00 624,42 10,60 58,93 Coeficiente de determinação Este coeficiente é uma medida da proporção da variação da variável resposta Y que é explicada pela equação de regressão quando está envolvida a variável independente X . O coeficiente de determinação é dado por 2 P P P n ni=1 xi yi − ni=1 xi ni=1 yi cov(x, y) Pn Pn 2 Pn = r 2 = Pn 2 2 2 [n i=1 xi − ( i=1 xi ) ] · [n i=1 yi − ( i=1 yi ) ] Sxx Syy O valor de r2 varia de 0 a 1. No exemplo, r2 = [8(89.802) − (3.691)(184)]2 = 0, 908 [8(2.011.501) − (3.691)2 ] · [8(4.318) − (184)2 ] indica que aproximadamente 91% da variação dos lucros estão relacionados com a variação das vendas. Exercícios 1. Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos com mercadorias para famílias de 4 pessoas. O estudo se limitou a famílias com renda líquida entre 8 e 20 salários mínimos. Obteve-se a seguinte equação: ŷ = −1, 20 + 0, 40x em que ŷ despesa mensal estimada com mercadorias e x renda líquida mensal. Estimar a despesa de uma família com renda mensal líquida de 15 s.m. 9 2. Complete o esquema de cálculo do coeficiente de correlação para os valores das variáveis xi e yi . Obtenha os parâmetros α e β da reta ajustada. xi yi 4 12 6 10 8 8 10 12 12 14 3. Os dados abaixo forma colhidos de cinco fábricas diferentes de uma determinada indústria: Produção xi Custo total yi 12 80 4 44 6 51 11 70 8 61 a) Estime uma função linear para o custo total dessa indústria. b) Determine o valor do coeficiente de determinação r2 . c) Construa a tabela ANOVA e realize o teste de hipótese. 4. As notas de uma sala com nove estudantes em um relatório de meio de curso (x) e em um exame final (y ) são as seguintes xi yi 77 82 50 66 71 78 72 34 81 47 94 85 96 99 99 99 67 68 a) Estime a reta de regressão linear b) Estime a nota do exame final de um aluno que teve uma nota 85 no relatório de meio de curso. c) Determine o valor de r2 e interprete o resultado. d) Construa a tabela ANOVA e realize o teste de hipótese. 10