Instituto Tecnológico de Aeronáutica Divisão de Engenharia Mecânica-Aeronáutica MOQ-14 Projeto e Análise de Experimentos Profa. Denise Beatriz Ferrari www.mec.ita.br/∼denise [email protected] Regressão Linear Simples Roteiro Introdução Definição Formal do Modelo O Problema da Estimação Hipótese de Normalidade Inferências em Regressão Linear Simples Análise de Regressão Análise de Regressão consiste em um conjunto de técnicas estatísticas que nos permitem representar e estudar as relações entre duas ou mais variáveis quantitativas (contínuas). Começaremos pelo estudo de Modelos de Regressão Linear Simples, em que temos apenas um par de variáveis. Notação: X : variável independente, variável explicativa, previsor Y : variável dependente, resposta Reta de Melhor Ajuste Qual das duas retas melhor representa a relação entre as variáveis? Y (1) = −120, 9 + 109, 6X (tracejada) Y (2) = −151, 1 + 127, 1X (pontilhada) Reta de Melhor Ajuste Notação: Yi : resposta observada para a unidade experimental i Xi : valor da variável explicativa para a unidade experimental i Ŷi : resposta prevista (valor ajustado) para a unidade experimental i Queremos encontrar a equação da reta que “melhor” representa a relação entre X e Y . Isto significa encontrar b0 e b1 , tais que os valores ajustados da resposta, dados por Ŷi = b0 + b1 Xi estejam mais “próximos” o possível dos valores observados yi . Resíduos A diferença entre o valor observado Yi e o valor ajustado Ŷi é chamado de resíduo (ou erro de previsão) e é dado por: ei = Yi − Ŷi Reta de Melhor Ajuste Interpretação dos Coeficientes b0 : coeficiente linear – Valor de Y quando X = 0. – Só faz sentido se o escopo do modelo (gama de valores de x) inclui X = 0. – Caso contrário, não há interpretação b1 : coeficiente angular – Valor do incremento esperado na resposta Y para cada aumento unitário no valor de X . – b1 > 0: relação positiva – b1 < 0: relação negativa Precisamos encontrar os valores de b0 e b1 . Como??? Definição Formal do Modelo Supomos existir entre duas variáveis X e Y uma relação linear, embora desconhecida, representada por: Yi = β0 + β1 Xi + i , i = 1, . . . , n onde: Yi : valor da resposta para a unidade experimental i Xi : valor da var. explicativa para a unidade experimental i (constante conhecida) β0 , β1 : parâmetros do modelo i : perturbação estocástica (ou erro aleatório), t.q. E [i ] = 0 σ 2 [i ] = σ 2 = cte. σ[i , j ] = 0, ∀i, j; i 6= j Definição Formal do Modelo II Características: Considerando o modelo de regressão: Yi = β0 + β1 Xi + i , i = 1, . . . , n 1. Yi é uma v.a.: Yi ∼ fYi , t.q. 2. Reta de Regressão: E [Y |Xi ] = β0 + β1 Xi =⇒ Yi − E [Y |Xi ] = i 3. σ 2 [Yi ] = σ 2 [i ] = σ 2 = cte. (Demonstração) 4. σ[i , j ] = 0 =⇒ σ[Yi , Yj ] = 0, ∀i, j; i 6= j Definição Formal do Modelo III Formulações Alternativas: 1. Yi = β0 X0 + β1 Xi + i , X0 ≡ 1 (Esta versão associa uma var. independente a cada coeficiente) 2. Em função de desvios da média: Yi = β0 + β1 Xi − β1 X + β1 X + i = (β0 + β1 X ) + β1 (Xi − X ) + i = β0? + β1 (Xi − X ) + i , β0? = β0 + β1 X O Problema da Estimação O Método dos Mínimos Quadrados (OLS – “Ordinary Least Squares”) Função Perda (“Loss Function”): Q= n X (Yi − E [Y |Xi ])2 i=1 No entanto, a função de regressão populacional E [Y ] é desconhecida e precisa ser estimada a partir de uma amostra: Ŷi = b0 + b1 Xi Portanto, Q= n X (Yi − Ŷi )2 i=1 = n X ei2 i=1 n X = (Yi − b0 − b1 Xi )2 i=1 O Problema da Estimação II O Método dos Mínimos Quadrados (OLS – “Ordinary Least Squares”) Para que Q= n X (Yi − b0 − b1 Xi )2 i=1 atinja o mínimo, devemos ter: P (Xi − X )(Yi − Y ) b1 = P (Xi − X )2 b0 = (Demonstração) X 1 X ( Yi − b1 Xi ) = Y − b1 X n O Problema da Estimação Propriedades dos estimadores de Mínimos Quadrados Teorema de Gauss-Markov (TGM) Sob as condições do modelo de regressão linear simples, os estimadores b0 e b1 são: B best L linear U unbiased E estimators isto é, os estimadores de menor variância, dentre todos os estimadores lineares não-tendenciosos. O Problema da Estimação Resposta Esperada Dados os estimadores b0 e b1 para os parâmetros da reta de regressão, a resposta esperada E [Y ] = β0 + β1 X , (ou seja, a média da distribuição de probabilidade Y |X ) é estimada através do estimador pontual Ŷ = b0 + b1 X Extendendo o TGM, temos que Ŷ é BLUE de E [Y ] O Problema da Estimação Resíduos × Erros Aleatórios Lembrando: resíduo: ei = Yi − Ŷi E [] erro aleatório: i = Yi − E [Yi ] (conhecido) (desconhecido) O Problema da Estimação Propriedades da Reta de Regressão Estimada (OLS) Pn 1. Soma dos resíduos é nula: i=1 ei = 0 (erros de arredondamento podem tornar 6= 0) ei2 é mínima (critério adotado) 2. P 3. Pn Yi = 4. Pn Xi ei = 0 i=1 i=1 5. (1), (4) ⇒ Pn i=1 Pn Ŷi i=1 ⇒ 1 n Pn i=1 Ŷi = Y Ŷi ei = 0 6. A reta de regressão sempre passa pelo ponto (X , Y ) (Demonstrar propriedades 1 – 6) O Problema da Estimação Estimação da Variância dos Erros Aleatórios Precisamos estimar a variância σ 2 [i ] = σ 2 dos erros aleatórios a fim de conhecermos a variabilidade das distribuições de probabilidade de Y . Para uma população: A variância σ 2 de uma população é estimada a partir da var. amostral: Pn (Yi − Y )2 2 s = i=1 n−1 I s 2 é um estimador não-tendencioso para a variância σ 2 de uma população infinita I O numerador representa a soma de desvios quadráticos I O denominador representa o no. de graus de liberdade (1 g.d.l. é perdido pois temos que estimar a média populacional desconhecida, µ, usando Y ) O Problema da Estimação Estimação da Variância dos Erros Aleatórios Para o modelo de regressão: Temos: σ 2 [i ] = σ 2 = cte. ⇒ σ 2 [Yi ] = σ 2 Semelhantemente ao caso de uma população, precisamos calcular: Numerador: Soma de desvios quadráticos, lembrando que cada Yi vem de uma distribuição de probabilidade com média diferente, que depende do valor de Xi : Yi ∼ fi (Y |X = Xi ) Cada desvio deve ser calculado com respeito à sua média estimada Ŷi (resíduos) Pn Pn Yi − Ŷi = ei ⇒ SSE = i=1 (Yi − Y )2 = i=1 ei2 Denominador: Precisamos estimar β0 e β1 para obter Ŷi . Sendo assim, perdemos 2 g.d.l. Portanto: s 2 = MSE = Pn e2 SSE = i=1 i n−2 n−2 OBS: MSE é um estimador não viesado de σ 2 . Regressão Linear Simples Alternativas ao Método de Mínimos Quadrados LAD (Least Absolute Deviations) ou Norma L1 Q= n X |Yi − Ŷi | i=1 I Formulado por Roger Boscovich, 1757 I Laplace apresentou formulação algébrica para o algoritmo, 1792 I Fourier (1768–1830) foi o primeiro a resolver o problema utilizando o que hoje chamamos de Programação Linear: M in 10 e+ + 10 e− ei+ s.t. − e ,e ≥0 b irrestrito Yi − Ŷi , seYi − Ŷi > 0 0, c.c. −(Yi − Ŷi ), seYi − Ŷi ≤ 0 0, c.c. = X · b + e+ − e− = Y + ei− = Modelo de Regressão Linear Normal Hipótese de Normalidade Modelo Normal Yi = β0 + β1 Xi + i , I iid i ∼ N(0, σ 2 ), Hipótese de correlação nula vira hipótese de independência dos erros: ind Yi ∼ N(E [Yi ], σ 2 ), I i = 1, . . . , n E [Yi ] = β0 + β1 Xi Hipótese de normalidade (TLC): o termo aleatório (i ) representa a soma das contribuições de todos os fatores que não foram incluídos no modelo, mas que afetam a resposta, e que não têm relação com a var. explicativa X . Notas: I Independentemente da distribuição dos erros aleatórios, o método OLS fornece estimadores BLUE I Precisamos estabelecer uma distribuição para os erros aleatórios a fim de realizar inferência estatística * estimar intervalos de confiança * testar hipóteses Modelo de Regressão Linear Normal Estimação pelo Método da Máxima Verossimilhança (ML – “Maximum Likelihood”) A lógica do Método ML consiste em encontrar estimadores cujos valores (estimativas) sejam consistentes com os dados da amostra. Temos: ind 2 Yi ∼ N(β0 +β1 Xi , σ ) ⇒ f Yi 1 2 exp − 2 (Yi − β0 − β1 Xi ) =√ 2σ 2πσ 2 1 Modelo de Regressão Linear Normal II Estimação pelo Método da Máxima Verossimilhança (ML – “Maximum Likelihood”) Função de Verossimilhança L(β0 , β1 , σ 2 ) = fY1 ,...,Yn n Y = f Yi (indep.) i=1 # " n 1 1 X (Yi − β0 − β1 Xi )2 = exp − 2 2σ (2πσ)n/2 i=1 Queremos: max L(β0 , β1 , σ 2 ) β0 ,β1 ,σ 2 Encontramos: β̂0(ML) = b0(OLS) , (Demonstração) β̂1(ML) = b1(OLS) , 2 σ̂(ML) P (Yi − Ŷi )2 = n Modelo de Regressão Linear Normal Propriedades dos Estimadores de Máxima Verossimilhança Os estimadores ML para β0 e β1 I Possuem as mesmas propriedades dos estimadores OLS: BLUE I Consistentes σ 2 [β̂0(ML) ] I n→∞ −→ 0; σ 2 [β̂1(ML) ] n→∞ −→ Suficientes f (Y1 , . . . , Yn |β̂1(ML) ) = f (Y1 , . . . , Yn ); f (Y1 , . . . , Yn |β̂0(ML) ) = f (Y1 , . . . , Yn ) I BUE (“best unbiased estimators”) 0 Inferências sobre β1 Distribuição Amostral de b1 Estimador pontual: b1 = P (Xi − X )(Yi − Y ) P (Xi − X )2 Para o modelo de regressão normal: b1 ∼ N(E [b1 ], σ 2 [b1 ]); E [b1 ] = β1 σ2 σ 2 [b1 ] = P (Xi − X )2 Como chegamos nestes resultados? Inferências sobre β1 Distribuição Amostral de b1 −β1 s[b1 ] Temos: b1 ∼ N(E [b1 ], σ 2 [b1 ]); E [b1 ] = β1 ; σ2 σ 2 [b1 ] = P (Xi − X )2 Padronizando: b 1 − β1 ∼ N(0, 1); σ[b1 ] σ̂[b1 ] = s[b1 ] =⇒ b 1 − β1 ∼? s[b1 ] Inferências sobre β1 II Distribuição Amostral de b1 −β1 s[b1 ] NOTA: Sempre que uma estatística é padronizada mas, no lugar do desvio-padrão real, utilizarmos um desvio-padrão estimado, temos uma estatística “studentizada”: t= estimador − parâmetro desvio-padrão estimado Teorema: Para o modelo de regressão b 1 − β1 ∼ tn−2 s[b1 ] (Demonstração) Inferências sobre β1 Intervalo de Confiança para β1 Temos: b 1 − β1 ∼ tn−2 s[b1 ] Portanto: (β ) 1 IC(1−α)100% : (Demonstração) b1 ± t α2 ;(n−2) s[b1 ] Inferências sobre β1 Testes envolvendo β1 Tipo de Teste Bi-caudal Mono-caudal à direita Mono-caudal à esquerda H0 Ha Regra de Decisão (Rej. H0 ) β1 = β1∗ β1 ≤ β1∗ β1 ≥ β1∗ β1 6= β1∗ β1 > β1∗ β1 < β1∗ |t| > tα/2,df t > tα,df t < tα,df Estatística do Teste: t= b1 − β1∗ s[b1 ] NOTA: – Para β1∗ = 0, se o teste rej. H0 , isto é, conclui-se que β1 6= 0, diz-se que a X e Y possuem associação estatisticamente linear. Inferências sobre β0 Raramente estamos preocupados com β0 . – Apenas quando o escopo do modelo inclui X = 0. Seja o estimador: b0 = Y − b1 X Distribuição Amostral de b0 : " 2 b0 ∼ N(E [b0 ], σ [b0 ]); E [b0 ] = β0 ; 2 σ [b0 ] = σ 2 2 # Estimador para σ 2 [b0 ]: " 1 X s 2 [b0 ] = MSE +P n (Xi − X )2 2 1 X +P n (Xi − X )2 # Inferências sobre β0 II Analogamente ao caso de b1 , temos: Distribuição Amostral de b0 −β0 s[b0 ] : b 0 − β0 ∼ tn−2 s[b0 ] Intervalo de Confiança para β0 : (β ) 0 IC(1−α)100% : b0 ± t α2 ;(n−2) s[b0 ] NOTA: – Quando o escopo do modelo não inclui X = 0, o IC para b0 não necessariamente tem significado prático. Inferências sobre β1 , β0 Desvios da Normalidade: I Se Y ∼N ˙ =⇒ b1 , b0 ∼ ˙ N: Podemos utilizar a estatística t para inferências. I Caso contrário, b1 , b0 são assintoticamente normais: b1 , b0 n→∞ N −→ Para n grande, podemos ainda realizar inferências utilizando a estatística Z . Inferências sobre E [Y |Xi ] = E [Yi ] Distribuição Amostral de Ŷi Estimador pontual de E [Yi ]: Ŷi = b0 + b1 Xi (Xi pode ser um valor observado na amostra ou qualquer outro valor da variável explicativa no escopo do modelo.) Para o modelo de regressão normal: Ŷi ∼ N(E [Ŷi ], σ 2 [Ŷi ]); E [Ŷi ] = β0 + β1 Xi (Xi − X )2 1 σ 2 [Ŷi ] = σ 2 +P : σ 2 desconhecido n (Xi − X )2 (Xi − X )2 1 2 ⇒ σ̂ [Ŷi ] = MSE +P n (Xi − X )2 OBS: – A normalidade decorre do fato de que Ŷi é uma combinação linear de de Yi , assim como b0 e b1 . Inferências sobre E [Y |Xi ] = E [Yi ] Distribuição Amostral de Ŷi −E [Yi ] s[Ŷi ] Temos, para o modelo de regressão: Ŷi − E [Yi ] s[Ŷi ] ∼ tn−2 , Portanto: (E [Y ]) i IC(1−α)100% : Ŷi ± t α2 ;(n−2) s[Ŷi ] (Demonstração) NOTA: – A precisão do IC é máxima quando Xi = X . Previsão de uma nova observação Queremos prever a resposta Yo de uma nova observação, correspondendo ao nível Xo da variável explicativa: – A nova observação é considerada independente das observações nas quais baseou-se a construção do modelo de regressão. – Consideramos válido o modelo de regressão já calibrado. Intervalo de Previsão de Yo Caso 1: parâmetros do modelo conhecidos Temos: β0 = β0∗ ; β1 = β1∗ ; σ 2 = (σ ∗ )2 : conhecidos Portanto, a reta de regressão é conhecida e vale: E [Y ] = β0∗ + β1∗ X Assim, para uma nova observação: E [Yo ] = β0∗ + β1∗ Xo O intervalo de previsão pode ser construído: (Y ) o IP(1−α)100% : E [Yo ] ± z(α/2)σ NOTA: – O intervalo centrado em E [Yo ] é o mais preciso, consistente com a probabilidade de uma previsão correta. Intervalo de Previsão de Yo Caso 2: parâmetros do modelo desconhecidos β0 ; β1 ; σ2 : precisam ser estimados Portanto, também precisamos estimar: E [Yo ] −→ Ŷo ; σ 2 [Yo ] −→ MSE Podemos, então, apenas substituir os parâmetros desconhecidos pelos correspondentes estimadores pontuais no IP acima? Intervalo de Previsão de Yo Caso 2: parâmetros do modelo desconhecidos β0 ; β1 ; σ2 : precisam ser estimados Portanto, também precisamos estimar: E [Yo ] −→ Ŷo ; σ 2 [Yo ] −→ MSE Podemos, então, apenas substituir os parâmetros desconhecidos pelos correspondentes estimadores pontuais no IP acima? NÃO!!! Por que?... (Ilustração) Intervalo de Previsão de Yo Caso 2: parâmetros do modelo desconhecidos Precisamos levar em conta duas incertezas: (1) Quanto à possível localização da distribuição de Y (2) Quanto ao valor amostrado da própria distribuição de Y A resposta da nova observação pode ser escrita da seguinte forma: Yo = Ŷo + eprev ⇒ eprev = Yo − Ŷo Podemos construir a seguinte estatística “studentizada”, para o modelo de regressão: eprev Yo − Ŷo = ∼ tn−2 s[eprev ] s[eprev ] em que 1 (Xo − X )2 s [eprev ] = MSE 1 + + P n (Xi − X )2 2 (Demonstração) Intervalo de Previsão de Yo II Caso 2: parâmetros do modelo desconhecidos O intervalo de previsão pode ser construído: (Y ) o IP(1−α)100% : Ŷo ± t α2 ;(n−2) s[eprev ] NOTA: – O IP é mais largo para valores de Xo mais distantes de X , ou seja, a estimativa Ŷo é menos precisa. – Os limites de previsão são sensíveis a desvios da normalidade. (Ao contrário de IC para a resposta média, E [Yi ]) IC’s para E [Yi ] × IP’s para Yo Diferenças Conceituais: IC: Inferência a respeito de um parâmetro (a média da distribuição de probabilidade de Yi ) – o intervalo contém com certo nível de confiança o valor verdadeiro do parâmetro IP: Declaração a respeito de um valor assumido por uma v.a. (a nova observação, Yo )