Regressão linear múltipla Prof. Tatiele Lacerda Yi = B1 + B2x2 + B3X3 + u Yi • E(Yi) = 20,00 0 Plano de resposta i • (1,33;1,67) Yi 0 1 X i1 2 X i 2 ... p1 X i , p1 i 2 Modelo de regressão linear múltipla em termos matriciais A expressão do modelo linear geral de regressão é dada por: Yi 0 1 X i1 2 X i 2 ... p 1 X i , p 1 i Em termos matriciais, precisamos definir: Y1 Y 2 Y . n x1 . Yn 1 X 11 1 X 21 . . X n xp . . . . 1 X n1 . . . . . . . X 1, p 1 . X 2, p 1 . . . . . . . X n , p 1 0 1 β . p x1 . p 1 1 2 . ε n x1 . . n 3 Em termos matriciais, o modelo de regressão linear geral é dado por: Y Xβ ε (2) é um vetor de variáveis aleatórias independentes e normalmente distribuídas com esperança (média), E()=0 e matriz de variância-covariância dada por: 2 0 2 0 2 σ (ε ) . . 0 0 . 0 . 0 . . . 2 =2I Assim, o vetor das observações Y tem esperança e variância dadas por: E( Y) Xβ n x1 σ 2 ( Y) 2 I (3) nxn 4 Estimação dos coeficientes de regressão O sistema de equações normais para o modelo (2) é: X' Xb X' Y (4) E os estimadores de mínimos quadrados são dados por: b (X' X) 1 X' Y (5) Valores estimados e resíduos Os valores estimados são obtidos por: ˆ Xb Y n x1 (6) Os resíduos são obtidos através da expressão matricial: ˆ Y Xb e YY nx1 (7) 5 Método de máxima verossimilhança Vamos considerar o modelo com erros normais . A função de máxima verossimilhança é dada por: n 2 1 1 L(β, ) ( 2 2 )n / 2 exp 2 2 (Yi 0 1 X i1 ... p 1 X i , p 1 ) i 1 2 Os estimadores de máxima verossimilhança são exatamente os mesmos obtidos com o método de mínimos quadrados. Inferência sobre os parâmetros da regressão Os estimadores de mínimos quadrados ou de máxima verossimilhança são não tendenciosos, isto é: E(b)=. A matriz de variância-covariância dos estimadores, 2(b), é dada por: σ 2 (b) 2 ( X' X) 1 (p x p) 6 Análise de variância Três fatores que afetam a variância dos modelos: variância do erro Variação de Xij Grau de relação linear entre as variáveis explicativas Var ( Bj ) ² SQT .(1 R ² j ) , onde : SQE SQT 1 SQR ^² * Ui^ 2 n k 1 n k 1 R² Estimação da variância Diferença entre os modelos de MQO e de MV: é apenas na variância SQR ^² MV n Ele não depende das varáveis do modelo Mas se o “n” for grande eles tendem a se aproximar Coeficiente de determinação (R2) Após estimar os coeficientes de regressão, seus erros padrões e suas principais propriedades, devemos estimar o grau de ajuste a um conjunto de dados da reta de regressão ajustada, ou seja, verificar quão bem a reta de regressão da amostra se ajusta aos dados. Se todas as observações se situam na linha de regressão, obteríamos um ajustamento perfeito, porém, em geral, haverá algum resíduo positivo ou negativo. O ideal é que esses resíduos juntos a linha de regressão sejam tão pequenos quanto possível. O “coeficiente de determinação R2” é uma medida que diz quão bem a reta de regressão da amostra se ajusta aos dados. O valor numérico do coeficiente varia entre zero e um, como segue: 0 ≤R2 ≤ 1 COEFICIENTE DE DETERMINAÇÃO R2: O cálculo para o “coeficiente de determinação R2” é determinado como Segue, sendo derivado da equação dos desvios elevado ao quadrado e ao somatório, e depois dividido pela SQT (como vista na regressão simples): SQE SQR u ^² R² 1 1 SQT SQT yi ² A variação total nos valores de Y observados em relação ao seu valor médio pode ser dividido em duas partes: uma atribuível à reta de regressão e outra às forças aleatórias. Gráfico no quadro ou pegar do programa O R2 é definido como “coeficiente de determinação” da amostra, e é a medida mais utilizada do grau de ajuste de uma reta de regressão. Ela mede a proporção ou a porcentagem da variação total de Y explicada pelo modelo de regressão. É possível destacar as seguintes propriedades do coeficiente de determinação: • Trata-se de uma quantidade não negativa; • Seus limites variam entre: 0 < R2 <1. Um R2 = 1 significa um perfeito ajustamento, por outro lado, R2 = 0, significa que não há nenhuma relação entre a variável explicativa e a variável explicada, ou seja, B2 = 0. Neste caso, Y^ = B = Y , isto é, a melhor previsão de qualquer valor de Y é seu valor médio. Neste caso, a reta de regressão será horizontal, paralela ao eixo X COEFICIENTE DE DETERMINAÇÃO AJUSTADO ( R²a): Uma importante propriedade de R2 é que ele é uma função não decrescente do número de variáveis explicativas ou regressores (X) presentes no modelo. Na medida em que aumenta o número de regressores, R2 também aumenta e nunca diminui. Considere a equação que segue: u ^² R² 1 yi ² Nota-se que independe da variável X. Mas depende do numero de regressores, determinado pela (u^2), pois se aumenta X O erro deve diminuir, mas o R² irá aumentar Dada esta restrição, para comparar modelos compostos por diferentes números de variáveis explicativas X, podemos usar o coeficiente de determinação ajustado, representado por: u ^² (n k ) Ra ² 1 yi ² (n 1) Mas o que ele mede? O termo ajustado significa ajustado para os graus de liberdade associados às somas dos quadrados. Os erros dependem de n-k gl , incluindo o termo de intercepto O y depende de n-1 gl Veja na formula acima Relação entre o coeficiente de determinação e o coeficiente de determinação ajustado: Como R2 aumenta com a adição de variáveis explanatórias, sugere-se utilizar o coeficiente de determinação ajustado (corrigido) para os graus de liberdade. O coeficiente de determinação ajustado é dado por: R 1 2 a SQR n k SQT n1 1 n 1 nk SQR SQT Comparando com o R² e substituindo o R² na formula acima tem-se: (n 1) Ra ² 1 (1 R ²) (n k ) Coeficiente de determinação (R2) sintese: Define-se R2 por: SQR R 2 SQE 1 SQT SQT Mede a redução da variabilidade total de Y associada com o uso do conjunto de variáveis X1,...,Xp-1. Como na regressão linear simples, temos: 0 R2 1 Assim, R2=0 se todas as estimativas bk=0 (k=1,...,p-1), e R2=1 quando todas as observações Y caírem exatamente na superfície de regressão ajustada, isto é, quando: Yi Yˆi para todo i. Como R2 aumenta com a adição de variáveis explanatórias, sugere-se utilizar o coeficiente de determinação ajustado (corrigido) para os graus de liberdade. O coeficiente de determinação ajustado é dado por: (n 1) Ra ² 1 (1 R ²) (n k ) 15 Um alto valor de R2 não necessariamente implica que o modelo ajustado se presta para se fazer inferências precisas, pois apesar de um valor alto de R2. O modelo pode não ser exatamente linear. Qual dos dois R² se analisa para escolher o melhor modelo? Coeficiente de correlação múltipla (R) Não confundir - coeficiente de correlação múltipla (R) é de associação linear R R 2 O coeficiente de correlação múltipla mede o relacionamento linear entre Y e Ŷ. Cuidado, temos três tipos de R... 16 O perigo jogo de maximizar o Ra2 O que se quer obter de uma estimação? Estimativas confiáveis para pode fazer inferência O pesquisador deve levar em conta, não apenas o Ra², mas dar uma relevância as variáveis explicativas com relação a explicada, para que? Nem sempre um Ra² baixo, significa modelo ruim HIPOTESE DA NORMALIDADE DISTRIBUIÇÃO DE PROBABILIDADE DOS ERROS ui’s: Uma vez que os estimadores de Mínimos Quadrados Ordinários ’s são funções lineares de ui (perturbações aleatórias), a distribuição de probabilidade dos estimadores dependerá da hipótese feita com relação ao comportamento da distribuição de probabilidade dos resíduos. Assim, considera-se que o processo estocástico dos resíduos ui se distribui normalmente, respeitando as seguintes especificações. E (ui ) 0 E (ui )² ² cov(ui, uj ) E (ui, uj ) 0, sendoi j ui N (0, ²) Sob a hipótese de normalidade dos resíduos ui, os estimadores de Mínimos Quadrados Ordinários ’s também se distribuem normalmente. Apresentando as seguintes propriedades: 1) São não viesados; E(B^) = B,..... 2) Apresentam variância mínima (estimador eficiente); 3) São estimadores consistentes, ou seja, na medida em que o tamanho da amostra aumente, os estimadores convergem para os verdadeiros valores da população; 4) B`S tem variância mínima em todas as classes de estimadores não tendenciosos, seja lineares ou não. Portanto, os estimadores por MQO são os Melhores Estimadores Lineares não Viesados. E distribuem independentemente de variância. Se admitirmos que ui se distribui normalmente com média zero e variância constante, então, Y também se distribui normalmente com média e variância constante. Isso ocorre porque toda a função linear de variáveis distribuídas normalmente, também se distribuem normalmente. QUADRO A FIGURA B^1 se distribui normalmente com: Média COLOCAR NO QUADRO Variância Distribuição normal Distribuição normal padronizada B^2 se distribui normalmente com: Média Variância Distribuição normal Distribuição normal padronizada ESTIMAÇÃO DE INTERVALO E TESTE DE HIPOTES Em virtude de as amostras apresentarem flutuações, uma única estimativa vai diferir do seu verdadeiro valor, porém, em amostras repetidas, o valor médio tende a convergir, ou ser igual, ao seu verdadeiro valor. E(B^2) = B2, ... O grau de confiabilidade de um estimador por ponto é medido pelo seu erro padrão. Assim sendo, em vez de confiar apenas na estimativa de ponto, podemos construir um intervalo em torno do estimador de ponto, de modo que este intervalo tenha uma elevada probabilidade de conter o verdadeiro valor do parâmetro. O intervalo de confiança para os estimadores pode ser definido por: QUADRO Onde (1- a) representa o coeficiente de confiança, e (0<a<1) representa o nível de significância. Os extremos do intervalo de confiança são conhecidos como limites de confiança (ou valores críticos) PROPRIEDADES: A probabilidade dos estimadores estarem nos limites é dado por: (1-a) O intervalo de confiança é um intervalo aleatório, ou seja, ele irá variar de uma amostra para outra por ser uma função dos parâmetros ’s , que são aleatórios. Ver a formula Como o intervalo de confiança é aleatório, as declarações de probabilidades associadas a ele devem ser entendidas em termos de longo prazo, ou seja, em amostras repetidas. INTERVALO DE CONFIANÇA PARA β2: Considerando a hipótese de normalidade dos resíduos ui, os estimadores de MQO dos parâmetros se distribuem normalmente. Assim, os parâmetros podem ser identificados como variáveis aleatórias normalmente distribuídas, que na forma padrão pode ser determinada por: B ^² B ² t ep ( B ^²) INTERVALO DE CONFIANÇA PARA β3: B ^³ B ³ t ep ( B ^³) Em ambos os casos a amplitude do intervalo de confiança é proporcional ao erropadrão do estimador. Assim, quanto maior o erro-padrão, maior a amplitude do intervalo de confiança, e maior a incerteza com relação ao verdadeiro valor do parâmetro estimado. Eles devem estar entre os seus valores críticos: veja Pr t t t (1 ) a/2 a/2 B ^² B ² Pr t t (1 ) a / 2 ep ( B ^²) a / 2 B² Pr t .ep ( B ^²)B ^² t .ep ( B ^²)B ^² (1 ) a/2 a/2 TESTE DE HIPÓTESE Todo teste de hipótese deve conter: Hipótese nula. Hipótese alternativa; Estatística de teste; Região de Rejeição. No quadro HIPÓTESE NULA E ALTERNATIVA H 0 : B 2 B3 C H 1 : B 2 B3 C MAS EXISTEM “N” H1 PARA O CASO ACIMA: QUAIS? REJEITAR H0, SIGINIFICA O QUE? Estatística de teste; Estatística de teste é informado pelo teste t Cuidado: esta estatística é uma analise parcial, como mostrada antes B ^² B ² estimador parametro t ep ( B ^²) erropadrão(estimado ) REGIÃO DE REJEIÇÃO Corresponde ao intervalo de valores da estatística do teste que conduz a rejeição Da hipótese nula. QUADRO No quadro: Escolha do nível de significância a. Teste p Relembrar o SQR, SQT, SQE Entrar no teste F – significância global Relação entre R² e o F.