Regressão linear multipla

Propaganda
Regressão linear múltipla
Prof. Tatiele Lacerda
Yi = B1 + B2x2 + B3X3 + u
Yi
•
E(Yi) = 20,00
0
Plano de resposta
i
•
(1,33;1,67)
Yi  0  1 X i1  2 X i 2  ...   p1 X i , p1   i
2
Modelo de regressão linear múltipla em termos
matriciais
A expressão do modelo linear geral de regressão é dada por:
Yi   0  1 X i1   2 X i 2  ...   p 1 X i , p 1   i
Em termos matriciais, precisamos definir:
Y1 
Y 
 2
Y  . 
n x1
 
.
Yn 
1 X 11
1 X
21

.
.
X 
n xp
.
.
.
.

1 X n1
.
.
.
.
.
.
. X 1, p 1 
. X 2, p 1 
.
. 

.
. 
.
. 

. X n , p 1 
 0 
  
 1 
β  . 
p x1


.


  p 1 


 1 
 
 2
.
ε  
n x1
.
.
 
 n 
3
Em termos matriciais, o modelo de regressão linear geral é dado por:
Y  Xβ  ε
(2)
 é um vetor de variáveis aleatórias independentes e normalmente distribuídas
com esperança (média), E()=0 e matriz de variância-covariância dada por:
 2 0

2
0

2
σ (ε )  
 .
.

0
0
. 0

. 0
. . 

.  2
=2I
Assim, o vetor das observações Y tem esperança e variância dadas por:
E( Y)  Xβ
n x1
σ 2 ( Y)   2 I
(3)
nxn
4
Estimação dos coeficientes de regressão
O sistema de equações normais para o modelo (2) é:
X' Xb  X' Y
(4)
E os estimadores de mínimos quadrados são dados por:
b  (X' X) 1 X' Y
(5)
Valores estimados e resíduos
Os valores estimados são obtidos por:
ˆ  Xb
Y
n x1
(6)
Os resíduos são obtidos através da expressão matricial:
ˆ  Y  Xb
e  YY
nx1
(7)
5
Método de máxima verossimilhança
Vamos considerar o modelo com erros normais . A função de máxima
verossimilhança é dada por:
n

2
1
1
L(β, )  ( 2 2 )n / 2 exp  2 2  (Yi  0  1 X i1  ...   p 1 X i , p 1 ) 
i 1


2
Os estimadores de máxima verossimilhança são exatamente os mesmos obtidos com o
método de mínimos quadrados.
Inferência sobre os parâmetros da regressão
Os estimadores de mínimos quadrados ou de máxima verossimilhança são
não tendenciosos, isto é: E(b)=.
A matriz de variância-covariância dos estimadores, 2(b), é dada por:
σ 2 (b)   2 ( X' X) 1
(p x p)
6
Análise de variância
Três fatores que afetam a variância dos modelos:
variância do erro
Variação de Xij
Grau de relação linear entre as variáveis explicativas
Var ( Bj ) 
²
SQT .(1  R ² j )
, onde :
SQE
SQT
1
SQR
 ^² 
* Ui^ 2 
n  k 1
n  k 1
R² 
Estimação da variância
Diferença entre os modelos de MQO e de MV: é apenas na variância
SQR
 ^² 
 MV
n
Ele não depende das varáveis do modelo
Mas se o “n” for grande eles tendem a se aproximar
Coeficiente de determinação (R2)
Após estimar os coeficientes de regressão, seus erros padrões e suas
principais propriedades, devemos estimar o grau de ajuste a um conjunto
de dados da reta de regressão ajustada, ou seja, verificar quão bem a reta
de regressão da amostra se ajusta aos dados.
Se todas as observações se situam na linha de regressão, obteríamos um
ajustamento perfeito, porém, em geral, haverá algum resíduo positivo ou
negativo.
O ideal é que esses resíduos juntos a linha de regressão sejam tão
pequenos quanto possível.
O “coeficiente de determinação R2” é uma medida que diz quão bem a
reta de regressão da amostra se ajusta aos dados. O valor numérico do
coeficiente varia entre zero e um, como segue:
0 ≤R2 ≤ 1
COEFICIENTE DE DETERMINAÇÃO R2:
O cálculo para o “coeficiente de determinação R2” é determinado como
Segue, sendo derivado da equação dos desvios elevado ao quadrado e ao
somatório, e depois dividido pela SQT (como vista na regressão simples):
SQE
SQR
u ^²
R² 
 1
 1
SQT
SQT
yi ²
A variação total nos valores de Y observados em relação ao seu valor
médio pode ser dividido em duas partes: uma atribuível à reta de
regressão e outra às forças aleatórias.
Gráfico no quadro ou pegar do programa
O R2 é definido como “coeficiente de determinação” da amostra, e é a
medida mais utilizada do grau de ajuste de uma reta de regressão. Ela
mede a proporção ou a porcentagem da variação total de Y explicada
pelo modelo de regressão.
É possível destacar as seguintes propriedades do coeficiente de
determinação:
• Trata-se de uma quantidade não negativa;
• Seus limites variam entre: 0 < R2 <1. Um R2 = 1 significa um perfeito
ajustamento, por outro lado, R2 = 0, significa que não há nenhuma relação
entre a variável explicativa e a variável explicada, ou seja, B2 = 0. Neste
caso, Y^ = B = Y , isto é, a melhor previsão de qualquer valor de Y é seu
valor médio. Neste caso, a reta de regressão será horizontal, paralela ao eixo
X
COEFICIENTE DE DETERMINAÇÃO AJUSTADO ( R²a):
Uma importante propriedade de R2 é que ele é uma função não decrescente do
número de variáveis explicativas ou regressores (X) presentes no modelo.
Na medida em que aumenta o número de regressores, R2 também aumenta e nunca
diminui.
Considere a equação que segue:
u ^²
R²  1 
yi ²
Nota-se que independe da variável X.
Mas depende do numero de regressores, determinado pela (u^2), pois se aumenta X
O erro deve diminuir, mas o R² irá aumentar
Dada esta restrição, para comparar modelos compostos por diferentes números de
variáveis explicativas X, podemos usar o coeficiente de determinação ajustado,
representado por:
u ^²
(n  k )
Ra ²  1 
yi ²
(n  1)
Mas o que ele mede?
O termo ajustado significa ajustado para os graus de liberdade associados
às somas dos quadrados.
Os erros dependem de n-k gl , incluindo o termo de intercepto
O y depende de n-1 gl
Veja na formula acima
Relação entre o coeficiente de determinação e o
coeficiente de determinação ajustado:
Como R2 aumenta com a adição de variáveis explanatórias, sugere-se utilizar o
coeficiente de determinação ajustado (corrigido) para os graus de liberdade. O
coeficiente de determinação ajustado é dado por:
R  1
2
a
SQR
n k
SQT
n1
 1 
n 1
nk

SQR
SQT
Comparando com o R² e substituindo o R² na formula acima tem-se:
(n  1)
Ra ²  1  (1  R ²)
(n  k )
Coeficiente de determinação (R2) sintese:
Define-se R2 por:
SQR
R 2  SQE

1

SQT
SQT
Mede a redução da variabilidade total de Y associada com o uso do conjunto de
variáveis X1,...,Xp-1. Como na regressão linear simples, temos:
0  R2  1
Assim, R2=0 se todas as estimativas bk=0 (k=1,...,p-1), e R2=1 quando todas as
observações Y caírem exatamente na superfície de regressão ajustada, isto é,
quando:
Yi  Yˆi para todo i.
Como R2 aumenta com a adição de variáveis explanatórias, sugere-se utilizar o
coeficiente de determinação ajustado (corrigido) para os graus de liberdade. O
coeficiente de determinação ajustado é dado por:
(n  1)
Ra ²  1  (1  R ²)
(n  k )
15
Um alto valor de R2 não necessariamente implica que o modelo ajustado se presta
para se fazer inferências precisas, pois apesar de um valor alto de R2. O modelo
pode não ser exatamente linear.
Qual dos dois R² se analisa para escolher o melhor modelo?
Coeficiente de correlação múltipla (R)
Não confundir - coeficiente de correlação múltipla (R)
é de associação linear
R R
2
O coeficiente de correlação múltipla mede
o relacionamento linear entre Y e Ŷ.
Cuidado, temos três tipos de R...
16
O perigo jogo de maximizar o Ra2
O que se quer obter de uma estimação?
Estimativas confiáveis para pode fazer inferência
O pesquisador deve levar em conta, não apenas o Ra²,
mas dar uma relevância as variáveis explicativas com
relação a explicada, para que?
Nem sempre um Ra² baixo, significa modelo ruim
HIPOTESE DA NORMALIDADE
DISTRIBUIÇÃO DE PROBABILIDADE DOS ERROS ui’s:
Uma vez que os estimadores de Mínimos Quadrados Ordinários ’s são funções
lineares de ui (perturbações aleatórias), a distribuição de probabilidade dos
estimadores dependerá da hipótese feita com relação ao comportamento da
distribuição de probabilidade dos resíduos.
Assim, considera-se que o processo estocástico dos resíduos ui se
distribui normalmente, respeitando as seguintes especificações.
E (ui )  0
E (ui )²   ²
cov(ui, uj )  E (ui, uj )  0, sendoi  j
ui  N (0,  ²)
Sob a hipótese de normalidade dos resíduos ui, os estimadores de Mínimos Quadrados
Ordinários ’s também se distribuem normalmente.
Apresentando as seguintes propriedades:
1) São não viesados;
E(B^) = B,.....
2) Apresentam variância mínima (estimador eficiente);
3) São estimadores consistentes, ou seja, na medida em que o tamanho da
amostra aumente, os estimadores convergem para os verdadeiros valores da
população;
4) B`S tem variância mínima em todas as classes de estimadores não tendenciosos,
seja lineares ou não. Portanto, os estimadores por MQO são os Melhores Estimadores
Lineares não Viesados. E distribuem independentemente de variância.
Se admitirmos que ui se distribui normalmente com média zero e variância
constante, então, Y também se distribui normalmente com média e variância
constante. Isso ocorre porque toda a função linear de variáveis distribuídas
normalmente, também se distribuem normalmente. QUADRO A FIGURA
B^1 se distribui normalmente com:
Média
COLOCAR NO QUADRO
Variância
Distribuição normal
Distribuição normal padronizada
B^2 se distribui normalmente com:
Média
Variância
Distribuição normal
Distribuição normal padronizada
ESTIMAÇÃO DE INTERVALO E TESTE DE HIPOTES
Em virtude de as amostras apresentarem flutuações, uma única estimativa vai diferir do
seu verdadeiro valor, porém, em amostras repetidas, o valor médio tende a convergir, ou
ser igual, ao seu verdadeiro valor.
E(B^2) = B2, ...
O grau de confiabilidade de um estimador por ponto é medido pelo seu erro padrão.
Assim sendo, em vez de confiar apenas na estimativa de ponto, podemos construir um
intervalo em torno do estimador de ponto, de modo que este intervalo tenha uma
elevada probabilidade de conter o verdadeiro valor do parâmetro. O intervalo de
confiança para os estimadores pode ser definido por:
QUADRO
Onde (1- a) representa o coeficiente de confiança, e (0<a<1) representa o nível de
significância. Os extremos do intervalo de confiança são conhecidos como limites de
confiança (ou valores críticos)
PROPRIEDADES:
A probabilidade dos estimadores estarem nos limites é dado por: (1-a)
O intervalo de confiança é um intervalo aleatório, ou seja, ele irá variar de uma
amostra para outra por ser uma função dos parâmetros ’s , que são aleatórios.
Ver a formula
Como o intervalo de confiança é aleatório, as declarações de probabilidades
associadas a ele devem ser entendidas em termos de longo prazo, ou seja, em
amostras repetidas.
INTERVALO DE CONFIANÇA PARA β2:
Considerando a hipótese de normalidade dos resíduos ui, os estimadores de MQO
dos parâmetros se distribuem normalmente. Assim, os parâmetros podem ser
identificados como variáveis aleatórias normalmente distribuídas, que na forma
padrão pode ser determinada por:
B ^²  B ²
t
ep ( B ^²)
INTERVALO DE CONFIANÇA PARA β3:
B ^³  B ³
t
ep ( B ^³)
Em ambos os casos a amplitude do intervalo de confiança é proporcional ao erropadrão do estimador. Assim, quanto maior o erro-padrão, maior a amplitude do
intervalo de confiança, e maior a incerteza com relação ao verdadeiro valor do
parâmetro estimado.
Eles devem estar entre os seus valores críticos: veja


Pr  t  t  t  (1   )
a/2
a/2


B ^²  B ²
Pr  t 
 t   (1   )
 a / 2 ep ( B ^²) a / 2 


B²
Pr  t .ep ( B ^²)B ^² 
 t .ep ( B ^²)B ^²  (1   )
a/2
a/2


TESTE DE HIPÓTESE
Todo teste de hipótese deve conter:
Hipótese nula.
Hipótese alternativa;
Estatística de teste;
Região de Rejeição.
No quadro
HIPÓTESE NULA E ALTERNATIVA
H 0 : B 2  B3  C
H 1 : B 2  B3  C
MAS EXISTEM “N” H1 PARA O CASO ACIMA: QUAIS?
REJEITAR H0, SIGINIFICA O QUE?
Estatística de teste;
Estatística de teste é informado pelo teste t
Cuidado: esta estatística é uma analise parcial, como mostrada antes
B ^²  B ² estimador  parametro
t

ep ( B ^²) erropadrão(estimado )
REGIÃO DE REJEIÇÃO
Corresponde ao intervalo de valores da estatística do teste que conduz a rejeição
Da hipótese nula. QUADRO
No quadro:
Escolha do nível de significância a.
Teste p
Relembrar o SQR, SQT, SQE
Entrar no teste F – significância global
Relação entre R² e o F.
Download