capítulo do curso de upgrade Green Belt-Black Belt

Propaganda
39
Capítulo 2 – Modelos de regressão
Capítulo 2
Modelos de Regressão
Objetivos do Capítulo
Todos os modelos são errados, mas alguns são úteis
George E. P. Box
Algumas vezes ficamos assustados quando vemos engenheiros que foram introduzidos
recentemente aos métodos estatísticos, colocando os métodos estatísticos e a engenharia em
compartimentos diferentes da sua mente e sentindo que quando usam estatística, não
precisam ser engenheiros.
É claro que isto não é verdade… Os métodos estatísticos usados com um conhecimento de
engenharia é uma combinação poderosa; por outro lado, um conhecimento pobre de
engenharia combinado com o uso automático e sem imaginação dos métodos estatísticos
entendidos da forma errada pode ser desastroso.
Box and Draper
Etapa
Passo
12
Melhorar
Descrição
Pesquisa avançada de
causas raízes – Sintonia fina
13
Encontrar as soluções e pilotar
14
Planejar a implementação
Questão a ser respondida
Quais fatores afetam o desempenho?
Quais são as melhores soluções para o
problema? Qual é o resultado dos
pilotos?
Como deve ser o plano de
implementação?
Neste capítulo apresenta-se um dos métodos estatísticos mais amplamente usados
para modelar dados de processos com variáveis y contínuas, análise de regressão
múltipla. Os assuntos abordados são:
•
•
•
Introdução à regressão linear múltipla
Métodos para selecionar variáveis de previsão que estarão na equação final:
apresentam-se os métodos “Stepwise” e “Best subset” (melhor subconjunto) e
algumas medidas importantes para avaliar a qualidade do modelo, como R2
ajustado, estatística PRESS, R2 previsão e Cp de Mallows
Medidas de diagnóstico e remédios
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
40
2.1 O conceito de Regressão Múltipla
A pesar de haver muitos problemas envolvendo uma única variável x, muito
freqüentemente há mais de uma variável independente. Uma generalização da técnica
de mínimos quadrados, previamente discutida, pode ser usada para estimar os
coeficiente da equação de predição multivariada. Este problema é chamado regressão
linear múltipla. Para um problema com k variáveis independentes, o modelo pode ser
escrito como:
y = β0 + β1 x1 + ... + βk xk + resíduo
onde os βs são parâmetros desconhecidos. As variáveis xs podem ser uma
transformação dos dados originais. Por exemplo o modelo polinomial:
y = β0 + β1 x + β2 x2 + resíduo
pode ser escrito como
y = β0 + β1 x1 + β2 x2 + resíduo
onde x2 = x ao quadrado.
Significado dos coeficientes de regressão
Onde há duas variáveis de previsão x1 e x2, o modelo de regressão:
yi = β0 + β1xi1 + β2xi2 + εi
é chamado “modelo de primeira ordem com duas variáveis de previsão”. Um modelo
de primeira ordem é linear nas variáveis de previsão. Neste modelo, yi denota, como é
usual, a resposta no ensaio i-ésimo, e xi1 e xi2 são os valores das duas variáveis de
previsão no ensaio i-ésimo. Os parâmetros do modelo são β0, β1, e β2, e o erro é εi.
De forma análoga à regressão linear simples, onde a função de regressão y = β0 +
β1x é uma reta, a função de regressão acima é um plano. A Figura 2.1 contém uma
representação de uma porção da superfície de resposta:
^
y = 10 + 2x1 + 5x2
y
yi
y
^
yi = 10 + 2x1i + 5x2i
^
= 10 + 2x1 + 5(2) = 20 + 2x1
ei
x2 = 2
x2
(x1i, x2i)
x1
Figura 2.1 – Exemplo de uma função plana de superfície de resposta
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
41
Capítulo 2 – Modelos de regressão
A Figura 2.1 mostra uma observação yi correspondente aos níveis (xi1, xi2) das duas
variáveis de previsão. Note que a linha vertical na Figura 2.1 entre yi e o plano
resposta representa o erro εi. Freqüentemente a função de regressão na regressão
múltipla é chamada de superfície de resposta. Na Figura 2.1, a superfície de resposta
é um plano, mas em outros casos a superfície de resposta pode ser de natureza mais
complexa.
Consideremos agora o significado dos coeficientes de regressão na função de
regressão múltipla. O parâmetro β0 = 10 é o intercepto de y do plano de regressão em
x1 = 0, x2 = 0. Fora isso, β0 não tem nenhum significado particular como um termo
separado no modelo de regressão.
^
O parâmetro β1 indica a mudança na média da resposta y por cada aumento de x1
em uma unidade enquanto x2 é mantida constante. Da mesma forma, β2 indica a
mudança na média da resposta por cada aumento de x2 em uma unidade enquanto x1
é mantida constante. Para ver isto, suponha que x2 é mantida no nível x2 = 2. A
função de regressão agora é:
^
y = 10 + 2x1 + 5(2) = 20 + 2x1,
para x2 = 2
Note que esta função resposta é uma reta com inclinação β1 = 2. O mesmo é
verdadeiro para qualquer outro valor de x2; somente o intercepto da função resposta
^
irá mudar. Então, β1 = 2 indica que a resposta media y aumenta em 2 unidades
quando x1 aumenta uma unidade e x2 é constante, não importa qual seja o nível de
^
x2. Confirmamos então que β1 indica a mudança em y com um aumento de uma
unidade em x1 quando x2 é mantido constante. De forma similar, β2 = 5 na função de
^
regressão indica que a resposta média y aumenta 5 com um aumento de uma
unidade em x2 quando x1 é mantida constante.
Quando o efeito de x1 na resposta média não depende do nível de x2, e de modo
correspondente o efeito de x2 não depende do nível de x1, se diz que as duas
variáveis de previsão têm efeitos aditivos ou não interagem. Deste modo, o modelo de
regressão de primeira ordem é desenhado para variáveis de previsão cujos efeitos na
resposta média são aditivos ou não interagem. Os parâmetros β1 e β2 são às vezes
chamados coeficientes de regressão parcial porque eles refletem o efeito parcial de
uma variável de previsão quando a outra variável de previsão está incluída no modelo
e é mantida constante.
Terminologia básica: R2, R2 ajustado, R2 previsão
Há dois tipos de estatísticas para estudar a bondade de um modelo:
•
•
Estatísticas da bondade do ajuste: R2 e R2 ajustado.
Estatísticas da bondade da previsão: R2 previsão.
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
42
Coeficiente de determinação múltipla, R2
O coeficiente de determinação múltipla, denotado por R2, é definido da seguinte forma:
R2 = 1 -
Square Sum of error
Total Square Sum
=1-
SSE
SSTO
Ele mede a redução da variação total em y associada como o uso do conjunto de
variáveis x x1, …, xp-1. O valor de R2 varia:
0 ≤ R2 ≤ 1
A Figura 2.2 ilustra três situações para R2. Em todos os casos, a distância (yi - y ) em
relação à soma de quadrado total é dividida em dois componentes: o erro ou SSE
^
^
calculado como (yi - y i ) e a regressão ou SSR calculada pela diferença ( y i - y ). Os
casos da Figura 2.2 ilustram:
•
•
•
Caso a) é uma situação com R2 pequeno
Caso b) é uma situação com R2 nulo onde a melhor previsão é igual à média
Caso c) é uma situação com relação perfeita ou R2 = 1.
y
yi
^
(y i − y i ) = SSE
^
yi
a)
^
( y i − y ) = SSR
y
(y i − y ) = SSTO
R2 = 1 −
xi
SSE
≅ 0.6 (baixo)
SSTO
x
y
yi
^
(y i − y i ) = SSE = (y i − y ) = SSTO
^
yi = y
b)
^
( yi − y ) = 0
R2 = 1 −
xi
SSE
≅ 0.0 (nula)
SSTO
x
y
^
y i = yi
^
( y i − y ) = SSR = (y i − y ) = SSTO
y
c)
^
(y i − y i ) = 0 = SSE
R2 = 1 −
xi
SSE
= 1 (perfeito)
SSTO
x
Figura 2.2 – Ilustração de R2 pequeno, nulo e perfeito
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
43
Capítulo 2 – Modelos de regressão
Um valor grande de R2 não implica necessariamente que o modelo ajustado é útil. Por
exemplo, as observações podem ter sido coletadas somente em poucos níveis da
variável de previsão.
Coeficiente ajustado de determinação múltipla, R2 ajustado
Adicionar mais variáveis x ao modelo de regressão só pode aumentar R2 e nunca
reduzi-lo, porque SSE nunca pode se tornar maior com mais variáveis “x” e SSTO é
sempre igual para um dado conjunto de respostas. Já que R2 geralmente pode ser
feito maior incluindo um maior número de variáveis de previsão, às vezes sugere-se
que seja usada uma medida modificada que ajuste o número de variáveis “x” no
modelo. O coeficiente de determinação múltipla ajustado, denotado por R2 ajustado,
corrige R2 dividindo cada soma de quadrados pelos seus graus de liberdade
associados:
SSE
 n − 1  SSE
n-p

R2 ajd. = 1 = 1 - 
SSTO
 n − p  SSTO
n -1
Este coeficiente de determinação múltipla ajustado pode diminuir quando variáveis “xs”
adicionais são introduzidas no modelo. Se R2 e R2 ajustado são muito diferentes, isto
pode ser um indicativo de que há variáveis “xs” não significativas no modelo.
R2 previsão
Indica quão bem o modelo prediz as respostas para novas observações, enquanto que
R2 indica quão bem o modelo ajusta os dados. A fórmula para R2 previsão é:
R2 previsão = 1 -
PRESS
SSTO
onde PRESS = soma de quadrados de previsão e SSTO = soma de quadrados total.
O R2 previsão pode prevenir o sobre ajuste do modelo, ou seja, um modelo muito
próximo dos dados no conjunto atual de dados, de modo que não é útil para predizer
novos dados. R2 previsão pode ser mais útil que o R2 ajustado para comparar modelos
porque é calculado com observações que não estão incluídas no cálculo do modelo.
R2 previsão varia entre 0 e 1; valores mais elevados de R2 previsão sugerem modelos
com maior habilidade de previsão.
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
44
.
.
.
.
.
.
.
.
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
45
Capítulo 2 – Modelos de regressão
Regressão Múltipla no Minitab
O Minitab 17 tem o menu de regressão stepwise no mesmo menu de regressão
múltipla (Stat\Regressão\Regressão). Além disso, inclui outras ferramentas
interessantes de otimização que antes estavam disponíveis somente na plataforma
DOE (Design Of Experiments). Os passos para explorar os modelos de regressão
simples ou múltipla estão na Figura 2.3.
1) Avaliar outliers (valores extremos)
• Gráfico\Diagrama de Dispersão ou
• Gráfico\Matriz de Dispersão
2) Análise correlação
• Stat\Estatística Básica\Correlação…
3) Ajustar o modelo de regressão
• Escolher o modelo mais apropriado
• RS ⇒ Stat\Regressão\Gráfico de linha ajustada…
• RM ⇒ Stat\Regressão\Regressão\
Ajustar Modelo de Regressão…
4) Analisar os resultados:
• Fatores VIF próximos de 1 (ideal = 1; ok <5)
• Teste significância: H0: β = 0 (se p-valor < 0,05)
• Coeficiente de determinação ajustado: R2 aj. > 75%
• RM ⇒ Stat\Regressão\Regressão\
Ajustar Modelo de Regressão… retirando os X’s
Botão “Modelo”: permite adicionar termos no modelo
Botão “Codificando”: reduzir VIF de termos cruzados
Botão “Opções”: transformação do y (Box-Cox)
Botão “Stepwise”: seleção automática de termos
5) Fazer gráficos de resíduos
• Gráfico de dispersão: Ajustes versus y
• RS ⇒ Stat\Regressão\Gráfico de linha ajustada
Gráficos: Padronizados , Quatro em um
• RM ⇒ \Stat\Regressão\Regressão\
Gráficos: Padronizados, Quatro em um
Armazenamento: Ajustes
• RM ⇒ Gráfico\Gráfico de Dispersão...\Simples:
(Variáveis Y = “Ajustes”, Variáveis X = “Resposta”)
Modelo OK?
Não 6) Transformar os dados
Modificar o modelo
Sim
7) Explorar modelo com ferramentas avançadas (RM)
8) Concluir: Fazer ensaios de confirmação
• Aplicar transformação Box-Cox: Stat\Cartas de controle\
Transformações de Box-Cox ou Stat\Regressão\Regressão,
botão “Opções”
• RM ⇒ \Stat\Regressão\Regressão
Gráficos de contorno
Gráficos de superfície
Gráfico de contornos sobrepostos
Otimizador de resposta
RS: regressão linear simples
RM: regressão linear múltipla
Figura 2.3 – Passos para ajuste de modelos de regressão
Abra o arquivo Cirurgia.mpj que contém dados de tempo de sobrevivência de pessoas
com problema de fígado. Este arquivo permitirá explorar diversos recursos do
procedimento de regressão múltiple. No procedimento “Stat\Regressão\Regressão”
(Figura 2.4) entre com Tempo de sobrevivência na janela “Respostas” e as variáveis
xs na janela “Preditoras contínuas”. No botão “Gráficos” peça resíduos padronizados e
“Quatro em um”. A saída de resultados da Tabela 2.1, mostra que a variável x4 não é
significativa e que o ajuste é “razoável” apresentando R2 ajustado = 82% e R2 de
previsão = 77,8%. Porém quando analisamos o gráfico de resíduos da Figura 2.5
vemos um comportamento quadrático claro no gráfico de resíduos versus valores
ajustados. Pronto, podemos adicionar termos quadráticos no modelo utilizando o botão
“Modelo” do procedimento Stat\Regressão\Regressão, como na Figura 2.6:
•
•
•
Primeiro selecionamos as variáveis xs
Depois clicamos o botão Adicionar (termos até a ordem = 2)
Depois eliminamos os termos de interação, deixando somente os termos
quadráticos.
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
46
Há dois problemas neste novo ajuste, como podemos ver na Tabela 2.2 e Figura 2.7.
O comportamento continua quadrático e a maioria dos p-valores são altos (e também
os valores de VIF). Quando se adicionam termos cruzados (interações ou termos
quadráticos) é natural que os valores de VIF aumentem pela correlação entre, por
exemplo, x1 com x1*x1. Para reduzir o problema dos VIF altos recomenda-se codificar
os valores de x, por exemplo, entre -1 e +1. Para isso use o botão “Codificando” e
selecione “Padronizar preditoras contínuas” = Especificar níveis inferior e superior para
codificar como -1 e +1. O novo resultado desta análise reduziu os valores de VIF,
assim como os valores de p (Tabela 2.3). Agora aparecem vários xs significativos. Mas
ainda temos o problema dos resíduos.
Figura 2.4 – Menus do Minitab para o procedimento stepwise (forward e backward)
(“Stat\Regression\Stepwise”)
Tabela 2.1 – Resultados da regressão múltipla para o exemplo Cirurgia.mpj
Análise de Regressão: Tempo sobrevivência versus x1; x2; x3; x4
Sumário do Modelo
S
61,0565
R2
83,67%
R2(aj)
82,34%
R2(pred)
77,85%
Coeficientes
Termo
Constante
x1
x2
x3
x4
Coef
-621,6
33,16
4,272
4,126
14,1
EP de
Coef
64,8
7,02
0,563
0,511
12,5
Valor T
-9,59
4,73
7,58
8,07
1,13
Valor-P
0,000
0,000
0,000
0,000
0,266
VIF
1,80
1,29
1,68
2,56
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
47
Capítulo 2 – Modelos de regressão
Gráficos de Resíduo de Tempo sobrevivência
Versus Ajustados
Percentual
90
50
10
1
-2
0
2
4
6
Resíduos Padronizados
Gráfico de probabilidade normal
99
6
4
2
0
0
150
Resíduos Padronizados
Frequência
20
15
10
5
-1,6
0,0
1,6
3,2
Resíduos Padronizados
450
600
Versus Ordem
4,8
Resíduos Padronizados
Histograma
0
300
Valor ajustado
6
4
2
0
1
5
10
15
20
25
30
35
40
45
50
Ordem de Observação
Figura 2.5 – Gráficos dos resíduos. Comportamento quadrático
Figura 2.6 – Modificação do modelo de regressão para adicionar termos quadráticos
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
48
Tabela 2.2 – Resultados da regressão múltipla com termos quadráticos sem
padronização dos xs (VIF altos)
Análise de Regressão: Tempo sobrevivência versus x1; x2; x3; x4
Sumário do Modelo
S
53,1259
R2
88,65%
R2(aj)
86,63%
R2(pred)
69,89%
Coeficientes
Termo
Constante
x1
x2
x3
x4
x1*x1
x2*x2
x3*x3
x4*x4
Coef
-312
36,1
1,17
-1,28
-29,1
-0,10
0,0276
0,0378
5,74
EP de Coef
107
26,0
2,43
2,07
32,1
2,05
0,0212
0,0145
4,83
Valor T
-2,93
1,39
0,48
-0,62
-0,91
-0,05
1,31
2,61
1,19
Valor-P
0,005
0,172
0,633
0,538
0,369
0,959
0,198
0,012
0,240
VIF
32,55
31,56
36,26
22,15
33,56
32,85
38,61
22,77
Gráficos de Resíduo de Tempo sobrevivência
Versus Ajustados
Percentual
90
50
10
1
-2
0
2
4
6
Resíduos Padronizados
Gráfico de probabilidade normal
99
6
4
2
0
-2
0
150
Resíduos Padronizados
Frequência
30
20
10
-2
0
2
450
600
Versus Ordem
4
Resíduos Padronizados
6
Resíduos Padronizados
Histograma
0
300
Valor ajustado
6
4
2
0
-2
1
5
10
15
20
25
30
35
40
45
Ordem de Observação
Figura 2.7 – Gráficos dos resíduos. Ainda comportamento quadrático
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
50
49
Capítulo 2 – Modelos de regressão
Tabela 2.3 – Resultados da regressão múltipla com termos quadráticos padronizados
dos xs (VIF baixos)
Análise de Regressão: Tempo sobrevivência versus x1; x2; x3; x4
Sumário do Modelo
S
53,1259
R2
88,65%
R2(aj)
86,63%
R2(pred)
69,89%
Coeficientes Codificados
Termo
Constante
x1
x2
x3
x4
x1*x1
x2*x2
x3*x3
x4*x4
Coef
135,9
148,9
177,8
196,2
33,6
-1,9
53,5
87,1
46,0
EP de
Coef
16,1
29,6
23,1
21,7
33,6
37,9
40,9
33,4
38,7
Valor T
8,42
5,02
7,69
9,03
1,00
-0,05
1,31
2,61
1,19
Valor-P
0,000
0,000
0,000
0,000
0,322
0,959
0,198
0,012
0,240
VIF
2,29
1,48
1,74
3,04
1,75
1,87
1,45
1,76
Ainda podemos adicionar os termos de interação: x1*x2, x1*x3, x1*x4, x2*x3, x2*x4,
x3*x4. Os resíduos melhoram, mas o modelo fica extremamente complexo. Usaremos
uma dica muito boa do Box e Draper: quando o quociente entre o valor máximo e
mínimo da variável resposta for maior do que 4-5, pense em transformar a resposta
para obter um modelo mais simples (parcimonioso). Neste caso o quociente entre o
máximo tempo de sobrevivência (830) e o mínimo (34) é 24 (= 830/24).
Para transformar os dados usamos o botão “Opções” e selecionamos Transformação
de Box-Cox = λ ideal. Deixamos no modelo somente os termos x1, x2, x3 e x4 e
eliminamos a codificação dos xs. Pedimos novamente os gráficos de resíduos. Veja os
resultados na Tabela 2.4 (R2 ajustado e R2 de previsão ótimos e ainda podemos
eliminar mais um termo do modelo). O gráfico de resíduos da Figura 2.8 mostra os
resíduos bem comportados.
Tabela 2.4 – Resultados da regressão múltipla com transformação da resposta
(λ = 0, transformação ln)
Análise de Regressão: Tempo sobrevivência versus x1; x2; x3; x4
Sumário do Modelo para Resposta Transformada
S
0,108997
R2
97,24%
R2(aj)
97,01%
R2(pred)
96,33%
Coeficientes para Resposta Transformada
Termo
Constante
x1
x2
x3
x4
Coef
1,125
0,1578
0,02131
0,021816
0,0044
EP de Coef
0,116
0,0125
0,00101
0,000913
0,0224
Valor T
9,73
12,60
21,19
23,91
0,20
Valor-P
0,000
0,000
0,000
0,000
0,844
VIF
1,80
1,29
1,68
2,56
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
50
Gráficos de Resíduo de Tempo sobrevivência
Versus Ajustados
Resíduos Padronizados
Gráfico de probabilidade normal
90
50
10
1
-2
0
2
4
Frequência
0,0
-1,5
-3,0
4
5
6
Histograma
Versus Ordem
15
10
5
-2
1,5
Valor ajustado
20
0
3,0
Resíduos Padronizados
Resíduos Padronizados
Percentual
99
-1
0
1
2
3
Resíduos Padronizados
7
3,0
1,5
0,0
-1,5
-3,0
1
5
10
15
20
25
30
35
40
45
50
Ordem de Observação
Figura 2.8 – Gráficos dos resíduos. Comportamento ok para a variável transformada
.
.
.
.
.
.
.
.
M. I. Domenech. Rua Lord Cockrane, 616 sala: 609/610 – Ipiranga – São Paulo – SP – 04213-001 – Brasil
Pabx: (11) 3459-5101 — www.midomenech.com.br e-mail: [email protected]
Download