Apresentação do PowerPoint

Propaganda
Modelos de Regressão
O que é um modelo?
O que é um modelo?
Nº de novos casos de síndrome
de Down por ano
Distribuição do ácido úrico
.4
0,4
.3
0,3
.2
0,2
.1
0,1
0
-4
-3
-2
-1
0
0
1
n!
P  X =k =
k !n−k !
2
3
4
k
 n−k 
p 1− p 
f  x =
1
s  2p
0
x
1
−
e
2
3
1
2s
2
4
 x −m 2
Modelos de Regressão
1.5
1.5
1
1
0.5
0.5
0
0
-0.5 0
5
10
15
20
25
-0.5 0
-1
-1
-1.5
-1.5
5
10
15
20
25
Modelos de Regressão freqüentemente usados
●
●
●
●
Regressão Linear
 Análise de variância
 Análise de Covariância
Regressão Logística
Modelos de Hazard Proporcional (Análise
de sobrevida)
Regressão de Poisson (Taxas de Incidência
baseadas em pessoa-tempo)
Modelos de Regressão segundo os tipos
de variável dependente e independente
V a r iá v e l d e p e n d e n te
c o n tín u a
c a te g ó r ic a
v a r iá v e is in d e p e n d e n te s
v a r iá v e is in d e p e n d e n te s
c o n tín u a s
c a te g ó r ic a s
c o n tín u a s
+
c a te g ó r ic a s
d e p e n d e n te d o te m p o
c a te g ó r ic a s
ou
c o n tín u a s
n ã o d e p e n d e n te d o te m p o
R e g r e s s ã o L in e a r
e /o u
C o r r e la ç ã o
ANO VA
ANCO VA
A n á lis e d e S o b r e v id a
R e g r e s s ã o L o g ís tic a
Análise de Regressão
Introdução
Análise de Regressão é uma técnica estatística para avaliar a relação de
uma ou mais variáveis independentes X1, X2, ..., Xk, com uma única
variável dependente contínua Y.
É uma análise apropriada para diferentes situações que podem se sobrepor:
•
•
Olhar a tendência – Caracterizar a relação entre a variável dependente Y e
as variáveis independentes X1, X2, ...,Xk olhando a direção, a extensão, e a
força da associação.
Ajuste de uma curva – Determinar o melhor modelo matemático (equação
ou fórmula matemática) que descreva a relação da variável dependente Y
como função das variáveis independentes X1, X2, ...,Xk.
•
Determinar qual ou quais variáveis independentes X1, X2, ...,Xk, são
•
•
•
importantes para descrever o comportamento da variável Y.
Fazer ajuste para controlar o efeito de variáveis de confundimento ou de
interação
Predição do comportamento de Y a partir das variáveis X1, X2, ...,Xk.
Obter curvas padronizadas para usar como referência (pediatria – alt x peso)
 Muitos fenômenos biológicos podem ser explicados por meio
de modelos matemáticos.
 Em um experimento, é útil pensar as observações como
medidas compostas de um sinal e um ruído e construir
modelos matemáticos que incorporam ambos os
componentes. O sinal é considerado como o componente
determinístico e o ruído é o componente aleatório.
 Assim, um modelo matemático de dados que combina sinal e
ruído é probabilístico e é chamado de modelo estatístico.
 Outra maneira de pensar um modelo estatístico é considerar o
sinal como a descrição matemática das principais
características dos dados e o ruído como todas as
características não explicadas pelo modelo, isto é, pelo seu
componente determinístico.
Regressão linear
O problema
 Dada uma amostra de n indivíduos, foi observado para cada um
os valores das variáveis X (explicativa) e Y (dependente).
 Temos, então, n pares de observações (X1, Y1), (X2 Y2), ..., (Xn,
Yn), onde os subscritos referem-se a cada indivíduo.
 Cada par de valores pode ser representado em um espaço
bidimensional, em um gráfico denominado diagrama de
espalhamento ou de dispersão (scatter plot).
 A figura ilustra uma relação quase perfeitamente linear entre nº.
de cigarros por dia e Ca. de laringe.
 A linha que representa os pontos é uma reta de regressão,
significando que ela estima os valores médios para a variável Y
(escala vertical) de acordo com valores da variável X (nas
abscissas).
 Raramente os dados em pesquisas epidemiológicas seguem um
padrão tão evidente.
 Neste caso, é uma regressão simples, porque pode ser descrita por
uma única variável independente, cuja equação é:
Y=α +β X+ε .
α → intercepto (valor de Y quando X = 0).
β → coeficiente de X e descreve a inclinação da reta → representa a
quantidade de aumento em Y para um aumento de 1 unidade de
X.
ε  componente de ruído
 Na figura, Y é a taxa de mortalidade padronizada por idade
para Ca. de laringe e X é o N°. de cigarros fumados por dia. A
equação para a reta de regressão da figura é :
Y = 1,15 + 0,282 X.
 Estes valores (Y) referem-se a mortes por 10000 pessoas-ano.
 O intercepto (1,15) representa o N°. de mortes por 10000
pessoas-ano que são estimadas ocorrerem na ausência de fumo.
 Existe uma observação direta para taxa para o nível 0 de fumo,
que é 0,6 mortes por 10000 pessoas-ano. A reta de regressão
estimou um valor um pouco maior (1,15) do que é observado.
Esta estimativa é baseada não somente no ponto relativo a um
não fumante, mas nos 5 pontos do conjunto.
 A inclinação da reta de regressão de 0,282 indica que o nº. de
mortes por 10000 pessoas-ano é estimado aumentar em 0,282 a
cada cigarro a mais fumado diariamente.
Supondo que todos os confundimentos e vieses tenham sido
administrados apropriadamente, a inclinação 0,282 quantifica o
efeito do cigarro na morte por Ca. de laringe. A reta de regressão
também nos permite estimar as razões de taxas de mortalidade
para diferentes níveis de fumo.
Exemplo:
a taxa de mortalidade pode ser estimada para 50 cigarros por dia
(equivalente a 2,5 maços por dia) → 15,2. Comparado com a taxa
estimada entre os não fumantes de 1,15, a razão de taxas para os
que fumam 2,5 maços por dia é 15,2 / 1,15 = 13,1.
O coeficiente de regressão indica um forte efeito do fumo na
mortalidade por Ca. de laringe.
Y 50 = 1,15 + 0,282 x 50 = 15,2
Y 0 = 1,15 + 0,282 x 0 = 1,15
15,2 / 1,15 = 13,1
 Outro exemplo: Idade e pressão arterial sistólica
(PAS) de 30 indivíduos.
Duas questões básicas devem ser consideradas em qualquer
análise de regressão:
 Qual é o modelo matemático mais apropriado a ser
utilizado → linha reta, parábola, função log etc.?
 Dado um modelo específico, como será determinado o
melhor ajuste do modelo aos dados? Ou seja, se o modelo
for uma reta, como encontraremos a melhor reta que se
ajusta aos pontos?
PAS x idade
180
180
160
160
PAS (mmHg)
PAS (mmHg)
PAS x idade
140
120
100
140
120
100
10
30
50
idade (anos)
70
10
30
50
idade (anos)
70
 A PAS "depende" da idade do indivíduo.
 Podemos dizer que a PAS é a variável dependente e a idade é
a variável independente.
 O gráfico, chamado de diagrama de dispersão, ajuda a entender
a relação.
 O gráfico mostra que os dados se distribuem em torno de uma
linha reta. Podemos encontrar qual a reta que melhor se adequa
aos dados e descrever sua equação, que seria o modelo para os
dados.
 Este método chama-se de ajustar uma regressão linear simples
ao conjunto de dados.
 Se a reta ajustada captar bem o padrão dos dados, poderemos
tê-la como o modelo da relação entre PAS e idade.
 Podemos, então, predizer diferentes valores de PAS para
diferentes idades.
Ajuste de uma regressão linear simples
 Qual é a melhor reta que descreve a relação?
 Se os pontos estivessem alinhados, não haveria dúvidas quanto
à melhor reta.
 Na prática, temos uma nuvem de pontos, onde caberiam uma
infinidade de retas.
 Como a reta será ajustada usando os dados de uma amostra e
não de toda a população, temos que nos haver com a questão
estatística de estimação de parâmetros. Quais são eles?

Equação da reta:
Y=α +β X
Equação da reta:
Y=α +β X
 Se Y é uma variável aleatória, pode-se descrever Y em
função de X , por meio de um modelo, onde α e β são
parâmetros e ε é o erro aleatório.
Y=α +β X+ε
 Erro aleatório  é a distância ou diferença entre o valor
observado (resposta) para o indivíduo e o valor obtido
pela reta de regressão
 Os valores
α e β
e β da reta.
são estimadores dos parâmetros α
Regressão Linear Simples
y = α
β x
i
1
1
comp . det er min ística
y=
i
εi


,
ε ~ N  0, σ
i
2

comp . aleatória
x1

5  2∗
comp . det er min ística
y =α
β x
i
1
1
Métodos de Estimação dos parâmetros
Método de Mínimos
Quadrados
y = 2x+1
13
y
11
9
7
2 unid
5
3
1
-3
-2
-1
-1 0
1
2
3
-3
1 unid
Taxa/variação  a cada aumento de 1 unidade em x,
tenho variação de β unidades em y.
4
5
6
x
Propriedades Matemáticas da Reta
Coeficiente angular inclinação
y 20
y = f(x) = -2x + 1
15
y = f(x) = -x + 1
10
y = f(x) = 0,5x + 1
5
y = f(x) = x + 1
y = f(x) = 2x + 1
y = f(x) = 3x + 1
0
-3
-1
-5
1
3
5
x
-10
-15
Quanto maior o valor de β  maior a inclinaçãoda reta
Coef. Linear/deslocamento/intercepto:
y = f(x) = x - 2
y = f(x) = x - 1
y = f(x) = x
y = f(x) = x + 0,5
y = f(x) = x + 1
y = f(x) = x + 2
y8
6
4
2
0
-4
-2
-2 0
-4
2
4
6
x
-6
A (inclinação) é a mesma.
Quanto maior o coeficiente linear (α ), maior é o
deslocamento vertical (intercepto / patamar inicial) em y.
Pressupostos básicos
Para o ajuste de uma regressão linear simples a um conjunto de
dados é necessário fazer algumas pressuposições.
5. A relação entre as duas variáveis é linear
• Só deve ser usada a reta para descrever um fenômeno se, no
intervalo estudado, a relação entre as duas variáveis puder
ser expressa por uma reta.
• Para estabelecer o modelo que descreve o fenômeno, existem
2 procedimentos alternativos: ou existe uma teoria que
fornece a equação ou "procura-se" a equação, olhando os
dados (ou gráfico).
• Não existe um modelo teórico que explique como a PAS
aumenta com a idade. A relação linear parece perfeitamente
aceitável.
6. Os valores de X são fixos, isto é, não é variável aleatória
Pressupostos básicos (cont...)
•
A variabilidade de Y, para qualquer valor dado de X, é sempre a
mesma  homocedasticidade.
Quantidade de procaína
hidrolisada (moles/l) no plasma
sangüíneo em determinados
instantes de tempo
Tempo de corrida (s) em
função do percurso em metros
 variância crescente
Pressupostos básicos (cont...)
3. O erro de uma observação não está correlacionado com o erro de
outra observação.
Ou seja, as observações são independentes
Mais de uma observação de um mesmo indivíduo 
dependência
•
•
4. Para qualquer dado valor de X, os valores de Y têm distribuição
normal.
) têm distribuição normal
• Os desvios ( Y −Y
¿
¿
i
i
5. As observações representam uma amostra aleatória
 Importância de ser representativa)
 Outras técnicas de amostragem:
Estratificada  considerar peso das observações
Cluster  corrigir o erro padrão das estimativas
•
•
Homocedasticidade
Distribuição normal dos erros
Determinando a reta de melhor ajuste
Estimativas dos parâmetros
O método mais simples é ajustar "no olho", porém é extremamente
subjetivo e impreciso. Existem soluções analíticas para o ajuste.
Método dos mínimos quadrados
A melhor reta é a que minimiza a soma dos quadrados das distâncias
verticais (diag. espalhamento) entre a observação e a reta ajustada.
As distâncias verticais correspondem à diferença entre o valor
observado para Y e o valor estimado, segundo o modelo da reta.
Matematicamente, o método dos mínimos quadrados é descrito
como a seguir:
Sendo:
Y =α  β X
i
i
estimativa da resposta (Y) para o valor Xi, baseado
no modelo, ou seja, na reta de regressão.
Na reta de regressão, ou modelo:
α e β
(Xi, Yi)
 são o intercepto e a inclinação da reta ajustada.
 ponto observado
A distância vertical entre o ponto observado (Yi) e o ponto
correspondente (ao valor de Xi) na reta de regressão ( Y ) é chamado
de erro ε i, e é dado por:
i

¿
X

¿


¿
i
∣
β
¿
=
ε
Y
i
− α
¿
i
=Y
¿
i
−Y
i
A soma dos quadrados dos erros ou resíduos (distâncias entre o
observado e o estimado) é dado por:
¿

X

¿−
 Y
i
i

2
β
n

¿
 Y
−Y
SSE
i
α
−
¿
i
2 = ∑
¿
i =1
n
¿ =∑
¿
i= 1
¿
A solução via o método dos mínimos quadrados é a escolha de α e β
para os quais a soma dos quadrados descritos acima seja mínima.
No jargão estatístico, α e β são ditos estimadores de mínimos
quadrados para os parâmetros α e β da população.
O valor mínimo da soma dos quadrados dos erros SSE → é uma
medida de grande importância para avaliação da qualidade do ajuste
da reta.
Solução para o problema do melhor ajuste
Dados:
Y : a média dos valores observados da variável dependente Y
X : a média dos valores observados da variável independente X
n
∑
¿ =
¿
¿
 X − X   Y −Y 
i
i =1
n
∑
i =1
i
¿

¿
¿ =Y − β
¿
2
 X −X 
i
¿
α
¿
β
¿
A equação da reta pode ser generalizada como:
Y =α  β x
i
i

¿ X
Substituindo α
Interpretação + “real”
centrando X na média 
PAS para as pessoas
com idade
¿
¿
Y =Y  β X −X 
Utilizando os dados da tabela de PAS e idade, podemos calcular a
reta que melhor se ajusta aos dados, ou seja a reta estimada.
 =98 , 710, 97 X
¿
Y
¿
Existe um ponto distoante, cuja
retirada deve ser bem avaliada.
Retirando o ponto distoante:
 =98 , 080, 95 X
¿
Y
¿
PAS (mmHg)
PAS x idade
240
220
200
180
160
140
120
100
10
30
50
idade (anos)
70
Inferência sobre a inclinação da reta (β ) e sobre o intercepto
(α )
A força da relação entre duas variáveis (uma resposta e uma
variável independente) é medida pela inclinação ou β .
Para avaliar se a reta ajustada auxilia na predição de Y a partir de X,
e para levar em consideração as incertezas devidas a estar-se
utilizando um conjunto de observações (amostra) para estimarmos a
reta → é uma prática padrão calcularmos o intervalo de confiança ou
o teste estatístico de hipóteses sobre os parâmetros desconhecidos do
modelo linear proposto (população).
Considerando que Y tenha distribuição normal, α e β também
terão distribuição normal.
♦Se há relação de X e Y, então β é diferente de zero.
♦O teste T testa a hipótese nula H0 de que a inclinação β é
significativamente diferente de zero.
♦A hipótese mais conservadora é de que a inclinação seja zero, ou
seja, não há associação entre X e Y, H0: β = 0:

¿
β
SE

¿
β
0

¿
β− μβ
= ¿
SE 
¿
β
¿
T =¿
¿
♦Similarmente, para o intercepto, H0: α = 0:

¿
α
SE

¿
α

¿
α − μα
= ¿
SE 
¿
α
T
¿
=¿
¿
♦ O teste T utiliza n-2 graus de liberdade, pois envolve S2, que possui
n - 2 graus de liberdade e é o único componente randômico no
denominador.
♦ Testando a hipótese, a um nível de significância α , rejeita-se H0
quando:
♦|T| ≥ tn-2,1-α /2 para um teste bilateral →
0
H1: β ≠ 0 ou H1: α ≠
♦Onde tn-2,1-α é o percentil 100(1-α )% da distribuição t com n-2 graus de
liberdade
♦Podemos, alternativamente, calcular os p valores baseados no cálculo da
estatística T → resultado de pacotes computacionais.
Grande chance de
acontecer pelo acaso
H0: β = 0
H1: β ≠ 0

¿
β
SE
¿
β
T =¿
¿
A área sob a curva normal contida
α/
2
α/
2
Região de rejeição de Ho
Pouca chance de
acontecer pelo acaso
Região de rejeição de Ho
Região de “aceitação” de Ho
Pouca chance de
acontecer pelo acaso
Interpretação do teste para inclinação e intercepto
Teste para inclinação zero → Ho: β = 0.
♦Se H0: β = 0 NÃO é rejeitada → a inclinação é zero (ou melhor, não é
significativamente diferente de zero); duas interpretações são possíveis:
Supondo que o modelo seja linear, X não ajuda a predizer Y (não
há relação de X e Y).
Há uma relação entre X e Y (X ajuda a predizer Y), porém esta
relação não segue uma reta. O fato da reta ajustada ser zero não
significa necessariamente que não exista relação entre X e Y. O
modelo linear pode não ser apropriado.
Se H0: β = 0 É rejeitada → a inclinação é diferente de zero, duas interpretações
são possíveis:
X ajuda e muito a predizer Y. Há relação entre X e Y.
Pode ser que exista um modelo melhor, por exemplo, um curvilíneo.
Porém, há um componente linear que não deve ser desprezado e deve
ser incluído no modelo final.
♦Combinando as interpretações acima, pode-se dizer que um modelo que inclua a
variável X é melhor do que um modelo que não inclua, porém não necessariamente o
modelo deverá incluir X somente como uma componente linear.
Teste para intercepto zero
♦Ho: α = 0
♦É uma hipótese de menor interesse.
♦De um modo geral, não possui correspondência com a realidade
(idade = 0, PAS = 0).
♦Caso a hipótese NÃO seja rejeitada (α = 0) pode ser apropriado
remover a constante do modelo  discutível.
♦Remover induz a que o modelo passe no ponto (0,0)  saber se faz
sentido.
Inferência sobre a reta de regressão - Intervalo de confiança para a
reta de regressão
Como a reta foi obtida a partir de uma amostra de pontos, ela será a
estimativa pontual da relação das variáveis na população.
Pode ser do interesse considerar a incerteza desta estimativa, com o cálculo do intervalo de confiança para a reta de regressão propriamente dita.
O IC de 95% da reta de regressão quer dizer que, para as possíveis
amostras de pontos, 95% dos intervalos calculados conterão a verdadeira
reta de regressão.
Ou seja, para um determinado valor de X = X0, pode-se querer calcular o
intervalo de confiança para o resultado
estimado, ou seja, para o valor
 ±t n− 2,1−α / 2 S
¿
médio de Y dado o valor X0.
Y
¿
X
Y
¿
X
¿
0
0
Intervalo de confiança para a reta de regressão
A forma mais conveniente de se representar o IC da reta é calcular os
limites superior e inferior de Y para diferentes valores de X, e representar
¿
no mesmo gráfico dos limites
de confiança para a reta de regressão.
i=0,1,2,. .. e usar um valor de k que
Por exemplo, usar X 0 = X ±ik ,
permita que o intervalo de dados de X seja coberto uniformemente.
Dados:
Y : a média dos valores observados da variável dependente Y
X : a média dos valores observados da variável independente X
n
∑
¿ =
¿
¿
 X − X   Y −Y 
i
i =1
n
∑
i =1
i
¿

¿
¿ =Y − β
¿
2
 X −X 
i
¿
α
¿
β
¿
A equação da reta pode ser generalizada como:
Y =α  β x
i
i

¿ X
Substituindo α
Interpretação + “real”
centrando X na média 
PAS para as pessoas
com idade
¿
¿
Y =Y  β X −X 
Intervalo de confiança para a reta de regressão
¿
Para um determinado X = X0, o valor estimado de Y (
ao valor médio de Y para X0.
Y
X
Y
0
) corresponde
0
¿

X
0
¿
T =¿
¿

¿
¿
¿
S
 β
YX
X
¿
0
=Y

¿
 β

X
¿
0
− X


¿
=α ¿
 ¿
¿
 Valor predito de Y para X0
¿
Y
X
0
¿
S
¿
Y
X0
=S Y ∣ X

¿
2
 X 0− X 
1

n
 n −1  S 2X
¿
 ±t n− 2,1− α / 2 S
¿
Y
 estimativa do erro padrão de
¿
YX
Y
¿
X0
¿
0
¿
X
 intervalo de confiança para X = X0
0
¿
Para o cálculo do intervalo de confiança de 90%, para os dados de PAS e idade, a fórmula
fica simplificada para:

 X 0 −45. 13 2
142 .53 0 . 97  X 0−45 .13 ±29. 45 0 . 033
6783. 48
Dif. aumenta nas bordas
Para o cálculo do intervalo de confiança para α e β .
O IC de 100(1-α )% de confiança é dado por:
IC da reta - média
“fx ref.” para indivíduos
Medindo a qualidade do ajuste
♦Uma vez que a reta dos mínimos quadrados é obtida, é de interesse
saber se esta reta ajustada consegue predizer Y e, em conseguindo,
em que medida.
♦A medida que auxilia na resposta a esta questão é o SSE (soma
dos quadrados dos erros ou soma dos quadrados dos resíduos)
n
¿
SSE =∑  Y i −Y i 2
i=1
¿
♦Se SSE
= 0, a reta está perfeitamente ajustada aos pontos, ou seja,
¿
Y i =Y i
para cada i (observação). Cada ponto cai exatamente sobre
¿
a reta de regressão.
♦À medida que o ajuste fica pior, SSE aumenta, uma vez que os
desvios entre os pontos observados e a reta ficam grandes.
Coeficiente de Correlação e a Análise de Regressão Linear
♦É uma estatística bastante utilizada que fornece uma medida da
relação linear entre duas variáveis.
♦Possui propriedades semelhantes às da regressão linear.
♦O coeficiente de correlação entre Y e X é o mesmo que o coeficiente
de correlação entre X e Y, para o mesmo conjunto de observações.
♦Existem vários tipos de coeficientes de correlação (Pearson,
Spearman, phi, etc.). Depende do tipo de variável.
♦O usado com maior freqüência é o coeficiente de correlação de
Pearson. Ele é denotado por ρ XY (ρ = rho) quando calculado a
partir de uma população de observações X, Y, e por rXY quando
calculado a partir de uma amostra de observações X,Y. rXY é um
estimador de ρ XY.
O coeficiente de correlação amostral r é definido como:
SSXY
r
XY
=
∑
SSXY
=
 SSX . SSY
 X − X  Y −Y 
i
i
∑  X − X  ∑  Y −Y 
2
i
2
i
SSY
SSX
A fórmula equivalente para r, que o relaciona com a inclinação da
reta de regressão é dada por:
n
¿
∑
¿ =
i
i =1
i
=
n
∑
¿
 X −X 
β
¿
SSXY
1
2
SSX
SSX
=
1
SSX
=
1
2
. SSY
¿
¿
2
SSXY
SSX
i
i =1
 SSX . SSY 
r
=

¿
SSXY
β
SSX
¿
 X − X   Y −Y 
2
SSY
1
2
1
2

¿
=
SX
SY
SX
⇒ r= β
SY
Propriedades do Coeficiente de Correlação
♦É um índice sem unidades de medida - adimensional.
♦Varia entre –1 e 1

[-1 ≤ rXY ≤ 1]
♦Uma correlação igual a 0 significa falta de relação linear entre X e Y.
♦Uma correlação positiva indica que X e Y estão relacionadas
diretamente, quer dizer que as duas medidas tendem a crescer ou
decrescer juntas
♦Uma correlação negativa indica que X e Y estão relacionadas
inversamente, quer dizer que, à medida que uma variável cresce, a outra
tende a decrescer
♦r = 1 ou r = -1 indicam uma relação linear perfeita entre X e Y
♦De certo modo, é uma medida do grau de dispersão dos pontos em torno
de uma reta: quanto maior a dispersão, menor r
r é a força da relação linear
¿
Caso não tivéssemos nenhuma variável para tentar explicar uma
resposta Y, a melhor predição para Y seria dada pela média ( Y ) dos
valores Yi.
A soma dos quadrados dos desvios associados a este simples preditor
n
¿
seria dado pela fórmula:
SSY =∑ Y i−Y 
i=1
2
Download