Modelos de Regressão O que é um modelo? O que é um modelo? Nº de novos casos de síndrome de Down por ano Distribuição do ácido úrico .4 0,4 .3 0,3 .2 0,2 .1 0,1 0 -4 -3 -2 -1 0 0 1 n! P X =k = k !n−k ! 2 3 4 k n−k p 1− p f x = 1 s 2p 0 x 1 − e 2 3 1 2s 2 4 x −m 2 Modelos de Regressão 1.5 1.5 1 1 0.5 0.5 0 0 -0.5 0 5 10 15 20 25 -0.5 0 -1 -1 -1.5 -1.5 5 10 15 20 25 Modelos de Regressão freqüentemente usados ● ● ● ● Regressão Linear Análise de variância Análise de Covariância Regressão Logística Modelos de Hazard Proporcional (Análise de sobrevida) Regressão de Poisson (Taxas de Incidência baseadas em pessoa-tempo) Modelos de Regressão segundo os tipos de variável dependente e independente V a r iá v e l d e p e n d e n te c o n tín u a c a te g ó r ic a v a r iá v e is in d e p e n d e n te s v a r iá v e is in d e p e n d e n te s c o n tín u a s c a te g ó r ic a s c o n tín u a s + c a te g ó r ic a s d e p e n d e n te d o te m p o c a te g ó r ic a s ou c o n tín u a s n ã o d e p e n d e n te d o te m p o R e g r e s s ã o L in e a r e /o u C o r r e la ç ã o ANO VA ANCO VA A n á lis e d e S o b r e v id a R e g r e s s ã o L o g ís tic a Análise de Regressão Introdução Análise de Regressão é uma técnica estatística para avaliar a relação de uma ou mais variáveis independentes X1, X2, ..., Xk, com uma única variável dependente contínua Y. É uma análise apropriada para diferentes situações que podem se sobrepor: • • Olhar a tendência – Caracterizar a relação entre a variável dependente Y e as variáveis independentes X1, X2, ...,Xk olhando a direção, a extensão, e a força da associação. Ajuste de uma curva – Determinar o melhor modelo matemático (equação ou fórmula matemática) que descreva a relação da variável dependente Y como função das variáveis independentes X1, X2, ...,Xk. • Determinar qual ou quais variáveis independentes X1, X2, ...,Xk, são • • • importantes para descrever o comportamento da variável Y. Fazer ajuste para controlar o efeito de variáveis de confundimento ou de interação Predição do comportamento de Y a partir das variáveis X1, X2, ...,Xk. Obter curvas padronizadas para usar como referência (pediatria – alt x peso) Muitos fenômenos biológicos podem ser explicados por meio de modelos matemáticos. Em um experimento, é útil pensar as observações como medidas compostas de um sinal e um ruído e construir modelos matemáticos que incorporam ambos os componentes. O sinal é considerado como o componente determinístico e o ruído é o componente aleatório. Assim, um modelo matemático de dados que combina sinal e ruído é probabilístico e é chamado de modelo estatístico. Outra maneira de pensar um modelo estatístico é considerar o sinal como a descrição matemática das principais características dos dados e o ruído como todas as características não explicadas pelo modelo, isto é, pelo seu componente determinístico. Regressão linear O problema Dada uma amostra de n indivíduos, foi observado para cada um os valores das variáveis X (explicativa) e Y (dependente). Temos, então, n pares de observações (X1, Y1), (X2 Y2), ..., (Xn, Yn), onde os subscritos referem-se a cada indivíduo. Cada par de valores pode ser representado em um espaço bidimensional, em um gráfico denominado diagrama de espalhamento ou de dispersão (scatter plot). A figura ilustra uma relação quase perfeitamente linear entre nº. de cigarros por dia e Ca. de laringe. A linha que representa os pontos é uma reta de regressão, significando que ela estima os valores médios para a variável Y (escala vertical) de acordo com valores da variável X (nas abscissas). Raramente os dados em pesquisas epidemiológicas seguem um padrão tão evidente. Neste caso, é uma regressão simples, porque pode ser descrita por uma única variável independente, cuja equação é: Y=α +β X+ε . α → intercepto (valor de Y quando X = 0). β → coeficiente de X e descreve a inclinação da reta → representa a quantidade de aumento em Y para um aumento de 1 unidade de X. ε componente de ruído Na figura, Y é a taxa de mortalidade padronizada por idade para Ca. de laringe e X é o N°. de cigarros fumados por dia. A equação para a reta de regressão da figura é : Y = 1,15 + 0,282 X. Estes valores (Y) referem-se a mortes por 10000 pessoas-ano. O intercepto (1,15) representa o N°. de mortes por 10000 pessoas-ano que são estimadas ocorrerem na ausência de fumo. Existe uma observação direta para taxa para o nível 0 de fumo, que é 0,6 mortes por 10000 pessoas-ano. A reta de regressão estimou um valor um pouco maior (1,15) do que é observado. Esta estimativa é baseada não somente no ponto relativo a um não fumante, mas nos 5 pontos do conjunto. A inclinação da reta de regressão de 0,282 indica que o nº. de mortes por 10000 pessoas-ano é estimado aumentar em 0,282 a cada cigarro a mais fumado diariamente. Supondo que todos os confundimentos e vieses tenham sido administrados apropriadamente, a inclinação 0,282 quantifica o efeito do cigarro na morte por Ca. de laringe. A reta de regressão também nos permite estimar as razões de taxas de mortalidade para diferentes níveis de fumo. Exemplo: a taxa de mortalidade pode ser estimada para 50 cigarros por dia (equivalente a 2,5 maços por dia) → 15,2. Comparado com a taxa estimada entre os não fumantes de 1,15, a razão de taxas para os que fumam 2,5 maços por dia é 15,2 / 1,15 = 13,1. O coeficiente de regressão indica um forte efeito do fumo na mortalidade por Ca. de laringe. Y 50 = 1,15 + 0,282 x 50 = 15,2 Y 0 = 1,15 + 0,282 x 0 = 1,15 15,2 / 1,15 = 13,1 Outro exemplo: Idade e pressão arterial sistólica (PAS) de 30 indivíduos. Duas questões básicas devem ser consideradas em qualquer análise de regressão: Qual é o modelo matemático mais apropriado a ser utilizado → linha reta, parábola, função log etc.? Dado um modelo específico, como será determinado o melhor ajuste do modelo aos dados? Ou seja, se o modelo for uma reta, como encontraremos a melhor reta que se ajusta aos pontos? PAS x idade 180 180 160 160 PAS (mmHg) PAS (mmHg) PAS x idade 140 120 100 140 120 100 10 30 50 idade (anos) 70 10 30 50 idade (anos) 70 A PAS "depende" da idade do indivíduo. Podemos dizer que a PAS é a variável dependente e a idade é a variável independente. O gráfico, chamado de diagrama de dispersão, ajuda a entender a relação. O gráfico mostra que os dados se distribuem em torno de uma linha reta. Podemos encontrar qual a reta que melhor se adequa aos dados e descrever sua equação, que seria o modelo para os dados. Este método chama-se de ajustar uma regressão linear simples ao conjunto de dados. Se a reta ajustada captar bem o padrão dos dados, poderemos tê-la como o modelo da relação entre PAS e idade. Podemos, então, predizer diferentes valores de PAS para diferentes idades. Ajuste de uma regressão linear simples Qual é a melhor reta que descreve a relação? Se os pontos estivessem alinhados, não haveria dúvidas quanto à melhor reta. Na prática, temos uma nuvem de pontos, onde caberiam uma infinidade de retas. Como a reta será ajustada usando os dados de uma amostra e não de toda a população, temos que nos haver com a questão estatística de estimação de parâmetros. Quais são eles? Equação da reta: Y=α +β X Equação da reta: Y=α +β X Se Y é uma variável aleatória, pode-se descrever Y em função de X , por meio de um modelo, onde α e β são parâmetros e ε é o erro aleatório. Y=α +β X+ε Erro aleatório é a distância ou diferença entre o valor observado (resposta) para o indivíduo e o valor obtido pela reta de regressão Os valores α e β e β da reta. são estimadores dos parâmetros α Regressão Linear Simples y = α β x i 1 1 comp . det er min ística y= i εi , ε ~ N 0, σ i 2 comp . aleatória x1 5 2∗ comp . det er min ística y =α β x i 1 1 Métodos de Estimação dos parâmetros Método de Mínimos Quadrados y = 2x+1 13 y 11 9 7 2 unid 5 3 1 -3 -2 -1 -1 0 1 2 3 -3 1 unid Taxa/variação a cada aumento de 1 unidade em x, tenho variação de β unidades em y. 4 5 6 x Propriedades Matemáticas da Reta Coeficiente angular inclinação y 20 y = f(x) = -2x + 1 15 y = f(x) = -x + 1 10 y = f(x) = 0,5x + 1 5 y = f(x) = x + 1 y = f(x) = 2x + 1 y = f(x) = 3x + 1 0 -3 -1 -5 1 3 5 x -10 -15 Quanto maior o valor de β maior a inclinaçãoda reta Coef. Linear/deslocamento/intercepto: y = f(x) = x - 2 y = f(x) = x - 1 y = f(x) = x y = f(x) = x + 0,5 y = f(x) = x + 1 y = f(x) = x + 2 y8 6 4 2 0 -4 -2 -2 0 -4 2 4 6 x -6 A (inclinação) é a mesma. Quanto maior o coeficiente linear (α ), maior é o deslocamento vertical (intercepto / patamar inicial) em y. Pressupostos básicos Para o ajuste de uma regressão linear simples a um conjunto de dados é necessário fazer algumas pressuposições. 5. A relação entre as duas variáveis é linear • Só deve ser usada a reta para descrever um fenômeno se, no intervalo estudado, a relação entre as duas variáveis puder ser expressa por uma reta. • Para estabelecer o modelo que descreve o fenômeno, existem 2 procedimentos alternativos: ou existe uma teoria que fornece a equação ou "procura-se" a equação, olhando os dados (ou gráfico). • Não existe um modelo teórico que explique como a PAS aumenta com a idade. A relação linear parece perfeitamente aceitável. 6. Os valores de X são fixos, isto é, não é variável aleatória Pressupostos básicos (cont...) • A variabilidade de Y, para qualquer valor dado de X, é sempre a mesma homocedasticidade. Quantidade de procaína hidrolisada (moles/l) no plasma sangüíneo em determinados instantes de tempo Tempo de corrida (s) em função do percurso em metros variância crescente Pressupostos básicos (cont...) 3. O erro de uma observação não está correlacionado com o erro de outra observação. Ou seja, as observações são independentes Mais de uma observação de um mesmo indivíduo dependência • • 4. Para qualquer dado valor de X, os valores de Y têm distribuição normal. ) têm distribuição normal • Os desvios ( Y −Y ¿ ¿ i i 5. As observações representam uma amostra aleatória Importância de ser representativa) Outras técnicas de amostragem: Estratificada considerar peso das observações Cluster corrigir o erro padrão das estimativas • • Homocedasticidade Distribuição normal dos erros Determinando a reta de melhor ajuste Estimativas dos parâmetros O método mais simples é ajustar "no olho", porém é extremamente subjetivo e impreciso. Existem soluções analíticas para o ajuste. Método dos mínimos quadrados A melhor reta é a que minimiza a soma dos quadrados das distâncias verticais (diag. espalhamento) entre a observação e a reta ajustada. As distâncias verticais correspondem à diferença entre o valor observado para Y e o valor estimado, segundo o modelo da reta. Matematicamente, o método dos mínimos quadrados é descrito como a seguir: Sendo: Y =α β X i i estimativa da resposta (Y) para o valor Xi, baseado no modelo, ou seja, na reta de regressão. Na reta de regressão, ou modelo: α e β (Xi, Yi) são o intercepto e a inclinação da reta ajustada. ponto observado A distância vertical entre o ponto observado (Yi) e o ponto correspondente (ao valor de Xi) na reta de regressão ( Y ) é chamado de erro ε i, e é dado por: i ¿ X ¿ ¿ i ∣ β ¿ = ε Y i − α ¿ i =Y ¿ i −Y i A soma dos quadrados dos erros ou resíduos (distâncias entre o observado e o estimado) é dado por: ¿ X ¿− Y i i 2 β n ¿ Y −Y SSE i α − ¿ i 2 = ∑ ¿ i =1 n ¿ =∑ ¿ i= 1 ¿ A solução via o método dos mínimos quadrados é a escolha de α e β para os quais a soma dos quadrados descritos acima seja mínima. No jargão estatístico, α e β são ditos estimadores de mínimos quadrados para os parâmetros α e β da população. O valor mínimo da soma dos quadrados dos erros SSE → é uma medida de grande importância para avaliação da qualidade do ajuste da reta. Solução para o problema do melhor ajuste Dados: Y : a média dos valores observados da variável dependente Y X : a média dos valores observados da variável independente X n ∑ ¿ = ¿ ¿ X − X Y −Y i i =1 n ∑ i =1 i ¿ ¿ ¿ =Y − β ¿ 2 X −X i ¿ α ¿ β ¿ A equação da reta pode ser generalizada como: Y =α β x i i ¿ X Substituindo α Interpretação + “real” centrando X na média PAS para as pessoas com idade ¿ ¿ Y =Y β X −X Utilizando os dados da tabela de PAS e idade, podemos calcular a reta que melhor se ajusta aos dados, ou seja a reta estimada. =98 , 710, 97 X ¿ Y ¿ Existe um ponto distoante, cuja retirada deve ser bem avaliada. Retirando o ponto distoante: =98 , 080, 95 X ¿ Y ¿ PAS (mmHg) PAS x idade 240 220 200 180 160 140 120 100 10 30 50 idade (anos) 70 Inferência sobre a inclinação da reta (β ) e sobre o intercepto (α ) A força da relação entre duas variáveis (uma resposta e uma variável independente) é medida pela inclinação ou β . Para avaliar se a reta ajustada auxilia na predição de Y a partir de X, e para levar em consideração as incertezas devidas a estar-se utilizando um conjunto de observações (amostra) para estimarmos a reta → é uma prática padrão calcularmos o intervalo de confiança ou o teste estatístico de hipóteses sobre os parâmetros desconhecidos do modelo linear proposto (população). Considerando que Y tenha distribuição normal, α e β também terão distribuição normal. ♦Se há relação de X e Y, então β é diferente de zero. ♦O teste T testa a hipótese nula H0 de que a inclinação β é significativamente diferente de zero. ♦A hipótese mais conservadora é de que a inclinação seja zero, ou seja, não há associação entre X e Y, H0: β = 0: ¿ β SE ¿ β 0 ¿ β− μβ = ¿ SE ¿ β ¿ T =¿ ¿ ♦Similarmente, para o intercepto, H0: α = 0: ¿ α SE ¿ α ¿ α − μα = ¿ SE ¿ α T ¿ =¿ ¿ ♦ O teste T utiliza n-2 graus de liberdade, pois envolve S2, que possui n - 2 graus de liberdade e é o único componente randômico no denominador. ♦ Testando a hipótese, a um nível de significância α , rejeita-se H0 quando: ♦|T| ≥ tn-2,1-α /2 para um teste bilateral → 0 H1: β ≠ 0 ou H1: α ≠ ♦Onde tn-2,1-α é o percentil 100(1-α )% da distribuição t com n-2 graus de liberdade ♦Podemos, alternativamente, calcular os p valores baseados no cálculo da estatística T → resultado de pacotes computacionais. Grande chance de acontecer pelo acaso H0: β = 0 H1: β ≠ 0 ¿ β SE ¿ β T =¿ ¿ A área sob a curva normal contida α/ 2 α/ 2 Região de rejeição de Ho Pouca chance de acontecer pelo acaso Região de rejeição de Ho Região de “aceitação” de Ho Pouca chance de acontecer pelo acaso Interpretação do teste para inclinação e intercepto Teste para inclinação zero → Ho: β = 0. ♦Se H0: β = 0 NÃO é rejeitada → a inclinação é zero (ou melhor, não é significativamente diferente de zero); duas interpretações são possíveis: Supondo que o modelo seja linear, X não ajuda a predizer Y (não há relação de X e Y). Há uma relação entre X e Y (X ajuda a predizer Y), porém esta relação não segue uma reta. O fato da reta ajustada ser zero não significa necessariamente que não exista relação entre X e Y. O modelo linear pode não ser apropriado. Se H0: β = 0 É rejeitada → a inclinação é diferente de zero, duas interpretações são possíveis: X ajuda e muito a predizer Y. Há relação entre X e Y. Pode ser que exista um modelo melhor, por exemplo, um curvilíneo. Porém, há um componente linear que não deve ser desprezado e deve ser incluído no modelo final. ♦Combinando as interpretações acima, pode-se dizer que um modelo que inclua a variável X é melhor do que um modelo que não inclua, porém não necessariamente o modelo deverá incluir X somente como uma componente linear. Teste para intercepto zero ♦Ho: α = 0 ♦É uma hipótese de menor interesse. ♦De um modo geral, não possui correspondência com a realidade (idade = 0, PAS = 0). ♦Caso a hipótese NÃO seja rejeitada (α = 0) pode ser apropriado remover a constante do modelo discutível. ♦Remover induz a que o modelo passe no ponto (0,0) saber se faz sentido. Inferência sobre a reta de regressão - Intervalo de confiança para a reta de regressão Como a reta foi obtida a partir de uma amostra de pontos, ela será a estimativa pontual da relação das variáveis na população. Pode ser do interesse considerar a incerteza desta estimativa, com o cálculo do intervalo de confiança para a reta de regressão propriamente dita. O IC de 95% da reta de regressão quer dizer que, para as possíveis amostras de pontos, 95% dos intervalos calculados conterão a verdadeira reta de regressão. Ou seja, para um determinado valor de X = X0, pode-se querer calcular o intervalo de confiança para o resultado estimado, ou seja, para o valor ±t n− 2,1−α / 2 S ¿ médio de Y dado o valor X0. Y ¿ X Y ¿ X ¿ 0 0 Intervalo de confiança para a reta de regressão A forma mais conveniente de se representar o IC da reta é calcular os limites superior e inferior de Y para diferentes valores de X, e representar ¿ no mesmo gráfico dos limites de confiança para a reta de regressão. i=0,1,2,. .. e usar um valor de k que Por exemplo, usar X 0 = X ±ik , permita que o intervalo de dados de X seja coberto uniformemente. Dados: Y : a média dos valores observados da variável dependente Y X : a média dos valores observados da variável independente X n ∑ ¿ = ¿ ¿ X − X Y −Y i i =1 n ∑ i =1 i ¿ ¿ ¿ =Y − β ¿ 2 X −X i ¿ α ¿ β ¿ A equação da reta pode ser generalizada como: Y =α β x i i ¿ X Substituindo α Interpretação + “real” centrando X na média PAS para as pessoas com idade ¿ ¿ Y =Y β X −X Intervalo de confiança para a reta de regressão ¿ Para um determinado X = X0, o valor estimado de Y ( ao valor médio de Y para X0. Y X Y 0 ) corresponde 0 ¿ X 0 ¿ T =¿ ¿ ¿ ¿ ¿ S β YX X ¿ 0 =Y ¿ β X ¿ 0 − X ¿ =α ¿ ¿ ¿ Valor predito de Y para X0 ¿ Y X 0 ¿ S ¿ Y X0 =S Y ∣ X ¿ 2 X 0− X 1 n n −1 S 2X ¿ ±t n− 2,1− α / 2 S ¿ Y estimativa do erro padrão de ¿ YX Y ¿ X0 ¿ 0 ¿ X intervalo de confiança para X = X0 0 ¿ Para o cálculo do intervalo de confiança de 90%, para os dados de PAS e idade, a fórmula fica simplificada para: X 0 −45. 13 2 142 .53 0 . 97 X 0−45 .13 ±29. 45 0 . 033 6783. 48 Dif. aumenta nas bordas Para o cálculo do intervalo de confiança para α e β . O IC de 100(1-α )% de confiança é dado por: IC da reta - média “fx ref.” para indivíduos Medindo a qualidade do ajuste ♦Uma vez que a reta dos mínimos quadrados é obtida, é de interesse saber se esta reta ajustada consegue predizer Y e, em conseguindo, em que medida. ♦A medida que auxilia na resposta a esta questão é o SSE (soma dos quadrados dos erros ou soma dos quadrados dos resíduos) n ¿ SSE =∑ Y i −Y i 2 i=1 ¿ ♦Se SSE = 0, a reta está perfeitamente ajustada aos pontos, ou seja, ¿ Y i =Y i para cada i (observação). Cada ponto cai exatamente sobre ¿ a reta de regressão. ♦À medida que o ajuste fica pior, SSE aumenta, uma vez que os desvios entre os pontos observados e a reta ficam grandes. Coeficiente de Correlação e a Análise de Regressão Linear ♦É uma estatística bastante utilizada que fornece uma medida da relação linear entre duas variáveis. ♦Possui propriedades semelhantes às da regressão linear. ♦O coeficiente de correlação entre Y e X é o mesmo que o coeficiente de correlação entre X e Y, para o mesmo conjunto de observações. ♦Existem vários tipos de coeficientes de correlação (Pearson, Spearman, phi, etc.). Depende do tipo de variável. ♦O usado com maior freqüência é o coeficiente de correlação de Pearson. Ele é denotado por ρ XY (ρ = rho) quando calculado a partir de uma população de observações X, Y, e por rXY quando calculado a partir de uma amostra de observações X,Y. rXY é um estimador de ρ XY. O coeficiente de correlação amostral r é definido como: SSXY r XY = ∑ SSXY = SSX . SSY X − X Y −Y i i ∑ X − X ∑ Y −Y 2 i 2 i SSY SSX A fórmula equivalente para r, que o relaciona com a inclinação da reta de regressão é dada por: n ¿ ∑ ¿ = i i =1 i = n ∑ ¿ X −X β ¿ SSXY 1 2 SSX SSX = 1 SSX = 1 2 . SSY ¿ ¿ 2 SSXY SSX i i =1 SSX . SSY r = ¿ SSXY β SSX ¿ X − X Y −Y 2 SSY 1 2 1 2 ¿ = SX SY SX ⇒ r= β SY Propriedades do Coeficiente de Correlação ♦É um índice sem unidades de medida - adimensional. ♦Varia entre –1 e 1 [-1 ≤ rXY ≤ 1] ♦Uma correlação igual a 0 significa falta de relação linear entre X e Y. ♦Uma correlação positiva indica que X e Y estão relacionadas diretamente, quer dizer que as duas medidas tendem a crescer ou decrescer juntas ♦Uma correlação negativa indica que X e Y estão relacionadas inversamente, quer dizer que, à medida que uma variável cresce, a outra tende a decrescer ♦r = 1 ou r = -1 indicam uma relação linear perfeita entre X e Y ♦De certo modo, é uma medida do grau de dispersão dos pontos em torno de uma reta: quanto maior a dispersão, menor r r é a força da relação linear ¿ Caso não tivéssemos nenhuma variável para tentar explicar uma resposta Y, a melhor predição para Y seria dada pela média ( Y ) dos valores Yi. A soma dos quadrados dos desvios associados a este simples preditor n ¿ seria dado pela fórmula: SSY =∑ Y i−Y i=1 2