1. 2.000] (IP:0 | 10:13:35 | --:--:-- | --:-- | -----

Propaganda
1. 2.000] (IP:0 | 10:13:35 | --:--:-- | --:-- | ------ ) Discuta o significado e possíveis
implicações do AIC
O AIC (Critério de Informação de Akaike) é baseado na teoria de informação, a qual foi
desenvolvido por Hirotugu Akaike em 1974. É uma das formas para escolher o melhor modelo de
regressão. Esse índice é utilizado como um parâmetro de avaliação da adequação dos modelos,
tornando possível verificar ao mesmo tempo qualidade da informação e qualidade da ligação
entre as variáveis com o número de variáveis que é utilizada. Quanto menor esse índice mais
adequado e está o modelo aos dados. Este critério combina quanto o modelo explica com o
número de variáveis usado para isto. Quanto menor, mais o modelo explica com o menor custo
em número de variáveis.
ok
2. [4.000] (IP:0 | --:--:-- | --:--:-- | --:-- | ------ ) Discuta os capítulos desta semana.
O capítulo 19 trata de regressão múltipla e sua aplicabilidade. Neste sentido o autor aborda
vários passos antes de se rodar a regressão múltipla. Dentre esses passos tem-se a classificão
das variáveis, onde os preditores podem ser numéricos ou categóricos e se a variável apresenta
apenas dois níveis (ex.: sexo) ela é chamada variável dicotômica ou binária e se tiver mais de
dois é considerada multinível. Registrar as variáveis categóricas como numéricas. Para isso
alguns softwares permitem entrar com dados categóricos (sexo, raça, etc), outros não. Neste
caso, o autor sugere que se renomei suas variáveis categóricas (descritivas) com códigos
numéricos. Assim, preditor binário (macho e fêmea) passa a ser (0 e 1).
Um outro passo é criar um gráfico de dispersão antes de rodar a regressão: Para isso o
outor sugere primeiramente checar os erros e plotar seus dados em histogramas que
demonstrem como os valores de suas variáveis se distribuem e traçar a relação entre cada
preditor e a variável dependente e as relações entre as próprias variáveis preditoras. Para
analisar os dados da regressão múltipla é fundamental se certificar que seus dados assumiram
aquela análise. Hipóteses: a variabilidade nos resíduos é relativamente constante e não depende
do valor de y e os resíduos são aproximadamente distribuídos normalmente.Com relação ao erro,
quanto menor melhor, o que levará a um alto valor de R2 e F estatístico significativo.
Regressão logística
O objetivo principal do texto é mostrar quando utilizar a regressão logística, para isso são
revistos os conceitos de regressão, é visto como rodar a análise e como entender os resultados
gerados e como é possível localizar erros. A regressão logística pode ser usada para se verificar
a relação entre uma ou mais variáveis preditoras e uma variável categórica dependente, essa
variável geralmente é descrita de forma binaria onde se tem a chance de um evento ocorre (1) ou
não (0). No texto, utilizam-se como exemplo, dados de mortalidade devido à exposição à radiação
gama, observando apenas a letalidade em curto prazo por doses agudas e não efeitos a longo
prazo como cânceres ou alterações genéticas. Pode-se observar que em baixas doses, quase
todos sobrevivem e em altas doses, quase todos morrem.
O autor expõe que a teoria da Regressão Logística é complicada e os seus dados devem
ter uma coluna para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com
suas especificações); Seus dados devem ter uma coluna para cada X formatadas de acordo com
seu software; Especifique o que são preditores e o que é a variável dependente; Informe ao
programa as respostas que deseja (sumário das variáveis, tabela de coeficientes de regressão
probabilidades estimadas, etc); rodar e aguardar as respostas. Na interpretação das respostas o
capítulo apresenta: 1- Analise o sumário de informações das suas variáveis: média e desvio
padrão (variáveis numéricas); 2- Avalie a adequação do modelo: o programa indica o quanto a
função se ajustou aos seus dados e te dá várias medidas associadas ao valor de p (probabilidade
apenas da flutuação aleatória, na ausência de qualquer efeito real na população); 3- Cheque a
tabela de coeficientes de regressão: cada preditor aparece numa linha separada, há um alinha
para o intercepto, a primeira coluna é quase sempre o valor ajustado do coeficiente de regressão,
a segunda coluna corresponde ao erro padrão do coeficiente e a coluna do valor de p (Pr) indica
se o coeficiente é significativamente diferente de zero.
Para selecionar o melhor modelo de regressão linear múltipla podemos usar os seguintes
métodos:
O capítulo 19 trata de regressão múltipla e sua aplicabilidade. Neste sentido o autor aborda
vários passos antes de se rodar a regressão múltipla. Dentre esses passos tem-se a classificão
das variáveis, onde os preditores podem ser numéricos ou categóricos e se a variável apresenta
apenas dois níveis (ex.: sexo) ela é chamada variável dicotômica ou binária e se tiver mais de
dois é considerada multinível. Registrar as variáveis categóricas como numéricas. Para isso
alguns softwares permitem entrar com dados categóricos (sexo, raça, etc), outros não. Neste
caso, o autor sugere que se renomei suas variáveis categóricas (descritivas) com códigos
numéricos. Assim, preditor binário (macho e fêmea) passa a ser (0 e 1).
Um outro passo é criar um gráfico de dispersão antes de rodar a regressão: Para isso o
outor sugere primeiramente checar os erros e plotar seus dados em histogramas que
demonstrem como os valores de suas variáveis se distribuem e traçar a relação entre cada
preditor e a variável dependente e as relações entre as próprias variáveis preditoras. Para
analisar os dados da regressão múltipla é fundamental se certificar que seus dados assumiram
aquela análise. Hipóteses: a variabilidade nos resíduos é relativamente constante e não depende
do valor de y e os resíduos são aproximadamente distribuídos normalmente.Com relação ao erro,
quanto menor melhor, o que levará a um alto valor de R2 e F estatístico significativo.
Regressão logística
O objetivo principal do texto é mostrar quando utilizar a regressão logística, para isso são
revistos os conceitos de regressão, é visto como rodar a análise e como entender os resultados
gerados e como é possível localizar erros. A regressão logística pode ser usada para se verificar
a relação entre uma ou mais variáveis preditoras e uma variável categórica dependente, essa
variável geralmente é descrita de forma binaria onde se tem a chance de um evento ocorre (1) ou
não (0). No texto, utilizam-se como exemplo, dados de mortalidade devido à exposição à radiação
gama, observando apenas a letalidade em curto prazo por doses agudas e não efeitos a longo
prazo como cânceres ou alterações genéticas. Pode-se observar que em baixas doses, quase
todos sobrevivem e em altas doses, quase todos morrem.
O autor expõe que a teoria da Regressão Logística é complicada e os seus dados devem
ter uma coluna para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com
suas especificações); Seus dados devem ter uma coluna para cada X formatadas de acordo com
seu software; Especifique o que são preditores e o que é a variável dependente; Informe ao
programa as respostas que deseja (sumário das variáveis, tabela de coeficientes de regressão
probabilidades estimadas, etc); rodar e aguardar as respostas. Na interpretação das respostas o
capítulo apresenta: 1- Analise o sumário de informações das suas variáveis: média e desvio
padrão (variáveis numéricas); 2- Avalie a adequação do modelo: o programa indica o quanto a
função se ajustou aos seus dados e te dá várias medidas associadas ao valor de p (probabilidade
apenas da flutuação aleatória, na ausência de qualquer efeito real na população); 3- Cheque a
tabela de coeficientes de regressão: cada preditor aparece numa linha separada, há um alinha
para o intercepto, a primeira coluna é quase sempre o valor ajustado do coeficiente de regressão,
a segunda coluna corresponde ao erro padrão do coeficiente e a coluna do valor de p (Pr) indica
se o coeficiente é significativamente diferente de zero.
• ok
3. • [2.000] (IP:0 | --:--:-- | --:--:-- | --:-- | ------ ) Discuta diferentes estratégias para seleção
do melhor modelo de regressão linear múltipla
Eliminação Para Trás: esse método é iniciado com todas as variáveis, e em cada etapa
uma variável é eliminada, sendo que a ordem das variáveis no modelo de regressão é dada por
sua importância, com isso o processo de eliminação é iniciando com aquela de menor
importância. Todos os modelos são testados menos uma variável, avaliando o efeito da retirada
da última variável de cada modelo, posteriormente, a variável que ocasionou menor efeito com
sua retirada é eliminada. Após ser eliminada a variável não retorna, dando-se início novamente
ao método com as variáveis restantes até se obter o menor modelo de regressão capaz de
explicar de forma similar o que é explicado pela equação completa. Seleção Para Frente: esse
método é similar ou de eliminação para trás, sendo que neste o procedimento é realizado em
sentido contrário. As variáveis selecionadas para serem testadas são introduzidas uma a uma no
modelo, adicionando as que supostamente teriam mais importância, com isso são formandos
diferentes modelos de regressão com seus respectivos efeitos. Uma vez retida a variável não
poderá ser aproveitada. Após o processo é verificado e escolhido qual modelo melhor explica o
fenômeno estudado.
Stepwise (forward): nesse método os dois modelos explicados anteriormente são
combinados. De início o processo é parecido ao da seleção para frente, no entanto a cada
adição de duas variáveis é realizada a retirada de uma das variáveis já presentes no modelo.
Neste modelo testa-se todas as variáveis eliminando-se algumas até se chegar a um modelo
adequado, sendo que as variáveis eliminadas podem ser reintroduzidas verificando-se assim se
há alguma melhora no modelo, o método continua até que não ocorra nenhuma modificação.
Esse método contém mais variais e isso aumenta as chances do modelo ser confiável. No
entanto esse método por usar uma grande quantidade de variáveis aumento as chances de
cometer o erro tipo I.
Stepwise (backward): Esse método segue a mesma lógica e possui as mesmas limitações
do Stepwise (forward), sendo que o método é realizado com a retirada das variáveis.
ok
4. • [2.000] (IP:0 | --:--:-- | --:--:-- | --:-- | ------ ) Discuta os principais caminhos para
validação de modelos, e sua implicação na regressão.
O modelo pode ser validado realizando-se um novo experimento, o que torna possível
avaliar o quão confiável é o mesmo. Neste sentido, a estimativa do modelo selecionado será
testada para explicar o que acontecerá nesse novo experimento. Através deste método gera-se
uma nova situação experimental, no entanto, esta prática torna o experimento oneroso. O modelo
também pode ser validado com a separação de parte dos dados (p.e. uma repetição de cada
tratamento), sendo que esses dados não entrariam na análise para obtenção do coeficiente de
determinação e da equação. Com o modelo selecionado será efetuado um teste para verificar se
existe correlação entre a estimativa do modelo com o que acontecerá com o conjunto de dados
separados. Caso exista correlação entre o modelo e os dados separados, pode-se concluir que o
pode ser generalizado para a população.
ok
5. 2 Discuta o significado e possíveis implicações do AIC.
O critério de informação de Akaike (AIC) é definido como: 2*(K-L)/N, onde L é a estatística
Log verossimilhança, N o número de observações e L o número de coeficientes estimados. Este
critério é utilizado na escolha do melhor modelo de regressão, sendo considerado o melhor
aquele que apresentar o menor AIC. O AIC leva em consideração o número de variáveis do
modelo e a qualidade da ligação entre elas. Quanto menor o número de variáveis, mais o modelo
se aproximará de uma explicação lógica da realidade e quanto menor o seu valor, melhor a
regressão explica o fenômeno em estudo.
ok
6. 1.5 Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla.
No modelo de regressão linear múltipla, mais de uma variável x (preditor) é usada para
estimar o valor de y (variável dependente). Alguns passos devem ser observados na execução de
uma análise de regressão múltipla: listar as possíveis variáveis x que podem ser úteis para
estimar y; coletar os dados de y separadamente em função de cada x; analisar a relação entre
cada variável x e y e usar os resultados para eliminar as variáveis x que não estão fortemente
relacionadas a y; observar a relação entre as variáveis x para evitar colinearidade (se duas
variáveis são significativamente correlacionadas, apenas uma deve ser incluída no modelo de
regressão); empregar as variáveis x, não correlacionadas, para encontrar o melhor modelo para
seus dados e, finalmente, utilizar o melhor modelo para estimar y.
Cada um desses passos apresenta suas particularidades, mas, aqui, enfoque maior será
dado às estratégias (como aplicar determinado critério) relacionadas à seleção do melhor modelo
de regressão linear múltipla. Inicialmente testam-se todas as regressões possíveis, analisando o
ajuste de todos os submodelos compostos pelos possíveis subconjuntos das p variáveis e
identificando os melhores desses subconjuntos, segundo critérios de avaliação (R p2, Ra2, QME,
Cp de Mallows, AIC e BIC, dentre outros). Como a seleção de todas as regressões possíveis é
morosa e, em casos onde há grande número de variáveis, muitas vezes inexequível, outros
procedimentos foram desenvolvidos para selecionar o melhor subconjunto de variáveis
sequencialmente, adicionando ou removendo variáveis em cada passo. São basicamente três
procedimentos automáticos: seleção forward (assume que não há variável no modelo, apenas o
intercepto. Neste método adiciona-se uma variável de cada vez e a primeira selecionada é aquela
com maior correlação com a resposta), seleção backward (segue o caminho oposto do forward
incorporando incialmente todas as variáveis e depois, por etapas, cada uma é ou não eliminada
de acordo com testes F parciais calculados para cada variável como se ela fosse a última a entrar
no modelo) e seleção stepwise (é uma modificação da seleção Forward em que cada passo todas
as variáveis do modelo são previamente verificadas pelas suas estatísticas F parciais. Inicia-se
com a variável que tiver maior correlação com a variável resposta; a cada passo, depois de incluir
uma variável, aplica-se o backward para ver se será descartada alguma variável; continua o
processo até não incluir ou excluir nenhuma variável).
Ainda deve-se observar na escolha do modelo final se o modelo faz sentido, se é útil para
o objetivo pretendido, se todos os coeficientes são razoáveis e se a adequabilidade do modelo é
satisfatória. Recomenda-se seguir o princípio da parcimônia, optando por modelos mais simples
aos mais complexos, desde que a qualidade do ajuste seja similar.
Seguiu tão de perto algum texto que não percebeu que estava fugindo da pergunta.
7. 4 Discuta os capítulos desta semana.
Capítulo 19: “More of a Good Thing: Multiple Regression”
Traz a definição de regressão múltipla, como os dados devem ser preparados para serem
submetidos a esse tipo de análise, como interpretar os resultados, os fatores que afetam a análise e
como estimar o tamanho da amostra necessária para uma análise de regressão múltipla.
Na regressão linear (y= a + bx), a (intercepto) e b (slope) são chamados coeficientes da
regressão, y é a variável dependente e x é a variável independente (preditor). Se existe mais de uma
variável independente, temos a regressão múltipla. No modelo linear uma linha reta passa o mais
próximo possível de todos os pontos. Quando se tem duas variáveis independentes, um plano será
traçado para um conjunto de dados em três dimensões. Para mais de dois preditores, será desenhada
uma hipérbole num espaço multidimensional. A regressão linear múltipla pode ser usada para testar
modelos teóricos, obter parâmetros que tenham significado físico e biológico, preparar curvas de
calibração, desenvolver operações matemáticas sobre os dados, testar a significância das
associações, etc. Para cada parâmetro do modelo (extensão do modelo linear simples) é calculada
uma equação simultânea que envolve os parâmetros, a soma dos vários produtos das variáveis
dependente e independentes, o slope e o intercepto.
Os preditores podem ser numéricos ou categóricos. Se a variável apresenta apenas dois níveis
(ex.: sexo) ela é chamada variável dicotômica ou binária e se tiver mais de dois é considerada
multinível. Cada nível deve apresentar pelo menos duas repetições (quanto mais repetições mais
precisos e reais serão seus resultados). Para cada categoria o programa toma um nível como
referência e avalia como cada um dos outros níveis afeta a variável dependente comparado a este.
Assim, você deve escolher cuidadosamente sua referência. Para a variável que representa presença
ou ausência de alguma condição, o nível de referencia deve representar a ausência dessa condição.
As variáveis categóricas devem ser renomeadas como numéricas, tendo em vista que alguns
softwares permitem entrar com dados categóricos, mas outros não. Neste caso, você deve renomear
suas variáveis categóricas (descritivas) com códigos numéricos. Assim, preditor binário (macho e
fêmea) passa a ser (0 e 1). Antes de submeter os dados a regressão deve-se primeiramente checar
os erros e plotá-los em histogramas que demonstrem como os valores de suas variáveis se distribuem
no intuito de traçar a relação entre cada preditor e a variável dependente e as relações entre as
próprias variáveis preditoras. Esses gráficos dão uma ideia de quais variáveis estão associadas umas
com as outras, quão forte é essa associação e que não existem outliers em seus dados. A forma
como você entra com seus dados e os resultados gerados vai depender do software que você usa,
mas, geralmente se tem como resultados a descrição do modelo, um sumário dos resíduos, uma
tabela de regressão e números que descrevem a capacidade do modelo em ajustar os dados.
Antes de concluir qualquer coisa certifique-se de que seus dados assumiram aquela análise.
Deve-se observar se os pontos estão uniformemente acima e abaixo da linha e se a quantidade de
pontos aparenta ser a mesma à esquerda, meio e direita do gráfico. Para analisar quanto seu modelo
ajustou seus dados deve-se observar o erro padrão (quanto menor melhor), o valor de R 2 (quanto
maior melhor) e se o F foi estatisticamente significativo.
Podem ocorrer situações especiais em regressões múltiplas como sinergismo e anti-sinergismo
(acontece quando dois preditores exercem um efeito sinérgico em y, ou seja, se ambos forem
aumentados em uma unidade, o valor de y mudará mais do que mudaria se se somasse os
incrementos proporcionados pelo aumento individual em uma unidade) e colinearidade (forte
correlação entre duas ou mais variáveis preditoras).
Muitos cálculos são necessários para se determinar o tamanho da amostra necessária a ser
submetida à análise de regressão, mas estes são feitos por programas computacionais.
Capítulo 20: “A Yes-or-No Proposition: Logistic Regression”
Você pode utilizar a regressão logística (RL) para analisar a relação entre uma ou mais
variáveis preditoras (variáveis X) e uma variável categórica dependente (y). Y categóricos geralmente
incluem: vivo ou morto, chove ou não chove, houve ou não houve, respondeu ou não ao tratamento,
votou ou não votou em determinado candidato, etc. Pode usar a RL para testar se x e y estão
significativamente associados; analisar qualquer número de x, cada um com variáveis numéricas ou
categóricas tendo dois ou mais níveis; quantificar a extensão de uma associação entre x e y;
desenvolver uma fórmula para estimar a probabilidade de y a partir dos valores de x; fazer previsões
de falso-positivo e falso-negativo; verificar como um preditor influencia y após ser ajustado pela
influência de uma ou outra variável e determinar o valor de um preditor que produz certa probabilidade
de obtenção de y. O autor utiliza como exemplos dados envolvendo a mortalidade devido à exposição
à radiação gama, observando apenas a letalidade em curto prazo por doses agudas e não efeitos a
longo prazo como cânceres ou alterações genéticas. Observa-se então que em baixas doses quase
todos os indivíduos sobrevivem e em altas doses, quase todos morrem.
Assim como na regressão múltipla, a análise desses dados parte da plotagem num gráfico de
dispersão considerando a dose recebida como x (preditor) e a resposta (vivo ou morto) como y. A
partir daí monta-se uma função que tenha forma de S, ou seja, nunca produz um valor de y fora de 0
e 1, não importa quão grande ou pequeno seja X. Esta função pode ser generalizada adicionando
dois parâmetros ajustáveis (a e b): y=1/(1+e-(a+bX)), lembrando que a+bx representa a função da
regressão linear, o resto da função é que define sua forma tipo S. O meio do S (y=0,5) sempre ocorre
quando X=-b/a, ou seja, a declividade da curva é determinada pelo sinal de b.
Como os limites da curva de RL são 0 e 1, você não deve usar RL em situações onde a fração
das observações não se aproximem desses limites. Assim, a RL não sera adequada para analisar a
resposta de pacientes a determinada droga se doses muito altas dessa droga não causar 100% de
cura ou se algum paciente se curou mesmo sem ingerir tal medicamento. A RL ajusta um modelo aos
seus dados ajustando os valores de a e b que tornem a curva o mais próximo possível dos seus
dados plotados e com esse modelo você pode estimar a probabilidade da resposta ocorrer.
A teoria da RL é difícil e os cálculos são complicados: 1- Seus dados devem ter uma coluna
para y e esta coluna tem apenas dois valores diferentes (0 ou 1 de acordo com suas especificações);
2- Seus dados devem ter uma coluna para cada X formatadas de acordo com seu software; 3Especifique o que são preditores e o que é a variável dependente; 4- Informe ao programa as
respostas que deseja (sumário das variáveis, tabela de coeficientes de regressão probabilidades
estimadas, etc); 5- Peça para rodar e aguarde as respostas.
As respostas são analisadas através do sumário de informações das variáveis (média e desvio
padrão), da adequação do modelo (o quanto a função se ajustou aos seus dados) e pela tabela de
coeficientes de regressão. Finalmente você pode estimar probabilidades com a fórmula logística
ajustada e calcular as doses efetiva e letais numa curva logística.
Algumas vezes é necessário fazer predições positivas ou negativas das probabilidades ao
invés de cotá-las e isso pode ser feito comparando a probabilidade calculada à obtida de acordo com
o resultado alcançado em um ponto de corte arbitrário qualquer, medindo a acurácia (estimativa
correta), medindo a sensibilidade (estimar um resultado positivo quando suas observações são
positivas) e avaliando a especificidade (estimar um resultado negativo quando as observações são
negativas). O ponto ótimo entre a combinação de sensibilidade e especificidade é o equilíbrio entre o
falso-positivo e falso-negativo e para identifica-lo você deve saber como um joga contra o outro, ou
seja, como eles variam simultaneamente em função de diferentes pontos de corte.
Checando erros: não use uma função logística para dados não logísticos, observe a ocorrência
de colinearidade e perda de significância, atente-se para a inversão de códigos pelo programa, não
interprete mal a razão de odds para preditores numéricos, não interprete mal a razão de odds para
preditores categóricos. .
ok
8. 2 Discuta os principais caminhos para validação de modelos, e sua implicação na
regressão.
A validação do modelo se refere à estabilidade e razoabilidade dos coeficientes de
regressão, à plausibilidade e empregabilidade da função de regressão e à habilidade de
generalizar inferências a partir da análise de regressão. Consiste numa parte útil e necessária do
processo de construção/determinação do modelo de regressão. Quando um modelo de regressão
é usado num experimento controlado, a repetição do experimento e sua análise servem para
validar os resultados numa fase de estudo inicial se resultados similares para os coeficientes de
regressão, capacidade preditiva e outros dados semelhantes forem obtidos. De forma
semelhante, resultados de estudos observacionais confirmatórios são validados pela repetição do
estudo com outros dados.
Existem três caminhos básicos para validação do modelo:
1- Coleta de novos dados para checar o modelo e sua capacidade preditiva: é o melhor
caminho de validação. Permite examinar se o modelo de regressão obtido dos dados anteriores é
aplicável aos novos dados. Se sim, tem-se segurança acerca da aplicabilidade do modelo aos
dados, além daqueles nos quais o modelo se baseou. Uma das principais limitações é a
dificuldade em repetir determinados estudos, seja por questões financeiras, logísticas ou de outro
recurso qualquer.
2- Comparações dos resultados com teorias, evidências empíricas e resultados simulados:
comparação dos coeficientes e predições com resultados empíricos ou simulados podem ser
executados. Infelizmente, existem poucas teorias que podem ser utilizadas na validação dos
modelos de regressão.
3- Uso de uma amostra teste para checar o modelo e sua capacidade preditiva: quando o
conjunto de dados é muito grande, dividem-se os dados em dois grupos. O primeiro, denominado
amostra de treinamento, usado para criar o modelo e o segundo, denominado grupo de validação,
usado para avaliar a capacidade preditiva do modelo selecionado. Esse procedimento é muitas
vezes denominado validação cruzada e a divisão dos dados é uma tentativa de simular a
repetição do estudo.
ok
9. 
[4.000] (IP:281473664905466
Discuta os capítulos desta semana.
Capítulo
1
–
|
15:34:18
Regressão
|
18:13:42
|
39:24
Múltipla_Capítulo
|
1.564)
19
Neste capítulo, o autor explica que a Regressão múltipla é aquela que você ajusta um plano para
um conjunto de pontos de três dimensões, com mais de dois preditores. O nome se caracteriza
por ter mais de duas variáveis de previsão (múltipla) e cada uma delas é multiplicada por um
parâmetro e estes produtos são somados para dar o valor previsto. Semelhantemente à
regressão linear comum, a múltipla haverá equações, todavia, são várias a depender da
quantidade
de
parâmetros
que
se
possua.
Para iniciar uma regressão múltipla, inicialmente deve-se preparar os dados, de forma que estes
sejam organizados em níveis (preditores categóricos ou numéricos), e sejam avaliados à um nível
de referência, de preferência, escolhido pelo pesquisador. Assim, a regressão irá avaliar as
variáveis quando uma está fixa, ou seja, não está variando. Para organização dos dados para
entrada em programas estatísticos é necessário uma montagem prévia dos dados, onde deve
conter uma linha por assunto e uma coluna para cada variável que você deseja no modelo,
indicando ao software quais são as variáveis, os preditores, e a especificação de uma saída de
resumo dos resíduos (opcional). Supostos adicionais de variáveis aumentam o R², onde para
compensação é utilizado outro parâmetro, o R² ajustado, onde este dá um desconto na
quantidade de variáveis, o que melhora a observação e confiança nos dados. Por este motivo, a
análise dos resíduos é de suma importância para avaliar se o conjunto de dados se adequa ao
modelo, onde estes devem se mostrar aleatórios e sem dependência. Às vezes, pode acontecer
de duas variáveis ter efeito sinérgico, ou seja, uma tem efeito sobre a outra, uma forte ligação que
se
denomina
colinearidade.
Capítulo
–
2
Regressão
Logística_Capítulo
20
A regressão logística se expressa em base exponencial. Caracteriza-se por apresentar gráficos
em forma de S onde analisa uma relação entre as variáveis preditoras. Pode ser utilizada para
testar se o preditor e o resultado tem colinearidade, analisar duas categorias, onde pode ser
ausência ou presença de um fator, avaliar a chance de conseguir o resultado, desenvolver uma
fórmula para obter o resultado de uma variável de previsão, fazer previsões e análises de falsopositivo e falso-negativo, avaliar como o preditor influencia no resultado e determinar o valor do
preditor
que
produz
uma
certa
probabilidade.
Para dados binários, não se deve encaixar uma linha reta. Em vez disso, você deve encaixar uma
função que tem a forma de S, o que nos permite afirmar que nunca vai produzir um Y fora da
faixa de 0 -1, não importa quão grande seja o X. Assim, a regressão logística é representada pela
função: Y = 1/(1 + e-x), onde e é uma constante matemática 2,718. Para generalizar essa
equação, podemos ajustar os dados da seguinte forma Y = 1/(1 + e-(a+bx)), onde a exponencial
entra na função de uma reta. E ainda, podemos adequá-la ao modelo logístico multivariado, tendo
a
função
Y
=
1/(1
+
e-(a+bx+cv+dw)).
Para executar a regressão logística em software, deve-se fazer a verificação se existe uma
coluna para a variável resultado e se esta tem apenas dois valores diferentes. Depois, verificar se
conjunto de dados tem uma coluna para cada variável de previsão e se estão em um formato que
o programa aceita. Então, informe ao programa de quais variáveis são os preditores e que
variável é o resultado, e diga o que você quer, dessa forma, o programa irá executar e apresentar
as
respostas.
Além disso, pode-se calcular a dose que se produz uma resposta a 50%, ou a 80%, o que é
chamado de dose letal e dose efetiva respectivamente, colocando X em função de Y. Assim, para
a dose letal, teremos a equção –a/b e para a dose efetiva 1,39 –a/b.
Outro fato importante na regressão logística é escolher entre ter mais sensibilidade e
especificidade, utilizadas principalmente para testes de triagem de doença. Dependendo do teste
e do seu impacto, deve-se considerar uma alta sensibilidade ou alta especificidade como sendo o
mais importante. Sensibilidade é quando se prevê um resultado sim quando ele é sim.
Especificidade é quando se obtém um resultado não quando ele realmente é não. A questão da
escolha entre os dois, observando as suas consequências pode ser conflitantes para algumas
pessoas, todavia é provável que ninguém chegue a um acordo. Para isso, é importante que se
faça uma análise do melhor corte que se vai obter uma melhor combinação de sensibilidade e
especificidade. Neste caso, é utilizado as curvas de ROC que é um tipo de gráfico que mostra a
troca entre a sensibilidade e especificidade. O seu uso vem da segunda guerra mundial, todavia
pode ser utilizado atualmente para inúmeras coisas. O programa gera, de forma eficaz, vários
cortes de 0 a 1 possíveis, calculando os valores previstos. Assim, pode ser escolhido o melhor
corte, com a melhor especificidade e melhor sensibilidade para se encontrar uma melhor relação
entre
falsos-positivos
e
falsos-negativos.
Capítulo
3
–
Regressão
de
Poisson_Capítulo
21
O autor inicia o capítulo relatando a diferença entre GLM (Modelo linear generalizado) e LM
(Modelo linear comum), onde afirma que o LM é o modelo linear que aprendemos e que
utilizamos no nosso dia-a-dia e o GLM é um modelo mais generalizado, que inclui o LM e outros.
Após, inicia a discussão sobre a regressão de Poisson, que uma regressão não linear utilizada
para contagens e taxas de eventos independentes, ou seja, não agrupados de forma que, se
ocorrer este agrupamento em determinado evento, teremos um efeito chamado de
sobredispersão, ou seja, pode ocorrer de o desvio padrão ser maior que a raiz quadrada da
média. Para análise, inicialmente, deve-se decidir qual a função que se adequa com os seus
dados, o que será decidido através do conhecimento científico adquirido sobre determinado
assunto que se deseja estudar. Para entrada de algum programa estatístico deve-se organizar os
dados para regressão de Poisson, assim como faria para qualquer tipo de regressão. Após, dizer
ao programa que as variáveis preditoras e de desfeicho são por nome ou por coleta apartir de
uma lista de variáveis. Depois, especifique a função de ligação e a distribuição da variável,
todavia, no final deve-se consultar o manual do seu software. Na execução desta deve ser
inserida a equação que será ajustada e deixar que o programa trabalhe, assim ele irá gerar dados
em que se pode calcula os parâmetros que deseja conhecer. Todavia, também pode ser
utilizadas funções equivalentes, onde irá se obter diretamente os parâmetros que se deseja.
Às vezes, pode ocorrer de acontecer que o gráfico que se obtem tem uma grande densidade de
pontos, de forma que pode ser observado seu comportamento, mas não se sabe os pontos
exatos em que a curva muda. Para isso, são utilizados artifícios como o LOWESS que fazem uma
suavização dos pontos gerando uma curva. Para isso, deve ser relizado testes de suavização
onde irá ser testado algumas frações de suavização (f), o que lhe permite explorar diferentes
suavizações de frações. Esses f são decididos de acordo com o conhecimento científico do
pesquisador, no qual ele irá observar as curvas geradas e decidir qual melhor se encaixa aqueles
determinados pontos. Utilizada corretamente, este artifício permite o recolhimento máximo de
informações
possíveis
dos
gráficos
gerados.
ok
10. 
[2.000] (IP:281473664905466 | 15:34:30 | 18:14:01 | 39:31 | 0.977)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
As
estratégias
são:
A.
Testar
todas
as
regressões
possíveis
É uma técnica trabalhosa e não prática, todavia é a única que garante o melhor modelo para os
dados que se está estudando com regressão linear múltipla garantindo encontrar um melhor R².
Nesta primeira técnica, se aplica todas as regressões possíveis para os arranjos que se pode
realizar com todas as variáveis, encontrando com isto. Todavia, torna-se impraticável devido ao
número de combinações total ser imensamente grande com um pequeno aumento de variáveis
(por exemplo, 8 variáveis, obtêm-se 255 modelos possíveis), assim, algoritmo que é utilizado para
todas as equações possíveis demanda que sejam analisados 2k-1, onde k representa o número
de variáveis. Por esse motivo e por oferecer informações limitadas sobre realmente qual o melhor
modelo,
existem
outros
métodos
que
se
tornam
mais
factíveis.
B.
Método
de
seleção
Backward
Nesta estratégia, faz-se uma estimativa do modelo máximo contendo todas as variáveis, de forma
que o modelo é realizado todos os testes possíveis (F, p, R²), onde a posteriori iremos eliminar
aquela de menor efeito no modelo podendo assim avaliar o efeito desta sobre o modelo. A
principal desvantagem deste método reside em que uma vez retirada uma variável, não é
possível a entrada novamente no modelo, e consequentemente não é possível observar seu
efeito
com
outras
combinações.
C.
Método
de
seleção
Foward
Esta estratégia é semelhante à Backward supracitada, todavia ao contrário, assim, iniciaremos
com apenas 1 variável. Para tanto, seleciona-se a variável mais correlacionada com a variável
dependente, e realiza o ajuste do modelo. Após, realiza-se a avaliação do modelo (R², F, p),
colocamos outra variável o procedimento é realizado novamente, até chegar a um ponto que ao
adicionar variáveis e fizermos a avaliação (R², F, p), estes testes não sejam significantes.
Portanto, nenhuma variável mais deve ser incluída no modelo. A desvantagem deste método é
semelhante ao anterior, uma vez que adicionada uma variável esta não poderá mais ser retirada
para
novas
avaliações.
D.
Método
Stepwise
(Mistura
de
técnicas)
Esta estratégia é uma mistura entre a Forward e Backward, anteriormente supracitados. Neste
método é permitida a reavaliação das variáveis já inclusas no modelo, de forma que, uma variável
já incluída no modelo pode tornar-se supérflua à medida que for sendo realizadas avaliações em
processo de seleção. Neste contexto, a Stepwise Forward inicia-se com todas as variáveis,
prosseguindo com a retirada de uma. Este processo é realizado duas vezes. Após, uma variável
que foi retirada pode voltar a com uma das variáveis já retiradas. O processo é realizado até que
qualquer variável que for retirada cause efeito no ajuste do modelo (R², F, p) de modo que se
perca explicações. O Stepwise Backward segue de forma contrária ao forward, iniciando-se com
apenas uma variável. Este método supre as desvantagens dos métodos anteriores, porém, a
ordem de inclusão pode afetar os resultados, além aumentar a chance do erro tipo I devido ao
grande
número
de
modelos
que
serão
gerados.
ok
11. 
[2.000] (IP:281473664905466 | 15:34:39 | 18:14:27 | 39:48 | 1.179)
Discuta os principais caminhos para validação de modelos, e sua implicação na
regressão.
A.
Antes
da
análise:
Para validação de qualquer modelo, inicialmente deve-se ter muito cuidado com a coleta dos
dados, para que seja realizada de forma correta e segura. Além disso, deve-se checar se não há
colinearidade e se seguem as premissas da análise de variância (homocedase, distribuição
normal, amostra aleatória, erros experimentais independentes). Também, deve-se estimar bem o
tamanho
da
amostra/experimento.
B.
Depois
da
análise:
1.
Estudo
confirmatório:
Quando for possível, deve realizar outro experimento ao mesmo tempo do experimento que se
gerou a regressão. Mas, neste caso, muitas vezes não é compensatório devido ao tempo e
dinheiro. Assim, há a alternativa de em que é feita um bloco a mais, onde o mesmo não entre na
regressão e possa ser comparado o valor real com o valor estimado pela equação.
2.
Análise
em
amostra
dividida
Outra alternativa é colocar um número a mais de amostras em todo o experimento, dispondo as
mesmas de forma aleatória, onde todos representem o experimento. Os mesmos não entrem na
regressão e possam ser avaliados sob o valor real e o estimado, verificando se são similares ou
muito
diferentes.
muito bem levantado quanto à parte anterior à regressão.
12. 
[1.000] (IP:281473664905466 | 15:34:51 | 18:14:37 | 39:46 | 9.288)
Discuta o significado e possíveis implicações do AIC
O AIC (Akaike Information Criterion) está relacionado com o modelo do desvio final
ajustado para quantas variáveis preditivas estão no modelo, ou seja, este critério combina quanto
o modelo explica com o número de variáveis utilizadas para este modelo, onde o melhor modelo é
aquele que apresentar o menor índice de AIC, pois explica o que está acontecendo com menor
número de variáveis e melhor qualidade de inrfomação contida no modelo. Por isso, este critério
avalia a qualidade da ligação das variáveis, o número de variáveis e a informação.
desta forma, fica difícil de diferenciar o AIC do R² corrigido...
13. 
[2.000] (IP:281473664859462 | 16:05:44 | 23:11:44 | 06:00 | 30.871)
Discuta o significado e possíveis implicações do AIC
Desenvolvido por Hirotugu Akaike em 1974, o Critério de Informação de Akaike (AIC) é
uma informação qualitativo que representa a distância entre o modelo estimado e o modelo real
de distribuição dos dados observados. O AIC é obtido através da fórmula AIC = 2 x (k-L) / N, em
que L é a estatística log verossimilhança, N o número de observações e k o número de
coeficientes estimados. Assim, quanto menor o valor de AIC mais ajustado o modelo estimado
está ao conjunto de dados. O AIC penaliza os modelos em função do número de parâmetros
adicionados e é tomado para a escolha do modelo de regressão (quem tiver o menor AIC
apresentasse como melhor modelo).
excelente
14. 
[2.000] (IP:281473664859462 | 17:58:33 | 23:53:42 | 55:09 | 4.944)
Discuta os capítulos desta semana.
No capítulo dezenove o autor enumera várias etapas que devem ser consideradas antes
de se rodar a regressão múltipla. Alguma delas foram: a classificação das variáveis, sendo que os
preditores podem ser numéricos ou categóricos; o Registro das variáveis categóricas como
numéricas. Para isso alguns softwares permitem entrar com dados categóricos. Neste caso, o
autor sugere que se as variáveis categóricas (descritivas) sejam códigos numéricos; Criar um
gráfico de dispersão antes de rodar a regressão: Para isso é necessário verificar os erros e plotar
seus dados em histogramas que demonstrem a distribuição das variáveis. Para analisar os dados
da regressão múltipla o capítulo deixa claro a importância de se certificar que seus dados de fato
assumam aquela análise. Quanto menor o erro melhor, isso implica em um alto valor de R2 e F
estatístico
significativo.
No capítulo vinte tem-se a regressão logística, onde o autor mostra quando utiliza-la, revendo os
seus conceitos básicos, rodando uma regressão logística e analisando seus resultados,
localizando erros para estimar o tamanho da amostra. Esta regressão pode ser usada para
verificar a relação entre uma ou mais variáveis preditoras e uma variável categórica dependente,
geralmente é descrita de forma binaria [chance de um evento ocorre (1) ou não (0)]. A teoria da
Regressão Logística é considerada difícil e os seus dados devem ter uma coluna y com dois
valores diferentes (0 ou 1). Seus dados devem ter uma coluna para cada X formatadas de acordo
com o software. Na interpretação das respostas é importante a análise do sumário de
informações das suas variáveis de média e desvio padrão (variáveis numéricas); além disso, a
adequação do modelo, pois o programa indica o quão ajustado foi a função aos seus dados e nos
dá vários valores relacionados ao p. É importante checar a tabela de coeficientes de regressão,
pois
cada
preditor
aparece
em
uma
linha
separada.
isto não é discussão de três capítulos, mas uma síntese de um resumo de uma
apresentação inicial do abstract ou algo do gênero...
15. 
[2.000] (IP:281473664859462 | 17:58:43 | 23:12:42 | 13:59 | 12.905)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Podem ser utilizadas cinco estratégias para selecionar o melhor modelo de regressão
linear
múltipla:
1ª) Testar todas as regressões possíveis – esta estratégia garante qualquer solução para
qualquer conjunto de variáveis, mas dependendo do número de variáveis do modelo haverá uma
quantidade maior de combinações diferentes. Assim, quanto mais variáveis maior será o número
de combinações diferentes e vise-e-versa. É importante ressaltar que com um número muito
elevado de variáveis torna se quase impossível testar todas as combinações possíveis e isso
aumentaria
a
chance
de
incorrermos
no
erro
tipo
I.
2ª) Eliminação para trás – Essa estratégia começa com uma regressão que inclui todas variáveis
e a cada etapa é eliminada uma variável. Essa eliminação leva em consideração a ordem de
importância entre as variáveis no modelo de regressão. Assim, inicia-se a eliminação pela de
menor importância. Todos os modelos são testados menos uma variável, verificando-se o efeito
da retirada da última variável de cada modelo. Na sequência, elimina-se a variável de menor
efeito com sua retirada. Portanto, ao se retirar tal variável esta não poderá ser aproveitada. Em
seguida, reinicia-se o processo até se obter um menor modelo de regressão que explicará de
forma
equivalente
a
equação
completa.
3ª) Seleção para frente – Nessa estratégia as variáveis vão sendo introduzidas progressivamente
no modelo, inserindo, uma de cada vez, as variáveis que supostamente são mais importantes.
Neste sentido, vai se obtendo diferentes modelos de regressão com seus respectivos efeitos.
Cada vez que uma variável é retida, esta não poderá ser aproveitada. Após a verificação de todos
os modelos, é selecionada a regressão que melhor explica aquele determinado fenômeno.
4ª) Stepwise (forward) – Essa é uma estratégia que combina os dois procedimentos anteriores o
que conduz aos melhores resultados. É semelhante ao da seleção para frente, mas em cada
estágio realiza-se um passo de eliminação para trás, retirando uma das variáveis já presente.
Deste modo, testa-se todas as variáveis eliminando algumas delas até chegar a um modelo
adequado, porém as variáveis excluídas poderão ser novamente introduzidas para verificar se o
modelo pode ser melhorado, esse processo irá ocorrer até não haver nenhuma modificação.
5ª) Stepwise (backward) – Trata-se de uma estratégia que possui os mesmos princípios
metodológicos, no entanto contém as mesmas limitações do Stepwise (forward), contudo o
processo
operacional
é
de
trás
para
frentes.
ok
16. 
[2.000] (IP:281473664859462 | 17:58:55 | 23:13:17 | 14:22 | 34.118)
Discuta os principais caminhos para validação de modelos, e sua implicação na
regressão.
Há dois caminhos para validação de modelos: (i) Realizar um novo experimento no intuito
de verificar a confiabilidade daquele modelo, testando se as estimativas do modelo selecionado
explicarão o que ocorrerá no novo experimento. Esse caminho de validação garante uma nova
variação do acaso, mas possui a desvantagem de se ter um alto custo; (ii) Durante a implantação
do experimento separar um bloco ou uma repetição de um tratamento para que os dados desse
bloco/repetição sejam analisados separadamente, ou seja, os dados desse bloco/repetição não
participarão na obtenção do coeficiente de determinação do modelo. Posteriormente, realiza-se
um teste para correlacionar se as estimativas do modelo correspondem com o que acontecerá
com os dados separados. Se existir correlação, o modelo explica o que acontece com o novo
conjunto de dados e consequentemente o modelo pode ser generalizado para a população. Não
existindo correlação com o novo conjunto de dados, esse modelo não pode ser generalizado para
explicar o que ocorre na população.
ok
17. [2.000]
(IP:281473857275257
| 08:37:20
| 23:19:54
|
42:34
|
1.61)
Discuta o significado e possíveis implicações do AIC
O Critério de Informação de Akaike (Akaike‘s Information Criterion - AIC) é uma medida
geral da qualidade do ajuste de modelos baseada em k variáveis preditoras, que procura uma
solução satisfatória entre o bom ajuste o princípio da parcimônia. Sugerido por Akaike, visa suprir
um questionamento de até onde é razoável aumentar a ordem do modelo para conseguir uma
melhor adequação aos dados permitindo que o modelo capte todas as características dos dados
a serem modelados. O AIC é um critério que dá uma pontuação para o modelo, baseado em sua
adequação aos dados e na ordem do modelo. Portanto, um modelo para a variável resposta (Y) é
considerado melhor que outro se tiver um AIC mais baixo, favorecendo modelos com SQRE
menor, mas também com menores parâmetros, ou seja, quanto menor, mais o modelo explica
com o menor uso de variáveis. Ele é calculado pela equação AIC=-2 ln⁡〖f (x〗/θ ̂)+2k, onde o
primeiro termo é uma bonificação por uma melhor adequação dos dados, em que f(x/θ ̂) é a
função verossimilhança do modelo, e o segundo termo é a penalização, que é maior a medida
que
se
aumenta
a
ordem,
k.
Embora largamente aceito e utilizado, tem limitações. Ele foi desenvolvido sob o conceito de que,
assintoticamente (quando o tamanho da amostra tende a infinito), ele converge para o valor exato
da divergência de Kullback-Leibler, que é uma medida de quanta informação é “perdida” ao tentar
representar um conjunto T de medidas utilizando uma base conhecida L. No entanto, quando se
tem um número finito de amostras, este estimador se torna polarizado. Com isto, por vezes o AIC
não só falha em escolher um modelo mais parcimonioso, como por vezes escolhe o modelo de
maior ordem entre todos os modelos comparados. Diante disto, alguns métodos são sugeridos
para conseguir trabalhar satisfatoriamente com um número pequeno de amostras, como o AICc
(AIC corrigido), KIC (Kullback Information Criterion), KICc (KIC corrigido), AKICc (Approximated
KICc) e AICF (AIC Finite Sample), diferindo-os apenas no termo da penalização.
ok
18. [2.000] (IP:281473857275257 | 08:42:24 | 23:20:23 | 37:59 | 1.328)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Uma das estratégias é a construção de todos os modelos de regressão linear múltipla
possíveis (análise de 2k – 1 modelos), com um grande número de combinações e maior número
de variáveis preditoras possíveis (k). Praticável graças aos diversos softwares de regressão, ela
deve ser preferida às outras, pois é a única estratégia que garante encontrar o modelo com maior
r2, critério comumente usado. O analista adiciona variáveis ao modelo até o ponto em que uma
variável adicional não seja útil devido ao pequeno aumento resultante ao valor de r2p. Um
segundo critério é considerar a média quadrática do erro (MQE), de modo que seja um mínimo na
escolhendo
dos
regressores.
Além desta, há outras estratégias, como: seleção em etapas; eliminação regressiva (eliminação
Backward); seleção progressiva (seleção Forward); Stepwise (forward e backward) e um
procedimento
menos
tradicional
(NCSU).
Na seleção em etapas, provavelmente a mais utilizada de seleção de variáveis, há a construção
de uma sequência de modelos pela adição ou remoção de variáveis em cada etapa, cujo critério é
um teste parcial F. O regressor com a maior estatística parcial F entra, desde que o valor
observado de f exceda fentra. Então este teste é calculado para cada regressor no modelo e
aquele com o menor valor observado de F será removido se o f observado < fsai. O procedimento
continua até que nenhum outro regressor seja adicionado ou removido ao modelo.
A seleção Forward, é uma variação da regressão em etapas e se baseia no princípio de que os
regressores devem ser adicionados ao modelo um de cada vez até que não haja mais candidatos
a regressor que produzam aumento significativo na soma quadrática da regressão A princípio,
ajusta-se o modelo, selecionando a primeira variável a entrar no modelo como a variável mais
correlacionada com a variável resposta. Se o teste F global for não significativo, para e conclui
que nenhuma variável independente é importante preditora, se significativo, inclui a variável no
modelo e determina-se o teste F parcial e os valores p associados a cada variável remanescente,
baseado no modelo contendo a variável inicial e a variável em questão, observando qual modelo
(de qual variável incluída) possui o maior teste F parcial. Caso os testes F parciais não sejam
significativos, nenhuma variável mais deve ser incluída no modelo. Procedimento inverso à
eliminação
Backward.
Já na eliminação Backward inicia-se com todos os K candidatos a regressor no modelo
(estimativa do modelo máximo), testando todos os modelos tirando uma única variável, a que
reflete menor efeito de retirada, e avaliando cada nova regressão, esse processo se repete com
todos os modelos retirando mais uma variável. Então o regressor com menor estatística parcial F
é removido, se essa estatística F for não significativa, ou seja, se f < fsai. A seguir, o modelo com
K – 1 regressores é ajustado e o próximo regressor para potencial eliminação é encontrado. O
procedimento termina quando nenhum regressor a mais pode ser eliminado.
A técnica Stepwise consiste na mistura das duas técnicas anteriores, iniciando, na forward, com
um passo de seleção para frente atrelado a um reexame (eliminação pra trás) das variáveis já
incluídas no modelo, podendo ser retiradas e, também, essas retiras podem voltar ao modelo. O
procedimento é repetido até que nenhuma variável saia ou entre mais no modelo, as
probabilidades F raramente são adequadas para determinar essa entrada ou saída de uma
variável. O grande número de variáveis permite maior confiabilidade e ao mesmo tempo, pelo
grande número de testes as chances de cometer o erro do tipo I aumentam. Na Stepwise
(backward)
o
processo
é
igual
ao
forward,
só
que
ao
contrário.
Há também um procedimento menos tradicional (NCSU), nele montam-se todos os modelos e
calcula-se o AIC (Akaike Information Criteria) de cada um, seleciona-se o modelo com menor AIC,
pois quanto menor, mais o modelo explica como o menor custo em números de variáveis.
2^k não 2k... 2k é 2*k... de resto ótimo
19. [1.500] (IP:281473857275257 | 08:42:12 | 23:20:44 | 38:32 | 19.828)
Discuta os principais caminhos para validação de modelos, e sua implicação na
regressão.
Após as análises para verificar a confiabilidade do modelo pode ser feito um estudo
confirmatório, ou seja, montagem de um novo experimento, o que representa um alto custo não
só financeiro como também de tempo, havendo inclusive uma nova variação do acaso por ser
montado em período diferente do experimento que deu origem ao modelo. Além desse estudo
pode ser feito uma análise em amostra dividida, onde parte dos dados de um experimento é
usada apenas para a construção do modelo e o restante para a confirmação, verificando o
resultado dos outros blocos, para isso os dados devem ser separados aleatoriamente antes da
análise, isso implica em uma possível não representação da população, mas da amostra.
o único ponto é que a forma como colocou a nova variação do acaso em um experimento
de verificação como algo negativo, quando na realidade é um ponto positivo. de resto muito bom.
20. [4.000]
(IP:281473857275257
| 08:42:02
| 23:22:04
|
40:02
|
7.31)
Discuta os capítulos desta semana.
No capítulo 19 o autor aborda um entendimento do que é regressão múltipla, da
preparação dos dados para uma regressão múltipla e a interpretação da saída, do entendimento
como a sinergia e colinearidade afetam a análise de regressão, e por fim, da estimação do
número de indivíduos que você precisa para uma análise de regressão múltipla. Esta regressão
múltipla pode ser denominada, também, por regressão linear simples para mais de uma variável
preditora (variável independente) o que é chamado de modelo de regressão linear múltipla
normal. Ela pode ser aplicada para inúmeros fins, como: preparo de curvas de calibração; teste
de modelos teóricos; fazer previsões e prognósticos; realizar operações matemáticas sobre os
dados;
etc.
Alguns termos básicos estão relacionados à denominação regressão múltipla linear normal,
significando: múltipla, o modelo tem mais de duas variáveis preditora; linear, cada variável
preditora é multiplicada por um parâmetro, e estes produtos são somados para dar o valor
previsto da variável resultado, podendo haver também, um parâmetro que é multiplicado por nada
chamado termo constante ou intercepto; normal, a variável é numérica e contínua cujas
flutuações
aleatórias
apresentam
distribuição
normal.
No modelo de regressão múltipla há mais de uma variável preditora (mais do que dois
parâmetros), onde se ajusta um plano para um conjunto de pontos em três dimensões gerando
um “hiperplano” em quatro ou mais espaços dimensionais. Suas fórmulas são apenas simples
expressões algébricas das fórmulas em linha reta, descritas de forma compacta usando notação
matricial e calculadas por um pacote de softwares devido ao número maior de variáveis preditora.
Para entender melhor como funcionam os cálculos, a montagem de um modelo de regressão
múltipla envolve a criação de um conjunto de equações simultâneas, uma para cada parâmetro
do modelo. As equações envolvem os parâmetros do modelo e as somas de vários produtos das
variáveis dependentes e independentes envolvendo a inclinação, interceptação na linha reta e as
somas de X, X2, Y e XY. Como resultado deste processo, pode-se obter também os erros
padrões
dos
parâmetros.
Mesmo com tantos programas disponíveis que podem fazer a regressão múltipla, pode ser
necessário, a princípio, preparar os dados. Pois ao usar variáveis preditora categóricas (binária:
gênero masculino e feminino, ou multinível) em um modelo de regressão múltipla pode-se obter
resultados errados ou difíceis de interpretar corretamente, necessitando definir as coisas de
maneira correta. Para isso precisa-se tabular quantos casos estão em cada nível, sendo
necessário pelo menos dois casos por nível (ideal mais), caso contrário deve-se redistribuir os
casos entre os níveis de forma mais uniforme possível e por consequência mais confiável e
preciso serão os resultados. Além disso, deve-se escolher de forma sábia qual será o nível usado
como referência que servirá para observar como cada um dos outros níveis afeta o resultado, em
relação a esse nível de referência, e ainda, quando o software não aceita uma variável categórica
como preditora deve-se recodifica-la como numérica, categóricas binárias pode ser recodificada
para 0, e outro nível 1, já uma categórica multinível transformar em conjunto de variáveis binárias.
Antes de realizar uma regressão múltipla deve-se criar um gráfico de dispersão, observando a
distribuição dos seus dados. Verificando erros e gerando resumos e histogramas, traçando
relações entre variável preditora e resposta, e também entre as próprias variáveis preditoras.
A execução do software, em termos gerais, se inicia na organização dos dados (linha e coluna),
indicando as variáveis dependentes e independentes, especificando qual saída deseja (se
permitir) com gráficos, resíduos e outros programas de resultados, e por fim interpreta a saída. Os
componentes de saída, são: descrição do modelo a ser montado; os resíduos; tabela de
regressão ou coeficientes da tabela; o valor estimado do parâmetro; o erro padrão (precisão) da
estimativa; valor t; valor p; o erro padrão residual; o coeficiente de correlação; a estatística f e o
valor
p
associado.
Independente dos cálculos antes de tirar conclusões de qualquer análise estatística certifica-se da
normalidade dos seus dados e quão bem o modelo se ajusta aos dados, por meio de gráficos de
variabilidade e normalidade dos resíduos, e dados observados versus o previsto. Quanto ao
ajuste do modelo aos dados vários números de saída referem-se quão de perto o modelo se
encaixa seus dados, como: erro padrão residual que é a dispersão média dos pontos observados
a partir do modelo ajustado, quanto menor melhor; r2, quanto maior, melhor o ajuste; o teste F,
indicando que o modelo prevê o resultado significativamente melhor do que o modelo nulo.
Na regressão linear múltipla podem surgir situações especiais como interações sinérgicas e
colinearidade. A primeira indica que quando ambos os preditores fossem aumentados em uma
unidade, o resultado seria alterado por mais do que simplesmente a soma dos dois aumentos,
podendo ser testada ajustando o modelo com um termo de interação (produto dessas variáveis),
o sinal indica se a sinergia é negativa ou positiva. O segundo consiste no mistério do
desaparecimento da significância, quando você roda uma regressão múltipla com todos os
indicadores até então significativos, isso não faz o modelo ser pior na previsão dos resultados só
torna difícil dizer qual variável realmente influencia o resultado. Esse problema pode ser resolvido
calculando o tamanho necessário da amostra através de softwares (PS e GPower), mas o usuário
pode ter problemas com input que quase certamente você não pode fornecer. Contudo, a boa
experiência vai indica um tamanho o grande o suficiente para garantir que você obtenha um
resultado
significativo
no
teste
de
sua
hipótese
de
pesquisa.
(Capítulo20) Você pode usar a regressão logística para analisar a relação entre uma ou mais
variáveis preditoras e uma variável categórica resultado (proposição sim ou não). Ela pode ser
usada para testar se o preditor e o resultado são significativamente associados, pode analisar
qualquer número de variáveis preditoras, cada uma das quais pode ser uma variável numérica ou
uma categórica que possua dois ou mais níveis, desenvolver uma fórmula para prever a
probabilidade de obter o resultado dos valores das variáveis preditoras, e muitas outras
aplicações. Das muitas expressões que produzem gráficos em forma de S, a função logística é
ideal para este tipo de dado. Se b (inclinação da curva na região média) for negativo a curva está
virada de cabeça pra baixo, se o b é um número muito grande (positivo ou negativo) a curva
logística é muito íngreme que se parece um degrau e se for 0 a função logística é uma linha reta.
A teoria da regressão logística é difícil e os cálculos são complicados. No entanto, a maioria dos
programas gerais de estatística pode executar regressão logística, e não é mais difícil do que
executar um método linear simples ou de regressão linear múltipla. Tudo que tem que ser feito é:
verificar se o seu conjunto de dados tem uma coluna para a variável resultado e que esta coluna
tem apenas dois valores diferentes; verificar Verifique se o seu conjunto de dados tem uma
coluna para cada variável de previsão e que essas colunas estão em um formato que o software
aceite; os preditores podem ser quantitativos (como idade ou peso) ou categóricos (como gênero
ou grupo de tratamento); informar ao seu programa quais variáveis são as preditoras e o
resultado; informe ao seu programa qual saída você quer; pressionar o botão Go e ficar esperar.
O programa pode fornecer algumas informações descritivas de resumo sobre as variáveis:
médias e desvios-padrão dos indicadores que são variáveis numéricas, e uma contagem de
quantos assuntos fez ou deixou de ter o resultado no evento. Alguns programas podem também
fornecer a média e desvio padrão de cada variável numérica preditora. O resultado mais
importante a partir de um programa de regressão logística é a tabela de regressão dos
coeficientes, que se parece muito com a tabela de coeficientes de regressão linear ou
multivariada por mínimos quadrados. Cada variável de previsão aparece em uma linha separada.
Uma linha para o termo constante (ou intercepção). A primeira coluna é quase sempre o valor do
coeficiente de regressão. A segunda coluna é geralmente o erro padrão (SE) do coeficiente. A
coluna de valor p indica se o coeficiente é significativamente diferente de 0. Para cada variável de
previsão, a regressão logística também deve fornecer o odds e seu intervalo de confiança de 95
por cento, ou col - como adicional UMNS na tabela de coeficientes ou como uma tabela separada.
Se o software não fornece a fórmula, basta substituir a coeficiente de regressão da tabela de
regressão logística para a fórmula. O modelo final produzido pelo programa de regressão logística
é uma curva logística. Com a fórmula logística equipada, você pode prever a probabilidade de ter
o
resultado
se
você
sabe
o
valor
da
variável
preditora.
Mas às vezes você preferir fazer uma previsão sim ou não em vez de citar uma probabilidade.
Você pode fazer isso através da comparação da probabilidade calculada de conseguir um
resultado sim a alguns valores arbitrários de corte (como 0,5) que separa uma previsão sim a
partir de um sem previsão. Ou seja, você pode dizer: "Se a probabilidade prevista para um
assunto é maior do que 0.5, vou prever sim; caso contrário , eu vou prever não ".
O modelo de regressão logística pode fornecer várias saídas, mas estas saídas podem não ser
muito fáceis de interpretar. Você pode tabular os resultados previstos e observados em uma
tabela de classificação quádrupla. Na tabela de classificação, você pode calcular várias medidas
úteis da capacidade de predição do modelo para qualquer valor de corte especificado, como:
precisão geral, prever corretamente; sensibilidade, prever um resultado sim quando o resultado
real é sim; especificidade, prevendo um não no resultado, quando o resultado real é não.
Dependendo do teste e sobre o que acontece, um resultado falso-positivo ou falso-negativo, você
tem que considerar se alta sensibilidade ou especificidade elevada é mais importante, não ambos
ao mesmo tempo. Algumas pessoas podem dizer que a alta sensibilidade é mais importante do
que alta especificidade para um teste de câncer de cólon, enquanto o inverso é verdadeiro para
um teste de câncer de próstata. Mas outras pessoas podem discordar. Um modelo logístico
equipado com um conjunto de dados pode produzir qualquer sensibilidade (entre 0 e 3 por cento)
e de qualquer especificidade ( entre O e 100 por cento ), dependendo do valor de corte que você
selecionar. O truque é escolher um valor de corte que dá a melhor combinação de sensibilidade e
especificidade, atingindo o melhor equilíbrio entre previsões falso-positivas e falso-negativas. A
curva ROC ajuda você a escolher um valor de corte melhor entre sensibilidade e especificidade
para ter muito poucos falsos positivos. Para ter muito poucos falsos positivos: escolha um valor
de corte superior para dar uma elevada especificidade. Para ter muito poucos falsos negativos:
escolha
um
valor
de
corte
inferior
para
dar
maior
sensibilidade.
Todos os modelos de regressão com mais de uma variável de previsão pode ser atormentado
com problemas de colinearidade (quando dois ou mais variáveis de previsão são fortemente
correlacionada com o outro), e regressão logística não é exceção. Além disso, outro problema e a
separação completa, também chamado de o problema preditor perfeito, é um problema
particularmente desagradável (e surpreendentemente frequente) que é único para regressão
logística. Por incrível que possa parecer, é um fato triste que uma regressão logística falhará se
os dados é muito bom. O problema preditor perfeito pode “mordê-lo”, mesmo que cada variável
passa nos testes onde se analisa se todas as variáveis individuais podem ser preditores perfeitos,
uma vez que pode ocorrer se uma combinação de duas ou mais variáveis agindo em conjunto
pode separar completamente o resultado. Infelizmente, não há nenhuma maneira fácil de detectar
esta
situação,
classificando
graficamente
seus
dados.
Já no capítulo 21 são apresentados outros tipos úteis de regressão. A regressão de poisson, por
exemplo, é frequentemente e só deve ser usada, por ser um tipo de regressão especializada para
dada distribuição de dados, por estatísticos para analisar dados aleatórios independentes, com nº
de ocorrência de acidentes em um intervalo de tempo, avaliando a tendência de aumento se
significativa e taxa do aumento com erro padrão e intervalo de confiança. No entanto, a maioria
dos pacotes de software tem uma técnica mais geral chamado de modelo linear generalizado
(GLM) diferente do primeiro modelo linear generalizado abreviado como (LM). O GLM amplia os
recursões em poder especificar uma transformação que transforma a combinação linear para o
valor previsto, e também, os resultados poder ser contínuo ou inteiro, obedecendo a qualquer
uma das funções de distribuição como normal, exponencial, binomial ou de poisson.
A execução de uma regressão de poisson é semelhante a muitas tipos comuns de regressão,
partindo da montagem doa dados (linha e coluna), indicando as variáveis preditora e resultado
por nome ou coleta, dizendo o tipo de regressão específica a distribuição da variável dependente
e a função da ligação (mais complexo e precisa de domínio do software), pressiona o botão e é
só esperar. A saída, também, tem a mesma estrutura geral de outros tipos de regressão, com:
coeficiente de regressão (ascensão do nº de acidentes por ano); erro padrão (SE) precisão do
aumento da taxa estimada por ano; valor de p; AIC (quão bem se encaixa os dados neste
modelo). O programa p também pode fornecer a taxa de evento anual previsto para cada ano.
A regressão de Poisson pode fazer várias outras coisas, como: através do link “log”, é possível
transformar uma tendência linear em não linear (e.g. exponencial), encaixando melhor a taxa
acentuada de aumento observada nos dados usados pelo autor; permite fornecer, para cada
ponto de dados, um intervalo juntamente com a contagem do evento; comparar outros modelos
alternativos por meio do AIC; e acomodar sobredispersão para fazer a distribuição quase poisson
ao invés de poisson, que não se aplica em ocorrências não independente.
Outra regressão abordada pelo autor é a não linear, de existência mais independente, podendo
aparecer por conta própria em qualquer lugar da fórmula e os coeficientes são referidos como
parâmetros. A fórmula para ela pode ser qualquer expressão algébrica, qualquer número de
variáveis preditora e qualquer número de parâmetros mais até que variáveis de previsão. Na sua
execução, primeiro você decide qual função que você quer para se adequar aos seus dados,
depois fornece suposições para cada um dos parâmetros que aparecem na função, que será
refinado pelo software. Este refinamento pode não convergir para uma resposta, além desse
problema há todas as outras complicações das várias regressões não lineares, como a
colinearidade.
O software R, um dos vários pacotes estatísticos de ajuste de curva não linear, pode ler arquivos
de dados em vários formatos (Excel, Access, arquivo de texto, etc.), ou você pode atribuir os
valores diretamente. Após a obtenção dos dados deve-se especificar a equação a ser ajustada
aos dados, usando a sintaxe algébrica do R. Em seguida, você indica ao software os parâmetros
a serem instalados e você dá alguns palpites, e refina-os em estimativas mais próximas à
verdade,
repetindo
este
processo
até
que
ele
chegue
ao
melhor.
A saída da regressão é simples muito parecida com a saída de regressão linear, mostrando o
valor do parâmetro, o erro padrão, e o valor de p. A partir desses valores você pode calcular
outros parâmetros que desejar em sua pesquisa. Pode também, gerar facilmente o valor previsto
para cada ponto de dados, a partir dos quais você pode sobrepor a curva ajustada para os pontos
de dados observados. E ainda, fornece o erro padrão residual e o AIC.
Às vezes você quer ajustar uma curva suave para um conjunto de pontos que não parecem se
conformar com qualquer curva que você está familiarizado e não pode usar um método de
regressão linear ou não linear. O que você precisa é uma espécie de regressão não paramétrica
(e.g. LOWESS), que não assume qualquer modelo em particular (fórmula), mas sim apenas tenta
desenhar
uma
linha
suave
através
dos
pontos
de
dados.
Correr o LOWESS no software R é bastante simples, vó precisa fornecer o programa com as
variáveis x e y, e ele faz o resto. A sua única saída é uma tabela de valores de y suavizada, uma
para cada um dos dados, a partir do qual pode traçar uma linha sobreposta no gráfico de
dispersão. O programa ainda permite que você ajuste a “rugidez” da curva especificando uma
suavização (f= entre 0 e 1). Sempre que você faz regressões LOWESS, você tem que explorar
diferentes suavizações de frações para encontrar o ponto ideal que dá o melhor equilíbrio,
mostrando
as
características
reais.
ok
21. 
[0.000] (IP:281473886816205 | 20:07:10 | 23:34:16 | 27:06 | 2.368)
Discuta os principais caminhos para validação de modelos, e sua implicação na
regressão.
1) a forma funcional de como as variáveis preditoras devem entrar no modelo de
regressão;
2) interações importantes que devem ser incluídas no modelo
qual a relação da resposta com a pergunta pelamordedeus? Você nem menciona
validação, quanto mais suas consequências
22. 
[0.500] (IP:281473886816205 | 23:34:16 | 00:18:33 | 44:17 | 2653.902)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Existem duas principais estratégias no processo de seleção de variáveis:
Todos os modelos possíveis: considera todos os subconjuntos possíveis de variáveis explicativas,
e
considerando
critérios
de
avaliação,
seleciona
o
melhor
deles.
Seleção Automática: faz uma busca do melhor subconjunto de variáveis explicativas sem
considerar
todos
os
possíveis
subconjuntos.
Na prática, assumimos que a correta especificação funcional das variáveis explicativas é
conhecida (por exemplo, $ 1/x_1 $, $ ln~x_2 $) e que não há outliers ou pontos influentes e
então, aplicamos a técnica de seleção de variáveis. Entretanto, o ideal seria inicialmente,
Identificar
Identificar
Realizar
e
outliers
e
pontos
influentes,
eventuais
colinearidade
e
heteroscedasticidade,
quaisquer
transformações
que
sejam
necessárias,
então,
aplicar
seleção
de
variáveis.
e como seria esta seleção automática mesmo? além disto, de onde saiu esta estória de
correta especificação funcional, quanto mais o que você quer dizer com estes exemplos?
23. 
[1.500] (IP:281473886816205 | 00:18:33 | 00:36:00 | 17:27 | 2.912)
Discuta o significado e possíveis implicações do AIC
O critério de informação de Akaike, conhecido simplesmente como AIC, e
o critério de informação bayesiano, chamado de BIC, não são testes de hipótese, eles são
ferramentas para seleção de modelos. Os critérios de informação apresentam duas vantagens
sobre outros métodos de seleção como o R² de McFadden: O AIC e o BIC se baseiam na logverossimilhança como o outro método e, além disso, consideram e penalizam a complexidade do
modelo (número de parâmetros), o que busca o alinhamento com o princípio da parcimônia,
essencial na modelagem estatística. Além disso, os modelos que estão sendo comparados não
necessitam
ser
aninhados16,
o
que é a principal restrição na comparação de modelos via teste de hipótese.
só não vi qualquer coisa de implicação
24.  [4.000] (IP:281473697077837 | 13:05:58 | 23:41:34 | 35:36 | 6.369)
Discuta os capítulos desta semana.
O capítulo 19 aborda regressão múltipla.Esse tipo de função é utilizada quando há mais
que um preditor e mais do que dois parâmetros.Nesse caso, o ajuste que se faz no gráfico é de
um palno e não de uma reta, como no caso da regressão linear simples.A função múltipla é
representada
pela
fórmula:
Y=
β0+
β1X1+
β2X2+...+
βkXK+ε
A montagem de um modo de regressão múltipla linear envolve a criação de um conjunto de
equações simultâneas, uma para cada parâmetro no modelo. As equações envolvem os
parâmetros do modelo e as somas de vários produtos das variáveis dependentes e
independentes, assim como as equações simultâneas para a regressão linear. Os preditores de
um modelo de regressão múltipla pode ser numérico ou categórico. As diferentes categorias que
uma variável pode ter são chamados níveis. Se uma variavel, como gênero, pode ter apenas dois
níveis, como homem ou mulher, então ele é chamado de variável categórica binária; se ele pode
ter mais de dois níveis, eu chamá-lo de uma variável muitinivel. Antes de usar uma variável
categórica em um modelo de regressão múltipla é necessário, tabular quantos casos estão em
cada nível. É preciso ter pelo menos dois casos (e de preferência mais) em cada nível. Quanto
mais uniformemente os casos estiverem distribuídos nos níveis, mais preciso e confiável serão os
resultados. Se um nível não contém casos suficientes, o programa pode ignorar esse nível. Para
cada variável categórica em um modelo de regressão múltipla, o programa considera uma das
categorias a ser o nível de referência, e avalia como cada um dos outros níveis afeta o resultado,
em relação a esse nível de referência. Alguns softwares permitem que você especifique o nível de
referência para uma variável categórica. A escolha do nível de referência permite que os
resultados tenham significado. Se seu software de estatística permite que você insira variáveis
categóricas como dados de caracteres é necessário apenas se certificar de que, para cada
variável categórica, existirá casos suficientes em cada nível, e que o nível de referência foi
escolhido sabiamente. Alguns softwares aceitam apenas variáveis numéricas como preditores,
nesses casos é necessário recodificar as variáveis categóricas de texto descritivo dos códigos
numéricos. Quando se trabalha com preditores binários, os dados são recodificados de forma
muito simples e tomando como base o nível de referência pra 0 ou 1.Para as variáveis
categóricas com mais de dois níveis é preciso separar a variável multinível em variáveis binárias.
No texto, autor apresenta um exemplo com a variável raça e diferentes níveis(raça branca, raça
negra, raça asiática e outras).Se por exemplo o nível de referência for raça branca apenas a
variável correspondente a raça branca será recodificada com 1 e as demais serão recodificadas
como zero.Para melhor elucidar as questões relacionadas á regressão múltipla o exemplo contém
a idade, peso e pressão arterial sistólica de 16 indivíduos de um pequeno estudo clínico.Os
resultados do estudo clínico são expostos em forma de gráficos de dispersão obtidos a partir de
diferentes emparelhamentos entre as variáveis.Esses gráficos dão idéia, por exemplo, de como e
quanto as variáveis estão associadas umas com as outras,e se os gráficos apresentam ou não
outliers. O autor também faz menção a um conjunto de etapas gerais que devem ser seguidas
quando
se
trabalha
com
regressão
múltipla:
1. Montar os dados em um arquivo com uma linha por assunto e uma coluna para cada variável
que
se
deseja
no
modelo;
2. Dizer ao software qual variável é o resultado e quais são os preditores;
3.
Especificar
o
tipo
de
saída;
4.
Iniciar
os
cálculos.
O texto também exibe um tipo de saída típica de análise de regressão múltipla para o segundo
exemplo utilizado (estudo clínico).A partir da saída é possível observar que o modelo , gera
valores do resíduo, valores r, valores do desvio padrão, valor de p e valor de r quadrado ajustado.
O autor também aconselha que para efeitos práticos, é preferível trabalhar com, amostras de
tamanho simples e que a estimativa se baseie em um coeficiente de correlação clinicamente
significativo
entre
o
indicador
mais
importante
e
o
resultado.
Capítulo
20:
A regressão logística é utilizada para analisar a relação entre uma ou mais variáveis preditoras e
um resultado categórico variável (a variável Y).O uso da regressão logística depende como
qualquer
modelo,
do
objetivo
do
pesquisador:
- Desenvolver uma formula para prever a probabilidade de obter um resultado dos valores das
variáveis
de
previsão;
-Fazer ou não previsões sobre o resultado que levem em consideração consequências de falso positivos
e
falso
–
negativos;
-Ver
com
um
preditor
influencia
um
resultado
após
o
ajuste.
Para ilustrar os conceitos de regressão logística o artigo apresenta um exemplo onde o autor
examina a exposição à radiação de raios gama e seus efeitos a curto e longo prazo. O autor
também expõe uma tabela onde relaciona a dose com a letalidade. Os resultados são tratados
com variáveis binarias (entre 0 e 1) onde 0 corresponde ao individuo que sobreviveu e 1 o que
sobreviveu, o que resulta em resultados restritos a duas linhas horizontais tornando o gráfico
difícil de interpretar. Na montagem de uma função com forma S (função logística) é importante
não tentar encaixar os resultados em uma linha reta, em uma parábola ou qualquer polinômio
pois, para o exemplo citado, a fração de pessoas que morrem nunca podem se inferior a 0 ou
superior a 1, preceito que certamente seria violado caso fosse utilizada uma função com forma
diferente de S. Das muitas expressões matemáticas a função logística é a ideal para este tipo de
dados, uma vez que, devido a sua própria natureza não importa quão grande é o valor de x ou o
sinal, nunca será produzido um valor de Y fora da faixa 0 e 1. Na forma mais simples a função
logística
é
escrita
como:
Y=
1/(1+e-x)
A regressão logística é útil quando se trabalha com dados que produzem resultados extremos,
como é o caso do experimento com radiação onde há uma dose 0 nenhum individuo morre e a
doses extremamente grandes todo mundo morre. A regressão logística também pode ser
empregada quando se trabalha com vários preditores. Por exemplo, a probabilidade da pessoa
morrer por exposição a radiação, não dependera apenas à radiação propriamente dita, mas
também devido a fatores como idade, sexo, peso, estado de saúde geral, comprimento de onda
da radiação, quantidade de tempo de exposição à radiação. No texto o autor também discute
como utilizar a regressão logística em seu software e afirma que para tal é necessário que o
conjunto de dados tenham uma coluna para a variável resultável e que esta coluna tenha apenas
dois resultados diferentes. O conjunto de dados também devera ter uma coluna para cada
variável de previsão e as colunas deverão estar em um formato que o software aceite. Também é
necessário informar quais variáveis são preditoras e quais variáveis são resultado. Como o
programa fornece vários tipos de saídas de dados, é necessário informar o tipo de saída
desejada. O programa indica o quão bem o a função representa os dados e pode fornecer essas
medidas, a maioria das quais tem o valor de P associado. O programa também pode mostrar a
formula logística equipada onde é possível prever o resultado a partir do valor da variável de
previsão. Para o exemplo utilizado, o autor explica ainda, com é possível a partir do uso de
álgebra simples calcular doses eficazes na curva logística. O modelo logístico devidamente
equipado a um conjunto de dados, permite calcular a partir do preditor a probabilidade de ter o
resultado. Se a probabilidade prevista para um assunto é maior de 0,5 será previsto SIM, caso
contrario será previsto NÃO. A maioria dos softwares assume um valor de corte 0,5 a menos que
seja dito a ele que use um outro valor. Quando se escolhe um ponto de corte para a conversão de
uma probabilidade, muitas vezes pode-se atingir uma alta sensibilidade ou uma alta sensibilidade,
mas não as duas ao mesmo tempo. Dependendo do teste pode ser produzido um valor falsopositivo ou falso-negativo, é preciso considerar se alta sensibilidade ou especificidade elevada é
mais importante. A resposta para essa questão está na escolha de um valor de corte que dê a
melhor combinação de sensibilidade e especificidade, atingindo um melhor equilíbrio entre
previsões
entre
falso-positivas
e
falso-negativas.
Capítulo
21
O autor inicia o texto diferenciando o modelo linear generalizado e o modelo linear geral, e
demonstra que os dois só se assemelham no que diz respeito ás variáveis de previsão que
aprecem no modelo combinadas linearmente. Em seguida o autor discorre sobre a regressão de
Poisson. Segundo o autor a depender dos dados avaliados nem sempre é possível trabalhar com
um modelo de regressão linear , nesses casos, em geral utilizam-se modelos lineares
generalizados (MLG) que são uma poderosa alternativa para a transformação de dados. O
modelo de Poisson, é um modelo especifico do modelo linear generalizado e possui uma
distribuição de Poisson onde os dados devem possuir igual dispersão, ou seja, a média da
variável resposta deve ser igual à variância. O autor também lista uma série de passos para
executar uma regressão de Poisson e como interpretar a saída dos dados calculados pelo
programa. A saída tem a mesma estrutura geral que a produção de outros tipos de regressão
(valor de p, erro padrão, valor de z, coeficiente de regressão, AIC). A distribuição de Poisson é
aplicada quando os eventos observados são todos de ocorrências independentes. Mas esta
suposição não é cumprida se os eventos ocorrem em aglomerados. O desvio- padrão (DP ) de
uma distribuição de Poisson é igual ao quadrado raiz da média da distribuição. Mas se o
agrupamento está presente, e a DP dos dados for maior do que a raiz quadrada da média, ocorre
uma situação chamada sobredispersão. No texto, autor também aborda questões referentes aos
modelos não lineares, onde os coeficientes têm uma existência mais independente e podem
aparecer por conta própria, em qualquer lugar na fórmula. A fórmula para um modelo de
regressão não-linear pode ser qualquer expressão algébrica, envolvendo somas e diferenças,
produtos e relações, juntamente com qualquer combinação de logarítmica, exponencial ,
trigonométrica, e outros funções matemáticas avançadas. Como para qualquer tipo de regressão
antes de calcular os dados que serão analisados a partir do modelo de Poisson é necessário que
estes estejam organizados de acordo com o objetivo da pesquisa e saber se estes dados se
ajustam ao modelo escolhido, esse passo é muito importante, pois é a partir dele que serão
produzidos resultados significativos ou não. O ajuste de curva não linear pode ser realizado por
muitos pacotes estatísticos modernos, como SPSS, SAS, GraphPad Prism, e R, eles operam a
partir de uma equação que é gerada a partir dos dados e fornece os parâmetro que se deseja
conhecer. Os resultados obtidos em forma de gráfico em algumas situações onde se faz uso de
regressões não-lineares, pode exibir um conjunto de pontos que parecem não se ajustar a
nenhum tipo de curva conhecida(reta, parábola, exponencial , e assim por diante),nesses casos
não é possível escrever uma equação para a curva que você quer para se adequar. Para corrigir
esse tipo de problema, vários tipos de métodos de suavização de dados não paramétricos foram
desenvolvidos. Um popular é chamado o LOWESS, que significa suavização localmente
ponderada da dispersão. Muitos programas estatísticos, como SAS e R, pode fazer regressão
LOWESS e ela é obtida a partir da designição de valores x e y em função de valores f
específicos.
ok
25. [1.000] (IP:281473697077837 | 13:08:18 | 23:45:20 | 37:02 | 6.638)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Quando se tem em mãos um conjunto de dados é necessário escolher um modelo que
apresente o melhor ajuste aos dados. Existem alguns parâmetros que são utilizados para avaliar
a qualidade de um modelo, e é justamente baseado nesses parâmetros que se escolhe o modelo
que
mais
se
ajusta
aos
dados.
Esses
parâmetros
são:
- Soma dos quadrados do resíduo (SSR): É uma técnica matemática que tem por objetivo
encontrar o melhor ajuste para um conjunto de dados, através da minimização da soma dos
quadrados das diferenças entre o valor estimado e os dados observados. O método minimiza a
soma do quadrado dos resíduos da regressão, aumentando o ajuste do modelo aos dados.
Teste F: Quanto maior o F calculado, melhor a equação de regressão explica o comportamento
das variáveis. Ou seja, a probabilidade dos resultados observados serem devidos ao efeito do
tratamento para um valor de f significativo é infinitamente superior do que ser devido ao acaso.
- Coeficiente de determinação (R²): É um coeficiente que informa o quanto a equação da
regressão explica a variação da variável dependente(Y). O R² pode assumir valores de 0 a 1.
Quanto mais os valores se aproximam de 1 melhor a equação explica a relação entre a variável
independente e a variável dependente, ou seja, os pontos apresentam bom ajuste. Em situação
oposta quanto mais os valores se aproximam de zero, menor é o ajuste, ou seja, a equação não
serve , ou explica pouco a relação entre a variável dependente e a variável independente. Logo o
R² é um bom critério para selecionar a melhor regressão. Porém, é preciso atentar para a
quantidade de preditores do modelo, pois quanto mais preditores existem no modelo maior é o
valor de R².No entanto, os preditores nem sempre tem um significado forte, o que contribuirá para
o valor do coeficiente de determinação não corresponder à realidade. Nesses casos é necessário
fazer
uso
do
coeficiente
de
determinação
ajustado.
- Coeficiente de determinação ajustado: O R² ajustado não aumenta conforme o número de
variáveis independentes é aumentado.Nesse caso o valor só aumenta se os parâmetros inseridos
no modelo forem de fato significativos. Por isso a depender do tipo de dados que se trabalha é
preferível optar usar o valor de R² ajustado como critério por ele explicar melhor a relação entre
as
variáveis
em
estudo.
- Cp (Cp de Mallows): O critério Cpde Mallows é baseado no conceito do erro quadrático médio
(EQM) dos valores ajustados pode ser determinado pela seguinte equação:Cp=(SQE(p)/QME)n+2(p+1)
Onde:
SQE
é
a
soma
dos
quadrados
dos
resíduos
QME
é
o
quadrado
médio
do
modelo
máximo
n
número
de
amostras
p
o
número
de
variáveis.
Selecionar modelos tomando como base o Cp consiste em encontrar modelos com valores de Cp
próximo
do
número
de
parâmetros
(p
+1).
- AIC (Critério de informação de Akaike):O critério admite a existência de um modelo “real” que
descreve os dados que é desconhecido, e tenta escolher dentre um grupo de modelos
avaliados.Esse critério considera que quanto menor o valor de AIC,melhor a equação explica a
relação
entre
as
variáveis.
misturou os critérios de escolha de modelo com as estratégias de seleção. O critério é
como se decide qual dos diferentes modelos definidos em função da estratégia deve ser
adotado.
26. 
[1.500] (IP:281473652438950 | 16:34:40 | 19:55:27 | 20:47 | 9.189)
Discuta os principais caminhos para validação de modelos, e sua implicação na
regressão.
Devemos sempre lembrar de checar a colinearidade e premissas da análise de variância,
desenhar bem a coleta de dados, feito isso, o procedimento para verificar a confiabilidade. A
preocupação fundamental da validação do modelo é garantir que os resultados sejam
generalizáveis à população e não específicos a amostra usada na estimação. A abordagem mais
direta de validação é obter outra amostra da população e avaliar a correspondência dos
resultados das duas amostras. Na ausência de uma amostra adicional pode-se avaliar a validade
dos resultados de diversas maneiras. A primeira envolve o exame do valor R² ajustado, para
verificar, por exemplo, se o modelo estimado não está superajustado à amostra, mantendo uma
proporção
adequada
de
observações
por
variáveis
na
variável
estatística.
Uma segunda abordagem é dividir a amostra, novos dados (uma nova amostra) ou, então, uma
amostra reservada dos dados, que devem ser separados aleatoriamente antes da análise, deverá
ser usada para verificar se o mesmo modelo pode ser usado com estes dados novos, se os
coeficientes de regressão e os erros padrões são similares, e se as mesmas conclusões
inferenciais seriam obtidas. Estima-se, portanto o modelo de regressão das amostras que foram
separadas e comparam-se os resultados obtidos. Todavia o ideal seria fazer outro experimento
para ver se essa regressão se confirma, mas isso teria uma grande inconveniência, que seria o
custo
da
implantação
de
mais
um
experimento.
parece haver uma certa mistura entre validação e avaliação do modelo no ponto em que
fala do R² ajustado.
27. 
[4.000] (IP:281473652438950 | 16:35:11 | 19:57:34 | 22:23 | 5.119)
Discuta os capítulos desta semana.
Capítulo 19: Regressão múltipla – a regressão múltipla é formalmente conhecida como
modelo comum de regressão linear múltipla, onde comum refere-se a variável que é uma variável
numérica múltipla refere-se ao modelo que tem mais de duas variáveis de previsão e linear
refere-se ao modelo que apresenta cada variável de previsão multiplicada por um parâmetro, e
estes produtos são adicionados em conjunto para dar o valor previsto do resultado. A análise de
regressão múltipla é uma metodologia estatística de previsão de valores de uma ou mais
variáveis de resposta (dependentes) através de um conjunto de variáveis explicativas
(independentes). Podemos usar a regressão múltipla em preparação de curvas de calibração,
testes de modelos teóricos, obtenção de valores de parâmetros com o significado físico ou
biológico, entre outros. Todas estas razões são aplicáveis à regressão múltipla. Sua aplicação é
especialmente importante, pois permite que se estime o valor de uma variável com base num
conjunto de outras variáveis. Existem vários programas que fazem regressão múltipla, ou seja,
não precisamos executar esse procedimento a mão. Programas como SPSS, estatístico R, SAS.
É necessário fazer uma preparação dos dados, pois um erro muito comum de vários
pesquisadores é fazerem a execução imediata de uma regressão – ou alguma análise estatística
– antes de dar uma olhada nos seus dados. O interessante é tabular os dados e observar como
os valores das variáveis são distribuídos. Antes de tirar conclusões a partir de qualquer análise
estatística, devemos nos certificar se os dados cumprem os pressupostos em que análise foi
baseada. Duas hipóteses de regressão linear incluem o seguinte: que a quantidade de
variabilidade nos resíduos é relativamente constante e não dependem do valor da variável
dependente e os resíduos devem ser aproximadamente distribuídos normalmente. O importante é
saber se os pontos parecem se espalharem uniformemente a cima e abaixo da linha ou estão ao
longo da linha pontilhada. Existem situações especiais que surgem em regressão múltipla como:
a interação – é quando duas variáveis exercem um efeito sinérgico em um resultado, podendo ser
positivo ou negativo. Colinearidade – é um problema computacional que se desenvolve quando
duas ou mais variáveis independentes possuem forte correlação. Isto pode introduzir sérios erros
na previsão da variável dependente e torna difícil saber qual das variáveis realmente influenciou
no resultado, felizmente é um erro de fácil detecção e correção. Podemos detectar através do
teste t quando este assume resultados muito pequenos, R2 ou estatística F são muito grandes ou
a variação de alguma variável independente for negativa. E para correção deste erro é necessário
que
uma
das
variáveis
seja
então
excluída.
Capítulo 20: Regressão logística- é utilizada para analisar entre uma ou mais variáveis de
previsão e um resultado categórico, ou seja, apresenta níveis. Resultados categóricos incluem,
por exemplo: vivo ou morto, chover ou não chover, respondeu ou não respondeu a um
tratamento. Você pode usar uma regressão logística para testar se o preditor e o resultado estão
associados de forma significativa; quantificar extensão de uma associação entre o indicador e o
resultado; desenvolver uma formula para prever a probabilidade de obter o resultado dos valores
das variáveis de previsão; fazer ou não previsões sobre o resultado que leva como
consequências de previsões de falso-positivo e falso-negativo; determinar o valor de um preditor
que produz uma probabilidade para o resultado. Na função logística não devemos encaixar dados
binários em uma reta, em vez disso devemos atender a uma função que tem forma de S (uma
forma que da Y envolvendo X e nunca produzir resultados que estejam fora da faixa de 0 a 1). Na
função logística a parte a + bx determina a reta e a inclinação da curva será determinada por b.
se b é positivo, a função logística é um S em forma de curva com inclinação ascendente; se b é
zero, a função logística é uma linha reta ou horizontal cujo o valor de y é igual a 1; se b é
negativo, a curva é virada de cabeça para baixo; se b é um numero muito grande (positivo ou
negativo) a curva logística é tão íngreme que é chamada de função degrau. Assim como o
modelo de regressão linear simples pode ser generalizado para lidar com vários preditores,
podemos generalizar a forma logística para lhe dar com vários preditores da mesma forma, por
exemplo, a chance de uma pessoa morrer de exposição à radiação pode depender não só da
dose recebida, mas também da idade, sexo, peso, estado geral da saúde, tempos de exposição.
Suponha que y é dependente de três preditores x, v e w, a regressão logística encontra os
melhores valores dos parâmetros a, b, c e d, de modo que para qualquer conjunto particular de
valores para x, v e w, podemos prever y. Para ocorrer uma regressão logística é preciso: se o
conjunto de dados tem uma coluna para variável resultado (e que esta tem apenas dois valores) e
uma coluna para variável de previsão (e que esta esteja no formato que o software aceite);
informar ao programa quais variáveis são os preditores e qual variável é o resultado; informar ao
programa o que se quer (um resumo das informações sobre as variáveis, medidas de ajuste, uma
tabela de coeficiente de regressão, incluindo razão de chance e seus intervalos de confiança;
medidas de previsão; curva ROC). As medidas de previsão em regressão logística estão
relacionadas à questão de sensibilidade (capacidade de prever um resultado sim, quando o
resultado real é sim) e especificidade (capacidade de prever um resultado não, quando o
resultado real é não). A curva ROC é um gráfico que mostra um trade off
sensibilidade/especificidade, mostrando a gama completa de sensibilidade e especificidade que
pode ser alcançada para qualquer modelo logístico com base nos valores de corte selecionados
entre 0 e 1. Para não gerar erros em regressão logística não devemos colocar dados numa
função logística para dados não logísticos; deve-se checar a colinearidade; verificar a existência
de inversão da codificação da variável resultado e ter cuidado ao interpretar os odds ratio.
Capítulo 21 – Outros tipos úteis de regressão – os modelos lineares generalizados (MLG)
representam a união de modelos lineares e não lineares, como a regressão múltipla, logística, ou
Poisson. Muitos softwares oferecem MLG, para não precisar programar outras regressões
especializas, ou seja, se o pacote não oferece regressão logística ou de Poisson, e dispõe de
MLG, o problema esta resolvido. A regressão de Poisson tem por característica a analise de
dados contados na forma de proporções ou razoes de contagem, por exemplo, o total de pessoas
com uma determinada doença. Diferente das regressões lineares, nas regressões não lineares os
coeficientes já não aparecem emparelhados com variáveis preditoras, são mais independentes,
eles são referidos como parâmetros. Existindo assim varias funções não lineares que podem ser
encontradas em pesquisas biológicas. Para suavizar uma curva é preciso uma espécie de
regressão não paramétrica – que não assume qualquer modelo em particular, mais tenta
desenhar uma linha suave através dos pontos dos dados. Um dos métodos mais utilizados é o
LOWESS, muitos programas estatísticos como SAS e R podem fazer esse tipo de regressão.
Quando aplicar o LOWESS deve-se dar os valores de x, y e f, sendo o valor de f entre 0 e 1, este
valor
deve
ser
escolhido
de
forma
a
interpretar
melhor
os
dados.
ok
28. 
[2.000] (IP:281473652438950 | 16:35:31 | 19:57:54 | 22:23 | 2.972)
Discuta o significado e possíveis implicações do AIC
O Critério de Informação de Akaike (AIC) é uma medida geral da qualidade de ajustamento
de modelos e admite a existência de um modelo "real" que descreve os dados que é
desconhecido, e tenta escolher dentre um grupo de modelos avaliados. Esse índice observa ao
mesmo tempo a qualidade da ligação entre as variáveis com o número variáveis que é utilizado
(parecido com o R² em termos de log), ou seja, a quantidade de variáveis que entra com a
quantidade de dados explicados simultaneamente. Quanto menor o índice (AIC) mais ele explica
com menor custo em número de variáveis, portanto o melhor.
excelente explicação do conceito
29. 
[2.000] (IP:281473652438950 | 16:35:53 | 19:58:35 | 22:42 | 16.222)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Visando obter o modelo que melhor explique um determinado comportamento a partir de
um conjunto de dados coletados, faz-se necessário avaliar e adotar alguma técnica que facilite a
escolha adequada (acertada) por um determinado modelo, através de algum critério de escolha
previamente determinado. Baseando-se nisto, existem algumas técnicas que podem ser utilizadas
com
este
objetivo,
a
saber:
- Testar todas as regressões possíveis: A partir desta técnica, é possível testar todos os modelos
possíveis que poderiam explicar o maior número de variáveis possível, onde para um número de
parâmetros (p), existe 2p – 1 de modelos possíveis. Desta forma, há uma garantia de que há uma
solução para qualquer conjunto de variáveis utilizadas, sendo necessário, apenas, avaliar o
critério de escolha para chegar no modelo mais adequado. Entretanto, existe limitação de
informações quando utiliza-se esta técnica, uma vez que o modelo selecionado somente atende
para àquela condição específica, considerando um número p de parâmetros, para aqueles dados
em particular. Isto implica em não sabermos se todos os parâmetros considerados contribuem e
como contribuem (em maior ou menor grau) para o comportamento da variável dependente, ou
seja, os parâmetros são considerados independentemente de sua importância. Além disso, existe
uma dificuldade no entendimento estatístico e matemático quando o número de parâmetros
aumenta, complicando o manejo da regressão, além de aumentar a chance de cometer o erro tipo
I.
- Eliminação para trás: Técnica baseada em testar todos os parâmetros gerando todos os
modelos possíveis, contudo, diferentemente do teste de todas as regressões possíveis, a
eliminação para trás testa também todos os modelos com p-1 variáveis, ou seja, a medida que se
retira uma variável, faz-se um novo teste. Vale ressaltar que as variáveis retiradas são aquelas
consideradas menos importantes e o teste é cessado quando a retirada de uma variável implica
na perda de significância do modelo ou na perda razoável de sua importância. Portanto,
considera-se que retirar variáveis de pouco ou nenhum efeito não traz ônus para a significância
do modelo, ou seja, com ou sem estas, a explicação do comportamento não é comprometida.
- Eliminação para frente: Baseia-se no mesmo princípio da eliminação para trás, ou seja, na
desconsideração das variáveis menos importantes, todavia, o início do teste é inverso,
considerando primeiramente uma variável e a cada adição de uma nova variável, faz-se o teste.
- Stepwise (forward): Pode ser considerada uma técnica que reúne os melhores pontos das
outras técnicas discutidas anteriormente. Baseia-se na seleção para frente, ou seja, inicia-se o
teste com uma variável e vai adicionando-se variável a variável, mediante um teste para cada
adição. A vantagem envolvida no stepwise é que as variáveis podem ser retiradas ou
adicionadas, verificando a melhor combinação possível e, consequentemente, o melhor modelo.
Isto não é verificado nas técnicas anteriores em que uma vez retirada uma variável, não é
possível
colocá-la
novamente.
Apesar da vantagem explícita, vale salientar que existem algumas limitações quanto ao seu uso,
principalmente por aumentar razoavelmente a chance de cometer o erro tipo I quando
comparada, por exemplo, ao teste que considera todas as regressões possíveis, já que há um
aumento
no
número
de
testes
realizados.
ok
30. 
[4.000] (IP:281473653672857 | 22:04:58 | 22:19:48 | 14:50 | 3.079)
Discuta os capítulos desta semana.
Capítulo
19:
Regressão
Múltipla
A regressão múltipla, contem mais de um preditor (e mais do que dois parâmetros). Por duas
variáveis de previsão, um plano é ajustado para um conjunto de pontos em três dimensões, com
mais de dois preditores é ajustado em um hiperplano aos pontos em quatro ou mais espaço
dimensional. A regressão múltipla é formalmente conhecida como o modelo de regressão linear
múltipla ordinária, onde ordinária significa que a variável é uma variável numérica contínua cujas
flutuações aleatórias são normalmente distribuídas; múltipla que o modelo tem mais de duas
variáveis de previsão; e linear que cada variável de previsão é multiplicada por um parâmetro, e
estes produtos são somados para dar o valor previsto da variável. Como fUncões lineares tem-se
como exemplo: Y = a + bX (linear simples); Y = a + bX + cX 2; Y = a + bX + CZ + DXZ.
Como razões para se aplicar a regressão múltipla pode-se citar: testes de análise de regressão
para a associação significativa, obtendo uma representação compacta dos dados, fazer previsões
e prognósticos, realizando operações matemáticas sobre os dados , preparando-se curvas de
calibração, testando modelos teóricos, e na obtenção de valores de parâmetros que têm
significado
físico
ou
biológico.
A montagem de um modo de regressão múltipla linear envolve basicamente a criação de um
conjunto de equações simultâneas, uma para cada parâmetro no modelo. As equações envolvem
os parâmetros do modelo e as somas de vários produtos das variáveis dependentes e
independentes, assim como as equações simultâneas para a regressão linear.
Os preditores de um modelo de regressão múltipla pode ser numérico ou categórico. As
diferentes categorias que uma variável pode ter são chamados níveis. Se variáveis, como gênero,
pode ter apenas dois níveis, como homem ou mulher é uma uma variável categórica binária e se
tem mais de dois neveis variável múltipla. Antes de usar uma variável categórica em um modelo
de regressão múltipla, deve-se tabular quantos casos estão em cada nível, sendo necessários
pelo menos dois casos em cada nível. A partir de uma variável múltipla pode-se formar variáveis
binárias com os níveis de acordo com o foco da pesquisa. Para cada variável categórica em um
modelo de regressão múltipla, o programa considera uma das categorias a ser o nível de
referência, e avalia como cada um dos outros níveis afeta o resultado, em relação a esse nível de
referência. O nível de referencia deve ser escolhido corretamente para que os resultados sejam
significativos
- Para uma variável que representa a presença ou a ausência de uma condição, o nível de
referência
deve
representar
a
ausência
da
condição.
- Para uma variável que representam os grupos de tratamento, o nível de referência deve ser o
tratamento
padrão.
- Para uma variável que representa uma característica assunto, como sexo ou raça, o nível de
referência
é
arbitrário.
Algumas etapas gerais devem ser tomadas com o software para executar a regressão múltipla
como montar os dados em um arquivo com uma linha por assunto e uma coluna para cada
variável que você deseja no modelo; dizer ao software qual variável é o resultado e quais são os
preditores.
Na saída da maioria dos programas pode-se avaliar a descrição do modelo a ser montado, um
resumo dos resíduos, a tabela de regressão, o erro padrão, os valores de t e p, o valor de p
ajustado, o erro padrão residual, o R-quadrado e o teste F. E dependendo do software, se pode
também obter vários outros resultados úteis da regressão como os valores previstos para a
variável dependente e residuais. Antes de se ter conclusões deve-se decidir se os dados são
adequados para a análise de regressão, observando a quantidade de variabilidade, os resíduos é
relativamente constante e não depende do valor da variável dependente e se os resíduos são
aproximadamente normalmente distribuídos. Deve-se ainda determinar se o modelo se ajusta
bem ao conjunto de dados observando o erro padrão residual é a dispersão média dos pontos
observados a partir do modelo ajustado (quanto menor esse número, melhor), o valor múltiplo R2
(quanto maior for , melhor o ajuste) e o teste F de significância que indica que o modelo prevê o
resultado
significativamente
melhor
do
que
o
modelo
nulo.
O comportamento simultâneo de dois preditores pode influenciar um resultado através de
interações (sinérgicos e anti-sinérgicos) e de colinearidade. Em alguns casos acontece que duas
variáveis de previsão exercem uma efeito sinérgico sobre um resultado. Isto é, se ambos os
preditores fossem aumentados em uma unidade, o resultado seria alterado por mais do que a
soma dos dois. Se o coeficiente de interação tem um valor de p significativo (p <0,05), então as
duas variáveis têm sinergia significativa entre eles. O sinal do coeficiente indica se a sinergia é
positiva
ou
negativa
(ANTT-sinergia).
Capítulo
20:
Regressão
Logística
A regressão logística pode ser usada para analisar a relação entre uma ou mais variáveis de
previsão (as variáveis x) e um resultado variável categórico (variável Y). Através desta regressão
pode-se testar se o preditor e o resultado são significativamente associados, superar as
limitações do método de tabulação cruzada 2x2, quantificar a extensão de uma associação entre
o indicador e o resultado, desenvolver uma fórmula para prever a probabilidade de obter o
resultado dos valores das variáveis de previsão, fazer sim ou não previsões sobre o resultado que
leva em conta as conseqüências de previsões falso-positivos e falso- negativos, ver como um
preditor influencia o resultado após o ajuste para a influência de outras variáveis e determinar o
valor de um preditor que produz uma certa probabilidade obtendo o resultado.
Neste capítulo o autor explica a regressão logística envolvendo dados sobre mortalidade por
exposição a radiação. Este exemplo examina a exposição à radiação de raios gama, que está em
doses elevadas o suficiente para ser mortal e os efeitos na saúde a longo prazo. No primeiro
gráfico apresentado é feita uma relação entre dose e letalidade, a dose recebida no eixo X
(preditor) e o resultado (0 viveu; 1 morreu ) no eixo Y. Como a variável de resultado é binária, os
pontos são restritos a duas linhas horizontais, tornando o gráfico da difícil de interpretar. Para
uma melhor interpretação pode-se agrupar as doses em intervalos e plotar a fração de pessoas
em cada intervalo que morreu. Quando se tem vários preditores de um resultado sim ou não
pode-se usar o modelo logístico multivariável Y=1/(1 + e - (a+bX+Cv+Dw).
Para executar a Regressão Logística com Software é preciso verificar se o conjunto de dados tem
uma coluna para a variável resultado e que esta coluna tem apenas dois valores diferentes,
verificar se o conjunto de dados tem uma coluna para cada variável de previsão e que essas
colunas estão em um formato que o software aceita, informar o programa de quais variáveis são
os preditores e qual variável é o resultado e informar o programa que se deseja. Podem ser
obtidos o resumo das informações sobre as variáveis, medidas de bom de ajuste, tabela de
coeficientes de regressão, incluindo razões de chance e seus intervalos de confiança entre
outros.
Dependendo do seu software utilizado para a regressão logística pode-se observar um valor p
associado com o desvio de queda entre o modelo e do modelo final, um valor p do teste de
Hosmer
–Lemeshow,
um
ou
mais
valores
pseudo-R-quadrado.
O resultado mais importante a partir de um programa de regressão logística é a tabela de
coeficientes de regressão. Nela cada variável de previsão aparece em uma linha separada, há
uma linha para o termo constante, a primeira coluna é quase sempre o valor equipada do
coeficiente de regressão, a segunda coluna é geralmente o erro padrão de coeficiente e a coluna
de valor p indica se o coeficiente é significativamente diferente de 0. Para cada variável de
previsão, a regressão logística também deve fornecer o acréscimo de relação e seu intervalo de
confiança
de
95%.
O modelo final produzido pelo programa de regressão logística e a curva logística resultante.Um
modelo logístico, devidamente equipado a um conjunto de dados , permite calcular a
probabilidade de ter o resultado. Mas às vezes você preferir fazer uma previsão sim ou não em
vez de citar uma probabilidade. Você pode fazer isso através da comparação da probabilidade
calculada de conseguir um resultado sim a algum valor de corte arbitrário (como 0,5) que separa
uma
previsão
sim
a
partir
de
um
sem
previsão.
O programa de regressão logística fornece várias saídas de bondade de ajuste, mas estas saídas
podem não ser muito fácil de interpretar. Um outro indicador , o que é muito intuitivo , é a
extensão em que seu sim ou não coincide com as previsões dos resultados reais. Em uma das
tabelas o autor mostra qratro quatros ilustrando a sensibilidade e especificidade, onde tem-se
como precisão geral quando prevê corretamente, Sensibilidade quando prevê um resultado sim
quando o resultado real é sim e especificidade quando prevê um não desfecho, quando o
resultado
real
é
não.
As curvas de ROC mostram a troca de sensibilidade/especificidade para qualquer modelo
logístico montado. Ela ajuda a escolher um valor de corte que dá o melhor compreensão entre
sensibilidade e especificidade para ter muito poucos falsos positivos ou muito poucos falsos
negativos.
Alguns cuidados devem ser tomados ao se aplicar a regressão logística. Não utilizar regressão
logística para ajustar os dados que não se comportam como a curva logística S. Tomar cuidado
com a colinearidade e o desaparecimento significativo, verificar a existência de codificação
reversa da variável de desfecho, não interpretar mal para predição numérica e para predição
categórica e ter cuidado com a separação completa são os cuidados a serem tomados.
Capítulo
21:
Outros
tipos
de
regressão
Regressão
de
Poisson
Os estatísticos frequentemente tem que analisar os resultados que consistem no número de
ocorrências de um evento sobre algum intervalo de tempo, como o número de acidentes fatais em
rodovias em uma cidade em um ano. Se as ocorrências parecem estar ficando mais numerosas
conforme o tempo passa, você pode querer executar uma análise de regressão para ver se a
tendência de aumento é estatisticamente significativa e estimar a taxa anual de aumento (com o
seu erro padrão e intervalo de confiança). Como os eventos aleatórios independentes (como
acidentes rodoviários) deve seguir uma distribuição de Poisson, eles devem ser analisados por
uma
espécie
de
regressão
de
Poisson
projetado
para
os
resultados.
A maioria dos pacotes de software de estatística não oferecem nada de explicitamente do
chamado Regressão de Poisson: Em vez disso, eles têm uma técnica de regressão mais geral
chamada de modelo linear generalizado (GLM). O modelo linear generalizado é semelhante ao
modelo linear geral apenas em que as variáveis de previsão geralmente aparecem no modelo de
como
a
combinação
linear
familiar.
Para se executar uma regressão de Poisson é preciso montar os dados, indicar no software que
as variáveis preditoras e de desfecho são, ou por nome ou por coleta a partir de uma lista de
variáveis e que o tipo de regressão que se deseja levar a cabo especificando a família de
distribuição da variável dependente e a função de ligação. A saída da regressão de Poisson tem a
mesma
estrutura
geral
que
a
produção
de
outros
tipos
de
regressão.
Com a regressão de Poisson pode-se examinar as tendências não lineares, comparar modelos
alternativos,trabalhar com observações desiguais de intervalos e acomodar eventos agrupados.
Regressão
não-linear
Na regressão não-linear, os coeficientes não têm de aparecer emparelhado com variáveis
preditivas, eles agora têm uma existência mais independente e pode aparecer por conta própria,
em qualquer lugar na fórmula. A fórmula para um modelo de regressão não-linear pode ser
qualquer expressão algébrica, envolvendo somas e diferenças, produtos e relações, e poderes e
raízes, juntamente com qualquer combinação de logarítmica, exponencial , trigonométrica, e
outras funções matemáticas avançada. A fórmula pode conter qualquer número de preditor
variáveis
e
qualquer
número
de
parâmetros.
excelente
31. 
[2.000] (IP:281473653672857 | 22:05:10 | 22:19:50 | 14:40 | 0.752)
Discuta diferentes estratégias para seleção do melhor modelo de regressão linear
múltipla
Testar Todas as Regressões Possíveis – é a estratégia que garante o melhor modelo de
regressão possível, no entanto dependendo do número de variáveis que compõem o modelo
haverá um número de combinações diferentes, quanto mais variáveis maior será o número de
combinações, como exemplo um conjunto de 10 variáveis gera 1023 modelos possíveis. Dessa
forma em casos onde há o número muito grande de variáveis, torna-se complicado avaliar todas
as regressões possíveis, sendo que a cada teste realizado acarretará um aumento de chances de
cometer
o
erro
tipo1.
Eliminação Para Trás – o processo inicia-se com a regressão completa utilizando todas as
variáveis e em cada estágio é eliminada uma variável. Todos os modelos são testados menos
uma variável, avaliando o efeito da retirada da ultima variável de cada modelo, em seguida,
elimina-se a variável que apresentou menor efeito com sua retirada. A variável retirada não é
reaproveitada. Depois reinicia novamente o processo, até se obter um menor modelo de
regressão
que
explicará
tão
bem
quanto
a
equação
completa.
Seleção Para Frente – Tem o mesmo principio do método de eliminação para trás, só que este é
realizado em sentido contrário. Dessa forma a cada etapa é acrescentada um variável a começar
das mais importantes até se chegar ao modelo que melhor explique o conjunto de dados.
Stepwise (forward) – é uma mistura das técnicas anteriores que conduz à melhores resultados. O
princípio operacional é semelhante ao da seleção para frente, mas em cada estágio realiza-se um
passo de eliminação para trás, retirando uma das variáveis já presente. Neste modelo são
testadas todas as variáveis, sendo que diferentemente do modelo anterior as variáveis retiradas
podem ser novamente introduzidas de forma que é dado um passo para frente e dois para trás,
assim ao retirar a uma variável outra variável retirada anteriormente é novamente testada. Por
conter mais variáveis este modelo possui maior confiabilidade. Porém, como ocorre um aumento
muito grande no número de testes de variáveis as chances de cometer o erro tipo 1 aumentam.
Stepwise (backward) – Esta técnica é realizada da mesma forma que a anterior põem ao contrario
desta,
de
trás
para
frente.
bem sintetizado
32. 
[2.000] (IP:281473653672857 | 22:05:19 | 11:47:26 | 42:07 | 2888.507)
Discuta os principais caminhos para validação de modelos, e sua implicação na
regressão.
Existem dois principais caminhos para a validação de modelos: o primeiro é o estudo
confirmatório que seria a montagem de um experimento extra para avaliar a confiabilidade do
modelo. Esse método garante uma nova situação experimental e consequentemente uma nova
variação do acaso, assim pode-se testar se as estimativas do modelo selecionado explica
realmente o que acontecerá nesse novo experimento. No entanto a desvantagem deste é o alto
custo. Uma alternativa de menor custo seria a implantação de um bloco extra no experimento
para que os dados desse bloco sejam analisados separadamente. Com o modelo selecionado é
feito um teste para correlacionar se as estimativas do modelo correspondem ao que acontecerá
com o novo conjunto de dados, deve ser verificado o modelo com os dados separados e com os
resultados dos novos dados. A principal desvantagem desse método, é que este apresenta as
mesmas condições experimentais do conjunto de dados separados ao restante do tratamento que
gerou o modelo. Se existir correlação entre o modelo e os novos dados, o modelo explica o que
acontece com o novo conjunto de dados, o modelo pode ser generalizado para a população e se
não existir a correlação o modelo é especifico para as amostras e não pode ser generalizado para
explicar o que acontece na população.
ótimo
33. 
[2.000] (IP:281473653672857 | 22:05:26 | 22:20:03 | 14:37 | 10.116)
Discuta o significado e possíveis implicações do AIC
O Critério de informação de Akaike (AIC) é uma medida geral da qualidade de ajustamento
de modelos a partir da distância ou informação, onde esta distância é uma medida de
discrepância entre as linhas do modelo verdadeiro e o modelo aproximado, em que os modelos
são penalizados em função do número de parâmetros. Pode também ser usado como um
procedimento
para
identificação
de
modelo
estatístico
ou
modelo
misto.
O
AIC
é
definido
como:
AIC
=
2
x
(k-L)
/
N
Onde, L é a estatística log verossimilhança, N o número de observações e k o número de
coeficientes
estimados
(incluindo
a
constante).
Quanto menor for o valor encontrado, mais o modelo explica com o menor custo em número de
variáveis.
O IAC considera como características, a qualidade da informação, a ligação entre as variáveis
(como estas se correlacionam) e o número de variáveis aplicadas ao modelo. Este critério tende a
penalizar modelos constituídos por muitas variáveis, dessa forma quanto menor for o número de
variáveis mais o modelo aproximará de uma explicação lógica do que é a realidade.
excelente
Download