Análise de Dados Categorizados com variabilidade extra

Análise de Dados Categorizados com variabilidade extra e dependência
na presença de covariáveis.
Paulo J. Ogliari,
Dalton F. Andrade,
Juliano A. Pacheco.
Na análise de dados categorizados é freqüente a necessidade de se incluir variáveis
explanatórias (contínuas ou categorizadas) para levar em consideração certas características
associadas aos indivíduos ou aos fatores sob estudo. Em muitas situações, a suposição de
probabilidades de respostas constantes dos indivíduos e a condição de independência entre
os mesmos não são verificadas. Este é o caso do estudo que será considerado neste
trabalho, onde alunos de 1ª série do ensino fundamental, de quatro diferentes classes, são
submetidos a um teste composto de 16 itens, com o objetivo de avaliar dois métodos de
ensino. Além das respostas dos alunos aos itens, foram registradas também várias
características deles como: sexo, idade e escolaridade dos pais. São discutidos os modelos
lineares generalizados para dados binomiais e multinomiais, os modelos beta-binomial e
Dirichlet-multinomial. Por último, são introduzidos os modelos lineares hierárquicos
generalizados para a modelagem da natureza hierárquica dos dados.
Modelos de Regressão Logística Binomial
No estudo de respostas binárias, considere Yi variáveis aleatórias relativas ao
número de acertos num conjunto de mi itens, i=1,...,n, com distribuição Bin(mi; πi), sendo
πi a probabilidade de sucesso. A média e a variância de Yi são dadas por
E (Y i| πi ) = mi πi
e
Var( Yi | π i)=mi πi (1- πi)
Podemos modelar as proporções esperadas πi, considerando q variáveis
explanatórias X1, X2, ..., Xq, por
Ni = log(π i |(1C)) = Bo + B1.X1i + B2.X2i+ ... + BqXqi
Induzindo a estrutura para a proporção esperada π i = exp³/(1+exp³). Este modelo
pertença à classe dos modelos lineares generalizados.
Modelo de Regressão Multinomial
No estudo de respostas multinomiais, considere Yi=(Yi1, ..,Yij, ...,YiJ)’ variáveis
aleatórias com J categorias de resposta, relativas ao número de respostas nas J categorias a
um conjunto de mi itens, com distribuição Multin(mi; πij), sendo πij a probabilidade de
resposta na categoria j, j=1,...,J. A média e a estrutura de covariância de Yi são dadas por
E(Yij) = Mi πij
E
Var(Yij) = (Mi πij- 1)
Cov(Yij, Yij) = -Mi πij πij
Na modelagem das proporções esperadas πij uma categoria é tomada como
referência. Suponha que esta categoria seja a última, ou seja, a J-ésima categoria.
Modelo Linear Hierárquico Generalizado
Uma outra forma de se modelar os dados do exemplo apresentado seria através dos
modelos lineares hierárquicos (ou multiníveis) generalizados. Estes modelos possuem uma
estrutura que permitem uma interpretação mais detalhada dos efeitos relacionados com os
diferentes níveis da hierarquia natural dos dados. Sendo separados em nível 1 o aluno, e
nível 2 as classes de aula.
A inclusão de covariáveis de aluno no modelo estrutural do nível 1 permite o estudo
da influência dessas covariáveis no logito do aluno, e conseqüentemente na sua
probabilidade de resposta correta, por exemplo, incluir a escolaridade da mãe (E) na
equação através do termo β1k Eki. No modelo de nível 2, as covariáveis de classe permitem
o estudo de como essas influências ocorrem nas classes, se incluíssemos o método de
ensino (M) a equação ficaria conforme expressão em seguida. A existência ou não de
superdispersão também é possível de ser estudada.
Bok = Yoo + Yo1Mk + Uok
B1k = Y1o + Y11Mk + U1k
Chegamos as seguintes conclusões e observações:
- é importante a modelagem da superdispersão para verificar que efeitos são
significativos;
- necessidade de implementar computacionalmente o modelo Dirichlet-multinomial;
- desenvolver e implementar computacionalmente os modelos beta-binomal e
Dirichletmultinomial com a inclusão da hierarquia dos dados.
Modelagem Multinível
Carlos A. de S. Teles Santos
Leila D. A. Ferreira
Nelson F. Oliveira
Maria Inês C. Dourado
Maurício L. Barreto
Recentemente os modelos lineares hierárquicos ou multiníveis começaram a ser
mais conhecidos em diversos campos do conhecimento científico, principalmente na área
da Educação e Ciências Sociais. Importantes propriedades dos modelos lineares
hierárquicos permitem que a variabilidade da variável resposta: (a) seja explicada através
de variáveis preditoras incluídas em diferentes níveis hierárquicos e (b) possa quantificar
em cada nível, tal que a proporção da variabilidade explicada possa ser comparada
diretamente. Assim as análises multiníveis apresentam estimativas mais fidedignas, uma
vez que não assumem erroneamente o pressuposto de independência entre as observações
das unidades pertencentes a um agregado, como ocorre nas analises contextuais e naquelas
com observações repetidas.
Os modelos lineares generalizados (GLMs) incluem os modelos lineares
tradicionais (erros com distribuição normal), bem como os modelos logísticos, para
repostas com distribuição binomial, os modelos log-lineares, para respostas com
distribuição multinomial, e os modelos de regressão de Poisson, para respostas com
distribuição de Poisson.Os modelos lineares generalizados são constituídos pelos seguintes
componentes:
Variável de resposta Y = {Y1,..., Yn}, que seguem alguma distribuição de
probabilidade da família exponencial.
A função de ligação, g(.), que é uma função monótona e diferençável, definida nos
GMLs por g(Mi) = N, onde N = XtB é o preditor linear.
Um tratamento parecido é dado aos modelos lineares multiníveis quando análise
apropriada envolve variáveis de contagem ou binárias ou mesmo quando as transformações
não normalizam os dados. Esses modelos multiníveis são uma extensão direta dos modelos
lineares generalizados de McCulah e Nelder (1989). Onde a natureza da variável vai
determinar o tipo de distribuição de probabilidade que será utilizada, sendo as mais comuns
a binomial, para repostas dicotômicas e a Poisson, para respostas resultantes de processos
de contagem.
Umas das estruturas de dados que podem ser analisadas pelos modelos multiníveis
ou hierárquicos consistem naquelas estruturas cujas unidades são agrupadas (aninhadas) em
diferentes níveis hierárquicos. Isso ocorre em estudos de organizações, por exemplo, nos
quais o pesquisador esta interessado em investigar como as características do local de
trabalho influenciam na produtividade do trabalhador. Tais dados consistem em uma
estrutura hierárquica, com as unidades de trabalhadores aninhados dentro das firmas. Assim
as variáveis poderão ser mensuradas em ambos os níveis: trabalhador e firma.
Devido à larga abrangência de problemas com essas estruturas dos dados, as
aplicações de modelos lineares multiníveis vêm crescendo. As estimativas dos efeitos fixos
se aproximam daquelas obtidas pelas analises tradicionais, que são realizadas em nível
individual. Os erros-padrão aproximam-se daqueles obtidos nas análises contextuais, ou
seja, daquelas realizadas em nível do agregado. Alem disso, a modelagem Multinível
fornece informações sobre a composição da variabilidade total. Segundo BRYK &
RAUDENBUSH (1992), esses modelos não são uma solução para todos os problemas,
contudo, eles representam um grande passo para auxiliar as analises por serem
estatisticamente corretos e não desperdiçarem informação.
Por fim, espera-se que essas informações a respeito dos modelos multiníveis tenham
mostrado o potencial e a utilidade destes modelos nas analises de diferentes áreas do
conhecimento e a aplicabilidade dos mesmos em situações de pesquisa que resultem em
dados com estrutura Multinível ou hierárquica.
Modelos Lineares Hierárquicos em Pesquisas por Amostragem Relacionando o Índice de Massa Corporal às Variáveis da Pesquisa sobre
Padrões de Vida/IBGE
Solange Trindade Corrêa
Denise Britz do Nascimento Silva
Dados com estrutura hierárquica são freqüentemente encontrados em pesquisas
sociais. Um exemplo tradicional é o estudo na área de educação onde se deseja relacionar,
por exemplo, as notas dos alunos com o tempo de experiência do professor e o nível
socioeconômico médio da turma. Nesta situação, os estudantes agrupam-se em turmas, as
turmas em escolas, as escolas em distritos escolares, e assim por diante, com variáveis
descrevendo características dos alunos e das turmas. Os modelos hierárquicos, ou modelos
multiníveis, são uma classe importante de modelos de regressão adequados para representar
dados com tal estrutura, pois incorporam explicitamente o efeito de conglomeração das
unidades de análise, permitindo medir a variabilidade entre elas.
Quando se consideram dados obtidos por amostragem complexa, a prática de
ignorar o plano amostral no ajuste de modelos hierárquicos é, por vezes, justificada pelos
analistas sob o argumento de que a inclusão de características do desenho amostral, tais
como variáveis indicadoras de estratos e/ou conglomerados, como variáveis explicativas do
modelo seriam suficientes para “representar” o plano amostral. Contudo, este argumento
pode não ser adequado quando as unidades populacionais são selecionadas com
probabilidades desiguais, sendo necessário incorporar apropriadamente o plano amostral na
análise, visando minimizar os vícios na estimação dos parâmetros do modelo. Por exemplo,
os estimadores dos parâmetros do modelo hierárquico disponíveis nos pacotes estatísticos
convencionais podem ser assintoticamente viciados se as probabilidades de seleção das
unidades, em qualquer nível da hierarquia, são relacionadas à variável resposta (ou mais
precisamente, aos erros aleatórios) mesmo depois de condicionadas às variáveis
explicativas do modelo.
O propósito deste trabalho é implementar o procedimento de ponderação pelas
probabilidades na estimação dos parâmetros de modelos lineares hierárquicos
desenvolvidos por Pfeffermann et al. (1998). A metodologia é aplicada aos dados da
Pesquisa sobre Padrões de Vida do IBGE, realizada nos anos 1996-1997, visando relacionar
o índice de massa corporal (IMC) às variáveis socioeconômicas da pesquisa. As estimativas
obtidas por esta abordagem são comparadas àquelas obtidas pelos procedimentos usuais de
estimação.
Ao contrário dos métodos de estimação disponíveis nos pacotes computacionais
convencionais, o procedimento de estimação das variâncias dos estimadores de Mínimos
Quadrados Generalizados Iterativos Ponderados pelas Probabilidades não considera apenas
a distribuição induzida pelo modelo, mas sim a distribuição combinada: do modelo e do
plano amostral. Maiores detalhes sobre os estimadores de variância podem ser encontrados
em Corrêa (2001).
O índice de massa corporal (IMC), definido pela razão peso/altura2, com o peso em
quilograma e a altura em metro, foi escolhido como foco principal da análise desenvolvida
neste trabalho por sua comprovada relevância na avaliação do estado nutricional de adultos
em estudos epidemiológicos. As principais razões para sua utilização em tais estudos são:
sua alta correlação com o peso corporal, sua baixa correlação com estatura e,
principalmente, ser um índice simples e com ampla aplicabilidade. Uma razão adicional,
porém não menos importante, é que análises envolvendo o índice de massa corporal como a
apresentada neste trabalho são raras e não triviais, pois, nesta aplicação, considera-se uma
base de dados relativamente atual e técnicas estatísticas modernas, onde são retratadas duas
importantes características dos dados: o plano amostral utilizado na obtenção dos mesmos e
a estrutura hierárquica da população de onde foram extraídos.
Para avaliar a existência e o grau de associação entre o índice de massa corporal e as
demais variáveis pertinentes ao estudo, foram ajustados modelos lineares hierárquicos com
dois níveis, sendo pessoa o nível 1 e domicílio o nível 2, com efeito aleatório de nível 2
(domicílio) apenas no intercepto do modelo. Isto significa que apenas o IMC médio das
pessoas (intercepto) varia entre domicílios mas não a intensidade com que cada variável
preditora influencia o índice. Não foram testados modelos com mais de um efeito aleatório
de nível 2 por envolver extensões não triviais da metodologia descrita em Pfeffermann
(1998).
A variável resposta do modelo considerado é o logaritmo do índice de massa
corporal de moradores com 20 anos ou mais de idade, uma vez que a transformação
logarítmica aproxima a distribuição do IMC da distribuição Normal. As variáveis de nível 1
que apresentaram efeitos significativos no modelo foram: faixa etária (de 20 a 29 anos; de
30 a 39 anos; de 40 a 49 anos e 50 anos ou mais), sexo (masculino, feminino), anos de
estudo (menos de 1 ano; de 1 a 7 anos; de 8 a 10 anos; 11 anos e 12 anos ou mais) e raça
(não branca; branca). Para explicar parte da variabilidade entre domicílios, foram incluídas
no modelo as seguintes variáveis de nível 2: área de localização do domicílio (urbana;
rural), logaritmo da despesa domiciliar per capita diária com alimentação e quintos de
renda domiciliar mensal per capita.
A análise do modelo revela que o efeito de domicílio é significativo e que o índice
de massa corporal médio estimado é igual a 22,14, indicando que a população adulta das
Regiões Nordeste e Sudeste encontra-se na faixa normal de peso. Observa-se, ainda, que o
IMC médio estimado é maior para pessoas moradoras em domicílios localizados em área
urbana, com maior despesa domiciliar per capita diária com alimentação e maior renda
domiciliar mensal per capita. Além disso, conclui-se que, em média, o IMC do indivíduo
reduz com o aumento do seu nível de instrução e cresce de acordo com a idade até a faixa
de 40 a 49 anos, a partir da qual o IMC dos homens apresenta uma redução significativa.
Adicionalmente, as mulheres da raça não branca têm, em média, maior IMC que as
mulheres da raça branca. Já para o sexo masculino, o comportamento encontrado é inverso.
Verifica-se também que, em geral, as mulheres têm IMCs iguais ou maiores que os dos
homens para o caso da raça não branca, enquanto que para a raça branca, o comportamento
é oposto.
Concluindo então a análise multinível desenvolvida neste trabalho revela que o
efeito de domicílio é significativo na estimação da função de regressão que relaciona o IMC
com as variáveis da PPV/IBGE e que, além disso, a análise multinível de dados amostrais
complexos deve incorporar o método de ponderação MQGIPP, a fim de minimizar os
vícios das estimativas dos parâmetros do modelo de interesse.
Preditores do retardo de crescimento linear em
pré-escolares: uma abordagem multinível
Lucivalda P. M. Oliveira
Mauricio L. Barreto
Ana Marlúcia O. Assis
Antonio C. R. Braga-Junior
Maria F. F. Pussik Nunes
Nelson F. Oliveira
Maria Helena D’Aquino Benício
Sônia Isoyama Venâncio
Sílvia Regina D. Médici Saldiva
Maria Mercedes Loureiro Escuder
Este estudo tem como objetivo identificar os determinantes do déficit de
crescimento linear em crianças menores de cinco anos, utilizando modelagem multinível.
Foi analisada uma amostra de 3.746 pré-escolares de 15 municípios brasileiros (dez do
Estado da Bahia e cinco do Estado de São Paulo), construída em três estágios (municípios,
domicílios e crianças). Os dados municipais foram obtidos do censo demográfico de 1991.
Os dados referentes aos indivíduos e domicílios foram coletados entre 1999 e 2001,
constando de questionários estruturados e medições de peso e altura das crianças.
A amostra deste estudo foi construída em três estágios, contemplando os diferentes
níveis de hierarquia representados pela criança, domicílio e município. O número de
municípios de cada Estado incluído na amostra obedeceu ao critério da viabilidade do
trabalho e à disponibilidade de recursos. Assim, decidiu-se investigar dez municípios na
Bahia e cinco em São Paulo. Para obter o número de domicílios a ser incluído na amostra,
levou-se em conta a estimativa do número médio de crianças por domicílio em cada
município e zona de residência (rural/urbana), fornecida pelo Censo Demográfico de 1991
15, sendo estimados 1.887 domicílios no Estado da Bahia e 801 em São Paulo. O cálculo
do número de crianças a ser incluído na amostra de cada estado, obedeceu a critérios
comuns. Para a Bahia esse cálculo foi baseado na estimativa da prevalência do déficit do
indicador peso/idade (8,3%) e da altura/idade (17,9%) da Região Nordeste fornecida pela
PNDS 7 e para o Estado de São Paulo utilizou-se a prevalência da desnutrição infantil para
cada município estimada a partir de modelos preditivos de Benício & Monteiro. Como era
de interesse incluir na amostra as crianças residentes na zona rural e na zona urbana, optouse por uma amostra aleatória estratificada, com alocação proporcional segundo a área de
residência das crianças. Com base nessa estratégia, foi calculado o número de criança a ser
sorteado em cada município, segundo a zona de residência, resultando para a Bahia uma
amostra de 2.648 crianças menores de cinco anos de idade, sendo estudadas efetivamente
2.733 crianças das áreas urbana e rural. E em São Paulo o número amostral foi de 909,
sendo estudadas 1.013 crianças das áreas rural e urbana.
A variável dependente deste estudo é representada pelo indicador antropométrico
altura/idade na forma contínua, expressa em z score. As variáveis independentes foram
definidas, com base em revisão de literatura, entre aquelas que se mostraram mais
consistentemente associadas ao déficit de crescimento linear. Assim, foram incluídas na
análise exploratória variáveis relacionadas com a criança, tais como: sexo, idade, peso ao
nascer, esquema vacinal, aleitamento materno, percepção materna sobre a saúde da criança,
história de desnutrição pregressa, internamento prévio, morbidades referidas nos últimos 15
dias, como: diarréia, febre, coriza, perda de apetite; essas variáveis integraram o primeiro
nível da hierarquia. As variáveis incluídas no segundo nível da hierarquia foram
representadas pelas condições do ambiente sanitário do domicílio e do peridomicílio, na
forma do índice ambiental, adaptado do modelo proposto por Issler & Giugliani, assim
construído: esgoto próximo do domicílio, destino do lixo doméstico, abastecimento de
água, condições do sanitário, material predominante na cobertura e parede do domicílio,
material predominante no piso, condição de posse do domicílio e número de habitantes
por dormitório. Ainda no segundo nível foram adicionada à renda per capita familiar em
salário mínimo, a escolaridade materna (em anos de estudo), ambas na forma contínua, e o
índice econômico. No terceiro nível da hierarquia foram incluídas as variáveis municipais:
razão de concentração de renda, razão de concentração de renda segundo área dos imóveis
rurais, grau de urbanização, volume total de água consumido (m3), arrecadação total,
arrecadação per capita, renda média dos chefes de família, valor da produção animal,
assistência pré-natal prestada pelo município, e Índice de Desenvolvimento Humano (IDH).
A estrutura de dados deste estudo envolve múltiplas observações das crianças, que
estão aninhadas nos domicílios, e cada domicílio está também aninhado no município
pesquisado. Tal estrutura é tipicamente hierárquica, em três níveis: criança, domicílio e
município. Assim, na análise estatística, adotou-se a abordagem multinível, que além de
atender às necessidades específicas do desenho amostral contribui para o entendimento dos
fatores determinantes da desnutrição segundo a relação hierárquica e os seus níveis de
inter-relações. Como estratégia de análise estatística, optou se pelo modelo de regressão
linear, com um intercepto aleatório, pois além de identificar a variabilidade atribuível a
cada nível na determinação do déficit linear, também lida com o efeito de cluster, ou seja, a
não independência das observações. Atendendo ao princípio da modelagem multinível, a
análise estatística foi processada iniciando-se pelo nível hierárquico mais baixo, ou seja, o
nível que contempla as relações entre as variáveis medidas no nível da criança e a
determinação do déficit linear, uma vez que são estas as unidades que estão agrupadas nos
demais conglomerados. Nesse sentido, essas unidades estão agrupadas na unidade
intermediária – segundo nível hierárquico –, ou seja, o nível dos domicílios, e estes, por sua
vez, estão inseridos em conglomerados de níveis mais altos – os municípios.
Como estratégia analítica, inicialmente avaliou-se a importância estatística de cada
nível hierárquico na explicação do crescimento linear, especificando-se a equação de
regressão com base na variável dependente e naquelas que representavam cada nível da
hierarquia, ou seja, criança, domicílio e município; sem incluir no modelo quaisquer das
variáveis independentes, obtendo-se assim a estimativa da variabilidade atribuída aos
diferentes níveis de agregação. A significância da variabilidade nos diferentes níveis de
agregação foi verificada via teste de Wald. Após esse procedimento concluiu-se que os três
níveis eram significantes, indicando o uso do modelo de intercepto aleatório na base de
dados deste estudo.
Em seguida, realizou-se a análise de regressão univariada, testando cada variável
separadamente para selecionar as possíveis variáveis que integrariam o modelo
multivariado. Posteriormente procedeu-se a construção do modelo final de regressão linear
multivariada, incluindo na análise todas as variáveis selecionadas na regressão univariada
referentes à criança (primeiro nível). Nessa etapa da análise, as variáveis desse nível que
conservaram significância estatística (p valor < 0,05) foram mantidas no modelo.
O poder explicativo do modelo foi avaliado adotando-se o procedimento de
validação cruzada, calculando-se o coeficiente de correlação de Pearson entre os valores
preditos pelo modelo em parte da amostra e valores observados nos demais elementos da
amostra para o indicador antropométrico altura/idade. As análises foram realizadas
utilizando-se do programa MLwiN (Centre for Multilevel Modelling,Bristol, Reino Unido).
No modelo multinível final observou-se que baixo IDH e inadequada assistência
pré-natal, no nível dos municípios; baixas condições ambientais, econômicas e da
escolaridade materna, no nível dos domicílios; o baixo peso ao nascer, esquema vacinal
incompleto, história prévia de desnutrição e ausência do aleitamento ao peito, no nível das
crianças, mostraram-se fortemente associados ao déficit do crescimento linear das crianças
estudadas. A variabilidade total da desnutrição explicada pelo modelo foi de 27,4%, desta,
51,3%, 33% e 15,7% foram explicadas, respectivamente, pelas variáveis dos níveis da
criança, do domicílio e do município.