Análise de Dados Categorizados com variabilidade extra e dependência na presença de covariáveis. Paulo J. Ogliari, Dalton F. Andrade, Juliano A. Pacheco. Na análise de dados categorizados é freqüente a necessidade de se incluir variáveis explanatórias (contínuas ou categorizadas) para levar em consideração certas características associadas aos indivíduos ou aos fatores sob estudo. Em muitas situações, a suposição de probabilidades de respostas constantes dos indivíduos e a condição de independência entre os mesmos não são verificadas. Este é o caso do estudo que será considerado neste trabalho, onde alunos de 1ª série do ensino fundamental, de quatro diferentes classes, são submetidos a um teste composto de 16 itens, com o objetivo de avaliar dois métodos de ensino. Além das respostas dos alunos aos itens, foram registradas também várias características deles como: sexo, idade e escolaridade dos pais. São discutidos os modelos lineares generalizados para dados binomiais e multinomiais, os modelos beta-binomial e Dirichlet-multinomial. Por último, são introduzidos os modelos lineares hierárquicos generalizados para a modelagem da natureza hierárquica dos dados. Modelos de Regressão Logística Binomial No estudo de respostas binárias, considere Yi variáveis aleatórias relativas ao número de acertos num conjunto de mi itens, i=1,...,n, com distribuição Bin(mi; πi), sendo πi a probabilidade de sucesso. A média e a variância de Yi são dadas por E (Y i| πi ) = mi πi e Var( Yi | π i)=mi πi (1- πi) Podemos modelar as proporções esperadas πi, considerando q variáveis explanatórias X1, X2, ..., Xq, por Ni = log(π i |(1C)) = Bo + B1.X1i + B2.X2i+ ... + BqXqi Induzindo a estrutura para a proporção esperada π i = exp³/(1+exp³). Este modelo pertença à classe dos modelos lineares generalizados. Modelo de Regressão Multinomial No estudo de respostas multinomiais, considere Yi=(Yi1, ..,Yij, ...,YiJ)’ variáveis aleatórias com J categorias de resposta, relativas ao número de respostas nas J categorias a um conjunto de mi itens, com distribuição Multin(mi; πij), sendo πij a probabilidade de resposta na categoria j, j=1,...,J. A média e a estrutura de covariância de Yi são dadas por E(Yij) = Mi πij E Var(Yij) = (Mi πij- 1) Cov(Yij, Yij) = -Mi πij πij Na modelagem das proporções esperadas πij uma categoria é tomada como referência. Suponha que esta categoria seja a última, ou seja, a J-ésima categoria. Modelo Linear Hierárquico Generalizado Uma outra forma de se modelar os dados do exemplo apresentado seria através dos modelos lineares hierárquicos (ou multiníveis) generalizados. Estes modelos possuem uma estrutura que permitem uma interpretação mais detalhada dos efeitos relacionados com os diferentes níveis da hierarquia natural dos dados. Sendo separados em nível 1 o aluno, e nível 2 as classes de aula. A inclusão de covariáveis de aluno no modelo estrutural do nível 1 permite o estudo da influência dessas covariáveis no logito do aluno, e conseqüentemente na sua probabilidade de resposta correta, por exemplo, incluir a escolaridade da mãe (E) na equação através do termo β1k Eki. No modelo de nível 2, as covariáveis de classe permitem o estudo de como essas influências ocorrem nas classes, se incluíssemos o método de ensino (M) a equação ficaria conforme expressão em seguida. A existência ou não de superdispersão também é possível de ser estudada. Bok = Yoo + Yo1Mk + Uok B1k = Y1o + Y11Mk + U1k Chegamos as seguintes conclusões e observações: - é importante a modelagem da superdispersão para verificar que efeitos são significativos; - necessidade de implementar computacionalmente o modelo Dirichlet-multinomial; - desenvolver e implementar computacionalmente os modelos beta-binomal e Dirichletmultinomial com a inclusão da hierarquia dos dados. Modelagem Multinível Carlos A. de S. Teles Santos Leila D. A. Ferreira Nelson F. Oliveira Maria Inês C. Dourado Maurício L. Barreto Recentemente os modelos lineares hierárquicos ou multiníveis começaram a ser mais conhecidos em diversos campos do conhecimento científico, principalmente na área da Educação e Ciências Sociais. Importantes propriedades dos modelos lineares hierárquicos permitem que a variabilidade da variável resposta: (a) seja explicada através de variáveis preditoras incluídas em diferentes níveis hierárquicos e (b) possa quantificar em cada nível, tal que a proporção da variabilidade explicada possa ser comparada diretamente. Assim as análises multiníveis apresentam estimativas mais fidedignas, uma vez que não assumem erroneamente o pressuposto de independência entre as observações das unidades pertencentes a um agregado, como ocorre nas analises contextuais e naquelas com observações repetidas. Os modelos lineares generalizados (GLMs) incluem os modelos lineares tradicionais (erros com distribuição normal), bem como os modelos logísticos, para repostas com distribuição binomial, os modelos log-lineares, para respostas com distribuição multinomial, e os modelos de regressão de Poisson, para respostas com distribuição de Poisson.Os modelos lineares generalizados são constituídos pelos seguintes componentes: Variável de resposta Y = {Y1,..., Yn}, que seguem alguma distribuição de probabilidade da família exponencial. A função de ligação, g(.), que é uma função monótona e diferençável, definida nos GMLs por g(Mi) = N, onde N = XtB é o preditor linear. Um tratamento parecido é dado aos modelos lineares multiníveis quando análise apropriada envolve variáveis de contagem ou binárias ou mesmo quando as transformações não normalizam os dados. Esses modelos multiníveis são uma extensão direta dos modelos lineares generalizados de McCulah e Nelder (1989). Onde a natureza da variável vai determinar o tipo de distribuição de probabilidade que será utilizada, sendo as mais comuns a binomial, para repostas dicotômicas e a Poisson, para respostas resultantes de processos de contagem. Umas das estruturas de dados que podem ser analisadas pelos modelos multiníveis ou hierárquicos consistem naquelas estruturas cujas unidades são agrupadas (aninhadas) em diferentes níveis hierárquicos. Isso ocorre em estudos de organizações, por exemplo, nos quais o pesquisador esta interessado em investigar como as características do local de trabalho influenciam na produtividade do trabalhador. Tais dados consistem em uma estrutura hierárquica, com as unidades de trabalhadores aninhados dentro das firmas. Assim as variáveis poderão ser mensuradas em ambos os níveis: trabalhador e firma. Devido à larga abrangência de problemas com essas estruturas dos dados, as aplicações de modelos lineares multiníveis vêm crescendo. As estimativas dos efeitos fixos se aproximam daquelas obtidas pelas analises tradicionais, que são realizadas em nível individual. Os erros-padrão aproximam-se daqueles obtidos nas análises contextuais, ou seja, daquelas realizadas em nível do agregado. Alem disso, a modelagem Multinível fornece informações sobre a composição da variabilidade total. Segundo BRYK & RAUDENBUSH (1992), esses modelos não são uma solução para todos os problemas, contudo, eles representam um grande passo para auxiliar as analises por serem estatisticamente corretos e não desperdiçarem informação. Por fim, espera-se que essas informações a respeito dos modelos multiníveis tenham mostrado o potencial e a utilidade destes modelos nas analises de diferentes áreas do conhecimento e a aplicabilidade dos mesmos em situações de pesquisa que resultem em dados com estrutura Multinível ou hierárquica. Modelos Lineares Hierárquicos em Pesquisas por Amostragem Relacionando o Índice de Massa Corporal às Variáveis da Pesquisa sobre Padrões de Vida/IBGE Solange Trindade Corrêa Denise Britz do Nascimento Silva Dados com estrutura hierárquica são freqüentemente encontrados em pesquisas sociais. Um exemplo tradicional é o estudo na área de educação onde se deseja relacionar, por exemplo, as notas dos alunos com o tempo de experiência do professor e o nível socioeconômico médio da turma. Nesta situação, os estudantes agrupam-se em turmas, as turmas em escolas, as escolas em distritos escolares, e assim por diante, com variáveis descrevendo características dos alunos e das turmas. Os modelos hierárquicos, ou modelos multiníveis, são uma classe importante de modelos de regressão adequados para representar dados com tal estrutura, pois incorporam explicitamente o efeito de conglomeração das unidades de análise, permitindo medir a variabilidade entre elas. Quando se consideram dados obtidos por amostragem complexa, a prática de ignorar o plano amostral no ajuste de modelos hierárquicos é, por vezes, justificada pelos analistas sob o argumento de que a inclusão de características do desenho amostral, tais como variáveis indicadoras de estratos e/ou conglomerados, como variáveis explicativas do modelo seriam suficientes para “representar” o plano amostral. Contudo, este argumento pode não ser adequado quando as unidades populacionais são selecionadas com probabilidades desiguais, sendo necessário incorporar apropriadamente o plano amostral na análise, visando minimizar os vícios na estimação dos parâmetros do modelo. Por exemplo, os estimadores dos parâmetros do modelo hierárquico disponíveis nos pacotes estatísticos convencionais podem ser assintoticamente viciados se as probabilidades de seleção das unidades, em qualquer nível da hierarquia, são relacionadas à variável resposta (ou mais precisamente, aos erros aleatórios) mesmo depois de condicionadas às variáveis explicativas do modelo. O propósito deste trabalho é implementar o procedimento de ponderação pelas probabilidades na estimação dos parâmetros de modelos lineares hierárquicos desenvolvidos por Pfeffermann et al. (1998). A metodologia é aplicada aos dados da Pesquisa sobre Padrões de Vida do IBGE, realizada nos anos 1996-1997, visando relacionar o índice de massa corporal (IMC) às variáveis socioeconômicas da pesquisa. As estimativas obtidas por esta abordagem são comparadas àquelas obtidas pelos procedimentos usuais de estimação. Ao contrário dos métodos de estimação disponíveis nos pacotes computacionais convencionais, o procedimento de estimação das variâncias dos estimadores de Mínimos Quadrados Generalizados Iterativos Ponderados pelas Probabilidades não considera apenas a distribuição induzida pelo modelo, mas sim a distribuição combinada: do modelo e do plano amostral. Maiores detalhes sobre os estimadores de variância podem ser encontrados em Corrêa (2001). O índice de massa corporal (IMC), definido pela razão peso/altura2, com o peso em quilograma e a altura em metro, foi escolhido como foco principal da análise desenvolvida neste trabalho por sua comprovada relevância na avaliação do estado nutricional de adultos em estudos epidemiológicos. As principais razões para sua utilização em tais estudos são: sua alta correlação com o peso corporal, sua baixa correlação com estatura e, principalmente, ser um índice simples e com ampla aplicabilidade. Uma razão adicional, porém não menos importante, é que análises envolvendo o índice de massa corporal como a apresentada neste trabalho são raras e não triviais, pois, nesta aplicação, considera-se uma base de dados relativamente atual e técnicas estatísticas modernas, onde são retratadas duas importantes características dos dados: o plano amostral utilizado na obtenção dos mesmos e a estrutura hierárquica da população de onde foram extraídos. Para avaliar a existência e o grau de associação entre o índice de massa corporal e as demais variáveis pertinentes ao estudo, foram ajustados modelos lineares hierárquicos com dois níveis, sendo pessoa o nível 1 e domicílio o nível 2, com efeito aleatório de nível 2 (domicílio) apenas no intercepto do modelo. Isto significa que apenas o IMC médio das pessoas (intercepto) varia entre domicílios mas não a intensidade com que cada variável preditora influencia o índice. Não foram testados modelos com mais de um efeito aleatório de nível 2 por envolver extensões não triviais da metodologia descrita em Pfeffermann (1998). A variável resposta do modelo considerado é o logaritmo do índice de massa corporal de moradores com 20 anos ou mais de idade, uma vez que a transformação logarítmica aproxima a distribuição do IMC da distribuição Normal. As variáveis de nível 1 que apresentaram efeitos significativos no modelo foram: faixa etária (de 20 a 29 anos; de 30 a 39 anos; de 40 a 49 anos e 50 anos ou mais), sexo (masculino, feminino), anos de estudo (menos de 1 ano; de 1 a 7 anos; de 8 a 10 anos; 11 anos e 12 anos ou mais) e raça (não branca; branca). Para explicar parte da variabilidade entre domicílios, foram incluídas no modelo as seguintes variáveis de nível 2: área de localização do domicílio (urbana; rural), logaritmo da despesa domiciliar per capita diária com alimentação e quintos de renda domiciliar mensal per capita. A análise do modelo revela que o efeito de domicílio é significativo e que o índice de massa corporal médio estimado é igual a 22,14, indicando que a população adulta das Regiões Nordeste e Sudeste encontra-se na faixa normal de peso. Observa-se, ainda, que o IMC médio estimado é maior para pessoas moradoras em domicílios localizados em área urbana, com maior despesa domiciliar per capita diária com alimentação e maior renda domiciliar mensal per capita. Além disso, conclui-se que, em média, o IMC do indivíduo reduz com o aumento do seu nível de instrução e cresce de acordo com a idade até a faixa de 40 a 49 anos, a partir da qual o IMC dos homens apresenta uma redução significativa. Adicionalmente, as mulheres da raça não branca têm, em média, maior IMC que as mulheres da raça branca. Já para o sexo masculino, o comportamento encontrado é inverso. Verifica-se também que, em geral, as mulheres têm IMCs iguais ou maiores que os dos homens para o caso da raça não branca, enquanto que para a raça branca, o comportamento é oposto. Concluindo então a análise multinível desenvolvida neste trabalho revela que o efeito de domicílio é significativo na estimação da função de regressão que relaciona o IMC com as variáveis da PPV/IBGE e que, além disso, a análise multinível de dados amostrais complexos deve incorporar o método de ponderação MQGIPP, a fim de minimizar os vícios das estimativas dos parâmetros do modelo de interesse. Preditores do retardo de crescimento linear em pré-escolares: uma abordagem multinível Lucivalda P. M. Oliveira Mauricio L. Barreto Ana Marlúcia O. Assis Antonio C. R. Braga-Junior Maria F. F. Pussik Nunes Nelson F. Oliveira Maria Helena D’Aquino Benício Sônia Isoyama Venâncio Sílvia Regina D. Médici Saldiva Maria Mercedes Loureiro Escuder Este estudo tem como objetivo identificar os determinantes do déficit de crescimento linear em crianças menores de cinco anos, utilizando modelagem multinível. Foi analisada uma amostra de 3.746 pré-escolares de 15 municípios brasileiros (dez do Estado da Bahia e cinco do Estado de São Paulo), construída em três estágios (municípios, domicílios e crianças). Os dados municipais foram obtidos do censo demográfico de 1991. Os dados referentes aos indivíduos e domicílios foram coletados entre 1999 e 2001, constando de questionários estruturados e medições de peso e altura das crianças. A amostra deste estudo foi construída em três estágios, contemplando os diferentes níveis de hierarquia representados pela criança, domicílio e município. O número de municípios de cada Estado incluído na amostra obedeceu ao critério da viabilidade do trabalho e à disponibilidade de recursos. Assim, decidiu-se investigar dez municípios na Bahia e cinco em São Paulo. Para obter o número de domicílios a ser incluído na amostra, levou-se em conta a estimativa do número médio de crianças por domicílio em cada município e zona de residência (rural/urbana), fornecida pelo Censo Demográfico de 1991 15, sendo estimados 1.887 domicílios no Estado da Bahia e 801 em São Paulo. O cálculo do número de crianças a ser incluído na amostra de cada estado, obedeceu a critérios comuns. Para a Bahia esse cálculo foi baseado na estimativa da prevalência do déficit do indicador peso/idade (8,3%) e da altura/idade (17,9%) da Região Nordeste fornecida pela PNDS 7 e para o Estado de São Paulo utilizou-se a prevalência da desnutrição infantil para cada município estimada a partir de modelos preditivos de Benício & Monteiro. Como era de interesse incluir na amostra as crianças residentes na zona rural e na zona urbana, optouse por uma amostra aleatória estratificada, com alocação proporcional segundo a área de residência das crianças. Com base nessa estratégia, foi calculado o número de criança a ser sorteado em cada município, segundo a zona de residência, resultando para a Bahia uma amostra de 2.648 crianças menores de cinco anos de idade, sendo estudadas efetivamente 2.733 crianças das áreas urbana e rural. E em São Paulo o número amostral foi de 909, sendo estudadas 1.013 crianças das áreas rural e urbana. A variável dependente deste estudo é representada pelo indicador antropométrico altura/idade na forma contínua, expressa em z score. As variáveis independentes foram definidas, com base em revisão de literatura, entre aquelas que se mostraram mais consistentemente associadas ao déficit de crescimento linear. Assim, foram incluídas na análise exploratória variáveis relacionadas com a criança, tais como: sexo, idade, peso ao nascer, esquema vacinal, aleitamento materno, percepção materna sobre a saúde da criança, história de desnutrição pregressa, internamento prévio, morbidades referidas nos últimos 15 dias, como: diarréia, febre, coriza, perda de apetite; essas variáveis integraram o primeiro nível da hierarquia. As variáveis incluídas no segundo nível da hierarquia foram representadas pelas condições do ambiente sanitário do domicílio e do peridomicílio, na forma do índice ambiental, adaptado do modelo proposto por Issler & Giugliani, assim construído: esgoto próximo do domicílio, destino do lixo doméstico, abastecimento de água, condições do sanitário, material predominante na cobertura e parede do domicílio, material predominante no piso, condição de posse do domicílio e número de habitantes por dormitório. Ainda no segundo nível foram adicionada à renda per capita familiar em salário mínimo, a escolaridade materna (em anos de estudo), ambas na forma contínua, e o índice econômico. No terceiro nível da hierarquia foram incluídas as variáveis municipais: razão de concentração de renda, razão de concentração de renda segundo área dos imóveis rurais, grau de urbanização, volume total de água consumido (m3), arrecadação total, arrecadação per capita, renda média dos chefes de família, valor da produção animal, assistência pré-natal prestada pelo município, e Índice de Desenvolvimento Humano (IDH). A estrutura de dados deste estudo envolve múltiplas observações das crianças, que estão aninhadas nos domicílios, e cada domicílio está também aninhado no município pesquisado. Tal estrutura é tipicamente hierárquica, em três níveis: criança, domicílio e município. Assim, na análise estatística, adotou-se a abordagem multinível, que além de atender às necessidades específicas do desenho amostral contribui para o entendimento dos fatores determinantes da desnutrição segundo a relação hierárquica e os seus níveis de inter-relações. Como estratégia de análise estatística, optou se pelo modelo de regressão linear, com um intercepto aleatório, pois além de identificar a variabilidade atribuível a cada nível na determinação do déficit linear, também lida com o efeito de cluster, ou seja, a não independência das observações. Atendendo ao princípio da modelagem multinível, a análise estatística foi processada iniciando-se pelo nível hierárquico mais baixo, ou seja, o nível que contempla as relações entre as variáveis medidas no nível da criança e a determinação do déficit linear, uma vez que são estas as unidades que estão agrupadas nos demais conglomerados. Nesse sentido, essas unidades estão agrupadas na unidade intermediária – segundo nível hierárquico –, ou seja, o nível dos domicílios, e estes, por sua vez, estão inseridos em conglomerados de níveis mais altos – os municípios. Como estratégia analítica, inicialmente avaliou-se a importância estatística de cada nível hierárquico na explicação do crescimento linear, especificando-se a equação de regressão com base na variável dependente e naquelas que representavam cada nível da hierarquia, ou seja, criança, domicílio e município; sem incluir no modelo quaisquer das variáveis independentes, obtendo-se assim a estimativa da variabilidade atribuída aos diferentes níveis de agregação. A significância da variabilidade nos diferentes níveis de agregação foi verificada via teste de Wald. Após esse procedimento concluiu-se que os três níveis eram significantes, indicando o uso do modelo de intercepto aleatório na base de dados deste estudo. Em seguida, realizou-se a análise de regressão univariada, testando cada variável separadamente para selecionar as possíveis variáveis que integrariam o modelo multivariado. Posteriormente procedeu-se a construção do modelo final de regressão linear multivariada, incluindo na análise todas as variáveis selecionadas na regressão univariada referentes à criança (primeiro nível). Nessa etapa da análise, as variáveis desse nível que conservaram significância estatística (p valor < 0,05) foram mantidas no modelo. O poder explicativo do modelo foi avaliado adotando-se o procedimento de validação cruzada, calculando-se o coeficiente de correlação de Pearson entre os valores preditos pelo modelo em parte da amostra e valores observados nos demais elementos da amostra para o indicador antropométrico altura/idade. As análises foram realizadas utilizando-se do programa MLwiN (Centre for Multilevel Modelling,Bristol, Reino Unido). No modelo multinível final observou-se que baixo IDH e inadequada assistência pré-natal, no nível dos municípios; baixas condições ambientais, econômicas e da escolaridade materna, no nível dos domicílios; o baixo peso ao nascer, esquema vacinal incompleto, história prévia de desnutrição e ausência do aleitamento ao peito, no nível das crianças, mostraram-se fortemente associados ao déficit do crescimento linear das crianças estudadas. A variabilidade total da desnutrição explicada pelo modelo foi de 27,4%, desta, 51,3%, 33% e 15,7% foram explicadas, respectivamente, pelas variáveis dos níveis da criança, do domicílio e do município.