O EMPREGO DE MODELOS LOG-LINEARES PARA ANÁLISE DE DADOS CATEGÓRICOS1 Daniel Biagioni2 RESUMO Este artigo apresenta algumas possibilidades de análise de dados categóricos para o estudo de tabelas de contingência. Especificamente, busca-se apresentar variações de modelos log-lineares para a análise de dados nominais. O exemplo utilizado para ilustrar a aplicação dos modelos é a seletividade marital no Brasil. INTRODUÇÃO A Demografia se distingue de outras disciplinas das Ciências Sociais pelo tratamento rigoroso dos dados, pelo amplo desenvolvimento de técnicas de investigação peculiares à área, que buscam entender a dinâmica populacional por meio dos três componentes demográficos e ao desenvolver explicações causais próprias sobre os determinantes sociais destes fenômenos (Caldwell, 1996). Neste texto iremos nos ater na segunda questão, onde o emprego de metodologia quantitativa possibilita avanços teóricos substantivos na disciplina. De natureza multidisciplinar, a divisão da disciplina entre demografia formal e estudos de população gera diferentes questões sobre um mesmo objeto. No entanto, ambas as abordagens utilizam a metodologia de construção de modelos de natureza quantitativa para responder questões de forma dedutiva-causal. O tipo de modelo mais aplicado em demografia é o linear.3 Ele apresenta ao pesquisador os diferentes graus de correlação entre uma variável dependente e outras independentes. A variável dependente é onde repousa a questão a ser explicada de acordo com o comportamento (variância) das variáveis independentes. Por exemplo, quais são os determinantes da fecundidade de uma região em um determinado ponto do 1 Trabalho apresentado no I Encontro Nacional de Pós-Graduação em Demografia e Áreas Afins. ABEP. Instituto de Filosofia e Ciências Humanas/ Unicamp. 22 a 24 de fevereiro de 2010. 2 Doutorando em Sociologia pelo Instituto Universitário de Pesquisas do Rio de Janeiro - Iuperj. 3 O modelo de regressão de mínimos quadrados ordinários (MQO) é um exemplo do emprego do método linear (Gujarati, 2000). 1 tempo? Para responder a esta pergunta a variável dependente é o número de filhos de cada mulher. As variáveis independentes são os possíveis determinantes que a teoria coloca como importantes para entender a fecundidade - o nível de escolaridade da mãe ou a idade dela no nascimento do primeiro filho, por exemplo. A principal característica do modelo linear é predizer o valor da variável dependente em relação à distribuição das variáveis independentes. Ou seja, sendo a relação das variáveis linear e positiva, quanto mais valores na variável independente, mais valores na dependente por conseqüência. E esta relação é constante ao longo da função de reta estimada. No entanto, os fenômenos sociais geralmente não seguem uma relação linear. O crescimento populacional em longo prazo, por exemplo, segue, a rigor, as características de uma curva logística, em formato de S. Onde a população tem um primeiro momento de crescimento estável por elevadas taxas de fecundidade e mortalidade, passando para o segundo estágio de elevado crescimento dada a diminuição da mortalidade, até a sua volta a estabilidade no terceiro momento pela queda da taxa de fecundidade. Os modelos de projeção de população para curto período de tempo também utilizam curvas não lineares, como a geométrica ou exponencial, além da logística (Nações Unidas, 1989). Em particular, este texto trata dos modelos não-lineares aplicados para análise de tabelas de contingência, também chamadas de tabelas cruzadas. O método em questão são modelos log-lineares construídos para análise de dados categóricos, quantitativos (discreto) e qualitativos (ordinal e nominal). Este tipo de modelo possui três características centrais, distintas dos modelos lineares. A primeira é a relação não-linear entre as variáveis em estudo, sendo ela logística como no exemplo acima do crescimento da população. A segunda é o tratamento da ocorrência acumulada dos eventos para gerar uma razão de chance, traduzida em probabilidade e não em determinação. E a terceira característica é poder trabalhar os dados a partir de tabelas de contingência, onde a relação entre variáveis cruzadas possibilita o estudo minucioso dos ajustes a partir de cada categoria construída. No tópico seguinte apresentamos as potencialidades do modelo log-linear, como também suas principais variações aplicadas em tabelas de contingência para o estudo da dinâmica populacional. 2 MODELO LOG-LINEAR4 A estatística mais básica para dados categóricos é o qui-quadrado (Χ2). O método trata de mensurar a associação estatística entre duas ou mais variáveis segundo a diferença entre a distribuição observada e outra esperada de cada categoria cruzada na tabela. Quanto menor a diferença entre as distribuições, mais a estatística se ajusta aos dados, confirmando-se a hipótese de não associação entre as variáveis (também chamado de tese de independência). O qui-quadrado tem uma séria limitação no seu ajuste. Quanto maior o número de casos na amostra em estudo, mais suscetível a estatística está de apresentar um diagnóstico pouco preciso sobre o conjunto dos dados. Para tanto foram criados os modelos log-lineares para análise de tabelas de contingencia, cujo ajuste não sofre influência do tamanho da amostra (propriedade de invariância das razões de chance). A solução foi criada a partir do conceito de razão de chance que não considera os valores marginais das tabelas, mas apenas a chance de ocorrer um evento associada ao pertencimento a um grupo em oposição ao pertencimento de outro grupo. O ajuste da estatística é chamado de razão de verossimilhança (G2). Temos algumas especificações a partir do modelo log-linear básico. A estatística qui-quadrado tem a propriedade de manter válida a estatística com tabelas parciais. Ou seja, a avaliação da associação entre variáveis por meio do qui-quadrado pode ser feita com partes da tabela, fragmentadas a partir da original. Somadas as partes, o valor alcançado da estatística será a mesma para a tabela completa. A partir desta propriedade, o modelo log-linear começou a ser sofisticado de acordo com os interesses substantivos de análise. O primeiro modelo foi chamado de quase-independência, aplicado para tabelas quadradas ou matrizes de dados. O modelo de quase-independência é aplicado para distribuições onde a diagonal principal possui propriedades que teoricamente devem ser anuladas. A matriz de migração é um exemplo. Analisa-se a migração por meio de uma tabela quadrada de dupla entrada contendo as variáveis de origem (linha) e destino (coluna). Na diagonal principal, portanto, temos os casos de não-migração. Assim, para a análise da associação entre local de origem e destino migratório devemos não considerar a 4 Privilegiou-se a apresentação introdutória dos modelos e suas características principais, sem discussões pormenorizadas dos pressupostos estatísticos e as limitações do uso de variáveis não nominais. Para maiores considerações sobre os modelos, ver Powers e Xie (2008), Silva (1990), Hout (1983) e Luijkx (1994). 3 diagonal principal, utilizando o método de bloqueio estrutural de células. O método é nada além que o emprego de uma variável binária que identifica as células da diagonal, anulando o seu efeito no ajuste de razão de verossimilhança.5 Na tabela abaixo, temos os valores em 0 para a diagonal principal bloqueada. Os demais parâmetros (1) variam. Parâmetros do modelo de quase-independência c1 c2 c3 c4 c5 l1 0 1 1 1 1 l2 1 0 1 1 1 l3 1 1 0 1 1 l4 1 1 1 0 1 l5 1 1 1 1 0 Os modelos topológicos são especificações livres da tabela de contingência, não apenas da diagonal principal. Ou seja, permite ao pesquisador estabelecer as relações de interesse para o estudo e posteriormente verificar a relevância estatística de cada uma. Seguindo o exemplo da migração, pode-se firmar teoricamente um determinado fluxo e testar a coerência da hipótese segundo a significância estatística do nível construído. Um nível pode ser o fluxo de migração da região nordeste para os estados de São Paulo ou Rio de Janeiro para a década de 70. Na tabela abaixo temos fixado, como exemplo, um parâmetro nas duas esquinas da tabela, além do bloqueio da diagonal. Parâmetros do modelo topológico c1 c2 c3 c4 c5 l1 0 2 1 1 1 l2 2 0 1 1 1 l3 1 1 0 1 1 l4 1 1 1 0 2 l5 1 1 1 2 0 O modelo de quase-simetria é especificado com variáveis indicadoras que restringe a interação de casos simetricamente posicionados na matriz em relação à diagonal principal, bloqueada. O pressuposto do modelo é ter as categorias ordenadas e que as distâncias entre elas sejam iguais. Isto permite ao pesquisador observar as células com casos onde os ajustes não são simétricos. O exemplo dos fluxos migratórios permite observar os ajustes de imigração e emigração com um fator simétrico de ajuste. 5 Ver exemplo de modelos log-lineares aplicados à migração em Herting, Grusky e Van Rompaey (1997). 4 A significância deste fator indica relação entre os fluxos. É possível ver na tabela abaixo os parâmetros simetricamente posicionados em relação à diagonal principal. Parâmetros do modelo de quase-simetria c1 c2 c3 c4 c5 l1 0 1 2 3 4 l2 1 0 1 2 3 l3 2 1 0 1 2 l4 3 2 1 0 1 l5 4 3 2 1 0 O último modelo apresentado para dados nominais é o modelo de distância. Ele estipula camadas para observar a relação existente entre elas. Por exemplo, sabe-se que foi elevado o fluxo de migração de área rural para urbana para a década de 60. O modelo de distância permite observar o peso deste tipo de migração em relação aos demais tipos encontrados no período. Em outras palavras, o modelo de distância permite observar relações mais gerais de associação entre as variáveis em estudo. E as camadas podem ser sobrepostas, permitindo o estudo de várias relações em uma mesma tabela. No exemplo abaixo temos duas camadas, D1 e D2. O ajuste do modelo se dará a partir dos efeitos somados de cada uma, mas os parâmetros são estimados separadamente. Parâmetro do modelo de distância (com duas camadas, D1 e D2) D1 c1 c2 c3 c4 c5 l1 0 2 1 1 1 l2 2 0 2 1 1 l3 1 2 0 2 1 l4 1 1 2 0 2 l5 1 1 1 2 0 c1 c2 c3 c4 c5 l1 0 1 1 2 1 l2 1 0 1 1 2 l3 2 1 0 1 1 l4 1 2 1 0 1 l5 1 1 2 1 0 D2 5 Por último temos o modelo hierárquico para tabelas com três ou mais variáveis. Como vimos até agora, a relação de associação entre variáveis se dá por meio da distribuição de casos em cada célula da tabela de contingência, em geral bivariada. Para as tabelas com três ou mais variáveis é comum o exercício de modelos de elaboração, que nada mais é que a introdução de uma terceira variável para verificar possível relação espúria. O modelo hierárquico permite este exercício, observando sistematicamente as diferentes interações entre as variáveis segundo o ajuste do modelo. Um exemplo é a relação entre população e meio ambiente. Quanto mais população em um determinado território, mais recursos naturais são necessários para mantê-la. No entanto, quando pensamos na utilização dos recursos naturais devemos ter como variável interveniente o sistema de produção que marca o regime de consumo desses recursos. O que o modelo hierárquico realiza é avaliar a interação entre as três variáveis, passo-a-passo, indicando a validade estatística das associações estudadas a partir das categorias das variáveis. Apresentados de forma descritiva os principais modelos log-lineares, vejamos um exemplo de aplicação com dados de seletividade marital no Brasil (Silva, 2003). O tema seletividade marital permite, a partir de uma tabela de contingência, observar as chances de união do casal segundo algumas características importantes para que ela ocorra. EXEMPLO DE UTILIZAÇÃO DOS MODELOS O texto de Silva (2003) busca entender a influência da educação na seletividade marital. E para sustentar seu argumento, o autor apresenta duas abordagens teóricas acerca das uniões: a econômica e a sociológica. O argumento econômico coloca que a escolha conjugal ocorre pela competição no mercado matrimonial por meio das escolhas individuais. E esses indivíduos buscariam formar casais com pessoas que teriam características semelhantes a sua. Um exemplo é o nível sócio-econômico das pessoas, que indicaria a qualidade de vida. A união endogamia, neste sentido, é a formação de um casal com características sócioeconômicas semelhantes. As características da formação do casal estariam ligadas diretamente ao papel dos indivíduos na divisão sexual do trabalho. Em sociedade conservadoras, o trabalho doméstico seria uma característica valorizada para a formação 6 de casais. Em sociedades não conservadoras, a participação das mulheres no mercado de trabalho seria uma característica desejável e valorizada para a formação dos casais. O conceito por trás desta concepção é a maximização de ganhos em qualidade de vida com a união. Contrapondo o primeiro, temos o argumento sociológico. Segundo esta concepção, o casamento ocorre pelo compartilhamento de valores e visões de mundo entre as pessoas, onde semelhanças culturais favoreceriam a formação de um casal. Assim, os círculos de amigos teriam papel importante na formação de casais, uma vez que esses compartilhariam características sociais, culturais e econômicas. Em outras palavras, o convívio das pessoas em grupos homogêneos em termos de valores seria um ambiente propício para o encontro de pessoas dispostas à união. E é neste sentido que entram as considerações sobre a composição populacional. Encontrar pessoas com características semelhantes depende do tamanho desse grupo, o que reflete diretamente nas chances de união. A educação como característica implícita à seletividade marital está presente nos dois argumentos. O primeiro sustenta a educação como uma proxi da maximização de condições de vida. O segundo tem na educação a possibilidade de grupos homogêneos em valores e visão de mundo. Para entender o fenômeno, foi construída uma tabela de contingencia para entender a seletividade marital por educação. Ver tabela abaixo. Nível educacional da esposa por nível do marido – ambos os cônjuges com idade entre 15 a 50 anos. Brasil. 1999 nível educacional do marido nível educacional da esposa Analfabeto Primário Secundário Colegial Superior Total Analfabeto 2,8 4,7 1,9 0,3 0,0 9,8 Primário 1,5 12,7 9,4 2,3 0,2 26,1 Secundário 0,8 6,7 21,2 8,0 0,6 37,4 Colegial 0,2 1,1 6,8 11,9 1,7 21,7 Superior 0,0 0,1 0,4 1,8 2,7 5,0 Total 5,3 25,4 39,7 24,4 5,3 100,0 Fonte: Silva, 2003, p. 367. N=10100. Na linha temos os maridos e na coluna as esposas. As categorias de educação estão presentes desde analfabeto até nível superior. Na diagonal principal temos as uniões homogâmicas, representando 51% do total de uniões. Portanto, 49% das uniões 7 são compostas por indivíduos que não tinham o mesmo nível educacional. Uma informação importante que a matriz nos traz é a diminuição das uniões heterogâmicas quanto maior a distância da diagonal principal. Isto indica haver barreiras para uniões heterogâmicas. O modelo sugerido por Silva (2003, p. 368) para analisar as barreiras de união por educação é o modelo log-linear de distância. Este modelo especifica as barreiras a partir da diagonal principal. Quanto mais distante da diagonal, mais difícil é transpor as barreiras que se acumulam. Isto é, quanto maior a distância entre os níveis educacionais dos cônjuges, maiores sãos as barreiras para o casamento. Assim, temos as seguintes barreiras expressas por V, como efeitos do cruzamento de níveis educacionais distintos. A barreira V2, por exemplo, quer dizer o efeito da distância do nível educacional analfabeto para o nível primário. A barreira V2V3 soma o efeito de duas camadas, da camada V2 mais o efeito da distância do nível educacional primário para o nível secundário, V3. E assim sucessivamente. A maior dificuldade estipulada na tabela por meio dos parâmetros é a barreira V2V3V4V5, que compreende a união entre pessoas com níveis educacionais extremos (analfabeto e superior). Parâmetros dos efeitos de cruzamentos sobre a seletividade marital educacional nível educacional do marido Analfabeto Primário Secundário Colegial Superior Analfabeto 1 V2 V2V3 V2V3V4 V2V3V4V5 nível educacional da esposa Primário Secundário Colegial Superior V2 V2V3 V2V3V4 V2V3V4V5 1 V3 V3V4 V3V4V5 V3 1 V4 V4V5 V3V4 V4 1 V5 V3V4V5 V4V3 V5 1 Fonte: Silva, 2003, p. 369. O ajuste do modelo se dá avaliando o efeito para cada associação entre duas variáveis segundo os efeitos da diagonal bloqueada (homogamia) e os efeitos das barreiras acumuladas (heterogamia). Assim, temos as seguintes variáveis: H é a escolaridade do marido, W a escolaridade da esposa, D que indica o casamento homogâmico, C que indica o casamento heterogâmico e S é um parâmetro de simetria da escolaridade dos cônjuges. O ajuste segue sistematicamente a interação entre as variáveis em busca de um modelo que, dados os ajustes considerados teoricamente, fazem a distribuição observada se aproximar da estimada pelos parâmetros (D e C). 8 Silva escolheu o modelo 4 por meio da estatística Bayesiana (BIC).6 O modelo indica ser importante considerar todas as variáveis expressas no modelo, H W D C. Ou seja, é importante considerar a associação entre o nível educacional de maridos e esposas, como também a homogamia e heterogamia. Na tabela abaixo temos os ajustes. Estatísticas de ajustamento para modelos de seletividade marital. Brasil. 1999 Modelo 1. H, W 2. H, W, C 3. H, W, D 4. H, W, D, C 5. H, W, S GL 16 12 11 9 6 G2 5.297,3 202,4 1.669,4 28,7 24,3 BIC 5.149,8 91,8 1.56,8 -54,3 -31,0 Fonte: Silva, 2003, p. 370. Os ajustes dos coeficientes indicam haver maior barreira à medida que se aumenta a diferença entre os níveis de escolaridade. No gráfico abaixo temos os efeitos acumulados dos parâmetros dos casamentos heterogâmicos. Como podemos ver, as chances de casamento são menores quanto maiores às diferenças educacionais dos cônjuges. As chances de casamento heterogâmico entre cônjuges analfabetos e de nível primários (C2) são maiores se comparado ao casamento entre cônjuges analfabeto e de nível superior (C2345). Este é o resultado maior neste tipo de modelo, observar os efeitos dos parâmetros fixados teoricamente. E o modelo log-linear é primoroso na apresentação deste tipo de resultado para tabelas de contingência. Chances de casamento heterogâmico. Parâmetros estimados pelo modelo 4 Fonte: Silva, 2003, tabela p. 371. 6 A estatística BIC ajusta a estatística G2 ao tamanho da amostra. Quanto mais negativa a estatística BIC, mais ajustado o modelo. GL são os graus de liberdade do modelo, que servem para determinar os ajustes de ambas as estatísticas citadas. Ver Powers e Xie (2008, capítulo 4). 9 CONCLUSÃO Este texto apresentou alguns modelos log-lineares para o tratamento de dados categóricos aplicado às tabelas de contingência. Foram apresentados modelos para análises de dados nominais a partir da descrição simples das potencialidades dos ajustes dos parâmetros. Também foi apresentado um exemplo de aplicação do modelo de distância com dados de seletividade marital. Enfatizou-se os ajustes dos parâmetros, característica maior de análise dos modelos log-lineares. BIBLIOGRAFIA CALDWELL, J.C. (1996) “Demography and Social Science.” Population Studies: A Journal of Demography, 1477-4747, Volume 50, Issue 3, 1996, Pages 305 – 333. GUJARATI, D. (2000) Econometria básica. Makron Books. Terceira Edição. HERTING, J., David GRUSKY e Stephen VAN ROMPAEY (1997) “The Social Geography of Interstate Mobility and Persistence.” American Sociological Review, 62: 267-87. HOUT, M. (1983) Mobility tables. Sage. LUIJKX, R. (1994) Comparative loglinear analyses of social mobility and heterogamy. Tilburg Univertisy Press. NAÇÕES UNIDAS (1989) Projection methods for integrating population variables into development planning: conceptual issues and methods for preparing demographic projections. UN/ESA, 1989. v.1. POWERS, D. e Y. XIE (2008) Statistical methods for categorical data analysis. Emerald. 2ª edição. SILVA, N. V. (1990) Introdução à análise de dados qualitativos. Vértice. ___________. (2003) “Duas décadas de seletividade marital educacional no Brasil.” In: Hasenbalg, C. e Silva, N. V. (org.) Origens e destinos: desigualdades sociais ao longo da vida. Topbooks. 10