O EMPREGO DE MODELOS LOG-LINEARES PARA ANÁLISE DE

Propaganda
O EMPREGO DE MODELOS LOG-LINEARES PARA
ANÁLISE DE DADOS CATEGÓRICOS1
Daniel Biagioni2
RESUMO
Este artigo apresenta algumas possibilidades de análise de dados categóricos para o
estudo de tabelas de contingência. Especificamente, busca-se apresentar variações de
modelos log-lineares para a análise de dados nominais. O exemplo utilizado para
ilustrar a aplicação dos modelos é a seletividade marital no Brasil.
INTRODUÇÃO
A Demografia se distingue de outras disciplinas das Ciências Sociais pelo
tratamento rigoroso dos dados, pelo amplo desenvolvimento de técnicas de investigação
peculiares à área, que buscam entender a dinâmica populacional por meio dos três
componentes demográficos e ao desenvolver explicações causais próprias sobre os
determinantes sociais destes fenômenos (Caldwell, 1996). Neste texto iremos nos ater
na segunda questão, onde o emprego de metodologia quantitativa possibilita avanços
teóricos substantivos na disciplina.
De natureza multidisciplinar, a divisão da disciplina entre demografia formal e
estudos de população gera diferentes questões sobre um mesmo objeto. No entanto,
ambas as abordagens utilizam a metodologia de construção de modelos de natureza
quantitativa para responder questões de forma dedutiva-causal.
O tipo de modelo mais aplicado em demografia é o linear.3 Ele apresenta ao
pesquisador os diferentes graus de correlação entre uma variável dependente e outras
independentes. A variável dependente é onde repousa a questão a ser explicada de
acordo com o comportamento (variância) das variáveis independentes. Por exemplo,
quais são os determinantes da fecundidade de uma região em um determinado ponto do
1
Trabalho apresentado no I Encontro Nacional de Pós-Graduação em Demografia e Áreas Afins.
ABEP. Instituto de Filosofia e Ciências Humanas/ Unicamp. 22 a 24 de fevereiro de 2010.
2
Doutorando em Sociologia pelo Instituto Universitário de Pesquisas do Rio de Janeiro - Iuperj.
3
O modelo de regressão de mínimos quadrados ordinários (MQO) é um exemplo do emprego do método
linear (Gujarati, 2000).
1
tempo? Para responder a esta pergunta a variável dependente é o número de filhos de
cada mulher. As variáveis independentes são os possíveis determinantes que a teoria
coloca como importantes para entender a fecundidade - o nível de escolaridade da mãe
ou a idade dela no nascimento do primeiro filho, por exemplo. A principal característica
do modelo linear é predizer o valor da variável dependente em relação à distribuição das
variáveis independentes. Ou seja, sendo a relação das variáveis linear e positiva, quanto
mais valores na variável independente, mais valores na dependente por conseqüência. E
esta relação é constante ao longo da função de reta estimada.
No entanto, os fenômenos sociais geralmente não seguem uma relação linear. O
crescimento populacional em longo prazo, por exemplo, segue, a rigor, as características
de uma curva logística, em formato de S. Onde a população tem um primeiro momento
de crescimento estável por elevadas taxas de fecundidade e mortalidade, passando para
o segundo estágio de elevado crescimento dada a diminuição da mortalidade, até a sua
volta a estabilidade no terceiro momento pela queda da taxa de fecundidade. Os
modelos de projeção de população para curto período de tempo também utilizam curvas
não lineares, como a geométrica ou exponencial, além da logística (Nações Unidas,
1989).
Em particular, este texto trata dos modelos não-lineares aplicados para análise de
tabelas de contingência, também chamadas de tabelas cruzadas. O método em questão
são modelos log-lineares construídos para análise de dados categóricos, quantitativos
(discreto) e qualitativos (ordinal e nominal). Este tipo de modelo possui três
características centrais, distintas dos modelos lineares. A primeira é a relação não-linear
entre as variáveis em estudo, sendo ela logística como no exemplo acima do
crescimento da população. A segunda é o tratamento da ocorrência acumulada dos
eventos para gerar uma razão de chance, traduzida em probabilidade e não em
determinação. E a terceira característica é poder trabalhar os dados a partir de tabelas de
contingência, onde a relação entre variáveis cruzadas possibilita o estudo minucioso dos
ajustes a partir de cada categoria construída.
No tópico seguinte apresentamos as potencialidades do modelo log-linear, como
também suas principais variações aplicadas em tabelas de contingência para o estudo da
dinâmica populacional.
2
MODELO LOG-LINEAR4
A estatística mais básica para dados categóricos é o qui-quadrado (Χ2). O
método trata de mensurar a associação estatística entre duas ou mais variáveis segundo
a diferença entre a distribuição observada e outra esperada de cada categoria cruzada na
tabela. Quanto menor a diferença entre as distribuições, mais a estatística se ajusta aos
dados, confirmando-se a hipótese de não associação entre as variáveis (também
chamado de tese de independência).
O qui-quadrado tem uma séria limitação no seu ajuste. Quanto maior o número
de casos na amostra em estudo, mais suscetível a estatística está de apresentar um
diagnóstico pouco preciso sobre o conjunto dos dados. Para tanto foram criados os
modelos log-lineares para análise de tabelas de contingencia, cujo ajuste não sofre
influência do tamanho da amostra (propriedade de invariância das razões de chance). A
solução foi criada a partir do conceito de razão de chance que não considera os valores
marginais das tabelas, mas apenas a chance de ocorrer um evento associada ao
pertencimento a um grupo em oposição ao pertencimento de outro grupo. O ajuste da
estatística é chamado de razão de verossimilhança (G2).
Temos algumas especificações a partir do modelo log-linear básico. A estatística
qui-quadrado tem a propriedade de manter válida a estatística com tabelas parciais. Ou
seja, a avaliação da associação entre variáveis por meio do qui-quadrado pode ser feita
com partes da tabela, fragmentadas a partir da original. Somadas as partes, o valor
alcançado da estatística será a mesma para a tabela completa. A partir desta
propriedade, o modelo log-linear começou a ser sofisticado de acordo com os interesses
substantivos de análise. O primeiro modelo foi chamado de quase-independência,
aplicado para tabelas quadradas ou matrizes de dados.
O modelo de quase-independência é aplicado para distribuições onde a diagonal
principal possui propriedades que teoricamente devem ser anuladas. A matriz de
migração é um exemplo. Analisa-se a migração por meio de uma tabela quadrada de
dupla entrada contendo as variáveis de origem (linha) e destino (coluna). Na diagonal
principal, portanto, temos os casos de não-migração. Assim, para a análise da
associação entre local de origem e destino migratório devemos não considerar a
4
Privilegiou-se a apresentação introdutória dos modelos e suas características principais, sem discussões
pormenorizadas dos pressupostos estatísticos e as limitações do uso de variáveis não nominais. Para
maiores considerações sobre os modelos, ver Powers e Xie (2008), Silva (1990), Hout (1983) e Luijkx
(1994).
3
diagonal principal, utilizando o método de bloqueio estrutural de células. O método é
nada além que o emprego de uma variável binária que identifica as células da diagonal,
anulando o seu efeito no ajuste de razão de verossimilhança.5 Na tabela abaixo, temos
os valores em 0 para a diagonal principal bloqueada. Os demais parâmetros (1) variam.
Parâmetros do modelo de quase-independência
c1
c2
c3
c4
c5
l1
0
1
1
1
1
l2
1
0
1
1
1
l3
1
1
0
1
1
l4
1
1
1
0
1
l5
1
1
1
1
0
Os modelos topológicos são especificações livres da tabela de contingência, não
apenas da diagonal principal. Ou seja, permite ao pesquisador estabelecer as relações de
interesse para o estudo e posteriormente verificar a relevância estatística de cada uma.
Seguindo o exemplo da migração, pode-se firmar teoricamente um determinado fluxo e
testar a coerência da hipótese segundo a significância estatística do nível construído.
Um nível pode ser o fluxo de migração da região nordeste para os estados de São Paulo
ou Rio de Janeiro para a década de 70. Na tabela abaixo temos fixado, como exemplo,
um parâmetro nas duas esquinas da tabela, além do bloqueio da diagonal.
Parâmetros do modelo topológico
c1
c2
c3
c4
c5
l1
0
2
1
1
1
l2
2
0
1
1
1
l3
1
1
0
1
1
l4
1
1
1
0
2
l5
1
1
1
2
0
O modelo de quase-simetria é especificado com variáveis indicadoras que
restringe a interação de casos simetricamente posicionados na matriz em relação à
diagonal principal, bloqueada. O pressuposto do modelo é ter as categorias ordenadas e
que as distâncias entre elas sejam iguais. Isto permite ao pesquisador observar as células
com casos onde os ajustes não são simétricos. O exemplo dos fluxos migratórios
permite observar os ajustes de imigração e emigração com um fator simétrico de ajuste.
5
Ver exemplo de modelos log-lineares aplicados à migração em Herting, Grusky e Van Rompaey (1997).
4
A significância deste fator indica relação entre os fluxos. É possível ver na tabela abaixo
os parâmetros simetricamente posicionados em relação à diagonal principal.
Parâmetros do modelo de quase-simetria
c1
c2
c3
c4
c5
l1
0
1
2
3
4
l2
1
0
1
2
3
l3
2
1
0
1
2
l4
3
2
1
0
1
l5
4
3
2
1
0
O último modelo apresentado para dados nominais é o modelo de distância. Ele
estipula camadas para observar a relação existente entre elas. Por exemplo, sabe-se que
foi elevado o fluxo de migração de área rural para urbana para a década de 60. O
modelo de distância permite observar o peso deste tipo de migração em relação aos
demais tipos encontrados no período. Em outras palavras, o modelo de distância permite
observar relações mais gerais de associação entre as variáveis em estudo. E as camadas
podem ser sobrepostas, permitindo o estudo de várias relações em uma mesma tabela.
No exemplo abaixo temos duas camadas, D1 e D2. O ajuste do modelo se dará a partir
dos efeitos somados de cada uma, mas os parâmetros são estimados separadamente.
Parâmetro do modelo de distância (com duas camadas, D1 e D2)
D1
c1
c2
c3
c4
c5
l1
0
2
1
1
1
l2
2
0
2
1
1
l3
1
2
0
2
1
l4
1
1
2
0
2
l5
1
1
1
2
0
c1
c2
c3
c4
c5
l1
0
1
1
2
1
l2
1
0
1
1
2
l3
2
1
0
1
1
l4
1
2
1
0
1
l5
1
1
2
1
0
D2
5
Por último temos o modelo hierárquico para tabelas com três ou mais variáveis.
Como vimos até agora, a relação de associação entre variáveis se dá por meio da
distribuição de casos em cada célula da tabela de contingência, em geral bivariada. Para
as tabelas com três ou mais variáveis é comum o exercício de modelos de elaboração,
que nada mais é que a introdução de uma terceira variável para verificar possível
relação espúria.
O
modelo hierárquico permite este exercício,
observando
sistematicamente as diferentes interações entre as variáveis segundo o ajuste do modelo.
Um exemplo é a relação entre população e meio ambiente. Quanto mais população em
um determinado território, mais recursos naturais são necessários para mantê-la. No
entanto, quando pensamos na utilização dos recursos naturais devemos ter como
variável interveniente o sistema de produção que marca o regime de consumo desses
recursos. O que o modelo hierárquico realiza é avaliar a interação entre as três variáveis,
passo-a-passo, indicando a validade estatística das associações estudadas a partir das
categorias das variáveis.
Apresentados de forma descritiva os principais modelos log-lineares, vejamos
um exemplo de aplicação com dados de seletividade marital no Brasil (Silva, 2003). O
tema seletividade marital permite, a partir de uma tabela de contingência, observar as
chances de união do casal segundo algumas características importantes para que ela
ocorra.
EXEMPLO DE UTILIZAÇÃO DOS MODELOS
O texto de Silva (2003) busca entender a influência da educação na seletividade
marital. E para sustentar seu argumento, o autor apresenta duas abordagens teóricas
acerca das uniões: a econômica e a sociológica.
O argumento econômico coloca que a escolha conjugal ocorre pela competição
no mercado matrimonial por meio das escolhas individuais. E esses indivíduos
buscariam formar casais com pessoas que teriam características semelhantes a sua. Um
exemplo é o nível sócio-econômico das pessoas, que indicaria a qualidade de vida. A
união endogamia, neste sentido, é a formação de um casal com características sócioeconômicas semelhantes. As características da formação do casal estariam ligadas
diretamente ao papel dos indivíduos na divisão sexual do trabalho. Em sociedade
conservadoras, o trabalho doméstico seria uma característica valorizada para a formação
6
de casais. Em sociedades não conservadoras, a participação das mulheres no mercado de
trabalho seria uma característica desejável e valorizada para a formação dos casais. O
conceito por trás desta concepção é a maximização de ganhos em qualidade de vida com
a união.
Contrapondo o primeiro, temos o argumento sociológico. Segundo esta
concepção, o casamento ocorre pelo compartilhamento de valores e visões de mundo
entre as pessoas, onde semelhanças culturais favoreceriam a formação de um casal.
Assim, os círculos de amigos teriam papel importante na formação de casais, uma vez
que esses compartilhariam características sociais, culturais e econômicas. Em outras
palavras, o convívio das pessoas em grupos homogêneos em termos de valores seria um
ambiente propício para o encontro de pessoas dispostas à união. E é neste sentido que
entram as considerações sobre a composição populacional. Encontrar pessoas com
características semelhantes depende do tamanho desse grupo, o que reflete diretamente
nas chances de união.
A educação como característica implícita à seletividade marital está presente nos
dois argumentos. O primeiro sustenta a educação como uma proxi da maximização de
condições de vida. O segundo tem na educação a possibilidade de grupos homogêneos
em valores e visão de mundo. Para entender o fenômeno, foi construída uma tabela de
contingencia para entender a seletividade marital por educação. Ver tabela abaixo.
Nível educacional da esposa por nível do marido – ambos os cônjuges com idade
entre 15 a 50 anos. Brasil. 1999
nível educacional
do marido
nível educacional da esposa
Analfabeto
Primário Secundário
Colegial
Superior
Total
Analfabeto
2,8
4,7
1,9
0,3
0,0
9,8
Primário
1,5
12,7
9,4
2,3
0,2
26,1
Secundário
0,8
6,7
21,2
8,0
0,6
37,4
Colegial
0,2
1,1
6,8
11,9
1,7
21,7
Superior
0,0
0,1
0,4
1,8
2,7
5,0
Total
5,3
25,4
39,7
24,4
5,3
100,0
Fonte: Silva, 2003, p. 367. N=10100.
Na linha temos os maridos e na coluna as esposas. As categorias de educação
estão presentes desde analfabeto até nível superior. Na diagonal principal temos as
uniões homogâmicas, representando 51% do total de uniões. Portanto, 49% das uniões
7
são compostas por indivíduos que não tinham o mesmo nível educacional. Uma
informação importante que a matriz nos traz é a diminuição das uniões heterogâmicas
quanto maior a distância da diagonal principal. Isto indica haver barreiras para uniões
heterogâmicas.
O modelo sugerido por Silva (2003, p. 368) para analisar as barreiras de união
por educação é o modelo log-linear de distância. Este modelo especifica as barreiras a
partir da diagonal principal. Quanto mais distante da diagonal, mais difícil é transpor as
barreiras que se acumulam. Isto é, quanto maior a distância entre os níveis educacionais
dos cônjuges, maiores sãos as barreiras para o casamento.
Assim, temos as seguintes barreiras expressas por V, como efeitos do
cruzamento de níveis educacionais distintos. A barreira V2, por exemplo, quer dizer o
efeito da distância do nível educacional analfabeto para o nível primário. A barreira
V2V3 soma o efeito de duas camadas, da camada V2 mais o efeito da distância do nível
educacional primário para o nível secundário, V3. E assim sucessivamente. A maior
dificuldade estipulada na tabela por meio dos parâmetros é a barreira V2V3V4V5, que
compreende a união entre pessoas com níveis educacionais extremos (analfabeto e
superior).
Parâmetros dos efeitos de cruzamentos sobre a seletividade marital educacional
nível educacional
do marido
Analfabeto
Primário
Secundário
Colegial
Superior
Analfabeto
1
V2
V2V3
V2V3V4
V2V3V4V5
nível educacional da esposa
Primário Secundário Colegial
Superior
V2
V2V3
V2V3V4 V2V3V4V5
1
V3
V3V4
V3V4V5
V3
1
V4
V4V5
V3V4
V4
1
V5
V3V4V5
V4V3
V5
1
Fonte: Silva, 2003, p. 369.
O ajuste do modelo se dá avaliando o efeito para cada associação entre duas
variáveis segundo os efeitos da diagonal bloqueada (homogamia) e os efeitos das
barreiras acumuladas (heterogamia). Assim, temos as seguintes variáveis: H é a
escolaridade do marido, W a escolaridade da esposa, D que indica o casamento
homogâmico, C que indica o casamento heterogâmico e S é um parâmetro de simetria
da escolaridade dos cônjuges. O ajuste segue sistematicamente a interação entre as
variáveis em busca de um modelo que, dados os ajustes considerados teoricamente,
fazem a distribuição observada se aproximar da estimada pelos parâmetros (D e C).
8
Silva escolheu o modelo 4 por meio da estatística Bayesiana (BIC).6 O modelo
indica ser importante considerar todas as variáveis expressas no modelo, H W D C. Ou
seja, é importante considerar a associação entre o nível educacional de maridos e
esposas, como também a homogamia e heterogamia. Na tabela abaixo temos os ajustes.
Estatísticas de ajustamento para modelos de seletividade marital. Brasil. 1999
Modelo
1. H, W
2. H, W, C
3. H, W, D
4. H, W, D, C
5. H, W, S
GL
16
12
11
9
6
G2
5.297,3
202,4
1.669,4
28,7
24,3
BIC
5.149,8
91,8
1.56,8
-54,3
-31,0
Fonte: Silva, 2003, p. 370.
Os ajustes dos coeficientes indicam haver maior barreira à medida que se
aumenta a diferença entre os níveis de escolaridade. No gráfico abaixo temos os efeitos
acumulados dos parâmetros dos casamentos heterogâmicos. Como podemos ver, as
chances de casamento são menores quanto maiores às diferenças educacionais dos
cônjuges. As chances de casamento heterogâmico entre cônjuges analfabetos e de nível
primários (C2) são maiores se comparado ao casamento entre cônjuges analfabeto e de
nível superior (C2345). Este é o resultado maior neste tipo de modelo, observar os
efeitos dos parâmetros fixados teoricamente. E o modelo log-linear é primoroso na
apresentação deste tipo de resultado para tabelas de contingência.
Chances de casamento heterogâmico. Parâmetros estimados pelo modelo 4
Fonte: Silva, 2003, tabela p. 371.
6
A estatística BIC ajusta a estatística G2 ao tamanho da amostra. Quanto mais negativa a estatística BIC,
mais ajustado o modelo. GL são os graus de liberdade do modelo, que servem para determinar os ajustes
de ambas as estatísticas citadas. Ver Powers e Xie (2008, capítulo 4).
9
CONCLUSÃO
Este texto apresentou alguns modelos log-lineares para o tratamento de dados
categóricos aplicado às tabelas de contingência. Foram apresentados modelos para
análises de dados nominais a partir da descrição simples das potencialidades dos ajustes
dos parâmetros. Também foi apresentado um exemplo de aplicação do modelo de
distância com dados de seletividade marital. Enfatizou-se os ajustes dos parâmetros,
característica maior de análise dos modelos log-lineares.
BIBLIOGRAFIA
CALDWELL, J.C. (1996) “Demography and Social Science.” Population Studies: A
Journal of Demography, 1477-4747, Volume 50, Issue 3, 1996, Pages 305 –
333.
GUJARATI, D. (2000) Econometria básica. Makron Books. Terceira Edição.
HERTING, J., David GRUSKY e Stephen VAN ROMPAEY (1997) “The Social
Geography of Interstate Mobility and Persistence.” American Sociological
Review, 62: 267-87.
HOUT, M. (1983) Mobility tables. Sage.
LUIJKX, R. (1994) Comparative loglinear analyses of social mobility and heterogamy.
Tilburg Univertisy Press.
NAÇÕES UNIDAS (1989) Projection methods for integrating population variables
into development planning: conceptual issues and methods for preparing
demographic projections. UN/ESA, 1989. v.1.
POWERS, D. e Y. XIE (2008) Statistical methods for categorical data analysis.
Emerald. 2ª edição.
SILVA, N. V. (1990) Introdução à análise de dados qualitativos. Vértice.
___________. (2003) “Duas décadas de seletividade marital educacional no Brasil.” In:
Hasenbalg, C. e Silva, N. V. (org.) Origens e destinos: desigualdades sociais
ao longo da vida. Topbooks.
10
Download