determinação de fatores críticos para o idh-m a partir de

Propaganda
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
DETERMINAÇÃO DE FATORES CRÍTICOS PARA O IDH-M A PARTIR
DE TÉCNICAS DE MINERAÇÃO DE DADOS
Ludmila Maria Leite de Carvalho Coradine
Faculdades Ibmec – RJ
Av. Presidente Wilson, 118 – Centro Rio de Janeiro – RJ
[email protected]
Gerson Lachtermacher
FCE/UERJ e EBAPE/FGV
R. São Francisco Xavier, 524, 8° andar, Bloco B e Praia de Botafogo, 190
[email protected] / [email protected]
Paulo Sérgio de Souza Coelho
Faculdades Ibmec – RJ
Av. Presidente Wilson, 118 – Centro Rio de Janeiro – RJ
[email protected]
RESUMO
O IDH (Índice de Desenvolvimento Humano) e o IDH-M (âmbito municipal) são as
alternativas atuais ao PIB. Este último é determinado a partir de indicadores sócio-econômicos. O
presente estudo aplicou técnicas de Data Mining para determinar Regras de Classificação, obtidas
através de Árvores de Decisão induzidas a partir de uma base formada com dados do Censo 2000
(IBGE) e do IDH-M (PNUD), que expliquem possíveis relações existentes entre alguns
indicadores que não estão diretamente envolvidos na formulação do IDH-M. Para tanto, foi
utilizado uma ferramenta computacional acadêmica, de código aberto, que possui uma
implementação do paradigma para a metodologia de indução de árvores de decisão. Os resultados
apontam para uma formulação alternativa do IDH-M, com alguns indicadores além dos
originalmente utilizados, que servem para um melhor entendimento das classificações municipais
em níveis de desenvolvimento humano.
PALAVRAS CHAVE. IDH-M. Data Mining. Indução de Árvores de Decisão. MD –
Mineração de Dados
ABSTRACT
The HDI (Human Development Index) and its city-level version are PIB alternatives
nowadays. This last is obtained from social and economics indicators. This study applied Data
Mining techniques to determine Classification Rules, obtained from Decision Trees inducted
from a database constructed using 2000 Census (IBGE) and HDI city-level (PNUD), that explain
relations between indicators that are not directly related with HDI city-level formulation. To do
this was used an academic computer tool, with opened code, which has a implantation of decision
tree induction methodology paradigm. The results point to an alternative formulation of HDI citylevel formulation, with some new indicators, which can be used to better understand
municipality’s classifications for human development levels.
KEYWORDS. City-level HDI. Data Mining. Decision Tree Induction. MD - Data Mining.
XXXIX SBPO
[821]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
1. Introdução
Este trabalho utiliza o KDD – Knowledge Discovery in Databases (Processo de
Descoberta de Conhecimento, Han e Kamber, 2001) como ferramenta para descobrir fatores
críticos que expliquem o IDH-M (Índice de Desenvolvimento Humano Municipal) e que não são
considerados no seu calculo. Foram considerados atributos da base de dados do Censo 2000 sobre
todos os municípios brasileiros (5.507 municípios).
Como parte do KDD, a atividade de Mineração de Dados (Data Mining) será realizada
utilizando a técnica de Árvore de Decisão implementada dentro do software WEKA, uma suíte de
KDD desenvolvida dentro da University of Waikato (WEKA, 2004).
A partir dos indicadores do IDH-M, o Brasil é considerado um país de desenvolvimento
humano de nível médio, pois a maior parte dos municípios brasileiros se encontra nesta categoria.
O presente trabalho, ao sinalizar possíveis relacionamentos entre os novos atributos considerados,
pode indicar quais deles, e em que intensidade, gerando assim conhecimento na área de gestão
municipal. Assim, as regras mais abrangentes encontradas no estudo podem ser fontes de
investimento para o desenvolvimento humano e conseqüente melhoria nos níveis do IDH-M.
O presente artigo possui mais quatro seções além desta A seção 2 é reservada à revisão
bibliográfica, trazendo os conceitos relativos ao IDH-M e ao KDD e Data Mining. A seção 3
relata a metodologia do estudo, fazendo sua fundamentação teórica. A seção 4 apresenta e analisa
os o conhecimento obtido. Na última seção estão descritas as conclusões gerais do trabalho e as
pesquisas futuras que podem ser desenvolvidas.
2. Revisão Bibliográfica
A revisão bibliográfica feita para este estudo tem duas linhas completamente diferentes.
Na primeira subseção estão descritos os índices IDH e IDH-M e os indicadores que os compõem
e na seguinte estão descritos os conceitos do ambiente de KDD e Data Mining.
2.1. IDH e IDH-M
Segundo o PNUD – Programa das Nações Unidas para o Desenvolvimento, o IDH
surgiu como forma de medir o desenvolvimento humano. Esta medida substitui o PIB, que é um
indicador estritamente econômico, por um indicador mais complexo que considera outros
aspectos de desenvolvimento social (PNUD, 2005a). Os valores do IDH estão entre 0 e 1, sendo
que o valor 1 indica o mais alto nível de desenvolvimento humano de um país ou região. Os
trabalhos originais que deram origem ao índice foram descritos em Anand e Sen, 1994.
A concepção inicial do IDH foi criar uma forma de medir o nível de desenvolvimento
humano dos países, utilizando para esta finalidade três dimensões: Longevidade, Educação e
Renda (PNUD, 2005b).
O IDH do país i, cujos índices (dimensões) de longevidade, educação e renda são,
respectivamente, ILi, IEi e IRi é a média aritmética simples destes três índices (PNUD, 2005b):
( IE i + ILi + IRi )
,
IDH i =
3
sendo:
• IEi: combinação da taxa de alfabetização de adultos, com peso 2/3 e da taxa combinada de
matrícula nos três níveis de ensino (fundamental, médio e superior), com peso 1/3;
• ILi: esperança de vida ao nascer;
• IRi: PIB per capita, expresso em dólares PPC (Paridade do Poder de Compra).
Para classificar os países em três grandes categorias o PNUD estabeleceu algumas
faixas (PNUD, 2005b). Estas faixas podem ser vistas na Tabela 1.
XXXIX SBPO
[822]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
Valor
0 ≤ IDH < 0,5
0,5≤ IDH < 0,8
0,8 ≤ IDH ≤ 1
Nível de Desenvolvimento Humano
Baixo
Médio
Alto
Tabela 1: faixas de IDH. Fonte: PNUD (2005b)
Para que se pudesse medir o Desenvolvimento Humano a nível municipal foi criado o
IDH-M (IDH Municipal). Trata-se de uma adaptação direta do IDH para o nível municipal,
utilizando as mesmas dimensões do IDH (educação, longevidade e renda), mas com indicadores
diferentes dos que compõem o cálculo do índice original. Esta substituição busca uma melhor
adequação para as condições de núcleos sociais menores.
Os indicadores usados para o cálculo do IDH-M são:
•
Educação (IDHM-E) – esta dimensão utiliza para seu cálculo dois indicadores: taxa de
alfabetização de pessoas acima de 15 anos de idade (percentual de pessoas capazes de ler e
escrever um bilhete simples) e taxa bruta de freqüência à escola (total de pessoas, de qualquer
idade, que freqüentam algum curso formal, dividido pela população na faixa etária de 7 a 22
da localidade. Estão incluídos na conta alunos de cursos supletivos de primeiro e segundo
graus, de classes de aceleração e pós-graduação universitária; apenas as classes especiais de
alfabetização, alunos com deficiência mental, são descartadas). Esta dimensão é definida
usando uma ponderação dos indicadores, o primeiro com peso dois e o segundo com peso
um;
• Longevidade (IDHM-L) – utiliza para seu cálculo o mesmo indicador do IDH de países: a
esperança de vida ao nascer (idade média de óbito);
• Renda (IDHM-R) – esta dimensão utiliza para seu cálculo o indicador renda média de cada
residente no município (renda total, dividido pela quantidade de residentes, inclusive crianças
e pessoas sem renda).
O IDH-M é obtido através da média aritmética destas dimensões:
(IDHM- E) + ( IDHM- L) + (IDHM- R)
IDH- M =
3
Alguns indicadores são utilizados nos cálculos das dimensões tanto pelo IDH quanto
pelo IDH-M enquanto outros são específicos de cada caso. Na Tabela 2 pode-se ver um resumo
destes indicadores.
Sub-Índices
Renda
Longevidade
Educação
Indicador
PIB Per Capta
Renda Familiar Per Capta
Esperança de Vida ao Nascer
Taxa de Alfabetização
Taxa de Matrícula
Taxa Bruta de Freqüência à Escola
IDH
X
X
X
X
IDH-M
X
X
X
X
Tabela 2 - Resumo Indicadores IDH e IDH-M
2.2. KDD e Mineração de Dados
Alguns fatores propiciaram o desenvolvimento da área de Mineração de Dados, dentre
eles convém destacar a grande quantidade de dados que vem sendo gerados e armazenados pelas
empresas, a grande competitividade entre as elas, a disponibilidade de softwares robustos para
atividades de análise de dados e a ampliação da capacidade computacional (BERRY e LINOFF,
1997, p. 6).
Existe uma distinção entre os dois conceitos fundamentais de KDD e de Mineração de
Dados. O primeiro refere-se ao processo completo de descoberta do conhecimento enquanto o
segundo é apenas uma das etapas deste primeiro. Cabe a Mineração de Dados a extração de
padrões dos dados, através da aplicação de algoritmos. A representação esquemática do KDD
pode ser vista na Figura 1.
XXXIX SBPO
[823]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
Interpretação
Mineração de
Dados e Avaliação
Conhecimento
Preparação e
Transformação
Padrões
Dados
Pré-processados
e Transformados
Seleção
Dados
Alvo
Fonte de Dados
Figura 1: - Processo de KDD. Adaptado de Han e Kamber (2001, p.6).
A área de Mineração de Dados compreende uma série de técnicas oriundas das ciências
de estatística, computação, e inteligência artificial. Neste estudo utilizamos a técnica de árvore de
decisão para modelagem do problema.
2.2.1. Árvores de Decisão
Uma árvore de decisão é um fluxo de uma árvore onde cada nó interno denota um teste
em um atributo, cada galho representa uma saída de teste e os nós de folha representam as classes
ou as classes de distribuição. O nó mais alto é a raiz da árvore. Uma das vantagens desta técnica,
é que ela pode ser interpretada através de regras facilmente compreensíveis pela mente humana
(HAN e KAMBER, 2001, p.284). A interpretação destas regras é feita seguindo o caminho desde
a raiz até uma das folhas.
A Árvore de Decisão que pode ser exemplificada através da Figura 2 foi estimada a
partir de uma base de dados sobre características de uma planta chamada íris. Esta é uma base de
dados clássica, freqüentemente utilizada como exemplo, chamada Iris Plant Database (Newman
et al, 2005). A base é constituída por apenas 150 observações (linhas), descritas por quatro
atributos numéricos (petalwidht, petallength, setalwidh e setallenght) mais uma variável de
resposta categórica (chamada class), totalizando 5 colunas. Cada nó da árvore ou é um nó de teste
sobre um atributo (indicado por uma elipse com o nome do atributo escrito no seu interior) ou é
uma folha, com um valor da variável de resposta (indicado por um retângulo com o valor da
variável de resposta indicado no seu interior). Nos nós folha podem ser vistos algumas medidas
que descrevem detalhes técnicos do processo de estimação e teste. Assim, existem ao todo 5
regras, pois existem 5 folhas. Por exemplo, seguindo o caminho para esquerda a partir da raiz,
pode ser lida a seguinte regra: se petalwidht <= 0,6 então class = íris-setosa.
Pode-se dizer que as “Árvores de Decisão funcionam como filtros de dados (ou
registros)” que vão separando um grupo de dados (ou registros) com determinadas características
de outro (HAN e KAMBER, 2001, p.284).
XXXIX SBPO
[824]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
petalwidth
<= 0,6
> 0,6
iris-setosa (50.0)
petalwidth
<= 1,7
petallength
<= 4,9
> 1,7
iris-virginica (46.0/1.0)
> 4,9
iris-versicolor (48.0/1.0)
petalwidth
<= 1,5
iris-virginica (3.0)
> 1,5
iris-versicolor (3.0/1.0)
Figura 2: Árvore de Decisão
Algumas regras são melhores que outras. Mede-se a “efetividade” de uma Árvore de
Decisão, aplicando-a a uma coleção de dados desconhecida e observando a porcentagem de
dados que foi classificada corretamente. Precisa-se também atentar para a qualidade de cada um
dos galhos da árvore. As regras podem ser avaliadas, e algumas serão melhores que outras. A
força prevista da árvore, isto é, a acurácia, pode ser melhorada através de um processo chamado
de poda dos seus galhos mais fracos. A poda de algum galho é, literalmente, o corte deste,
eliminando as folhas que estiverem na seqüência. Esta poda pode ser vantajosa, pois, os galhos
mais fracos podem estar associados à grande parte dos erros, o que pode implicar em menor
precisão (BERRY e LINOFF, 1997, p. 246).
Em cada nó da árvore pode-se medir (BERRY e LINOFF, 1997, p. 246):
• Número de registros entrando no nó;
• A maneira como seriam classificados os registros, se este fosse um nó de folha;
• O percentual de registros classificados corretamente no nó.
O algoritmo ID3 foi o primeiro algoritmo da comunidade de computação para estimar
Arvores de Decisão para o problema de Classificação. O algoritmo está totalmente descrito em
Quinlan (1986), e é base para vários algoritmos que se seguem. A descrição que vamos fazer foi
obtida a partir de Han e Kamber (2001).
O algoritmo computa a informação ganha em cada atributo e escolhe o atributo com
maior ganho de informação para um dado conjunto S. Um nó é criado e rotulado com este
atributo, galhos são criados para cada valor de atributo e os registros são divididos de acordo de
acordo com estes valores (HAN e KAMBER, 2001, 286-287).
A divisão dos registros é interrompida quando uma das seguintes condições é
verdadeira:
• Todos os registros de um dado nó pertencem à mesma classe;
• Não existem atributos remanescentes em que os registros possam ser divididos. Neste caso o
“Voto pela Maioria” é usado, isto é, este nó é convertido em uma folha e rotulado com a
classe de registros majoritária;
• Não existem registros para o teste de atributo do galho. Neste caso uma folha é criada com o
rótulo da classe de registros majoritária.
O algoritmo usado neste trabalho foi o J48 (disponível na suíte WEKA), que é uma
revisão do algoritmo C4.5, que é um dos mais famosos algoritmos para indução de Árvores de
Decisão, descrito em Quinlan (1994), a partir de seus próprios trabalhos iniciais no ID3
XXXIX SBPO
[825]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
(QUINLAN, 1986). As modificações feitas pela equipe de desenvolvimento do WEKA sobre o
algoritmo original são de ordem computacional e contém métodos heurísticos para simplificar os
modelos obtidos (WITTEN e FRAN, 2005, p. 373 e 406).
Quando a árvore de decisão é induzida, muitos galhos vão refletir anomalias dos dados
de treinamento assim como também ruídos e outliers. Os métodos de poda de árvore amenizam
este problema de superestimação (overfitting) dos dados. Estes tipos de método tipicamente usam
medidas estatísticas para remover os galhos menos confiáveis, em geral resultando em
classificação mais rápida e numa melhoria da habilidade da árvore em classificar dados de teste
independentes (BERRY e LINOFF, 1997, p.289-290).
Existem duas abordagens comuns pata a poda: Prepruning (árvore é podada acabando
sua construção antes da hora) e o Postpruning (remove os galhos da árvore já crescida
completamente). Alternativamente estas duas abordagens podem ser utilizadas de forma
combinada (HAN e KAMBER, 2001).
2.2.2. Comparação de métodos de classificação e previsão
Métodos de Classificação e Previsão podem ser comparados e avaliados de acordo com
os critérios que seguem (HAN e KAMBER, 2001, p. 283):
•
Acurácia Prevista: refere-se à habilidade do modelo de prever corretamente o rótulo de
classe de um novo dado, ou seja, não conhecido previamente. A acurácia mede a taxa de
acerto, precisão e qualidade do modelo como previsor;
•
Interpretabilidade: refere-se ao nível de entendimento e de insight que é provido pelo
modelo;
•
Velocidade: refere-se aos custos computacionais envolvidos em gerar e usar o modelo;
•
Robustez: habilidade do modelo em fazer previsões corretas partindo do pressuposto que
existem dados com ruído ou missing values
•
Escalabilidade: refere-se à habilidade de se construir um modelo eficientemente partindo
do pressuposto que exista grande volume de dados.
3. Metodologia
A base de dados representa um corte temporal relativo ao ano 2.000. Foram utilizadas
as seguintes bases de dados: IBGE – dados do Censo Demográfico, IPEA, Atlas do
Desenvolvimento Humano do Brasil – dados de IDH-M – atributos utilizados na fórmula de
cálculo do IDH-M. Os dados foram emparelhados a partir da identificação dos municípios. A
etapa de pré-processamento foi realizada no ambiente Excel. O processo de limpeza pode ser
descrito a partir das bases originais:
•
IBGE: em alguns municípios da Bahia foram encontrados erros de emparelhamento dentro da
própria base. O emparelhamento pode ser corrigido sem perda de informações. O município
Cococi, pertencente a o estado do Ceará, teve que ser desconsiderado, pois, não havia
informação para seu IDH-M;
• IPEA: os códigos identificadores dos municípios apresentavam dígitos verificadores que
precisaram ser removidos para fins de realização do emparelhamento;
• Atlas de Desenvolvimento humano no Brasil: A limpeza não foi necessária.
As variáveis numéricas foram normalizadas, ou seja, seus valores foram transformados
de maneira que apresentassem escala entre 0 (zero) e 1 (um). Esta normalização foi feita
considerando as variáveis que exprimiam uma quantidade que era uma parte de uma outra
variável. Nestes casos, substituiu-se o valor da variável pela fração (percentual) que ela
representava. A variável PR (Pessoas Residentes) foi utilizada como base para a normalização de
mais de 10 outras variáveis que exprimiam quantidades deste total, como por exemplo, PR04
(Quantidade de Pessoas Residentes com 0 a 4 anos de idades). A variável DPP (Quantidade de
XXXIX SBPO
[826]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
Domicílios Particulares Permanentes) foi utilizada como base para outras 8 variáveis como, por
exemplo, DPPBS (Quantidade de Domicílios Particulares Permanentes com Banheiro ou
Sanitário). Cinco variáveis além de PR e DPP foram mantidas com seus valores originais.
Utilizou-se a técnica da Amplitude Interquartílica (box-plot) na base já normalizada
para Análise de outliers (valores discrepantes). As observações que apresentavam valores de
algum atributo na faixa de identificação de outliers foram desconsideradas. Como resultado deste
processo, apenas 3.889 dos 5.507 municípios brasileiros (observações) foram utilizadas para as
modelagens desenvolvidas.
Todos os atributos, exceto o atributo de classe IDH-M, foram discretizados, ou seja,
sofreram uma substituição de seus valores numéricos por valores categóricos. O procedimento foi
feito baseado em histogramas, que permitiram comparar a distribuição dos valores dos atributos
antes e depois da discretização. Esta comparação foi utilizada para selecionar as discretizações
aceitáveis. As classes nas quais os valores dos atributos foram discretizados apresentavam sempre
amplitudes iguais. Foram consideradas três discretizações diferentes, em função da quantidade de
classes: 5, 6 e 7 classes.
O algoritmo usado foi o J48 (disponível na suíte WEKA), com modificações feitas pela
equipe de desenvolvimento do WEKA, sobre o algoritmo original C4.5 são de ordem
computacional e contém métodos heurísticos para simplificar os modelos obtidos (WITTEN e
FRAN, 2005, p. 373 e 406). O algoritmo gera um classificador na forma de Árvore de Decisão e
está disponível em vários pacotes de softwares. O WEKA possui uma interface gráfica com
poucos recursos que permitem apenas visualizar o resultado da árvore, sem maiores interações.
O sistema admite entrada de dados no formato CSV (Comma Separated Values) ou
“ARFF”, que é o formato nativo do WEKA. O formato CSV é universalmente utilizado como
formato de transferência de arquivos, pois os dados são transformados em um arquivo de texto
(flat file), com uma linha para cada observação e com vírgulas separando os valores dos
atributos/variáveis. A transformação de dados não foi muito trabalhosa, pois o Excel exporta suas
planilhas diretamente para este formato. Depois da importação dos dados em formato CSV, estes
são transformados automaticamente para o formato nativo do WEKA (ARFF).
Foram feitos 32 ensaios,considerando todas as combinações possíveis dos seguintes
parâmetros de entrada: Poda (sim/não), Uso de Teste Binários (sim/não), Nível de Confiança
(0,5/0,25) e Domínio das Variáveis (Sem Discretização, 5 Classes, 6 Classes e 7 Classes). A
Tabela 3 relata os parâmetros utilizados em cada ensaio, onde foram feitas abreviações para os
termos com e sem, binário, confiança, classe e discretização.
Os critérios de velocidade, robustez e escalabilidade não foram levados em conta no
trabalho em questão, pois não se pretendia comparar algoritmos. Na busca pelo melhor modelo
obtido, os únicos parâmetros que mudam de uma execução para outra são acurácia e
interpretabilidade. A acurácia foi medida através do procedimento de cross-validation. Usou-se
como medida da interpretabilidade o tamanho da árvore: quanto menor a árvore mais
interpretável é o modelo. As Tabelas 4 e 5 apresentam um resumo destes indicadores para os 32
ensaios.
Devemos ressaltar a não existência de registros com ocorrência Baixo na variável
dependente IDH-M na base em análise.
XXXIX SBPO
[827]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
ENSAIOS
CONF 0,25
5 CL
ENSAIO 1
S/ PODA
C/ PODA
X
BIN
CONF 0,5
X
X
ENSAIO 2
X
X
ENSAIO 3
X
X
ENSAIO 4
X
X
ENSAIO 5
X
X
ENSAIO 6
X
X
ENSAIO 7
X
X
X
X
X
X
X
ENSAIO 9
X
X
ENSAIO 10
X
X
ENSAIO 11
X
X
X
X
X
X
X
ENSAIO 13
X
X
ENSAIO 14
X
X
ENSAIO 15
X
X
ENSAIO 16
X
X
X
X
X
X
X
ENSAIO 17
X
X
X
ENSAIO 18
X
X
X
ENSAIO 19
X
X
X
ENSAIO 20
X
X
X
ENSAIO 21
X
X
X
ENSAIO 22
X
X
X
ENSAIO 23
X
X
X
X
ENSAIO 25
X
X
X
ENSAIO 26
X
X
X
ENSAIO 27
X
X
X
X
ENSAIO 29
X
X
X
ENSAIO 30
X
X
X
ENSAIO 31
X
X
X
ENSAIO 32
X
X
X
X
X
X
X
X
X
X
X
X
X
X
ENSAIO 24
ENSAIO 28
S/ DISCRET
X
X
X
7 CL
X
ENSAIO 8
ENSAIO 12
6 CL
X
X
X
X
X
X
X
X
X
Tabela 3 - Trinta e Dois Ensaios (Parâmetros)
INTERPRETABILIDADE
1
5
9
13
17
21
25
29
136
171
291
291
113
127
185
185
2
6
10
14
18
22
26
30
139
253
343
343
111
131
143
143
3
7
11
15
19
23
27
31
113
197
400
400
73
135
153
153
4
8
12
16
20
24
28
32
67
73
73
73
67
73
73
73
Tabela 4 - Interpretabilidade
ACURÁCIA
1
5
9
13
17
96,5801
96,7344
96,5287
96,5287
96,2458
21
96,323
25
29
95,8858
95,8858
2
6
10
14
18
22
26
30
96,3487
96,2715
96,2972
96,2972
96,7344
96,7087
96,7087
96,7087
3
7
11
15
19
23
27
31
96,8372
96,6058
96,2715
96,2715
96,2458
96,1944
95,9887
95,9887
4
8
12
16
20
24
28
32
97,6858
97,6344
97,6601
97,6344
97,6858
97,6344
97,6601
97,6344
Tabela 5 - Acurácia
Podemos observar através da Tabela 4 e 5 que o 4º e o 20º ENSAIO deram origem a
modelos que são, ao mesmo tempo, mais interpretáveis (árvores mais simples) e mais precisos.
XXXIX SBPO
[828]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
Na verdade, estes modelos são identicos.
4. Resultados
O modelo obtido pelo 4º ensaio foi escolhido para a análise do conhecimento
estabelecido, pois dentre os demais é o que apresentou os melhores níveis de avaliação considerados:
precisão (acurácia) e interpretabilidade (o modelo obtido pelo 20º ensaio é identico ao modelo obtido
pelo 4º ensaio). Este modelo apresentou 64 regras (cada folha da árvore equivale a uma regra) e taxa de
acerto de 97,68%.
Avaliou-se cada regra através do Nível de Abrangência, que é dado por:
QRCYF
,
NV =
QTRY
onde
NV
QRCYF
QTRY
= Nível de Abrangência
= Quantidade de Registros cuja Classificação é Y pela Regra
= Quantidade Total de Registros cuja Classificação é Y.
Usou-se essa medida de abrangência como medida de relevância da regra, visto que as
opções de classificação são bem limitadas. As quatro regras mais relevantes para o valor de
classe IDH-M = Médio apresentaram NV 86,63%, 5,14%, 3,45% e 1,14%, e cobriam 3.116, 185,
124 e 41 registros, respectivamente. Para o valor de classe IDH-M = Alto, foram selecionadas
regras com NV 44,86%, 11,99%, 11,30% e 8,56%, que cobriam 131, 35, 33 e 25 registros,
respectivamente.
A quantidade total de registros classificados como Médio (3597) ou Alto (292) pode ser
observada através da matriz de confusão gerada pelo sistema, na Tabela 3. A primeira linha se
refere ao número de registros classificados como Médio e a segunda linha os classificados como
Alto, de maneira que os valores na diagonal principal indicam classificações bem sucedidas, e os
valores na outra diagonal indicam classificações mal sucedidas. Nota-se que a maioria dos
municípios brasileiros possui IDH-M médio.
Total de
Registros
REAL
MÉDIO
REAL
ALTO
Classificado
Como
3597
3554
43
MEDIO
292
47
245
ALTO
3889
3601
288
Tabela 6 - Matriz de Confusão do 4º ENSAIO
A diagonal Principal da Matriz de Confusão, formada pelos valores 3554 e 245,
apresentam os registros classificados corretamente e a Diagonal Secundária, com os valores 43 e
47, refere-se aos registros incorretamente classificados pelo modelo. Assim, tem-se 3554
registros classificados como MÉDIO e 245 classificados como ALTO corretamente. Por outro
lado, tem-se 47 registros classificados como MÉDIO e 43 como ALTO incorretamente.
A seguir serão interpretadas as regras obtidas e os conhecimentos gerados. O primeiro
número que segue a regra indica a quantidade de registros de treinamento que são associados a
esta folha durante o processo de estimação do modelo. O segundo número, quando presente,
indica a quantidade de registros que são classificados incorretamente por esta folha no momento
da avaliação do sistema (WITTEN e FRAN, 2005, p. 376).
REGRA 1
⎧ PR10TA ≤ 0,909466⎫
⎪
⎪
SE ⎨
e
⎬ ⇒ IDHM = Médio(3116.0 / 3.0)
⎪ RFPM ≤ 260,85 ⎪
⎩
⎭
SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for menor ou
igual a 0,909466 E renda familiar per capta média (RFPM) for menor ou igual a 260,85 ENTÃO IDH-M
MÉDIO.
XXXIX SBPO
[829]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
REGRA 12
⎧ PR10TA > 0,909466⎫
⎪ EVN ≤ 0,7335 ⎪
⎪
⎪
SE ⎨
⎬ ⇒ IDHM = Médio(185.0)
⎪ RFPM ≤ 280,63 ⎪
⎪⎩
⎪⎭
TA ≤ 0,9311
SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que
0,909466 E esperança de vida ao nascer menor ou igual a 0,7335 E renda familiar per capta média (EVN)
for menor ou igual a 283,63 E taxa de alfabetização (TA) menor ou igual a 0,9311 ENTÃO IDH-M
MÉDIO.
REGRA 2
⎧ PR10TA ≤ 0,909466⎫
⎪
⎪
SE ⎨ EVN ≤ 0,7292 ⎬ ⇒ IDHM = Médio(124.0)
⎪ RFPM ≤ 349,21 ⎪
⎭
⎩
SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for menor ou
igual a 0,909466 E renda familiar per capta média (RFPM) maior que 260,85 E menor ou igual a 349,21 E
esperança de vida ao nascer menor ou igual a 0,7292 ENTÃO IDH-M MÉDIO.
REGRA 5
⎧ PR10TA ≤ 0,909466 ⎫
⎪260,85 < RFPM ≤ 327,73⎪
⎪
⎪
SE ⎨
⎬ ⇒ IDHM = Médio( 41.0)
0
,
7292
0
,
7524
<
EVN
≤
⎪
⎪
⎪⎩
⎪⎭
TBFE ≤ 0,8013
SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for menor ou
igual a 0,909466 E renda familiar per capta média (RFPM) maior que 260,85 E menor ou igual a 327,73 E
esperança de vida ao nascer (EVN) maior que 0,7292 E menor ou igual a 0,7524 E taxa bruta de freqüência
à escola (TBFE) menor ou igual a 0,8013 ENTÃO IDH-M MÉDIO.
REGRA 34
⎧ PR10TA > 0,909466⎫
⎪
⎪
SE ⎨ EVN > 0,7335 ⎬ ⇒ IDHM = Alto(131.0 / 1.0)
⎪ RFPM > 282,18 ⎪
⎩
⎭
SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que
0,909466 E esperança de vida ao nascer (EVN) maior que 0,7335 E renda familiar per capta média
(RFPM) maior que 282,18 ENTÃO IDH-M ALTO.
REGRA 22
⎧ PR10TA > 0,923096 ⎫
⎪0,7146 < EVN ≤ 0,7335⎪
⎪
⎪
SE ⎨
⎬ ⇒ IDHM = Alto(35.0 / 1.0)
⎪ RFPM > 283,63 ⎪
⎪⎩
⎪⎭
TBFE > 0,7448
SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que
0,923096 E esperança de vida ao nascer (EVN) maior que 0,7146 E menor ou igual a 0,7335 E renda
familiar per capta média (RFPM) for maior que 283,63 E taxa bruta de freqüência à escola (TBFE) maior
que 0,7448 ENTÃO IDH-M ALTO.
REGRA 32
⎧ PR10TA > 0,909466 ⎫
⎪
⎪
EVN > 0,7393
⎪⎪
⎪⎪
SE ⎨0,7393 < RFPM ≤ 282,18⎬ ⇒ IDHM = Alto(33.0)
⎪
⎪
TBFE > 0,7448
⎪
⎪
TA ≤ 0,9382
⎭⎪
⎩⎪
SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que
0,909466 E esperança de vida ao nascer (EVN) maior que 0,7393 E renda familiar per capta média
(RFPM) for maior que 244,33 E menor ou igual a 282,18 E taxa de alfabetização (TA) menor ou igual a
0,9382 E taxa bruta de freqüência à escola maior que 0,7844 ENTÃO IDH-M ALTO.
REGRA 33
⎧ PR10TA > 0,909466⎫
⎪ EVN > 0,7335 ⎪
⎪
⎪
SE ⎨
⎬ ⇒ IDHM = Alto(25.0)
RFPM
282,18
≤
⎪
⎪
TA > 0,9382
⎩⎪
⎭⎪
SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que
0,909466 E esperança de vida ao nascer (EVN) maior que 0,7335 E renda familiar per capta média
(RFPM) menor ou igual a 282,18 E taxa de alfabetização (TA) maior que 0,9382 ENTÃO IDH-M ALTO.
É importante fazer uma comparação entre as regras que classificam o IDH-M como
MEDIO (quatro primeiras regras) e aquelas que o classificam como ALTO (quatro últimas).
A Taxa de Alfabetização de Pessoas Residentes com 10 anos ou mais de idade
XXXIX SBPO
[830]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
(PR10TA) parece ser determinante para a classificação do IDH-M. Se PR10TA > 0.909466 então
IDH-M ALTO e se PR10TA <= 0.909466 então IDH-M NÃO ALTO. A única exceção é a regra
12 que, mesmo tendo PR10TA > 0.909466, classifica IDH-M como MEDIO. Isto pode estar
acontecendo, devido neste caso a Renda Familiar Per Capta Média ser baixa (RFPM <= 283.63)
indicando a forte influência da renda familiar no IDH-M.
Uma outra forma de observar isto é observando a árvore do modelo. Todas as folhas
(das regras analisadas) que tiveram origem à esquerda de PR10TA classificam os registros como
MEDIO e todas as folhas (dentre as regras analisadas) que tiveram origem à direita de PR10TA
classificaram os registros como ALTO, com a exceção da regra 12. Podemos, portanto, sugerir
que altos níveis de PR10TA e RFPM são determinantes de um IDH-M alto. Consequentemente
um gestor local deveria investir na melhoria da educação básica e em programas de transferência
de renda como maneira eficaz de melhoria do IDH-M.
Outras variáveis menos relevantes, porém, com influencia relativa sobre o IDH-M,
seriam esperança de vida ao nascer (EVN), denotando a importância de saúde pública, taxa de
alfabetização (TA) e taxa bruta de freqüência à escola, representando a educação básica.
Apesar de outras regras (14 e 15 do 4º ENSAIO) não terem sido consideradas
importantes e, portanto analisadas, as mesmas apresentaram o atributo PRAU (quantidade de
pessoas em área urbana), indicando que um maior número de pessoas em área urbana contribuiria
para o IDH-M ser classificado como ALTO. É importante notar que esta variável não faz parte da
fórmula do cálculo do IDH-M. Este é também o caso de outras regras que (24 e 25 4º ENSAIO)
que apresentam o atributo DPPOF (quantidade de domicílios particulares permanentes com forma
de abastecimento de água outra que não rede pública ou poço ou nascente) em sua composição,
as mesmas indicam que uma maior a quantidade de domicílios particulares permanentes cuja
forma de abastecimento de água seja outras formas (que não poço ou nascente ou rede geral)
contribuiria para que IDH-M fosse ALTO.
5. Conclusões e Pesquisas Futuras
O estudo mostrou uma alternativa para o cálculo do IDH-M, e investigou atributos que
influenciam no nível do IDH-M que não aqueles que compõem a fórmula de seu cálculo. Este
trabalho pode servir de base para os governos federal, estadual, municipal, ou até mesmo
organizações não governamentais, melhorarem a qualidade de vida das pessoas e a imagem do
Brasil no mundo.
Observou-se que todas as discretizações da base de dados geraram árvores muito
complexas, isto é, uma grande quantidade de regras pode ser extraída destas árvores. Isto
equivale a dizer que são modelos com baixo nível de interpretabilidade.
Observando-se as regras do 4º ENSAIO pôde-se notar que todas apresentam os
atributos PR10TA e RFPM indicando a grande importância da educação e renda na determinação
do IDH-M. Isto sugere que se estes a elevação dos níveis destes fatores pode levar a uma
elevação na avaliação municipal pelo IDH-M.
Apesar de não se ter previsto os valores para IDH-M, foi possível explicar seu
comportamento na medida em que foram identificados atributos e seus pontos de corte que, em
conjunto, determinam o nível do IDH-M. De acordo com as regras, o aumento de Pessoas na
Área Urbana e da Quantidade Domicílios Particulares Permanentes – Forma de Abastecimento de
Água Outras Formas influenciam fortemente os níveis de IDH-M. Nesta análise, o nível de IDHM pode ser influenciado por outros fatores além dos estabelecidos formalmente por este índice.
A realização deste estudo no nível Estadual, ou seja, analisar as regras mais abrangentes
por estados da federação, também deve trazer conhecimento relevante. A partir disto também
pode ser possível encontrar regiões que possam ter as mesmas regras como mais abrangentes.
As variáveis analisadas no trabalho são objetivas e podem estar sofrendo a influência de
variáveis subjetivas, como é o caso da cultura, ou seja, pode ser que a cultura influencie os
atributos do censo, que por sua vez podem influenciar o nível tanto de IDH-M como o do IDH.
Assim, pode ser interessante incluir nestes estudos estas questões. Algumas perguntas possíveis
são: Qual o papel das Organizações Não Governamentais (ONGs) nos elementos (municípios,
XXXIX SBPO
[831]
X X X I X SBPO
28 a 31/08/07 Fortaleza, CE
A Pesquisa Operacional e o Desenvolvimento Sustentável
estados, regiões)? Qual a cultura do povo desta região? Questões como clima e hidrografia
influenciam grupos de estados com as mesmas regras mais abrangentes para IDH-M?
Questões complexas, como as culturais, podem requerer a participação de profissionais
como os sociólogos, que em conjunto com os mineradores de dados, poderiam tentar encontrar
influências culturais que pudessem influenciar o IDH-M.
É importante que sejam montados modelos de previsão, ou seja, que modelem a
variável dependente em um nível quantitativo. Desta maneira, pode ser possível saber o quanto
de incremento em um determinado atributo pode trazer de benefício. Neste sentido, seria
desejável uma pesquisa fazendo uso da técnica de Cluster, ou seja, aprendizado não
supervisionado. Este modelo poderia localizar conjuntos de municípios com as características
similares, e esta análise inicial permitiria a indução de modelos mais específicos que se adequem
às realidades regionais ou estaduais, por exemplo.
É recomendável que um trabalho futuro seja feito no sentido de tentar encontrar regras
utilizando bancos de dados com atributos referentes, possivelmente, somente às capitais ou às
grandes cidades de uma forma geral.
É também recomendável que se façam outras pesquisas levando em consideração outras
bases de dados com informações demográficas e sociais que não tenham sido consideradas neste
trabalho.
Referências
Berry, Michael. J. A., Linoff, Gordon. (1997). Data Mining Techniques. Nova York: John
Wiley & Sons, 1997.
Coelho, Paulo Sérgio de S.; Lachtermacher, Gerson, Ebecken, Nelson F. F. (2003)
Classificação de Dados: uma visão geral. XXVII Enanpad, Atibaia.
Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J. (1998). UCI Repository of machine
learning databases. Irvine, CA (EUA): University of California, Department of Information and
Computer Science. (http://www.ics.uci.edu/~mlearn/MLRepository.html)
PNUD Brasil. (2005a) Desenvolvimento Humano e IDH (http://www.pnud.org.br/idh/)
PNUD Brasil. (2005b) Atlas do Desenvolvimento Humano (http://www.pnud.org.br/atlas/)
Anand, Sudhir e Sen, Amartya. (1994) Human Development Index: Methodology and
Measurement. Human Development Report Office Occasional Paper 12, New York. Reimpresso
em Fukuda-Parr, S. e Kumar, A. K. Shiva , eds., Readings in Human Development. New Delhi:
Oxford University Press, 2003.
Pyle, Dorian. (2001) Data Preparation for Data Mining. San Francisco: Morgan Kaufmann.
Quinlan, John Ross. (1993) C4.5: programs for machine learning. San Mateo, California, EUA:
Morgan Kaufmann Publishers.
Quinlan, John Ross. (1986) Induction of Decision Trees. Machine Learning, 1:81-106.
Weka Software. (2004) University of Waikato.(http://www.cs.waikato.ac.nz/ml/weka/)
Witten, Ian H., Fran, Eibe. Data Mining: Pratical Machine Learning Tools and Techniques
with Java Implementations. 2. ed. San Francisco: Morgan Kaufmann, 2005.
XXXIX SBPO
[832]
Download