X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável DETERMINAÇÃO DE FATORES CRÍTICOS PARA O IDH-M A PARTIR DE TÉCNICAS DE MINERAÇÃO DE DADOS Ludmila Maria Leite de Carvalho Coradine Faculdades Ibmec – RJ Av. Presidente Wilson, 118 – Centro Rio de Janeiro – RJ [email protected] Gerson Lachtermacher FCE/UERJ e EBAPE/FGV R. São Francisco Xavier, 524, 8° andar, Bloco B e Praia de Botafogo, 190 [email protected] / [email protected] Paulo Sérgio de Souza Coelho Faculdades Ibmec – RJ Av. Presidente Wilson, 118 – Centro Rio de Janeiro – RJ [email protected] RESUMO O IDH (Índice de Desenvolvimento Humano) e o IDH-M (âmbito municipal) são as alternativas atuais ao PIB. Este último é determinado a partir de indicadores sócio-econômicos. O presente estudo aplicou técnicas de Data Mining para determinar Regras de Classificação, obtidas através de Árvores de Decisão induzidas a partir de uma base formada com dados do Censo 2000 (IBGE) e do IDH-M (PNUD), que expliquem possíveis relações existentes entre alguns indicadores que não estão diretamente envolvidos na formulação do IDH-M. Para tanto, foi utilizado uma ferramenta computacional acadêmica, de código aberto, que possui uma implementação do paradigma para a metodologia de indução de árvores de decisão. Os resultados apontam para uma formulação alternativa do IDH-M, com alguns indicadores além dos originalmente utilizados, que servem para um melhor entendimento das classificações municipais em níveis de desenvolvimento humano. PALAVRAS CHAVE. IDH-M. Data Mining. Indução de Árvores de Decisão. MD – Mineração de Dados ABSTRACT The HDI (Human Development Index) and its city-level version are PIB alternatives nowadays. This last is obtained from social and economics indicators. This study applied Data Mining techniques to determine Classification Rules, obtained from Decision Trees inducted from a database constructed using 2000 Census (IBGE) and HDI city-level (PNUD), that explain relations between indicators that are not directly related with HDI city-level formulation. To do this was used an academic computer tool, with opened code, which has a implantation of decision tree induction methodology paradigm. The results point to an alternative formulation of HDI citylevel formulation, with some new indicators, which can be used to better understand municipality’s classifications for human development levels. KEYWORDS. City-level HDI. Data Mining. Decision Tree Induction. MD - Data Mining. XXXIX SBPO [821] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável 1. Introdução Este trabalho utiliza o KDD – Knowledge Discovery in Databases (Processo de Descoberta de Conhecimento, Han e Kamber, 2001) como ferramenta para descobrir fatores críticos que expliquem o IDH-M (Índice de Desenvolvimento Humano Municipal) e que não são considerados no seu calculo. Foram considerados atributos da base de dados do Censo 2000 sobre todos os municípios brasileiros (5.507 municípios). Como parte do KDD, a atividade de Mineração de Dados (Data Mining) será realizada utilizando a técnica de Árvore de Decisão implementada dentro do software WEKA, uma suíte de KDD desenvolvida dentro da University of Waikato (WEKA, 2004). A partir dos indicadores do IDH-M, o Brasil é considerado um país de desenvolvimento humano de nível médio, pois a maior parte dos municípios brasileiros se encontra nesta categoria. O presente trabalho, ao sinalizar possíveis relacionamentos entre os novos atributos considerados, pode indicar quais deles, e em que intensidade, gerando assim conhecimento na área de gestão municipal. Assim, as regras mais abrangentes encontradas no estudo podem ser fontes de investimento para o desenvolvimento humano e conseqüente melhoria nos níveis do IDH-M. O presente artigo possui mais quatro seções além desta A seção 2 é reservada à revisão bibliográfica, trazendo os conceitos relativos ao IDH-M e ao KDD e Data Mining. A seção 3 relata a metodologia do estudo, fazendo sua fundamentação teórica. A seção 4 apresenta e analisa os o conhecimento obtido. Na última seção estão descritas as conclusões gerais do trabalho e as pesquisas futuras que podem ser desenvolvidas. 2. Revisão Bibliográfica A revisão bibliográfica feita para este estudo tem duas linhas completamente diferentes. Na primeira subseção estão descritos os índices IDH e IDH-M e os indicadores que os compõem e na seguinte estão descritos os conceitos do ambiente de KDD e Data Mining. 2.1. IDH e IDH-M Segundo o PNUD – Programa das Nações Unidas para o Desenvolvimento, o IDH surgiu como forma de medir o desenvolvimento humano. Esta medida substitui o PIB, que é um indicador estritamente econômico, por um indicador mais complexo que considera outros aspectos de desenvolvimento social (PNUD, 2005a). Os valores do IDH estão entre 0 e 1, sendo que o valor 1 indica o mais alto nível de desenvolvimento humano de um país ou região. Os trabalhos originais que deram origem ao índice foram descritos em Anand e Sen, 1994. A concepção inicial do IDH foi criar uma forma de medir o nível de desenvolvimento humano dos países, utilizando para esta finalidade três dimensões: Longevidade, Educação e Renda (PNUD, 2005b). O IDH do país i, cujos índices (dimensões) de longevidade, educação e renda são, respectivamente, ILi, IEi e IRi é a média aritmética simples destes três índices (PNUD, 2005b): ( IE i + ILi + IRi ) , IDH i = 3 sendo: • IEi: combinação da taxa de alfabetização de adultos, com peso 2/3 e da taxa combinada de matrícula nos três níveis de ensino (fundamental, médio e superior), com peso 1/3; • ILi: esperança de vida ao nascer; • IRi: PIB per capita, expresso em dólares PPC (Paridade do Poder de Compra). Para classificar os países em três grandes categorias o PNUD estabeleceu algumas faixas (PNUD, 2005b). Estas faixas podem ser vistas na Tabela 1. XXXIX SBPO [822] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável Valor 0 ≤ IDH < 0,5 0,5≤ IDH < 0,8 0,8 ≤ IDH ≤ 1 Nível de Desenvolvimento Humano Baixo Médio Alto Tabela 1: faixas de IDH. Fonte: PNUD (2005b) Para que se pudesse medir o Desenvolvimento Humano a nível municipal foi criado o IDH-M (IDH Municipal). Trata-se de uma adaptação direta do IDH para o nível municipal, utilizando as mesmas dimensões do IDH (educação, longevidade e renda), mas com indicadores diferentes dos que compõem o cálculo do índice original. Esta substituição busca uma melhor adequação para as condições de núcleos sociais menores. Os indicadores usados para o cálculo do IDH-M são: • Educação (IDHM-E) – esta dimensão utiliza para seu cálculo dois indicadores: taxa de alfabetização de pessoas acima de 15 anos de idade (percentual de pessoas capazes de ler e escrever um bilhete simples) e taxa bruta de freqüência à escola (total de pessoas, de qualquer idade, que freqüentam algum curso formal, dividido pela população na faixa etária de 7 a 22 da localidade. Estão incluídos na conta alunos de cursos supletivos de primeiro e segundo graus, de classes de aceleração e pós-graduação universitária; apenas as classes especiais de alfabetização, alunos com deficiência mental, são descartadas). Esta dimensão é definida usando uma ponderação dos indicadores, o primeiro com peso dois e o segundo com peso um; • Longevidade (IDHM-L) – utiliza para seu cálculo o mesmo indicador do IDH de países: a esperança de vida ao nascer (idade média de óbito); • Renda (IDHM-R) – esta dimensão utiliza para seu cálculo o indicador renda média de cada residente no município (renda total, dividido pela quantidade de residentes, inclusive crianças e pessoas sem renda). O IDH-M é obtido através da média aritmética destas dimensões: (IDHM- E) + ( IDHM- L) + (IDHM- R) IDH- M = 3 Alguns indicadores são utilizados nos cálculos das dimensões tanto pelo IDH quanto pelo IDH-M enquanto outros são específicos de cada caso. Na Tabela 2 pode-se ver um resumo destes indicadores. Sub-Índices Renda Longevidade Educação Indicador PIB Per Capta Renda Familiar Per Capta Esperança de Vida ao Nascer Taxa de Alfabetização Taxa de Matrícula Taxa Bruta de Freqüência à Escola IDH X X X X IDH-M X X X X Tabela 2 - Resumo Indicadores IDH e IDH-M 2.2. KDD e Mineração de Dados Alguns fatores propiciaram o desenvolvimento da área de Mineração de Dados, dentre eles convém destacar a grande quantidade de dados que vem sendo gerados e armazenados pelas empresas, a grande competitividade entre as elas, a disponibilidade de softwares robustos para atividades de análise de dados e a ampliação da capacidade computacional (BERRY e LINOFF, 1997, p. 6). Existe uma distinção entre os dois conceitos fundamentais de KDD e de Mineração de Dados. O primeiro refere-se ao processo completo de descoberta do conhecimento enquanto o segundo é apenas uma das etapas deste primeiro. Cabe a Mineração de Dados a extração de padrões dos dados, através da aplicação de algoritmos. A representação esquemática do KDD pode ser vista na Figura 1. XXXIX SBPO [823] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável Interpretação Mineração de Dados e Avaliação Conhecimento Preparação e Transformação Padrões Dados Pré-processados e Transformados Seleção Dados Alvo Fonte de Dados Figura 1: - Processo de KDD. Adaptado de Han e Kamber (2001, p.6). A área de Mineração de Dados compreende uma série de técnicas oriundas das ciências de estatística, computação, e inteligência artificial. Neste estudo utilizamos a técnica de árvore de decisão para modelagem do problema. 2.2.1. Árvores de Decisão Uma árvore de decisão é um fluxo de uma árvore onde cada nó interno denota um teste em um atributo, cada galho representa uma saída de teste e os nós de folha representam as classes ou as classes de distribuição. O nó mais alto é a raiz da árvore. Uma das vantagens desta técnica, é que ela pode ser interpretada através de regras facilmente compreensíveis pela mente humana (HAN e KAMBER, 2001, p.284). A interpretação destas regras é feita seguindo o caminho desde a raiz até uma das folhas. A Árvore de Decisão que pode ser exemplificada através da Figura 2 foi estimada a partir de uma base de dados sobre características de uma planta chamada íris. Esta é uma base de dados clássica, freqüentemente utilizada como exemplo, chamada Iris Plant Database (Newman et al, 2005). A base é constituída por apenas 150 observações (linhas), descritas por quatro atributos numéricos (petalwidht, petallength, setalwidh e setallenght) mais uma variável de resposta categórica (chamada class), totalizando 5 colunas. Cada nó da árvore ou é um nó de teste sobre um atributo (indicado por uma elipse com o nome do atributo escrito no seu interior) ou é uma folha, com um valor da variável de resposta (indicado por um retângulo com o valor da variável de resposta indicado no seu interior). Nos nós folha podem ser vistos algumas medidas que descrevem detalhes técnicos do processo de estimação e teste. Assim, existem ao todo 5 regras, pois existem 5 folhas. Por exemplo, seguindo o caminho para esquerda a partir da raiz, pode ser lida a seguinte regra: se petalwidht <= 0,6 então class = íris-setosa. Pode-se dizer que as “Árvores de Decisão funcionam como filtros de dados (ou registros)” que vão separando um grupo de dados (ou registros) com determinadas características de outro (HAN e KAMBER, 2001, p.284). XXXIX SBPO [824] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável petalwidth <= 0,6 > 0,6 iris-setosa (50.0) petalwidth <= 1,7 petallength <= 4,9 > 1,7 iris-virginica (46.0/1.0) > 4,9 iris-versicolor (48.0/1.0) petalwidth <= 1,5 iris-virginica (3.0) > 1,5 iris-versicolor (3.0/1.0) Figura 2: Árvore de Decisão Algumas regras são melhores que outras. Mede-se a “efetividade” de uma Árvore de Decisão, aplicando-a a uma coleção de dados desconhecida e observando a porcentagem de dados que foi classificada corretamente. Precisa-se também atentar para a qualidade de cada um dos galhos da árvore. As regras podem ser avaliadas, e algumas serão melhores que outras. A força prevista da árvore, isto é, a acurácia, pode ser melhorada através de um processo chamado de poda dos seus galhos mais fracos. A poda de algum galho é, literalmente, o corte deste, eliminando as folhas que estiverem na seqüência. Esta poda pode ser vantajosa, pois, os galhos mais fracos podem estar associados à grande parte dos erros, o que pode implicar em menor precisão (BERRY e LINOFF, 1997, p. 246). Em cada nó da árvore pode-se medir (BERRY e LINOFF, 1997, p. 246): • Número de registros entrando no nó; • A maneira como seriam classificados os registros, se este fosse um nó de folha; • O percentual de registros classificados corretamente no nó. O algoritmo ID3 foi o primeiro algoritmo da comunidade de computação para estimar Arvores de Decisão para o problema de Classificação. O algoritmo está totalmente descrito em Quinlan (1986), e é base para vários algoritmos que se seguem. A descrição que vamos fazer foi obtida a partir de Han e Kamber (2001). O algoritmo computa a informação ganha em cada atributo e escolhe o atributo com maior ganho de informação para um dado conjunto S. Um nó é criado e rotulado com este atributo, galhos são criados para cada valor de atributo e os registros são divididos de acordo de acordo com estes valores (HAN e KAMBER, 2001, 286-287). A divisão dos registros é interrompida quando uma das seguintes condições é verdadeira: • Todos os registros de um dado nó pertencem à mesma classe; • Não existem atributos remanescentes em que os registros possam ser divididos. Neste caso o “Voto pela Maioria” é usado, isto é, este nó é convertido em uma folha e rotulado com a classe de registros majoritária; • Não existem registros para o teste de atributo do galho. Neste caso uma folha é criada com o rótulo da classe de registros majoritária. O algoritmo usado neste trabalho foi o J48 (disponível na suíte WEKA), que é uma revisão do algoritmo C4.5, que é um dos mais famosos algoritmos para indução de Árvores de Decisão, descrito em Quinlan (1994), a partir de seus próprios trabalhos iniciais no ID3 XXXIX SBPO [825] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável (QUINLAN, 1986). As modificações feitas pela equipe de desenvolvimento do WEKA sobre o algoritmo original são de ordem computacional e contém métodos heurísticos para simplificar os modelos obtidos (WITTEN e FRAN, 2005, p. 373 e 406). Quando a árvore de decisão é induzida, muitos galhos vão refletir anomalias dos dados de treinamento assim como também ruídos e outliers. Os métodos de poda de árvore amenizam este problema de superestimação (overfitting) dos dados. Estes tipos de método tipicamente usam medidas estatísticas para remover os galhos menos confiáveis, em geral resultando em classificação mais rápida e numa melhoria da habilidade da árvore em classificar dados de teste independentes (BERRY e LINOFF, 1997, p.289-290). Existem duas abordagens comuns pata a poda: Prepruning (árvore é podada acabando sua construção antes da hora) e o Postpruning (remove os galhos da árvore já crescida completamente). Alternativamente estas duas abordagens podem ser utilizadas de forma combinada (HAN e KAMBER, 2001). 2.2.2. Comparação de métodos de classificação e previsão Métodos de Classificação e Previsão podem ser comparados e avaliados de acordo com os critérios que seguem (HAN e KAMBER, 2001, p. 283): • Acurácia Prevista: refere-se à habilidade do modelo de prever corretamente o rótulo de classe de um novo dado, ou seja, não conhecido previamente. A acurácia mede a taxa de acerto, precisão e qualidade do modelo como previsor; • Interpretabilidade: refere-se ao nível de entendimento e de insight que é provido pelo modelo; • Velocidade: refere-se aos custos computacionais envolvidos em gerar e usar o modelo; • Robustez: habilidade do modelo em fazer previsões corretas partindo do pressuposto que existem dados com ruído ou missing values • Escalabilidade: refere-se à habilidade de se construir um modelo eficientemente partindo do pressuposto que exista grande volume de dados. 3. Metodologia A base de dados representa um corte temporal relativo ao ano 2.000. Foram utilizadas as seguintes bases de dados: IBGE – dados do Censo Demográfico, IPEA, Atlas do Desenvolvimento Humano do Brasil – dados de IDH-M – atributos utilizados na fórmula de cálculo do IDH-M. Os dados foram emparelhados a partir da identificação dos municípios. A etapa de pré-processamento foi realizada no ambiente Excel. O processo de limpeza pode ser descrito a partir das bases originais: • IBGE: em alguns municípios da Bahia foram encontrados erros de emparelhamento dentro da própria base. O emparelhamento pode ser corrigido sem perda de informações. O município Cococi, pertencente a o estado do Ceará, teve que ser desconsiderado, pois, não havia informação para seu IDH-M; • IPEA: os códigos identificadores dos municípios apresentavam dígitos verificadores que precisaram ser removidos para fins de realização do emparelhamento; • Atlas de Desenvolvimento humano no Brasil: A limpeza não foi necessária. As variáveis numéricas foram normalizadas, ou seja, seus valores foram transformados de maneira que apresentassem escala entre 0 (zero) e 1 (um). Esta normalização foi feita considerando as variáveis que exprimiam uma quantidade que era uma parte de uma outra variável. Nestes casos, substituiu-se o valor da variável pela fração (percentual) que ela representava. A variável PR (Pessoas Residentes) foi utilizada como base para a normalização de mais de 10 outras variáveis que exprimiam quantidades deste total, como por exemplo, PR04 (Quantidade de Pessoas Residentes com 0 a 4 anos de idades). A variável DPP (Quantidade de XXXIX SBPO [826] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável Domicílios Particulares Permanentes) foi utilizada como base para outras 8 variáveis como, por exemplo, DPPBS (Quantidade de Domicílios Particulares Permanentes com Banheiro ou Sanitário). Cinco variáveis além de PR e DPP foram mantidas com seus valores originais. Utilizou-se a técnica da Amplitude Interquartílica (box-plot) na base já normalizada para Análise de outliers (valores discrepantes). As observações que apresentavam valores de algum atributo na faixa de identificação de outliers foram desconsideradas. Como resultado deste processo, apenas 3.889 dos 5.507 municípios brasileiros (observações) foram utilizadas para as modelagens desenvolvidas. Todos os atributos, exceto o atributo de classe IDH-M, foram discretizados, ou seja, sofreram uma substituição de seus valores numéricos por valores categóricos. O procedimento foi feito baseado em histogramas, que permitiram comparar a distribuição dos valores dos atributos antes e depois da discretização. Esta comparação foi utilizada para selecionar as discretizações aceitáveis. As classes nas quais os valores dos atributos foram discretizados apresentavam sempre amplitudes iguais. Foram consideradas três discretizações diferentes, em função da quantidade de classes: 5, 6 e 7 classes. O algoritmo usado foi o J48 (disponível na suíte WEKA), com modificações feitas pela equipe de desenvolvimento do WEKA, sobre o algoritmo original C4.5 são de ordem computacional e contém métodos heurísticos para simplificar os modelos obtidos (WITTEN e FRAN, 2005, p. 373 e 406). O algoritmo gera um classificador na forma de Árvore de Decisão e está disponível em vários pacotes de softwares. O WEKA possui uma interface gráfica com poucos recursos que permitem apenas visualizar o resultado da árvore, sem maiores interações. O sistema admite entrada de dados no formato CSV (Comma Separated Values) ou “ARFF”, que é o formato nativo do WEKA. O formato CSV é universalmente utilizado como formato de transferência de arquivos, pois os dados são transformados em um arquivo de texto (flat file), com uma linha para cada observação e com vírgulas separando os valores dos atributos/variáveis. A transformação de dados não foi muito trabalhosa, pois o Excel exporta suas planilhas diretamente para este formato. Depois da importação dos dados em formato CSV, estes são transformados automaticamente para o formato nativo do WEKA (ARFF). Foram feitos 32 ensaios,considerando todas as combinações possíveis dos seguintes parâmetros de entrada: Poda (sim/não), Uso de Teste Binários (sim/não), Nível de Confiança (0,5/0,25) e Domínio das Variáveis (Sem Discretização, 5 Classes, 6 Classes e 7 Classes). A Tabela 3 relata os parâmetros utilizados em cada ensaio, onde foram feitas abreviações para os termos com e sem, binário, confiança, classe e discretização. Os critérios de velocidade, robustez e escalabilidade não foram levados em conta no trabalho em questão, pois não se pretendia comparar algoritmos. Na busca pelo melhor modelo obtido, os únicos parâmetros que mudam de uma execução para outra são acurácia e interpretabilidade. A acurácia foi medida através do procedimento de cross-validation. Usou-se como medida da interpretabilidade o tamanho da árvore: quanto menor a árvore mais interpretável é o modelo. As Tabelas 4 e 5 apresentam um resumo destes indicadores para os 32 ensaios. Devemos ressaltar a não existência de registros com ocorrência Baixo na variável dependente IDH-M na base em análise. XXXIX SBPO [827] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável ENSAIOS CONF 0,25 5 CL ENSAIO 1 S/ PODA C/ PODA X BIN CONF 0,5 X X ENSAIO 2 X X ENSAIO 3 X X ENSAIO 4 X X ENSAIO 5 X X ENSAIO 6 X X ENSAIO 7 X X X X X X X ENSAIO 9 X X ENSAIO 10 X X ENSAIO 11 X X X X X X X ENSAIO 13 X X ENSAIO 14 X X ENSAIO 15 X X ENSAIO 16 X X X X X X X ENSAIO 17 X X X ENSAIO 18 X X X ENSAIO 19 X X X ENSAIO 20 X X X ENSAIO 21 X X X ENSAIO 22 X X X ENSAIO 23 X X X X ENSAIO 25 X X X ENSAIO 26 X X X ENSAIO 27 X X X X ENSAIO 29 X X X ENSAIO 30 X X X ENSAIO 31 X X X ENSAIO 32 X X X X X X X X X X X X X X ENSAIO 24 ENSAIO 28 S/ DISCRET X X X 7 CL X ENSAIO 8 ENSAIO 12 6 CL X X X X X X X X X Tabela 3 - Trinta e Dois Ensaios (Parâmetros) INTERPRETABILIDADE 1 5 9 13 17 21 25 29 136 171 291 291 113 127 185 185 2 6 10 14 18 22 26 30 139 253 343 343 111 131 143 143 3 7 11 15 19 23 27 31 113 197 400 400 73 135 153 153 4 8 12 16 20 24 28 32 67 73 73 73 67 73 73 73 Tabela 4 - Interpretabilidade ACURÁCIA 1 5 9 13 17 96,5801 96,7344 96,5287 96,5287 96,2458 21 96,323 25 29 95,8858 95,8858 2 6 10 14 18 22 26 30 96,3487 96,2715 96,2972 96,2972 96,7344 96,7087 96,7087 96,7087 3 7 11 15 19 23 27 31 96,8372 96,6058 96,2715 96,2715 96,2458 96,1944 95,9887 95,9887 4 8 12 16 20 24 28 32 97,6858 97,6344 97,6601 97,6344 97,6858 97,6344 97,6601 97,6344 Tabela 5 - Acurácia Podemos observar através da Tabela 4 e 5 que o 4º e o 20º ENSAIO deram origem a modelos que são, ao mesmo tempo, mais interpretáveis (árvores mais simples) e mais precisos. XXXIX SBPO [828] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável Na verdade, estes modelos são identicos. 4. Resultados O modelo obtido pelo 4º ensaio foi escolhido para a análise do conhecimento estabelecido, pois dentre os demais é o que apresentou os melhores níveis de avaliação considerados: precisão (acurácia) e interpretabilidade (o modelo obtido pelo 20º ensaio é identico ao modelo obtido pelo 4º ensaio). Este modelo apresentou 64 regras (cada folha da árvore equivale a uma regra) e taxa de acerto de 97,68%. Avaliou-se cada regra através do Nível de Abrangência, que é dado por: QRCYF , NV = QTRY onde NV QRCYF QTRY = Nível de Abrangência = Quantidade de Registros cuja Classificação é Y pela Regra = Quantidade Total de Registros cuja Classificação é Y. Usou-se essa medida de abrangência como medida de relevância da regra, visto que as opções de classificação são bem limitadas. As quatro regras mais relevantes para o valor de classe IDH-M = Médio apresentaram NV 86,63%, 5,14%, 3,45% e 1,14%, e cobriam 3.116, 185, 124 e 41 registros, respectivamente. Para o valor de classe IDH-M = Alto, foram selecionadas regras com NV 44,86%, 11,99%, 11,30% e 8,56%, que cobriam 131, 35, 33 e 25 registros, respectivamente. A quantidade total de registros classificados como Médio (3597) ou Alto (292) pode ser observada através da matriz de confusão gerada pelo sistema, na Tabela 3. A primeira linha se refere ao número de registros classificados como Médio e a segunda linha os classificados como Alto, de maneira que os valores na diagonal principal indicam classificações bem sucedidas, e os valores na outra diagonal indicam classificações mal sucedidas. Nota-se que a maioria dos municípios brasileiros possui IDH-M médio. Total de Registros REAL MÉDIO REAL ALTO Classificado Como 3597 3554 43 MEDIO 292 47 245 ALTO 3889 3601 288 Tabela 6 - Matriz de Confusão do 4º ENSAIO A diagonal Principal da Matriz de Confusão, formada pelos valores 3554 e 245, apresentam os registros classificados corretamente e a Diagonal Secundária, com os valores 43 e 47, refere-se aos registros incorretamente classificados pelo modelo. Assim, tem-se 3554 registros classificados como MÉDIO e 245 classificados como ALTO corretamente. Por outro lado, tem-se 47 registros classificados como MÉDIO e 43 como ALTO incorretamente. A seguir serão interpretadas as regras obtidas e os conhecimentos gerados. O primeiro número que segue a regra indica a quantidade de registros de treinamento que são associados a esta folha durante o processo de estimação do modelo. O segundo número, quando presente, indica a quantidade de registros que são classificados incorretamente por esta folha no momento da avaliação do sistema (WITTEN e FRAN, 2005, p. 376). REGRA 1 ⎧ PR10TA ≤ 0,909466⎫ ⎪ ⎪ SE ⎨ e ⎬ ⇒ IDHM = Médio(3116.0 / 3.0) ⎪ RFPM ≤ 260,85 ⎪ ⎩ ⎭ SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for menor ou igual a 0,909466 E renda familiar per capta média (RFPM) for menor ou igual a 260,85 ENTÃO IDH-M MÉDIO. XXXIX SBPO [829] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável REGRA 12 ⎧ PR10TA > 0,909466⎫ ⎪ EVN ≤ 0,7335 ⎪ ⎪ ⎪ SE ⎨ ⎬ ⇒ IDHM = Médio(185.0) ⎪ RFPM ≤ 280,63 ⎪ ⎪⎩ ⎪⎭ TA ≤ 0,9311 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0,909466 E esperança de vida ao nascer menor ou igual a 0,7335 E renda familiar per capta média (EVN) for menor ou igual a 283,63 E taxa de alfabetização (TA) menor ou igual a 0,9311 ENTÃO IDH-M MÉDIO. REGRA 2 ⎧ PR10TA ≤ 0,909466⎫ ⎪ ⎪ SE ⎨ EVN ≤ 0,7292 ⎬ ⇒ IDHM = Médio(124.0) ⎪ RFPM ≤ 349,21 ⎪ ⎭ ⎩ SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for menor ou igual a 0,909466 E renda familiar per capta média (RFPM) maior que 260,85 E menor ou igual a 349,21 E esperança de vida ao nascer menor ou igual a 0,7292 ENTÃO IDH-M MÉDIO. REGRA 5 ⎧ PR10TA ≤ 0,909466 ⎫ ⎪260,85 < RFPM ≤ 327,73⎪ ⎪ ⎪ SE ⎨ ⎬ ⇒ IDHM = Médio( 41.0) 0 , 7292 0 , 7524 < EVN ≤ ⎪ ⎪ ⎪⎩ ⎪⎭ TBFE ≤ 0,8013 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for menor ou igual a 0,909466 E renda familiar per capta média (RFPM) maior que 260,85 E menor ou igual a 327,73 E esperança de vida ao nascer (EVN) maior que 0,7292 E menor ou igual a 0,7524 E taxa bruta de freqüência à escola (TBFE) menor ou igual a 0,8013 ENTÃO IDH-M MÉDIO. REGRA 34 ⎧ PR10TA > 0,909466⎫ ⎪ ⎪ SE ⎨ EVN > 0,7335 ⎬ ⇒ IDHM = Alto(131.0 / 1.0) ⎪ RFPM > 282,18 ⎪ ⎩ ⎭ SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0,909466 E esperança de vida ao nascer (EVN) maior que 0,7335 E renda familiar per capta média (RFPM) maior que 282,18 ENTÃO IDH-M ALTO. REGRA 22 ⎧ PR10TA > 0,923096 ⎫ ⎪0,7146 < EVN ≤ 0,7335⎪ ⎪ ⎪ SE ⎨ ⎬ ⇒ IDHM = Alto(35.0 / 1.0) ⎪ RFPM > 283,63 ⎪ ⎪⎩ ⎪⎭ TBFE > 0,7448 SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0,923096 E esperança de vida ao nascer (EVN) maior que 0,7146 E menor ou igual a 0,7335 E renda familiar per capta média (RFPM) for maior que 283,63 E taxa bruta de freqüência à escola (TBFE) maior que 0,7448 ENTÃO IDH-M ALTO. REGRA 32 ⎧ PR10TA > 0,909466 ⎫ ⎪ ⎪ EVN > 0,7393 ⎪⎪ ⎪⎪ SE ⎨0,7393 < RFPM ≤ 282,18⎬ ⇒ IDHM = Alto(33.0) ⎪ ⎪ TBFE > 0,7448 ⎪ ⎪ TA ≤ 0,9382 ⎭⎪ ⎩⎪ SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0,909466 E esperança de vida ao nascer (EVN) maior que 0,7393 E renda familiar per capta média (RFPM) for maior que 244,33 E menor ou igual a 282,18 E taxa de alfabetização (TA) menor ou igual a 0,9382 E taxa bruta de freqüência à escola maior que 0,7844 ENTÃO IDH-M ALTO. REGRA 33 ⎧ PR10TA > 0,909466⎫ ⎪ EVN > 0,7335 ⎪ ⎪ ⎪ SE ⎨ ⎬ ⇒ IDHM = Alto(25.0) RFPM 282,18 ≤ ⎪ ⎪ TA > 0,9382 ⎩⎪ ⎭⎪ SE a taxa de alfabetização de pessoas residentes com 10 anos ou mais de idade (PR10TA) for maior que 0,909466 E esperança de vida ao nascer (EVN) maior que 0,7335 E renda familiar per capta média (RFPM) menor ou igual a 282,18 E taxa de alfabetização (TA) maior que 0,9382 ENTÃO IDH-M ALTO. É importante fazer uma comparação entre as regras que classificam o IDH-M como MEDIO (quatro primeiras regras) e aquelas que o classificam como ALTO (quatro últimas). A Taxa de Alfabetização de Pessoas Residentes com 10 anos ou mais de idade XXXIX SBPO [830] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável (PR10TA) parece ser determinante para a classificação do IDH-M. Se PR10TA > 0.909466 então IDH-M ALTO e se PR10TA <= 0.909466 então IDH-M NÃO ALTO. A única exceção é a regra 12 que, mesmo tendo PR10TA > 0.909466, classifica IDH-M como MEDIO. Isto pode estar acontecendo, devido neste caso a Renda Familiar Per Capta Média ser baixa (RFPM <= 283.63) indicando a forte influência da renda familiar no IDH-M. Uma outra forma de observar isto é observando a árvore do modelo. Todas as folhas (das regras analisadas) que tiveram origem à esquerda de PR10TA classificam os registros como MEDIO e todas as folhas (dentre as regras analisadas) que tiveram origem à direita de PR10TA classificaram os registros como ALTO, com a exceção da regra 12. Podemos, portanto, sugerir que altos níveis de PR10TA e RFPM são determinantes de um IDH-M alto. Consequentemente um gestor local deveria investir na melhoria da educação básica e em programas de transferência de renda como maneira eficaz de melhoria do IDH-M. Outras variáveis menos relevantes, porém, com influencia relativa sobre o IDH-M, seriam esperança de vida ao nascer (EVN), denotando a importância de saúde pública, taxa de alfabetização (TA) e taxa bruta de freqüência à escola, representando a educação básica. Apesar de outras regras (14 e 15 do 4º ENSAIO) não terem sido consideradas importantes e, portanto analisadas, as mesmas apresentaram o atributo PRAU (quantidade de pessoas em área urbana), indicando que um maior número de pessoas em área urbana contribuiria para o IDH-M ser classificado como ALTO. É importante notar que esta variável não faz parte da fórmula do cálculo do IDH-M. Este é também o caso de outras regras que (24 e 25 4º ENSAIO) que apresentam o atributo DPPOF (quantidade de domicílios particulares permanentes com forma de abastecimento de água outra que não rede pública ou poço ou nascente) em sua composição, as mesmas indicam que uma maior a quantidade de domicílios particulares permanentes cuja forma de abastecimento de água seja outras formas (que não poço ou nascente ou rede geral) contribuiria para que IDH-M fosse ALTO. 5. Conclusões e Pesquisas Futuras O estudo mostrou uma alternativa para o cálculo do IDH-M, e investigou atributos que influenciam no nível do IDH-M que não aqueles que compõem a fórmula de seu cálculo. Este trabalho pode servir de base para os governos federal, estadual, municipal, ou até mesmo organizações não governamentais, melhorarem a qualidade de vida das pessoas e a imagem do Brasil no mundo. Observou-se que todas as discretizações da base de dados geraram árvores muito complexas, isto é, uma grande quantidade de regras pode ser extraída destas árvores. Isto equivale a dizer que são modelos com baixo nível de interpretabilidade. Observando-se as regras do 4º ENSAIO pôde-se notar que todas apresentam os atributos PR10TA e RFPM indicando a grande importância da educação e renda na determinação do IDH-M. Isto sugere que se estes a elevação dos níveis destes fatores pode levar a uma elevação na avaliação municipal pelo IDH-M. Apesar de não se ter previsto os valores para IDH-M, foi possível explicar seu comportamento na medida em que foram identificados atributos e seus pontos de corte que, em conjunto, determinam o nível do IDH-M. De acordo com as regras, o aumento de Pessoas na Área Urbana e da Quantidade Domicílios Particulares Permanentes – Forma de Abastecimento de Água Outras Formas influenciam fortemente os níveis de IDH-M. Nesta análise, o nível de IDHM pode ser influenciado por outros fatores além dos estabelecidos formalmente por este índice. A realização deste estudo no nível Estadual, ou seja, analisar as regras mais abrangentes por estados da federação, também deve trazer conhecimento relevante. A partir disto também pode ser possível encontrar regiões que possam ter as mesmas regras como mais abrangentes. As variáveis analisadas no trabalho são objetivas e podem estar sofrendo a influência de variáveis subjetivas, como é o caso da cultura, ou seja, pode ser que a cultura influencie os atributos do censo, que por sua vez podem influenciar o nível tanto de IDH-M como o do IDH. Assim, pode ser interessante incluir nestes estudos estas questões. Algumas perguntas possíveis são: Qual o papel das Organizações Não Governamentais (ONGs) nos elementos (municípios, XXXIX SBPO [831] X X X I X SBPO 28 a 31/08/07 Fortaleza, CE A Pesquisa Operacional e o Desenvolvimento Sustentável estados, regiões)? Qual a cultura do povo desta região? Questões como clima e hidrografia influenciam grupos de estados com as mesmas regras mais abrangentes para IDH-M? Questões complexas, como as culturais, podem requerer a participação de profissionais como os sociólogos, que em conjunto com os mineradores de dados, poderiam tentar encontrar influências culturais que pudessem influenciar o IDH-M. É importante que sejam montados modelos de previsão, ou seja, que modelem a variável dependente em um nível quantitativo. Desta maneira, pode ser possível saber o quanto de incremento em um determinado atributo pode trazer de benefício. Neste sentido, seria desejável uma pesquisa fazendo uso da técnica de Cluster, ou seja, aprendizado não supervisionado. Este modelo poderia localizar conjuntos de municípios com as características similares, e esta análise inicial permitiria a indução de modelos mais específicos que se adequem às realidades regionais ou estaduais, por exemplo. É recomendável que um trabalho futuro seja feito no sentido de tentar encontrar regras utilizando bancos de dados com atributos referentes, possivelmente, somente às capitais ou às grandes cidades de uma forma geral. É também recomendável que se façam outras pesquisas levando em consideração outras bases de dados com informações demográficas e sociais que não tenham sido consideradas neste trabalho. Referências Berry, Michael. J. A., Linoff, Gordon. (1997). Data Mining Techniques. Nova York: John Wiley & Sons, 1997. Coelho, Paulo Sérgio de S.; Lachtermacher, Gerson, Ebecken, Nelson F. F. (2003) Classificação de Dados: uma visão geral. XXVII Enanpad, Atibaia. Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J. (1998). UCI Repository of machine learning databases. Irvine, CA (EUA): University of California, Department of Information and Computer Science. (http://www.ics.uci.edu/~mlearn/MLRepository.html) PNUD Brasil. (2005a) Desenvolvimento Humano e IDH (http://www.pnud.org.br/idh/) PNUD Brasil. (2005b) Atlas do Desenvolvimento Humano (http://www.pnud.org.br/atlas/) Anand, Sudhir e Sen, Amartya. (1994) Human Development Index: Methodology and Measurement. Human Development Report Office Occasional Paper 12, New York. Reimpresso em Fukuda-Parr, S. e Kumar, A. K. Shiva , eds., Readings in Human Development. New Delhi: Oxford University Press, 2003. Pyle, Dorian. (2001) Data Preparation for Data Mining. San Francisco: Morgan Kaufmann. Quinlan, John Ross. (1993) C4.5: programs for machine learning. San Mateo, California, EUA: Morgan Kaufmann Publishers. Quinlan, John Ross. (1986) Induction of Decision Trees. Machine Learning, 1:81-106. Weka Software. (2004) University of Waikato.(http://www.cs.waikato.ac.nz/ml/weka/) Witten, Ian H., Fran, Eibe. Data Mining: Pratical Machine Learning Tools and Techniques with Java Implementations. 2. ed. San Francisco: Morgan Kaufmann, 2005. XXXIX SBPO [832]