MINERAÇÃO DE DADOS PARA ANÁLISE DA RELAÇÃO ENTRE AS CARACTERÍSTICAS SOCIOECONÔMICAS DE CONCLUINTES DO ENSINO SUPERIOR E O DESEMPENHO DESSES ESTUDANTES NO ENADE 2012 DATA MINING FOR ANALYSIS OF THE RELATIONSHIP BETWEEN SOCIOECONOMIC CHARACTERISTICS OF STUDENTS COMPLETING HIGHER EDUCATION AND PERFORMANCE OF THEM ON 2012 ENADE EDUARDO DIMAS ANDRINO NOGUEIRA1 DENISE FUKUMI TSUNODA2 RESUMO Políticas de ação afirmativa estão sendo discutidas no Brasil nos últimos anos, sobretudo no ensino superior, onde financiamento de custos e provimento de bolsas vem sendo oferecidos para alunos de instituições privadas ao mesmo tempo em que políticas de cotas para o ingresso nas instituições de ensino superior públicas vem sendo adotadas. Este artigo teve como objetivo analisar a relação entre as características socioeconômicas de alunos concluintes do ensino superior com o desempenho destes no ENADE (Exame Nacional de Desempenho dos Estudantes). Aplicando-se uma técnica de mineração de dados – especificamente a tarefa de classificação pela execução do algoritmo C4.5 – sobre os dados do ENADE, buscouse descobrir como os fatores socioeconômicos influenciam o desempenho dos estudantes e, assim, fornecer um subsídio para a discussão de políticas públicas de 1 Graduado em Engenharia de Computação pela Universidade Estadual de Ponta Grossa (2008) e Especialista em Engenharia de Software pela Pontifícia Universidade Católica do Paraná (2010). Atualmente, é mestrando no Programa de Pós-Graduação em Ciências, Gestão e Tecnologia da Informação na Universidade Federal do Paraná e atua como Analista de Tecnologia da Informação na mesma Universidade. 2 Graduada em Bacharelado em Informática pela Universidade Federal do Paraná (1992), possui mestrado em Engenharia Elétrica e Informática Industrial pela Universidade Tecnológica Federal do Paraná (1996) e doutorado em Engenharia Elétrica e Informática Industrial - Engenharia Biomédica pela também Universidade Tecnológica Federal do Paraná (2004). Atualmente é professora na Universidade Federal do Paraná no curso de Gestão da Informação, Departamento de Ciência e Gestão da Informação. Pertence ao grupo permanente de revisores da Revista Produção Online e Revista GEPROS e comitê editoral da Revista A to Z. Tem experiência na área de Bioquímica, com ênfase em Bioinformática. Atua principalmente nos seguintes temas: descoberta de padrões em banco de dados, mineração de dados, computação evolucionária, algoritmos genéticos, programação genética e informação e estrutura de proteínas. ação afirmativa nas instituições de ensino superior do Brasil. Os resultados obtidos parecem indicar que aspectos econômicos influenciam mais no desempenho do aluno do que elementos étnico-raciais. Isto posto, a adoção de políticas de ação afirmativa relacionadas às cotas sociais em universidades públicas baseadas em renda e, paralelamente, a distribuição de bolsas para aqueles que pretendam cursar universidades particulares, parecem ser justas no sentido de propiciar oportunidades a grupos sociais menos favorecidos economicamente, colocando em prática, dessa forma, a justiça distributiva. PALAVRAS-CHAVE: ação afirmativa, educação pública, ensino superior, mineração de dados, C4.5 ABSTRACT Affirmative action policies have been discussed in Brazil in last years, mainly at higher education, where funding costs and provision of scholarships are being offered to students in private institutions the same time as quota policies for admission in higher education public institutions are being adopted. This paper aimed to examine the relationship between the socioeconomic characteristics of students attending higher education with performance of them on ENADE (National Survey of Student Performance). Applying the technique of data mining - specifically the classification task by running the C4.5 algorithm - over data about ENADE, we sought to discover how socioeconomic factors influence student performance and thus provide a subsidy for the discussion of public policy of affirmative action in higher education institutions in Brazil. The results seem to indicate that economic factors have more influence on student achievement than racial-ethnic elements. That said, the adoption of affirmative action policies related to social quotas in public universities based on income and, at the same time, the distribution of scholarships for those wishing to attend private universities seem to be fair in order to provide opportunities to economically disadvantaged social groups putting into practice thus distributive justice. KEYWORDS: affirmative action, public education, higher education, data mining, C4.5 1 INTRODUÇÃO Muito se tem discutido sobre políticas de ações afirmativas nas Instituições de Ensino Superior no Brasil, tanto públicas como privadas. Barbara Bergmann (1997) define ação afirmativa como o ato de “promover a representação de certos tipos de pessoas – pertencentes a grupos que tem sido subordinados ou excluídos – em determinados empregos ou escolas”. Em seu artigo “Aspectos normativos e legais das políticas de ação afirmativa”, Feres Júnior (2006) examina três justificativas para a aplicação dessas políticas em diversos países do mundo: a) reparação por injustiças históricas cometidas contra grupos sociais; b) igualdade proporcional, através da qual oportunidades devem ser distribuídas em proporção ao tamanho relativo de cada grupo na sociedade; e c) justiça distributiva, que justifica a ação afirmativa pelo fato de que as desigualdades são grupo específicas. No contexto nacional, Moehlecke (2002) identifica três tipos de ações afirmativas mais aplicadas na área educacional, sobretudo alavancadas pelo poder público federal: a) aulas de complementação, com cursos pré-vestibular e cursos de reforço durante a permanência do estudante na Universidade; b) financiamento de custos, através do custeio de mensalidades em instituições particulares, bolsas de estudo e auxílio moradia; e c) mudanças no sistema de ingresso – através do estabelecimento de cotas mínimas para determinados grupos. O ENADE (Exame Nacional de Desempenho dos Estudantes) é uma avaliação anual que “tem como objetivo aferir o desempenho dos estudantes em relação aos conteúdos programáticos previstos nas diretrizes curriculares do respectivo curso de graduação, e as habilidades e competências em sua formação.” (INEP, 2014). Embora o ENADE não seja uma política de ação afirmativa, a análise dos dados de inscrição e desempenho obtidos a partir da realização desse exame pode fornecer importantes informações para embasar as discussões a respeito dessas políticas. Uma das técnicas que tem se mostrado eficiente para esse tipo de análise é conhecida como “mineração de dados”, a qual consiste na aplicação de algoritmos para extração padrões a partir dos dados (FAYYAD, PIATETSKY-SHAPIRO e SMYTH, 1996). Dependendo do objetivo que se quer alcançar com a aplicação dessa técnica, vários tipos de tarefas podem ser adotados. Uma delas é conhecida como tarefa descritiva de classificação. Segundo Rezende (2003), esse tipo de tarefa de mineração de dados tem como meta descobrir uma função que categorize cada registro da base em uma classe pré-definida, com base nos atributos desse registro. Um dos algoritmos que implementa essa tarefa é o C4.5. Trata-se de um algoritmo de classificação que representa a função encontrada através de uma árvore de decisão. Uma árvore de decisão consiste em uma estrutura de dados formada por nós folha (representando as classes) e por nós de decisão. Cada nó de decisão especifica um teste a ser executado sobre determinado atributo do elemento a ser classificado, sendo que há um ramo partindo do nó de decisão para cada possível saída do teste. Com a árvore de decisão construída, cada registro da amostra pode ser classificado partindo-se do nó raiz da árvore e percorrendo-se a mesma, até que um nó folha seja encontrado (QUINLAN, 1993). Uma árvore de decisão também pode ser representada por um conjunto de regras condicionais (“se-então”). As regras obtidas pela execução do algoritmo C4.5 podem ser utilizadas para uma melhor compreensão dos dados analisados e posterior tomada de decisão. Desta forma, este artigo tem como objetivo analisar a relação entre as características socioeconômicas de alunos concluintes do ensino superior com o desempenho destes no ENADE. Especificamente, por meio do algoritmo de mineração de dados C4.5, pretende-se descobrir como os fatores socioeconômicos influenciam o desempenho dos estudantes e, assim, fornecer um subsídio para a discussão de políticas públicas de ação afirmativa nas instituições de ensino superior do Brasil. 2 MATERIAIS E MÉTODOS Os microdados do ENADE estão disponíveis no Portal Brasileiro de Dados Abertos3, sendo apresentados no formato ASCII4 em arquivos .csv5.Em 2012, o ENADE avaliou estudantes de 17 áreas de conhecimento, descritas na Tabela 1: Tabela 1: Códigos da área de enquadramento do ENADE 2012. Fonte: INEP (2014). CÓDIGO DA ÁREA DESCRIÇÃO 3 1 ADMINISTRAÇÃO 2 DIREITO 13 CIÊNCIAS ECONÔMICAS dados.gov.br Código padrão americano para intercâmbio de informação. 5 Tipo de arquivo que armazena texto plano em formato tabular, onde cada registro ocupa uma linha do arquivo e cada valor dentro do registro é delimitado por um caractere separador, geralmente uma vírgula. 4 18 PSICOLOGIA 22 CIÊNCIAS CONTÁBEIS 26 DESIGN 29 TURISMO 67 SECRETARIADO EXECUTIVO 81 RELAÇÕES INTERNACIONAIS 84 TECNOLOGIA EM MARKETING 85 TECNOLOGIA EM PROCESSOS GERENCIAIS 86 TECNOLOGIA EM GESTÃO DE RECURSOS HUMANOS 87 TECNOLOGIA EM GESTÃO FINANCEIRA 93 TECNOLOGIA EM GESTÃO COMERCIAL 94 TECNOLOGIA EM LOGÍSTICA 803 JORNALISMO 804 PUBLICIDADE E PROPAGANDA O exame é composto por questões de formação geral (comuns a todas as áreas de conhecimento) e questões de formação específica. Sendo assim, para que a análise não sofresse interferências pela comparação de desempenho entre alunos de diferentes áreas, escolheu-se a área “Direito” para este estudo. A base original é composta por 127 atributos com dados distribuídos nos seguintes grupos: variáveis da instituição de ensino superior, variáveis do curso, variáveis do inscrito, variáveis de presença, variáveis de desempenho, variáveis do questionário de percepção da prova e variáveis do questionário socioeconômico. De acordo com o objetivo da pesquisa, foram selecionadas como variáveis de estudo aquelas que compõem o questionário socioeconômico, além da variável “nota bruta da prova”. O questionário socioeconômico é composto por 54 perguntas, com os respectivos códigos e possíveis repostas descritas no anexo I deste trabalho. A “nota bruta da prova” é um atributo do grupo “variáveis de desempenho”; essa nota é constituída pela média ponderada entre a nota de formação geral (25%) e a nota de componente específico (75%), podendo variar de 0 a 100. Uma das formas de atingir o objetivo específico deste trabalho, que consiste em descobrir como os fatores socioeconômicos influenciam o desempenho dos estudantes no ENADE, é aplicar o algoritmo C4.5 para categorizar cada registro em uma “faixa de desempenho” e, a partir disso, descobrir “se” e “como” fatores socioeconômicos influenciam o desempenho. Para isso, foi necessário discretizar a variável “nota bruta da prova”, uma vez que sendo este o atributo-meta (categoria), seria necessário que o mesmo estivesse dividido em classes, já que este é um prérequisito do algoritmo utilizado. Sendo assim, criaram-se duas classes: a classe “[050]”, com notas entre 0 e 50, inclusive, e a classe “(50-100]”, com notas entre 50 e 100, inclusive. Para evitar distorções no resultado, foram considerados apenas registros em que o candidato compareceu para realização da prova e respondeu o questionário socioeconômico. A preparação dos dados resultou em 165.541 registros, cada qual contendo 55 atributos (54 referentes ao questionário socioeconômico e um referente à nota bruta do candidato). Por se tratar de um software de código livre bastante eficaz para a tarefa a ser realizada, o WaikatoEnvironment for KnowledgeAnalysis(WEKA) foi a ferramenta escolhida para a execução do algoritmo C4.5 (em sua implementação J48). Com o auxílio dessa ferramenta, executou-se o algoritmo CfsSubsetEval6 (HALL e SMITH, 1998)para a seleção dos atributos do questionário socioeconômico que tinham maior relação com o atributo-meta “nota bruta da prova” (já discretizado). Sobre esses atributos selecionados foi então executado o algoritmo C4.5, sendo o atributo “nota bruta da prova”novamente utilizado como atributo classe. 3 RESULTADOS E DISCUSSÃO Os atributos que têm maior correlação com o atributo "nota bruta da prova", obtidos como resultado da execução do algoritmo CfsSubsetEval, são descritos na Tabela 2: 6 Avalia o valor de um conjunto de atributos ao considerar a capacidade de previsão individual de cada recurso, juntamente com o grau de redundância entre eles. São selecionados atributos que são altamente correlacionadas com o atributo-classe (HALL e SMITH, 1998). Tabela 2: Os atributos selecionados pelo algoritmo CfsSubsetEval. Fonte: INEP (2014). 5 - Somando a sua renda com a renda dos familiares que moram com você, quanto é, aproximadamente, a renda familiar? (Considere a renda de todos os seus familiares que moram na sua casa com você) A = Nenhuma. B = Até 1,5 salário mínimo (até R$ 697,50) C = Acima de 1,5 até 3 salários mínimos (R$ 697,51 a R$ 1.395,00). D = Acima de 3 até 4,5 salários mínimos (R$ 1.395,01 a R$ 2.092,50). E = Acima de 4,5 até 6 salários mínimos (R$ 2.092,51 a R$ 2.790,00). F = Acima de 6 até 10 salários mínimos (R$ 2.790,01 a R$ 4.650,00). G = Acima de 10 até 30 salários mínimos (R$ 4.650,01 a R$ 13.950,00). H = Acima de 30 salários mínimos (mais de R$ 13.950,01). co_rs_s8 8 - Durante o curso de graduação: A = Não fiz nenhum tipo de estágio. B = Fiz ou faço somente estágio obrigatório. C = Fiz ou faço somente estágio não obrigatório. D = Fiz ou faço estágio obrigatório e não obrigatório. co_rs_s9 9 - Você recebe ou recebeu algum tipo de bolsa de estudos ou financiamento para custear as mensalidades do curso? A = Sim. B = Não se aplica - meu curso é gratuito. C = Não. 12 - Seu ingresso no curso de graduação se deu por meio de políticas de ação afirmativa? A = Não. B = Sim, por critério étnico-racial (negros, pardos e indígenas). C = Sim, por critério de renda. D = Sim, por ter estudado em escola pública ou particular com bolsa de estudos. E = Sim, por sistema que combina dois ou mais critérios anteriores. F = Sim, por sistema diferente dos anteriores. 13 - Até que nível seu pai estudou? A = Nenhuma escolaridade. B = Ensino fundamental: 1º ao 5º ano (antiga 1ª à 4ª série). C = Ensino fundamental: 6º ao 9º ano (antiga 5ª à 8ª série). D = Ensino médio. E = Ensino superior. F = Pós-graduação. co_rs_s17 17 - Em que tipo de escola você cursou o ensino médio? A = Todo em escola pública. B = Todo em escola privada (particular). C = A maior parte em escola pública. D = A maior parte em escola privada (particular). E = Metade em escola pública e metade em escola privada (particular). co_rs_s20 20 - Quantas horas por semana, aproximadamente, você dedica aos estudos, excetuando as horas de aula? A = Nenhuma, apenas assisto às aulas. B = Uma a três. C = Quatro a sete. D = Oito a doze. E = Mais de doze. co_rs_s21 A = Diurno (integral). 21 - Até o momento, qual turno B = Diurno (matutino). concentrou a maior parte das disciplinas do C = Diurno (vespertino). seu curso? D = Noturno. E = Não há concentração em um turno. co_rs_s38 38 - Os professores indicam como material de estudo a utilização de artigos de periódicos especializados (artigos científicos)? co_rs_s39 39 - Os professores indicam a utilização em suas disciplinas de manuais ou materiais elaborados pelos docentes? co_rs_s5 co_rs_s12 co_rs_s13 A = Sim, todos os professores. B = Sim, a maior parte. C = Somente alguns. D = Nenhum. A = Sim, todos os professores. B = Sim, a maior parte. C = Somente alguns. D = Nenhum. co_rs_s46 46 - Você participou de programas de iniciação científica? Como foi a contribuição para a sua formação? A = Sim, participei e teve grande contribuição. B = Sim, participei e teve pouca contribuição. C = Sim, participei e não percebi nenhuma contribuição. D = Não participei, mas a instituição oferece. E = A instituição não oferece esse tipo de programa. As distribuições do atributo-meta (nota bruta da prova) e dos atributos descritos na Tabela 1 são mostradas nos gráficos a seguir. O Gráfico 1 mostra a distribuição de valores para o atributo-meta nota bruta da prova, após a discretização do atributo em duas classes: (0-50] e (50-100]. 140000 120000 100000 80000 (50-100] 60000 [0-50] 40000 20000 0 Gráfico 1: Distribuição de valores para o atributo “nota bruta da prova”.Fonte: Os autores (2015). Destaca-se o baixo percentual de candidatos com aproveitamento superior a 50% (apenas 19,9%), se comparado com os candidatos com aproveitamento igual ou inferior a 50% (80,1%). O Gráfico 2 mostra a distribuição dos alunos de acordo com a renda familiar, bem como a proporção do desempenho em cada faixa. 35000 30000 25000 20000 15000 (50-100] 10000 [0-50] 5000 0 Gráfico 2: Distribuição de valores para o atributo CO_RS_R5 (renda familiar). Fonte: Os autores (2015). Cabe ressaltar o melhor desempenho dos candidatos com renda familiar de 6 salários mínimos ou mais (com proporção de notas da classe "(50-100]” maior do que a média geral de 19,9%) em relação aos candidatos com renda familiar de até 6 salários mínimos. O Gráfico 3 contrapõe a quantidade de alunos de acordo com a realização de estágio (obrigatório ou não) durante a graduação, além de destacar em cada coluna a proporção de desempenho dos estudantes no exame. 80000 70000 60000 50000 40000 30000 (50-100] 20000 [0-50] 10000 0 0 Não fiz Fiz ou faço nenhum tipo somente de estágio estágio obrigatório Fiz ou faço Fiz ou faço somente estágio estágio não obrigatório e obrigatório não obrigatório Gráfico 3: Distribuição de valores para o atributo CO_RS_R8 (tipo de estágio) ”. Fonte: Os autores (2015). Destaque para o desempenho dos alunos que fizeram estagio obrigatório e não-obrigatório (última coluna), cuja proporção de notas da classe "(50-100]" é de 24,3%, contra 19,9% da média geral. O Gráfico 4, por sua vez, confronta as respostas dos estudantes quanto ao recebimento de bolsas de estudo para custeio de mensalidade. 100000 90000 80000 70000 60000 50000 (50-100] 40000 [0-50] 30000 20000 10000 0 Não respondeu Sim Não se aplica meu curso é gratuito Não Gráfico 4: Distribuição de valores para o atributo CO_RS_R9 (bolsa de estudo ou financiamento para custeio da mensalidade). Fonte: Os autores (2015). Dessa vez, a melhor proporção de desempenho é entre os alunos de instituições de ensino superior públicas (curso gratuito). A proporção de notas entre 50 e 100 é de 45,5% (contra 19,9% da média geral), o que sugere uma melhor qualidade de ensino nessas instituições em relação àquelas onde o curso é mantido por mensalidades (sejam elas subsidiadas pelo governo através de bolsas ou não). O Gráfico 5 confronta as respostas dos estudantes quanto ao ingresso na graduação por meio de políticas de ação afirmativa, relacionando cada resposta ao desempenho desses alunos no ENADE. 160000 140000 120000 100000 80000 60000 (50-100] [0-50] 40000 20000 0 Não respondeu Não Sim, por Sim, por Sim, por ter Sim, por Sim, por critério critério de estudado sistema que sistema étnico-racial renda em escola combina diferente (negros, pública ou dois ou mais dos pardos e particular critérios anteriores indígenas) com bolsa anteriores de estudos Gráfico 5: Distribuição de valores para o atributo CO_RS_R12 (ingresso por meio de política de ação afirmativa)”. Fonte: Os autores (2015). Uma interessante conclusão com base na distribuição mostrada no Gráfico 5: dessa amostra, 15,2% dos estudantes ingressaram na graduação por meio de política de ação afirmativa. Além disso, proporção de notas da classe "(50-100]" entre os ingressos por meio de critério étnico-racial (24,8%) é maior do que no grupos dos ingressos por critérios de renda (12,7%). O Gráfico 6 mostra até qual nível de ensino o pai do aluno estudou. Em cada faixa é exibida a distribuição do desempenho dos alunos. 60000 50000 40000 30000 20000 (50-100] [0-50] 10000 0 Gráfico 6: Distribuição de valores para o atributo CO_RS_R13 (nível de escolaridade do pai do aluno). Fonte: Os autores (2015). Observa-se maior proporção de notas da classe "(50-100]" entre alunos cujos pais cursaram o ensino superior (25,9%) ou graduação (30,5%). O Gráfico7 defronta os estudantes de acordo com o tipo de escola cursada no ensino médio, bem como a distribuição de desempenho por faixa. 100000 90000 80000 70000 60000 50000 (50-100] 40000 [0-50] 30000 20000 10000 0 Não respondeu Todo em Todo em A maior parte A maior parte Metade em escola pública escola privada em escola em escola escola pública (particular) pública privada e metade em (particular) escola privada (particular) Gráfico 7: Distribuição de valores para o atributo CO_RS_R17 (tipo de escola onde cursou o ensino médio). Fonte: Os autores (2015). Torna-se claro, a partir da observação desse gráfico, a maior probabilidade de desempenho satisfatório (acima dos 50%) entre os alunos que cursaram ensino médio todo em escola privada (26,4% desses alunos obtiveram aproveitamento acima de 50 na nota bruta da prova, contra 19,9% na média geral). O Gráfico 8, em seu turno, mostra a distribuição dos alunos de acordo com a quantidade de horas (por semana) dedicadas ao estudo, fazendo um paralelo com o desempenho dos alunos em cada uma dessas faixas. 100000 90000 80000 70000 60000 50000 (50-100] 40000 [0-50] 30000 20000 10000 0 Não respondeu Nenhuma, apenas assisto às aulas Uma a três Quatro a sete Oito a doze Mais de doze Gráfico 8: Distribuição de valores para o atributo CO_RS_R20 (horas de estudo semanal). Fonte: Os autores (2015). Esse gráfico reitera aquilo que os docentes não se cansam de repetir em sala de aula: quanto maior a quantidade de horas estudadas, maior a probabilidade de se obter um desempenho satisfatório. O percentual de sucesso (nota acima de 50) cresce na medida em que a quantidade de horas de estudo aumenta, partindo de uma taxa de 13,4% para aqueles que apenas assistem às aulas e chegando a 34,4% para aqueles com doze ou mais horas de estudo semanais. O Gráfico 9 contrasta os turnos de maior concentração das disciplinas dos alunos. Cada barra exibe ainda a proporção de desempenho desses estudantes de acordo com o turno. 140000 120000 100000 80000 (50-100] 60000 [0-50] 40000 20000 0 Não respondeu Diurno (integral) Diurno (matutino) Diurno (vespertino) Noturno Não há concentração em um turno Gráfico 9: Distribuição de valores para o atributo CO_RS_R21 (turno da maioria das disciplinas). Fonte: Os autores (2015). Apesar de a maioria dos estudantes ter suas disciplinas concentradas no período noturno (74,2%), o grupo que possui melhor desempenho é de estudantes cujas disciplinas são lecionadas pela manhã (27,8% de probabilidade de nota acima de 50). O Gráfico 10 compara a quantidade de alunos de acordo com a resposta para "Os professores indicam como material de estudo a utilização de artigos de periódicos especializados?". Para cada uma das respostas, é mostrada a distribuição de desempenho dos alunos. 60000 50000 40000 30000 (50-100] [0-50] 20000 10000 0 Não respondeu Sim, todos os professores Sim, a maior parte Somente alguns Nenhum Gráfico 10: Distribuição de valores para o atributo CO_RS_R38 (indicação de artigos de periódicos pelos professores, segundo os alunos). Fonte: Os autores (2015). Observando-se o Gráfico 10 chega-se à curiosa conclusão de que as maiores taxas de sucesso no exame são entre os estudantes que responderam a essa pergunta com as alternativas "Somente alguns" (25,6% de sucesso) ou "Nenhum" (25,8% de sucesso). Por sua vez, o Gráfico 11 compara a respostas dos alunos à pergunta "Os professores indicam a utilização em suas disciplinas de manuais ou materiais elaborados pelos docentes?". Para cada uma das respostas, é mostrada a distribuição de desempenho dos alunos. 60000 50000 40000 30000 (50-100] [0-50] 20000 10000 0 Não respondeu Sim, todos os professores Sim, a maior parte Somente alguns Nenhum Gráfico 11: Distribuição de valores para o atributo CO_RS_R39 (indicação de materiais ou manuais preparados pelos professores, segundo os alunos). Fonte: Os autores (2015). Mais uma vez a conclusão é curiosa: o melhor desempenho encontra-se nos grupos de alunos que responderam "Somente alguns" ou "Nenhum" para este item do questionário, com taxa de sucesso no exame de 25,4% e 23,8%, respectivamente. Por fim, o Gráfico 12 mostra a distribuição dos alunos de acordo com participação em programas de iniciação científica, além da proporcionalidade em cada resposta de acordo com o desempenho do aluno no ENADE. 90000 80000 70000 60000 50000 40000 (50-100] [0-50] 30000 20000 10000 0 Não respondeu Sim, participei Sim, participei Sim, participei Não participei, A instituição e teve grande e teve pouca e não percebi mas a não oferece contribuição contribuição nenhuma instituição esse tipo de contribuição oferece programa Gráfico 12: Distribuição de valores para o atributo CO_RS_R46 (participação em programas de iniciação científica). Fonte: Os autores (2015). Destaca-se desse gráfico o grande percentual de alunos que não participaram de programas de iniciação científica, apesar de a instituição oferecer tal oportunidade (48,5%). Ainda sim, é nesse grupo que se encontra a melhor proporção de sucesso (23,1%), opondo-se ao grupo de alunos que participaram de programas de iniciação científica, mas que relataram não receber nenhuma contribuição; nesse grupo, a proporção de sucesso foi de apenas 12,7%. A partir da análise dos gráficos referentes aos atributos descritos na tabela 2, nota-se que importantes características ligadas às políticas de ação afirmativa, como renda familiar (co_rs_05), recebimento de bolsas ou financiamento para custeio da mensalidade (co_rs_09), ingresso à instituição de ensino por meio de políticas de ação afirmativa (co_rs_12), nível de estudo do pai (co_rs_13) e tipo de escola onde cursou o ensino médio (co_rs_17), interferem diretamente no desempenho dos alunos. Por outro lado, características socioeconômicas como a “cor que o candidato se considera” (co_rs_2), não foram selecionados através do algoritmo CfsSubsetEval como relevantes para determinação do desempenho do aluno, apesar de a característica étnico-racial ser utilizada como critério para ingresso dos alunos por meio de políticas de ação afirmativa (como se pôde observar no gráfico 5). Embora os resultados obtidos pela execução do algoritmo CfsSubsetEval sejam importantes para identificar quais atributos socioeconômicos tem maior correlação com o desempenho do aluno e em quais grupos relacionados a esses atributos a taxa de desempenho satisfatório é maior, é necessário analisar o resultado obtido pela execução do algoritmo C4.5 para explicar "se"e"como” a combinação entre esses atributos impacta no desempenho do aluno. O algoritmo foi executado com os parâmetros fator de confiança7e número mínimo de objetos de instâncias por folha configurados com os valores 0,15 e 30, respectivamente. A árvore de decisão resultante da execução do algoritmo C4.5 tem 44 nós, sendo 8 nós de decisão e 36 nós-folha. A validação cruzada8 com 10 estratos9 resultou em uma taxa de acerto de 80,2827%, ou seja, através dos 11 atributos socioeconômicos descritos na tabela 2, é possível predizer, com uma certeza de aproximadamente 80%, se o aproveitamento do candidato será insatisfatório (até 50%) ou satisfatório (maior do que 50%). Na Tabela 3 estão destacadas as regras condicionais – referentes às características dos candidatos que possuem desempenho maior que 50% – obtidas a partir da leitura da árvore de decisão: Tabela 3: Regras condicionais obtidas a partir da árvore de decisão. Fonte: Os autores (2015). 1 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = D, ENTÃO NOTA >50 2 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = E, ENTÃO NOTA >50 3 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = B E co_rs_21=B E co_rs_38=B, ENTÃO NOTA >50 4 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = B E co_rs_21=B E co_rs_38=C, ENTÃO NOTA >50 5 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = B E co_rs_21=C E co_rs_38=D, ENTÃO NOTA >50 6 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = C E co_rs_46=A, ENTÃO NOTA >50 7 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = C E co_rs_46=B, ENTÃO NOTA >50 8 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = C E co_rs_46=D E co_rs_s8=C, ENTÃO NOTA >50 7 Fator de confiança utilizado para poda da árvore. Valores menores implicam em maior poda. Técnica empregada para avaliar a precisão de um classificador, a partir de um conjunto de dados 9 O conjunto de dados é dividido em 10 partições, sendo uma utilizada como conjunto de treinamento e as outras 9 como conjunto de teste. 8 9 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = C E co_rs_46=D E co_rs_s8=D, ENTÃO NOTA >50 De acordo com a regras 1 e 2, se o curso do aluno é gratuito (instituição de ensino superior pública) e o ensino médio foi cursado todo em escola particular e o aluno se dedica a mais de oito horas de estudo por semana além das horas em sala de aula (oito a doze horas pela regra 1 e mais de doze horas pela regra 2), então o desempenho no ENADE é classificado como sendo superior a 50. As regras 3, 4 e 5 incluem as variáveis “turno” e “indicação de artigos de periódicos especializados” nas condições utilizadas na classificação. Segundo essas regras, se o curso do aluno é gratuito (instituição de ensino superior pública) e o ensino médio foi cursado todo em escola particular e o aluno se dedica de uma a três horas de estudo por semana além das aulas e as disciplinas são diurnas (matutinas pelas regras 3 e 4; vespertinas pela regra 5) e a maior parte (regra 3), somente alguns (regra 4) ou nenhum (regra 5) professor indicou artigos de periódicos especializados como material de estudo, então o desempenho no ENADE é classificado como sendo superior a 50. Por sua vez, as regras 6 e 7 levam em consideração se o aluno participou de programas de iniciação científica: se o curso do aluno é gratuito (instituição de ensino superior pública) e o ensino médio foi cursado todo em escola particular e o aluno se dedica de quatro a sete horas de estudo por semana além daquelas em sala de aula e o aluno participou de programa de iniciação científica (com pelo menos alguma contribuição para sua formação), então o desempenho no ENADE é classificado como satisfatório (superior a 50). Por fim, as regras 8 e 9 incluem o fator realização de estágio nos antecedentes das regras. Conforme essas regras, se o curso do aluno é gratuito (instituição de ensino superior pública) e o ensino médio foi cursado todo em escola particular e o aluno se dedica de quatro a sete horas de estudo por semana além daquelas em sala de aula e não participou de programa de iniciação científica (apesar de a instituição oferecer) e realizou pelo menos estágio obrigatório (regra 8) ou estágios obrigatório e não obrigatório (regra 9), então o desempenho no ENADE é classificado como sendo superior a 50. Pode-se perceber que todas as regras que implicam em nota maior que 50 fazem referência a estudantes que freqüentaram universidades públicas e cursaram ensino médio em escolas privadas. Não por acaso o atributo co_rs_s9 foi escolhido pelo algoritmo C4.5 como nó-raiz da árvore, uma vez que é a característica que possui maior impacto no desempenho do aluno. Ainda de acordo com a Tabela 3, outros aspectos que parecem favorecer o desempenho do aluno são a maior quantidade de estudo semanal e a realização de curso no período matutino, além da realização de iniciação científica e de estágio durante a graduação. Curiosamente, a indicação de artigos pelos docentes parece ser um fator que desfavorece o desempenho dos alunos, o que já foi também sugerido na análise de distribuições (Gráfico 10). Esses fatos vão ao encontro do que pôde ser observado através da análise dos gráficos de coluna referentes aos atributos selecionados pelo algoritmo CfsSubsetEval. Entretanto, em um cenário onde há muitos atributos, a análise humana de cada deles através de suas distribuições se torna massiva, o que não ocorre na análise "automatizada" realizada pelo algoritmo C4.5. Por outro lado, a obtenção de regras condicionais a partir da árvore de decisão permite uma análise mais ampla através da combinação dos atributos. Na análise de distribuição a partir dos gráficos, por exemplo, a realização de iniciação científica não parece contribuir para um desempenho favorável; contudo, para alunos provenientes de escolas privadas que cursaram o ensino superior em instituições públicas e estudam de quatro a sete horas por semana além das horas em sala de aula, a participação nesses programas de iniciação contribui sim para o desempenho (regras 6 e 7). CONCLUSÕES Considerando os fatores relacionados às políticas de ações afirmativas, os resultados obtidos nessa pesquisa parecem indicar que aspectos econômicos influenciam mais no desempenho do aluno do que elementos étnico-raciais. Essa afirmação se dá a partir da análise dos atributos - tanto por meio da observação da distribuição destes quanto através da análise dos resultados extraídos da árvore de decisão - onde se percebe uma maior probabilidade de desempenho satisfatório para estudantes com maior renda familiar. Nesse cenário, uma renda familiar mais elevada parece possibilitar ao estudante frequentar colégios particulares e, como consequência, estar mais bem qualificado para concorrer a vagas em universidades públicas. Essa concatenação de fatores parece “favorecer” o candidato quando de sua avaliação ao final da graduação. Por outro lado, quando a análise é feita pela ótica de elementos étnico-raciais, não se percebe influencia relevante da etnia do estudante em seu desempenho no exame, o que é demonstrado nessa pesquisa pela ausência do atributo co_rs_2, relacionado à cor de pele do candidato, na seleção de atributos realizada através do algoritmo CfsSubsetEval. Logo, há indicativos de que a execução de políticas de ação afirmativa relacionadas às cotas sociais em universidades públicas (baseadas, por exemplo, na renda familiar ou renda familiar per capta) e, paralelamente, a distribuição de bolsas para aqueles que pretendam cursar universidades particulares, sejam justas no sentido de propiciar oportunidades a grupos sociais menos favorecidos economicamente, colocando em prática, dessa forma, a justiça distributiva. Concomitantemente, sugere-se a adoção de outras políticas em longo prazo (não relacionadas a ações afirmativas) no sentido de propiciar igualdade e equilíbrio de “oportunidades” por meio da melhoria da qualidade de ensino fundamental e médio públicos, a fim de que os alunos economicamente menos favorecidos cheguem melhor preparados ao ensino superior e em iguais condições de disputa com os mais abastados. Em pesquisas futuras, recomenda-se a expansão do período em que a análise foi realizada, considerando uma janela de tempo maior, com o objetivo de estudar como as variáveis se comportam no decorrer dos anos. Dessa forma, novos insumos podem ser obtidos para sustentar a discussão ao redor das políticas de ação afirmativa no Brasil. REFERÊCIAS BERGMANN, Barbara R. In defense of affirmative action. Basic Books, 1997. FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996. FERES JÚNIOR, João. Aspectos normativos e legais das políticas de ação afirmativa. Ação afirmativa e universidade: experiências nacionais comparadas. Brasília: Editora Universidade de Brasília, 2006. HALL, Mark A.; SMITH, Lloyd A. Practical feature subset selection for machine learning.1998. INEP, Instituto Nacional de Pesquisas Educacionais Anísio Teixeira. Exame Nacional de Desempenho dos Estudantes. Disponível em <http://portal.inep.gov.br/enade>. Acessado em 25 Set. 2014. MOEHLECKE, Sabrina. Ação afirmativa: história e debates no Brasil.Cadernos de pesquisa, v. 117, n. 11, p. 197-217, 2002. QUINLAN, John Ross. C4. 5: programs for machine learning. Morgan Kaufmann, 1993.