MINERAÇÃO DE DADOS PARA ANÁLISE DA RELAÇÃO ENTRE

Propaganda
MINERAÇÃO DE DADOS PARA ANÁLISE DA RELAÇÃO ENTRE AS
CARACTERÍSTICAS SOCIOECONÔMICAS DE CONCLUINTES DO
ENSINO SUPERIOR E O DESEMPENHO DESSES ESTUDANTES NO
ENADE 2012
DATA MINING FOR ANALYSIS OF THE RELATIONSHIP BETWEEN
SOCIOECONOMIC CHARACTERISTICS OF STUDENTS
COMPLETING HIGHER EDUCATION AND PERFORMANCE OF THEM
ON 2012 ENADE
EDUARDO DIMAS ANDRINO NOGUEIRA1
DENISE FUKUMI TSUNODA2
RESUMO
Políticas de ação afirmativa estão sendo discutidas no Brasil nos últimos anos,
sobretudo no ensino superior, onde financiamento de custos e provimento de bolsas
vem sendo oferecidos para alunos de instituições privadas ao mesmo tempo em que
políticas de cotas para o ingresso nas instituições de ensino superior públicas vem
sendo adotadas. Este artigo teve como objetivo analisar a relação entre as
características socioeconômicas de alunos concluintes do ensino superior com o
desempenho destes no ENADE (Exame Nacional de Desempenho dos Estudantes).
Aplicando-se uma técnica de mineração de dados – especificamente a tarefa de
classificação pela execução do algoritmo C4.5 – sobre os dados do ENADE, buscouse descobrir como os fatores socioeconômicos influenciam o desempenho dos
estudantes e, assim, fornecer um subsídio para a discussão de políticas públicas de
1
Graduado em Engenharia de Computação pela Universidade Estadual de Ponta Grossa (2008) e Especialista
em Engenharia de Software pela Pontifícia Universidade Católica do Paraná (2010). Atualmente, é mestrando
no Programa de Pós-Graduação em Ciências, Gestão e Tecnologia da Informação na Universidade Federal do
Paraná e atua como Analista de Tecnologia da Informação na mesma Universidade.
2
Graduada em Bacharelado em Informática pela Universidade Federal do Paraná (1992), possui mestrado em
Engenharia Elétrica e Informática Industrial pela Universidade Tecnológica Federal do Paraná (1996) e
doutorado em Engenharia Elétrica e Informática Industrial - Engenharia Biomédica pela também Universidade
Tecnológica Federal do Paraná (2004). Atualmente é professora na Universidade Federal do Paraná no curso de
Gestão da Informação, Departamento de Ciência e Gestão da Informação. Pertence ao grupo permanente de
revisores da Revista Produção Online e Revista GEPROS e comitê editoral da Revista A to Z. Tem experiência na
área de Bioquímica, com ênfase em Bioinformática. Atua principalmente nos seguintes temas: descoberta de
padrões em banco de dados, mineração de dados, computação evolucionária, algoritmos genéticos,
programação genética e informação e estrutura de proteínas.
ação afirmativa nas instituições de ensino superior do Brasil. Os resultados obtidos
parecem indicar que aspectos econômicos influenciam mais no desempenho do
aluno do que elementos étnico-raciais. Isto posto, a adoção de políticas de ação
afirmativa relacionadas às cotas sociais em universidades públicas baseadas em
renda e, paralelamente, a distribuição de bolsas para aqueles que pretendam cursar
universidades particulares, parecem ser justas no sentido de propiciar oportunidades
a grupos sociais menos favorecidos economicamente, colocando em prática, dessa
forma, a justiça distributiva.
PALAVRAS-CHAVE: ação afirmativa, educação pública, ensino superior, mineração
de dados, C4.5
ABSTRACT
Affirmative action policies have been discussed in Brazil in last years, mainly at
higher education, where funding costs and provision of scholarships are being
offered to students in private institutions the same time as quota policies for
admission in higher education public institutions are being adopted. This paper aimed
to examine the relationship between the socioeconomic characteristics of students
attending higher education with performance of them on ENADE (National Survey of
Student Performance). Applying the technique of data mining - specifically the
classification task by running the C4.5 algorithm - over data about ENADE, we
sought to discover how socioeconomic factors influence student performance and
thus provide a subsidy for the discussion of public policy of affirmative action in
higher education institutions in Brazil. The results seem to indicate that economic
factors have more influence on student achievement than racial-ethnic elements.
That said, the adoption of affirmative action policies related to social quotas in public
universities based on income and, at the same time, the distribution of scholarships
for those wishing to attend private universities seem to be fair in order to provide
opportunities to economically disadvantaged social groups putting into practice thus
distributive justice.
KEYWORDS: affirmative action, public education, higher education, data mining,
C4.5
1 INTRODUÇÃO
Muito se tem discutido sobre políticas de ações afirmativas nas Instituições de
Ensino Superior no Brasil, tanto públicas como privadas. Barbara Bergmann (1997)
define ação afirmativa como o ato de “promover a representação de certos tipos de
pessoas – pertencentes a grupos que tem sido subordinados ou excluídos – em
determinados empregos ou escolas”.
Em seu artigo “Aspectos normativos e legais das políticas de ação afirmativa”,
Feres Júnior (2006) examina três justificativas para a aplicação dessas políticas em
diversos países do mundo: a) reparação por injustiças históricas cometidas contra
grupos sociais; b) igualdade proporcional, através da qual oportunidades devem ser
distribuídas em proporção ao tamanho relativo de cada grupo na sociedade; e c)
justiça distributiva, que justifica a ação afirmativa pelo fato de que as desigualdades
são grupo específicas.
No contexto nacional, Moehlecke (2002) identifica três tipos de ações
afirmativas mais aplicadas na área educacional, sobretudo alavancadas pelo poder
público federal: a) aulas de complementação, com cursos pré-vestibular e cursos de
reforço durante a permanência do estudante na Universidade; b) financiamento de
custos, através do custeio de mensalidades em instituições particulares, bolsas de
estudo e auxílio moradia; e c) mudanças no sistema de ingresso – através do
estabelecimento de cotas mínimas para determinados grupos.
O ENADE (Exame Nacional de Desempenho dos Estudantes) é uma
avaliação anual que “tem como objetivo aferir o desempenho dos estudantes em
relação aos conteúdos programáticos previstos nas diretrizes curriculares do
respectivo curso de graduação, e as habilidades e competências em sua formação.”
(INEP, 2014). Embora o ENADE não seja uma política de ação afirmativa, a análise
dos dados de inscrição e desempenho obtidos a partir da realização desse exame
pode fornecer importantes informações para embasar as discussões a respeito
dessas políticas.
Uma das técnicas que tem se mostrado eficiente para esse tipo de análise é
conhecida como “mineração de dados”, a qual consiste na aplicação de algoritmos
para extração padrões a partir dos dados (FAYYAD, PIATETSKY-SHAPIRO e
SMYTH, 1996).
Dependendo do objetivo que se quer alcançar com a aplicação dessa técnica,
vários tipos de tarefas podem ser adotados. Uma delas é conhecida como tarefa
descritiva de classificação. Segundo Rezende (2003), esse tipo de tarefa de
mineração de dados tem como meta descobrir uma função que categorize cada
registro da base em uma classe pré-definida, com base nos atributos desse registro.
Um dos algoritmos que implementa essa tarefa é o C4.5. Trata-se de um
algoritmo de classificação que representa a função encontrada através de uma
árvore de decisão. Uma árvore de decisão consiste em uma estrutura de dados
formada por nós folha (representando as classes) e por nós de decisão. Cada nó de
decisão especifica um teste a ser executado sobre determinado atributo do elemento
a ser classificado, sendo que há um ramo partindo do nó de decisão para cada
possível saída do teste. Com a árvore de decisão construída, cada registro da
amostra pode ser classificado partindo-se do nó raiz da árvore e percorrendo-se a
mesma, até que um nó folha seja encontrado (QUINLAN, 1993).
Uma árvore de decisão também pode ser representada por um conjunto de
regras condicionais (“se-então”). As regras obtidas pela execução do algoritmo C4.5
podem ser utilizadas para uma melhor compreensão dos dados analisados e
posterior tomada de decisão.
Desta forma, este artigo tem como objetivo analisar a relação entre as
características socioeconômicas de alunos concluintes do ensino superior com o
desempenho destes no ENADE. Especificamente, por meio do algoritmo de
mineração de dados C4.5, pretende-se descobrir como os fatores socioeconômicos
influenciam o desempenho dos estudantes e, assim, fornecer um subsídio para a
discussão de políticas públicas de ação afirmativa nas instituições de ensino
superior do Brasil.
2 MATERIAIS E MÉTODOS
Os microdados do ENADE estão disponíveis no Portal Brasileiro de Dados
Abertos3, sendo apresentados no formato ASCII4 em arquivos .csv5.Em 2012, o
ENADE avaliou estudantes de 17 áreas de conhecimento, descritas na Tabela 1:
Tabela 1: Códigos da área de enquadramento do ENADE 2012. Fonte: INEP (2014).
CÓDIGO DA ÁREA
DESCRIÇÃO
3
1
ADMINISTRAÇÃO
2
DIREITO
13
CIÊNCIAS ECONÔMICAS
dados.gov.br
Código padrão americano para intercâmbio de informação.
5
Tipo de arquivo que armazena texto plano em formato tabular, onde cada registro ocupa uma linha do arquivo
e cada valor dentro do registro é delimitado por um caractere separador, geralmente uma vírgula.
4
18
PSICOLOGIA
22
CIÊNCIAS CONTÁBEIS
26
DESIGN
29
TURISMO
67
SECRETARIADO EXECUTIVO
81
RELAÇÕES INTERNACIONAIS
84
TECNOLOGIA EM MARKETING
85
TECNOLOGIA EM PROCESSOS GERENCIAIS
86
TECNOLOGIA EM GESTÃO DE RECURSOS HUMANOS
87
TECNOLOGIA EM GESTÃO FINANCEIRA
93
TECNOLOGIA EM GESTÃO COMERCIAL
94
TECNOLOGIA EM LOGÍSTICA
803
JORNALISMO
804
PUBLICIDADE E PROPAGANDA
O exame é composto por questões de formação geral (comuns a todas as
áreas de conhecimento) e questões de formação específica. Sendo assim, para que
a análise não sofresse interferências pela comparação de desempenho entre alunos
de diferentes áreas, escolheu-se a área “Direito” para este estudo.
A base original é composta por 127 atributos com dados distribuídos nos
seguintes grupos: variáveis da instituição de ensino superior, variáveis do curso,
variáveis do inscrito, variáveis de presença, variáveis de desempenho, variáveis do
questionário de percepção da prova e variáveis do questionário socioeconômico.
De acordo com o objetivo da pesquisa, foram selecionadas como variáveis de
estudo aquelas que compõem o questionário socioeconômico, além da variável
“nota bruta da prova”.
O questionário socioeconômico é composto por 54 perguntas, com os
respectivos códigos e possíveis repostas descritas no anexo I deste trabalho. A
“nota bruta da prova” é um atributo do grupo “variáveis de desempenho”; essa nota é
constituída pela média ponderada entre a nota de formação geral (25%) e a nota de
componente específico (75%), podendo variar de 0 a 100.
Uma das formas de atingir o objetivo específico deste trabalho, que consiste
em descobrir como os fatores socioeconômicos influenciam o desempenho dos
estudantes no ENADE, é aplicar o algoritmo C4.5 para categorizar cada registro em
uma “faixa de desempenho” e, a partir disso, descobrir “se” e “como” fatores
socioeconômicos influenciam o desempenho. Para isso, foi necessário discretizar a
variável “nota bruta da prova”, uma vez que sendo este o atributo-meta (categoria),
seria necessário que o mesmo estivesse dividido em classes, já que este é um prérequisito do algoritmo utilizado. Sendo assim, criaram-se duas classes: a classe “[050]”, com notas entre 0 e 50, inclusive, e a classe “(50-100]”, com notas entre 50 e
100, inclusive.
Para evitar distorções no resultado, foram considerados apenas registros em
que o candidato compareceu para realização da prova e respondeu o questionário
socioeconômico.
A preparação dos dados resultou em 165.541 registros, cada qual contendo
55 atributos (54 referentes ao questionário socioeconômico e um referente à nota
bruta do candidato).
Por se tratar de um software de código livre bastante eficaz para a tarefa a ser
realizada, o WaikatoEnvironment for KnowledgeAnalysis(WEKA) foi a ferramenta
escolhida para a execução do algoritmo C4.5 (em sua implementação J48).
Com o auxílio dessa ferramenta, executou-se o algoritmo CfsSubsetEval6
(HALL e SMITH, 1998)para a seleção dos atributos do questionário socioeconômico
que tinham maior relação com o atributo-meta “nota bruta da prova” (já discretizado).
Sobre esses atributos selecionados foi então executado o algoritmo C4.5, sendo o
atributo “nota bruta da prova”novamente utilizado como atributo classe.
3 RESULTADOS E DISCUSSÃO
Os atributos que têm maior correlação com o atributo "nota bruta da prova",
obtidos como resultado da execução do algoritmo CfsSubsetEval, são descritos na
Tabela 2:
6
Avalia o valor de um conjunto de atributos ao considerar a capacidade de previsão individual de cada recurso,
juntamente com o grau de redundância entre eles. São selecionados atributos que são altamente
correlacionadas com o atributo-classe (HALL e SMITH, 1998).
Tabela 2: Os atributos selecionados pelo algoritmo CfsSubsetEval. Fonte: INEP (2014).
5 - Somando a sua renda com a renda dos
familiares que moram com você, quanto é,
aproximadamente, a renda familiar?
(Considere a renda de todos os seus
familiares que moram na sua casa com
você)
A = Nenhuma.
B = Até 1,5 salário mínimo (até R$ 697,50)
C = Acima de 1,5 até 3 salários mínimos (R$ 697,51 a R$ 1.395,00).
D = Acima de 3 até 4,5 salários mínimos (R$ 1.395,01 a R$ 2.092,50).
E = Acima de 4,5 até 6 salários mínimos (R$ 2.092,51 a R$ 2.790,00).
F = Acima de 6 até 10 salários mínimos (R$ 2.790,01 a R$ 4.650,00).
G = Acima de 10 até 30 salários mínimos (R$ 4.650,01 a R$ 13.950,00).
H = Acima de 30 salários mínimos (mais de R$ 13.950,01).
co_rs_s8
8 - Durante o curso de graduação:
A = Não fiz nenhum tipo de estágio.
B = Fiz ou faço somente estágio obrigatório.
C = Fiz ou faço somente estágio não obrigatório.
D = Fiz ou faço estágio obrigatório e não obrigatório.
co_rs_s9
9 - Você recebe ou recebeu algum tipo de
bolsa de estudos ou financiamento para
custear as mensalidades do curso?
A = Sim.
B = Não se aplica - meu curso é gratuito.
C = Não.
12 - Seu ingresso no curso de graduação se
deu por meio de políticas de ação
afirmativa?
A = Não.
B = Sim, por critério étnico-racial (negros, pardos e indígenas).
C = Sim, por critério de renda.
D = Sim, por ter estudado em escola pública ou particular com bolsa de
estudos.
E = Sim, por sistema que combina dois ou mais critérios anteriores.
F = Sim, por sistema diferente dos anteriores.
13 - Até que nível seu pai estudou?
A = Nenhuma escolaridade.
B = Ensino fundamental: 1º ao 5º ano (antiga 1ª à 4ª série).
C = Ensino fundamental: 6º ao 9º ano (antiga 5ª à 8ª série).
D = Ensino médio.
E = Ensino superior.
F = Pós-graduação.
co_rs_s17
17 - Em que tipo de escola você cursou o
ensino médio?
A = Todo em escola pública.
B = Todo em escola privada (particular).
C = A maior parte em escola pública.
D = A maior parte em escola privada (particular).
E = Metade em escola pública e metade em escola privada (particular).
co_rs_s20
20 - Quantas horas por semana,
aproximadamente, você dedica aos
estudos, excetuando as horas de aula?
A = Nenhuma, apenas assisto às aulas.
B = Uma a três.
C = Quatro a sete.
D = Oito a doze.
E = Mais de doze.
co_rs_s21
A = Diurno (integral).
21 - Até o momento, qual turno
B = Diurno (matutino).
concentrou a maior parte das disciplinas do C = Diurno (vespertino).
seu curso?
D = Noturno.
E = Não há concentração em um turno.
co_rs_s38
38 - Os professores indicam como material
de estudo a utilização de artigos de
periódicos especializados (artigos
científicos)?
co_rs_s39
39 - Os professores indicam a utilização em
suas disciplinas de manuais ou materiais
elaborados pelos docentes?
co_rs_s5
co_rs_s12
co_rs_s13
A = Sim, todos os professores.
B = Sim, a maior parte.
C = Somente alguns.
D = Nenhum.
A = Sim, todos os professores.
B = Sim, a maior parte.
C = Somente alguns.
D = Nenhum.
co_rs_s46
46 - Você participou de programas de
iniciação científica? Como foi a
contribuição para a sua formação?
A = Sim, participei e teve grande contribuição.
B = Sim, participei e teve pouca contribuição.
C = Sim, participei e não percebi nenhuma contribuição.
D = Não participei, mas a instituição oferece.
E = A instituição não oferece esse tipo de programa.
As distribuições do atributo-meta (nota bruta da prova) e dos atributos
descritos na Tabela 1 são mostradas nos gráficos a seguir.
O Gráfico 1 mostra a distribuição de valores para o atributo-meta nota bruta
da prova, após a discretização do atributo em duas classes: (0-50] e (50-100].
140000
120000
100000
80000
(50-100]
60000
[0-50]
40000
20000
0
Gráfico 1: Distribuição de valores para o atributo “nota bruta da prova”.Fonte: Os autores
(2015).
Destaca-se o baixo percentual de candidatos com aproveitamento superior a
50% (apenas 19,9%), se comparado com os candidatos com aproveitamento igual
ou inferior a 50% (80,1%).
O Gráfico 2 mostra a distribuição dos alunos de acordo com a renda familiar,
bem como a proporção do desempenho em cada faixa.
35000
30000
25000
20000
15000
(50-100]
10000
[0-50]
5000
0
Gráfico 2: Distribuição de valores para o atributo CO_RS_R5 (renda familiar). Fonte: Os
autores (2015).
Cabe ressaltar o melhor desempenho dos candidatos com renda familiar de 6
salários mínimos ou mais (com proporção de notas da classe "(50-100]” maior do
que a média geral de 19,9%) em relação aos candidatos com renda familiar de até 6
salários mínimos.
O Gráfico 3 contrapõe a quantidade de alunos de acordo com a realização de
estágio (obrigatório ou não) durante a graduação, além de destacar em cada coluna
a proporção de desempenho dos estudantes no exame.
80000
70000
60000
50000
40000
30000
(50-100]
20000
[0-50]
10000
0
0
Não fiz
Fiz ou faço
nenhum tipo somente
de estágio
estágio
obrigatório
Fiz ou faço Fiz ou faço
somente
estágio
estágio não obrigatório e
obrigatório
não
obrigatório
Gráfico 3: Distribuição de valores para o atributo CO_RS_R8 (tipo de estágio) ”. Fonte: Os
autores (2015).
Destaque para o desempenho dos alunos que fizeram estagio obrigatório e
não-obrigatório (última coluna), cuja proporção de notas da classe "(50-100]" é de
24,3%, contra 19,9% da média geral.
O Gráfico 4, por sua vez, confronta as respostas dos estudantes quanto ao
recebimento de bolsas de estudo para custeio de mensalidade.
100000
90000
80000
70000
60000
50000
(50-100]
40000
[0-50]
30000
20000
10000
0
Não respondeu
Sim
Não se aplica meu curso é
gratuito
Não
Gráfico 4: Distribuição de valores para o atributo CO_RS_R9 (bolsa de estudo ou
financiamento para custeio da mensalidade). Fonte: Os autores (2015).
Dessa vez, a melhor proporção de desempenho é entre os alunos de
instituições de ensino superior públicas (curso gratuito). A proporção de notas entre
50 e 100 é de 45,5% (contra 19,9% da média geral), o que sugere uma melhor
qualidade de ensino nessas instituições em relação àquelas onde o curso é mantido
por mensalidades (sejam elas subsidiadas pelo governo através de bolsas ou não).
O Gráfico 5 confronta as respostas dos estudantes quanto ao ingresso na
graduação por meio de políticas de ação afirmativa, relacionando cada resposta ao
desempenho desses alunos no ENADE.
160000
140000
120000
100000
80000
60000
(50-100]
[0-50]
40000
20000
0
Não
respondeu
Não
Sim, por
Sim, por Sim, por ter Sim, por
Sim, por
critério
critério de estudado sistema que sistema
étnico-racial
renda
em escola combina
diferente
(negros,
pública ou dois ou mais
dos
pardos e
particular
critérios anteriores
indígenas)
com bolsa anteriores
de estudos
Gráfico 5: Distribuição de valores para o atributo CO_RS_R12 (ingresso por meio de política de
ação afirmativa)”. Fonte: Os autores (2015).
Uma interessante conclusão com base na distribuição mostrada no Gráfico 5:
dessa amostra, 15,2% dos estudantes ingressaram na graduação por meio de
política de ação afirmativa. Além disso, proporção de notas da classe "(50-100]"
entre os ingressos por meio de critério étnico-racial (24,8%) é maior do que no
grupos dos ingressos por critérios de renda (12,7%).
O Gráfico 6 mostra até qual nível de ensino o pai do aluno estudou. Em cada
faixa é exibida a distribuição do desempenho dos alunos.
60000
50000
40000
30000
20000
(50-100]
[0-50]
10000
0
Gráfico 6: Distribuição de valores para o atributo CO_RS_R13 (nível de escolaridade do pai do
aluno). Fonte: Os autores (2015).
Observa-se maior proporção de notas da classe "(50-100]" entre alunos cujos
pais cursaram o ensino superior (25,9%) ou graduação (30,5%).
O Gráfico7 defronta os estudantes de acordo com o tipo de escola cursada no
ensino médio, bem como a distribuição de desempenho por faixa.
100000
90000
80000
70000
60000
50000
(50-100]
40000
[0-50]
30000
20000
10000
0
Não
respondeu
Todo em
Todo em
A maior parte A maior parte Metade em
escola pública escola privada em escola
em escola escola pública
(particular)
pública
privada
e metade em
(particular) escola privada
(particular)
Gráfico 7: Distribuição de valores para o atributo CO_RS_R17 (tipo de escola onde cursou o
ensino médio). Fonte: Os autores (2015).
Torna-se claro, a partir da observação desse gráfico, a maior probabilidade de
desempenho satisfatório (acima dos 50%) entre os alunos que cursaram ensino
médio todo em escola privada (26,4% desses alunos obtiveram aproveitamento
acima de 50 na nota bruta da prova, contra 19,9% na média geral).
O Gráfico 8, em seu turno, mostra a distribuição dos alunos de acordo com a
quantidade de horas (por semana) dedicadas ao estudo, fazendo um paralelo com o
desempenho dos alunos em cada uma dessas faixas.
100000
90000
80000
70000
60000
50000
(50-100]
40000
[0-50]
30000
20000
10000
0
Não
respondeu
Nenhuma,
apenas assisto
às aulas
Uma a três
Quatro a sete
Oito a doze
Mais de doze
Gráfico 8: Distribuição de valores para o atributo CO_RS_R20 (horas de estudo semanal).
Fonte: Os autores (2015).
Esse gráfico reitera aquilo que os docentes não se cansam de repetir em sala
de aula: quanto maior a quantidade de horas estudadas, maior a probabilidade de se
obter um desempenho satisfatório. O percentual de sucesso (nota acima de 50)
cresce na medida em que a quantidade de horas de estudo aumenta, partindo de
uma taxa de 13,4% para aqueles que apenas assistem às aulas e chegando a
34,4% para aqueles com doze ou mais horas de estudo semanais.
O Gráfico 9 contrasta os turnos de maior concentração das disciplinas dos
alunos. Cada barra exibe ainda a proporção de desempenho desses estudantes de
acordo com o turno.
140000
120000
100000
80000
(50-100]
60000
[0-50]
40000
20000
0
Não
respondeu
Diurno
(integral)
Diurno
(matutino)
Diurno
(vespertino)
Noturno
Não há
concentração
em um turno
Gráfico 9: Distribuição de valores para o atributo CO_RS_R21 (turno da maioria das
disciplinas). Fonte: Os autores (2015).
Apesar de a maioria dos estudantes ter suas disciplinas concentradas no
período noturno (74,2%), o grupo que possui melhor desempenho é de estudantes
cujas disciplinas são lecionadas pela manhã (27,8% de probabilidade de nota acima
de 50).
O Gráfico 10 compara a quantidade de alunos de acordo com a resposta para
"Os professores indicam como material de estudo a utilização de artigos de
periódicos especializados?". Para cada uma das respostas, é mostrada a
distribuição de desempenho dos alunos.
60000
50000
40000
30000
(50-100]
[0-50]
20000
10000
0
Não respondeu
Sim, todos os
professores
Sim, a maior
parte
Somente alguns
Nenhum
Gráfico 10: Distribuição de valores para o atributo CO_RS_R38 (indicação de artigos de
periódicos pelos professores, segundo os alunos). Fonte: Os autores (2015).
Observando-se o Gráfico 10 chega-se à curiosa conclusão de que as maiores
taxas de sucesso no exame são entre os estudantes que responderam a essa
pergunta com as alternativas "Somente alguns" (25,6% de sucesso) ou "Nenhum"
(25,8% de sucesso).
Por sua vez, o Gráfico 11 compara a respostas dos alunos à pergunta "Os
professores indicam a utilização em suas disciplinas de manuais ou materiais
elaborados pelos docentes?". Para cada uma das respostas, é mostrada a
distribuição de desempenho dos alunos.
60000
50000
40000
30000
(50-100]
[0-50]
20000
10000
0
Não respondeu Sim, todos os
professores
Sim, a maior
parte
Somente alguns
Nenhum
Gráfico 11: Distribuição de valores para o atributo CO_RS_R39 (indicação de materiais ou
manuais preparados pelos professores, segundo os alunos). Fonte: Os autores (2015).
Mais uma vez a conclusão é curiosa: o melhor desempenho encontra-se nos
grupos de alunos que responderam "Somente alguns" ou "Nenhum" para este item
do questionário, com taxa de sucesso no exame de 25,4% e 23,8%,
respectivamente.
Por fim, o Gráfico 12 mostra a distribuição dos alunos de acordo com
participação em programas de iniciação científica, além da proporcionalidade em
cada resposta de acordo com o desempenho do aluno no ENADE.
90000
80000
70000
60000
50000
40000
(50-100]
[0-50]
30000
20000
10000
0
Não respondeu Sim, participei Sim, participei Sim, participei Não participei, A instituição
e teve grande e teve pouca e não percebi
mas a
não oferece
contribuição contribuição
nenhuma
instituição
esse tipo de
contribuição
oferece
programa
Gráfico 12: Distribuição de valores para o atributo CO_RS_R46 (participação em programas de
iniciação científica). Fonte: Os autores (2015).
Destaca-se desse gráfico o grande percentual de alunos que não participaram
de programas de iniciação científica, apesar de a instituição oferecer tal
oportunidade (48,5%). Ainda sim, é nesse grupo que se encontra a melhor
proporção de sucesso (23,1%), opondo-se ao grupo de alunos que participaram de
programas de iniciação científica, mas que relataram não receber nenhuma
contribuição; nesse grupo, a proporção de sucesso foi de apenas 12,7%.
A partir da análise dos gráficos referentes aos atributos descritos na tabela 2,
nota-se que importantes características ligadas às políticas de ação afirmativa, como
renda familiar (co_rs_05), recebimento de bolsas ou financiamento para custeio da
mensalidade (co_rs_09), ingresso à instituição de ensino por meio de políticas de
ação afirmativa (co_rs_12), nível de estudo do pai (co_rs_13) e tipo de escola onde
cursou o ensino médio (co_rs_17), interferem diretamente no desempenho dos
alunos.
Por outro lado, características socioeconômicas como a “cor que o candidato
se
considera”
(co_rs_2),
não
foram
selecionados
através
do
algoritmo
CfsSubsetEval como relevantes para determinação do desempenho do aluno,
apesar de a característica étnico-racial ser utilizada como critério para ingresso dos
alunos por meio de políticas de ação afirmativa (como se pôde observar no gráfico
5).
Embora os resultados obtidos pela execução do algoritmo CfsSubsetEval
sejam importantes para identificar quais atributos socioeconômicos tem maior
correlação com o desempenho do aluno e em quais grupos relacionados a esses
atributos a taxa de desempenho satisfatório é maior, é necessário analisar o
resultado obtido pela execução do algoritmo C4.5 para explicar "se"e"como” a
combinação entre esses atributos impacta no desempenho do aluno. O algoritmo foi
executado com os parâmetros fator de confiança7e número mínimo de objetos de
instâncias por folha configurados com os valores 0,15 e 30, respectivamente. A
árvore de decisão resultante da execução do algoritmo C4.5 tem 44 nós, sendo 8
nós de decisão e 36 nós-folha.
A validação cruzada8 com 10 estratos9 resultou em uma taxa de acerto de
80,2827%, ou seja, através dos 11 atributos socioeconômicos descritos na tabela 2,
é possível predizer, com uma certeza de aproximadamente 80%, se o
aproveitamento do candidato será insatisfatório (até 50%) ou satisfatório (maior do
que 50%).
Na Tabela 3 estão destacadas as regras condicionais – referentes às
características dos candidatos que possuem desempenho maior que 50% – obtidas
a partir da leitura da árvore de decisão:
Tabela 3: Regras condicionais obtidas a partir da árvore de decisão. Fonte: Os autores (2015).
1 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = D, ENTÃO NOTA >50
2 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = E, ENTÃO NOTA >50
3 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = B E co_rs_21=B E co_rs_38=B, ENTÃO NOTA >50
4 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = B E co_rs_21=B E co_rs_38=C, ENTÃO NOTA >50
5 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = B E co_rs_21=C E co_rs_38=D, ENTÃO NOTA >50
6 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = C E co_rs_46=A, ENTÃO NOTA >50
7 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = C E co_rs_46=B, ENTÃO NOTA >50
8 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = C E co_rs_46=D E co_rs_s8=C, ENTÃO NOTA >50
7
Fator de confiança utilizado para poda da árvore. Valores menores implicam em maior poda.
Técnica empregada para avaliar a precisão de um classificador, a partir de um conjunto de dados
9
O conjunto de dados é dividido em 10 partições, sendo uma utilizada como conjunto de treinamento e as
outras 9 como conjunto de teste.
8
9 SE co_rs_s9=B E co_rs_s17=B E co_rs_s20 = C E co_rs_46=D E co_rs_s8=D, ENTÃO NOTA >50
De acordo com a regras 1 e 2, se o curso do aluno é gratuito (instituição de
ensino superior pública) e o ensino médio foi cursado todo em escola particular e o
aluno se dedica a mais de oito horas de estudo por semana além das horas em sala
de aula (oito a doze horas pela regra 1 e mais de doze horas pela regra 2), então o
desempenho no ENADE é classificado como sendo superior a 50.
As regras 3, 4 e 5 incluem as variáveis “turno” e “indicação de artigos de
periódicos especializados” nas condições utilizadas na classificação. Segundo essas
regras, se o curso do aluno é gratuito (instituição de ensino superior pública) e o
ensino médio foi cursado todo em escola particular e o aluno se dedica de uma a
três horas de estudo por semana além das aulas e as disciplinas são diurnas
(matutinas pelas regras 3 e 4; vespertinas pela regra 5) e a maior parte (regra 3),
somente alguns (regra 4) ou nenhum (regra 5) professor indicou artigos de
periódicos especializados como material de estudo, então o desempenho no ENADE
é classificado como sendo superior a 50.
Por sua vez, as regras 6 e 7 levam em consideração se o aluno participou de
programas de iniciação científica: se o curso do aluno é gratuito (instituição de
ensino superior pública) e o ensino médio foi cursado todo em escola particular e o
aluno se dedica de quatro a sete horas de estudo por semana além daquelas em
sala de aula e o aluno participou de programa de iniciação científica (com pelo
menos alguma contribuição para sua formação), então o desempenho no ENADE é
classificado como satisfatório (superior a 50).
Por fim, as regras 8 e 9 incluem o fator realização de estágio nos
antecedentes das regras. Conforme essas regras, se o curso do aluno é gratuito
(instituição de ensino superior pública) e o ensino médio foi cursado todo em escola
particular e o aluno se dedica de quatro a sete horas de estudo por semana além
daquelas em sala de aula e não participou de programa de iniciação científica
(apesar de a instituição oferecer) e realizou pelo menos estágio obrigatório (regra 8)
ou estágios obrigatório e não obrigatório (regra 9), então o desempenho no ENADE
é classificado como sendo superior a 50.
Pode-se perceber que todas as regras que implicam em nota maior que 50
fazem referência a estudantes que freqüentaram universidades públicas e cursaram
ensino médio em escolas privadas. Não por acaso o atributo co_rs_s9 foi escolhido
pelo algoritmo C4.5 como nó-raiz da árvore, uma vez que é a característica que
possui maior impacto no desempenho do aluno.
Ainda de acordo com a Tabela 3, outros aspectos que parecem favorecer o
desempenho do aluno são a maior quantidade de estudo semanal e a realização de
curso no período matutino, além da realização de iniciação científica e de estágio
durante a graduação. Curiosamente, a indicação de artigos pelos docentes parece
ser um fator que desfavorece o desempenho dos alunos, o que já foi também
sugerido na análise de distribuições (Gráfico 10).
Esses fatos vão ao encontro do que pôde ser observado através da análise
dos gráficos de coluna referentes aos atributos selecionados pelo algoritmo
CfsSubsetEval. Entretanto, em um cenário onde há muitos atributos, a análise
humana de cada deles através de suas distribuições se torna massiva, o que não
ocorre na análise "automatizada" realizada pelo algoritmo C4.5.
Por outro lado, a obtenção de regras condicionais a partir da árvore de
decisão permite uma análise mais ampla através da combinação dos atributos. Na
análise de distribuição a partir dos gráficos, por exemplo, a realização de iniciação
científica não parece contribuir para um desempenho favorável; contudo, para
alunos provenientes de escolas privadas que cursaram o ensino superior em
instituições públicas e estudam de quatro a sete horas por semana além das horas
em sala de aula, a participação nesses programas de iniciação contribui sim para o
desempenho (regras 6 e 7).
CONCLUSÕES
Considerando os fatores relacionados às políticas de ações afirmativas, os
resultados obtidos nessa pesquisa parecem indicar que aspectos econômicos
influenciam mais no desempenho do aluno do que elementos étnico-raciais. Essa
afirmação se dá a partir da análise dos atributos - tanto por meio da observação da
distribuição destes quanto através da análise dos resultados extraídos da árvore de
decisão - onde se percebe uma maior probabilidade de desempenho satisfatório
para estudantes com maior renda familiar. Nesse cenário, uma renda familiar mais
elevada parece possibilitar ao estudante frequentar colégios particulares e, como
consequência, estar mais bem qualificado para concorrer a vagas em universidades
públicas. Essa concatenação de fatores parece “favorecer” o candidato quando de
sua avaliação ao final da graduação.
Por outro lado, quando a análise é feita pela ótica de elementos étnico-raciais,
não se percebe influencia relevante da etnia do estudante em seu desempenho no
exame, o que é demonstrado nessa pesquisa pela ausência do atributo co_rs_2,
relacionado à cor de pele do candidato, na seleção de atributos realizada através do
algoritmo CfsSubsetEval.
Logo, há indicativos de que a execução de políticas de ação afirmativa
relacionadas às cotas sociais em universidades públicas (baseadas, por exemplo, na
renda familiar ou renda familiar per capta) e, paralelamente, a distribuição de bolsas
para aqueles que pretendam cursar universidades particulares, sejam justas no
sentido
de
propiciar
oportunidades
a
grupos
sociais
menos
favorecidos
economicamente, colocando em prática, dessa forma, a justiça distributiva.
Concomitantemente, sugere-se a adoção de outras políticas em longo prazo
(não relacionadas a ações afirmativas) no sentido de propiciar igualdade e equilíbrio
de “oportunidades” por meio da melhoria da qualidade de ensino fundamental e
médio públicos, a fim de que os alunos economicamente menos favorecidos
cheguem melhor preparados ao ensino superior e em iguais condições de disputa
com os mais abastados.
Em pesquisas futuras, recomenda-se a expansão do período em que a
análise foi realizada, considerando uma janela de tempo maior, com o objetivo de
estudar como as variáveis se comportam no decorrer dos anos. Dessa forma, novos
insumos podem ser obtidos para sustentar a discussão ao redor das políticas de
ação afirmativa no Brasil.
REFERÊCIAS
BERGMANN, Barbara R. In defense of affirmative action. Basic Books, 1997.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data
mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996.
FERES JÚNIOR, João. Aspectos normativos e legais das políticas de ação
afirmativa. Ação afirmativa e universidade: experiências nacionais comparadas.
Brasília: Editora Universidade de Brasília, 2006.
HALL, Mark A.; SMITH, Lloyd A. Practical feature subset selection for machine
learning.1998.
INEP, Instituto Nacional de Pesquisas Educacionais Anísio Teixeira. Exame
Nacional
de
Desempenho
dos
Estudantes.
Disponível
em
<http://portal.inep.gov.br/enade>. Acessado em 25 Set. 2014.
MOEHLECKE, Sabrina. Ação afirmativa: história e debates no Brasil.Cadernos de
pesquisa, v. 117, n. 11, p. 197-217, 2002.
QUINLAN, John Ross. C4. 5: programs for machine learning. Morgan Kaufmann,
1993.
Download