Clauciane-projeto final base Enade

Propaganda
PROJETO FINAL
Aluna: Clauciane Dias de Lima
Professores: Celso Kaestner e Heitor Lopes
Aplicação de técnicas de Mineração de dados na base de
dados do ENADE 2014 com foco no curso de Matemática
Pós-Graduação em Engenharia Elétrica e Informática Industrial
Universidade Tecnológica Federal do Paraná
2016
Introdução
No Brasil, o Sistema Nacional de Avaliação do Ensino Superior (SINAES),
instituído pela lei n010.861, ele é responsável por avaliar as Instituições de
Ensino Superior (IES). O sistema tem seus processos avaliativos coordenados
e supervisionados pela Comissão nacional de Avaliação Superior (CONAES) e
a operacionalização é de responsabilidade do Instituto Nacional de Estudos e
Pesquisas Educacionais Anísio Teixeira (INEP).
O SINAES é constituído por três partes:
Avaliação das instituições, Avaliação dos cursos e a avaliação de desempenho
dos estudantes, a qual é realizada através do Exame Nacional de Avaliação do
Estudante (ENADE).
O ENADE tem como objetivo avaliar o desempenho dos estudantes, tendo como
base os conteúdos programáticos previstos nas diretrizes curriculares de seus
respectivos cursos de graduação, bem como suas competências e habilidades
da formação.
A cada ano o ENADE é aplicado a um conjunto de áreas de ensino, o ciclo de
todas as áreas é fechado a cada três anos. O ano I abrange as áreas da saúde,
ciências agrárias e afins. Ano II é formado pelas áreas de ciências exatas,
licenciaturas e áreas afins e o ano III é composto pelas áreas de ciências sociais
aplicadas, ciências humanas e áreas afins. Após avaliar o grupo pertencente ao
III ano o ciclo volta a ser iniciado, desta forma cada conjunto de área é avaliado
a cada 3 anos.
A mídia vem relatando o baixo rendimento dos alunos em matemática no ensino
fundamental e médio, mas a pergunta é como está o controle de qualidade das
instituições que ofertam esse curso? Como é o perfil dos futuros profissionais
que estarão disponíveis no mercado?
É um curso com concorrência baixa, porém com índice de desistência alta pelo
grau complexidade das disciplinas logo no início do curso. Em Curitiba temos o
Curso de Matemática sendo ofertado em diversas faculdades e Universidades,
porém apenas a Universidade Federal do Paraná tem uma exigência maior para
o ingresso dos estudantes, onde os mesmos realizam o vestibular estendido com
a finalidade de diminuir o índice de desistência. O aluno aprovado nas duas fases
do vestibular é obrigado a cursar duas disciplinas e obter um rendimento de no
mínimo 5,0 para ser aprovado na terceira fase e assim de fato se tornar
estudante da UFPR. São ofertadas 44 vagas noturnas e 44 no vespertino nas
quais a maioria das vezes não são preenchidas, pois os alunos participantes da
terceira fase não conseguem obter a nota mínima exigida.
Matérias e métodos
O software utilizado para a realização das tarefas de mineração de dados do
trabalho foi o WEKA 3.7 (Waikato Environment for Knowledge Analysis), que foi
desenvolvido na Nova Zelândia, na Universidade de Waikato. Para Silva (2004),
o WEKA é um software intuitivo e com uma interface gráfica amigável que, além
de ser gratuito e desenvolvido em Java, o que permite que ele seja utilizado em
várias plataformas, também conta com uma grande quantidade de algoritmos,
fatores que influenciam no seu alto índice de utilização. Para que uma base
possa ser minerada e ter conhecimentos devidamente extraídos, é necessário
que seja feito um tratamento desta base. Nesta base também podem ser
encontrados os dados do questionário de percepção da prova e do questionário
do estudante. Com o intuito de extrair conhecimento desta base, foi utilizado o
processo de Knowledge Discovery in Databases (KDD), que é constituído por
um conjunto de etapas capazes de tratar e gerar informações confiáveis oriundas
de uma ou mais bases.
Após seleção da base, os atributos foram filtrados e trabalhados, para que a
extração do conhecimento fosse realizada da melhor forma possível.
Etapas do processo KDD
Para que a base ser utilizada foi necessário realizar o tratamento dos dados para
que eles pudessem ser minerados, para tal foi necessário empregar o processo
KDD que consiste em 4 etapas: Seleção, pré-processamento, transformação e
mineração de dados.
Seleção da base:
A
base
utilizada
pode
ser
encontrada
no
portal
do
INEP
http://portal.inep.gov.br/microdados, onde foi selecionada a base de dados do
ENADE 2014, que busca avaliar o desempenho dos estudantes em relação aos
conteúdos programáticos previstos nas diretrizes curriculares de seus
respectivos cursos de graduação. Tendo a finalidade de traçar um perfil dos
estudantes de matemática, será utilizada uma base de dados do INEP, mais
especificamente do ENADE 2014, que conta com dados sobre o perfil dos alunos
que prestaram o exame. Com está base foi possível coletar dados referentes aos
estudantes que prestaram o exame no dia 23 de novembro de 2014 , ano que
foi avaliado os cursos de: Arquitetura e Urbanismo, Sistema de Informação,
Engenharia Civil, Engenharia Elétrica, Engenharia de Computação, Engenharia
de Controle e Automação, Engenharia Mecânica, Engenharia Química,
Engenharia de Alimentos, Engenharia de Produção, Engenharia Ambiental,
Engenharia Florestal, Engenharia; Ciência da Computação, Ciências Biológicas,
Ciências Sociais, Filosofia, Física, Geografia, História,
Letras-Português,
Matemática e Química; Artes Visuais, Educação Física, Letras-Português e
Espanhol,
Letras- Português e Inglês, Música e Pedagogia; Análise
e
Desenvolvimento de Sistemas, Automação Industrial, Gestão da Produção
Industrial e Redes de Computadores.
Esta base possui no total 143 variáveis distintas, dentre elas, idade, sexo, nota
do componente específico, categoria da instituição de ensino superior (federal,
estadual, municipal, privada sem fins lucrativos e privada com fins lucrativos). A
base contém um total de 481721 registros, sendo utilizada para esta análise,
apenas os registros pertencentes ao curso de matemática.
A figura abaixo demonstra o estado da base original.
Para este estudo foram analisados 13336 destes registros, pertencentes ao
curso de matemática. Como o objetivo é analisar os estudantes de matemática
foi retirado os demais cursos, essa exclusão auxilia na busca de melhores
resultados. Após a seleção da base, os atributos precisaram ser filtrados e
trabalhados, o processo será descrito no Pré- processamento.
Pré processamento.
O pré-processamento é muito importante, pois é responsável por limpar e
formatar os dados da base a ser trabalhada, de forma que ela fique padronizada,
para que possa ser aplicada, as técnicas de mineração.
Os dados referentes aos estudantes de matemática foram separados dos
demais, sendo extraído do atributo “co_grupo”, variável na qual se encontra o
código de cada curso, deixando somente o referente à matemática. Assim podese eliminar essa coluna, pois só continha o valor referente a matemática.
Após essa separação dos demais cursos, ainda foi necessário diminuir dados,
uma vez que o volume de dados era grande e muitos deles, não demostravam
relevância para a análise no momento.
Algumas colunas também foram removidas, elas foram descartadas por não
possuírem importância para a análise, ou seja, não apresentavam informações
que causassem um impacto nos resultados, e ainda poderiam vir a causar uma
influência negativa nos resultados.
Para finalizar esta etapa, foi realizada uma análise dos valores encontrados em
cada um dos atributos selecionados, que somavam 17347 registros. Após a
realização da análise, foram encontrados valores vazios e até incorretos, o que
tornava inviável a utilização do registro em questão. Com todos os valores
inutilizáveis removidos, vazios e incorretos, a base passou a ter um total de
13336 registros. As alterações realizadas na base de dados tiveram como
objetivo, além de tornar a base devidamente estruturada para a aplicação de
técnicas de mineração de dados, buscar atributos relevantes para a análise do
perfil dos estudantes de matemática que prestaram o exame. A tabela resultante
após a etapa de pré-processamento pode ser observada logo abaixo.
Ao final da etapa de pré-processamento, a base estava reestruturada, contendo
somente os atributos considerados relevantes para a análise. Os
atributos
resultantes foram: cd_catad, cd_orgac, co_uf_curso, nu_idade, tp_sexo, nt_ce e
qp_i2. Os atributos são os mesmos encontrados na base original do INEP. O
quadro abaixo apresenta os atributos selecionados com suas respectivas
descrições.
Quadro 1: Relação dos atributos com suas respectivas descrições.
Atributo
Descrição
Cd_catad
Código da categoria administrativa da IES
Cd_orgac
Código da organização acadêmica da IES
Co_uf_curso
Código da UF de funcionamento do curso
Nu_idade
Idade do inscrito em 24/11/2013
Tp_sexo
Sexo do inscrito
Nt_ce
Nota bruta no componente especifico
qp_i2
Qual o grau de dificuldade desta prova na
parte do Componente Especifico?
Os atributos descritos no Quadro1, representam as colunas consideradas de
maior relevância da base de dados do ENADE 2014, para o estudo do perfil dos
estudantes de matemática. Devido à dificuldade de muitos atributos possuírem
diversos valores, os mesmos precisaram ser colocados em intervalos ou
codificados. Portanto os atributos cd_catad, nu_idade e Nt_ce estão com seus
valores codificados e a relação entre estes atributos e a descrição de seus
valores está representada abaixo.
Quadro2: Relação dos valores em código dos atributos com suas respectivas descrições.
Atributo
Cd_catad
Nt_ce
Nu_idade
cd_orgac
Código
Descrição dos códigos
1
Pública Federal
2
Pública Estadual
3
Pública Municipal
4
Privadas com fins lucrativos
5
Privadas sem fins lucrativos
Ruim
𝑛𝑜𝑡𝑎 <6,0
Regular
6,0≤ 𝑛𝑜𝑡𝑎 ≥6,9
Bom
𝑛𝑜𝑡𝑎 ≥7,0
1
𝑖𝑑𝑎𝑑𝑒 ≤ 23
2
23 < 𝑖𝑑𝑎𝑑𝑒 < 30
3
𝑖𝑑𝑎𝑑𝑒 ≥ 30
10028
Universidades
10020
Centro Universitário
10022
Faculdade
10026
Instituto
Federal
tecnologias
qp_i2
A
Muito fácil
B
Fácil
C
Médio
D
Difícil
E
Muito difícil
de
educação/
ciências
e
Co_uf_curso
11
RO
21
MA
28
SE
42
SC
12
AC
22
PI
29
BA
43
RS
13
AM
23
CE
31
MG
50
MS
14
RR
24
RN
32
ES
51
MT
15
PA
25
PB
33
RJ
52
GO
16
AP
26
PE
35
SP
53
DF
17
TO
27
AL
41
PR
Mineração de dados
A etapa de mineração de dados tem como objetivo aplicar técnicas e algoritmos
de mineração, onde estes serão analisados e explorados, buscando encontrar
padrões e assim extraindo informações úteis.
Tarefa de Classificação:
Na etapa de mineração de dados, a base de dados, trabalhada ao longo dos
processos anteriores do KDD, através de técnica de classificação a qual utilizou
diversos classificadores e obtendo o melhor resultado através da técnica de
árvore de decisão. Para Goldshmidt (2005), a tarefa mais importante e mais
utilizada, é a de classificação. Segundo Tan, Steinbach e Kumar (2009), dentre
as técnicas de classificação, técnica de árvore de decisão é a mais intuitiva, uma
vez que a representação do modelo se dá no formato de árvore o que traz uma
facilidade na compreensão desses dados. Esta técnica vem sendo utilizada para
analisar problemas de classificação que envolve um certo grupo, pois podem
gerar, os modelos em árvore, onde ambos podem ser utilizados para descoberta
de conhecimento úteis derivados de uma base de dados.
Algoritmo de árvore de Decisão J48
Neste algoritmo, a árvore de decisão é modelada baseada no atributo de maior
significância, que aparece como a raiz da árvore. A partir desta raiz, são geradas
ramificações, que representam a relevância desta ligação. Estas ramificações
podem também gerar outras ramificações que funcionariam da mesma forma.
Goldshmidt (2005), as árvores de decisão também são conhecidas por árvores
de regressão ou até árvores de classificação e que elas são representações
gráficas de um conjunto de regras, constituídas por raízes, galhos e nós,
semelhante a uma árvore, onde a analise destas representações devem ser
realizadas do topo para as folhas. Essas árvores de decisão têm como os nós
não folha como os valores dos atributos da base e os nós folha como as
instâncias destes, ou seja, cada uma das decisões tomadas para a realização
desta classificação é pertinente a um único nó. O algoritmo J48 gera modelos de
árvores de decisão partindo do topo para base, de forma que, em cada um dos
nós, outros atributos sejam avaliados, individualmente, para determinar sua
significância na ligação ou até a existência nela.
Resultados e Discussões
Resultados gerados pelos gráficos
Gráfico 1
Atributo Sexo
A maior barra (cor azul) corresponde ao sexo masculino, com 6735 instancias, o
que corresponde a 50,5%; já a menor barra (cor vermelho) corresponde ao sexo
feminino, com 6601 instâncias, o que corresponde a 49,5%.
Gráfico 2
Faixa de idade
Pela análise do gráfico em relação ao quesito idade dos candidatos onde foi
dividido em três intervalos no primeiro intervalo os estudantes com
𝑖𝑑𝑎𝑑𝑒 ≤ 23
representam
aproximadamente
25%,
segundo
intervalo
aproximadamente 35% e terceiro intervalo 40%. Onde nos chama atenção pela
concentração maior dos estudantes estar no terceiro intervalo, o que nos leva a
refletir que a maioria dos estudantes concluem o ensino médio e não ingressão
diretamente no curso de matemática.
Gráfico 3
Código da categoria administrativa da IES
A maioria dos estudantes de matemática se enquadram no quesito Publica
Federal, segundo estadual e em terceiro lugar Privada sem fins lucrativos.
Gráfico 4
Código da UF de funcionamento do curso
Pelo gráfico percebe-se que a concentração maior dos estudantes está no
estado de São Paulo cerca de 16%.
Gráfico 5
Código da organização acadêmica da IES
A concentração está dividida da seguinte forma:
10028
Universidades
67,84%
10020
Centro Universitário
9,8%
10022
Faculdade
14,07%
10026
Instituto
Federal
de
educação/ 8,18%
ciências e tecnologias
Gráfico 6
Faixa de notas
As notas foram divididas em três intervalos, 𝑛𝑜𝑡𝑎 < 60, desempenho ruim, 6.0≤
𝑛𝑜𝑡𝑎 < 70 desempenho regular e 𝑛𝑜𝑡𝑎 ≥7.0 considerada bom. Pelo gráfico é
nítido que prevaleceu o baixo desempenho cerca de 98% dos estudantes não
conseguiram atingir nota 6,0 no ENADE, o que é um indicio que é necessário
tomar medidas urgente, apenas 0,53% conseguiram ter nota igual ou superior a
7,0.
Gráfico 7
Grau de dificuldade da prova na parte do Componente Especifico
No grau de dificuldade da prova
Qp_i2
A
Muito fácil 1,07%
B
Fácil 1,6%
C
Médio 29,19%
D
Difícil 49,61%
E
Muito difícil 18,51%
Fazendo relação com o gráfico de faixa de notas os estudantes classificaram a
prova como difícil o que seria um indicativo de ter um grande volume de notas
ruins. Outras informações podem ser retirada dos gráficos através do Weka no
ícone “visualize”.
Gráfico 8
Co_ orgac x Faixa de nota
Clicando no x obtemos as seguintes informações:
Nesse gráfico pode-se verificar que a concentração dos estudantes
considerados bons está nas Públicas Federais, Públicas Estaduais e Privadas
sem fins Lucrativos.
Gráfico 9
Co_uf_curso X Faixa de nota
Os estados onde há uma concentração maior dos alunos considerados bons é o
estado de:
Estado
Porcentagem
São Paulo
20,8%
Rio
Janeiro
de 16,6%
Paraná
12,5%
Minas
12,5%
Gerais
Vale ressaltar que o estado de São Paulo possui 2172 registros, Rio de Janeiro
768 e Paraná 616 registros no banco de dados.
Gráfico 10
Idade x Faixa de nota
Analisando o gráfico acima pode se notar que as melhores notas estão
relacionadas com os estudantes com idade menor ou igual a 23 anos.
Gráfico 11
Sexo x Faixa de nota
A concentração de notas consideradas boas prevalece para o sexo masculino.
Gráfico12
qp_2 x faixa de nota
Pelo gráfico percebe-se que a grande maioria dos estudantes classificou a prova
como sendo de grau médio, difícil. E ainda temos uma grande parcela de
estudantes classificando a prova como muito fácil, fácil, média, obtendo uma
nota ruim, mostrando dessa maneira um domínio menor ainda sobre os
conteúdos abordados.
Análise do algoritmo J48:
O cabeçalho do resultado do J48, apresenta as seguintes informações:

Schema: Demonstra o método, o algoritmo e os parâmetros utilizados;

Relation: informa o nome do arquivo .arff .

Instances: O número total de instâncias analisadas;

Abribute: relação dos atributos analisados;

Test-mode: informa que será realizada cross-validation.
Depois o J48 gera várias regras sobre a relação existente entre os atributos.
Estas regras, darão origem à árvore:
Tomando como exemplo uma parte do resultado.
Podemos interpretar da seguinte forma (249.0/80.0).
249 significa o número de acertos, ou seja, 249 registros , nos quais a
regra se aplica corretamente.
80 significa o número de erros, ou seja, 80 registros, nos quais a regra
acima não se aplica corretamente.
No weka, é possível visualizar a árvore gerada para as regras acima
mencionadas, executando os seguintes passos: Após o J48 ter concluído o seu
processamento de um clique com o botão direito do mouse sobre a última linha
do campo Result list e escolha a opção visualize tree.
É necessário que a árvore acima seja expandida para melhor visualização.
O J48 gera um breve resumo que é de fundamental importância, nele contém
informações de maneira direta sobre número de instancias classificadas corretas
e incorretas.
Também, é apresentada uma tabela informando, dentre muitos parâmetros,
o fator de precisão:
Onde, na classificação, o fator de precisão para os estudantes de Centro
Universitários é de 97,6% e das Universidades é de 83,7%.
Análise da Matriz de Confusão
A matriz de confusão contém informações muito importantes para o
entendimento do resultado do algoritmo, dentre elas:

A quantidade de instâncias classificadas corretamente;

A quantidade de instâncias classificadas erroneamente;

A quantidade de instâncias que o algoritmo acreditava ser de um tipo e
na verdade foram classificadas como outra.
A análise é realizada por linhas:
Linha 1: Das 1320 instâncias 701 foram classificadas corretamente
pertencentes aos Centro Universitário e 619 foram classificadas erradas
destas 174 foram classificadas como faculdade e 445 como
Universidades.
Linha 2: Das 1877 instâncias 1355 foram classificadas corretamente
pertencentes a Faculdade e 522 foram classificadas erradas destas 15
foram classificadas como centro universitário e 507 como Universidades.
Linha 3: Das 1091 instâncias 375 foram classificadas corretamente
pertencentes aos institutos federais de Educação e 716 foram
classificadas erradas como Universidades.
Linha 4: Das 9048 instâncias 8561 foram classificadas corretamente
pertencentes a Universidades 487foram classificadas erradas destas 2
foram classificadas como Centro Universitário, 258 como Faculdade e
227 como Instituto Federal.
Para se chegar ao número das instâncias classificadas corretamente e
incorreta, basta analisar o quadro abaixo, no qual a somatória dos
valores, que fazem parte da diagonal marcada como azul, representam
os valores classificados como corretos e os demais valores somados em
suas respectivas diagonais, correspondem aos valores classificados
incorretamente. Obviamente, na somatória dos valores errados, deve-se
excluir os valores que fazem intersecção com a linha em azul.
Vale lembrar que o número de instancias classificadas, como corretas e
incorretas é apresentado no sumário de maneira direta.
Conclusão:
Para este trabalho foi utilizado o software Weka para a realização de técnicas de
mineração de dados, onde foi realizada classificação através do algoritmo J48
com a finalidade de obter o perfil dos estudantes do curso de Matemática. Com
base nos perfis gerados, é possível observar que a maior parte dos estudantes,
possui notas inferiores a sessenta e que quando comparado com a resposta
sobre o grau de dificuldade do componente específico, alguns padrões
mostraram que uma parte destes estudantes não demonstraram coerência, o
que remete um domínio ainda menor sobre o conteúdo abordado. Outro fator é
a faixa de idade dos estudantes a maioria está com idade acima de 30 anos,
cerca de 40% dos estudantes, quando comparado com a faixa de nota, o
resultado de estudantes considerados bons não estão na faixa 3 de idade e sim
na faixa 1 que possui idade até 23 anos. Por ser um curso com disciplinas com
grau de dificuldade alto, os estudantes da faixa etária 1 se saiu melhor
provavelmente por ter mais disponibilidade de horários para se dedicar aos
estudos, enquanto que os estudantes da faixa etária 3 provavelmente devem
trabalhar, além de dividir seu tempo com família e os estudos.
Vários estados brasileiros possuem o curso de Matemática, porém, São Paulo,
Rio de Janeiro, Paraná, Minas Gerais apresentaram resultados mais favoráveis,
ou seja, onde está concentrado o maior número de alunos considerados bons,
vindo de Universidades Públicas e Privadas. Olhando em especial para o Paraná
80% dos alunos considerados bons é de Universidade Federal, 10% Publica
Estadual e 10% Privada sem fins lucrativos.
Em todos os casos é nítido que algo precisa ser feito, pois o número de
estudantes com desempenho ruim é muito alto em todos os estados brasileiros
o que pode estar atrelado ao baixo desempenho dos alunos no ensino médio.
Referente ao grau de dificuldade da prova, sendo analisado pelos estudantes,
com bom desempenho, foi considerado a prova como média a muito difícil.
Espera-se que, a partir dos padrões e conhecimentos apresentados, seja
possível auxiliar as instituições nas tomadas de decisões, no que se refere a
medidas a serem tomadas no intuito de melhorar a qualidade do ensino no curso
de matemática.
Referências
FERREIRA, Gisele. Investigação acerca dos fatores determinantes para a
conclusão do Ensino Fundamental utilizando Mineração de Dados Educacionais
no Censo Escolar da Educação Básica do INEP 2014. In: Anais dos Workshops
do Congresso Brasileiro de Informática na Educação. 2015. p. 1034.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data mining: Um guia Prático:
Conceitos, técnicas, ferramentas, orientações e aplicações. Rio de Janeiro:
Elsevier, 2005.
Luiza
Yoko
Taneguti.
PROJETO
CNE/UNESCO
“Desenvolvimento,
aprimoramento e consolidação de uma educação nacional de qualidade”.
Brasília:
Disponível
em:
http://periodicos.sbu.unicamp.br/ojs/index.php/rdbci/article/view/8645248/pdf
Acesso em: 06 fevereiro. 2017
Silva M.P.S Mineração de Dados - Conceitos, Aplicações e Experimentos com
Weka. Disponível em http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf
Tancicleide C.S. Gomes Descoberta de Conhecimento Utilizando Mineração de
Dados Educacionais Abertos.
Tavares, Claudio; Bozza, Daniel; Konno, Frank Descoberta de conhecimento
aplicado a dados eleitorais. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007
Download