PROJETO FINAL Aluna: Clauciane Dias de Lima Professores: Celso Kaestner e Heitor Lopes Aplicação de técnicas de Mineração de dados na base de dados do ENADE 2014 com foco no curso de Matemática Pós-Graduação em Engenharia Elétrica e Informática Industrial Universidade Tecnológica Federal do Paraná 2016 Introdução No Brasil, o Sistema Nacional de Avaliação do Ensino Superior (SINAES), instituído pela lei n010.861, ele é responsável por avaliar as Instituições de Ensino Superior (IES). O sistema tem seus processos avaliativos coordenados e supervisionados pela Comissão nacional de Avaliação Superior (CONAES) e a operacionalização é de responsabilidade do Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). O SINAES é constituído por três partes: Avaliação das instituições, Avaliação dos cursos e a avaliação de desempenho dos estudantes, a qual é realizada através do Exame Nacional de Avaliação do Estudante (ENADE). O ENADE tem como objetivo avaliar o desempenho dos estudantes, tendo como base os conteúdos programáticos previstos nas diretrizes curriculares de seus respectivos cursos de graduação, bem como suas competências e habilidades da formação. A cada ano o ENADE é aplicado a um conjunto de áreas de ensino, o ciclo de todas as áreas é fechado a cada três anos. O ano I abrange as áreas da saúde, ciências agrárias e afins. Ano II é formado pelas áreas de ciências exatas, licenciaturas e áreas afins e o ano III é composto pelas áreas de ciências sociais aplicadas, ciências humanas e áreas afins. Após avaliar o grupo pertencente ao III ano o ciclo volta a ser iniciado, desta forma cada conjunto de área é avaliado a cada 3 anos. A mídia vem relatando o baixo rendimento dos alunos em matemática no ensino fundamental e médio, mas a pergunta é como está o controle de qualidade das instituições que ofertam esse curso? Como é o perfil dos futuros profissionais que estarão disponíveis no mercado? É um curso com concorrência baixa, porém com índice de desistência alta pelo grau complexidade das disciplinas logo no início do curso. Em Curitiba temos o Curso de Matemática sendo ofertado em diversas faculdades e Universidades, porém apenas a Universidade Federal do Paraná tem uma exigência maior para o ingresso dos estudantes, onde os mesmos realizam o vestibular estendido com a finalidade de diminuir o índice de desistência. O aluno aprovado nas duas fases do vestibular é obrigado a cursar duas disciplinas e obter um rendimento de no mínimo 5,0 para ser aprovado na terceira fase e assim de fato se tornar estudante da UFPR. São ofertadas 44 vagas noturnas e 44 no vespertino nas quais a maioria das vezes não são preenchidas, pois os alunos participantes da terceira fase não conseguem obter a nota mínima exigida. Matérias e métodos O software utilizado para a realização das tarefas de mineração de dados do trabalho foi o WEKA 3.7 (Waikato Environment for Knowledge Analysis), que foi desenvolvido na Nova Zelândia, na Universidade de Waikato. Para Silva (2004), o WEKA é um software intuitivo e com uma interface gráfica amigável que, além de ser gratuito e desenvolvido em Java, o que permite que ele seja utilizado em várias plataformas, também conta com uma grande quantidade de algoritmos, fatores que influenciam no seu alto índice de utilização. Para que uma base possa ser minerada e ter conhecimentos devidamente extraídos, é necessário que seja feito um tratamento desta base. Nesta base também podem ser encontrados os dados do questionário de percepção da prova e do questionário do estudante. Com o intuito de extrair conhecimento desta base, foi utilizado o processo de Knowledge Discovery in Databases (KDD), que é constituído por um conjunto de etapas capazes de tratar e gerar informações confiáveis oriundas de uma ou mais bases. Após seleção da base, os atributos foram filtrados e trabalhados, para que a extração do conhecimento fosse realizada da melhor forma possível. Etapas do processo KDD Para que a base ser utilizada foi necessário realizar o tratamento dos dados para que eles pudessem ser minerados, para tal foi necessário empregar o processo KDD que consiste em 4 etapas: Seleção, pré-processamento, transformação e mineração de dados. Seleção da base: A base utilizada pode ser encontrada no portal do INEP http://portal.inep.gov.br/microdados, onde foi selecionada a base de dados do ENADE 2014, que busca avaliar o desempenho dos estudantes em relação aos conteúdos programáticos previstos nas diretrizes curriculares de seus respectivos cursos de graduação. Tendo a finalidade de traçar um perfil dos estudantes de matemática, será utilizada uma base de dados do INEP, mais especificamente do ENADE 2014, que conta com dados sobre o perfil dos alunos que prestaram o exame. Com está base foi possível coletar dados referentes aos estudantes que prestaram o exame no dia 23 de novembro de 2014 , ano que foi avaliado os cursos de: Arquitetura e Urbanismo, Sistema de Informação, Engenharia Civil, Engenharia Elétrica, Engenharia de Computação, Engenharia de Controle e Automação, Engenharia Mecânica, Engenharia Química, Engenharia de Alimentos, Engenharia de Produção, Engenharia Ambiental, Engenharia Florestal, Engenharia; Ciência da Computação, Ciências Biológicas, Ciências Sociais, Filosofia, Física, Geografia, História, Letras-Português, Matemática e Química; Artes Visuais, Educação Física, Letras-Português e Espanhol, Letras- Português e Inglês, Música e Pedagogia; Análise e Desenvolvimento de Sistemas, Automação Industrial, Gestão da Produção Industrial e Redes de Computadores. Esta base possui no total 143 variáveis distintas, dentre elas, idade, sexo, nota do componente específico, categoria da instituição de ensino superior (federal, estadual, municipal, privada sem fins lucrativos e privada com fins lucrativos). A base contém um total de 481721 registros, sendo utilizada para esta análise, apenas os registros pertencentes ao curso de matemática. A figura abaixo demonstra o estado da base original. Para este estudo foram analisados 13336 destes registros, pertencentes ao curso de matemática. Como o objetivo é analisar os estudantes de matemática foi retirado os demais cursos, essa exclusão auxilia na busca de melhores resultados. Após a seleção da base, os atributos precisaram ser filtrados e trabalhados, o processo será descrito no Pré- processamento. Pré processamento. O pré-processamento é muito importante, pois é responsável por limpar e formatar os dados da base a ser trabalhada, de forma que ela fique padronizada, para que possa ser aplicada, as técnicas de mineração. Os dados referentes aos estudantes de matemática foram separados dos demais, sendo extraído do atributo “co_grupo”, variável na qual se encontra o código de cada curso, deixando somente o referente à matemática. Assim podese eliminar essa coluna, pois só continha o valor referente a matemática. Após essa separação dos demais cursos, ainda foi necessário diminuir dados, uma vez que o volume de dados era grande e muitos deles, não demostravam relevância para a análise no momento. Algumas colunas também foram removidas, elas foram descartadas por não possuírem importância para a análise, ou seja, não apresentavam informações que causassem um impacto nos resultados, e ainda poderiam vir a causar uma influência negativa nos resultados. Para finalizar esta etapa, foi realizada uma análise dos valores encontrados em cada um dos atributos selecionados, que somavam 17347 registros. Após a realização da análise, foram encontrados valores vazios e até incorretos, o que tornava inviável a utilização do registro em questão. Com todos os valores inutilizáveis removidos, vazios e incorretos, a base passou a ter um total de 13336 registros. As alterações realizadas na base de dados tiveram como objetivo, além de tornar a base devidamente estruturada para a aplicação de técnicas de mineração de dados, buscar atributos relevantes para a análise do perfil dos estudantes de matemática que prestaram o exame. A tabela resultante após a etapa de pré-processamento pode ser observada logo abaixo. Ao final da etapa de pré-processamento, a base estava reestruturada, contendo somente os atributos considerados relevantes para a análise. Os atributos resultantes foram: cd_catad, cd_orgac, co_uf_curso, nu_idade, tp_sexo, nt_ce e qp_i2. Os atributos são os mesmos encontrados na base original do INEP. O quadro abaixo apresenta os atributos selecionados com suas respectivas descrições. Quadro 1: Relação dos atributos com suas respectivas descrições. Atributo Descrição Cd_catad Código da categoria administrativa da IES Cd_orgac Código da organização acadêmica da IES Co_uf_curso Código da UF de funcionamento do curso Nu_idade Idade do inscrito em 24/11/2013 Tp_sexo Sexo do inscrito Nt_ce Nota bruta no componente especifico qp_i2 Qual o grau de dificuldade desta prova na parte do Componente Especifico? Os atributos descritos no Quadro1, representam as colunas consideradas de maior relevância da base de dados do ENADE 2014, para o estudo do perfil dos estudantes de matemática. Devido à dificuldade de muitos atributos possuírem diversos valores, os mesmos precisaram ser colocados em intervalos ou codificados. Portanto os atributos cd_catad, nu_idade e Nt_ce estão com seus valores codificados e a relação entre estes atributos e a descrição de seus valores está representada abaixo. Quadro2: Relação dos valores em código dos atributos com suas respectivas descrições. Atributo Cd_catad Nt_ce Nu_idade cd_orgac Código Descrição dos códigos 1 Pública Federal 2 Pública Estadual 3 Pública Municipal 4 Privadas com fins lucrativos 5 Privadas sem fins lucrativos Ruim 𝑛𝑜𝑡𝑎 <6,0 Regular 6,0≤ 𝑛𝑜𝑡𝑎 ≥6,9 Bom 𝑛𝑜𝑡𝑎 ≥7,0 1 𝑖𝑑𝑎𝑑𝑒 ≤ 23 2 23 < 𝑖𝑑𝑎𝑑𝑒 < 30 3 𝑖𝑑𝑎𝑑𝑒 ≥ 30 10028 Universidades 10020 Centro Universitário 10022 Faculdade 10026 Instituto Federal tecnologias qp_i2 A Muito fácil B Fácil C Médio D Difícil E Muito difícil de educação/ ciências e Co_uf_curso 11 RO 21 MA 28 SE 42 SC 12 AC 22 PI 29 BA 43 RS 13 AM 23 CE 31 MG 50 MS 14 RR 24 RN 32 ES 51 MT 15 PA 25 PB 33 RJ 52 GO 16 AP 26 PE 35 SP 53 DF 17 TO 27 AL 41 PR Mineração de dados A etapa de mineração de dados tem como objetivo aplicar técnicas e algoritmos de mineração, onde estes serão analisados e explorados, buscando encontrar padrões e assim extraindo informações úteis. Tarefa de Classificação: Na etapa de mineração de dados, a base de dados, trabalhada ao longo dos processos anteriores do KDD, através de técnica de classificação a qual utilizou diversos classificadores e obtendo o melhor resultado através da técnica de árvore de decisão. Para Goldshmidt (2005), a tarefa mais importante e mais utilizada, é a de classificação. Segundo Tan, Steinbach e Kumar (2009), dentre as técnicas de classificação, técnica de árvore de decisão é a mais intuitiva, uma vez que a representação do modelo se dá no formato de árvore o que traz uma facilidade na compreensão desses dados. Esta técnica vem sendo utilizada para analisar problemas de classificação que envolve um certo grupo, pois podem gerar, os modelos em árvore, onde ambos podem ser utilizados para descoberta de conhecimento úteis derivados de uma base de dados. Algoritmo de árvore de Decisão J48 Neste algoritmo, a árvore de decisão é modelada baseada no atributo de maior significância, que aparece como a raiz da árvore. A partir desta raiz, são geradas ramificações, que representam a relevância desta ligação. Estas ramificações podem também gerar outras ramificações que funcionariam da mesma forma. Goldshmidt (2005), as árvores de decisão também são conhecidas por árvores de regressão ou até árvores de classificação e que elas são representações gráficas de um conjunto de regras, constituídas por raízes, galhos e nós, semelhante a uma árvore, onde a analise destas representações devem ser realizadas do topo para as folhas. Essas árvores de decisão têm como os nós não folha como os valores dos atributos da base e os nós folha como as instâncias destes, ou seja, cada uma das decisões tomadas para a realização desta classificação é pertinente a um único nó. O algoritmo J48 gera modelos de árvores de decisão partindo do topo para base, de forma que, em cada um dos nós, outros atributos sejam avaliados, individualmente, para determinar sua significância na ligação ou até a existência nela. Resultados e Discussões Resultados gerados pelos gráficos Gráfico 1 Atributo Sexo A maior barra (cor azul) corresponde ao sexo masculino, com 6735 instancias, o que corresponde a 50,5%; já a menor barra (cor vermelho) corresponde ao sexo feminino, com 6601 instâncias, o que corresponde a 49,5%. Gráfico 2 Faixa de idade Pela análise do gráfico em relação ao quesito idade dos candidatos onde foi dividido em três intervalos no primeiro intervalo os estudantes com 𝑖𝑑𝑎𝑑𝑒 ≤ 23 representam aproximadamente 25%, segundo intervalo aproximadamente 35% e terceiro intervalo 40%. Onde nos chama atenção pela concentração maior dos estudantes estar no terceiro intervalo, o que nos leva a refletir que a maioria dos estudantes concluem o ensino médio e não ingressão diretamente no curso de matemática. Gráfico 3 Código da categoria administrativa da IES A maioria dos estudantes de matemática se enquadram no quesito Publica Federal, segundo estadual e em terceiro lugar Privada sem fins lucrativos. Gráfico 4 Código da UF de funcionamento do curso Pelo gráfico percebe-se que a concentração maior dos estudantes está no estado de São Paulo cerca de 16%. Gráfico 5 Código da organização acadêmica da IES A concentração está dividida da seguinte forma: 10028 Universidades 67,84% 10020 Centro Universitário 9,8% 10022 Faculdade 14,07% 10026 Instituto Federal de educação/ 8,18% ciências e tecnologias Gráfico 6 Faixa de notas As notas foram divididas em três intervalos, 𝑛𝑜𝑡𝑎 < 60, desempenho ruim, 6.0≤ 𝑛𝑜𝑡𝑎 < 70 desempenho regular e 𝑛𝑜𝑡𝑎 ≥7.0 considerada bom. Pelo gráfico é nítido que prevaleceu o baixo desempenho cerca de 98% dos estudantes não conseguiram atingir nota 6,0 no ENADE, o que é um indicio que é necessário tomar medidas urgente, apenas 0,53% conseguiram ter nota igual ou superior a 7,0. Gráfico 7 Grau de dificuldade da prova na parte do Componente Especifico No grau de dificuldade da prova Qp_i2 A Muito fácil 1,07% B Fácil 1,6% C Médio 29,19% D Difícil 49,61% E Muito difícil 18,51% Fazendo relação com o gráfico de faixa de notas os estudantes classificaram a prova como difícil o que seria um indicativo de ter um grande volume de notas ruins. Outras informações podem ser retirada dos gráficos através do Weka no ícone “visualize”. Gráfico 8 Co_ orgac x Faixa de nota Clicando no x obtemos as seguintes informações: Nesse gráfico pode-se verificar que a concentração dos estudantes considerados bons está nas Públicas Federais, Públicas Estaduais e Privadas sem fins Lucrativos. Gráfico 9 Co_uf_curso X Faixa de nota Os estados onde há uma concentração maior dos alunos considerados bons é o estado de: Estado Porcentagem São Paulo 20,8% Rio Janeiro de 16,6% Paraná 12,5% Minas 12,5% Gerais Vale ressaltar que o estado de São Paulo possui 2172 registros, Rio de Janeiro 768 e Paraná 616 registros no banco de dados. Gráfico 10 Idade x Faixa de nota Analisando o gráfico acima pode se notar que as melhores notas estão relacionadas com os estudantes com idade menor ou igual a 23 anos. Gráfico 11 Sexo x Faixa de nota A concentração de notas consideradas boas prevalece para o sexo masculino. Gráfico12 qp_2 x faixa de nota Pelo gráfico percebe-se que a grande maioria dos estudantes classificou a prova como sendo de grau médio, difícil. E ainda temos uma grande parcela de estudantes classificando a prova como muito fácil, fácil, média, obtendo uma nota ruim, mostrando dessa maneira um domínio menor ainda sobre os conteúdos abordados. Análise do algoritmo J48: O cabeçalho do resultado do J48, apresenta as seguintes informações: Schema: Demonstra o método, o algoritmo e os parâmetros utilizados; Relation: informa o nome do arquivo .arff . Instances: O número total de instâncias analisadas; Abribute: relação dos atributos analisados; Test-mode: informa que será realizada cross-validation. Depois o J48 gera várias regras sobre a relação existente entre os atributos. Estas regras, darão origem à árvore: Tomando como exemplo uma parte do resultado. Podemos interpretar da seguinte forma (249.0/80.0). 249 significa o número de acertos, ou seja, 249 registros , nos quais a regra se aplica corretamente. 80 significa o número de erros, ou seja, 80 registros, nos quais a regra acima não se aplica corretamente. No weka, é possível visualizar a árvore gerada para as regras acima mencionadas, executando os seguintes passos: Após o J48 ter concluído o seu processamento de um clique com o botão direito do mouse sobre a última linha do campo Result list e escolha a opção visualize tree. É necessário que a árvore acima seja expandida para melhor visualização. O J48 gera um breve resumo que é de fundamental importância, nele contém informações de maneira direta sobre número de instancias classificadas corretas e incorretas. Também, é apresentada uma tabela informando, dentre muitos parâmetros, o fator de precisão: Onde, na classificação, o fator de precisão para os estudantes de Centro Universitários é de 97,6% e das Universidades é de 83,7%. Análise da Matriz de Confusão A matriz de confusão contém informações muito importantes para o entendimento do resultado do algoritmo, dentre elas: A quantidade de instâncias classificadas corretamente; A quantidade de instâncias classificadas erroneamente; A quantidade de instâncias que o algoritmo acreditava ser de um tipo e na verdade foram classificadas como outra. A análise é realizada por linhas: Linha 1: Das 1320 instâncias 701 foram classificadas corretamente pertencentes aos Centro Universitário e 619 foram classificadas erradas destas 174 foram classificadas como faculdade e 445 como Universidades. Linha 2: Das 1877 instâncias 1355 foram classificadas corretamente pertencentes a Faculdade e 522 foram classificadas erradas destas 15 foram classificadas como centro universitário e 507 como Universidades. Linha 3: Das 1091 instâncias 375 foram classificadas corretamente pertencentes aos institutos federais de Educação e 716 foram classificadas erradas como Universidades. Linha 4: Das 9048 instâncias 8561 foram classificadas corretamente pertencentes a Universidades 487foram classificadas erradas destas 2 foram classificadas como Centro Universitário, 258 como Faculdade e 227 como Instituto Federal. Para se chegar ao número das instâncias classificadas corretamente e incorreta, basta analisar o quadro abaixo, no qual a somatória dos valores, que fazem parte da diagonal marcada como azul, representam os valores classificados como corretos e os demais valores somados em suas respectivas diagonais, correspondem aos valores classificados incorretamente. Obviamente, na somatória dos valores errados, deve-se excluir os valores que fazem intersecção com a linha em azul. Vale lembrar que o número de instancias classificadas, como corretas e incorretas é apresentado no sumário de maneira direta. Conclusão: Para este trabalho foi utilizado o software Weka para a realização de técnicas de mineração de dados, onde foi realizada classificação através do algoritmo J48 com a finalidade de obter o perfil dos estudantes do curso de Matemática. Com base nos perfis gerados, é possível observar que a maior parte dos estudantes, possui notas inferiores a sessenta e que quando comparado com a resposta sobre o grau de dificuldade do componente específico, alguns padrões mostraram que uma parte destes estudantes não demonstraram coerência, o que remete um domínio ainda menor sobre o conteúdo abordado. Outro fator é a faixa de idade dos estudantes a maioria está com idade acima de 30 anos, cerca de 40% dos estudantes, quando comparado com a faixa de nota, o resultado de estudantes considerados bons não estão na faixa 3 de idade e sim na faixa 1 que possui idade até 23 anos. Por ser um curso com disciplinas com grau de dificuldade alto, os estudantes da faixa etária 1 se saiu melhor provavelmente por ter mais disponibilidade de horários para se dedicar aos estudos, enquanto que os estudantes da faixa etária 3 provavelmente devem trabalhar, além de dividir seu tempo com família e os estudos. Vários estados brasileiros possuem o curso de Matemática, porém, São Paulo, Rio de Janeiro, Paraná, Minas Gerais apresentaram resultados mais favoráveis, ou seja, onde está concentrado o maior número de alunos considerados bons, vindo de Universidades Públicas e Privadas. Olhando em especial para o Paraná 80% dos alunos considerados bons é de Universidade Federal, 10% Publica Estadual e 10% Privada sem fins lucrativos. Em todos os casos é nítido que algo precisa ser feito, pois o número de estudantes com desempenho ruim é muito alto em todos os estados brasileiros o que pode estar atrelado ao baixo desempenho dos alunos no ensino médio. Referente ao grau de dificuldade da prova, sendo analisado pelos estudantes, com bom desempenho, foi considerado a prova como média a muito difícil. Espera-se que, a partir dos padrões e conhecimentos apresentados, seja possível auxiliar as instituições nas tomadas de decisões, no que se refere a medidas a serem tomadas no intuito de melhorar a qualidade do ensino no curso de matemática. Referências FERREIRA, Gisele. Investigação acerca dos fatores determinantes para a conclusão do Ensino Fundamental utilizando Mineração de Dados Educacionais no Censo Escolar da Educação Básica do INEP 2014. In: Anais dos Workshops do Congresso Brasileiro de Informática na Educação. 2015. p. 1034. GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data mining: Um guia Prático: Conceitos, técnicas, ferramentas, orientações e aplicações. Rio de Janeiro: Elsevier, 2005. Luiza Yoko Taneguti. PROJETO CNE/UNESCO “Desenvolvimento, aprimoramento e consolidação de uma educação nacional de qualidade”. Brasília: Disponível em: http://periodicos.sbu.unicamp.br/ojs/index.php/rdbci/article/view/8645248/pdf Acesso em: 06 fevereiro. 2017 Silva M.P.S Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka. Disponível em http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf Tancicleide C.S. Gomes Descoberta de Conhecimento Utilizando Mineração de Dados Educacionais Abertos. Tavares, Claudio; Bozza, Daniel; Konno, Frank Descoberta de conhecimento aplicado a dados eleitorais. Gestão & Conhecimento, v. 5, n.1 , jan./jun. 2007