ROBERTO GONÇALVES AUGUSTO JUNIOR DESCOBERTA DE CONHECIMENTO PARA IDENTIFICAÇÃO DE FATORES QUE INFLUENCIAM O DESEMPENHO DISCENTE DIFERENÇAS ENTRE OS CURSOS DE DIREITO E ENGENHARIA CIVIL Itajaí (SC), Agosto de 2015 UNIVERSIDADE DO VALE DO ITAJAÍ CURSO DE MESTRADO ACADÊMICO EM COMPUTAÇÃO APLICADA DESCOBERTA DE CONHECIMENTO PARA IDENTIFICAÇÃO DE FATORES QUE INFLUENCIAM O DESEMPENHO DISCENTE DIFERENÇAS ENTRE OS CURSOS DE DIREITO E ENGENHARIA CIVIL por Roberto Gonçalves Augusto Junior Dissertação apresentada como requisito parcial à obtenção do grau de Mestre em Computação Aplicada. Orientador: Raimundo Celeste Ghizoni Teive, Dr. Eng. Itajaí (SC), Agosto de 2015 FOLHA DE APROVAÇÃO Esta página é reservada para inclusão da folha de assinaturas, a ser disponibilizada pela Secretaria do Curso para coleta da assinatura no ato da defesa. Dedico este trabalho à: Minha Mãe, Helenilce Lucindo Augusto (in-memoriam), me mostrou o verdadeiro amor e saudade; Meu pai, Roberto Gonçalves Augusto, meu exemplo de superação; Meu filho Gabriel Augusto, meu rejuvenescimento e aprendizado diário; Minha esposa Emilia Tasinafo Silva Augusto, minha vida, a espinha dorsal deste trabalho. AGRADECIMENTOS Poucas metas poderiam ser alcançadas trabalhando sozinho, em cada novo desafio várias pessoas são envolvidas, é muito importante saber reconhecer e agradecer a quem torna nosso caminho mais suave. Reconheço aqui a importância de minha amiga e Gerente de Tecnologia da Informação da Universidade do Vale do Itajaí Ruth Broglio Silveira e também da Excelentíssima Senhora Profª Dra. Amândia Maria de Borba, Vice-Reitora da Universidade do Vale do Itajaí de 2010 a 2013. Trabalhar liderado por pessoas como elas é uma oportunidade de aprendizado ímpar. Tenho grande gratidão pelo apoio que tive para iniciar no Mestrado em Computação Aplicada. Sem o total apoio delas certamente este trabalho não seria sido realizado. Agradeço a confiança depositada pela Excelentíssima Senhora Profª Dra. Cássia Ferri, PróReitora de Ensino de 2010 a 2014 e atualmente Vice-Reitora de Graduação da Universidade do Vale do Itajaí, por liberar dados tão valiosos para a análise efetuada nesta dissertação. Aos amigos Alcides Vila-Loubos, Rodrigo Balaba Lopes, Marcello de Castro Pessoa, Jefferson Prebianca, Nilmar de Souza e Leo Lynce Valle de Lacerda por terem oferecido seu precioso tempo para me auxiliar na extração e compreensão dos dados que foram analisados. Aos meus colegas de trabalho da Gerência de Tecnologia da Informação da Universidade do Vale do Itajaí por terem suportado, sem reclamar, a repetição incessante de um único assunto ao longo do tempo em que fiquei envolvido nas atividades que culminaram nesta dissertação. Ao meu orientador, Prof. Raimundo Celeste Ghizoni Teive, por toda paciência e pela dedicação oferecidas, antes do início e durante o meu curso no Mestrado em Computação Aplicada. Dentre todos aqueles a quem agradeço tenho gratidão especial a três pessoas, por provocarem o desejo do desafio deste Mestrado e mostrar que era possível apesar das dificuldades. Um obrigado especial ao Prof. Rafael Ballotin Martins a Profª Cirlene Inácio da Graça e o grande amigo Mario Tavares Junior. Sem eles eu nunca teria dado o primeiro passo desta desafiante caminhada. DESCOBERTA DE CONHECIMENTO PARA IDENTIFICAÇÃO DE FATORES QUE INFLUENCIAM O DESEMPENHO DISCENTE DIFERENÇAS ENTRE OS CURSOS DE DIREITO E ENGENHARIA CIVIL Roberto Gonçalves Augusto Junior Agosto / 2015 Orientador: Prof. Raimundo Celeste Ghizoni Teive, Dr. Eng. Área de Concentração: Computação Aplicada Linha de Pesquisa: Inteligência Aplicada Palavras-chave: Descoberta de Conhecimento. Mineração de Dados. Ensino. Aprendizagem. Instituições de Ensino Superior. Número de páginas: 158 RESUMO A qualidade do ensino superior no Brasil desperta preocupação na atualidade, apesar do crescimento significativo no número de instituições de ensino superior entre os anos 2000 e 2010. A literatura técnica apresenta um esforço de parte da comunidade científica, na busca da compreensão dos fatores do ambiente de ensino-aprendizagem que influenciem positiva ou negativamente o desempenho do discente. O presente trabalho buscou identificar estes fatores e comparar como os mesmos variam entre os cursos de Direito e Engenharia Civil. Para esta análise foram utilizados dados do sistema de gestão acadêmica da Universidade do Vale do Itajaí, de 2005 ao primeiro semestre de 2014, combinados com técnicas de classificação com regras de associação e clusterização, da mineração de dados. Este estudo apresenta-se relevante à comunidade científica ao examinar, uma população ainda não estudada com esta técnica de descoberta de conhecimento e de posse desses dados apresentar diferenças entre perfis de alunos com determinado desempenho acadêmico nos cursos de Direito e Engenharia Civil. Foi utilizada a metodologia Cross Industry Standard Process for Data Mining (CRISP-DM), selecionada a partir quatorze outras metodologias. O estudo mostrou o número de faltas como fator que mais influencia no desempenho acadêmico de alunos. O registro de apenas quatro faltas em disciplinas de trabalho de conclusão de curso, por exemplo, aumenta para 98,60% a probabilidade de o aluno obter uma nota classificada como baixo desempenho. Ficou evidenciado também uma tendência de melhor desempenho de alunos do Programa Universidade para Todos (PROUNI) em relação aos alunos com outra forma de ingresso. Não houve diferenças entre os fatores que influenciam no desempenho acadêmico do aluno entre os cursos de Direito e Engenharia Civil. Analisando os quatro semestres iniciais do curso do aluno, foi possível prever com até 78,38% de acurácia e nível de aceitação Kappa “Substancial” qual desempenho acadêmico o aluno egresso de Direito terá. A quantidade menor de registros do curso de Engenharia Civil impactou negativamente na acurácia do modelo gerado para prever o grupo de desempenho do egresso de Engenharia Civil. A acurácia deste modelo foi de 68,42% e a aceitação Kappa “Justa”. IDENTIFYING INFLUENTIAL ELEMENTS IN STUDENTS’ ACADEMIC PERFORMANCE THROUGH KNOWLEDGEDISCOVERY IN DATABASES DIFFERENT PROFILES IN CIVIL ENGINEERING AND LAW COURSES Roberto Gonçalves Augusto Junior August / 2015 Advisor: Raimundo Celeste Ghizoni Teive, Dr. Area of Concentration: Applied Computer Science Research Line: Applied Intelligence Keywords: Knowledge Discovery. Data Mining. Education. Learning. Higher Education Institutions. Number of pages: 158 ABSTRACT The standards in Higher Education in Brazil currently have been arousing great concern, despite the significant increase in the number of Higher Education institutions between 2000 and 2010. Technical literature shows an effort from faculty members and researchers in order to understand the elements of learning environment which may influence positive or negatively on students’ performance. This research intends to identify these elements and compare how they vary amongst Law and Civil Engineering courses. For such analysis, data has been used from the academic management system of Universidade do Vale do Itajaí, along with clustering and classification with with rule induction techniques, from data mining. This study has shown to be relevant for examining a population that had not yet been studied through this knowledge-discovery technique, and whose information reveals differences between certain students’ profiles regarding their performance in Law and Civil Engineering courses. Research has shown number of absences as a mostly influential element in students’ academic performance. This means that records of four absences in subjects such as undergraduate thesis increase chances of low grade in final reports to 98,60%. There is also an evidently strong relation between good performance and ProUni students (state school students with scholarship granted by the government), compared to students taking regular entrance exams. There was no difference between elements influencing students’ academic performance in Law and Civil Engineering courses. Through analysis of the first two years in each course it was possible to predict academic performance with 78,38% accuracy and a substantial agreement in Kappa values regarding Law alumni’s final average. The lesser number of Civil Engineering records had a negative impact on the accuracy of results related to Civil Engineering alumni’s performance. This result was 68,42% accurate and indicated a fair agreement in Kappa values. LISTA DE ILUSTRAÇÕES Figura 1. Dados disponíveis para o processo de KDD. ..................................................................... 21 Figura 2. Hierarquia entre dados, informações e conhecimento. ....................................................... 31 Figura 3. Exemplo de Clusters. .......................................................................................................... 33 Figura 4. Evolução de metodologias e modelos de processos de mineração de dados...................... 41 Figura 5. Fases da metodologia CRISP-DM. ..................................................................................... 44 Figura 6. Discretização de notas por frequência - Direito. ................................................................ 79 Figura 7. Discretização de notas por frequência – Engenharia Civil. ................................................ 81 Figura 8. Avaliação de P1; OE1......................................................................................................... 90 Figura 9. Avaliação de P2; OE2; H1.................................................................................................. 91 Figura 10. Avaliação de P3; OE3; OE4; H2. ..................................................................................... 92 Figura 11. Percentual dos GDA por Curso. ....................................................................................... 94 Figura 12. Percentual dos GDA para Disciplinas TCC, por curso. ................................................... 95 Figura 13. Percentual do GDA em função do número de faltas. ....................................................... 97 Figura 14. Percentual dos GDA para Disciplinas TCC em que o aluno teve mais de 4 faltas. ......... 99 Figura 15. Grupo de desempenho por titulação, curso de Direito. .................................................. 101 Figura 16. Grupo de desempenho por titulação, curso de Engenharia Civil. .................................. 102 Figura 17. Percentual de Faltas por Curso, 2 intervalos. ................................................................. 105 Figura 18. Percentual dos GDA em Disciplinas Não Obrigatórias. ................................................. 106 Figura 19. Percentual dos GDA de Egressos por Curso. ................................................................. 111 Quadro 1. Fontes de dados da revisão Sistemática. ........................................................................... 51 Quadro 2. Seleção final dos artigos, considerando critérios de inclusão e exclusão. ........................ 54 Quadro 3. Síntese das características descritas em cada artigo. ......................................................... 63 Quadro 4. Atributos da Central de Pessoas que serão utilizados. ...................................................... 70 Quadro 5. Atributos do sistema Acadêmico/Financeiro que serão utilizados. .................................. 71 Quadro 6. Atributos do sistema Diário On-line que serão utilizados. ............................................... 73 Quadro 7. Atributos do sistema Controle Docente que serão utilizados. .......................................... 73 Quadro 8. Atributos do sistema Acadêmico/Financeiro que serão utilizados. .................................. 74 Quadro 9. Atributos do sistema Pergamum que serão utilizados. ..................................................... 74 Quadro 10. Atributos do Sistema Ambiente Sophia que serão utilizados. ........................................ 75 Quadro 11. Atributos da Avaliação Institucional que serão utilizados. ............................................. 76 Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng. ................................................. 82 Quadro 13. Atributos dos conjuntos de dados CDADirEgresso e CDAEngEgresso. ....................... 85 Quadro 14. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng ........................... 87 Quadro 15. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng discretizado, sem valores faltantes.......................................................................................................................... 87 Quadro 16. Algoritmos que cumprem os pré-requisitos para CDADirEgresso e CDAEngEgresso. 88 Quadro 17. Algoritmos que cumprem os pré-requisitos para CDADirEgresso e CDAEngEgresso discretizado, sem valores faltantes. ............................................................................................ 89 Quadro 18. Modelo de regras de classificação otimizado para CDADirEgresso. ........................... 117 Quadro 19. Modelo de regras de classificação otimizado para CDAEngEgresso. .......................... 119 LISTA DE TABELAS Tabela 1. Resumo da população. ....................................................................................................... 22 Tabela 2. Matriz de confusão. ............................................................................................................ 35 Tabela 3. Modelo de uma tabela de observação para análise de hipótese. ........................................ 38 Tabela 4. Níveis e aceitação da estatística Kappa .............................................................................. 40 Tabela 5. Exemplo de discretização por frequência, atributo Nota em 3 grupos. ............................. 40 Tabela 6. Etapas das metodologias CRISP-DM e KDD Process. ...................................................... 43 Tabela 7. Ferramentas de mineração de dados que atendem aos pré-requisitos. .............................. 47 Tabela 8. Base de dados e número de artigos por ferramenta ............................................................ 48 Tabela 9. Pontuação das ferramentas. ................................................................................................ 49 Tabela 10. Seleção de estudos por base. ............................................................................................ 54 Tabela 11. Grupos de Desempenho - Direito ..................................................................................... 78 Tabela 12. Grupos de Desempenho – Engenharia Civil .................................................................... 79 Tabela 13. Percentual de reprovações entre 2005/1 e 2014/1. ........................................................... 80 Tabela 14. Regras do Algoritmo Single Rule Induction (Single Attribute) ....................................... 94 Tabela 15. Exemplos de regra com ALU_DIS_FALTAS em destaque ............................................ 95 Tabela 16. Percentual das notas em função do curso e número de faltas .......................................... 98 Tabela 17. Percentual das notas em função do curso e ingresso...................................................... 100 Tabela 18. Percentual dos GDA em função do Tipo de Disciplina. ................................................ 101 Tabela 19. Exemplos de regras descartadas. .................................................................................... 103 Tabela 20. Acurácia e Kappa dos modelos. ..................................................................................... 104 Tabela 21. Regra com análise do grupo de faltas ............................................................................ 105 Tabela 22. Distribuição GDA por cluster, Curso de Direito, algoritmo KMeans Kernel, 3 clusters. .................................................................................................................................................. 107 Tabela 23. Distribuição GDA por cluster, Curso de Engenharia Civil, algoritmo KMeans Kernel, 6 clusters. .................................................................................................................................... 107 Tabela 24. Distribuição GDA por cluster, Curso de Engenharia Civil, algoritmo KMeans Kernel, 3 clusters. .................................................................................................................................... 108 Tabela 25. Distribuição GDA por cluster, algoritmo KMeans Kernel, 6 clusters. .......................... 108 Tabela 26. Impacto de variações na regra “if PROF_TITUL = M and GRU_INGR = VES and ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and NEG_FIN = N then BDA”, curso de Direito. ................................................................... 109 Tabela 27. Distribuição de faltas em disciplinas que respeitam a regra “if PROF_TITUL = M and GRU_INGR = VES and ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and NEG_FIN = N then BDA”, curso de Direito. ................................ 110 Tabela 28. Quantidade de Egressos por curso. ................................................................................ 111 Tabela 29. Relação GDA semestre iniciais versus GDA egresso no curso de Direito. ................... 112 Tabela 30. Relação GDA semestre iniciais versus GDA egresso no curso de Engenharia Civil. ... 113 Tabela 31. Acurácia e Kappa dos modelos. ..................................................................................... 113 Tabela 32. Regras CDA Egresso com apenas GDA_PER4. ............................................................ 114 Tabela 33. Matriz de confusão do modelo mais eficiente para o curso de Direito. ......................... 115 Tabela 34. Matriz de confusão do modelo otimizado para o curso de Direito ................................ 116 Tabela 35. Matriz de confusão do modelo mais eficiente para o curso de Engenharia Civil. ......... 118 Tabela 36. Matriz de confusão do modelo otimizado para o curso de Engenharia Civil ................ 118 LISTA DE ABREVIATURAS E SIGLAS AI AVA BADA BDA BI CAPES CCS CDA CECIESA-CTL CECIESA-Gestão CEJURPS CFM CRISP-DM CRM CTTMAR EDM FN FP GDA H IBM IES INEP IPM KDD KEEL MD MDA MEC NI OAB OE P SESU SINAES SPSS TA UNIVALI VN VP Avaliação Institucional Ambiente Virtual de Aprendizagem Baixo Desempenho Acadêmico Bom Desempenho Acadêmico Business Intelligence Coordenação de Aperfeiçoamento de Pessoal de Nível Superior Centro de Ciências da Saúde Conjunto de Dados (Datasets) Centro de Ciências Sociais Aplicadas – Comunicação, Turismo e Lazer Centro de Ciências Sociais Aplicadas – Gestão Centro de Ciências Sociais e Jurídicas Conselho Federal de Medicina Cross Industry Standard Process for Data Mining Conselho Regional de Medicina Centro de Ciências Tecnológicas da Terra e do Mar Educational Data Mining Falso Negativo Falso Positivo Grupo de Desempenho Acadêmico Hipótese International Business Machine Instituição de Ensino Superior Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira Instituto Paulo Montenegro Knowledge Discovery in Databases Knowledge Extraction based on Evolutionary Learning Mineração de Dados Médio Desempenho Acadêmico Ministério da Educação Não Informado Ordem dos Advogados do Brasil Objetivo Específico Pergunta de pesquisa Secretaria de Educação Superior Sistema Nacional de Avaliação da Educação Superior Statistical Package for the Social Sciences Total de Analisados Universidade do Vale do Itajaí Verdadeiro Negativo Verdadeiro Positivo 13 SUMÁRIO 1 INTRODUÇÃO.................................................................................... 16 1.1 PROBLEMA DE PESQUISA........................................................................... 18 1.1.1 Solução Proposta ............................................................................................. 20 1.1.2 Delimitação de Escopo .................................................................................... 22 1.1.3 Justificativa ...................................................................................................... 24 1.2 OBJETIVOS ...................................................................................................... 25 1.2.1 Objetivo Geral ................................................................................................. 25 1.2.2 Objetivos Específicos ...................................................................................... 25 1.3 METODOLOGIA .............................................................................................. 26 1.3.1 Metodologia da Pesquisa ................................................................................ 26 1.3.2 Procedimentos Metodológicos........................................................................ 26 1.4 ESTRUTURA DA DISSERTAÇÃO ................................................................ 29 2 FUNDAMENTAÇÃO TEÓRICA ...................................................... 31 2.1 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS ............... 31 2.2 MINERAÇÃO DE DADOS .............................................................................. 32 2.2.1 Aprendizagem automática ............................................................................. 32 2.2.2 Clusterização ................................................................................................... 32 2.2.3 Descoberta de Regras de Associação ............................................................. 34 2.2.4 Classificação..................................................................................................... 34 2.2.5 Critérios de Relevância de atributo............................................................... 36 2.2.6 Medidas de Desempenho ................................................................................ 38 2.2.7 Discretização por Frequência ........................................................................ 40 2.3 METODOLOGIAS PARA KDD/DM.............................................................. 41 2.3.1 A metodologia CRISP-DM ............................................................................. 43 2.4 ESCOLHA DAS FERRAMENTAS ................................................................. 46 3 Revisão Sistemática da Literatura ..................................................... 50 3.1 QUESTÕES DE PESQUISA DA REVISÃO SISTEMÁTICA ..................... 50 3.2 FONTES DE DADOS ........................................................................................ 50 3.3 CRITÉRIOS DE SELEÇÃO ............................................................................ 51 3.3.1 Critérios de Inclusão ....................................................................................... 51 3.3.2 Critérios de exclusão ....................................................................................... 51 3.4 STRING DE BUSCA ......................................................................................... 52 3.5 SELEÇÃO DOS ESTUDOS ............................................................................. 53 3.6 ESTUDOS SELECIONADOS .......................................................................... 53 3.7 ANÁLISE DOS TRABALHOS ........................................................................ 54 3.7.1 Genders Differentials in Computer Sciences Education: Analysis and Proposal (ZENG E ZHENG, 2009) ......................................................................... 55 14 3.7.2 Mining LMS data to develop an “early warning system” for educators: A proof of concept (MACFADYEN e DAWSON, 2010) ........................................... 55 3.7.3 Study and analysis of data mining technology in college courses students failed (ZHANG, 2010) .............................................................................................. 57 3.7.4 Subgroup discovery in an e-learning usage study based on Moodle (CARMONA et al., 2011) .......................................................................................... 58 3.7.5 A data mining solution on high failure rate in Physical Science stream at the university entrance examination (SAMARANAYAKE e CALDERA, 2012)59 3.7.6 Discovery and evaluation of student's profiles with machine learning (TRANDAFILI et al., 2012) ...................................................................................... 60 3.7.7 ANALYZING STUDENTS RECORDS TO IDENTIFY PATTERNS OF STUDENTS' PERFORMANCE (HOE et al., 2013) .............................................. 61 3.7.8 Sumarização dos resultados ........................................................................... 62 3.8 CONSIDERAÇÕES .......................................................................................... 63 4 Metodologia Proposta .......................................................................... 66 4.1 ESTRUTURA DA IES ...................................................................................... 66 4.2 CONJUNTO DE DADOS E INFORMAÇÕES UTILIZADAS .................... 69 4.2.1 Central de Pessoas ........................................................................................... 70 4.2.2 Sistema Acadêmico/Financeiro ...................................................................... 70 4.2.3 Diário On-Line ................................................................................................ 72 4.2.4 Controle Docente ............................................................................................. 73 4.2.5 Plano de Ensino ............................................................................................... 73 4.2.6 Sistema da Pergamum .................................................................................... 74 4.2.7 Ambiente Sophia ............................................................................................. 74 4.2.8 Sistema de Avaliação ...................................................................................... 75 4.3 PREPARAÇÃO DOS DADOS ......................................................................... 76 4.3.1 Atributos derivados - Simples ........................................................................ 77 4.3.2 Atributos derivados – com análise................................................................. 77 4.3.3 Atributos não utilizados no conjunto de dados final ................................... 81 4.3.4 Conjuntos de dados ......................................................................................... 82 4.4 MODELAGEM .................................................................................................. 86 4.4.1 Seleção dos algoritmos para conjuntos de dados CDADir e CDAEng. ..... 86 4.4.2 Seleção dos algoritmos para conjunto de dados CDADirEgresso e CDAEngEgresso ........................................................................................................ 88 4.5 PLANO DE AVALIAÇÃO ............................................................................... 89 5 Resultados ............................................................................................. 93 5.1.1 Resultados da análise dos conjuntos de dados CDADir e CDAEng. ......... 93 5.1.2 Resultados da análise dos conjuntos de dados CDADirEgresso e CDAEngEgresso ...................................................................................................... 110 6 Conclusões .......................................................................................... 121 15 6.1 A DEFINIÇÃO DOS GRUPOS DE DESEMPENHO BADA, MDA, BDA. 121 6.2 CARACTERÍSTICAS QUE SE REPETEM NOS GRUPOS DE DESEMPENHO ACADÊMICO ............................................................................ 122 6.3 CRIAÇÃO DE MODELO PARA PREDIZER O GRUPO DE DESEMPENHO DO EGRESSO............................................................................ 125 6.4 PRINCIPAIS CONTRIBUIÇÕES ................................................................. 126 6.5 LIMITAÇÕES DO TRABALHO .................................................................. 127 6.6 TRABALHOS FUTUROS .............................................................................. 128 REFERÊNCIAS ..................................................................................... 129 Apêndice A – Seleção da Ferramenta .................................................. 135 Apêndice B – Algorítmos de Clusterização, Regras de Associação e Classificação do RapidMiner ................................................................ 153 Apêndice C – Definição dos Parâmetros de Algoritmos .................... 155 Apêndice D – Ofício 073/ProEn/2012: Liberação de dados para análise 157 16 1 INTRODUÇÃO Nos últimos anos houve um aumento expressivo no número de Instituições de Ensino Superior (IES) no Brasil, passando de 1.180 no ano 2000 para 2.365 em 2010 (INEP, 2011), números que deveriam ser comemorados pela sociedade, mas de maneira antagônica, vem despertando preocupação pela baixa qualidade do ensino oferecido em muitas dessas instituições. A Ordem dos Advogados do Brasil (OAB), por exemplo, enfatizando sua preocupação, criou um selo de qualidade que é dado a cursos de direito que atendam a alguns critérios (OAB, 2012). Com preocupação semelhante, o Conselho Federal de Medicina (CFM), aponta o número indiscriminado de novos cursos como um dos principais motivos da baixa qualidade de ensino, apresentada pelo Ministério da Educação (MEC) (CRM-MT, 2013). O MEC, preocupado com a regulação e qualidade dos cursos superiores, na mesma linha que a OAB e CFM, por meio da Lei 10.861, criou em 2004 o Sistema Nacional de Avaliação da Educação Superior (SINAES), que através de avaliação sistemática das IES e de seus cursos, provê dados e indicadores de qualidade de diversos aspectos como ensino, pesquisa, extensão, desempenho dos alunos, gestão institucional, corpo docente, infraestrutura, entre outros. (SESU, 2013) Apesar de apenas 12% da população brasileira, entre 35 e 44 anos, terem completado algum curso superior, contra 24% no Chile e 43% nos EUA, houve no Brasil quase 5,44 milhões de matrículas em cursos de graduação presencial, indicando que este percentual tende a ser melhorado. (INEP,2013)(EDITORA MODERNA, 2013) As IES brasileiras, por sua vez, enfrentam o desafio de prover educação de qualidade a alunos que possuem conhecimento de ensino fundamental e médio, abaixo do esperado. Segundo o indicador INAF Brasil, apenas 35% dos alunos do ensino médio são plenamente alfabetizados. (IPM, 2013) Neste contexto, dado o baixo nível com que alunos têm ingressado nos cursos superiores de forma geral, especialmente em alguns cursos e IES, é fundamental que estas IES possam dispor de mecanismos que propiciem o diagnóstico precoce do desempenho discente em determinados áreas do conhecimento. 17 A gestão informatizada da vida acadêmica dos alunos do ensino superior gera para as instituições um volume cada vez maior de dados, que muitas vezes são utilizados apenas em relatórios administrativos. A disponibilização aos gestores de IES, de informações acadêmicas, obtidas a partir destes dados, pode ser considerada um grande desafio. (PASTA, 2011) (TRANDAFILI et al., 2012) (ZHANG, 2010) Dentre as tecnologias com potencial de promover ganhos na área educacional está a Descoberta de Conhecimento em Base de Dados (knowledge-discovery in databases - KDD), que possui em sua principal etapa a mineração de dados (MD), com o objetivo de buscar conhecimentos novos e úteis. (GOLDSCHMIDT; PASSOS, 2005) Em uma revisão da literatura, descrita no Capítulo 3, pôde-se identificar sete artigos que tiveram como objetivo examinar os fatores do ambiente de ensino-aprendizagem que influenciam o desempenho acadêmico discente: Zeng e Zheng (2009); Macfadyen e Dawson (2010); Zhang (2010); Carmona et al. (2011); Samaranayake, e Caldera (2012); Trandafili et al. (2012) e Hoe et al. (2013), destes cinco utilizaram ferramentas de mineração de dados para auxiliar nesta tarefa: Zhang (2010); Carmona et al. (2011); Samaranayake, e Caldera (2012); Trandafili et al. (2012) e Hoe et al. (2013). O termo “ambiente de ensino-aprendizagem” é utilizado como síntese de diversas variáveis que podem ser armazenadas no processo de ensino em uma IES como, por exemplo, alunos, professores, cursos, notas, biblioteca, etc. Dentre os artigos analisados, notou-se uma preocupação com a identificação precoce do risco de reprovação de alunos. Dos sete trabalhos analisados, 42,87% se preocupam mais com os alunos que reprovaram (ZHANG, 2010) (SAMARANAYAKE e CALDERA, 2012) (MACFADYEN e DAWSON, 2010), o que é justificável, pois são esses os alunos que se pretende ajudar. Entretanto, a análise do perfil dos alunos, independente do risco de reprovação, como nos trabalhos de Carmona et al. (2011), Trandafili et al. (2012) e Hoe et al. (2013) podem dar aos pesquisadores e gestores de IES informações importantes, que podem auxiliar na melhora do desempenho acadêmico de todos os alunos, independente se estão em risco de reprovação ou não. Neste sentido, o presente trabalho propõe a aplicação de técnicas de Descoberta de Conhecimento em Base de Dados, incluindo-se técnicas de MD (regras de associação, classificação e regras de associação), para identificar aspectos do ambiente de ensino-aprendizagem que podem influenciar no desempenho acadêmico de estudantes de graduação de uma IES, e comparar como 18 estes fatores variam entre os cursos de Direito e Engenharia Civil. Fatores como: idade do aluno, número de livros locados na biblioteca, formação no ensino médio, forma de estudo, titulação dos professores, carga horária teórica/prática do curso, aluno bolsista, podem ser considerados como relevantes para esta análise. Para esta análise foram utilizados dados do sistema de gestão acadêmica da Universidade do Vale do Itajaí (UNIVALI), uma das noventa e nove IES do estado de Santa Catarina, Brasil. A UNIVALI possuía no ano de 2012 cerca de 25,5 mil alunos distribuídos em diversos níveis de ensino, em seis campi e duas unidades de ensino. 1.1 PROBLEMA DE PESQUISA Durante mais de duas décadas, a IES analisada vem construindo gradativamente sistemas informatizados capazes de armazenar dados de diversas áreas, contemplando, por exemplo, matrícula de alunos, frequência, uso da biblioteca, ambiente de aprendizado à distância, dados financeiros e planos de ensino. Estes dados não são correlacionados em sua totalidade, e passam apenas por análises parciais, como a busca por eficiência na aquisição de livros e melhoria de matrizes curriculares, sempre focadas na solução de problemas específicos identificados pelos gestores de cursos da IES. A literatura técnica, conforme verificado no Capitulo 3, fornece evidências de que estes dados podem esconder informações pedagogicamente relevantes. Como exemplo, a descoberta de características comuns em alunos com bom desempenho acadêmico, o qual pode auxiliar na tomada de decisões que tenham o objetivo de melhorar o desempenho acadêmico de outros alunos. Na mesma linha, conhecer fatores comuns em alunos com baixo desempenho também permite intervenções que tenham como objetivo tentar minimizar ou evitar tais fatores. Este tipo de análise pode ser feita como em Zeng e Zheng (2009), que busca diferenciar qual sexo se sai melhor em determinados assuntos. Podem ser realizadas análises como Samaranayake e Caldera (2012), Zhang (2010) e Macfadyen e Dawson (2010), que se preocupam com alunos de baixo rendimento ou como Carmona et al. (2011), Trandafili et al (2012) e Hoe et al. (2013) e que tem o intuito de entender o que leva um aluno a determinado desempenho acadêmico. Nos artigos citados o nome dado a um conjunto de notas correlatas (altas, baixas ou intermediárias) varia entre os autores. 19 No contexto deste trabalho, com o intuito de classificar os alunos em termos do seu desempenho discente, será utilizado o termo “Grupos de Desempenho Acadêmico” (GDA), que serão descritos como: “Bom Desempenho Acadêmico” (BDA) e “Médio Desempenho Acadêmico” (MDA) e “Baixo Desempenho Acadêmico” (BADA). O GDA citado neste estudo refere-se à média das notas de todas as disciplinas cursadas ao final de sua graduação. Nenhum dos trabalhos descritos no Capítulo 3 considera um número grande de variáveis e a correlação é feita basicamente entre disciplinas, notas e gênero do aluno. Nos trabalhos que analisam ambientes virtuais de aprendizagem (AVA), variáveis sobre a utilização do sistema, como tempo de utilização do AVA e número de exercícios executados são analisadas, mas variáveis importantes como titulação do professor; carga horária teórica; carga horária prática e locação de livros não são consideradas. Dentre os trabalhos analisados não foi verificada nenhuma preocupação em segmentar, dentre as características que podem levar alunos a um GDA, quais são mais acentuadas em uma ou outra área de conhecimento1 (exatas, humanas, saúde, etc). Samaranayake e Caldera (2012) analisam os motivos que levam a reprovação em dois tipos de curso (física e biologia), mas não realizam comparação entre as áreas. A análise destes trabalhos trouxe também a percepção de que existe uma lacuna em estudos que analisam dados na busca de padrões que levam alunos a obter um bom desempenho acadêmico ou não. Parte desta lacuna é composta pelo baixo número de variáveis encontradas nos estudos e a falta de correlação entre elas. A inclusão de outras variáveis também permite uma investigação do potencial destes dados para o desenvolvimento de um sistema de alerta precoce sobre o desempenho acadêmico do aluno, semelhante ao trabalho de Macfadyen e Dawson (2010), porém focado em cursos presenciais. Descritas estas lacunas, este trabalho pretende obter respostas às seguintes perguntas de pesquisa: 1 As nomenclaturas de área de conhecimento utilizadas neste trabalho estão de acordo com os referenciais nacionais dos cursos de graduação, definidos pelo MEC para ingressantes a partir de 2010. (MEC, 2010) 20 P1: Quais são os aspectos do ambiente de ensino-aprendizagem que levam alunos da IES analisada a concluírem o curso em um determinado GDA? P2: Os fatores do ambiente de ensino-aprendizagem que podem levar um aluno de Direito a concluir o curso em um determinado GDA são os mesmos de um aluno de Engenharia Civil? P3: Com os dados disponíveis para análise pela IES, é possível criar um modelo que permita predizer o GDA que um aluno estará inserido ao final do curso analisando apenas os semestres iniciais? Os cursos de Direito e Engenharia Civil foram escolhidos para fazer parte deste estudo pois são os dois maiores cursos (em número de alunos) da IES. 1.1.1 Solução Proposta Em razão do volume de dados armazenados pela IES, da não utilização destes em busca de correlações e do potencial pedagógico descrito na literatura, propõe-se aplicar técnicas de MD, como clusterização, regras de associação e classificação, para analisar o desempenho acadêmico e, de posse destas análises, validar se é possível utilizar algoritmos de classificação para identificar alunos que se direcionam a um determinado GDA. Para responder as perguntas de pesquisa P1 a P3, apresentadas na seção anterior, pretende-se analisar os dados do processo de ensino-aprendizagem que a IES armazena. No contexto deste trabalho, “ambiente de ensino-aprendizagem” resume as informações de alunos, professores, matriz curricular do curso, dados financeiros, dados de utilização de biblioteca e dados da Avaliação Institucional. Estes dados são apresentados de forma esquemática na Figura 1 e descritos em mais detalhes na delimitação de escopo, apresentada na Seção 1.1.2. Para analisar a pergunta P1, dados de alunos que concluíram os cursos de Direito e Engenharia Civil serão extraídos dos sistemas da IES e validados pelos responsáveis dos sistemas para garantir que continuam válidos e íntegros. Estes dados serão analisados utilizando técnicas de MD (clusterização, regras de associação e classificação), assim como fizeram Samaranayake e Caldera (2012) e Carmona et al. (2011). O conjunto de dados e informações a serem utilizados no processo de MD e seus respectivos bancos de dados estão apresentados na Figura 1. 21 A investigação da pergunta P2 é feita, reaplicando as técnicas da pergunta P1, em dois subconjuntos de dados que podem ser descritos como “alunos de direito” e “alunos de engenharia civil”, estas serão comparadas juntamente com suas respectivas medidas de desempenho. Para responder a pergunta P3, os dados serão segmentados em dois grupos “Dados de Treinamento” e “Dados Testes”, como é praxe em MD. Os dados de treinamento serão utilizados para descobrir regras do tipo “alunos que locaram X livros do tipo Y e acessaram o AVA Z vezes estão no GDA Z”. Os dados de testes serão utilizados para gerar a confiança com que essa regra pode ser considerada, agregando a ela uma informação do tipo “com N% de confiança”. (FAYYAD et al., 2008) (GOLDSCHMIDT; PASSOS, 2005) Figura 1. Dados disponíveis para o processo de KDD. Dados disponibilizados pela IES para processo de mineração. Bolsas/Financiamentos Dados Aluno Dados Biblioteca Dados Docente Aplicação de Técnicas de MD Dados Curso Acessos AVA Frequência / Notas Avaliação Institucional Descoberta de Informações relacionadas ao processo de ensino-aprendizagem. Para guiar os estudos, estão definidas duas hipóteses a serem validadas. H1: Os fatores do ambiente de ensino-aprendizagem que levam um aluno de Direito a concluir o curso em determinado GDA não são os mesmos que levam um aluno de Engenharia Civil a figurar no mesmo GDA. H2: É possível identificar o GDA de um aluno ao final de seu curso, com acurácia maior que 50%, baseado na análise dos quatro primeiros semestres do curso. 22 As hipóteses serão validadas com as respostas investigadas em P1, P2 e P3. 1.1.2 Delimitação de Escopo Neste trabalho pretende-se utilizar dados de alunos egressos dos cursos de Direito e do curso de Engenharia Civil. Os cursos foram selecionados por serem de diferentes áreas de avaliação do MEC/INEP e por serem cursos com maior número de egressos em suas áreas para os anos de 2013 e 2014, considerando a IES foco deste estudo. Serão analisados dados de alunos de Direito e Engenharia Civil matriculados apenas no campus de Itajaí, não sendo realizada a análise de alunos matriculados nos outros campi. Serão considerados todos os turnos do curso de Direito (Matutino e Noturno) e também todos os turnos do curso de Engenharia Civil (Integral, Diurno e Vespertino/Noturno). A Tabela 1 apresenta um resumo da população conforme descrito: Tabela 1. Resumo da população. Curso Direito Engenharia Civil Nro. Egressos até 17/06/2014 5410 454 Formados entre 2009 e 2014 1293 285 As variáveis a serem analisadas, detalhando o que foi apresentado na Seção 1.1.1, serão: Aluno: idade; sexo; portador de necessidades especiais; procedente de escola pública ou privada; se o curso em questão é uma segunda graduação; frequência do aluno; notas dos alunos em disciplinas teóricas; notas dos alunos em disciplinas práticas; quantidade de reprovações; número de acessos ao ambiente virtual de aprendizagem (AVA); índice de carência do aluno; se o aluno foi inadimplente (houve negociação financeira para parcelamento de débitos ao final de algum semestre) Docente: número de professores doutores no curso; número de professores mestre no curso; número de professores especialistas no curso; número de professores graduados no curso; número de professores com dedicação integral na instituição; 23 número de professores com dedicação parcial na instituição; número de professores horistas (carga horária menor que 12 horas aula) na instituição e no curso; Curso: carga horária teórica do curso; carga horária prática do curso; Bolsas/Financiamentos: se o aluno é ou não bolsista; se o aluno possui ou não financiamento estudantil Biblioteca: quantidade de livros técnicos locados; quantidade de livros não técnicos locados; Avaliação Institucional: satisfação do aluno com professores na avaliação institucional; satisfação de alunos com infraestrutura da IES na avaliação institucional; domínio de língua estrangeira; como o aluno avalia o nível de importância das disciplinas; como o aluno avalia o nível de exigência das disciplinas; como o aluno avalia o nível de exigência das disciplinas; como o aluno avalia os docentes com relação à articulação teoria e prática; como o aluno avalia os docentes com relação à utilização do plano de ensino. O banco de dados da IES não contempla informações importantes como número de horas de estudo extraclasse, trabalhos voluntários na área do curso, suporte de especialistas nos estudos, conhecimento de idiomas, quociente de inteligência do aluno, informações referentes à qualidade do ensino básico, dentre outras. Por isso, estes aspectos não serão considerados na análise. A decisão de fomentar ou não os padrões identificados neste estudo caberá aos gestores de curso que venham a se interessar pelo resultado deste trabalho. Incentivar alunos a seguirem caminhos cuja pesquisa indicou que podem ser promissores não faz parte do escopo deste estudo. Faz parte do escopo deste trabalho validar se o conjunto de dados disponíveis, descritos em detalhes na Seção 4.2, tem potencial de fornecer as informações necessárias para viabilizar a identificação precoce do GDA que o aluno se direcionará ao final da graduação, alinhado ao Objetivo Específico 4 (Seção 1.2.2 ). Não faz parte do escopo deste trabalho construir o sistema computacional que reúna estes dados e indique à IES de forma automática o grupo de desempenho acadêmico a que o aluno tende a se posicionar. 24 1.1.3 Justificativa A descoberta de conhecimento focada na área educacional é atualmente objeto de estudos em diversos trabalhos, como apresentado no Capítulo 3, tendo inclusive repositórios de armazenamento e análise de dados educacionais, como o DataShop2 criado pelo Centro de Ciências da Aprendizagem de Pittsburgh (PSLC – Pittsburgh Science of Learning Center) que armazena e disponibiliza gratuitamente dados de grandes aplicativos de educação à distância, como o Cognitive Tutor3 e Math Tutor4. (BAKER; ISOTANI; CARVALHO, 2011) Dada à importância dessa aplicação de MD, Baker, Isotani e Carvalho (2011) a apresentam como uma área de pesquisa, que vem sendo chamada de “Mineração de Dados Educacionais” (do inglês, “Educational Data Mining”, ou EDM), cuja comunidade cresce rapidamente no mundo, e em ritmo um pouco mais lento no Brasil. Este estudo justifica-se ao agregar conhecimento à comunidade científica nos seguintes pontos: - Fornecer informações sobre o ambiente de ensino-aprendizagem, que ainda não foram analisadas. - Investigar padrões do ambiente de ensino-aprendizagem que levam o aluno a concluir o curso em um determinado GDA utilizando uma população de estudantes ainda não avaliada ou pelo menos não localizada na revisão sistemática do Capítulo 3. - Apresentar padrões que levam estudantes do curso de Direito a figurar em determinado GDA, contrapostos a estudantes do curso de Engenharia Civil. - Fornecer um modelo de regras de comportamento, baseado na identificação de perfis de desempenho acadêmico, que pode ser utilizado por gestores de curso para identificar precocemente alunos que possam terminar o curso com BADA. 2 Disponível em: <https://pslcdatashop.web.cmu.edu>. Acesso em: 20/02/2013. Disponível em: <http://www.carnegielearning.com>. Acesso em 20/02/2013. 4 Disponível em: <http:// mathtutor.web.cmu.edu>. Acesso em 20/02/2013. 3 25 A identificação precoce do GDA a que o aluno se direciona durante sua graduação pode viabilizar a construção de um sistema de alerta que permita aos docentes, ou eventualmente coordenadores, auxiliar alunos que estiverem caminhando para um BADA e potencializar aqueles que possuem indicativos de que irão figurar no grupo de BDA. Um sistema de alerta precoce como este foi descrito por Macfadyen e Dawson (2010) com acurácia de até 70%. Entretanto, cabe destacar que Macfadyen e Dawson utilizaram apenas dados de AVA e com foco específico na educação à distância. 1.2 OBJETIVOS Esta seção formaliza os objetivos do trabalho, conforme descrito a seguir. 1.2.1 Objetivo Geral Identificar os principais fatores do ambiente de ensino-aprendizagem, utilizando-se descoberta de conhecimento em base de dados, que levam alunos da população analisada a concluir o curso em um determinado grupo de desempenho acadêmico, comparando eventuais diferenças entre alunos dos cursos de Direito e Engenharia Civil. 1.2.2 Objetivos Específicos OE1: Definir três grupos de desempenho acadêmico, classificando alunos em três grupos de desempenho acadêmico: Bom Desempenho Acadêmico; Médio Desempenho Acadêmico; Baixo Desempenho Acadêmico. OE2: Identificar as características do ambiente de ensino-aprendizagem que ocorrem com maior frequência em cada grupo de desempenho acadêmico, documentando eventuais diferenças entre os cursos de Direito e Engenharia Civil. OE3: Desenvolver modelo de predição do Grupo de Desempenho Acadêmico, baseado na análise dos semestres iniciais, utilizando técnicas de mineração de dados. OE4: Validar a eficiência do modelo de predição do grupo de desempenho acadêmico dos alunos através de acurácia e estatística Kappa da classificação. 26 1.3 METODOLOGIA Nesta seção é apresentada a metodologia de pesquisa e os procedimentos metodológicos que são utilizados neste trabalho 1.3.1 Metodologia da Pesquisa O presente trabalho utiliza o método hipotético-dedutivo, ao qual se oferecem hipóteses de solução provisória, passando-se depois a critica-las, com vistas à eliminação de erro (LAKATOS e MARCONI, 2011). Também pode ser classificado como de natureza aplicada, pois visa investigar dados a fim de validar as hipóteses apresentadas no tópico Solução Proposta. Com relação à abordagem do problema, a pesquisa pode ser classificada como quantitativa, buscando relações numéricas entre os dados estudados de forma a embasar descobertas. Pode também receber a classificação de qualitativa, segundo Maanen (1979) apud Neves (1996) pois visa descrever e decodificar os componentes de um sistema complexo, neste caso, uma base de dados. Quanto aos objetivos, possui ainda características exploratórias tentando proporcionar maior familiaridade com as características da base de dados. 1.3.2 Procedimentos Metodológicos Esta seção descreve os procedimentos metodológicos que serão utilizados para alcançar os objetivos almejados neste trabalho. 1.3.2.1 Suporte teórico Com o objetivo de prover conhecimento e suporte teórico realiza-se uma revisão sistemática descrita em detalhes no Capitulo 3, a qual segue um mapeamento realizado a partir de um protocolo de busca, e teve como objetivo encontrar na literatura artigos correlatos ao assunto deste trabalho. Realizam-se diversas outras pesquisas bibliográficas, estas de caráter exploratório, com o objetivo de encontrar referenciais atualizados para conceitos referenciados neste trabalho. 27 Apresenta-se um estudo de ferramentas de MD existentes, e uma análise de aderência ao contexto deste estudo, esta pode ser encontrada na Sessão 2.4. Com este estudo procurou-se mitigar eventual viés na escolha das ferramentas que são utilizadas no processo de KDD. Utiliza-se metodologia CRISP-DM, que fornece uma formalização das etapas necessária ao processo de KDD/MD, a qual foi selecionada através de estudo de Mariscal, Marbán e Fernández (2010), além de pesquisa bibliográfica, conforme descrito na Sessão 2.3. Para compreensão do ambiente de negócio utilizou-se entrevistas informais com especialistas da Vice-Reitoria de Graduação, buscando informações de quais dados são utilizados para análise e quais poderiam ser utilizados. Realizou-se também entrevistas com especialistas da gerência de Tecnologia da Informação buscando entender quais os dados estariam disponíveis para análise e o período em que estes dados começaram a ser armazenados. 1.3.2.2 Experimentos Utiliza-se pesquisa experimental no processo de preparação dos dados através de estatística descritiva e aplicação de algoritmos de MD, com o objetivo de maximizar a qualidade dos dados em direção à fornecer respostas às perguntas de pesquisa e testes das hipóteses apresentadas. A obtenção do maior número de informações acerca dos dados pode fornecer as primeiras descobertas além de fornecer indicativos sobre o impacto deste conhecimento no projeto. (CHAPMAN, 2000) Para associar as notas mais baixas ao grupo BADA, as notas intermediárias ao grupo MDA e as melhores notas ao grupo BDA, utilizou-se discretização por frequência para obter-se três grupos de notas, em intervalos crescentes, com a mesma quantidade de registros, ou a quantidade de registros mais equilibrada possível. (CARVALHO, 2010) (DOUGHERTY; KOHAVI; SAHAMI, 1995) Foram aplicados algoritmos de clusterização e classificação com regras de associação na busca por eventuais padrões que possam existir para cada GDA, sendo a clusterização utilizada para correlacionar dados de forma exploratória, e as regras de associação utilizadas para prover respostas às perguntas de pesquisa P1 e P2 e validar a hipótese H1. Os dados do primeiro, segundo, terceiro e quarto semestres foram divididos em dois grupos, um com 80% dos registros e outro com 20% dos registros. A partir dos 80% dos dados referente aos 28 semestres citados, serão gerados modelos de classificação com o intuito de identificar, a partir destes, quais alunos figurarão em determinado GDA ao final de seu curso. Este modelo é aplicado aos 20% dos dados restantes e a acurácia e estatística kappa dos resultados é utilizada para responder a pergunta de pesquisa P3 e validar a hipótese H2. 1.3.2.3 Avaliação de Resultados A metodologia de avaliação é descrita em detalhes e representada em diagramas que estão disponíveis na Seção 4.2.8 os próximos parágrafos apresentam uma descrição resumida destes procedimentos. Utilizou-se para avaliação de resultados do processo de MD as métricas Acurácia, Suporte, Confiança e Kappa, comuns nos trabalhos correlatos apresentados no Capítulo 3 e também em outros trabalhos de mineração de dados disponíveis na literatura. (GWET, 2014) (POWERS, 2012) (ESFANDIARI et al., 2014) Para avaliação da pergunta de pesquisa “P1: Quais são os aspectos do ambiente de ensinoaprendizagem que levam alunos da IES analisada a concluírem o curso em um determinado GDA?” utilizou-se clusterização e regras de associação. Para avaliação da pergunta de pesquisa “P2: Os fatores do ambiente de ensino-aprendizagem que podem levar um aluno de Direito a concluir o curso em um determinado GDA são os mesmos de um aluno de Engenharia Civil?” utilizou-se as regras de associação resultantes da MD sobre os dados dos cursos de Direito e de Engenharia Civil. Serão comparados o suporte e acurácia das mesmas com o objetivo de descobrir quais as que melhor se aplicam a cada curso. Para avaliação da pergunta de pesquisa “P3: Com os dados disponíveis para análise pela IES, é possível criar um modelo que permita predizer o GDA que um aluno estará inserido ao final do curso analisando apenas os semestres iniciais?”; os dados serão divididos em dois blocos. O primeiro composto por dados que serão utilizados para treinamento de um modelo de classificação. Sobre o segundo conjunto de dados, será aplicado o modelo de classificação. Os resultados da acurácia e da estatística kappa foram utilizados para responder P3. 29 1.4 ESTRUTURA DA DISSERTAÇÃO Este estudo apresenta-se organizado em seis capítulos correlacionados e três apêndices, esta seção apresenta um resumo do que será encontrado em cada capítulo deste trabalho. O Capítulo 1, Introdução, apresentou o contexto e o tema proposto neste trabalho. Da mesma forma foram estabelecidos os resultados esperados por meio da definição de seus objetivos e apresentadas as limitações do trabalho permitindo uma visão clara do escopo proposto. O Capítulo 2 apresenta a fundamentação teórica do KDD (MD; aprendizagem automática, clusterização; classificação e regras de associação; matriz de confusão e medidas de desempenho; cross-validation) descrita na literatura. Apresenta-se uma introdução sobre Educational Data Mining (EDM) e uma explanação sobre os dados gerenciados pela IES no processo de ensinoaprendizagem. Por fim é apresentada a diversidade de ferramentas computacionas disponíveis, e justificada a seleção da que será utilizada no presente trabalho. O Capítulo 3 apresenta uma revisão da sistemática da literatura realizada com o objetivo de apresentar trabalhos que analisam dados educacionais para compreender fatores que influenciam no foco no desempenho acadêmico discente. O Capítulo 4 apresenta o desenvolvimento deste trabalho detalhando as bases de dados analisadas, a preparação dos dados, a definição do conjunto de dados que foram analisados, a seleção de algoritmos aplicáveis aos conjuntos de dados, além do plano de avalição que foi utilizado neste trabalho. O Capítulo 5 sintetiza os resultados obtidos das análises realizadas, enfatizando aquelas que obtiveram os melhores resultados na busca de resposta pelas questões, hipóteses e objetivos apresentados no Capítulo 1. No Capítulo 6 são tecidas as conclusões do trabalho, relacionando os objetivos identificados inicialmente com os resultados alcançados. São ainda propostas possibilidades de continuação da pesquisa desenvolvida a partir das experiências adquiridas com a execução do trabalho. O Apêndice A apresenta o estudo realizado para justificar a seleção da ferramenta de mineração de dados, um resumo deste estudo é descrito na Seção 2.4. 30 O Apêndice B apresenta os algoritmos disponíveis para mineração de dados na ferramenta RapidMiner, com as características de dados que podem ser manipulados por cada um, bem como o tipo de saída gerada (árvore de decisão, regras de associação, modelo linear, rede neural, etc). O Apêndice C apresenta um exemplo de configuração dos parâmetros do algoritmo focando nos melhores resultados em termos de acurácia do modelo gerado. O Apêndice D apresenta o ofício da IES que formaliza a liberação dos dados que foram analisados. 31 2 FUNDAMENTAÇÃO TEÓRICA Este capítulo apresenta conceitos necessários à compreensão do desenvolvimento do trabalho, detalhado no Capítulo 4. 2.1 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS A redução dos custos de armazenamento de dados ao longo da história da tecnologia da informação tem, cada vez mais, impulsionado a proliferação de bases de dados, tornando a análise e compreensão destes, um desafio cada vez maior. A necessidade de transpor estes desafios leva ao desenvolvimento de técnicas e tecnologias que podem ser utilizada para facilitar a descoberta de conhecimento (Knowledge Discovery) a partir de bases de dados (Database). A Figura 2 ilustra a hierarquia entre dados, informações e conhecimento, apresentada por Goldschmidt e Passos (2005). Figura 2. Hierarquia entre dados, informações e conhecimento. Fonte: Adaptado de Goldschmidt e Passos (2005). O termo Knowledge Discovey in Database (KDD), foi formalizado em 1989 em referência ao amplo conceito de procurar conhecimento a partir de base de dados, e foi utilizado especialmente por pesquisadores de aprendizagem automática e inteligência artificial. Profissionais da estatística e demais analistas de dados utilizavam neste período o termo mineração de dados (MD) para referenciar a extração de conhecimento a partir de bases de dados. (FAYYAD et al, 1996) 32 Nos dias atuais os termos KDD e MD muitas vezes são referenciados como sinônimos. É comum encontrar autores que referenciam trabalhos que utilizam aprendizagem automática e inteligência artificial, utilizando MD para descrever seus trabalhos. Pode-se citar Witten, Frank e Hall (2011), Samaranayake e Caldera (2012), Backer et al. (2011) Este trabalho, assim como Goldschmidt e Passos (2005) e Fayyad et al. (1996), utiliza o termo KDD como todo o processo de descoberta de conhecimento, que engloba, além da aplicação da técnica de preparação e mineração de dados, a identificação do problema através da interação com especialistas no domínio da aplicação para o entendimento do contexto onde os dados estão inseridos, a definição dos objetivos da aplicação de KDD e a escolha das ferramentas computacionais utilizadas. O termo MD é referenciado como etapa deste processo. 2.2 MINERAÇÃO DE DADOS Goldschmidt e Passos (2005) descrevem como a etapa do KDD que efetivamente busca conhecimentos. Witten, Frank e Hall (2011) descreve ainda o MD como o processo de descoberta de padrões nos dados, sendo este automático ou semiautomático. No escopo deste trabalho o termo MD é utilizado para descrever o processo que utiliza algoritmos de aprendizagem automática (machine learning) para que estes possam apresentar conhecimento, minimizando o trabalho do analista de dados. 2.2.1 Aprendizagem automática O conceito de aprendizagem envolve uma discussão filosófica sobre “o que é aprender”. No escopo de KDD a aprendizagem automática deixa de lado esta discussão e direciona-se a termos práticos, podendo ser descrita como técnicas para descrever padrões estruturais em dados objetivando realizar predições a partir destes padrões. (WITTEN; FRANK; HALL, 2011) (FAYYAD et al, 1996) 2.2.2 Clusterização A clusterização é uma tarefa da MD que tem como objetivo segmentar os dados em um conjunto finito de clusters (grupos), os dados agrupados em cada cluster possuem características comuns que os distinguem dos outros clusters. A associação de um determinado cluster a um rótulo 33 deve ser feita pelo analista de dados, os algoritmos apenas agrupam os dados, não os classificando. (WITTEN; FRANK; HALL, 2011) (FAYYAD et al, 1996)( GOLDSCHMIDT; PASSOS, 2005) A Figura 3 apresenta um exemplo de dados segmentados em clusters. Os quadrados representam um cluster, os losangos outro, e os círculos um terceiro cluster. Figura 3. Exemplo de Clusters. Fonte: Adaptado de Witten, Frank e Hall (2011) 34 2.2.3 Descoberta de Regras de Associação A descoberta de associação tem como objetivo apresentar itens que frequentemente ocorrem de forma simultânea, sendo usualmente descrita em forma de regras com premissas e conclusões, do tipo “se X e Y então Z”. Diferentes regras de associação referem-se a diferentes aspectos dos dados normalmente com conclusões distintas. (WITTEN; FRANK; HALL, 2011) (FAYYAD et al, 1996)( GOLDSCHMIDT; PASSOS, 2005) A cada regra, associam-se duas medidas chamadas suporte e confiança. Suporte refere-se ao percentual de registros que esta regra se aplica, um suporte próximo a um indica que a regra se aplica a quase todos os registros, um suporte próximo a zero indica que a regra se aplica a poucos registros. Confiança indica, dentre os registros que ela se aplica, o percentual que ela efetivamente acerta. (WITTEN; FRANK; HALL, 2011) 2.2.4 Classificação Na classificação é feita uma análise de padrões que ocorrem com o objetivo de inserir um rótulo a cada registro do conjunto de dados analisado. O atributo que se deseja classificar deve ser informado ao algoritmo de classificação. (WITTEN; FRANK; HALL, 2011) (FAYYAD et al, 1996) A classificação deste rótulo é feita seguindo um conjunto de regras que são geradas pelos algoritmos de aprendizagem automática. Este conjunto de regras é chamado de “modelo de classificação”. A eficiência do modelo pode ser testada aplicando-os a um conjunto de dados relacionados àqueles que deram origem ao modelo. 2.2.4.1 Matriz de Confusão A classificação gera um modelo que é utilizado para definir valor de um rótulo de um determinado conjunto de dados (dentro de um mesmo contexto em que foi gerado o modelo de classificação). A aplicação deste modelo a dados pode ter o desempenho mensurado analisando o quanto ele acerta quando aplicado a dados cujos rótulos já são conhecidos. O resultado dos erros e acertos dessa classificação é muitas vezes representado em uma matriz de confusão, a qual é ilustrada na Tabela 2.(WITTEN; FRANK; HALL, 2011) 35 Tabela 2. Matriz de confusão. COMO O RÓTULO FOI CLASSIFICADO COMO O RÓTULO DEVERIA SER CLASSIFICADO X Y X Verdadeiro Positivo (VP) Falso Negativo (FN) Y Falso Positivo (FP) Verdadeiro Negativo (VN) Fonte: Adaptado de Witten, Frank e Hall (2011) A matriz de confusão da Tabela 2 as linhas representam o total de registros que efetivamente tem o rótulo X ou Y. As colunas representam o total de registros que o modelo classificaria como X ou Y. A diagonal principal da matriz indica os acertos do modelo (deveria ser classificado como X e realmente foi classificado como X), as outras células representam falhas na classificação. Bons resultados da classificação ocorrem quando os maiores valores estão na diagonal princial e os menores fora dela. O ideal é que fora da diagonal principal existissem apenas valores zero. (WITTEN; FRANK; HALL, 2011) O total de registros analisados (TA) pode ser definido a partir da matriz de confusão, pela soma de VP, VN, FP e FN, conforme (1). 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑅𝑒𝑔𝑖𝑠𝑡𝑟𝑜𝑠 𝐴𝑛𝑎𝑙𝑖𝑠𝑎𝑑𝑜𝑠 = VP + VN + FP + FN (1) A taxa e verdadeiros positivos (VP) é obtida dividindo-se o total de registros classificados corretamente, pelo total de registros analisados, conforme (2). (WITTEN; FRANK; HALL, 2011) 𝑇𝑎𝑥𝑎 𝑑𝑒 𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜 = VP TA (2) 36 A taxa e verdadeiros negativos (VN) são obtidos dividindo-se o total de registros classificados corretamente, pelo total de registros analisados, conforme (3). (WITTEN; FRANK; HALL, 2011) 𝑇𝑎𝑥𝑎 𝑑𝑒 𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜 = VN TA (3) 2.2.5 Critérios de Relevância de atributo Os algoritmos de mineração de dados utilizados na Sessão 4.4 utilizam critérios de relevância para definir quais atributos tem maior peso sobre o rótulo a ser analisado. As regras de associação e árvores de decisão são geradas utilizando este critério. Um mesmo algoritmo pode utilizar um ou mais critérios, neste trabalho são utilizados como critérios: Acurácia; Coeficiente de Gini; Ganho de Informação; Taxa de Ganho de Informação; Qui-Quadrado. 2.2.5.1 Acurácia O critério de acurácia (accuracy) também chamado de confiança ou taxa de sucesso, indica o percentual de registros que foram classificados corretamente utilizando os valores do atributo em análise. Pode ser calculado dividindo o total de registros classificados corretamente pelo total de registros analisados, conforme (4). (WITTEN; FRANK; HALL, 2011) 𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = VP + VN TA (4) 2.2.5.2 Coeficiente de Gini O Coeficiente de Gini (Gini index) foi desenvolvido em 1912 por Conrrado Gini para calcular a desigualdade na distribuição de renda de populações, entretanto pode ser utilizado com análise de desigualdade de qualquer distribuição. O coeficiente Gini é representado por um número entre zero e um, no qual zero corresponde a total igualdade de distribuição dos valores do atributo 37 analisado em relação ao rótulo a ser classificado. O valor 1 para o coeficiente Gini indica uma total desigualdade. (CERIANI; VERME, 2012) A seleção deste critério nos algoritmos da Sessão 4.4 faz com que atributos que tenham maior equilíbrio entre os valores do rótulo a ser classificado tenham maior peso. 2.2.5.3 Ganho de Informação O ganho de informação (information gain) é um critério de relevância baseado na entropia (ou valor) de um atributo. Esta entropia é medida em bits, e indica o quão heterogêneo são os resultados do rótulo a ser classificado em função dos valores de um atributo. Como exemplo, dado um atributo ATR, que quando possui o valor V1, os rótulos tenham sempre valor VERDADEIRO, então a entropia = ZERO bits. Se para o mesmo atributo, quando possuir um valor V2 existirem 50% de rótulos classificados como VERDADEIRO e 50% de rótulos classificados como FALSO, então a entropia atinge seu valor máximo, que varia de acordo com a quantidade de registros em análise. O ganho de informação do atributo é o percentual de registros classificados por cada um dos valores do atributo ATR, ponderado pela sua entropia. (WITTEN; FRANK; HALL, 2011) 2.2.5.4 Taxa de Ganho de Informação A taxa de ganho de informação (information gain ratio) é uma derivação do ganho de informação, com o objetivo de elimitar viés de ganho para atributos com uma entropia muito grande mas sem ganho semântico. Um atributo de identificação de registros ID, por exemplo teria um valor para cada registro, mas a informação não tem semântica alguma. Assim, o ganho de informação é ponderado, levando em consideração o tamanho e o ganho de informação de outros atributos. 2.2.5.5 Qui-Quadrado A estatística Qui-Quadrado (Chi-Squared), introduzido por Karl Pearson em 1900, possibilita o teste de verificação de hipótese para duas proporções da mesma população. Dada a observação de duas variáveis, por exemplo, o teste indica se existe relação entre as variáveis, ou seja se a hipóte é ou não verdadeira. (LEVINE et al., 2013) (PLACKETT, 1983) Dada a observação da Tabela 3, a estatística Qui-Quadrado é dada por (5). 38 Tabela 3. Modelo de uma tabela de observação para análise de hipótese. ITENS OBSERVADOS GRUPO1 GRUPO2 Total Itens de Interesse X1 X2 X Itens que não são de interesse n1 – X1 n2 – X2 n-X Totais n1 n2 n Fonte: Adaptado de Levine et al. (2013) ∞ 2 𝑋 𝑒𝑠𝑡𝑎𝑡 = ∑ (𝑓𝑜 − 𝑓𝑒)2 𝑓𝑒 𝑡𝑜𝑑𝑎𝑠 𝑎𝑠 𝑐é𝑙𝑢𝑙𝑎𝑠 Onde: fo = frequência observada em uma determinada célula da Tabela 3. fe = frequência esperada em uma determinada célula da Tabela 3. (5) 2.2.6 Medidas de Desempenho 2.2.6.1 Acurácia A acurácia do modelo (também chamada de confiança ou taxa de sucesso) indica o percentual de registros que foram classificados corretamente e pode ser calculada dividindo o total de registros classificados corretamente pelo total de registros analisados, conforme equação (4). (WITTEN; FRANK; HALL, 2011) 39 2.2.6.2 Estatística Kappa A estatística Kappa, introduzida por Cohen (1960 apud Powers 2012) tem como objetivo mensurar o percentual de concordância entre dois observadores sobre um determinado assunto (o diagnóstico de uma doença, por exemplo) e mensurar se a concordância entre os dois observadores que é superior à classificação ao acaso. (POWERS, 2012)(GWET, 2012) No contexto de de um algoritmo de classificação, para mensurar a eficiência em relação aos reais valores que os dados apresentam, pode-se relacionar um observador ao valor real dos dados, e o outro ao valor definido pelo modelo de classificação. A concordância entre os observadores é dada pela acurácia, apresentada na equação (4), e chamada por Cohen (1960 apud Gwet 2012) como percentual de concordância. O valor máximo do Kappa é 100% e o valor esperado de uma classificação aleatória é 0. Existem na literatura autores críticos deste indicador, defendendo que ele subestima a eficiência do classificador. O ponto central dos autores críticos vem justamente da comparação do classificador contra um modelo “ao acaso”, termo subjetivo que pode gerar discussão. (WITTEN; FRANK; HALL, 2011) (GWET, 2012) (POWERS, 2012) A equação (6) indica o cálculo utilizado por Cohen para estimar a probabilidade de uma classificação aleatória. Na equação (7) o calculo da estatística Kappa. (GWET, 2012) ClassificaçãoAleatoria = (𝑉𝑃 + 𝐹𝑁) (𝑉𝑃 + 𝐹𝑃) (𝐹𝑃 + 𝑉𝑁) (FN + VN) . + . TA TA TA TA (6) 𝐾𝑎𝑝𝑝𝑎 = Acurácia − ClassificaçãoAleatoria 1 − ClassificaçãoAleatoria (7) Landis e Koch (1977) propuseram uma tabela de nível de aceitação para a estatística Kappa, conforme ilustrado na Tabela 4. 40 Tabela 4. Níveis e aceitação da estatística Kappa Estatística Kappa < 0,00 0,00 – 0,20 0,21 – 0,40 0,41 – 0,60 0,61 – 0,80 0,81 – 1,00 Fonte: Adaptado de Landis e Koch (1977). Nível de Aceitação Pobre Pequeno Justo Moderado Substancial Quase perfeito 2.2.7 Discretização por Frequência Em virtude de restrições para utilização de muitos algoritmos de mineração de dados, eventualmente é necessário transformar atributos de um tipo de dado em outro. A discretização por frequência permite transformar um atributo contínuo em um atributo discreto com limitadas faixas de valores, mantendo entre essas faixas a maior simetria possível. Idealmente cada faixa discretizada conteria a mesma quantidade de registros contínuos, contudo, sabendo que esta discretização muitas vezes não é possível, a discretização por frequência busca o maior equilíbrio possível entre o número de registros representados por cada faixa. (DOUGHERTY; KOHAVI; SAHAMI, 1995) (CARVALHO, 2010) A Tabela 5 apresenta dez avaliações hipotéticas, com notas propositalmente segmentadas para apresentar como a discretização por frequência funciona. Tabela 5. Exemplo de discretização por frequência, atributo Nota em 3 grupos. Avaliação Nota Nota Discretizada 1 6 range1 [-∞ - 6.500] 2 6 range1 [-∞ - 6.500] 3 6 range1 [-∞ - 6.500] 4 6 range1 [-∞ - 6.500] 5 6 range1 [-∞ - 6.500] 6 7 range2 [6.500 - 7.500] 7 7 range2 [6.500 - 7.500] 8 8 range3 [7.500 - ∞] 9 8 range3 [7.500 - ∞] 10 8 range3 [7.500 - ∞] Fonte: Saída do operador “Discretize by Frequency” da ferramenta RapidMiner, dados fictícios. É possível notar que, dentre os valores inteiros informados na coluna Nota, da Tabela 5, a discretização por frequência, configurada para gerar três grupos, classificou cinco elementos no grupo “range1”, dois elementos no grupo “range2” e três elementos no grupo “range3”. 41 2.3 METODOLOGIAS PARA KDD/DM A revisão literária apresentada do Capítulo 3 forneceu indícios de que é comum encontrar trabalhos de KDD que não deixam explícita a metodologia que foi utilizada. Zeng e Zheng (2009), Zhanz (2010), Samaranayake e Caldera (2012) são exemplos de trabalhos que não deixam explícita a metodologia utilizada. Apesar disso, a necessidade de utilização de uma metodologia leva autores como Mariscal, Marbán e Fernández (2010) realizarem pesquisas com o intuito de descrever os principais processos e metodologias são utilizadas para o processo de MD e KDD. Marbán e Fernández (2010) apresentam uma visão geral destas e um histórico de sua evolução, apresentadas na Figura 4. Figura 4. Evolução de metodologias e modelos de processos de mineração de dados. KDD Process 1993 (FAYYAD et al., 1996) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996) Human-Centered 1996 (BRACHMAN; ANAND, 1996) (GERTOSIO; DUSSAUCHOY, 2004) SEMMA 1996 (SAS Institure, 2014) Anand & Buchner 1998 (ANAND; BUCHNER, 1998) Carbena et al. 1997 (CARBENA et al., 1997) KDD Roadmap 2001 (DEBUSE et al., 2001) Two Crows 1998 (Two Crows Comporation, 1999) 6-σ 1996 (HARRY; SCHROEDER, 1996) (PYZDEK, 2003) 5A’s 1996 (MARTÍNEZ, 2003) Legenda Relacionado ao KDD Process Relacionado ao CRISP-DM Outras Abordagens Fonte: Adaptado de Mariscal e Marbán e Fernández (2010) CRISP-DM 2000 (CHAPMAN et al., 2000) Marbán et. al. 2007 (MARBÁN et al., 2007) (MARBÁN et al., 2008) DMIE 2002 (SOLARTE, 2012) RAMSYS 2001 (MOYLE; JORGE, 2001) Cios et al. 2000 (CIOS et al., 2000) (CIOS; KURGAN, 2005) 42 As duas principais metodologias apresentadas na Figura 4 são KDD Process como e CRISPDM. A maior parte das outras metodologias são baseadas nestas. (MARISCAL; MARBÁN; FERNÁNDEZ, 2010) (CHAPMAN et al., 2000) KDD Process é uma metodologia interativa e iterativa, foi apresentada por Fayyad, Piatetsky-shapiro e Smyth (1996) apud Mariscal, Marbán e Fernández (2010), descreve o processo de KDD com as 9 etapas: entendimento do domínio da aplicação; criação do conjunto de dados; limpeza e pré-processamento; redução e projeção dos dados; escolha das tarefas de mineração; escolha do algoritmo de mineração; mineração dos dados; interpretação e utilização do conhecimento descoberto. CRISP-DM: Apresentada em meados dos anos 90 por um grupo de organizações envolvidas em atividades de mineração de dados (Teradata, SPSS –ISL-, Daimler-Chrysler e OHRA) a metodologia CRISP-DM, acrônimo para CRoss Industry Standard Process for Data Mining (processo padrão interindustrial para mineração de dados, em tradução livre), que foi concebida pensando na independência do processo em relação à ferramenta e área de aplicação. É composta de seis etapas: entendimento do negócio; entendimento dos dados; preparação dos dados; modelagem; avaliação e desenvolvimento. (MARISCAL; MARBÁN; FERNÁNDEZ, 2010). O site oficial da metodologia CRISP-DM5 não está mais disponível, entretanto um manual da metodologia está disponível no site da IBM (2011), e esta é a metodologia oficial da ferramenta de mineração IBM SPSS Modeler. A Tabela 6 apresenta um mapeamento das etapas da metodologia CRISP-DM e KDD Process. Na linha referente à metodologia CRISP-DM estão descritas as fases desta metodologia, cada fase em uma coluna. Para a linha referente à KDD Process, existem colunas com descrição de mais de uma fase. Para fase “modelagem”, do CRISP-DM, por exemplo, existem três fases em KDD Process: escolha das tarefas de mineração; escolha do algoritmo de mineração; mineração dos dados. 5 O site da metodologia era www.crisp-dm.org, hoje não está mais disponível. O endereço consta como propriedade da IBM, como pode ser verificado em http://whois.domaintools.com/crisp-dm.org. Acesso em: 23/05/2015. 43 Tabela 6. Etapas das metodologias CRISP-DM e KDD Process. Metodologia Fases CRISP-DM Entendimento do negócio Entendimento dos dados Preparação dos dados Limpeza e préprocessamento KDD Process Entendimento do domínio da aplicação Criação do conjunto de dados Redução e projeção dos dados Modelagem Avaliação Desenvolvimento Escolha das tarefas de mineração Escolha do algoritmo de mineração Mineração dos dados Interpretação Utilização do conhecimento descoberto Fonte: Adaptado de Mariscal, Marbán e Fernández (2010) Em pesquisa realizada em 2007 junto à comunidade KDNuggets, a maior parte dos usuários utilizavam a metodologia CRISP-DM, 42%. Utilizavam a metodologia KDD Process apenas 7%. Não é possível afirmar que a comunidade científica utiliza essa metodologia na mesma proporção. (KDNUGGETS, 2007) Procurando nas bases da IEEExplore; Science Direct e ScienceDirect (ver Tabela 8) pelas strings “CRISP-DM” e “KDD Process” foi possível encontrar dois trabalhos publicados em 2014, em revistas reconhecidas com “Qualis A em Ciência da Computação” pela CAPES, que utilizam CRISP-DM, e nenhum que utiliza KDD Process. Este fator levou a escolha do CRISP-DM como metodologia de mineração utilizada neste trabalho. (ESFANDIARI et al., 2014) (SPRUIT; VROON; BATENBURG, 2014) (CAPES, 2014b) 2.3.1 A metodologia CRISP-DM O objetivo dessa seção é apresentar a metodologia CRISP-DM, que é utilizada neste trabalho, em mais detalhes que a apresentação descrita na seção anterior, iniciando pela descrição das fases, apresentadas por Chapman et al. (2000), e ilustradas na Figura 5. 44 Figura 5. Fases da metodologia CRISP-DM. Entendimento do Negócio Entendimento dos Dados Preparação dos Dados Desenvolvimento Dados Modelagem Avaliação Fonte: Adaptado de Chapman et al. (2000) As fases da metodologia CRISP-DM estão no nível mais alto de abstração da metodologia, as iterações entre as fases podem ser vistas como um ciclo de vida da mineração de dados. Nos parágrafos seguintes encontram-se definições mais detalhadas de cada modelo desta fase. 2.3.1.1 Entendimento do negócio Na primeira etapa do CRISP-DM, procura-se entender os objetivos do projeto e seus requerimentos, o objetivo é usar este conhecimento para uma definição preliminar do problema e o plano inicial desenvolvido para alcançar os objetivos do projeto. Apesar de não ser uma tarefa tão simples como pode parecer, esta pode deixar claro problema, objetivos e recursos. (CHAPMAN et al., 2000) (IBM, 2011) Completada esta fase, pode-se partir para a fase de entendimento dos dados, descrita na próxima seção. 45 2.3.1.2 Entendimento dos dados Nesta fase é feita uma coleta inicial dos dados para viabilizar a familiarização com estes podendo assim identificar problemas com a qualidade dos dados, descobrir as primeiras características sobre estes, além de detectar os primeiros subconjuntos que permitam formular hipóteses sobre a informação escondida nestes dados. (CHAPMAN et al., 2000) (IBM, 2011) Ao final de uma iteração com esta fase pode-se identificar a necessidade de voltar a fase de entendimento do negócio afim de refinar o conhecimento já levantado, essa iteração deve ser feita quantas vezes forem necessário, e só então deve-se iniciar a próxima fase. 2.3.1.3 Preparação dos dados Esta fase cobre todas as atividades necessárias para a construção do conjunto de dados final, sobre o qual serão executadas as tarefas de mineração de dados, é a etapa que usualmente consome a maior parte do tempo do ciclo de vida da mineração. (CHAPMAN et al., 2000) Na preparação dos dados podem ser desenvolvidas as seguintes tarefas: mesclar subconjuntos de dados; selecionar subconjuntos de dados; agregar registros; criar novos atributos; ordenar os dados; tratar valores faltantes; dividir os dados em conjuntos de modelagem e treinamento. (IBM, 2011) 2.3.1.4 Modelagem Nesta etapa várias tarefas de mineração de dados são executadas, normalmente diversas vezes para ajustes de parâmetros. É provável que nesta fase seja necessário iterações com a fase de preparação de dados, a fim de realizar ajustes neste que viabilizem a aplicação das tarefas. (CHAPMAN et al., 2000) (IBM, 2011) Os modelos das tarefas de mineração podem ser apresentados como regras, árvores, gráficos. (WITTEN; FRANK; HALL, 2011) 2.3.1.5 Avaliação Nesta fase os modelos gerados por tarefas de mineração de dados são avaliados, é mensurada a qualidade dos dados minerados, e verificado se existe algum problema com relação 46 aos objetivos de negócio. Pode-se haver novas iterações com as etapas de anteriores a fim de refinar o processo e obter modelos de maior qualidade. (CHAPMAN et al., 2000) (IBM, 2011) 2.3.1.6 Desenvolvimento Nesta última fase, os modelos são implantados com o objetivo de melhorar o negócio como um todo. Pode-se utilizar o conhecimento adquirido para personalização de informações apresentadas em um website, melhorar a análise de crédito financeiro, diagnóstico médico ou mesmo a qualidade do ensino. (CHAPMAN et al., 2000) (IBM, 2011) (ESFANDIARI et al.,2014) (ZHANG, 2010) 2.4 ESCOLHA DAS FERRAMENTAS A escolha da metodologia CRISP-DM flexibiliza a escolha das ferramentas que podem ser utilizadas, flexibilidade que direcionou este trabalho ao desafio de escolher a ferramenta de mineração de dados mais adequada. Dos artigos citandos na Seção 1.1 Zhang (2010), Carmona et al. (2011) Trandafili et al. (2012) e Hoe et al. (2013) descrevem qual ferramenta utilizaram em seus trabalhos, sendo MSSSAS, KEEL, Weka e SPSS, respectivamente. Apenas Carmona et al. (2011) descreve o critério de escolha da ferramenta de mineração de dados (MD), o qual foi pré-requisito, já que o trabalho envolveu um estudo de caso para apresentar a utilização da ferramenta KEEL. Zhang (2010), Trandafili et al. (2012) e Hoe et al. (2013) apenas citam as ferramentas que foram utilizadas sem, entretanto descrever o motivo da escolha. Assim, por não haver, nos trabalhos citados, uma ferramenta que se destaque, e para eliminar qualquer viés na escolha, optou-se por realizar uma pesquisa e avaliação de possíveis opções. Esta pesquisa é apresentada na íntegra no Apêndice A, e resumida nesta seção. Foi realizada uma busca por trabalhos realizados pela comunidade científica que pudessem nortear a escolha da ferramenta a ser utilizada. Nesta busca foi localizado o trabalho realizado por Mikut e Reischl (2011). 47 A partir da relação de 89 ferramentas relacionadas por Mikut e Reishl (2011), 53 comerciais e 36 com uso livre, chegou-se quatro ferramentas de uso livre, que atendiam aos seguintes prérequisitos, necessários para a elaboração deste estudo: PR1 - Ter licença de uso livre para academia; PR2 - Ter como foco principal a mineração de dados; PR3 - Fornecer mais de um algoritmo para cada uma das seguintes tarefas: classificação, regras de associação e clusterização; PR4 – Poder ser executada em desktop com sistema operacional Windows; PR5 – Não ser especializada em apenas um tipo de algoritmo (Redes Neurais, Algoritmos Evolucionários; Algoritmos Estatísticos); PR6 – Ter uma versão lançada a partir de 2012; PR7 – Ser uma ferramenta independente e não apenas uma interface para outra; As ferramentas são apresentadas na Tabela 7. Tabela 7. Ferramentas de mineração de dados que atendem aos pré-requisitos. Ferramenta Site KNIME www.knime.org RapidMiner www.rapidminer.com TANAGRA eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html WEKA sourceforge.net/projects/weka Foi realizada uma análise de usabilidade das ferramentas, utilizando o checklist ERGOLIST (LABIUTIL, 2011) montado por uma equipe multidisciplinar coordenada pelo Prof. Doutor Walter de Abreu Cybis, do Laboratório de Utilisabilidade da Informática (LabIUtil) da Universidade Federal de Santa Catarina. O ERGOLIST fornece um questionário e solicita respostas que identificam características do software. A partir deste questionário o site gera uma pontuação para o software. Quanto maior a pontuação maior a usabilidade. Em uma segunda análise, foram comparados o desempenho da tarefa de classificação (algoritmo Naive Bayes) e clusterização (algoritmo K-Means ) sobre o conjunto de dados Iris 48 (FISCHER, 1936). A escolha dos algoritmos de clusterização e classificação foi realizada a partir da análise de dos algoritmos comuns nas quatro ferramentas da Tabela 7, comparando seu nome e parâmetros implementados. Naive Bayes e K-Means, foram os que apresentaram maior semelhança de implementação nas ferramentas citadas. A escolha do conjunto de dados Iris deveu-se ao fato de sua estrutura ser bem descrita na literatura, o levando a ser um benchmarking conhecido para classificação. É composto por 150 registros, 50 registros para cada uma das espécies Iris setosa, Iris versicolor e Iris virginica. Através de análise estatística o conjunto de dados divide-se naturalmente em dois clusters, um deles com registros da espécie Iris setosa e outro com registros das espécies Iris versicolor e Iris virginica. Pode-se ainda realizar uma leitura com três clusters, um com registro da espécie Iris setosa, um segundo com a maior parte de registros Iris versicolor e alguns registros Iris virginica e um terceiro com a maior parte registros Iris virginica e alguns registros Iris versicolor. (FISCHER, 1936). A terceira análise realizada para a escolha da ferramenta foi uma avaliação de reconhecimento desta pela comunidade científica e pela comunidade em geral. Para balizar a aceitação pela comunidade científica foi realizada uma busca por estas nas base de dados da Tabela 8, utilizando as strings “knime data mining”, “tanagra data mining”, “rapidminer data mining” e “weka data mining”. Como análise do conhecimento da ferramenta pela comunidade em geral, foi utilizada a pesquisa realizada pela comunidade KDNuggets (2012). Tabela 8. Base de dados e número de artigos por ferramenta Artigos citando Fonte Link de Acesso Knime Rapidminer Tanagra Weka ACM DL http://portal.acm.org 19 63 3 971 IEEExplore http://ieeexplore.ieee.org 21 95 7 1.126 ScienceDirect http://www.sciencedirect.com 28 55 9 737 Total de artigos 68 213 19 2.834 Ao final das análises de usabilidade, desempenho e aceitação pela comunidade, foi elaborada a Tabela 9, na qual as ferramentas que se destacaram em relação às outras recebeu um ponto. 49 Tabela 9. Pontuação das ferramentas. Desempenho Aceitação da Comunidade Usabilidade Classificação Clusterização Acadêmica Geral KNIME 0 0 1 0 0 Rapidminer 1 1 1 0 1 Tanagra 0 1 0 0 0 Weka 0 1 1 1 0 Pontos 1 4 1 3 Como pode ser visto na Tabela 9, pelos parâmetros deste trabalho, a ferramenta que aparenta ter a melhor adequação aos critérios que foram definidos é a ferramenta Rapidminer, que será utilizada prioritariamente neste estudo, mas pelo número elevado de algoritmos e parâmetros disponíveis em cada uma dessas ferramentas não é possível realizar a afirmação de que esta é certamente a melhor opção. Se fosse analisado apenas o critério de aceitação da ferramenta pela comunidade científica, por exemplo, a ferramenta Weka seria a adoção ideal, mas foram encontrados indícios de que esta ferramenta possui usabilidade inferior à encontrada no Rapidminer. Também foram encontrados indícios de que a ferramenta Weka é menos utilizada que a ferramenta Rapidminer pela comunidade em geral. Por não ser objetivo do estudo apresentado no Apêndice A obter uma resposta definitiva de qual a melhor ferramenta a ser adotada, pode ser prudente não descartar totalmente a utilização das ferramentas KNIME, Tanagra e Weka, e utiliza-las sempre que houver a suspeita de que estas possam trazer facilidades e/ou resultados que porventura não sejam encontradas na ferramenta Rapidminer. 50 3 REVISÃO SISTEMÁTICA DA LITERATURA Neste capítulo apresenta uma análise e comparação de trabalhos científicos que examinem dados educacionais com foco no desempenho acadêmico de alunos, com o objetivo de posicionar com relevância científica esta dissertação. Para isto foi realizado um processo de revisão sistemática da literatura. Revisões sistemáticas possibilitam alcançar maior qualidade e credibilidade em seus resultados, pois se baseiam em evidências e combinam o resultado de vários estudos afins, de forma documentada e reproduzível, possibilitando encontrar lacunas entre pesquisas justificando novos estudos. (DYBÅ; DINGSØYR, 2008)(MOLLÉRI, 2013) 3.1 QUESTÕES DE PESQUISA DA REVISÃO SISTEMÁTICA Esta revisão sistemática da literatura foi norteada pelas seguintes questões de pesquisa: QR1 – Quais técnicas de estatística e mineração de dados têm sido utilizadas na literatura para analisar o desempenho acadêmico de alunos? QR2 – Como têm evoluído as pesquisas de avaliação de desempenho acadêmico de alunos? QR3 – Quais técnicas de mineração de dados têm sido utilizadas na avaliação de desempenho acadêmico de alunos? QR4 – Quais tipos de dados das IES têm sido utilizados nesta análise? 3.2 FONTES DE DADOS Para viabilizar este trabalho, foram escolhidas bases que atendessem aos seguintes critérios: Ser reconhecida pela comunidade científica; Promover flexibilidade na pesquisa; Viabilizar acesso à íntegra do texto. Dentre as que cumpriam estes requisitos, foram selecionadas IEEExplore, ACM Digital Library e ScienceDirect, cujos links de acesso são apresentados no Quadro 1. 51 Quadro 1. Fontes de dados da revisão Sistemática. Nome da Fonte Link de Acesso IEEExplore http://ieeexplore.ieee.org ACM Digital Library http://portal.acm.org ScienceDirect http://www.sciencedirect.com Definidas as fontes de dados, partiu-se para o inclusão de critérios de seleção dos trabalhos que fossem identificados nestas fontes. 3.3 CRITÉRIOS DE SELEÇÃO Os critérios de seleção de trabalhos, na revisão sistemática, pretendem identificar trabalhos que evidenciem diretamente as questões de pesquisa. Para reduzir o viés na seleção de trabalhos, os critérios devem ser decididos durante a definição do protocolo da revisão sistemática. (KITCHENHAM, 2004) 3.3.1 Critérios de Inclusão O principal critério de inclusão do artigo neste trabalho foi o foco na análise da vida acadêmica do aluno, feitos a partir de banco de dados utilizados na gestão da vida acadêmica do aluno. Ter sido publicado e catalogado nas bases do Quadro 1 entre 01/01/2007 e 12/09/2014. Trabalhos que a partir da análise da vida acadêmica do aluno, tentam realizar a previsão do desempenho acadêmico de outros alunos. 3.3.2 Critérios de exclusão Foram excluídos deste trabalho, os artigos que não se encaixavam nos critérios de inclusão, valendo a documentação das seguintes características: - Não relacionados ao ambiente educacional; - Foco no desenvolvimento de software, framework, método ou algoritmo; - Foco no desempenho do professor ou pesquisador, ou curso; 52 - Mineração de texto (fóruns de ambiente virtual de aprendizagem); - Utilização de pesquisas pontuais junto à comunidade acadêmica. - Trabalhos publicados antes de 01/01/2007. 3.4 STRING DE BUSCA A criação da string de busca foi sem dúvida a parte mais difícil deste trabalho. A utilização de termos comuns a muitos trabalhos como “student” e “performance” exibia um volume de dados muito grande e com pouca relevância. Por outro lado, a inclusão de termos restritivos como “data analysis” eliminavam trabalhos com potencial de inclusão. Após diversas iterações entre ajustes da string e leitura de artigos identificados por esta, foi gerada a seguinte expressão base para busca. “(education AND (mining OR statistics) AND (performance OR achievement) ) AND NOT "high school" AND NOT opinion AND NOT feedback AND NOT industry AND NOT architecture” A busca foi feita sempre pelo resumo do artigo (e não em todo corpo do texto, e nem apenas no título). A conclusão de que esta restrição poderia ser feita deu-se pela análise de diversos artigos durante os testes iniciais, onde foi verificado que as principais palavras do corpo do texto se encontravam no resumo. Foi verificado também que muitos artigos irrelevantes eram listados por conterem as palavras chave em partes de menor significado semântico do artigo, como nas referências bibliográficas. Vale documentar que dentre os diversos testes realizados foram incluídos termos como “data mining”, “knowledge discovery” e “higher education”, entretanto estes termos aumentavam significativamente o número de trabalhos retornados, sem melhorar a quantidade de trabalhos relevantes, que são melhor representados pelas palavras “performance” e “achievement”. O termo “achievement” foi descoberto nos testes iniciais de composição da string, quando se notou que era utilizado por diversos autores. Esta palavra foi agregada posteriormente à string que viria a se tornar a expressão base para busca. A expressão base foi adaptada para a máquina de busca de cada uma das bases apresentadas na tabela 1, e a string específica de cada base é apresentada a seguir: 53 IEEExplore: ("Abstract": education AND (mining OR statistics) AND (performance OR achievement) ) NOT "high school" NOT opinion NOT feedback NOT industry NOT architecture ScienceDirect: pub-date > 2008 and title-abstr-key(education AND (mining OR statistics) AND (performance OR achievement) AND NOT "high school" AND NOT opinion AND NOT feedback AND NOT industry AND NOT architecture)[All Sources(Computer Science,Decision Sciences,Social Sciences)] ACM Digital Library: (Abstract:(education) AND (Abstract:(mining) OR Abstract:(statistics)) AND (Abstract:(performance) OR Abstract:(achievement))) AND NOT Abstract:("high school") AND NOT Abstract:(opinion) AND NOT Abstract:(feedback) AND NOT Abstract:(industry) 3.5 SELEÇÃO DOS ESTUDOS A string de busca, em todas as bases da Quadro 1, retornou 169 artigos com pouca ou nenhuma relevância (96,02%), conforme documentado na Seção 3.6, fazendo com que uma etapa de seleção pela leitura do título e resumo fosse necessária. Nesta leitura foram considerados os processos de inclusão e exclusão apresentados, resultando em um número menor de artigos para avaliação na íntegra. Com relação à base ACM, muitos trabalhos listados foram também catalogados na base IEEExplore, sendo assim ignorados. 3.6 ESTUDOS SELECIONADOS A string de busca executada em cada uma das bases do Quadro 1, retornou um total de 176 artigos, sendo 92 artigos do IEEEXplore, 32 artigos do ACM Digital Library e 52 do ScienceDirect, conforme pode ser verificado na Tabela 10. Após a leitura do título e resumo restaram para análise completa 41 artigos, sendo 23 artigos do IEEEXplore, 3 artigos do ACM Digital Library e 15 artigos do ScienceDirect, conforme resumido na Tabela 10. 54 Com todos os artigos disponíveis na íntegra para análise, a seleção final inclui 7 artigos, sendo 5 artigos do IEEEXplore, 1 artigo do ACM Digital Library e 1 artigos do ScienceDirect, conforme apresentado no Quadro 2. Tabela 10. Seleção de estudos por base. Nome da Fonte Quantidade retornada IEEExplore ACM Digital library ScienceDirect Totais 92 32 52 176 Selecionados % Selecionados pelo resumo Selecionado 23 5 5.43% 3 1 3.13% 15 1 1.92% 41 7 3.97% Quadro 2. Seleção final dos artigos, considerando critérios de inclusão e exclusão. Autores Ano Zeng e Zheng 2009 Macfadyen e Dawson 2010 Zhang 2010 Carmona et al. 2011 Samaranayake, e Caldera 2012 Trandafili et al. 2012 Hoe et al. 2013 Nome do trabalho Genders Differentials in Computer Sciences Education: Analysis and Proposal Mining LMS data to develop an “early warning system” for educators: A proof of concept Study and analysis of data mining technology in college courses students failed Subgroup discovery in an e-learning usage study based on Moodle A data mining solution on high failure rate in Physical Science stream at the university entrance examination Discovery and evaluation of student's profiles with machine learning Analyzing students records to identify patterns of students' performance Base IEEEXplore ScienceDirect IEEEXplore IEEEXplore IEEEXplore ACM DL IEEEXplore 3.7 ANÁLISE DOS TRABALHOS Nos próximos tópicos estão listados os trabalhos que foram selecionados, e um resumo de seu conteúdo, com foco nas questões de pesquisa desta revisão da literatura, QR1 a QR4, apresentadas na Seção 3.1. 55 3.7.1 Genders Differentials in Computer Sciences Education: Analysis and Proposal (ZENG E ZHENG, 2009) Este artigo utiliza estatística para comparar o desempenho acadêmico entre os sexos masculino e feminino, de uma universidade (não nominada) e realiza um estudo mais profundo no curso de Ciência da Computação. Foram analisados dados de 2004 a 2008. Além do sexo do estudante, os nomes das disciplinas e as notas foram utilizadas no estudo. Na análise da instituição como um todo, algumas disciplinas foram selecionadas como Línguas Estrangeiras e Matemática avançada. Não é descrita nenhuma ferramenta específica para auxiliar na realização das análises, mas descreve a utilização de teste de hipótese e contraste. O autor conclui que na população analisada, mulheres preferem assuntos como inglês, saúde e negócios, enquanto homens preferem circuitos, novos materiais, automóveis e política. Na análise mais profunda do curso de ciência da computação, apresenta uma tabela com 34 disciplinas, mostrando que mulheres excederam os homens em disciplinas como Programação Java, Experimentos matemáticos, e matemática avançada, enquanto os homens foram melhores que as mulheres em C++, Análise de Dados e Circuitos Eletrônicos. O artigo se afasta bastante da análise quantitativa de dados, e discute assuntos mais amplos como a forma com que homens e mulheres são criados na China, e a influência que uma exposição maior dos homens ao meio tecnológico, influencia em um menor número de mulheres nesta área. Ao final propõe mudanças na política educacional da China, afim de evitar que as mulheres se afastem de cursos de tecnologia. 3.7.2 Mining LMS data to develop an “early warning system” for educators: A proof of concept (MACFADYEN e DAWSON, 2010) Este artigo apresenta um sistema de alerta para que educadores saibam quais alunos estão em risco de reprovação em ambientes virtuais de aprendizagem (Learning Management System – LMS). 56 Utiliza os logs do LMS em cinco classes do curso de graduação em Biologia da University of British Columbia que é realizado totalmente on-line. Não descreve a ferramenta utilizada para as análises. Utiliza da estatística a regressão linear, regressão logística e correlação de variáveis, além de um diagrama de redes dos relacionamentos sociais dos alunos em fóruns. Foram analisadas variáveis como: tempo on-line; mensagens enviadas e lidas; mensagens de fórum de discussão lidas; mensagens postadas em forums de discussão; uso das ferramentas disponíveis no LMS (compile tool, search function, who is on-line, etc); avaliações iniciadas; avaliações concluídas; tempo gasto em avaliações, etc. Como primeira análise utilizou gráficos de dispersão (scatter plots) para identificar correlação entre as variáveis investigadas, descobrindo assim que, das 22 variáveis analisadas, 13 apresentam um relacionamento estatisticamente significante com a nota final do estudante. Destas 7 apresentam de 9 a 27% da variação na nota final. É relatado, porém que seria um erro confiar no poder de previsão da correlação simples. Os autores relatam também que, corroborando Morris e Finnegan (2005), o estudo aparenta até certo ponto estar documentando o óbvio, como exemplo cita o fato do estudo indicar que estudantes engajados e discursivos são mais competentes para completar o curso com sucesso quando comparado aos seus pares menos interativos. Pelo estudo, os autores identificaram como sendo variáveis com maior potencial de prever o desempenho do aluno, no contexto do LMS analisado: o número de postagens em fórum de discussão; número de mensagens de e-mail enviadas; número de avaliações concluídas. A utilização destas variáveis permitem prever corretamente, através de regressão logística, os alunos que irão falhar no curso com até 70,3% de acurácia. Refutando conclusões de outros trabalhos, os autores concluem também que o tempo que alunos passam on-line possui apenas uma pequena correlação com a nota final do estudante, por fim, concluem que informações pedagogicamente significativas podem ser extraídas de ambientes virtuais de aprendizagem. Foi conduzido um teste utilizando regressão logística binária, com o objetivo de avaliar a confiança do modelo estatístico criado na previsão de risco de reprovação. Para isso os estudantes 57 com nota final <60% foram classificados como “em risco de reprovação” e estudantes com nota final >=60% foram classificados como “desempenho adequado ou superior”. Na University of British Columbia alunos com nota <50% são reprovados, e acima desta nota, aprovados. O objetivo dessa divisão foi segmentar os alunos que quase reprovaram, como potenciais beneficiários de suporte e intervenção precoce. O teste demonstrou que o modelo classifica corretamente o aluno em 73,7% dos casos. Demonstrou também que foram classificados como “performance adequada” alunos que tiveram “em risco” em apenas 12,7% dos casos 3.7.3 Study and analysis of data mining technology in college courses students failed (ZHANG, 2010) Este trabalho utiliza técnicas de mineração de dados e tem foco na análise de padrões entre alunos que reprovaram. O autor não menciona a instituição que forneceu os dados para análise, apenas cita que são dados de 2008 e 2009 e apresenta um comando da linguagem SQL onde seleciona os registros de uma tabela de notas do curso (CourseScore). Os dados selecionados pela query e a apresentação de uma descrição das colunas contidas nas tabelas Course, CourseType e CourseScore apresentam as informações analisadas se resumem a dados de curso e notas, sem agregar muitas informações do perfil do acadêmico nem do docente. Utiliza árvore de decisão e algoritmo rough set na mineração dos dados para gerar modelos de previsão e classificação com o objetivo de encontrar o verdadeiro motivo que afeta as notas dos estudantes, além de regras de associação. A ferramenta utilizada para análise foi “Microsoft SQLServer Analysis Services (MSSSAS)”. Como resultado da análise, é descrita uma concentração de reprovações em dez disciplinas, dentre elas a de Matemática Avançada, Teoria da Probabilidade e Álgebra Linear. Outras análises são descritas. O autor afirma, por exemplo, que se um curso teve mais de 25 estudantes reprovados, a chance de ter alunos reprovados na disciplina de matemática é de 100%, e de mais de 60% na disciplina de artes liberais. 58 O autor afirma ao final que a análise destes padrões poderia gerar sugestões de mudança na escolha das disciplinas a fim de evitar escolhas que aumentem a possibilidade de reprovações. 3.7.4 Subgroup discovery in an e-learning usage study based on Moodle (CARMONA et al., 2011) Este artigo realiza uma análise de dados do Learning Management System (LMS) Moodle6 com foco na descoberta de grupos no ambiente de ensino a distância. Foram utilizados dados de cinco cursos da University of Cordoba da Espanha, totalizando 239 estudantes, a ferramenta utilizada nas análises dos dados foi a KEEL (ALCALÁ-FDEZ, 2009). Os algoritmos para descoberta dos grupos foram utilizados o algoritmo de classificação CN2, o algoritmo de regras de associação Apriori, e os algoritmos baseados em evolutionary fuzzy systems SDIGA, MESDIF, NMEEF. São apresentadas dez regras que foram geradas pelo algoritmo NMEEF sem, como por exemplo: IF (nAssigment=Low) AND (nQuizz=Low) THEN Fail - Conf:0.836 Podendo ser traduzida: Se o número de tarefas completadas for baixo, e se o número de jogos completados for baixo, então a nota do aluno entrará nos grupos da que o farão reprovar, com 83,6% de confiança. Outra regra interessante que pode ser transcrita do artigo é: IF (nQuizzP=High) THEN Good - Conf:0.655 Podendo ser traduzida como: Se o número de jogos que o estudante foi aprovado for alto, então a nota do estudante entrará no grupo de notas boas, com 65,5% de confiança. 6 Disponível em: http://moodle.org. Acesso em: 11/07/2014 59 Ao final, os autores afirmam que a análise dos grupos apresentados no trabalho podem ser utilizadas para que professores tomem decisões sobre as atividades dos cursos para melhorar o desempenho acadêmico dos alunos. 3.7.5 A data mining solution on high failure rate in Physical Science stream at the university entrance examination (SAMARANAYAKE e CALDERA, 2012) Neste trabalho utilizou-se técnicas de mineração de dados para investigar os fatores que contribuem para a alta taxa de reprovação nos cursos das áreas de Física e Biologia. O artigo explica que o Department of Examination no Sri Lanka possui duas avaliações para fornecer acesso de estudantes ao ensino superior, General Certificate of Education Ordinary Level (O’level) e General Certificate of Education Advanced Level (A’level). O exame O´level é aplicado após 11 anos de estudo no ensino básico e é utilizado como qualificação para o colegial. Após dois anos no colegial, é aplicado o exame A´level que é utilizado para acesso à educação superior. Os exames são realizados em períodos distintos do ensino fundamental, em diversas áreas, dentre elas PHSC e BISC. O foco do estudo está na análise de notas das diversas disciplinas do exame O’level, que levem conclusões de resultados no A’level. Além das notas, das disciplinas e das áreas que o aluno está se candidatando (por exemplo, PHSC e BISC), não cita a análise de nenhuma outra característica, como informações de faixa etária, sexo ou renda familiar. A técnica de mineração de dados foi a geração de regras de associação sem, entretanto especificar a ferramenta ou algoritmos utilizados. Na análise da área PHSC, os autores definiram como a melhor regra gerada pela análise: Se a anota (O´level) em Religion = A e a nota em First Language = A e a nota em Science = A e a nota em Maths = A e a nota em Social = A e a nota em Techincal = A então o resultado do A’level é P (aprovado) em 80% dos casos. Também é encontrado no texto a regra: Se a nota (O´level) em Science = B e a nota em Maths = A o resultado do A’level é F (reprovado) em 67% dos casos. 60 Em outro exemplo de regra de associação geradas, 51,77% dos estudantes que tiraram A em matemática no exame O’level foram reprovados no exame A’level. Ainda focado apenas em matemática, dos estudantes que tiraram C no exame O’level, 97,28% foram reprovados. Diversas outras regras de associação foram apresentadas no estudo. Dentre as conclusões apresentadas, está a evidência de que a nota das disciplinas Science e Mathematics no exame O’level afeta diretamente a possibilidade de aprovação para a área PHSC. Além destas, as disciplinas de Religion, First Language, Social Studies e Technical Subject, são assuntos que o candidato ao A’level na área PHSC devem se interessar. Os autores apresentam ainda algumas limitações ao seu estudo, como a ausência de dados de fatores externos (sem citar nenhum exemplo) que podem influenciar no desempenho do candidato, e inclusive sugere como trabalho futuro, uma análise semelhante que possa contemplar tais dados. 3.7.6 Discovery and evaluation of student's profiles with machine learning (TRANDAFILI et al., 2012) Utiliza mineração de dados para descobrir perfis de estudantes, com o intuito de realizar uma análise dos seus desempenhos acadêmicos. A fonte dos dados é o banco de dados do sistema de informação da Polytechnic University of Tirana, na Albânia, para os cursos de Informática, Eletrônica e Telecomunicação na faculdade de Information Tecnology. São analisados 35.000 registros, cada registro sumariza parte de um curso, para um estudante. Para realizar as análises a ferramenta WEKA foi utilizada. Foram utilizadas técnicas de clusterização com o algoritmo expectation-maximization e regras de associação, com o algoritmo Apriori. Também foi gerado um modelo de previsão, com a intenção de predizer quais estudantes iriam ser aprovados ou reprovados. Para isso utilizou-se o algoritmo J48 com árvores de decisão. Na clusterização, foram realizados dois testes, no primeiro, nenhum parâmetro para o número de clusters foi informado, e o próprio algoritmo foi o responsável por decidir quantos clusters seriam gerados. Neste experimento foram gerados 7 clusters, mas, segundo os autores, foi difícil analisar a semântica de cada um deles. 61 Como exemplo, os autores citam uma análise dos clusters 1 (que poderia ser nomeado como “desempenho muito bons e excelentes”) e do cluster 4 (que poderia ser nomeado como “desempenho bons e baixos”), ao contrário do esperado, não possuem uma distribuição normal, uma análise mais detalhada demonstrou que a disciplina L110, em estudo no exemplo, possui um pré-requisito, assim alunos reprovados neste pré-requisito não cursaram a disciplina L110. Além disso, para lidar com dados faltantes (no exemplo, o dado faltante é a nota em branco do aluno que não cursou a disciplina L110) os valores foram preenchidos com nota média da turma, o que distorceu a informação. Este relato ilustra o quanto um bom conhecimento dos dados pode melhorar a análise da mineração. Assim, um segundo experimento, informando ao algoritmo que criasse apenas 4 clusters foi executado, onde foi possível analisar o significado de cada cluster separadamente. Ficou claro, por exemplo, que apenas 11% dos alunos estão no cluster “alunos excelentes”, enquanto 56% dos alunos foram incluídos no cluster com alunos que tem nota média menores. Os autores citam que esta análise dos clusters pode gerar um modelo estatístico que auxiliem na avaliação de alunos que possam continuar os estudos em nível de mestrado, naquela universidade. Na interpretação das regras de associação, geradas pelo algoritmo Apriori, os autores concluíram, por exemplo, que a universidade poderia tentar integrar a dissertação com o estágio, já que duas regras apresentam as notas relacionadas, com 98% de acurácia. 3.7.7 ANALYZING STUDENTS RECORDS TO IDENTIFY PATTERNS OF STUDENTS' PERFORMANCE (HOE et al., 2013) Este artigo analisa dados de alunos de graduação da Universiti Tenagra Nasional, da Malásia com previsão de precoce de performance acadêmica, baseado em dados demográficos e histórico de performance acadêmica. A metodologia utilizada no trabalho foi a CRISP-DM sem, entretanto, justificar esta escolha. No trabalho pode ser encontrado apenas uma breve descrição das atividades realizadas nas fases da metodologia. 62 Foram utilizados dados como ano e semestre de curso da disciplina; média acumulativa de pontos (CGPA – Cumulative Grade Point Average) e assunto da disciplina para 2.228 registros dos anos de 2004 a 2013. As médias CGPA foram segmentadas em quatro categorias, cada uma representando uma faixa de desempenho acadêmico. A ferramenta utilizada foi a PASW 13.0 do software SPSS, que permite modelar um fluxo com etapas para obter o resultado da análise. A ferramenta testou todos os algoritmos disponíveis (não descritos no trabalho) e o CHAID (Chi-square Automatic Interaction Detection) foi o que obteve melhor acurácia. Com o algoritmo CHAID foi possível predizer corretamente 1.564 registros alcançando assim 70,17% de acurácia, valor que foi utilizado pelos autores para afirmar que o objetivo de identificar o desempenho dos alunos foi alcançado. 3.7.8 Sumarização dos resultados As características apontadas em cada artigo foram sumarizadas no Quadro 3, com o objetivo de facilitar a visualização dos trabalhos analisados, e também apresentar uma intenção de dissertação de mestrado. Onde: Autores e Ano: Referência ao Quadro 2. Comparação gêneros/cursos: Identifica se foram comparados o desempenho entre gêneros e/ou entre cursos. Fonte de dados: Pode ser “Gestão Acadêmica”, indicando que os dados foram extraídos diretamente do banco de dados que faz a gestão acadêmica de alunos. “LMS”, indicando que os dados foram extraídos de um sistema e-learning. “Centro de dados”, indicando que os dados foram extraídos de um órgão ou instituição que centraliza dados de diversas instituições de ensino. Previsão de Desempenho: Identifica se o trabalho pretende prever o desempenho acadêmico de alunos. Estatística: Técnicas da Estatística utilizadas. 63 Mineração: Técnicas e algoritmos da mineração de dados (machine learning) utilizados. Ferramenta: Nome da ferramenta utilizada. A sigla NI indica que a ferramenta não foi informada. Quadro 3. Síntese das características descritas em cada artigo. Comparação Gêneros Cursos Autores Ano Zeng e Zheng 2009 Sim Não Macfadyen e Dawson 2010 Não Não Fonte Previsão de Estatística De dados Desempenho Gestão Teste de Não Acadêmica Hipóteses Regressão Linear; Regrassão LMS Sim Logística; Correlação de Variáveis; Mineração Ferramenta Não NI Não NI Árvores de Decisão; Rough Set; Classificação; CN2; Regras de Associação; Apriori; SDIGA; MESDIF; NMEEF; Regras de Associação; Clusterização; Árvores de Decisão; Expectation Maximization; Zhang 2010 Não Não Gestão Acadêmica Não Não Carmona et al. 2011 Não Não LMS Não Não Samaranayake, e Caldera 2012 Não Não Centro de dados Não Não Trandafili et al. 2012 Não Não Gestão Acadêmica Sim Não Hoe et al. 2013 Não Não Gestão Acadêmica Sim Não Classificação SPSS Sim Gestão Acadêmica Sim Estatística Descritiva Regras de Associação; Clusterização; Classificação Rapidminer Esta Dissertação Sim MS SSAS KEEL NI WEKA 3.8 CONSIDERAÇÕES Este capítulo apresentou uma relação de trabalhos publicados e inseridos nas bases do Quadro 1 entre 01/01/2007 e 12/09/2013, que analisam bases de dados relacionadas ao ambiente educacional, colocando o desempenho acadêmico dos alunos como ponto central do estudo. Respondendo a questão de pesquisa QR1, notou-se que técnicas de estatística estão sendo utilizadas para esta análise (28,57% dos trabalhos), mas em 71,43% dos artigos analisados a mineração de dados foi a técnica utilizada. 64 Na investigação pela resposta da questão de pesquisa QR2, nota-se que em 2009 apenas um artigo foi publicado, dentro dos critérios de inclusão desta revisão da literatura. Em 2010 foram localizados dois trabalhos, em 2011 um trabalho, em 2012 mais dois e em 2013 um trabalho. Assim, através deste estudo nenhuma tendência de evolução, em relação à quantidade de artigos publicados neste período, foi caracterizada. Na investigação da questão de pesquisa QR3, vimos que árvores de decisão, regras de associação, clusterização e classificação são as técnicas (tarefas de MD) mais utilizadas nos artigos analisados. Com relação ao tipo de dados analisado, tópico da questão de pesquisa QR4, fica claro que no período de 01/01/2007 e 12/09/2013 a análise de LMS para estudar o desempenho acadêmico de alunos não superou a análise de banco de dados tradicionais utilizados na gestão acadêmica. Uma possível explicação para tal fato, que necessitaria de um novo estudo para confirmação, é a possibilidade de estar-se utilizando LMS como ferramenta de suporte ao ensino, servindo como repositório de dados, e ferramenta de comunicação entre os envolvidos. Dados administrativos como notas, exercícios e avaliações não seriam armazenadas nestes ambientes. Dentro da análise de desempenho acadêmico, nota-se preocupação com a identificação precoce do risco de reprovação de alunos em 42,86%, (ZHANG, 2010) (SAMARANAYAKE e CALDERA, 2012) (MACFADYEN e DAWSON, 2010), o que é justificável, pois são esses os alunos que pretende-se ajudar. Entretanto, a análise do perfil dos alunos, independente do risco de reprovação, como nos trabalhos Trandafili et al. (2012) e (CARMONA et al., 2011) (HOE et al., 2013), podem dar aos especialistas em educação informações importantes, que podem auxiliar na melhora do desempenho acadêmico de todos os alunos. Nenhum dos trabalhos analisados procura correlacionar características de alunos em diferentes cursos. O perfil dos alunos da área de exatas pode ser muito diferente do perfil do aluno ciências da saúde, ou de ciências humanas. Uma análise do desempenho acadêmico que segmente essas áreas tem potencial para gerar informações pedagógicas relevantes. Com relação à ferramenta computacional, 42,86% dos trabalhos não se preocuparam em informar qual a ferramenta foi utilizada, dificultando assim uma eventual reprodução dos resultados. Dos que informaram a ferramenta, nenhum justificou a escolha, cada uma das 65 ferramentas MS SSAS, KEEL, WEKA e SPSS foi utilizada em apenas um trabalho, não sendo possível concluir qual delas seria a ideal para esta dissertação. É importante notar também, que no período de 01/01/2007 e 12/09/2013 não foi identificado nenhum artigo de autores brasileiros, considerando a string de busca adotada, as bases da tabela 1, e os critérios de inclusão e exclusão utilizados. Fato este que pode surpreender por se tratar de um país em que a educação é tema de constante preocupação da sociedade como apresentado na introdução desta dissertação, e por ser a análise de dados, especialmente através de mineração de dados educacionais, uma linha de pesquisa com potencial para melhorar a qualidade do ensino. (BAKER; ISOTANI; CARVALHO, 2011) 66 4 METODOLOGIA PROPOSTA Neste capítulo são descritas as etapas desenvolvidas neste trabalho, divididas de acordo com as fases da metodologia CRISP-DM que foram apresentadas na Seção 2.3.1 , e relacionadas na Figura 5. Este capítulo está organizado da seguinte forma: a seção 4.1 apresenta uma descrição do ponto de vista do negócio, descrevendo a hierárquica dos cursos da IES e suas funções. Na Seção 4.2 apresenta-se a forma com que os dados são armazenados, quando os dados foram armazenados, a qualidade dos dados e o nível de utilização. A Seção 4.3 apresenta a forma com que os dados foram extraídos, como estes foram enriquecidos e preparados. A Seção 4.4 apresenta a aplicação das técnicas de mineração de dados, e descreve também iterações com as etapas anteriores afim de alcançar melhores resultados. A Seção 4.5 apresenta uma avaliação do modelo gerado a partir das técnicas de mineração de dados do ponto da acurácia, e estatística kappa. Apesar da apresentação linear deste capítulo, é importante ressaltar que, conforme apresentado na Figura 5, a metolologia CRISP-DM, bem como as demais apresentadas na Figura 4, descrevem iterações entre as etapas, com o objetivo de alcançar os melhores resultados. A documentação de todas as iterações realizadas só foi documentada onde fez-se necessária, como na Tabela. 4.1 ESTRUTURA DA IES Esta seção corresponde à fase “Entendimento do Negócio”, da metodologia CRISP-DM, conforme apresentado na Figura 5, tem como objetivo apresentar uma visão geral do negócio, além dos objetivos a serem alcançados no processo de KDD. Para compreender a estrutura da IES analisada, foi utilizado o Plano de Desenvolvimento Institucional (BORBA, 2012), entrevista com professores atuantes na Vice-Reitoria de Graduação, referenciada em Borba (2012) como Pró-Reitoria de Ensino (ProEn), e também com profissionais da Gerência de Tecnologia da informação. A Universidade do Vale do Itajaí está presente ao longo do litoral centro-norte do estado de Santa Catarina, Brasil, com unidades/campi em sete cidades, sendo sua sede administrativa localizada no município de Itajaí. A IES coloca a disposição da comunidade acadêmica uma série 67 de recursos tecnológicos on-line como Portal do Egresso, Matrícula, Plano de ensino, Sistema de Notas, Sistema de Bibliotecas, AVA, Portal do Aluno, entre outros. (BORBA, 2012) Atua no ensino fundamental, médio, técnico, superior e pós-graduação lato sensu e stricto sensu. Na educação superior, oferece cursos organizados em seis Centros de Ensino: Centro de Ciências da Saúde (CCS); Centro de Ciências Sociais Aplicadas – Comunicação, Turismo e Lazer (CECIESA-CTL); Centro de Ciências Sociais Aplicadas – Gestão (CECIESA-Gestão); Centro de Ciências Sociais e Jurídicas (CEJURPS); Centro de Ciências Tecnológicas da Terra e do Mar (CTTMAR); Núcleo das Licenciaturas. (BORBA, 2012) Em sua maioria os cursos oferecidos são apenas na modalidade presencial, que eventualmente oferecem disciplinas semipresenciais, sendo o curso de Pedagogia EAD a única exceção vigente em 2014. Cada curso é oferecido em um ou mais campi, em um ou mais turnos. Um determinado curso oferecido em dois campi/turno é considerado como um curso independente, tendo inclusive código de avaliação distinto no MEC, assim, um curso para a instituição é a composição de Curso/Campus/Turno. Cada curso possui uma matriz curricular, onde constam as disciplinas obrigatórias, eletivas e optativas oferecidas, a ementa de conteúdos e carga horária teórica e prática de cada uma das disciplinas. Um curso para o qual ainda são disponibilizadas vagas para calouros é chamado de “curso ativo”. Um curso para o qual não é mais disponibilizada vagas para calouros, mas ainda possuem alunos ativos que não integralizaram a matriz curricular é chamado de “curso em extinção”. Um curso que não é mais oferecido, e não possui alunos ativo é chamado de “curso inativo”. No contexto da gestão da IES, divide-se o conceito de aluno em dois conceitos: pessoa e aluno. O conceito de pessoa é auto explicável, podendo essa desempenhar na IES o papel de funcionário, professor ou aluno, muitas vezes desempenhando mais de um papel ao mesmo tempo (por exemplo, uma pessoa que é professor da graduação e aluno do doutorado). O conceito de aluno é aplicado a qualquer pessoa que tenha ingressado em um curso. Uma determinada pessoa que tenha ingressado em dois cursos é considerada dois alunos distintos, com vida acadêmica gerenciada de forma independente. O ingresso do aluno ocorre de diversas formas, 68 valendo o registro do ingresso via vestibular/processo seletivo, transferência interna (a partir de outro curso da IES) e transferência externa (a partir do curso de outra IES). O papel de aluno pode receber o status de “ativo” (aqueles regularmente matriculado e cursando), “trancado” (aquele regularmente matriculado, mas que não está frequentando as aulas), “inativo” (por abandono, transferência, etc) ou “egresso” (aquele que integralizou toda matriz curricular obrigatória e não está mais em curso). Além dos dados já citados, o papel de aluno está associado um papel de responsável financeiro, que pode ser o próprio aluno ou um terceiro, que também está associado a um papel de pessoa. Dois alunos associados a uma mesma pessoa pode ter dois responsáveis financeiros distintos. Um exemplo disso seria uma pessoa que cursasse uma graduação pela manhã e outra à noite. O responsável financeiro do curso matutino é a mãe, no curso noturno é o pai. As disciplinas da matriz curricular são ministradas por professores, que do ponto de vista de gestão da IES são pessoas que assumem o papel de ministrar uma aula. O professor possui uma titulação (Graduação, Especialização, Mestrado, Doutorado) e uma carga horária (referente a todos os cursos da instituição. A carga horária classifica o professor em regimes de trabalho “Horistas” (para carga horária menor de 12h na IES), “dedicação parcial” (para carga horária maior que 12h e menor que 40h) e “dedicação integral” (para aqueles com 40 horas ou mais na IES). A IES “ouve” regularmente o que o aluno tem a dizer através de pesquisa chamada Avaliação Institucional (AI). A frequência que a AI é realizada tem variado com o passar dos anos, sendo atualmente aplicadas semestralmente, com um conjunto de questões que se repetem a cada semestre, e outro que se repete anualmente. A interação entre professores, alunos e IES é referenciada neste trabalho como “ambiente de ensino-aprendizagem”, e a gestão deste ambiente exige o apoio de software devido ao seu volume e complexidade. Alguns dos softwares utilizados são desenvolvidos pela Gerência de Tecnologia da Informação e outros adquiridos de outras fontes. Os objetivos que se pretende alcançar com este processo de KDD estão descritos na Seção 1.2, deseja-se também, validar as perguntas de pesquisa P1 à P3, apresentadas na Seção 1.1 além de validar as hipóteses H1 à H2, apresentadas na Seção 1.1.1 69 Detalhes de como será feita a validação dos objetivos podem ser encontrados na Seção 4.3 e a apresentação dos dados armazenados pelos softwares que auxiliam na gestão deste ambiente, descritos acima, é feita na próxima seção. 4.2 CONJUNTO DE DADOS E INFORMAÇÕES UTILIZADAS Esta seção corresponde à fase “Entendimento dos Dados”, da metodologia CRISP-DM, conforme apresentado na Figura 5, tem como objetivo conhecer os dados, selecionados e identificar eventuais dificuldades que possam ocorrem na sua utilização. Em meados de 2014 a IES utiliza aproximadamente 40 sistemas para viabilizar a gestão do ambiente de ensino-aprendizagem. São aplicações que vão desde a matrícula on-line ao Planejamento Estratégico, passando por gestão de carga horária docente, biblioteca, controle de fotocópias disponibilizadas ao aluno, dentre diversos outros. O objetivo desta seção é apresentar como os dados que serão utilizados no processo de KDD estão estruturados, bem como a frequência com que são gerados, e o início de controle dos mesmos. Apesar do grande número de softwares de apoio à gestão do ambiente de ensinoaprendizagem, apenas parte dos dados de sete sistemas estarão sob análise neste trabalho, escolhidos pela relação próxima ao apoio direto do ensino de graduação. Assim, dados originados em sistemas que se afastam da gestão de alunos da graduação, como o sistema de compras, o sistema de patrimônio e o sistema de folha de pagamento, por exemplo, não estarão sob análise. A seleção dos atributos foi realizada com o objetivo de selecionar o maior número de dados disponíveis. A decisão de não utilizar um critério específico é justificada pela falta de um critério para seleção dos atributos nos trabalhos apresentados no Capítulo 3. Nestes trabalhos foi identificado que Samaranayake e Caldera (2012), Zhang (2010), Trandafili et al. (2012), utilizaram apenas disciplinas e notas em suas análises, Zeng e Zheng (2009) utilizou também o sexo dos alunos. Nos trabalhos que utilizam um número maior de atributos, como Carmona et al. (2011) e Macfadyen e Dawson (2010) a seleção destes atributos não foram justificadas. Detalhes sobre os atributos utilizados são apresentados nas próximas seções, a cada um deles é apresentada também a descrição, os possíveis valores e a relação principal do mesmo. O tipo 70 de dado de cada atributo foi apresentado de acordo com a nomenclatura utiliza pela ferramenta Rapidminer, principal ferramenta que é utilizada neste trabalho conforme descrito na Seção 2.4. 4.2.1 Central de Pessoas A Central de Pessoas não é um sistema e sim módulo independente de outros sistemas, sem interface própria, servindo apenas para manutenção de países, estados, cidades, pessoas, senhas e perfis administrativos das pessoas. A manutenção destes dados ocorre através de outros sistemas, como o sistema de folha de pagamento (no cadastro de um novo funcionário) ou o sistema Acadêmico/Financeiro (no cadastro de um novo aluno). A central de pessoas, apesar de parecer apenas um agregado de tabelas, tem a função de integração, via banco de dados, dos diversos sistemas (desenvolvidos internamente ou por terceiros), tornando possível o cadastro de pessoas confiável em qualquer sistema. Serão utilizados, deste módulo os atributos apresentados no Quadro 4. Quadro 4. Atributos da Central de Pessoas que serão utilizados. SEXO TIP_DEF DAT_NAS Valores Possíveis Descrição M: Masculino; Gênero da pessoa F: Feminino; NI: Não Informado / Sem Tipo de deficiência. necessidade especial; FIS: Deficiência Física; Alunos que necessitam AUD: Deficiência de auxílio para assistir Auditiva; aula certamente tem VIS: Deficiência Visual; Polinomial valor cadastrado aqui. MEN: Mental; DOW: Síndrome de Se o aluno é superdotado Down; o cadastro é feito neste AUT: Autismo; campo, apesar de não ser SUP: Altas uma deficiência. Habilidades/Superdotação Data Datas válidas Data de Nascimento Binomial Ano/Sem Início 2001/1 X 2001/1 X 2001/1 X Curso Tipo de Dado Docente Atributo Aluno Relacionado à X 4.2.2 Sistema Acadêmico/Financeiro O sistema Acadêmico/Financeiro é o principal sistema na gestão de cursos, sendo este o sistema responsável por manter dados referentes aos campi, centros de ensino, cursos, matrizes curriculares, matrículas, lançamentos financeiros e pagamentos (mensalidades, bolsas), etc. 71 O sistema começou a ser desenvolvido no final da década de 80 e tem evoluído semestralmente desde então. Apesar dos mais de 20 anos de existência, muitas de suas funcionalidades são relativamente recentes, tendo iniciado nos últimos 3 ou 5 anos fato este que acende uma luz vermelha sobre a qualidade de dados mais antigos. Sua base de dados é apoio para outros sistemas como Plano de Ensino, Controle Docente e Ambiente Sophia (o AVA da IES). A separação do sistema Acadêmico/Financeiro do sistema Plano de Ensino pode não parecer clara já que a descrição do plano de ensino faz parte do controle acadêmico, entretanto este trabalho segue a nomenclatura utilizada na IES, descrita pelos entrevistados, no Quadro 5 são apresentados os atributos que foram selecionados para análise. Quadro 5. Atributos do sistema Acadêmico/Financeiro que serão utilizados. X 1990/1 X Indica por qual meio o aluno ingressou neste curso da IES 1990/1 X Binomial DIR: Direito; CIV: Engenharia Civil; Nesta análise serão analisados apenas alunos dos cursos de Direito e Engenharia Civil. 1990/1 X Binomial R: Aluno é o próprio responsável Financeiro; D: Aluno é dependente financeiro; Indica quem é o responsável financeiro pelo curso. 1990/1 X 1999/1 X 2004/1 X 2004/1 X Tipo de Dado Valores Possíveis Descrição ANO_INGR Inteiro 1980 - 2014 SEM_INGR Inteiro 1–2 Ano de ingresso do aluno Semestre de ingresso do aluno GRU_INGR CURSO RES_FIN TEX: Transferência Externa; TIN: Transferência Interna; Polinomial UNI: ProUni; REI: Reingresso; SEL: Processo Seletivo; VES: Vestibular; OUT: Outros; NEG_FIN Binomial S: Sim; N: Não; BOLSA Binomial S: Sim; N: Não; FINANCIAMENTO Binomial S: Sim; N: Não; DIS_COD Inteiro DIS_TIP >0 N: Normal; E: Estágio; Polinomial T: TCC; P: Projetuais; Indica se em algum momento o responsável financeiro pelo aluno recorreu a um acordo para pagamento de débitos Indica se no semestre o aluno obteve algum tipo de bolsa. Indica se no semestre o aluno a algum tipo de financiamento gerido pela IES Disciplina cursada Tipo de disciplina 1990/1 N: 1993/1 E: 1993/1 T: 1996/1 P: 1999/1 Curso 1990/1 Atributo Docente Aluno Relação Ano/Sem Início (Confiável) X X 72 Quadro 5. Atributos do sistema Acadêmico/Financeiro que serão utilizados. Valores Possíveis Descrição Ano/Sem Início (Confiável) Curso Tipo de Dado Docente Atributo Aluno Relação Período da disciplina no currículo. DIS_PER 0 – 11 Polinomial DIS_OBR Binomial S: Sim; N: Não; DIS_INTENSIVO Binomial S: Sim; N: Não; DIS_HOR_PRATICAS Inteiro 0 – 300 DIS_HOR_TEORICAS Inteiro 0 – 300 DIS_HOR_LAB Inteiro 0 – 81 ALU_DIS_ANO Inteiro 1980 – 2014 ALU_DIS_SEM Inteiro 1 ou 2 ALU_DIS_MAIS1_PROF Binomial ALU_AFA Inteiro S: Sim; N: Não; 0 – 27 É o período em que a disciplina deveria ter sido cursada, e não o período em que ela foi cursada. Período ZERO se refere a disciplinas eletivas ou p Indica se é uma disciplina obrigatória ou não obrigatória (optativa) Indica se disciplina foi cursada em regime intensivo Carga horária prática da disciplina Carga horária teórica da disciplina Carga horária de laboratório Ano em que o aluno cursou a disciplina Semestre em que o aluno cursou a disciplina Indica se mais de um professor ministrou a disciplina Indica o tipo de afastamento do aluno junto ao curso. 1990/1 X 1993/1 X 1994/1 X 2005/1 X 2005/1 X 2005/1 X 1990/1 X 1990/1 X 1993/1 X X 1990/1 4.2.3 Diário On-Line O diário on-line é o sistema onde o professor, além de ter opção de cadastrar avaliações, tem a estrutura necessária para cadastrar as notas e faltas dos alunos, além de poder cadastrar o conteúdo apresentado em sala de aula, no Quadro 6 são apresentados os atributos que serão utilizados na análise do processo de KDD. 73 Quadro 6. Atributos do sistema Diário On-line que serão utilizados. ALU_DIS_MED Real ALU_DIS_APR Binomial ALU_DIS_FALTAS ALU_DIS_AVA Inteiro Inteiro Valores Possíveis Descrição Ano/Sem Início (Confiável) 0,00 – a 10,00 Média do aluno na disciplina. Esta média é armazenada discretizada, tendo um arredondamento de 0,5 em 0,5 1993/1 X Aprovado na disciplina 1993/1 X Número de faltas Número de avaliações 2004/1 2007/1 X X S: Sim; N: Não; >= Zero > Zero Curso Tipo de Dado Docente Atributo Aluno Relação 4.2.4 Controle Docente O sistema Controle Docente é o responsável por agregar dados referentes à professores e fornece-los ao sistema Acadêmico/Financeiro e à Folha de pagamento. O sistema armazena dados referentes ao papel de professor, como titulação e carga horária (em aulas e também em pesquisas). No Quadro 7 são apresentados os atributos selecionados nos sistema para análise no processo de KDD. Quadro 7. Atributos do sistema Controle Docente que serão utilizados. PROF_TITUL PROF_TRAB PROF_CGH Valores Possíveis G: Graduação; P: Pós-Graduação; Polinomial M: Mestrado; D: Doutorado; H: Horista; Polinomial P: Parcial; I: Integral; Inteiro 1 – 44 Descrição Titulação do professor 2008/1 X Regime de trabalho do professor na IES 2008/1 X Carga horária do professor na IES 2008/1 X Docente Tipo de Dado Aluno Atributo Curso Relação Ano/Sem Início (Confiável) 4.2.5 Plano de Ensino O sistema Plano de Ensino permite aos professores cadastrar ementas, referências bibliográficas e avaliações referentes à disciplinas que ministra. Possui integração com o sistema de Biblioteca, afim de permitir ao professor referenciar livros que estão disponíveis na biblioteca da IES. No Quadro 8 são apresentados os atributos que serão analisados. 74 Quadro 8. Atributos do sistema Acadêmico/Financeiro que serão utilizados. Valores Possíveis OBRA_ID Inteiro > Zero OBRA_QTD Inteiro >= Zero Descrição Identificação da bibliografia no sistema da biblioteca Quantidade de obras listadas no plano de ensino da disciplina Ano/Sem Início (Confiável) 2003/1 Curso Tipo de Dado Docente Atributo Aluno Relação X X 4.2.6 Sistema da Pergamum O sistema Pergamum é o sistema utilizado pelas bibliotecas da IES. Através dele é gerenciado o acervo disponível aos alunos, assim como a locação e devolução de livros, além de eventuais multas por atraso na devolução e outras rotinas administrativas. No Quadro 9, estão relacionados os atributos do sistema Pergamum que serão utilizados para análise. Quadro 9. Atributos do sistema Pergamum que serão utilizados. Valores Possíveis OBRA_ID Inteiro > Zero OBRA_LOC Inteiro >= Zero Descrição Identificação da bibliografia no sistema da biblioteca Quantidade de locações de uma determinada obra Curso Tipo de Dado Docente Atributo Aluno Relação Ano/Sem Início (Confiável) 2003/1 X 4.2.7 Ambiente Sophia O Ambiente Sophia7 é o sistema utilizado pela instituição para que professores possam apresentar disciplinas semipresenciais, podendo disponibilizar conteúdos, publicar material didático, realizar exercícios e avaliações. É o AVA da IES. É na verdade uma adaptação do software Moodle8, um AVA de código aberto. O Ambiente Sophia foi também utilizado como software de apoio a cursos presenciais até o primeiro semestre de 2014, e os atributos deste sistema estão descritos no Quadro 10. 7 O ambiente Sophia foi substituído pelo Material Didático, nas disciplinas presenciais no segundo semestre de 2014. Entretanto, os dados utilizados neste trabalho, ainda são oriundos do Sophia. 8 Disponível em: http://moodle.org. Acesso em: 18/07/2014 75 Quadro 10. Atributos do Sistema Ambiente Sophia que serão utilizados. Valores Possíveis SPH_ACE_PROF Inteiro >= Zero SPH_NRO_MSG_PROF Inteiro >= Zero SPH_QUEST Binomial SPH_ACE_ALU Inteiro >= Zero SPH_NRO_MSG_ALU Inteiro >= Zero S: Sim; N: Não; Descrição Número de Acessos do professor à disciplina no Ambiente Sophia Número de mensagens enviada pelo professor na disciplina do Ambiente Sophia Se na disciplina utilizou-se questionários de avaliação Número de Acesso do aluno à disciplina no Ambiente Sophia Número de mensagens enviada pelo aluno na disciplina do Ambiente Sophia 2010/1 X 2010/1 X 2010/1 Curso Tipo de Dado Docente Atributo Aluno Relação Ano/Sem Início (Confiável) X 2010/1 X 2010/1 X 4.2.8 Sistema de Avaliação O sistema de avaliação é utilizado pela IES para diversas pesquisas, dentre elas a Avaliação Institucional, que é aplicada junto à comunidade acadêmica para fornecer conhecimento de seu ambiente nos aspectos de infraestrutura física e curricular e satisfação de alunos e professores. (BORBA, 2012) A Avaliação Institucional é a única que será verificada dentre as avaliações realizadas através do Sistema de Avaliação, e os atributos que serão utilizados no processo de KDD estão relacionados no Quadro 11. 76 Quadro 11. Atributos da Avaliação Institucional que serão utilizados. AIPER_ENS_MED_TIP Binomial AIPER_ENS_MED_MO D Polinomial AIPER_REC_EST Polinomial AIPER_ALEMAO Binomial AIPER_ESPANHOL Binomial AIPER_FRANCES Binomial AIPER_INGLES Binomial AIPER_ITALIANO Binomial AID_COMPLEXIDADE Polinomial AID_EXIGENCIA Polinomial AID_IMPORTANCIA Binomial Valores Possíveis Descrição P: Pública; V:Privada; T: Tradicional; P: Profissionalizante; M: Magistério; J: Educação de Jovens e Adultos; X: Ensino médio concluído no exterior; C: Aplicativos Didáticos Computacionais; A: Apostilas; L: Livros; R: Artigos/Revistas; P: Anotações Pessoais; S: Sim; N: Não; S: Sim; N: Não; S: Sim; N: Não; S: Sim; N: Não; S: Sim; N: Não; A: Alta E: Equivalente B: Baixa A: Alta I: Ideal B: Baixa A: Alta B: Baixa Tipo de escola que cursou o ensino médio 2012/2 X Tipo de ensino médio 2012/2 X Recurso que mais utiliza para estudar 2012/2 X 2012/2 X 2012/2 X 2012/2 X 2012/2 X 2012/2 X Possui conhecimentos de Alemão Possui conhecimentos de Espanhol Possui conhecimentos de Francês Possui conhecimentos de Inglês Possui conhecimentos de Italiano Curso Tipo de Dado Aluno Atributo Docente Relação Ano/Sem Início (Confiável) Complexidade da disciplina, na visão do aluno 2011/1 X Nível de exigência da disciplina, na visão do aluno 2011/1 X Nível de importância da disciplina, na visão do aluno 2011/1 X 4.3 PREPARAÇÃO DOS DADOS Esta seção corresponde à fase “Preparação dos Dados”, da metodologia CRISP-DM, conforme apresentado na Figura 5, tem como objetivo a construção do conjunto de dados final, sobre o qual serão executadas as tarefas de mineração de dados. Nesta etapa foram descartados os dados anteriores à 2005/1 e posteriores à 2014/1. Os dados anteriores à 2005/1 foram descartados após análise e considerações junto à equipe de Tecnologia da Informação, que definiu 2005 como o momento em que os dados começam a ter uma representação melhor da configuração atual do sistema, melhorando assim a confiabilidade. Pode-se citar como 77 exemplo de dados com maior confiabilidade a depois de 2005 o sistema de notas vigente, o registro de carga horária teórica e prática, o registro do número de faltas e os registros de locação de livros e plano de ensino. Os dados posteriores à 2014/1 foram descartados porque 2014/1 foi o último semestre finalizado antes do início da coleta de dados deste trabalho. 4.3.1 Atributos derivados - Simples O entendimento do conjunto de dados apresentados na Seção 4.2 permitiu a criação de atributos derivados com foco em agregar semântica aos dados brutos. A partir da data de nascimento do aluno (DAT_NAS) e o ano e semestre de ingresso do aluno (ALU_DIS_ANO e ALU_DIS_SEM) foi criado o atributo faixa etária do aluno (FXETAALU) que representa a faixa etária do aluno no início do semestre em que a disciplina foi cursada. Como a faixa etária refere-se ao início de cada semestre, um aluno terá várias faixas etárias, facilitando eventuais análises com a faixa etária por disciplina. Para análises referentes ao curso do aluno pode-se obter facilmente a menor faixa etária. Utilizando o atributo de afastamento do aluno (ALU_AFA) foi gerado o atributo indicando se o aluno é ou não egresso do curso em análise (EGRESSOCURSO). Optou-se por gerar este atributo como binomial, com os valores “S” ou “N”, representando “Sim, é egresso do curso em análise” ou “Não, não é egresso do curso em análise”. Como a análise será feita para o GDA ao final do curso, informações de afastamento como morte de aluno (ALU_AFA = 10), Transferência de aluno (ALU_AFA = 2 ou 3) ou Abandono (ALU_AFA = 4) não seriam plenamente utilizados. Pela identificação de obras existentes em um plano de ensino e o registro de suas locações na biblioteca (OBRA_ID e OBRA_LOC) foi criado o atributo número de livros da referência bibliográfica locados (NROLIVROSREFLOC). 4.3.2 Atributos derivados – com análise A partir das médias do aluno (ALU_DIS_MED) foi realizado um estudo utilizando discretização por frequência (vide item 2.2.7 ) que objetivou a criação de GDAs coerentes com as notas de cada um dos cursos analisados, Direito e Engenharia Civil. As médias foram analisadas isoladamente em cada disciplina em que o aluno foi aprovado, assim uma média é referente à uma ou mais avaliações realizadas por um Aluno/Disciplina/Ano/Semestre. 78 Este estudo está alinhado ao OE1: “Definir três grupos de desempenho acadêmico, classificando alunos em três grupos de desempenho acadêmico: Bom Desempenho Acadêmico; Médio Desempenho Acadêmico; Baixo Desempenho Acadêmico”. Para realização deste estudo o conjunto alunos foi separado em dois grupos, um para o curso de Direito e um para o curso de Engenharia Civil. Na análise das médias do curso de Direito os GDAs foram gerados conforme Tabela 11. Tabela 11. Grupos de Desempenho - Direito GDA BADA MDA BDA Discretização por frequência range1 [-∞ - 7.750] range2 [7.750 - 8.750] range3 [8.750 - ∞] Para melhor entendimento da tabela, vale registrar que a média do aluno na disciplina é gravada no banco de dados com um arredondamento de apenas uma casa decimal. O algoritmo de discretização por frequência disponível no RapidMiner apresenta os intervalos com três casas decimais fazendo com que os valores dos intervalos range1, range2 e range3 sejam abertos à esquerda e a direita. Pela discretização apresentada na Tabela 11 podem-se considerar médias iguais ou inferiores a 7,7 como notas que compõe o grupo de baixo desempenho acadêmico (BADA); médias entre 7,8 e 8,7 compõe o grupo de médio desempenho acadêmico (MDA); médias a partir de 8,8 compõe o grupo de bom desempenho acadêmico (BDA). A Figura 6 apresenta o percentual de médias de alunos em cada GDA por ano e semestre. Pode-se notar uma pequena oscilação no percentual de médias que figuram no grupo MDA (em amarelo), variando entre 28 e 33% entre 2005/1 e 2014/1. Já os grupos BDA e BADA sofreram uma variação maior e simétrica, em relação a uma linha aproximada, formada pelo grupo de notas MDA. À medida que o percentual de médias que figuraram no BDA (em verde) sobe o percentual de médias no BADA (em vermelho) cai. Na queda do percentual de médias do BDA existe um aumento de médias no grupo BADA. 79 É difícil afirmar que existe uma relação de causa e efeito direta entre o BDA e o BADA. Uma compreensão mais profunda do motivo desta simetria precisaria ser investigada junto à coordenação do curso. Figura 6. Discretização de notas por frequência - Direito. Na análise das médias do curso de Engenharia Civil os GDA foram gerados conforme Tabela 12. Tabela 12. Grupos de Desempenho – Engenharia Civil GDA BADA MDA BDA Discretização por frequência range1 [-∞ - 7.250] range2 [7.250 - 8.250] range3 [8.250 - ∞] Pela discretização apresentada na Tabela 12 podem-se considerar médias iguais ou inferiores a 7,2 como notas que compõe o grupo de baixo desempenho acadêmico (BADA); médias entre 7,3 e 8,2 compõe o grupo de médio desempenho acadêmico (MDA); médias a partir de 8,3 compõe o grupo de bom desempenho acadêmico (BDA). Nota-se aqui que no curso de Engenharia Civil a discretização por frequência colocou médias meio ponto menores no grupo BDA. Em Direito o grupo BDA começa em 8,8 e em 80 Engenharia Civil médias acima de 8.3 já figuram no grupo BDA. Nas análises exploratórias feitas notou-se ainda que esta diferença seria ainda maior, subindo de meio para um ponto, caso a discretização por frequência considerasse também as disciplinas em que os alunos reprovaram. A taxa de reprovações no curso de Engenharia Civil é maior que às do curso de Direito, como apresentado na Tabela 13. Entre 2005/1 e 2014/1 no curso de Engenharia Civil houve reprovação em 26,80% das disciplinas cursadas 10,20 pontos percentual maior que o percentual de reprovações em disciplinas cursadas no curso de Direito. Se a fosse considerada a discretização por frequência também sobre as disciplinas reprovados o intervalo de definição dos GDA não deixaria nenhum aluno egresso de Engenharia Civil no grupo BADA. Tabela 13. Percentual de reprovações entre 2005/1 e 2014/1. Curso Direito Engenharia Civil Percentual de Reprovações 16,68% 26,80% A Figura 7 apresenta o percentual de médias de alunos em cada GDA por ano e semestre. É possível observar uma relativa consistência no percentual de médias no grupo BDA (em verde) e MDA (em amarelo). Já no grupo BADA (em vermelho) existe uma aparente tendência de diminuição do percentual de médias que compõe este grupo. A partir do estudo de discretização de frequência apresentado, foram criados quatro atributos. O primeiro, GDA_DISCIPLINA, representado o grupo de desempenho em função da média da disciplina, de acordo com a Tabela 11 e a Tabela 12. O segundo atributo criado foi GDA_EGRESSO, que considera a soma das médias das disciplinas cursadas com aprovação durante todo o curso dividido pelo número de disciplinas. Consideram-se aqui apenas as disciplinas onde o aluno foi aprovado porque são essas que compõe o histórico oficial do aluno, e é este atributo que se pretende classificar em função dos semestres iniciais. 81 Figura 7. Discretização de notas por frequência – Engenharia Civil. O terceiro e quarto atributos criados referem-se à média do aluno nas disciplinas cursadas no primeiro, segundo, terceiro e quarto semestres. O atributo GDA_PER1234 considera a soma da média das disciplinas cursadas com aprovação durante os quatro primeiros períodos, dividido pelo número de disciplinas cursadas nestes. O atributo GDA_SUJA_PER1234 considera a soma da média das disciplinas cursadas com aprovação ou reprovação durante os quatro primeiros períodos. 4.3.3 Atributos não utilizados no conjunto de dados final Alguns dos atributos listados na Seção 4.2, ficaram de fora do conjunto de dados final a ser analisado. Os atributos de ano e semestre que o aluno cursou a disciplina (ALU_DIS_ANO e ALU_DIS_SEM) foram utilizados para o cálculo da faixa etária do aluno e depois disso foram descartados da análise final por não haver intenção de uma análise temporal dos dados. Também por não ser foco deste estudo uma análise temporal dos dados, foram descartados os atributos e ano e semestre de ingresso do aluno (ANO_INGR e SEM_INGR). O atributo de afastamento do aluno ALU_AFA, utilizado para geração do atributo derivado de aluno egresso (EGRESSOCURSO) foi descartado da análise final. Na mesma linha, o atributo de 82 carga horária do professor na IES (PROF_CGH) não consta no conjunto de dados que será analisado pois foi derivado para o atributo regime de trabalho (PROF_TRAB). Atributos de identificação de disciplina (DIS_COD); de identificação de uma obra bibliográfica (OBRA_ID) necessários para totalização número de livros da referência bibliográfica locados (NROLIVROSREFLOC) também foram excluídos do conjunto de dados final. 4.3.4 Conjuntos de dados Obtidos os atributos, foram gerados quatro conjuntos de dados (CDA), com o objetivo de viabilizar as análises. Cada conjunto de dados se desdobrou em dois, um específico para o curso de Direito, e um específico para o curso de Engenharia Civil. Os dois primeiros conjuntos, CDADir (com dados do curso de Direito) e CDAEng (com dados do curso de Engenharia) contém todos os registros desdobrados por disciplina. Nos dois últimos conjuntos CDAEgressoDir (com dados do curso de Direito) e CDAEgressoEng (com dados do curso de Engenharia) foi mantido apenas os registros de alunos egresso aos respectivos cursos, com apenas uma linha por pessoa (1 linha por CPF). As colunas deste arquivo totalizam as informações dos quatro primeiros períodos do aluno. Por exemplo, nos arquivos CDADir e CDAEng existe o atributo de titulação do professor (PROF_TITUL) que pode assumir os valores “G” (graduação); “P” (pós-graduação); “M” (mestrado); “D” (Doutorado), se transformou em 4 colunas distintas com a contagem do número de professores que o aluno teve aula em seu curso, em QTD_DIS_PROF_ESP; cada uma das titulações QTD_DIS_PROF_MES; citadas (QTD_DIS_PROF_GRA; QTD_DIS_PROF_DOU), totalizando a quantidade de professores que ministraram aulas a este aluno nos quatro primeiros períodos de seu curso. O Quadro 12 sintetiza os conjuntos de dados CDADir e CDAEng. Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng. Atributo SEXO TIP_DEF Tipo de Dado Valores Possíveis M: Masculino; F: Feminino; Polinomial NI: Não Informado / Sem Binomial Descrição Percentual Faltantes (% missing values) Gênero da pessoa 0 Tipo de deficiência. 0 83 Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng. Atributo GRU_INGR CURSO RES_FIN NEG_FIN BOLSA FINANCIAMENTO DIS_TIP DIS_PER Tipo de Dado Valores Possíveis Descrição necessidade especial; FIS: Deficiência Física; Alunos que necessitam de auxílio AUD: Deficiência para assistir aula certamente tem Auditiva; valor cadastrado aqui. VIS: Deficiência Visual; MEN: Mental; Se o aluno é superdotado o cadastro DOW: Síndrome de é feito neste campo, apesar de não Down; ser uma deficiência. AUT: Autismo; SUP: Altas Habilidades/Superdotação TEX: Transferência Externa; TIN: Transferência Interna; Indica por qual meio o aluno Polinomial UNI: ProUni; ingressou neste curso da IES REI: Reingresso; SEL: Processo Seletivo; VES: Vestibular; OUT: Outros; Nesta análise serão analisados DIR: Direito; Binomial apenas alunos dos cursos de Direito CIV: Engenharia Civil; e Engenharia Civil. R: Aluno é o próprio responsável Financeiro; Indica quem é o responsável Binomial D: Aluno é dependente financeiro pelo curso. financeiro; Indica se em algum momento o S: Sim; responsável financeiro pelo aluno Binomial N: Não; recorreu a um acordo para pagamento de débitos S: Sim; Indica se no semestre o aluno Binomial N: Não; obteve algum tipo de bolsa. Indica se no semestre o aluno a S: Sim; Binomial algum tipo de financiamento gerido N: Não; pela IES N: Normal; E: Estágio; Polinomial Tipo de disciplina T: TCC; P: Projetuais; Período da disciplina no currículo. 0 – 11 Polinomial DIS_OBR Binomial S: Sim; N: Não; DIS_INTENSIVO Binomial S: Sim; N: Não; DIS_HOR_PRATICAS DIS_HOR_TEORICAS DIS_HOR_LAB ALU_DIS_MAIS1_PROF Inteiro Inteiro Inteiro Binomial 0 – 300 0 – 300 0 – 81 S: Sim; É o período em que a disciplina deveria ter sido cursada, e não o período em que ela foi cursada. Período ZERO se refere a disciplinas eletivas ou p Indica se é uma disciplina obrigatória ou não obrigatória (optativa) Indica se disciplina foi cursada em regime intensivo Carga horária prática da disciplina Carga horária teórica da disciplina Carga horária de laboratório Indica se mais de um professor Percentual Faltantes (% missing values) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 84 Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng. Atributo Tipo de Dado Valores Possíveis N: Não; NROLIVROSREFLOC GDA_DISCIPLINA EGRESSOCURSO ALU_DIS_APR ALU_DIS_FALTAS ALU_DIS_AVA PROF_TITUL PROF_TRAB 0 – 11 Inteiro BDA: Bom Desempenho Acadêmico MDA: Médio Polinomial Desempenho Acadêmico BADA: Baixo Desempenho Acadêmico S: Sim; Binomial N: Não; S: Sim; Binomial N: Não; Inteiro >= Zero Inteiro > Zero G: Graduação; P: Pós-Graduação; Polinomial M: Mestrado; D: Doutorado; H: Horista; Polinomial P: Parcial; I: Integral; SPH_ACE_PROF Inteiro >= Zero SPH_NRO_MSG_PROF Inteiro >= Zero SPH_QUEST Binomial SPH_ACE_ALU Inteiro >= Zero SPH_NRO_MSG_ALU Inteiro >= Zero S: Sim; N: Não; P: Pública; V:Privada; T: Tradicional; P: Profissionalizante; M: Magistério; AIPER_ENS_MED_MOD Polinomial J: Educação de Jovens e Adultos; X: Ensino médio concluído no exterior; C: Aplicativos Didáticos Computacionais; A: Apostilas; AIPER_REC_EST Polinomial L: Livros; R: Artigos/Revistas; P: Anotações Pessoais; S: Sim; AIPER_ALEMAO Binomial N: Não; S: Sim; AIPER_ESPANHOL Binomial N: Não; S: Sim; AIPER_FRANCES Binomial N: Não; S: Sim; AIPER_INGLES Binomial N: Não; AIPER_ENS_MED_TIP Binomial Descrição ministrou a disciplina Número de livros da referência bibliográfica que foram locados. Percentual Faltantes (% missing values) 0 Desempenho acadêmico baseado na média do aluno da disciplina em análise. 0 Indica se o aluno é ou não egresso do curso em análise. 0 Aprovado na disciplina 0 Número de faltas Número de avaliações 0 0 Titulação do professor 0 Regime de trabalho do professor na IES 0 Número de Acessos do professor à disciplina no Ambiente Sophia Número de mensagens enviada pelo professor na disciplina do Ambiente Sophia Se na disciplina utilizou-se questionários de avaliação Número de Acesso do aluno à disciplina no Ambiente Sophia Número de mensagens enviada pelo aluno na disciplina do Ambiente Sophia Tipo de escola que cursou o ensino médio 99,66 99,66 99,66 99,78 99,78 88,36 Tipo de ensino médio 88,36 Recurso que mais utiliza para estudar 88,36 Possui conhecimentos de Alemão 92,20 Possui conhecimentos de Espanhol 92,20 Possui conhecimentos de Francês 92,20 Possui conhecimentos de Inglês 92,20 85 Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng. Atributo AIPER_ITALIANO AID_COMPLEXIDADE AID_EXIGENCIA AID_IMPORTANCIA Tipo de Dado Valores Possíveis S: Sim; N: Não; A: Alta Polinomial E: Equivalente B: Baixa A: Alta Polinomial I: Ideal B: Baixa A: Alta Binomial B: Baixa Binomial Descrição Percentual Faltantes (% missing values) Possui conhecimentos de Italiano 92,20 Complexidade da disciplina, na visão do aluno 84,91 Nível de exigência da disciplina, na visão do aluno 84,99 Nível de importância da disciplina, na visão do aluno 84,40 O Quadro 13 sintetiza os conjuntos de dados CDADirEgresso e CDAEngEgresso, que contém a informação dos 4 primeiros períodos do curso do aluno Quadro 13. Atributos dos conjuntos de dados CDADirEgresso e CDAEngEgresso. Atributo Tipo de Dado Valores Possíveis Descrição M: Masculino; Gênero da pessoa F: Feminino; NI: Não Informado / Sem necessidade especial; Tipo de deficiência. FIS: Deficiência Física; AUD: Deficiência Alunos que necessitam de auxílio Auditiva; para assistir aula certamente tem VIS: Deficiência Visual; TIP_DEF Polinomial valor cadastrado aqui. MEN: Mental; DOW: Síndrome de Se o aluno é superdotado o cadastro Down; é feito neste campo, apesar de não AUT: Autismo; ser uma deficiência. SUP: Altas Habilidades/Superdotação Nro. de professores Doutores que PROF_TITUL_DR4 Inteiro >= Zero ministraram aulas ao egresso Inteiro Nro. de professores Mestres que PROF_TITUL_MS4 >= Zero ministraram aulas ao egresso Inteiro Nro. de professores especialistas PROF_TITUL_ESP4 >= Zero que ministraram aulas ao egresso Inteiro Nro. de professores apenas com PROF_TITUL_GRA4 >= Zero graduação que ministraram aulas ao egresso Inteiro Nro. de professores horistas que PROF_TRAB_HORISTA4 >= Zero ministraram aulas ao egresso Inteiro Nro. de professores com carga horária parcial que ministraram PROF_TRAB_PARCIAL4 >= Zero aulas ao egresso (carga horária entre 12 e 39 horas semanais) Inteiro Nro. de professores com carga PROF_TRAB_INTEGRA horária integral que ministraram >= Zero L4 aulas ao egresso (carga horária maior ou igual a 40 horas semanais) DIS_INTENSIVO_QTD4 Inteiro >= Zero Quantidade de disciplinas cursadas SEXO Binomial Percentual Faltantes (% missing values) 0 0 0 0 0 0 0 0 0 0 86 Quadro 13. Atributos dos conjuntos de dados CDADirEgresso e CDAEngEgresso. Atributo ALU_DIS_APR_QTD4 ALU_DIS_APR_QTD_RE PROVADO4 DIS_OBR_QTD_OBRIG ATORIA4 DIS_OBR_QTD_NAOOB RIGATORIA4 ALU_DIS_FALTAS4 GDA_PER4 GDA_SUJA_PER4 GDA_EGRESSO Tipo de Dado Inteiro Inteiro Inteiro Inteiro Valores Possíveis >= Zero >= Zero >= Zero >= Zero Inteiro >= Zero BDA: Bom Desempenho Acadêmico MDA: Médio Polinomial Desempenho Acadêmico BADA: Baixo Desempenho Acadêmico BDA: Bom Desempenho Acadêmico MDA: Médio Polinomial Desempenho Acadêmico BADA: Baixo Desempenho Acadêmico BDA: Bom Desempenho Acadêmico MDA: Médio Polinomial Desempenho Acadêmico BADA: Baixo Desempenho Acadêmico Descrição no regime intensivo. Quantidade de disciplinas em que o aluno foi aprovado. Quantidade de disciplinas em que o aluno foi reprovado. Quantidade de disciplinas obrigatórias cursadas pelo egresso. Quantidade de disciplinas não obrigatórias cursadas pelo egresso. Número de faltas do egresso. Percentual Faltantes (% missing values) 0 0 0 0 0 Desempenho acadêmico baseado na média do aluno nos quatro primeiros períodos. Considera apenas as disciplinas aprovadas. 0 Desempenho acadêmico baseado na média “suja” do aluno nos quatro primeiros períodos. Considera disciplinas aprovadas e não aprovadas. 0 Desempenho acadêmico baseado na média de todas as disciplinas do aluno durante o curso. Este é o atributo que pretende-se predizer. 0 4.4 MODELAGEM Esta seção corresponde à fase “avaliação” da metodologia CRISP-DM, conforme apresentado na Figura 5, tem como objetivo selecionar, configurar e utilizar os algoritmos de mineração de dados. 4.4.1 Seleção dos algoritmos para conjuntos de dados CDADir e CDAEng. A ferramenta RapidMiner, selecionada no estudo descrito na Seção 2.4, possui nativamente 401 operadores que viabilizam o processo de mineração, desde a extração de dados até a apresentação dos resultados, destes 118 estão relacionados à etapa de modelagem, dos quais 49, aplicáveis a tarefas de Clusterização, Associação e Classificação (relacionados no Apêndice B) os demais não se referem a estas tarefas, sendo aplicáveis a análise estatística (ANOVA), similaridade de dados (Cross Distances), dentre outros. 87 Verificando os dados analisados, descritos no Quadro 12, tem-se, atributos binomiais, polinomiais, e numéricos. Desta forma, foram selecionados algoritmos que possam lidar com estes tipos de dados. Buscou-se obter regras que levam alunos a determinado GDA (rótulo), assim serão selecionados algoritmos que gerem regras ou árvores de decisão como saída, sendo descartados algoritmos que gerem modelos de redes neurais ou fórmulas de regressão. Também serão descartados algoritmos que não aceitem um rótulo de entrada. O Quadro 14 apresenta os algoritmos relacionados no Apêndice B, que atendem aos requisitos de entrada: atributos binomiais; polinomiais e numéricos. Também os requisitos de saída: regras de associação (incluídos também os que geram árvores de decisão que podem ser transcritas em formato de regras). Quadro 14. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng Algoritmo Decision Tree Random Tree Random Clustering K-Means Kernel DBSCan K-Metoids Tarefa Permitidas Classificação Associação Classificação Associação Clusterização Clusterização Clusterização Clusterização Lida com Dados Faltantes Permite Rótulo Sim Sim Árvore de decisão Sim Sim Árvore de decisão Sim Não Não Não Não Não Não Não CDA Clusterizado CDA Clusterizado CDA Clusterizado CDA Clusterizado Saída Para ampliar a abrangência da análise, os atributos dos conjuntos de dados CDADir e CDAEng foram discretizados e os atributos do Quadro 12 que contém dados faltantes foram retirados da análise, assim, tornou-se viável a aplicação dos algoritmos do Quadro 15. Quadro 15. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng discretizado, sem valores faltantes Algoritmo CHAID Decision Stump Decision Tree (Weight-Based) ID3 Tarefa Permitidas Classificação Associação Classificação Associação Classificação Associação Classificação Lida com Dados Faltantes Permite Rótulo Não Sim Árvore de decisão Não Sim Árvore de decisão Não Sim Árvore de decisão Não Sim Árvore de decisão Saída 88 Quadro 15. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng discretizado, sem valores faltantes Algoritmo Rule Induction Single Rule Induction (Single Attribute) Tarefa Permitidas Associação Classificação Associação Classificação Associação Lida com Dados Faltantes Permite Rótulo Não Sim Regras Não Sim Regras Saída 4.4.2 Seleção dos algoritmos para conjunto de dados CDADirEgresso e CDAEngEgresso Verificando os dados que serão analisados, descritos no Quadro 13, tem-se sob análise, atributos binomiais, polinomiais, e numéricos, assim serão selecionados algoritmos que possam lidar com estes tipos de dados, sem apresentar dados faltantes, já que nos conjuntos de dados CDADirEgresso e CDAEngEgresso os atributos que continham dados faltantes foram eliminados. À exemplo da seção 4.4.1 pretende-se obter regras que levam alunos a determinado GDA (rótulo), assim serão selecionados algoritmos que gerem regras ou árvores de decisão como saída, sendo descartados algoritmos que gerem modelos de redes neurais ou fórmulas de regressão. Também serão descartados algoritmos que não aceitem um rótulo de entrada. O Quadro 16 apresenta os algoritmos relacionados no Apêndice B, que atendem aos requisitos de entrada: atributos binomiais; polinomiais e numéricos. Também os requisitos de saída: regras de associação (incluídos também os que geram árvores de decisão que podem ser transcritas em formato de regras). Quadro 16. Algoritmos que cumprem os pré-requisitos para CDADirEgresso e CDAEngEgresso. Algoritmo Decision Tree Random Tree Random Forest Tarefa Permitidas Classificação Associação Classificação Associação Classificação Associação Lida com Dados Faltantes Permite Rótulo Sim Sim Árvore de decisão Sim Sim Árvore de decisão Não Sim Árvore de decisão Saída 89 Para incrementar a análise, os atributos dos conjuntos de dados CDADirEgresso e CDAEngEgresso foram discretizados e os atributos do Quadro 13 que contém dados faltantes foram retirados da análise, assim, tornou-se viável a aplicação dos algoritmos do Quadro 17. Quadro 17. Algoritmos que cumprem os pré-requisitos para CDADirEgresso e CDAEngEgresso discretizado, sem valores faltantes. Algoritmo CHAID Decision Stump Decision Tree (Weight-Based) ID3 Rule Induction Single Rule Induction (Single Attribute) Tarefa Permitidas Classificação Associação Classificação Associação Classificação Associação Classificação Associação Classificação Associação Classificação Associação Lida com Dados Faltantes Permite Rótulo Não Sim Árvore de decisão Não Sim Árvore de decisão Não Sim Árvore de decisão Não Sim Árvore de decisão Não Sim Regras Não Sim Regras Saída 4.5 PLANO DE AVALIAÇÃO Esta seção corresponde à fase “avaliação” da metodologia CRISP-DM, conforme apresentado na Figura 5, tem como objetivo avaliar o conhecimento gerado e melhora-lo através de iterações com as fases anteriores do processo. A avalição do processo de KDD desenvolvido neste trabalho vai ao encontro dos objetivos levantados na fase de “Entendimento do Negócio”, descritos na Seção 4.1. A resposta da pergunta de pesquisa P1 é alcançada através das regras de associação que permitem mensurar sua qualidade através de indicadores como suporte e confiança, conforme ilustrado na Figura 8. Como primeira etapa na busca da pesquisa P1 A utilização de regras e associação com a qualidade mensurada pelo suporte e confiança foi utilizado nos trabalhos de Zhang (2010) Carmona et al. (2011), Samaranayake e Caldera (2012), além de ser descrito na literatura em trabalhos como Witten, Frank e Hall (2011). 90 Figura 8. Avaliação de P1; OE1. OE1: Definir três grupos de desempenho acadêmico, classificando alunos em três grupos de desempenho acadêmico: Bom Desempenho Acadêmico; Médio Desempenho Acadêmico; Baixo Desempenho Acadêmico. P1: Quais são os aspectos do ambiente de ensino-aprendizagem que levam alunos da IES analisada a concluírem o curso em um determinado GDA? Dados Selecionados para análise Gerar Regras de Associação Suporte Confiança Aspectos do grupo BDA Aspectos do grupo MDA BDA Segmentação em GDA MDA BADA Aspectos do grupo BADA A resposta da pergunta P2, é alcançada através de regras de associação como na pergunta P1, entretanto, para viabilizar a comparação entre cursos as regras de associação serão geradas a partir de dois subconjuntos de dados, um para cada curso. A comparação será feita através de análise, regra a regra, dos indicadores de suporte e da confiança. As regras com os melhores suporte e confiança de cada curso viabilizaram a resposta da pergunta P2. Através da resposta da pergunta P2, será possível alcançar o objetivo estratégico OE1 e assim validar a hipótese H1. A Figura 9 ilustra a avaliação descrita. 91 Figura 9. Avaliação de P2; OE2; H1. H1: Os fatores do ambiente de ensino-aprendizagem que levam um aluno de Direito a concluir o curso em determinado GDA não são os mesmos que levam um aluno de Engenharia Civil a figurar no mesmo GDA. OE2: Identificar as características do ambiente de ensino-aprendizagem que ocorrem com maior frequência em cada grupo de desempenho acadêmico, documentando eventuais diferenças entre os cursos de Direito e Engenharia Civil. P2: Os fatores do ambiente de ensino-aprendizagem que podem levar um aluno de Direito a concluir o curso em um determinado GDA são os mesmos de um aluno de Engenharia Civil? Aspectos do grupo BDA Curso de Direito Aspectos do grupo MDA Curso de Direito MDA BADA Dados Selecionados para análise Curso de Engenharia Civil Gerar Regras de Associação Suporte Confiança BDA Segmentação em GDA MDA BADA Aspectos do grupo BADA Curso de Direito Aspectos do grupo BADA Curso de Engenharia Civil Aspectos do grupo MDA Curso de Engenharia Civil Comparação das melhores regras BDA Segmentação em GDA Comparação das melhores regras Gerar Regras de Associação Suporte Confiança Comparação das melhores regras Dados Selecionados para análise Curso de Direito Aspectos do grupo BDA Curso de Engenharia Civil Para responder à pergunta P3, os dados do primeiro, segundo, terceiro e quarto semestres dos alunos foram analisados, utilizando os algoritmos descritos nos Quadro 16 e Quadro 17. A análise foi feita sobre 80% destes dados (dados de treinamento). Os modelos de classificação resultantes (que será representado no formato de regras de associação) foram aplicados a 20% dos dados restantes (dados de testes) para classifica-los em um GDA. O resultado da classificação dos 92 20% dos dados foi comparado através de matriz de confusão ao GDA real (conhecido por se tratarem de alunos egressos em analise obtida no OE1) viabilizando o cálculo da acurácia e da estatística Kappa. Uma acurácia igual ou superior à 60% trará uma resposta positiva à pergunta P3. A resposta positiva também pode vir de uma estatística Kappa maior ou igual a 0.41, considerado um nível de aceitação moderado por Landis e Koch (1977), conforme Tabela 4. Figura 10. Avaliação de P3; OE3; OE4; H2. H2: É possível identificar o GDA de um aluno ao final de seu curso, com acurácia maior que 50%, baseado na análise dos quatro primeiros semestres do curso. OE3: Desenvolver modelo de predição do Grupo de Desempenho Acadêmico, baseado na análise dos semestres iniciais, utilizando técnicas de mineração de dados. OE4: Validar eficiência do modelo de predição do grupo de desempenho acadêmico dos alunos através de acurácia e estatística Kappa da classificação. P3: Com os dados disponíveis para análise pela IES, é possível criar um modelo que permita predizer o GDA que um aluno estará inserido ao final do curso analisando apenas os semestres iniciais? Dados sob Análise Alunos egressos do curso de Direito e Engenharia Civil GDA ao final do curso conhecido Dados dos 1º 2º 3º 4º Semestres 20% dos dados (Amostragem Extratificada) Validação do modelo de classificação (Matriz de Confusão Acurácia 80% dos dados Aplicação do Modelo (Amostragem Extratificada) (Testes) Algoritmos de Classificação Modelo de Classificação Dados Classificados (Treinamento) (Árvore de Decisão) (Previsão do GDA ao final do curso) Kappa) 93 5 RESULTADOS Este capítulo apresenta uma síntese dos melhores resultados da aplicação dos algoritmos apresentados nas Seções 4.4.1 e 4.4.2 sobre os conjuntos de dados descritos na Seção 4.3.4 . 5.1.1 Resultados da análise dos conjuntos de dados CDADir e CDAEng. Nesta sessão são apresentados os resultados mais relevantes da tarefa de Modelagem, da Metodologia CRISP-DM, apresentada na Figura 5, para os conjuntos de dados CDADir e CDAEng. Os resultados apresentados nesta seção estão alinhados ao OE2: “Identificar as características do ambiente de ensino-aprendizagem que ocorrem com maior frequência em cada grupo de desempenho acadêmico, documentando eventuais diferenças entre os cursos de Direito e Engenharia Civil.”. 5.1.1.1 Percentual de GDA por curso Guiado pelo método de priorização do algoritmo com resultados mais simples, recomendado por Witten, Frank e Hall (2011), é apresentada a análise das regras geradas pelo algoritmo “Single Rule Induction (Single Attribute)”, que apresenta regras a partir de um único atributo, relacionadas na Tabela 14. Nota-se que, tanto para o curso de Direito, quanto para o curso de Engenharia Civil, existe uma tendência de que as notas estejam no grupo BADA, exceto para disciplinas TCC e Estágio. Vale ressaltar que regras similares às apresentadas na Tabela 14 foram geradas pelo algoritmo Decision Stump, diferenciando-se apenas pela ordem em que são apresentadas. A tendência identificada pelos algoritmos “Single Rule Induction (Single Attribute)” e “Decision Stump”, apesar de apenas 50,90% de confiança no curso de direito e 56,45% no curso de Engenharia Civil, corrobora com o maior número de notas de disciplinas inseridas nos grupos BADA apresentados semestre a semestre para o curso de Direito (Figura 6) e para o curso de Engenharia Civil (Figura 7). 94 Tabela 14. Regras do Algoritmo Single Rule Induction (Single Attribute) Curso Suporte Confiança Direito Regra if DIS_TIP = N then BADA 92,46% 50,90% Direito if DIS_TIP = E then BDA 5,31% 45,02% Direito if DIS_TIP = T then BDA 2,23% 61,48% Direito if DIS_TIP = P then MDA 0,00% 50,00% Eng. Civil if DIS_TIP = N then BADA 98,22% 56,45% Eng. Civil if DIS_TIP = T then BDA 0,89% 91,48% Eng. Civil if DIS_TIP = E then BDA 0,89% 89,56% Eng. Civil if DIS_TIP = P then BADA 0,01% 66,67% Essa predominância de notas no grupo BADA encontradas nos conjuntos de dados analisados é claramente notada na Figura 11. Figura 11. Percentual dos GDA por Curso. Ainda com relação às regras geras pelo algoritmo “Single Rule Induction (Single Attribute)”, listadas na Tabela 14 nota-se que as notas de disciplinas do tipo TCC tendem a ficar no grupo BDA sendo esta característica mais forte na Engenharia Civil (confiança de 91,48%) que no Direito (61,48%), ilustrado na Figura 12. 95 Figura 12. Percentual dos GDA para Disciplinas TCC, por curso. Apenas 2,68% das disciplinas de TCC cursadas na Engenharia Civil registraram notas do grupo BADA, já no Direito 25,34% das disciplinas cursadas figuraram no grupo de notas mais baixas. 5.1.1.2 Impacto do número de faltas no GDA das notas Pela a análise das regras geradas pelos algoritmos “Decision Tree”, “CHAID”, “Rule Induction”, “ID3” e “Decision Tree (Weight-Based)” foi possível observar que o atributo de número de faltas dos alunos (ALU_DIS_FALTAS) ocorria em regras com confiança acima de 60% nas análises do conjunto de dados referente ao curso de Direito, podendo-se destacar as regras da Tabela 15. Na mesma tabela apresenta-se também regras geradas sobre o conjunto de dados do curso de Engenharia Civil. Tabela 15. Exemplos de regra com ALU_DIS_FALTAS em destaque Curso Algoritmo 1 Direito Decision Tree WB 2 Direito Decision Tree WB Regra if DIS_TIP = N and DIS_HOR_TEORICAS = range1 [-∞ - 75] and ALU_DIS_FALTAS = range2 [4.500 - ∞] and DIS_INTENSIVO = N and TIP_DEF = NI and SEXO = F then BADA if DIS_TIP = N and DIS_HOR_TEORICAS = range1 [-∞ - 75] and ALU_DIS_FALTAS = range1 [-∞ - 4.500] and Suporte Confiança 22,48% 62,50% 1,44% 67,59% 96 Tabela 15. Exemplos de regra com ALU_DIS_FALTAS em destaque DIS_OBR = N and DIS_HOR_PRATICAS = range1 [-∞ - 7.500] and PROF_TITUL = D and DIS_HOR_LAB = range1 [-∞ 2.500] then BDA 3 Direito 4 Direito 5 Direito 6 Direito 7 Eng. Civil 8 Eng. Civil 9 Eng. Civil 10 Eng. Civil Rule Induction (Critério Acurácia) Rule Induction (Critério Acurácia) Rule Induction (Critério Acurácia) CHAID CHAID CHAID Rule Induction (Critério Acurácia) Rule Induction (Critério Acurácia) if ALU_DIS_FALTAS = range2 [4.500 - ∞] and DIS_TIP = T then BADA 0,12% 98,60% if ALU_DIS_FALTAS = range2 [4.500 - ∞] and PROF_TITUL = D then BADA 3,10% 76,03% if ALU_DIS_FALTAS = range2 [4.500 - ∞] and GRU_INGR = REI then BADA 4,75% 71,51% 12,50% 70,28 12,03% 79,21% 8,12% 46,19% 3,15% 58,77% 0,17% 45,57% if DIS_HOR_LAB = range1 [-∞ 2.500] and DIS_HOR_PRATICAS = range1 [-∞ - 7.500] and DIS_HOR_TEORICAS = range1 [-∞ - 75] and ALU_DIS_FALTAS = range2 [4.500 - ∞] and ALU_DIS_AVA = range1 [-∞ 6.500] and SEXO = M then BADA if DIS_HOR_LAB = range1 [-∞ 2.500] and DIS_HOR_PRATICAS = range2 [22.500 - ∞] and DIS_HOR_TEORICAS = range1 [-∞ - 35] and ALU_DIS_FALTAS = range2 [4.500 - ∞] then BADA if DIS_HOR_LAB = range1 [-∞ 2.500] and DIS_HOR_PRATICAS = range1 [-∞ - 22.500] and DIS_HOR_TEORICAS = range1 [-∞ - 35] and ALU_DIS_FALTAS = range1 [-∞ - 4.500] and ALU_DIS_AVA = range1 [-∞ 6.500] then BDA if ALU_DIS_FALTAS = range2 [4.500 - ∞] and DIS_HOR_TEORICAS = range2 [35 - ∞] then BADA if ALU_DIS_FALTAS = range2 [4.500 - ∞] and RES_FIN = D then BDA 97 Nota-se pelas regras apresentadas na Tabela 15 que o atributo ALU_DIS_FALTAS, quando maior que 4, tende a apresentar como conclusão da regra o grupo BADA. Pode-se destacar também que, quando ALU_DIS_FALTAS é menor ou igual a 4, a conclusão tende a ser BDA. Existem regras que indicam o oposto como a regra 4 da Tabela 15 “if ALU_DIS_FALTAS = range2 [4.500 - ∞] and RES_FIN = D then BDA” com confiança de apenas 46,19%. Mesmo com exceções como esta, foi realizada uma análise do impacto do número de faltas sobre a nota do aluno. A Figura 13 apresenta o percentual de notas de disciplinas figurando nos grupos BDA e BADA, em função do número de falta dos na disciplina. Figura 13. Percentual do GDA em função do número de faltas. Ao analisar a Figura 13 é possível perceber que, dentre as disciplinas cujos alunos tiveram quatro faltas, 25,63% e 24,81% figuraram no grupo BDA, para os cursos de Direito e Engenharia Civil, respectivamente. O percentual de disciplinas cujas notas figuraram no grupo BDA cai para 11,86% no curso de Direito e 13,24% no curso de Engenharia Civil, quando considerados apenas as disciplinas cujos alunos tiveram 10 faltas, e o percentual de notas do grupo BDA tende a cair, conforme aumenta o número de faltas. Quando analisado os grupos de desempenho acadêmico de disciplinas que figuraram no grupo BADA nota-se o comportamento inverso, aumentando o percentual de notas BADA à medida que o número de faltas sobe. No curso de Direito, o percentual de notas do grupo BADA, para 98 alunos com 4 faltas é de 43,25%, subindo para 60,91% quando o aluno teve 10 faltas. Na Engenharia Civil, o percentual sobe de 49,08% com 4 faltas para 68,72% com 10 faltas. Pelas regras exemplificadas na Tabela 15, parece existir uma tendência de que o aluno obtenha nota no grupo BDA quando ALU_DIS_FALTAS é menor ou igual a 4, e nota no grupo BADA quando ALU_DIS_FALTAS é maior que quatro, fato que pode ser melhor visualizado na Tabela 16. Tabela 16. Percentual das notas em função do curso e número de faltas BDA MDA Direito 24,55% 27,19% População Engenharia Civil 22,48% 22,03% Amostra com até 4 Faltas Amostra com mais de 4 Faltas BADA 48,26% 55,49% Direito 33,23% 30,48% 36,29% Engenharia Civil 30,23% 25,63% 44,05% Direito 11,94% 22,41% 65,65% Engenharia Civil 11,58% 17,04% 71,37% Por outro lado, a regra 3 da Tabela 15 “if ALU_DIS_FALTAS = range2 [4.500 - ∞] and DIS_TIP = T then BADA”, referente ao curso de Direito, chama a atenção pela confiança de 98,60% e pela conclusão BADA, especialmente tendo sido identificado na Tabela 14, que no curso de Direito disciplinas do tipo TCC (DIS_TIP = T) tendem a ficar no grupo BDA, com confiança de 61,48%. Na Figura 14, é apresentado o percentual de GDA para disciplinas TCC, considerando apenas disciplinas cujos alunos tiveram mais de quatro faltas. 99 Figura 14. Percentual dos GDA para Disciplinas TCC em que o aluno teve mais de 4 faltas. Dentre as disciplinas de TCC, o percentual de alunos que tiveram mais de quatro faltas é de apenas 5,57% no curso de Direito. Na Engenharia Civil 0,48% (apenas duas disciplinas) foram cursadas por alunos que tiveram mais de quatro faltas registradas. Apesar do pequeno percentual, quatro faltas ou mais coloca a nota do aluno, em praticamente 100% das vezes, no grupo de notas BADA. 5.1.1.3 Impacto do tipo de ingresso no GDA das disciplinas O algoritmo “Decision Tree”, com critério acurácia, executado sobre o conjunto de dados do curso de Direito gerou, dentre outras, a regra “if GRU_INGR = REI and TIP_DEF = NI and DIS_TIP = N then BADA”, com confiança de 61,04% e suporte de 9,27%, motivou uma análise mais detalhada do atributo grupo de ingresso (GRU_ING). Conforme apresentado na Figura 11 o curso de Direito tem 48,26% das notas no grupo BADA, entretanto, pela regra citada, disciplinas cursadas por alunos reingresso, sem deficiência física informada, cursando disciplinas do tipo normal, figurariam 61,04% no grupo BADA 12,78 pontos percentuais a mais. A Tabela 17 detalha o percentual de notas que figuram em cada GDA, em função do ingresso do aluno. 100 Tabela 17. Percentual das notas em função do curso e ingresso. Direito BDA MDA BADA BDA Outros Processo Seletivo ProUni Reingresso Transferência Externa Transferência Interna Vestibular 25,66% 26,04% 33,31% 18,33% 22,96% 23,04% 24,40% 28,16% 26,73% 30,96% 24,08% 27,55% 27,37% 27,38% 46,19% 47,23% 35,72% 57,59% 49,49% 49,59% 48,22% 28,03% 22,30% 32,75% 14,31% 19,55% 18,66% 22,43% Engenharia Civil MDA BADA 25,66% 21,08% 25,33% 18,63% 20,70% 19,63% 22,53% 46,30% 56,62% 41,92% 67,05% 59,74% 61,71% 55,04% Analisando a Tabela 17, curso de Direito, nota-se que o grupo BDA varia entre 23,04% e 26,04%, muito próximo da distribuição do curso de Direito apresentada na Figura 11, de 24,55%, exceto para os ingressos ProUni e Reingresso. No ingresso ProUni existem uma tendência de notas do grupo BDA 8,76 pontos percentuais maior que na análise da distribuição natural do curso. Já no Reingresso, o percentual de notas do grupo BDA é de 18,33%, menor que a distribuição apresentada na Figura 11 em 6,22 pontos. Ainda analisando os dados da Tabela 17, mas desta vez nas colunas BDA do curso de Engenharia Civil, nota-se que o percentual do ProUni também é maior que a distribuição apresentada na Figura 11, que é de 22,48%, uma diferença de 10,27 pontos percentuais. Nota-se também que os alunos bolsistas do PROUNI tendem a ter um desempenho similar nos cursos de Direito e Engenharia Civil dentro do grupo BDA, com participação de 33,31% e 32,75%, respectivamente . Entretanto, quando comparados no mesmo curso, em relação aos alunos provenientes de Processo Seletivo e Vestibular, a diferença de desempenho (BDA) é maior na Engenharia Civil. 5.1.1.4 Impacto da Titulação do Professor no GDA O algoritmo “Rule Induction”, com critério ganho de informação, executado sobre o conjunto de dados do curso de Direito gerou, dentre outras, a regra “if DIS_OBR = N and PROF_TITUL = D then BDA”, com confiança de 62,18% e suporte de 1,21%, motivou uma análise mais detalhada do atributo de titulação do professor (PROF_TITUL). 101 Na Tabela 18 pode-se notar que 22,48% das notas de disciplinas do tipo normal tendem a ficar no grupo BDA no curso de Direito (em que a regra foi gerada), e na Engenharia Civil o percentual é semelhante 21,25% das notas de disciplinas do tipo normal ficam no grupo BDA, o que faz com que a regra que diz que disciplinas normais, ministradas por doutores tendem ao grupo BDA com confiança de 60,18% torne-se bastante interessante. Tabela 18. Percentual dos GDA em função do Tipo de Disciplina. Curso Tipo da Disciplina BADA Especial 12,02% Direito Normal 50,90% TCC 25,34% Especial 2,18% Engenharia Civil Normal 56,45% TCC 2,68% MDA 42,97% 26,62% 13,18% 8,25% 22,30% 5,84% BDA 45,02% 22,48% 61,48% 89,56% 21,25% 91,48% Para investigar melhor o impacto da titulação do professor sobre a nota dos alunos foi elaborado o gráfico apresentado na Figura 15, que apresenta o percentual de disciplinas em cada GDA por titulação de professor no curso de Direito. Na Figura 16, são apresentados os mesmos dados para o curso de Engenharia Civil. Figura 15. Grupo de desempenho por titulação, curso de Direito. 102 Pela análise da Figura 15 pode-se perceber que no curso de Direito os 32,85% de notas no grupo BDA em disciplinas ministradas por professores doutores é 8,30 pontos percentuais maior que os 24,55% apresentado na Figura 11. Figura 16. Grupo de desempenho por titulação, curso de Engenharia Civil. Pela análise da Figura 16 pode-se perceber que no curso de Engenharia Civil os 14,75% pontos percentuais de notas no grupo BDA em disciplinas ministradas por professores doutores é 7,73 pontos percentuais menor que os 24,55% apresentado na Figura 11. Na Engenharia Civil destaca-se também as notas geradas por professores Especialistas, destas 32,31% figuraram no grupo BDA uma variação de 9,83% quando comparada a probabilidade de 22,48% de notas no grupo BDA da Engenharia Civil. Aqui vale ressaltar duas informações importantes: (a) A primeira é muitas vezes o professor tem o título de Especialista ou Mestre, mas demora em apresentá-lo junto ao departamento de RH, podendo assim causar distorções não mensuráveis nos gráficos. (b) Existiram apenas 0,28% de disciplinas ministradas por professores apenas com título de Bacharel em 2014 nos cursos analisados. 103 Outra regra interessante que inclui a titulação do professor, gerada também pelo algoritmo “Rule Induction”, mas com critério de Acurácia, no curso de Direito é a regra “if ALU_DIS_FALTAS = range2 [4.500 - ∞] and PROF_TITUL = D then BADA”, com 76,03% de confiança, corroborando que alunos que faltam tentem a nota BADA. 5.1.1.5 Qualidade dos modelos gerados nas análises de CDADir e CDAEng Os resultados descritos nas Seções 5.1.1.1 à 5.1.1.3 descrevem investigações motivadas pelas melhores regras, em termos de suporte e confiança, encontradas pelos algoritmos de mineração apresentados nos Quadro 14 e Quadro 15. Muitas regras geradas na aplicação dos algoritmos foram descartadas por sua baixa confiança ou pelo baixo suporte. Na Tabela 19 são apresentadas algumas regras, e a justificativa de não citá-las nos resultados deste trabalho. Tabela 19. Exemplos de regras descartadas. CDA Algoritmo Critério Relevância de Atributo Regra if ALU_DIS_FALTAS ≤ 8.500 and DIS_TIP = N and DIS_HOR_TEORICAS ≤ 52.500 and PROF_TITUL = E and TIP_DEF = VIS and ALU_DIS_MAIS1_PROF = N and GRU_INGR = UNI then BDA (0 / 2 / 1) if DIS_HOR_LAB = range1 [-∞ - 2.500] and DIS_HOR_PRATICAS = range2 [7.500 - ∞] and DIS_HOR_TEORICAS = range1 [-∞ - 75] and ALU_DIS_FALTAS = range1 [-∞ - 4.500] and ALU_DIS_AVA = range1 [-∞ - 6.500] and SEXO = M and TIP_DEF = AUD then BDA (0 / 2 / 0) if DIS_HOR_LAB = range1 [-∞ - 2.500] and DIS_HOR_PRATICAS = range1 [-∞ - 7.500] and DIS_HOR_TEORICAS = range1 [-∞ - 75] and ALU_DIS_FALTAS = range1 [-∞ - 4.500] and ALU_DIS_AVA = range1 [-∞ - 6.500] and SEXO = F and TIP_DEF = NI then BDA (13536 / 13682 / 10862) Sup. % Conf. % Motivo do Descarte 1,7x 10-3 66,67 Baixo suporte, apenas 11 alunos com deficiência visual em CDADir. Das disciplinas cursadas por eles 25,83% estão no grupo BDA e 43,38% no BADA, muito próximo da distribuição apresentada na Figura 11, quando a deficiência não é considerada. 0,2x 10-3 100 Apesar da confiança de 100%, esta regra classifica apenas 2 registros do CDA sobre o qual foi gerada. 22,0 2 35,93 Esta regra tem um bom suporte, mas a confiança da mesma é muito baixa, apenas 35,93%, ou seja, ela erra em 64,07% dos registros a que se aplica. Dir Decision Tree Coeficiente de Gini Dir CHAID QuiQuadrado Dir CHAID QuiQuadrado Dir Decision Stump Taxa de Ganho de Informação if DIS_TIP = P then MDA (1 / 0 / 1) 0,00 50 Acurácia if DIS_OBR = S and AIPER_ENS_MED_MOD = ? and SPH_QUEST = ? and GRU_INGR = TIN and TIP_DEF = NI and DIS_TIP = N then BADA (2298 / 643 / 728) 7,92 62,63 Eng Decision Tree Além do baixo suporte, aplicando-se a apenas 2 registros, a confiança é de apenas 50%. Se a regra fosse sintetizada à GRU_INGR = TIN (Transferência Interna) a acurácia da mesma seria de 61,67%, conforme apresentada no Tabela 17, e verificando manualmente o CDA, verifica-se que o suporte de tal regra seria de 8,03%. 104 Tabela 19. Exemplos de regras descartadas. Eng ID3 Taxa de Ganho de Informação if DIS_HOR_LAB = range1 [-∞ - 2.500] and DIS_HOR_PRATICAS = range1 [-∞ - 22.500] and DIS_HOR_TEORICAS = range1 [-∞ - 35] and ALU_DIS_FALTAS = range1 [-∞ - 4.500] and ALU_DIS_AVA = range1 [-∞ - 6.500] and SEXO = M and TIP_DEF = NI and BOLSA = N and FINANCIAMENTO = N and PROF_TITUL = M and ALU_DIS_MAIS1_PROF = S then BDA (12 / 16 / 12) 0,09 40 Baixo suporte, baixa confiança. A qualidade dos modelos gerados foi mensurada pela Acurácia de sua aplicação e pela Estatística Kappa, e é relacionado na Tabela 1. Tabela 20. Acurácia e Kappa dos modelos. Taxa de Ganho de Informação Ganho de Informação Acurácia Coeficiente de Gini Qui-Quadrado Taxa de Ganho de Informação Taxa de Ganho de Informação Acurácia do Modelo 48,26 48,26 52,85 54,35 50,63 50,82 53,48 Estatística Kappa 0,000 0,000 0,079 0,212 0,164 0,081 0,194 Taxa de Ganho de Informação 52,59 0,160 Taxa de Ganho de Informação Acurácia Information Gain Não Documentado 48,08 53,24 53,06 50,82 0,144 0,174 0,160 0,081 Ganho de Informação Taxa de Ganho de Informação Coeficiente de Gini Acurácia Qui-Quadrado Taxa de Ganho de Informação Taxa de Ganho de Informação Qui-Quadrado Ganho de Informação 55,48 55,48 59,62 59,62 57,89 57,05 61,23 63,67 63,84 0,000 0,000 0,218 0,218 0,136 0,048 0,227 0,314 0,314 Taxa de Ganho de Informação 60,00 0,214 Taxa de Ganho de Informação Ganho de Informação Acurácia Não Documentado 60,63 59,23 60,49 57,05 0,288 0,182 0,203 0,048 CDA Algoritmo Critério do Algoritmo 01 02 03 04 05 06 07 CDADir-Contínuo CDADir-Contínuo CDADir-Contínuo CDADir-Contínuo CDADir-Discreto CDADir-Discreto CDADir-Discreto 08 CDADir-Discreto 09 10 11 12 CDADir-Discreto CDADir-Discreto CDADir-Discreto CDADir-Discreto Decision Tree Decision Tree Decision Tree Decision Tree CHAID Decision Stump Decision Tree ID3 (mínimo de 1440 registros de suporte) ID3 (mínimo de 2 registro de suporte) Rule Inductino Rule Induction Single Rule Induction (Single Attribute) 13 14 15 16 17 18 19 20 21 CDAEng-Contínuo CDAEng-Contínuo CDAEng-Contínuo CDAEng-Contínuo CDAEng-Discreto CDAEng-Discreto CDAEng-Discreto CDAEng-Discreto CDAEng-Discreto 22 CDAEng-Discreto 23 24 25 26 CDAEng-Discreto CDAEng-Discreto CDAEng-Discreto CDAEng-Discreto Decision Tree Decision Tree Decision Tree Decision Tree CHAID Decision Stump Decision Tree Decision Tree Decision Tree ID3 (mínimo de 180 registros de suporte) ID3 (mínimo de 2 registro de suporte) Rule Induction Rule Induction Single Rule Induction (Single Attribute) Para chegar a estes valores de Acurária e Kappa, os indicadores “Decision Tree”, “CHAID”, “Decision Stump”, “Rule Induction” e “ID3” tiveram diversas configurações de parâmetros testados. O método de testes envolveu, a partir das configurações padrão, ajustar um parâmetro por vez e testá-lo, avaliando a Acurácia e Estatística Kappa. Após o melhor ajuste deste parâmetro, o próximo foi testado, no Apêndice C é apresentado um exemplo do teste de otimização dos parâmetros. 105 5.1.1.6 Investigação de padrões que se repetem em função do número de faltas O impacto do número de faltas no desempenho acadêmico do estudante, descrito na Seção 5.1.1.2 motivou a investigação de padrões que ocorrem em determinados grupos de faltas. Nesta análise, foi investigado o número de faltas discretizado em dois grupos, “até 4 faltas” e “acima de 4 faltas” em cada disciplina cursada. A distribuição desta análise está ilustrada na Figura 17. Figura 17. Percentual de Faltas por Curso, 2 intervalos. Nota-se um número maior de disciplinas em que os alunos tiveram até quatro faltas, no Direito foram 59,23% e na Engenharia Civil 58,13%. O grupo “Acima de 4 Faltas” incluiu 40,77% das disciplinas do curso de Direito e 41,87% das disciplinas de Engenharia Civil. Apesar das regras geradas associarem disciplinas com mais de quatro faltas a notas menores, nota-se que na maior parte das disciplinas houveram até 4 faltas. A Tabela 21 apresenta regra com confiança superior aos percentuais apresentados na Figura 17, e com suporte de pelo menos 1%. Tabela 21. Regra com análise do grupo de faltas Curso 1 Direito Algoritmo Decision Tree Regra if DIS_TIP = N and DIS_OBR = N and PROF_TITUL = D then range1 [-∞ - 4.500] Suporte Confiança 1,6725% 88,73% 106 A regra 1 da Tabela 21, que pode ser lida como “Se ‘Disciplina Normal’ E ‘Disciplina Não Obrigatória’ e ‘Ministrada por Doutor’ então Até 4 Faltas”, do curso de Direito, apresenta uma confiança de 88,73%. Uma análise mais detalhada nos dados permite reescrever esta regra como “if DIS_OBR = N then range1 [-∞ - 4.500]” (“Se ‘Disciplina Não Obrigatória’ então Até 4 Faltas”), com confiança de 86,59% e suporte de 7,40%. No curso de Engenharia Civil não houve nenhuma disciplina optativa registrada nos dados analisados. É possível notar na Figura 18 que, além da existência de menos faltas, disciplinas não obrigatórias têm 43,51% de notas no grupo BDA. Na Figura 11 foi mostrado que no curso de direito o percentual de notas BDA é de 24,55%. Figura 18. Percentual dos GDA em Disciplinas Não Obrigatórias. 5.1.1.7 Aplicação dos Algoritmos de Clusterização Dentre os algoritmos citados no Quadro 15, o “K-Metoids” não pôde ser executado por limitações no hardware disponível. O Algoritmo “DBSCan”, que não permite configurar um número de clusters, identificou, para o curso de Direito 5086 clusters, destes o “cluster_0” tem 72,95% dos dados. Para o curso de Engenharia Civil, foram gerados o algoritmo DBScan gerou 688 clusters com 88,63% dos dados no “cluster_0”, os resultados do algoritmo “DBScan” foram descartados desta análise. Com o algoritmo “KMeans Kernel” foi possível realizar, com o hardware disponível, todos os 46mil registros do curso de Engenharia Civil, assim foram gerados duas análises, uma com três clusters e outra com seis clusters. Não foi possível, entretanto, concluir a clusterização, utilizando o algoritmo“KMeans Kernel”, dos 172mil registros do curso de Direito, nas tentativas de clusterização houve travamento da maquina após aproximadamente 4 dias e 15 horas de processamento. Assim, optou-se por realizar a clusterização de 50 mil registros do curso de Direito, segmentados por meio de 107 amostragem estratificada. Foram realizadas duas análises, uma com três clusters e outra com seis clusters. 5.1.1.8 Análise dos clusters do curso de Direito Nos clusters gerados pelo algoritmo “KMeans Kernel” houve segmentação de clusters mais significativos para o grupo BDA e BADA. A Tabela 22 apresenta o percentual de registros de cada cluster em função do GDA é possível notar que o “D3cluster_0” tem 56,66% de registros BDA e o cluster “D3cluster_2” tem 53,88% de registros BADA. Tabela 22. Distribuição GDA por cluster, Curso de Direito, algoritmo KMeans Kernel, 3 clusters. Cluster BADA MDA BDA D3cluster_0 23,44% 19,90% 56,66% D3cluster_1 48,88% 27,66% 23,46% D3cluster_2 53,88% 20,40% 25,72% Sobre os clusters “D3cluster_0” e “D3cluster_2” foi aplicado o algoritmo “Decision Tree” com critério Coeficiente Gini para verificar se as regras geradas a partir de um cluster com concentração maior de um determinado grupo de desempenho podem ser aplicadas a todo conjunto de dados. Foram geradas regras interessantes como “if TIP_DEF = NI and GRU_INGR = VES and DIS_TIP = N and DIS_INTENSIVO = N and DIS_HOR_TEORICAS > 45 then BADA”, que pode ser lida como “Se ‘Deficiência Física Não Informada’ e ‘Ingresso por Vestibular’ e ‘Disciplina Normal’ e ‘Disciplina não Intensivo’ e ‘Carga horária teórica maior que 45’ então Baixo Desempenho Acadêmico ” com confiança de 79,38 e suporte de 11,58% e “if TIP_DEF = NI and GRU_INGR = VES and DIS_TIP = N and DIS_INTENSIVO = N and DIS_HOR_TEORICAS ≤ 45 and PROF_TITUL = D then BDA”, que pode ser lida como “Se ‘Deficiência Física Não Informada’ e ‘Ingresso por Vestibular’ e e ‘Disciplina Normal’ e ‘Disciplina não Intensivo’ e ‘Carga Horária Teórica menor que 45’ então Bom Desempenho Acadêmico”, com confiança de 77,63% e suporte de 11%. Entretanto o teste destas regras em todo conjunto de dados do curso de Direito faz com que a confiança caia para 34,61% na primeira regra e 34,61% na segunda, o mesmo problema acontece com regras do “D3cluster_2”. Na clusterização em seis grupos, cuja distribuição dos clusters em função do GDA é apresentada na Tabela 23, também foi possível identificar um grupo com majoritariamente registros BADA e outro com maioria BDA. O cluster “D6cluster_2” tem 93,81% de registros BADA e o cluster “D6cluster_3” tem 51,50% de registros BDA. Tabela 23. Distribuição GDA por cluster, Curso de Engenharia Civil, algoritmo KMeans Kernel, 6 clusters. Cluster BADA MDA BDA D6cluster_0 43,66% 21,55% 34,78% D6cluster_1 75,84% 6,76% 17,40% D6cluster_2 93,81% 0,00% 6,19% D6cluster_3 28,18% 20,31% 51,50% D6cluster_4 70,16% 2,42% 27,42% D6cluster_5 54,83% 23,09% 22,09% Nos registros inseridos no cluster “D6cluster_2” e “D6cluster_3” do curso de Direito, foi aplicado o algoritmo “Decision Tree”, que quando configurado pelo critério do Coeficiente de Gini 108 gerou regras que não mantiveram a confiança quando reaplicadas a todo conjunto de dados. Mesmo as melhores regras como “if TIP_DEF = NI and FINANCIAMENTO = N and GRU_INGR = SEL and BOLSA = N and PROF_TITUL = D and DIS_TIP = N and DIS_INTENSIVO = N and CURSO = DIR and PROF_TRAB = I and DIS_HOR_TEORICAS ≤ 37.500 then BDA”, que pode ser lida como “Se ‘Deficiência Física Não Informada’ e ‘Sem Financiamento’ e ‘Ingresso por Processo Seletivo’ e ‘Sem Bolsa’ e ‘Ministrada por Doutor’ e ‘Disciplina Normal’ e ‘Disciplina Não Intensivo’ e ‘Curso de Direito’ e ‘Professor Regime de Trabalho Integral’ e ‘Carga Horária Teórica até 37’ então Bom Desempenho Acadêmico”, com 77,45% de confiança e suporte de 10,02%, não mantiveram a mesma eficiência quando aplicados à todo conjunto de dados, neste caso, a regra aplicada a todo o conjunto de dados teve sua confiança reduzida para 37,28%. 5.1.1.9 Análise dos clusters do curso de Engenharia Civil Nos dados do curso de Engenharia Civil, no qual a clusterização foi realizada sobre todo o conjunto de dados, o algoritmo “KMeans Kernel” configurando o algoritmo para gerar três e seis clusters. A Tabela 24 apresenta o percentual de registros de cada cluster em função do GDA. É possível notar que os clusters “E3cluster_0”, “E3cluster_1” e “E3cluster_2” possuem majoritariamente registros BADA, ou seja, a clusterização não conseguiu diferenciar um cluster majoritariamente BDA, como ocorreu no curso de Direito. Em relação a distribuição dos registros em função dos cluster, o “E3cluster_0” agrupou 96,94% de todos os registros. Tabela 24. Distribuição GDA por cluster, Curso de Engenharia Civil, algoritmo KMeans Kernel, 3 clusters. Cluster BADA MDA BDA E3cluster_0 54,44% 22,73% 22,83% E3cluster_1 89,42% 0,00% 10,58% E3cluster_2 87,60% 0,00% 12,40% Na na Tabela 25 são apresentados os clusters da execução do algoritmo “KMeans Kernel” junto com o percentual de registros de cada GDA. Tabela 25. Distribuição GDA por cluster, algoritmo KMeans Kernel, 6 clusters. Cluster BADA MDA E6cluster_0 43,66% 21,55% E6cluster_1 75,84% 6,76% E6cluster_2 93,81% 0,00% E6cluster_3 28,18% 20,31% E6cluster_4 70,16% 2,42% E6cluster_5 54,83% 23,09% BDA 34,78% 17,40% 6,19% 51,50% 27,42% 22,09% Destacou-se na Tabela 25 o “E6cluster_2”, com 93,81% das notas no grupo BADA e o “E6cluster_3”, com 51,50% das notas no grupo BDA. Sobre estes 2 clusters foi aplicado o algoritmo “Decision Tree”, com critério Coeficiente de Gini que obteve os melhores resultados, conforme apresentado na Tabela 25. 109 Sobre os registros agrupados no cluster_2 o algoritmo “Decision Tree” gerou apenas uma regra “if TIP_DEF = NI then BADA”, com 93,81% de confiança. Apesar da boa confiança para os dados do cluster_2 esta regra não é útil quando aplicada para todo conjunto de dados. Na aplicação do “Decision Tree” sobre o cluster_3, foram geradas 37 regras, das quais destaca-se a regra “if TIP_DEF = NI and PROF_TITUL = M and BOLSA = N and FINANCIAMENTO = N and GRU_INGR = VES and DIS_TIP = N and ALU_DIS_MAIS1_PROF = N and DIS_OBR = S and DIS_INTENSIVO = N and CURSO = ENG and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and NEG_FIN = N and EGRESSOCURSO = N then BDA”, que pode ser lida como “Se ‘Deficiência Física Não Informada’ e ‘Ministrada por Mestre’ e ‘Sem Bolsa’ e ‘Sem Financiamento’ e ‘Ingresso por Vestibular’ e ‘Disciplina Normal’ ‘Apenas Um professor’ e ‘Disciplina Obrigatória’ e ‘Disciplina Não Intensivo’ e ‘Curso Engenharia’ e ‘Professor em Regime de Trabalho Integral’ e ‘Disciplina a partir do quinto período’ e ‘Sexo Feminino’ e ‘Sem Negociação Financeira’ e ‘Aluno não Egresso’ então Bom Desempenho Acadêmico”. Esta regra, quando aplicada a todos os dados do curso de Engenharia Civil classifica corretamente 51,50% dos registros, com suporte de 1,80%. A mesma regra pode ser reescrita como “if PROF_TITUL = M and GRU_INGR = VES and ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and NEG_FIN = N then BDA” (“Se ‘Ministrada por Mestre’ e ‘Ingresso por Vestibular’ e ‘Apenas Um professor’ e ‘Professor em Regime de Trabalho Integral’ e ‘Disciplina a partir do quinto período’ e ‘Sexo Feminino’ e ‘Sem Negociação Financeira’ então Bom Desempenho Acadêmico”) mantendo a classificação correta de 51,02% dos registros BDA. Para o curso de Engenharia Civil, o percentual de alunos que usualmente fica no grupo BDA é de apenas 22,48%. Esta regra torna-se especial porque, diferente das outras identificadas não pode ser resumida em função do número de faltas, tipo de ingresso ou tipo de disciplina. Na Tabela 26, é apresentado o percentual de registros classificados como BDA caso qualquer dos atributos da premissa sejam retirados ou alterados. Tabela 26. Impacto de variações na regra “if PROF_TITUL = M and GRU_INGR = VES and ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and NEG_FIN = N then BDA”, curso de Direito. Premissa gerada pela classificação PROF_TITUL = M (Mestre) PROF_TITUL = M GRU_INGR = VES (Vestibular) ALU_DIS_MAIS1_PROF = N ALU_DIS_MAIS1_PROF = N PROF_TRAB = I (Trabalho integral) DIS_PER > 4.500 DIS_PER > 4.500 SEXO = F SEXO = F NEG_FIN = N Alteração da Premissa Original para a descrita nesta coluna Retirada a premissa da regra PROF_TITUL = D (doutor) Retirada a premissa da regra Retirada a premissa da regra ALU_DIS_MAIS1_PROF = S Retirada a premissa da regra Retirada a premissa da regra DIS_PER < 4.500 Retirada a premissa da regra SEXO = M Retirada a premissa da regra Nova Confiança, da regra com a premissa alterada 47,52% 24,88% 46,49% 49,49% 40,82% 50,71% 32,34% 21,86% 41,40% 38,26% 49,14% Pela Tabela 26 nota-se que, à exceção as pré-condições de mais de um professor em sala de aula (ALU_DIS_MAIS1_PROF) e o regime de trabalho integral (PROF_TRAB), as outras pré-condições não podem ser retiradas ou modificadas sem uma perda próxima a 5%, chegando a até 29,16% no caso de não considerar o período da disciplina (DIS_PER). 110 Assim, parece ser correto dizer que, “Alunos de Engenharia Civil, que tem aula com professor de titulação ‘Mestrado’, que ingressaram por meio do vestibular, cursando disciplinas a partir do 5º período, que são do sexo ‘Feminino’, e nunca tiveram negociação financeira” tendem tirar notas que figuram no grupo de desempenho BDA. Um dado interessante, apresentado na Tabela 27 é que, para o conjunto de registros da regra “if PROF_TITUL = M and GRU_INGR = VES and ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and NEG_FIN = N then BDA”, 70,49% tiveram até 4 faltas. Tabela 27. Distribuição de faltas em disciplinas que respeitam a regra “if PROF_TITUL = M and GRU_INGR = VES and ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and NEG_FIN = N then BDA”, curso de Direito. GDA Disciplinas com até 4 faltas Disciplinas com mais de 4 faltas Total BADA 12,43% 10,27% 22,70% MDA 19,12% 7,17% 26,28% BDA 38,95% 12,07% 51,02% Total 70,49% 29,51% 100% Apesar da regra maximizar o acerto da classificação do grupo BDA em relação à probabilidade de um aluno figurar no grupo BDA, manter um conjunto significativo de atributos sem minimizar sua confiança, e corroborar com a validade de que alunos do grupo BDA tentem a ter menos faltas, isoladamente, esta regra não pode ser tida como verdade, pois, conforme indicado por sua confiança de 51,02%, ela tende a acertar apenas metade dos registros que classifica. 5.1.2 Resultados da análise dos conjuntos de dados CDADirEgresso e CDAEngEgresso Nesta sessão são apresentados os resultados mais relevantes da tarefa de Modelagem, da Metodologia CRISP-DM, apresentada na Figura 5, para os conjuntos de dados CDADirEgresso e CDAEngEgresso. Na análise apresentada na Seção 5.1.1 objetivou-se conhecer padrões do ambiente de ensinoaprendizagem, apresentados no conjunto de dados do Quadro 13. A análise desta seção está alinhada ao OE3:“ Desenvolver modelo de predição do Grupo de Desempenho Acadêmico, baseado na análise dos semestres iniciais, utilizando técnicas de mineração de dados”. De acordo com a Figura 10 do Plano de Avaliação, as regras foram geradas sobre 80% dos egresso 1339 egressos do curso de Direito e 293 egressos do curso de Engenharia Civil. A verificação da eficiência do modelo foi realizada sobre os 20% dos dados restantes, conforme detalhado na Tabela 28. 111 Tabela 28. Quantidade de Egressos por curso. Curso Direito Engenharia Civil Registros para Treinamento 1034 228 Registros para Testes 259 57 Total de Egressos 1293 285 5.1.2.1 Percentual de GDA de egressos por Curso Na Figura 19 é apresentada o percentual de alunos egressos por GDA nos cursos de Direito e Engenharia Civil. Figura 19. Percentual dos GDA de Egressos por Curso. Para ambos os cursos o percentual maior de alunos egressos se encontra no grupo MDA, sendo 65,20% no curso de Direito e 66,67% no curso de Engenharia Civil, valores bem acima dos apresentados na Figura 11, onde é possível notar que 27,19% de disciplinas com notas no grupo MDA no curso de Direito e 22,03% de disciplinas MDA no curso de Engenharia Civil. Esta divergência deve-se ao fato do gráfico considerar apenas as médias que são inseridas no currículo do aluno, ou seja, apenas as que ele aprovou. Continuando a leitura da Figura 19, o segundo grupo com maior percentual de egressos, em ambos os cursos, é o grupo BADA com 22,58% no Direito e 20,35% na Engenharia Civil e grupo BDA tem a menor percentual de egressos, 12,22% no Direito e 12,98% na Engenharia Civil. Estes 112 valores, a exemplo do apresentado para o grupo MDA também divergem dos apresentados na Figura 11, também por considerar apenas as médias que são inseridas no currículo do aluno, ou seja, apenas as que ele aprovou. 5.1.2.2 Relação GDA dos quatro primeiros semestres versus GDA Egresso. A Tabela 32, disponível na Seção 5.1.2.3 mostrou que 6 das 24 análises documentadas na Tabela 31 geraram regras baseadas apenas no atributo de GDA dos semestres iniciais (GDA_PER4), motivando a análise realizada nesta seção, para investigar a relação GDA início versus GDA Egresso. Tabela 29. Relação GDA semestre iniciais versus GDA egresso no curso de Direito. GDA Egresso GDA dos quatro semestres iniciais BADA MDA BDA BADA 20,53% 16,19% 0,08% Total Geral 36,79% MDA 2,01% 43,76% 2,09% 47,87% BDA 0,08% 5,19% 10,07% 15,34% Total Geral 22,62% 65,14% 12,24% 100,00% A Tabela 29 apresenta que, apenas 0,08% dos 36,79% de alunos do curso de Direito que obtiveram uma média no grupo BADA nos semestres iniciais, figuraram como egressos de média BDA. Destes mesmos 36,79% que iniciaram no grupo BADA 16,19% conseguiram concluir o curso com média dentro do grupo MDA. Dos 15,34% de egressos que começaram com média BDA 5,27% não conseguiram manter a média e figurar como egresso BDA, mas a maior parte destes, 10,07% mantiveram notas que os fizeram egressos no grupo BDA. O grupo de desempenho acadêmico maior percentual de redução é de alunos que iniciam como BADA (36,79%) e terminam como BADA (22,62%), ou seja, existe uma maior probabilidade de um aluno BADA dos semestres iniciais terminar como MDA. A Tabela 30 apresenta a relação de GDA dos semestres iniciais versos GDA do egresso para o curso de Engenharia Civil. 113 Tabela 30. Relação GDA semestre iniciais versus GDA egresso no curso de Engenharia Civil. GDA Egresso GDA dos quatro semestres iniciais BADA MDA BDA Total Geral BADA 20,35% 23,86% 0,00% 44,21% MDA 0,00% 42,11% 6,67% 48,77% BDA Total Geral 0,00% 0,70% 6,32% 7,02% 20,35% 66,67% 12,98% 100,00% Na Tabela 30 é possível notar que no curso de Engenharia Civil não houve percentual representativo de alunos que tiveram os semestres iniciais com média no grupo BADA que conseguiram se recuperar e figurar com média que o colocasse como egresso no grupo de BDA. Dos 44,21% de alunos que iniciaram com médias no grupo BADA 23,86% conseguiram médias que os colocassem como egresso MDA. O grupo de desempenho acadêmico maior percentual de redução, assim como no curso de Direito, é de alunos que iniciam como BADA (44,21%) e terminam como BADA (20,35%), ou seja, na Engenharia Civil também existe uma maior probabilidade de um aluno BADA dos semestres iniciais terminar como MDA. Analisando a distribuição dos 7,02% que iniciaram o curso de Engenharia Civil no grupo BDA, não houve percentual significativo que se tornou egresso com médias no grupo BADA. Destes 7,02% que iniciaram no grupo BDA 6,32 conseguiram concluir o curso com médias que os levaram ao grupo de egressos BDA. 5.1.2.3 Modelos de Classificação do GDA Egresso Os modelos gerados por meio dos algoritmos nos Quadros 16 e Quadro 17 sobre 80% dos dados do CDADirEgresso e CDAEngEgresso e validados sobre os 20% restantes são apresentados na Tabela 31. A segmentação dos subconjuntos de treinamento (80%) e validação (20%) foi realizada por meio de análise estratificada. Tabela 31. Acurácia e Kappa dos modelos. CDA 01 02 03 04 05 06 CDADirEgresso Contínuo CDADirEgresso Contínuo CDADirEgresso Discretizado CDADirEgresso Contínuo CDADirEgresso Contínuo CDADirEgresso Algoritmo Critério do Algoritmo Acurácia do Modelo Estatística Kappa Decision Tree Taxa de Ganho de Informação 74,90 0,580 Decision Tree Ganho de Informação 74,90 0,580 Single Rule Induction (Single Attribute) Não Documentado 74,90 0,580 Decision Tree Acurácia 74,90 0,575 Decision Tree Coeficiente de Gini 77,22 0,564 ID3 Acurácia 74,52 0,507 114 Tabela 31. Acurácia e Kappa dos modelos. 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Discretizado CDADirEgresso Discretizado CDADirEgresso Discretizado CDADirEgresso Discretizado CDADirEgresso Discretizado CDADirEgresso Discretizado CDADirEgresso Discretizado CDAEngEgresso Contínuo CDAEngEgresso Discretizado CDAEngEgresso Discretizado CDAEngEgresso Contínuo CDAEngEgresso Discretizado CDAEngEgresso Contínuo CDAEngEgresso Contínuo CDAEngEgresso Discretizado CDAEngEgresso Discretizado CDAEngEgresso Discretizado CDAEngEgresso Discretizado CDAEngEgresso Discretizado ID3 Coeficiente de Gini 74,52 0,507 ID3 Ganho de Informação 68,34 0,250 ID3 Taxa de Ganho de Informação 68,34 0,250 CHAID Qui-Quadrado 65,25 0,085 Rule Induction Acurácia 65,25 0,000 Decision Stump Coeficiente de Gini 65,25 0,000 Decision Tree Coeficiente de Gini 66,67 0,335 ID3 Acurácia 63,16 0,236 ID3 Coeficiente de Gini 63,16 0,181 Decision Tree Acurácia 66,67 0,171 Rule Induction Acurácia 63,16 0,148 Decision Tree Taxa de Ganho de Informação 68,42 0,128 Decision Tree Ganho de Informação 68,42 0,128 Single Rule Induction (Single Attribute) Não Documentado 68,42 0,128 CHAID Qui-Quadrado 61,40 0,062 ID3 Ganho de Informação 64,91 0,018 ID3 Taxa de Ganho de Informação 64,91 0,018 Decision Stump Coeficiente de Gini 66,67 0,000 A aplicação dos algoritmos descritos na Tabela 31 mostrou que foi possível alcançar até 77,22% de acurácia na predição do GDA do egresso do curso de Direito (linha 5) ou, pela estatística Kappa, “aceitação moderada”, com índice de 0,580 (linha 1). Na análise dos CDA do curso de Engenharia Civil foi possível obter até 68,48% de acurácia (linhas 18 a 20) ou Kappa de 0,335, “aceitação justa” (linha 13). Um fato que vale ser destacado é que para os testes das linhas 1, 2, 3, 18, 19 e 20 foram geradas apenas três regras, conforme Tabela 32. Tabela 32. Regras CDA Egresso com apenas GDA_PER4. Conjunto de Dados CDADirEgresso Regra if GDA_PER4 = BADA then BADA if GDA_PER4 = MDA then MDA if GDA_PER4 = BDA then BDA Confiança 44,88% 0,65% 4,40% CDAEngEgresso if GDA_PER4 = BADA then MDA if GDA_PER4 = MDA then MDA if GDA_PER4 = BDA then BDA 54,46% 12,73% 0,00% 115 As regras da Tabela 32, apesar de simples, conseguiram no curso de Direito uma acurácia de 74,90% e Estatística Kappa de 0,580 que representa “aceitação moderada”. Na Engenharia Civil, essas regras tiveram 68,42% de Acurácia e Estatística Kappa de 0,128 representando “aceitação pequena”. 5.1.2.4 Critério de eficiência dos modelos considerando Acurácia e Estatística Kappa Para definir o modelo mais eficiente nos critérios Acurácia e Estatística Kappa, optou-se por utilizar o nível de aceitação que discretiza o indicador Kappa, conforme descrito na Tabela 4. Em seguida, foi selecionado a melhor acurácia dentro no nível de aceitação Kappa. Este critério está alinhado ao OE4:“Validar eficiência do modelo de predição do grupo de desempenho acadêmico dos alunos através de acurácia e estatística Kappa da classificação”. Este critério foi definido após a análise da Tabela 31 e justifica-se pelo fato de que, no curso de Direito os melhores níveis de aceitação Kappa gerados, entre 0,507 e 0,580 “aceitação moderada” inclui também a melhor Acurácia. Nos modelos gerados para o conjunto de dados do curso de Engenharia Civil, os melhores níveis de aceitação Kappa geradas, entre 0,236 e 0,335, considerada como “aceitação justa”, tem na maior acurácia 66,67%, sendo apenas 1,75 pontos percentuais menor que a melhor acurácia. 5.1.2.5 Modelo mais eficiente para o curso de Direito Pelos critérios apresentados na Seção 5.1.2.4, o melhor modelo foi gerado sobre o conjunto de dados CDADirEgresso sem discretização, pelo algoritmo “Decision Tree”, utilizando Coeficiente de Gini como critério de relevância. Este modelo, citado na linha 05 da Tabela 31 obteve nível de aceitação Kappa “moderado” e Acurácia de 77,22%. Na Tabela 33 é apresentada a matriz de confusão do modelo. Tabela 33. Matriz de confusão do modelo mais eficiente para o curso de Direito. Verdadeiro BADA Verdadeiro MDA Verdadeiro BDA Classificado 23 1 42 BADA Classificado 16 9 136 MDA Classificado 0 10 22 BDA Recall 72,41% 80,47% 68,75% Precision 63,64% 84,47% 68,75% 116 Na matriz de confusão apresentada na Tabela 33 nota-se pelo indicador Precision que o modelo acertou 63,64% dos egressos que classificou como BADA. O indicador Recall indica que o modelo selecionou corretamente 72,41% dos indicadores que efetivamente figuram no grupo BADA. Para o grupo MDA o modelo acertou 84,47% dos que classificou como MDA, sendo que esta classificação abrangeu 80,47% daqueles que efetivamente foram MDA. Nota-se pelo indicador do grupo BDA Precision teve um acerto de 68,75% na identificação da classificação e um Recall de 68,75%. Foi possível notar que o atributo de média nos primeiros quatro períodos (GDA_PER4) apareceu como primeiro atributo em todas as regras geradas. Como segundo atributo apareceu a média suja dos primeiros quatro períodos (GDA_SUJA_PER4) em 17 das 26 regras, reforçando a importância das médias nos semestres iniciais na definição da média do egresso. Baseado nisso foi realizado uma redução no número de atributos utilizados para gerar o modelo de classificação. O método utilizado para tentar otimizar o modelo foi a inclusão apenas dos atributos de média nos quatro semestres iniciais (GDA_PER4) e média suja nos quatro semestres iniciais, seguida da execução do algoritmo “Decision Tree”, e otimização dos parâmetros, aos moldes do exemplo citado no Apêndice C. Após a melhor configuração o próximo atributo mais frequente nas regras era incluído, e o processo de otimização do modelo repetido. Os atributos que melhoravam a acurácia e o nível de aceitação Kappa eram mantidos, o que não melhoravam eram descartados e testados novamente ao final do teste de todos os atributos. Assim, foi possível otimizar o modelo do curso de Direito da acurácia 77,22% para 78,38%, melhorando o nível de aceitação Kappa de “moderado” para “substancial”. Outra vantagem desta otimização foi a redução de um modelo com 26 regras para um modelo com 6 regras. A Tabela 34 apresenta a matriz de confusão do melhor modelo para o curso de Direito após a otimização. O Quadro 18 apresenta o modelo de regras após a otimização. Tabela 34. Matriz de confusão do modelo otimizado para o curso de Direito Verdadeiro BADA Verdadeiro MDA Verdadeiro BDA Classificado BADA Classificado MDA Classificado BDA Recall Precision 46 24 0 65,71% 12 0 79,31% 131 14 77,71% 6 26 81,25% 87,92% 65,00% 117 É possível notar pelo indicador Recall que o modelo segmenta corretamente 81,25% dos alunos que seriam BDA. Dos segmentados, a taxa de acerto, apresentada pelo indicador Precision é de 65,71%, bem acima da probabilidade dos alunos de Direito em figurar no grupo BDA, que é de 12,98%, conforme apresentado na Figura 19. Análise semelhante pode ser feita para o grupo BADA, que apresenta Recall de 79,31% e Precision de 65,71%. Quadro 18. Modelo de regras de classificação otimizado para CDADirEgresso. Regra GDA Sup. Conf. 1 if GDA_PER4 = BADA and GDA_SUJA_PER4 = BADA and ALU_DIS_FALTAS4 > 51 then BADA BADA 23,81% 69,64% 2 if GDA_PER4 = BADA and GDA_SUJA_PER4 = BADA and ALU_DIS_FALTAS4 ≤ 51 then MDA MDA 9,91% 65,00% 3 if GDA_PER4 = BDA and ALU_DIS_APR_QTD4 > 13.500 then BDA BDA 31,00% 78,57% 4 if GDA_PER4 = BDA and ALU_DIS_APR_QTD4 ≤ 13.500 and ALU_DIS_FALTAS4 > 3 then MDA MDA 4,12% 80,00% 5 if GDA_PER4 = BDA and ALU_DIS_APR_QTD4 ≤ 13.500 and ALU_DIS_FALTAS4 ≤ 3 then BDA BDA 3,35% 0,00% 6 if GDA_PER4 = MDA then MDA MDA 45,82% 94,69% Pelo modelo do Quadro 18, é possível notar que apenas quatro atributos foram efetivamente utilizados, média dos quatro períodos iniciais (GDA_PER4), média suja (GDA_SUJA_PER4), número de faltas nos quatro semestres iniciais (ALU_DIS_FALTAS4). Pelas regras 1 e 2 é possível notar que o aluno que começa os semestres iniciais com média no grupo BADA tende a sair ou não deste grupo e em função do número de faltas. Pelas regras 3, 4 e 5, nota-se que o aluno que inicia no grupo BDA tende a ficar neste grupo apenas se ele obteve mais de 13 aprovações. A julgar que o currículo de direito apresenta 23 disciplinas nos quatro primeiros períodos, tem-se uma evidência de que alunos do grupo BDA em disciplinas dos semestres iniciais, que cursaram o restante das disciplinas fora da UNIVALI (aproveitamento de créditos) tendem a não figurar como egresso BDA. A regra 4, a mais simples, indica que dos alunos egressos analisados, que iniciaram o curso no grupo MDA tendem a terminar no grupo MDA com confiança de 94,69%. 5.1.2.6 Modelo mais eficiente para o curso de Engenharia Civil Na análise do CDA de Engenharia Civil, pelos critérios da Seção 5.1.2.4, o melhor modelo foi gerado pelo algoritmo “Decision Tree”, sobre os dados sem discretização, utilizando como critério o Coeficiente de Gini, conforme registrado na linha 13 da Tabela 31. Este obteve Kappa 0,335 “aceitação justa” e Acurácia de 66,67%. Na Tabela 35 é apresentada a matriz de confusão deste modelo. 118 Tabela 35. Matriz de confusão do modelo mais eficiente para o curso de Engenharia Civil. Verdadeiro BADA Verdadeiro MDA Verdadeiro BDA Precision Classificado 8 0 46,67% 7 BADA Classificado 5 4 75,68% 28 MDA Classificado 0 2 60% 3 BDA Recall 58,33% 73,68% 42,86% É possível notar na matriz de confusão da Tabela 35 que a precisão dos egressos classificados como BADA foi de 46,67% e 58,33% dos egressos que deveriam ser classificados como BADA assim o foram. No grupo MDA houve o indicador Precision foi de 75,68% e Recall de 73,68%. Para BDA houve 60% de precisão de 42,86% de Recall. A exemplo da análise do curso de Direito, foi testada uma redução do número de atributos para geração do modelo, mas nesta optou-se por retirar o atributo de tipo de deficiência (TIP_DEF) qua apareceu em todas as 17 regras do modelo, sempre com o resultado “Não Informado” (NI). Isso porque, dentre os dados analisados, não houve nenhum registro nos sistemas de egresso com cadastro de deficiência. Para os registros do curso de Engenharia Civil, esta otimização melhorou a acurácia de 66,67% para 68,42%, mantendo o nível de aceitação Kappa em “Justa”. A Tabela 36 apresenta a matriz de confusão do melhor modelo para o curso de Direito após a otimização. O Quadro 19 apresenta o modelo de regras após a otimização. Tabela 36. Matriz de confusão do modelo otimizado para o curso de Engenharia Civil Verdadeiro BADA Verdadeiro MDA Verdadeiro BDA Precision Classificado BADA Classificado MDA Classificado BDA Recall 4 3 0 57,14% 8 0 33,33% 32 3 84,22% 4 3 42,86% 72,73% 50% 119 É possível notar pelo indicador Recall que a maior parte dos registros verdadeiramente BADA e BDA não foram selecionados pelo modelo gerado. A acurácia e o nível de aceitação Kappa não foram piores porque a precisão do modelo foi de 57,14% para a classificação de registros BADA e de 72,73% para registros MDA. Mesmo registros BDA, com precisão de 50% ainda é bem maior que a probabilidade dos alunos de Engenharia Civil em figurar no grupo BDA, que é de 12,98%. Por haverem apenas 285 egressos do curso de Engenharia Civil, a análise fica prejudicada, já que, no modelo de avaliação utilizado, apenas 57 registros (20% de 285) foram utilizados para avaliação do modelo, conforme apresentado na Tabela 28. Quadro 19. Modelo de regras de classificação otimizado para CDAEngEgresso. Regra GDA Sup. Conf. 1 if GDA_PER4 = BADA and GDA_SUJA_PER4 = BADA and ALU_DIS_FALTAS4 > 234.500 then BADA BADA 12,28% 57,14% 2 if GDA_PER4 = BADA and GDA_SUJA_PER4 = BADA and ALU_DIS_FALTAS4 ≤ 234.500 then MDA MDA 13,58% 55,56% 3 if GDA_PER4 = BDA then BDA BDA 5,26% 4 if GDA_PER4 = MDA and GDA_SUJA_PER4 = BADA then MDA MDA 10,53% 83,33% 5 if GDA_PER4 = MDA and GDA_SUJA_PER4 = MDA and ALU_DIS_FALTAS4 > 30.500 then MDA MDA 53,09% 85,00% 6 if GDA_PER4 = MDA and GDA_SUJA_PER4 = MDA and ALU_DIS_FALTAS4 ≤ 30.500 then BDA BDA 5,26% 66,67% 33,33% Pelo Quadro 19 é possível notar pelas regras 1 e 2 que iniciando com média no grupo de desempenho BADA o algoritmo apresentou como condição para concluir o curso com média no grupo MDA, ter tido até 234 faltas. Acima disso o modelo entende que o aluno será um egresso com média no grupo BDA. Ambas as regras tem uma confiança inferior à 60%. O modelo, pela regra 3, indica também que o aluno de Engenharia Civil que consegue uma média do grupo BDA nos quatro semestres iniciais tende a concluir o curso com uma média BDA, com confiança de 66,67%. Esta tendência já havia sido apresentada na Tabela 30. As regras 4 e 5 apresentam que o aluno de Engenharia Civil que tem uma média nos quatro semestres iniciais dentro do grupo MDA tende a concluir o curso no grupo MDA, caso a média suja dos quatro semestres iniciais seja BADA, ou se o aluno tiver tido acima de 30 faltas nos quatro primeiros semestres. As confianças de 83,33% apresentadas na regra 4, e de 85% na regra 5 corroboram a tendência de se manter no grupo MDA, já apresentada na Tabela 30. 120 Iniciando no grupo MDA, o modelo considera que o aluno pode concluir o curso no grupo BDA caso ele tenha menos de 30 faltas nos semestres iniciais, mas a confiança deste regra é de apenas 33,33%. 121 6 CONCLUSÕES O presente estudo buscou identificar, dentre os dados armazenados nos sistemas de informação da IES analisada, quais tem maior impacto sobre o desempenho acadêmico do aluno. Justificou-se por meio da revisão da literatura descrita no Capítulo 3 , pela qual foi apresentado que os trabalhos que buscam entender o desempenho acadêmico de alunos utilizando técnicas de mineração de dados, catalogados nas bases consultadas, tentem a considerar poucas variáveis, predominantemente notas e disciplinas, exceto quando são pautados exclusivamente em ambientes virtuais de aprendizagem. Os trabalhos identificados no Capítulo 3 também não deixam evidente uma comparação entre áreas de conhecimento. Este estudo buscou ampliar o número de variáveis analisadas, além de comparar os cursos de Direito e o curso de Engenharia Civil, buscando identificar eventuais diferenças entre estes. 6.1 A DEFINIÇÃO DOS GRUPOS DE DESEMPENHO BADA, MDA, BDA. Alinhado ao objetivo OE1: “Definir três grupos de desempenho acadêmico, classificando alunos em três grupos de desempenho acadêmico: Bom Desempenho Acadêmico; Médio Desempenho Acadêmico; Baixo Desempenho Acadêmico”, o estudo descrito na seção 4.3.2 foi identificado, por meio de discretização por frequência, que notas cima de 8,7 podem ser classificadas no grupo BDA quando pertencentes ao curso de Direito. Já para o curso de Engenharia Civil notas acima de 8,2 podem ser consideradas no grupo BDA. A diferença entre um curso e outro pôde ser explicada pelo maior percentual de reprovações no curso de Engenharia Civil, que obteve entre 2005/1 e 2014/1 um percentual de 26,80% de reprovações, contra 16,68% no curso de Direito. A discretização por frequência, ainda sob influência do percentual de reprovações, classificou no grupo BADA, no curso de Direito, notas abaixo de 7,7 enquanto para o curso de Engenharia Civil o grupo BADA incluiu notas abaixo de 7,25. Tendo como critério o número de reprovações e as faixas de notas inseridas nos grupos de desempenho acadêmico BADA, MDA e BDA, pode-se concluir que o curso de Engenharia Civil apresenta uma maior dificuldade para o aluno, quando comparado ao curso de Direito. 122 6.2 CARACTERÍSTICAS QUE SE REPETEM NOS GRUPOS DE DESEMPENHO ACADÊMICO O objetivo OE2:“Identificar as características do ambiente de ensino-aprendizagem que ocorrem com maior frequência em cada grupo de desempenho acadêmico, documentando eventuais diferenças entre os cursos de Direito e Engenharia Civil” foi alcançado pelos resultados apresentados na Seção 5.1.1 . Os resultados apresentaram que existe uma probabilidade maior de notas no grupo BADA, sendo 55,49% na Engenharia Civil e 48,26% no Direito. Entretanto apenas na Engenharia Civil existe possibilidade maior do aluno ficar no grupo BADA do que pertencer aos grupos MDA ou BDA. Foi identificado que disciplinas de TCC tendem a gerar notas no grupo BDA. No Direito 61,48% dos TCCs produzem notas no grupo BDA, já na Engenharia Civil o percentual é maior, 91,48% das disciplinas de TCC tendem a figurar no grupo de notas BDA. O percentual maior de notas BDA das disciplinas de TCC que ocorrem na Engenharia Civil é especialmente interessante, pois, como foi visto na Figura 11, existe uma maior probabilidade de notas de Engenharia Civil figurar no grupo BADA. Podem-se propor duas hipóteses a serem investigadas em estudos futuros: (a) as maiores dificuldades durante o curso de Engenharia Civil levam os alunos a se prepararem melhor durante o processo que leva ao TCC; (b) existe uma maior exigência com relação ao trabalho de TCC no curso de Direito que na Engenharia Civil. Para disciplinas de estágio ocorre situação semelhante, enquanto no Direito 45,02% dos estágios geram notas no grupo BDA, na Engenharia Civil 89,56% dos estágios geram notas neste grupo. Aqui se destaca o fato do curso de Direito ter apresentado, no conjunto de dados analisados, um percentual quase seis vezes maior de disciplinas de estágio cursadas, quando comparada ao curso de Engenharia Civil, conforme pode ser notado pelo suporte das regras da Tabela 14. Este dado pode ser um indício de que um conjunto mais heterogêneo de alunos participa de estágio no curso de Direito que no curso de Engenharia Civil. O conjunto de regras, apresentadas pelos algoritmos de mineração do Quadro 14, evidenciaram também um impacto direto do número de faltas no grupo de desempenho acadêmico em que a nota é enquadrada. A Figura 13 apresenta uma correlação difícil de ser contestada, entre o aumento do número de faltas e a diminuição do percentual de notas no grupo BDA. A correlação do 123 aumento no número de faltas com o aumento do percentual de disciplinas no grupo BADA também pode ser observada. Foi possível notar também que o registro por parte do professor, de mais de quatro faltas ao seu orientando de TCC o leva a uma nota inserida no grupo BADA em, no mínimo, 98,60% dos casos, conforme ilustrado na Figura 14. No estudo da Seção 5.1.1.3, foi realizado uma verificação do impacto do tipo de ingresso no desempenho acadêmico, pelo qual se notou que alunos ingressantes pelo ProUni tendem a ficar com um desempenho superior do que os outros tipos de ingresso, tanto no curso de Direito como no curso de Engenharia Civil, conforme apresentado na Tabela 17. No curso de Direito, 33,31% das disciplinas cursadas por alunos ProUni resultaram em notas do grupo BDA, contra uma variação de 22,96% a 26,04% nos outros ingressos. Na Engenharia Civil, o mesmo comportamento parece ser verdadeiro, disciplinas cursadas por alunos ProUni resultam em notas no grupo BDA em 32,75% dos casos, contra uma variação de 14,31% a 28,03% nos outros ingressos. Ainda com relação ao tipo de ingresso, alunos que cursaram disciplinas a partir do momento em que receberam classificação de Reingresso representaram o menor percentual no grupo BDA, 18,33% no Direito e 14,31% na Engenharia Civil. É também notável que alunos ProUni apresentaram o menor percentual de disciplinas cursadas com notas no grupo BADA, quando comparado a outros tipos de ingresso, sendo 35,72% no Direito, contra uma variação de 49,49% a 57,59%. Na Engenharia Civil foram 41,92% das disciplinas cursadas por alunos com ingresso ProUni com notas no grupo BADA, contra uma variação de 46,30% a 67,05% nos outros ingressos. Os maiores percentuais de notas no grupo BADA apresentados foram alcançados por alunos com ingresso do Reingresso. Alunos ProUni tem uma exigência de aprovação de, no mínimo, 75% das disciplinas cursadas (SESU, 2013), sob pena de perderem a bolsa, o que poderia explicar o melhor desempenho destes alunos. Por outro lado parece compreensível que alunos que se afastaram do curso tenham maior dificuldade que seus pares, explicando assim o maior percentual de notas no grupo BADA existente entre alunos com ingresso Reingresso. Pelos gráficos apresentados nas Figura 15 e Figura 16, ficou evidenciado que, independente da titulação do professor, o percentual de notas no grupo BDA é menor que o numero de notas no 124 grupo BADA, alinhado aos dados da Figura 11. Entretanto no curso de Direito existe uma variação positiva de 8,30 pontos no grupo BDA, enquanto na Engenharia Civil a titulação que mais se destacou com relação ao percentual de notas no grupo BDA foi a de especialista, com 9,83 pontos percentuais a mais que a probabilidade apresentada na Figura 11. Outros fatores como os dados do ambiente virtual de aprendizagem e locação de livros da biblioteca não foram identificados como significativos no desempenho acadêmico do aluno. No caso do AVA, a análise fica prejudicada já que mais de 99% dos registros de disciplinas cursadas não utilizam recursos didáticos da ferramenta, o ambiente nestes casos foi utilizado apenas como repositório de material de apoio. Apesar do algoritmo “KMeans Kernel” ter conseguido segmentar clusters que possam ser considerados predominantemente do grupo de desempenho BADA ou BDA, a partir da interpretação destes clusters não foi possível extrair regras significativas aplicáveis a todo conjunto de dados, a exceção ficou pela regra da Tabela 27, com confiança de 51,02% e suporte de 1,80%. Em resposta à pergunta de pesquisa P1:“Quais são os aspectos do ambiente de ensinoaprendizagem que levam alunos da IES analisada a concluírem o curso em um determinado GDA?”. Pode se dizer que o número de frequência no curso é fator com maior impacto em sua nota, depois do número de faltas, o grupo de ingresso ProUni tendem a ter notas pouco acima dos outros grupos, e o grupo de ingresso Reingresso tende a ter notas pouco abaixo dos outros grupos. Em resposta à pergunta de pesquisa P2:“ Os fatores do ambiente de ensino-aprendizagem que podem levar um aluno de Direito a concluir o curso em um determinado GDA são os mesmos de um aluno de Engenharia Civil?”. Nos dados avaliados, não foram encontrados fatores significativos que possam se diferenciar entre os cursos de Direito e Engenharia Civil. O número de faltas, o grupo de ingresso e a titulação do professor tendem a interferir mais no GDA do aluno. A Hipótese H1:“Os fatores do ambiente de ensino-aprendizagem que levam um aluno de Direito a concluir o curso em determinado GDA não são os mesmos que levam um aluno de Engenharia Civil a figurar no mesmo GDA” pode ser respondida como FALSA, já que as principais características no ambiente de ensino e aprendizagem encontrados, número de faltas e tipo de ingresso, se repetem para alunos do curso de Direito também ocorrem no curso de Engenharia Civil. 125 6.3 CRIAÇÃO DE MODELO PARA PREDIZER O GRUPO DE DESEMPENHO DO EGRESSO. Para alcançar o objetivo OE3:“Desenvolver modelo de predição do Grupo de Desempenho Acadêmico, baseado na análise dos semestres iniciais, utilizando técnicas de mineração de dados” foi realizado o estudo detalhado na Seção 5.1.2 utilizando diversos configurações dos algoritmos descritos nos Quadro 16 e Quadro 17, a partir dos quais, seguindo os critérios detalhados na Seção 5.1.2.4, que gerou os modelos do Quadro 18 e Quadro 19, expresso em regras de associação. Foi possível perceber que os fatores dos quatro semestres iniciais que melhor descrevem o GDA do aluno ao final do curso foram média, média suja (inclui as reprovações) e o número de faltas e o número de aprovações. No curso de Direito, por exemplo, o fato de ter notas no grupo BDA nos semestres iniciais parece não ser garantia de figurar entre egressos com média no grupo BDA caso o aluno não tenha cursado pelo menos 13 disciplinas dos semestres iniciais na IES. O objetivo OE4:“Validar eficiência do modelo de predição do grupo de desempenho acadêmico dos alunos através de acurácia e estatística Kappa da classificação”, utilizou a melhor combinação Acurácia x Kappa, conforme detalhado na Seção 5.1.2.4, sendo possível predizer, baseado nos quatro primeiros semestres do aluno, o grupo de desempenho acadêmico que a média das disciplinas que aparecem em seu histórico terá, com acurácia de até 78,38% e aceitação Kappa “0,623 - substancial” (ver a Tabela 4) no curso de Direito. No curso de Engenharia Civil a acurácia baixou para 68,42% e a aceitação Kappa também baixou para “0,293 - justa”. O curso de Direito possui um número de alunos maior que o curso de Engenharia Civil na IES cujos dados foram analisados. Nos conjuntos de dados extraídos existiram quase 173mil registros de disciplinas cursadas por alunos do curso de Direito, contra pouco mais de 46mil registros no curso de Engenharia Civil. Esta diferença na quantidade de dados analisados pode ter sido crucial no melhor desempenho do modelo de predição do grupo de desempenho. A validação da hipótese H2:“É possível identificar o GDA de um aluno ao final de seu curso, com acurácia maior que 50%, baseado na análise dos quatro primeiros semestres do curso” pode ser considerada VERDADEIRA pois baseado na análise dos quatro primeiros semestres do curso.”, que indica que sim, foi possível alcançar até 77,22% de acurácia, no curso de Direito. 126 O teste da hipótese H2 responde à P3:“Com os dados disponíveis para análise pela IES, é possível criar um modelo que permita predizer o GDA que um aluno estará inserido ao final do curso analisando apenas os semestres iniciais?”. Sim, apenas com os dados disponíveis nos sistemas de ensino da IES é possível gerar um modelo de predição do GDA do egresso, com a ressalva de que cursos com menor quantidade de dados podem a apresentar acurácia abaixo do desejado. 6.4 PRINCIPAIS CONTRIBUIÇÕES O presente trabalho propôs-se a fornecer para a comunidade científica ganhos que possam colaborar na construção do conhecimento. Esta seção resume os principais ganhos para a área de aplicação e para a computação. A comunidade interessada em pesquisas relacionadas à informática na educação encontra neste trabalho a análise empírica, baseada em mineração de dados, de uma população não analisada por meio desta técnica. Os resultados deste trabalho, em conjunto com outros similares que possam ser realizados com dados de outras IES, contribuem para a descoberta de informações que possam, com o tempo, serem generalizadas a populações cada vez maiores. Foi também proposta na Seção 4.3.2 a segmentação de grupos de desempenho acadêmico por meio de técnica estatística em detrimento à definição arbitrária do que é uma nota Baixa, Média e Boa. Segmentação semelhante não foi identificada nos trabalhos descritos na Seção 3 e tem potencial para gerar debates sobre o tema da classificação, como para o tema da comparação entre cursos de diferentes áreas. Dos trabalhos de mineração de dados educacionais identificados na Seção 3 não justificam a escolha da ferramenta utilizada, eventualmente às citam. Atualmente uma pesquisa rápida ao site Kdnuggets (KDNUGGETS, 2015), por exemplo, retorna quase uma centena de ferramentas disponíveis para realização de estudos de análise de dados, dificultando a escolha da ferramenta de pesquisadores iniciantes na área. A Seção 2.4 apresenta uma análise que amplia o trabalho de Mikut e Reishl (2011), fornecendo critérios para seleção de ferramentas de mineração de dados baseados nos critérios: (i) desempenho de algoritmos; (ii) usabilidade; (iii) aceitação pela comunidade científica; (iv) aceitação pela comunidade em geral; (v) disponibilização de licença de software livre. Estes 127 critérios seriam aplicáveis a todos os trabalhos identificados na revisão bibliográfica apresentada no Capítulo 3 exceto ao trabalho de Carmona et al. (2011), que descreve a ferramenta como prérequisito para o estudo. Pesquisadores da computação podem se beneficiar também do estudo realizado na Seção 2.3 que demonstrou que, dentre as metodologias descritas por Mariscal, Marbán e Fernández (2010), a metodologia CRISP-DM, apesar de não possuir mantenedores oficialmente, se mantém relevante e utilizada em trabalhos recentes, publicados em revistas “Qualis A1 em Computação”, no ano de 2014. 6.5 LIMITAÇÕES DO TRABALHO Apesar do esforço para abranger a maior quantidade de informações a serem analisadas, alguns dados não foram incluídos, e algumas análises deixaram de ser realizadas e estão documentadas nesta seção. Ficaram de fora da análise informações importantes referentes à pesquisa e extensão realizadas por professores e alunos. Uma ampliação do estudo correlacionando a pesquisa e extensão de professores no desempenho acadêmico de alunos poderia ter sido incluída com os dados disponíveis atualmente na IES. Foi identificado que alunos com ingresso do tipo Reingresso tendem a tirar notas que figuram com maior frequência no grupo de desempenho BADA, entretanto ficou de fora deste estudo uma análise da relação entre desempenho acadêmico e a evasão de alunos. Não foi possível também analisar dados socioeconômicos de alunos, que podem ter potencial para fornecer informações relevantes no desempenho acadêmico. 128 6.6 TRABALHOS FUTUROS Partindo deste estudo, foi possível identificar oportunidades para os seguintes trabalhos futuros: i) análise de dados de desempenho acadêmico e o impacto na evasão; ii) análise de dados de produção científica e o impacto no desempenho acadêmico; iii) automatização do processo de análise de regras de associação baseada na redução de atributos, maximização do suporte e manutenção da confiança, mensurando o resultado na acurácia do modelo. iv) ampliação do estudo de escolha da ferramenta, disponível na Seção 2.4, incluindo teste de acurácia de todos os algoritmos disponíveis nas ferramentas; inclusão de teste de desempenho (tempo de processamento); análise de algoritmos disponíveis baseado no tipo de dado que pode ser analisado. 129 REFERÊNCIAS ALCALÁ-FDEZ, J. et al. KEEL: A Software Tool to Assess Evolutionary Algorithms for Data Mining Problems. Soft Computing, v. 13, n. 3, p.307-318, 2009. ANAND, S., BUCHNER, A. 1998. Decision Support Using Data Mining. 1st [s.i.]:Financial Times Management, 1998. 184 p. BAKER, Ryan; ISOTANI, Seiji; CARVALHO, Adriana. Revista Brasileira de Informática na Educação. Mineração de Dados Educacionais: Oportunidades para o Brasil, [s.i.], v. 19, n. 2, p.3-13, ago. 2011. Quadrimestral. BORBA, AMÂNDIA MARIA DE (Itajaí-sc). Vice-reitora (Org.). UNIVALI: Plano de Desenvolvimento Institucional - PDI: 2012-2016. Itajaí-sc: Editora Univali, 2012. 184 p. BRACHMAN, Ronald J.; ANAND, Tej. The process of knowledge discovery in Databases. Advances in Knowledge Discovery and Data Mining. American Association for Artificial Intelligence, p. 37–57. 1996. BUCHNER, Alex G. et al. An internet-enabled knowledge discovery process. In: Proceedings of the 9th international database conference, Hong Kong. 1999. p. 13-27. CABENA, Peter et al. Discovering Data Mining: From Concept to Implementation. [s.i]: Prentice Hall, 1997. CAPES. Ministério da Educação. Sobre as áreas de avaliação. 2014ª. Disponível em: <http://www.capes.gov.br/avaliacao/sobre-as-areas-de-avaliacao>. Acesso em: 17 jun. 2014. CAPES. Ministério da Educação. WEBQUALIS. 2014b. Disponível em: <http://qualis.capes.gov.br/webqualis>.Acesso em: 10/07/2014. CARMONA, C. J. et al. Subgroup discovery in an e-learning usage study based on Moodle. In: INTERNATIONAL CONFERENCE ON NEXT GENERATION WEB SERVICES PRACTICES, 7., 2011, Salamanca, Spain. 7th International Conference on Next Generation Web Services Practices. Salamanca, Spain: Institute Of Electrical And Electronics Engineers, 2011. p. 446 - 451. CARVALHO, Marcos Alberto de. Discretização de atributos contínuos em sistemas de informação utilizando algoritmos genéticos para a aplicação da teoria dos conjuntos aproximados. 2010. 91 f. Dissertação (Mestrado) - Curso de Mestrado em Ciência e Tecnologia da Computação, Universidade Federal de Itajubá, Itajubá-MG, 2010. CERIANI, Lidia; VERME, Paolo. The origins of the Gini index: Extracts from Variabilità e Mutabilità (1912) by Corrado Gini. The Journal Of Economic Inequality. [s.i], p. 421-433. 01 set. 2012. CHAPMAN, Pete et al. CRISP-DM 1.0: Step-by-step data mining guide. 2000. 76 p. 130 CIOS, K. Diagnosing myocardial perfusion from pect bull’s-eye maps: a knowledge discovery approach. IEEE Engineering in Medicine and Biology Magazine, v. 19, 17–25. 2000. CIOS, K. J.; KURGAN, L. A. Trends in data mining and knowledge discovery. Advanced Techniques in Knowledge Discovery and Data Mining. Advanced Information and Knowledge Processing. Springer, 2005. p. 1–26. CIOS, K., et al, 2000. Diagnosing myocardial perfusion from pect bull’s-eye maps: a knowledge discovery approach. IEEE Engineering in Medicine and Biology Magazine. 2000. p. 17–25. DAVIS, Jesse; GOADRICH, Mark. The Relationship Between Precision-Recall and ROC Curves. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 23., 2006, Pittsburgh, Pa. Proceedings of the 23 rd International Confer ence on Machine Learning. New York, Ny: Acm, 2006. p. 233 - 240. DEBUSE, J. C. W et al. Building the KDD Roadmap: A Methodology for Knowledge Discovery. In: DEBUSE, J. C. W et al. Industrial Knowledge Management. London:Springer, 2001. p. 179– 196. DOUGHERTY, James; KOHAVI, Ron; SAHAMI, Mehran. Supervised and Unsupervised Discretization of Continuous Features. In: MACHINE LEARNING INTERNATIONAL CONFERENCE, 12., 1995, San Francisco - CA. MACHINE LEARNING: PROCEEDINGS OF THE TWELFTH INTERNATIONAL CONFERENCE. San Francisco - Ca: Morgan Kaufmann, 1995. p. 194 - 202. Dybå T., Dingsøyr T. Strength of evidence in systematic reviews in software engineering, Proceedings of the Second ACM-IEEE international symposium on Empirical software engineering and measurement, Kaiserslautern, Germany, pp. 178—187, October 2008. ESFANDIARI, Nura et al. Knowledge discovery in medicine: Current issue and future trend. Expert Systems With Applications. Philadelphia, PA, p. 4434-4463. July, 2014. FAYYAD, Usama M. et al. Advances in Knowledge Discovey. 1st Cambridge: The Mit Press, 1996a. 611 p. FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. The KDD process for extracting useful knowledge from volumes of data. Communications Of The Acm, New York, Ny, v. 39, n. 11, p.27-34, nov. 1996 FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals Of Eugenics. [s.i.], p. 179-188. 1936. GERTOSIO, Christine; DUSSAUCHOY, Alan. Knowledge discovery from industrial databases. Journal of Intelligent Manufacturing. v. 15. p. 29–37. fev 2004. GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. Rio de Janeiro: Elsevier, 2005. 261 p. GWET, Kilem L. The Kappa Coefficient: A Review. In: GWET, Kilem L. Handbook of InterRater Reliability: The Definitive Guide to Measuring the Extent of Agreement Among Multiple 131 Raters. 3. ed. Gaitbersburg, Md: Advanced Analytics, 2012. Cap. 2. p. 15-25. Disponível em: <http://www.agreestat.com/book3/bookexcerpts/chapter2.pdf>. Acesso em: 14 jun. 2014. HARRY, M. J.; SCHROEDER, R. Six Sigma: The Breakthrough Management Strategy Revolutionizing the World’s Top Corporations. New York: Random House Inc. 1999. HOE, Alan Cheah Kah et al. Analyzing students records to identify patterns of students' performance. In: INTERNATIONAL CONFERENCE ON RESEARCH AND INNOVATION IN INFORMATION SYSTEMS, 2013, Kuala Lumpur. 2013 International Conference on Research and Innovation in Information Systems. Kuala Lumpur: IEEE, 2013. p. 544 - 547. IBM. IBM SPSS Modeler CRISP-DM Guide. Cidade: Editora, 2011. 53 p. Disponível em: <ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/14.2/en/CRISP_DM.pdf >. Acesso em: 10 jul. 2014. IMBENS, Guido W; LANCASTER, Tony. Efficient estimation and stratified sampling. Journal Of Econometrics. S.i., p. 289-318. out. 1992. INEP. Censo Ensino Superior - 2012. Brasília: INEP/Ministério da Educação. Disponível em: <http://portal.inep.gov.br/internacional-novo-pisa-resultados>. Acesso em: 19 mai. 2015. KDNUGGETS (Org.). Polls: Data Mining Methodology. 2007a. Disponível em: <http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm>. Acesso em: 10 jul. 2014. KDNUGGETS. KDNuggets Pools: Data Mining Methodology. aug 2007b. Disponível em: http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm. Acesso em: 04/07/2014. KDNUGGETS. Pools: What Analytics, Data mining, Big Data software you used in the past 12 months for a real project?. 2012. Disponível em: < http://www.kdnuggets.com/polls/2012/analyticsdata-mining-big-data-software.html >. Acesso em: 05 jul. 2014. KDNUGGETS. Pools: What Analytics, Data mining, Big Data software you used in the past 12 months for a real project?. 2015. Disponível em: < http://www.kdnuggets.com/2015/05/pollanalytics-data-mining-data-science-software-used.html>. Acesso em: 19 mai. 2015. KITCHENHAM, Barbara. Procedures for Performing Systematic Reviews. Joint Technical Report, Keele University, Department of Computer Science Keele University, Empirical Software Engineering, National ICT Australia Ltd.Jul, 2004. LABIUTIL. Universidade Federal de Santa Catarina. ErgoList. 2011. Disponível em: <http://www.labiutil.inf.ufsc.br/ergolist>. Acesso em: 05 jul. 2014. LANDIS, J. Richard; KOCH, Gary G. The Measurement of Observer Agreement for Categorical Data. Biometrics. v. 33. n. 1. p. 159-174. mar 1977. LEVINE, David M et al. Estatística: Teoria e Aplicações. 6. ed. Rio de Janeiro: LTC, 2013. 804 p. Tradução Teresa Cristina Padilha de Souza. MAANEN, John Van. Reclaiming qualitative methods for organization research: a preface. Administrative Science Quarterly, v. 24. n. 4. p. 539-550. dez 1979. 132 MACFADYEN, Leah P.; DAWSON, Shane. Mining LMS data to develop an “early warning system” for educators: A proof of concept. Computers & Education, p. 588-599. fev. 2010. MARISCAL, Gonzalo; MARBÁN, Óscar; FERNÁNDEZ, Covadonga. A survey of data mining and knowledge discovery process models and methodologies. The Knowledge Engineering Review. Cambridge, p. 137-166. jun. 2010. MARBÁN, O. et al. An engineering approach to data mining projects. Lecture Notes in Computer Science. [s.i.]:Springer. v. 4881, p. 578–588. 2007. MARBÁN, O. et al. Towards data mining engineering: a software engineering approach. Information Systems Journal. [s.i.]: Elsevier, v. 34, n.1, p. 87-107. 2008. MEC. Governo Federal. Consulta Pública dos Referenciais Nacionais dos Cursos de Graduação. 2010. Disponível em: <http://portal.mec.gov.br/index.php?option=com_content&id=13812&Itemid=995>. Acesso em: 14 mai. 2015. MOLLÉRI, Jefferson Seide. Automatização do processo de condução de revisões sistemáticas da literatura em engenharia de software. 2013. 192 f. Dissertação (Mestrado) - Curso de Mestrado Acadêmico em Computação Aplicada, Universidade do Vale do Itajaí, Itajaí, Sc, 2013. Disponível em: <http://www.univali.br/Lists/TrabalhosMestrado/Attachments/756/Jefferson Seide Molleri-2013.pdf>. Acesso em: 11 jul. 2014. MORRIS, L. V., FINNEGAN, C., & Wu, S.-S. Tracking student behavior, persistence and achievement in online courses. The Internet and Higher Education, 8, 221–231. 2005. MOYLE, S. ; JORGE, A. RAMSYS: A methodology for supporting rapid remote collaborative data mining projects. ECML/PKDD 2001 Workshop on Integrating Aspects of Data Mining, Decision Support and Meta-Learning: Internal SolEuNet Session. p. 20–31. 2001. NEVES, José Luiz. Pesquisa qualitativa: Características, usos e possibilidades. Cadernode Pesquisas em Administração. São Paulo. v. 1. n. 3. 1996. OGWUELEKA, Francisca Nonyelum. Potential Value of Data Mining for Customer Relationship Marketing in the Banking Industry. Advances In Natural And Applied Sciences. [s.i.], p. 73-78. 2009. PLACKETT, R L. Karl Pearson and the Chi-Squared Test. International Statistical Review. [s.i.], p. 59-72. abr. 1983. POWERS, David M W. The Problem with Kappa. In: CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 13., 2012, Stroudsburg, PA. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Acl, 2012. p. 345 – 355 PRATI, Ronaldo C; A BATISTA, G e A P; MONARD, M C. Curvas ROC para avaliação de classificadores. IEEE Latin America Transactions, [s.i.], v. 6, n. 2, p.214-222, jun. 2008. Disponível em: <http://dx.doi.org/10.1109/TLA.2008.4609920>. Acesso em: 30 jun. 2014. 133 PYZDEK, Thomas. The Six Sigma Handbook: The Complete Guide for Greenbelts, Blackbelts, and Managers at All Levels, Revised and Expanded Edition. 2nd [s.i.]: Mc-Graw-Hill, 2003. 830 p. SAMARANAYAKE, C.P.; CALDERA, H.A. A data mining solution on high failure rate in Physical Science stream at the university entrance examination. In: INTERNATIONAL CONFERENCE ON ICT AND KNOWLEDGE ENGINEERING, 10., 2012, Bangkok, Thailand. Tenth International Conference on ICT and Knowledge Engineering. Bangkok, Thailand: Institute Of Electrical And Electronics Engineers, 2012. p. 163 - 170. SAS Institute. SAS Enterprise Miner: SEMMA. London, UK. Disponível em: <http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/semma.html >. Acesso em: 03/07/2014. SESU. Ministério da Educação. ProUni: Manual do Bolsista. 2013. Disponível em: < http://prouniportal.mec.gov.br/images/pdf/manual_bolsista_prouni.pdf>. Acesso em: 19/05/2015. SOLARTE, J. A Proposed Data Mining Methodoloy and Its Aplication to Industrial Engineering, Master’s thesis, University of Tennessee, Knoxville. 2002. SPRUIT, Marco; VROON, Robert; BATENBURG, Ronald. Towards healthcare business intelligence in long-term care: An explorative case study in the Netherlands. Computers In Human Behavior. Philadelphia, Pa, p. 698-707. jan. 2014. TRANDAFILI, Evis et al. Discovery and evaluation of student's profiles with machine learning. In: BALKAN CONFERENCE IN INFORMATICS, 5., 2012, Novi Sad, Serbia. Proceedings of the Fifth Balkan Conference in Informatics. Novi Sad, Serbia: Acm, 2012. p. 174 - 179. Two Crows Corporation. Introduction to Data mining and Knowledge Discovery. 3rd. Potomac, MD: Two Crows Corporation, 1999. 36 p. UGUZ, Harun. A hybrid system based on information gain and principal component analysis for the classification of transcranial Doppler signals. Computer Methods And Programs In Biomedicine. S.i., p. 598-609. set. 2012. VIJAYLAXMI; BATRA, Gunjan; ALAM, M Afshar. PRESERVING PRIVACY IN DATA MINING USING SEMMA METHODOLOGY. International Journal On Computer Science And Engineering. [s.i], p. 853-858. maio 2012 WITTEN, Ian H.; FRANK, Eibe; HALL, Mark A. Data Mining: practical machine learning tools and techniques. 3rd [s.i.]: Elsevier, 2011. 629 p. XIA, Belle Selene; GONG, Peng. Review of business intelligence through data analysis. Benchmarking: An International Journal. [s.i.], p. 300-311. jan. 2014. ZENG, Xianyang. ZHENG, Hongxia Genders Differentials in Computer Sciences Education: Analysis and Proposal. In: INTERNATIONAL WORKSHOP ONEDUCATION TECHNOLOGY AND COMPUTER SCIENCE, 1., 2009, Wuhan, China. First International Workshop on Education Technology and Computer Science. Wuhan, China: Institute Of Electrical And Electronics Engineers, 2009. p. 494 - 497. 134 ZHANG, Zhiyu. Study and analysis of data mining technology in college courses students failed. In: 2010 INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND INTEGRATED SYSTEMS, 2010, Guilin, China. International Conference on Intelligent Computing and Integrated Systems. Guilin, China: Institute Of Electrical And Electronics Engineers, 2010. p. 800 - 802. 135 Apêndice A – Seleção da Ferramenta Seleção de ferramenta para descoberta de conhecimento em base de dados utilizando mineração de dados. Roberto Gonçalves Augusto Junior Universidade do Vale do Itajaí (UNIVALI) - Mestrado em Computação Aplicada Orientador: Prof. Dr. Raimundo Celeste Ghizoni Teive Resumo: Diversas ferramentas computacionais estão disponíveis atualmente para análise e mineração de dados, podendo ser encontradas sob licença livre ou comercial. Em um levantamento realizado em 2011 por Ralf Mikut e Markus Reischl foram relacionadas 89 ferramentas, sendo a escolha de uma destas uma atividade complexa. Este trabalho tenta minimizar a possiblidade de um viés na escolha através do uso de seis pré-requisitos para seleção :licença de uso livre, foco em mineração de dados, disponibilidade de vários algoritmos, disponível para Windows, não ser especializada em apenas um tipo de algoritmo, ter uma versão lançada a partir de 2012,ser uma ferramenta independente e não apenas uma interface para outra. Além disto, foi considerado a análise de: usabilidade; desempenho e aceitação pela comunidade. O estudo partiu do levantamento de 2011 aplicando o filtro de pré requisitos e chegou-se a quatro ferramentas: KNIME, Rapidminer, Tanagra e Weka. Dentre estas, a que mais se destacou foi a ferramenta Rapidminer sem, entretanto, encontrar justificativa para que se descarte qualquer uma das outras três. Palavras-chave: Ferramenta, Descoberta de Conhecimento, KDD, Mineração de Dados, Educação. 136 1. Introdução Nos últimos anos houve um aumento expressivo no número de Instituições de Ensino Superior (IES) no Brasil, crescendo de 1.180 no ano 2000 para 2.365 em 2010, números que deveriam ser comemorados pela sociedade, mas de maneira antagônica, vem despertando preocupação pela baixa qualidade do ensino oferecido em muitas destas. (INEP,2011) (CRM-MT, 2010)(OAB, 2012) Apesar de apenas 12% da população brasileira entre 35 e 44 anos terem completado algum curso superior, contra 24% no Chile e 43% nos EUA, houve no Brasil quase 5,44 milhões de matrículas em cursos de graduação presencial. (INEP,2013)(EDITORA MODERNA, 2013) A gestão informatizada da vida acadêmica destes alunos gera para as instituições um volume cada vez maior de dados, que muitas vezes são utilizados apenas em relatórios administrativos e análise estatística. A disponibilização aos gestores de IES, de informações acadêmicas, obtidas a partir destes dados, pode ser considerada um grande desafio. (PASTA, 2011) (TRANDAFILI et al., 2012) (ZHANG, 2010) Conhecer as informações ocultas nos dados armazenados pelas IES pode dar aos gestores subsídios para melhorar o desempenho acadêmico de alunos, o que se torna ainda mais importante em situações onde alunos possuem conhecimento, de ensino fundamental e médio, abaixo do esperado. Segundo o indicador INAF Brasil (IPM, 2011), apenas 35% dos alunos do ensino médio foram considerados plenamente alfabetizados em pesquisa realizada entre dezembro de 2011 e abril de 2012. É possível encontrar na literatura trabalhos com o objetivo de conhecer diferentes aspectos destes dados. Zeng e Zheng (2009) investigam as diferenças entre os gêneros em um curso de ciências da computação. Samaranayake e Caldera (2012) buscam identificar os motivos que levam a altas taxas de reprovação em um exame para admissão da educação superior, nas áreas de física e biologia no Sri-Lanka. Macfadyen e Dawson (2010), analisando dados de um ambiente educacional on-line, afirmam poder dizer com 70,3% de acurácia (utilizando um modelo baseado em regressão logística utilizando variáveis como número de logins no AVA, tempo on-line, número de postagens em fóruns do AVA, avaliações completadas, dentre outras), se o aluno entrará para o grupo “em risco de reprovação” que, para estes autores, incluem os alunos que têm maior probabilidade de alcançar uma nota abaixo de 6. Zhang (2010) analisa dados de estudantes que reprovaram para localizar padrões entre estes alunos. Carmona et al. (2011), realiza uma análise de dados de um AVA para localização de padrões de desempenho de alunos. Trandafili et al. (2012) utiliza clusterização e regras de associação para também realizar uma segmentação de perfis de estudantes. Todos estes autores citados acima estão preocupados com o ensino superior e com questões relativas ao processo ensino-aprendizagem e utilizam como tarefas de mineração de dados para investigação destes aspectos. 2. Objetivo O objetivo deste trabalho é propor um método de seleção dentre as ferramentas de mineração de dados disponíveis, encontrando as que melhores se adequam ao trabalho de descoberta de conhecimento em base de dados através de mineração de dados. 137 3. Justificativa Dos artigos citados na introdução: Zeng e Zheng (2009), Zhang (2010), Carmona et al. (2011), Samaranayake e Caldera (2012), Macfadyen e Dawson (2010), Trandafili et al. (2012), apenas Zhang (2010), Carmona et al. (2011) Trandafili et al. (2012) descrevem qual ferramenta utilizaram em seus trabalhos, sendo MS-SSAS, KEEL e Weka, respectivamente. Apenas Carmona et al. (2011) descreve o critério de escolha da ferramenta de mineração de dados (MD), o qual foi pré-requisito, já que o trabalho envolveu um estudo de caso para apresentar a utilização da ferramenta KEEL. Zhang (2010) e Trandafili et al. (2012) apenas citam as ferramentas que foram utilizadas sem, entretanto descrever o motivo da escolha. Assim, por não haver, nos trabalhos citados, uma ferramenta que se destaque, optou-se por realizar uma pesquisa e avaliação de possíveis opções. 4. Questões de pesquisa Este trabalho pretende responder às seguintes questões de pesquisa: Q1: Quais as ferramentas para MD estão disponíveis para serem utilizadas em estudos acadêmicos sem que seja necessário pagar por licenças de uso? Q2: Das ferramentas disponíveis quais aparentam ter melhor usabilidade? Q3: Das ferramentas disponíveis, quais aparentam ter melhor desempenho? Q4: Das ferramentas disponíveis, quais são a mais utilizadas pela comunidade científica e na comunidade em geral, em função das citações? 5. Análise das ferramentas disponíveis Foram realizadas três buscas exploratórias nas fontes de dados da Tabela 1. Uma delas buscando a string “data mining software”, em outra a string buscada foi “data mining tools” e na terceira a string bucada foi “data mining comparison”. Nome da Fonte Link de Acesso ACM Digital Library http://portal.acm.org Google Scholar http://scholar.google.com IEEExplore http://ieeexplore.ieee.org ScienceDirect http://www.sciencedirect.com Tabela 1. Fontes de Dados. Na fonte de dados “Google Scholar” foi localizado o trabalho de Mikut e Reischl (2011) que apresentada um histórico do desenvolvimento de ferramentas de mineração de dados, e o estado da arte destas. Foram relacionadas 53 ferramentas comerciais e 36 não comerciais. Mikut e Reischl (2011) também propõe um critério para categorização das ferramentas de mineração de dados, baseado em : grupos de usuário,estruturas de dados que podem ser analisados, tarefas de mineração, visualização de dados e interação com a ferramenta, recursos de importação e 138 exportação de dados e modelos, (comercial/livre/código aberto). plataformas (sistemas operacionais) e licenças O estudo de Mikut e Reischl (2011) foi utilizado como ponto de partida na buca pela resposta da questão de pesquisa Q1: Quais as ferramentas estão disponíveis para serem utilizadas em estudos acadêmicos sem que seja necessário pagar por licenças de uso? As questões de pesquisa Q2, Q3 e Q4, entretanto, não podem ser respondidas por Mikut e Reischl (2011). Pela classificação de grupo de usuário proposta em Mikut e Reischl (2011), estudos como os elaborados por Zeng e Zheng (2009), Zhang (2010), Carmona et al. (2011), Samaranayake e Caldera (2012), Macfadyen e Dawson (2010), Trandafili et al. (2012) se encaixam no que foi nomeado por eles como “grupo de usuários: pesquisa aplicada”, que é descrito como: Um grupo de usuários que aplica mineração de dados para problemas de pesquisa, por exemplo, tecnologia e ciências da vida. Estes usuários são interessados em ferramentas com métodos comprovados, interface gráfica (GUI) e interfaces para os formatos de dados a serem estudados ou banco de dados. Mikut e Reischl (2011) destacam que, dentre os softwares disponíveis, os que são mais úteis ao “grupo de usuários: pesquisa aplicada” são os softwares do tipo Data Mining Suites (DMS), Mathematical Packages (MAT) e Integration Packages (INT). Estes softwares, são classificados ainda em dois subgrupos: (a) Softwares Comerciais; (b) Softwares Livre/Código Aberto. No subgrupo (b), Mikut e Reischel optaram por incluir também os softwares comerciais que disponibilizam licença para uso acadêmico. Seguindo o trabalho de Mikut e Reischl (2011), das 89 ferramentas enumeradas, foram préselecionados para análise neste trabalho 39 ferramentas com potencial para serem utilizadas. Destas ferramentas, 27 são comerciais e 12 podem ser utilizadas sem custo. A relação das ferramentas é apresentada nas Tabela 2- Softwares Comerciais e Tabela 3-Softwares Livre/Código Aberto. Ferramenta 1 ADAPA (Zementis) 2 Alice (d’Isoft) 3 Data Applied 4 DataDetective 5 DataEngine Ferramenta 6 Datascope 7 GhostMiner 8 IBM SPSS Modeler 9 IBM SPSS Statistics 10 iModel 11 JMP 12 KnowledgeStudio 13 KXEN Tipo Site DMS www.zementis.com DMS www.alice-soft.com DMS data-applied.com DMS www.sentient.nl/?dden DMS www.dataengine.de Tabela 2. Softwares Comerciais Tipo DMS DMS DMS MAT DMS DMS DMS DMS Site www.cygron.hu www.fqs.pl/businessintelligence/products/ghostminer www.spss.com/software/modeling/modeler www.spss.com/software/statistics www.biocompsystems.com/products/imodel www.jmpdiscovery.com www.angoss.com www.kxen.com 139 14 15 16 17 18 19 20 21 22 23 24 MATLAB MAT www.mathworks.com Model Builder DMS www.fico.com Oracle Data Mining (ODM) DMS www.oracle.com/technology/products/bi/odm/index.html Partek Discovery Suite DMS www.partek.com/software PolyAnalyst DMS www.megaputer.com/polyanalyst.php R-PLUS MAT www.experience-rplus.com SAS Enterprise Miner DMS www.sas.com/products/miner SPAD Data Mining DMS eng.spadsoft.com SQL Server Analysis Services DMS www.microsoft.com/sql STATISTICA DMS www.statsoft.com/products/data-mining-solutions/G259 SuperQuery DMS www.azmy.com Think Enterprise Data Miner 25 (EDM) DMS www.thinkanalytics.com 26 TIBCO Spotfire DMS spotfire.tibco.com 27 Unica PredictiveInsight DMS www.unica.com Tabela 2. Softwares Comerciais (continuação) Ferramenta Tipo Site D2K (comercial, com versão 1 livre para uso acadêmico) DMS alg.ncsa.uiuc.edu 2 Gait-CAD INT sourceforge.net/projects/gait-cad 3 Gnome Data Mine Tools DMS www.togaware.com/datamining/gdatamine 4 KEEL INT www.keel.es 5 Kepler MAT kepler-project.org 6 KNIME INT www.knime.org 7 R MAT www.r-project.org 8 RapidMiner DMS www.rapidminer.com 9 Rattle INT rattle.togaware.com cran.r10 RWEKA INT project.org/web/packages/RWeka/index.html eric.univ-lyon2.fr/ 11 TANAGRA INT ricco/tanagra/en/tanagra.html 12 WEKA DMS sourceforge.net/projects/weka Tabela 3. Softwares Livre/Código Aberto 5.1 Pré-requisitos da seleção Dadas as ferramentas pré-selecionadas através das sugestões publicadas por Mikut e Reischl (2011), faz-se necessário apresentar os pré-requisitos para seleção daquelas que possuem maior aplicação em trabalhos de descoberta de conhecimento em base de dados, através de mineração de dados. Foram elencados os seguintes pré-requisitos para a seleção de ferramentas candidatas: P1 - Ter licença de uso livre para academia; P2 - Ter como foco principal a mineração de dados; 140 P3 - Fornecer mais de um algoritmo para cada uma das seguintes tarefas: classificação, regras de associação e clusterização; P4 – Poder ser executada em desktop com sistema operacional Windows; P5 – Não ser especializada em apenas um tipo de algoritmo (Redes Neurais, Algoritmos Evolucionários; Algoritmos Estatísticos); P6 – Ter uma versão lançada a partir de 2012; P7 – Ser uma ferramenta independente e não apenas uma interface para outra; Considerando o pré-requisito P1, pode-se eliminar todos as ferramentas comerciais relacionadas na Tabela 2. Pelo pré-requisito P2, pode-se também eliminar as ferramentas de pacotes matemáticos Kepler e R, restando assim para análise mais detalhadas, as 12 ferramentas apresentadas na Tabela 4. Ferramenta D2K (comercial, com versão 1 livre para uso acadêmico) 2 Gait-CAD 3 Gnome Data Mine Tools 4 KEEL 6 KNIME 8 RapidMiner 9 Rattle 10 RWEKA 11 TANAGRA 12 WEKA Tipo Site DMS INT DMS INT INT DMS INT alg.ncsa.uiuc.edu sourceforge.net/projects/gait-cad www.togaware.com/datamining/gdatamine www.keel.es www.knime.org www.rapidminer.com rattle.togaware.com cran.rINT project.org/web/packages/RWeka/index.html eric.univINT lyon2.fr/~ricco/tanagra/en/tanagra.html DMS sourceforge.net/projects/weka Tabela 4. Ferramentas que atendem aos critérios P1 e P2 Analisando as ferramentas da Tabela 4, foram excluídas pelos pré-requisitos P2 a P9, as seguintes: D2K: O link apresentado no trabalho de Mikut e Reischl (2011) não é um link válido em 25/03/2012. No site KDNuggets9, na mesma data, esta ferramenta é apresenta como sem desenvolvimento de novas versões desde 2004. Foi eliminada pelo pré-requisito P6. Gait-CAD: É uma toolbox que permite mineração de dados dentro da ferramenta MatLab. Apesar de ser uma ferramenta disponibilizada sobre a licença GNU General Public Licence, que não implica em custo de utilização, esta ferramenta é executada dentro do software MatLab, que é 9 Disponível em: http://www.kdnuggets.com Acesso em: 29/05/2014 141 um software proprietário. Esta dependência faz com que a ferramenta seja excluída pelo prérequisito P1. Gnome Data Mine Tools: É o pacote de conjunto de ferramentas distribuídas sobre licença GNU General Public License. Esta ferramenta foi desenvolvida para ser utilizada sobre o sistema operacional Linux, o que a exclui pela pré-requisito P4. KEEL: É uma ferramenta que disponibiliza acesso a algoritmos evolucionários para solução de problemas de mineração de dados como regressão, classificação clusterização, descoberta de padrões, entre outros. É disponibilizado sob a licença GPLv3, a qual permite a utilização sem custos. Possui versão atualizada, de 29/01/2014 (em 25/03/2014 site http://sci2s.ugr.es/keel/download.php#software). Apesar de disponibilizar alguns poucos algoritmos como apriori e C4.5, ele é declaradamente um software para acesso de algoritmos evolucionários, o que faz com que a ferramenta seja excluída pelo pré-requisito P5. Rattle: É uma interface gráfica para mineração de dados usando a ferramenta R. Por ser apenas uma interface gráfica para utilização de alguns recursos da linguem R a ferramenta será excluída pelo pré-requisito P7. RWeka: É uma interface da linguagem R para ser utilizada dentro da ferramenta WEKA. Por ser apenas uma interface gráfica para utilização de alguns recursos da linguem R a ferramenta será excluída pelo pré-requisito P7. Assim, das ferramentas apresentadas por Mikut e Reischl (2011), que atendem aos prérequisitos de P1 a P7 são KNIME, RapidMiner; Tanagra e Weka. KNIME: É uma ferramenta de código aberto para todo o processo de mineração de dados, que inclui: acesso aos dados, transformação dos dados, análise preditiva e visualização. Possui uma versão comercial na qual são agregados serviços como suporte e correção de eventuais problemas que venham a ser encontrados; ferramentas de workflow compartilhado e utilização de processamentos em servidores. Pode ser executadas em diversas plataformas, entre elas a Windows. RapidMiner: É um ambiente visual para análise preditiva, com uma interface gráfica para desenho e análise de processos. Oferece modelos de análise de dados que diminuem a curva de aprendizagem em diversos contextos como comparação de algoritmos, validação cruzada de um modelo, utilização de algoritmos de clusterização e classificação, análise de compras e préprocessamento e classificação de textos. Pode ser executado em diversas plataformas, dentre elas, a plataforma Windows. O RapidMiner, apesar de ser uma ferramenta comercial, provê uma versão sem custo para utilização, com restrição de acesso à dados via arquivos CSV ou EXCEL. Atualmente se encontra na versão 6.0. A versão 5.0 teve o código fonte aberto e disponibilizada à comunidade. Este possui todos os recursos da versão comercial, como acesso a banco de dados. TANAGRA: É uma ferramenta livre de mineração de dados com propósitos acadêmicos e de pesquisa. O objetivo principal desta ferramenta é propor aos pesquisadores uma arquitetura que permite, facilmente, adicionar os próprios métodos de mineração. O TANAGRA atua mais como uma plataforma experimental com o intuito de liberá-los para as tarefas essenciais de seus trabalhos. Pode ser executado na plataforma Windows. WEKA: É uma coleção de algoritmos de aprendizagem de máquina para tarefas de mineração de dados. Contêm dados para pré-processamento, classificação, regressão, clusterização, 142 regras de associação, e visualização. É uma ferramenta open-source liberada sobre a licença GNU General Public License. A Tabela 5 apresenta as ferramentas apresentadas por Mikut e Reischl (2011) que cumprem todos os pré-requisitos P1 a P7. Ferramenta 6 KNIME 8 RapidMiner Tipo Site INT www.knime.org DMS www.rapidminer.com eric.univINT lyon2.fr/~ricco/tanagra/en/tanagra.html DMS sourceforge.net/projects/weka 11 TANAGRA 12 WEKA Tabela 5 – Ferramentas que atendem aos pré-requisitos. Assume-se neste estudo que a as ferramentas KNIME, RapidMiner, Tanagra e Weka possuem as características necessárias para descoberta de conhecimento em base de dados através de mineração de dados, seguindo os pré requisitos P1 a P6, sendo resposta para a questão Q1: Quais as ferramentas estão disponíveis para serem utilizadas em estudos acadêmicos sem que seja necessário pagar por licenças de uso? 6. Usabilidade das ferramentas Para procurar evidências da boa usabilidade das ferramentas e responder a questão de pesquisa Q2, foi realizada uma pesquisa exploratória com o objetivo de localizar algum questionário que viabilizasse a inspeção por checklist dos softwares. O questionário selecionado foi o ErgoList10 montado por uma equipe multidisciplinar coordenada pelo Prof. Doutor Walter de Abreu Cybis, do Laboratório de Utilisabilidade da Informática (LabIUtil) da Universidade Federal de Santa Catarina. O questionário, composto por 194 questões, tem caráter didático destinado a exercícios de inspeção que levem estudantes a identificar falhas ergonômicas mais flagrantes, o que é suficiente a no escopo deste estudo. A aplicação do questionário pode ser resumida pela Tabela 6. Resumo da Aplicação do ErgoList. KNIME RapidMiner Tanagra Weka Questões Conformes 131 137 107 102 Questões Não conformes 32 25 52 56 Questões Não Aplicáveis 31 32 35 36 Total 194 194 194 194 Tabela 6. Resumo da Aplicação do ErgoList 10 Disponível em: http://www.labiutil.inf.ufsc.br/ergolist/. Acesso em 26/05/2014 143 A ferramenta RapidMiner foi a que teve um maior número de questões conformes: 137, conforme pode ser observado na Tabela 6. Questões conformes são aquelas que estão de acordo com os critérios de usabilidade do questionário. Em segundo lugar ficou a ferramenta KNIME com 131, a ferramenta Tanagra com 107 e por último a ferramenta Weka, com 102. Mesmo quando considerado apenas as questões aplicáveis, ou seja, retirando as questões que não fazem sentido no escopo da interface de cada software, o software RapidMiner teve o melhor percentual de questões conformes, 84,57% e foi seguido pelo KNIME com 80,37%, Tanagra com 67,30% e Weka com 64,56% (102/158). As perguntas e respostas do ErgoList para cada uma das ferramentas podem ser encontrada no Apêndice A. 7. Desempenho de tarefas de clusterização e classificação Uma análise detalhada do desempenho de cada uma das ferramentas exige um esforço que extrapola o escopo deste trabalho. O objetivo desta seção é validar um algoritmo de cllassificação e um algoritmo de clusterização comuns às ferramentas KNIME, RapidMiner, Tanagra e Weka, a fim de ponderar se existe alguma delas com desempenho destoe das demais. Para isso será utilizado o conjunto de dados Iris, originado do trabalho de Fischer (1936) que é composto por 150 registros, cada um deles representando a flor de plantas das espécies Iris setosa, Iris versicolor e Iris virginica, juntamente com as medidas, em centímetros, sepal length (comprimento da sépala), sepal width (largura da sépala), petal length (comprimento da pétala), petal width (largura da pétala). Este conjunto de dados é um benchmarking conhecido para classificação. Baseado no modelo linear de Fischer (FISCHER, 1936) sabe-se que, utilizando as medidas disponíveis, separar as espécies Iris setosa da espécie Iris versicolor. Entretanto as medidas da espécie Iris virginica assemelham-se às da espécie Iris versicolor. Em outras palavras, através de análise estatística o conjunto de dados divide-se naturalmente em dois clusters, um deles com registros da espécie Iris setosa e outro com registros das espécies Iris versicolor e Iris virginica. Pode-se ainda realizar uma leitura com três clusters, um com registro da espécie Iris setosa, um segundo com a maior parte de registros Iris versicolor e alguns registros Iris virginica e um terceiro com a maior parte registros Iris virginica e alguns registros Iris versicolor. Uma análise detalhada das ferramentas KNIME, RapidMiner, Tanagra e Weka mostrou que para tarefas de classificação, o algoritmo Naive Bayes é o que tem maior similaridade (de nome e parâmetros) entre as três ferramentas. Já para tarefas de clusterização o algoritmo K-Means é o que tem maior similaridade. 7.1 Classificação com algoritmo Naive Bayes A tarefa de classificação é definida por Goldschmidt e Passos (2005) como uma função que permita associar corretamente cada registro Xi de um conjunto de dados a um único rótulo categórico Y. O algoritmo Naive Bayes foi executado sobre o conjunto de dados Iris. Para calcular o desempenho, foi utilizada a matriz de confusão, que apresenta os dados em duas dimensões: classes verdadeiras e classes preditas, a diagonal principal da matriz representa os registos que a o algoritmo efetivamente acertou. (GOLDSCHMIDT; PASSOS, 2005) 144 As Tabelas de 7 a 10 representam a matriz de confusão calculada para um dos softwares KNIME, Rapidminer, Weka e Tanagra. Em cada uma delas foi calculada a acurácia da classificação. A acurácia do modelo indica o percentual de registros que do conjunto de dados que foi classificado corretamente, forme fórmula: (WITTEN; FRANK; HALL, 2011) 𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = KNIME Acurácia 94,67% Classificado Iris setosa Classificado Iris versicolor Classificado Iris virginica 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑅𝑒𝑔𝑖𝑠𝑡𝑟𝑜𝑠 𝐶𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑠 𝐶𝑜𝑟𝑟𝑒𝑡𝑎𝑚𝑒𝑛𝑡𝑒 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑅𝑒𝑔𝑖𝑠𝑡𝑟𝑜𝑠 𝐴𝑛𝑎𝑙𝑖𝑠𝑎𝑑𝑜𝑠 Verdadeiro Iris setosa Verdadeiro Iris versicolor Verdeiro Iris virginica 50 0 0 0 45 5 0 3 47 Tabela 7 – Matriz de confusão do classificador Naive Bayes no KNIME Rapidminer Acurácia 96,00% Classificado Iris setosa Classificado Iris versicolor Classificado Iris virginica Verdadeiro Iris setosa Verdadeiro Iris versicolor Verdeiro Iris virginica 50 0 0 0 47 3 0 3 47 Tabela 8 – Matriz de confusão do classificador Naive Bayes no Rapidminer Weka Acurácia 96,00% Classificado Iris setosa Classificado Iris versicolor Classificado Iris virginica Verdadeiro Iris setosa Verdadeiro Iris versicolor Verdeiro Iris virginica 50 0 0 0 48 2 0 4 46 Tabela 9 – Matriz de confusão do classificador Naive Bayes no Weka 145 Tanagra Acurácia 96,00% Classificado Iris setosa Classificado Iris versicolor Classificado Iris virginica Verdadeiro Iris setosa Verdadeiro Iris versicolor Verdeiro Iris virginica 50 0 0 0 48 2 0 4 46 Tabela 10 – Matriz de confusão do classificador Naive Bayes no Tanagra Conforme apresentado, a ferramenta KNIME conseguiu uma acurácia de 94,67%. Rapidminer, Weka e Tanagra, por sua vez, alcançaram 96% de acurácia no processo de classificação de dados. 7.2 Clusterização com algoritmo K-Means Goldschmidt e Passos (2005) definem clusterização como uma tarefa utilizada para particionar os registros de uma base de dados em subconjuntos (clusters), de tal forma que elementos de um cluster compartilhem um conjunto de propriedades comuns que os distingam dos elementos de outros clusters. O algoritmo K-Means, presente nas ferramentas KNIME, RapidMiner, Tanagra e Weka, foi aplicado sobre o conjunto de dados Iris. Foi configurado para que fossem gerados 3 grupos. A definição de três grupos alinha-se com a característica, descrita no trabalho de Fischer (1936), de que existem no conjunto de dados três espécies Iris setosa, Iris versicolor e Iris virginica, com 50 registros de cada uma. Assim, a configuração ideal seria um cluster com a 50 registros Iris setosa, outro com 50 registros Iris versicolor e outro com 50 registros Iris virginica. Sabe-se, entretanto, que o tipo Iris setosa separa-se linearmente dos outros dois tipos, e que os atributos dos tipos Iris setosa e Iris virginica possuem medidas que não possibilitam uma separação linear entre os mesmos, o que deve dificultar a segmentação de dois clusters. (FISCHER, 1936) As tabelas de 11 a 14 mostra o resultado da clusterização em cada uma das ferramentas. KNIME Cluster 0 Cluster 1 Cluster 2 Iris setosa 0 0 50 Iris versicolor 3 47 0 Iris virginica 36 14 0 Total Registros 39 61 50 Tabela 11. Clusters K-Means no KNIME 146 Rapidminer Cluster 0 Cluster 1 Cluster 2 Iris setosa 50 0 0 Iris versicolor 0 3 47 Iris virginica 0 36 14 Total Registros 50 39 61 Tabela 12. Clusters K-Means no Rapidminer Weka Cluster 0 Cluster 1 Cluster 2 Iris setosa 0 50 0 Iris versicolor 47 0 3 Iris virginica 14 0 36 Total Registros 61 50 39 Tabela 13. Clusters K-Means no Weka Tanagra Cluster 1 Cluster 2 Cluster 3 Iris setosa 50 0 0 Iris versicolor 4 40 6 Iris virginica 0 15 35 Total Registros 54 55 42 Tabela 14. Clusters K-Means no Tanagra Analisando os resultados apresentados nas tabelas de 11 a 14, pode-se notar que em cada um dos três clusters gerados existe majoritariamente uma espécie, a qual foi destacada em negrito. Os clusters que apresentam majoritariamente registros da espécie Iris setosa agrupam todos os registros desta espécie são no resultado da clusterização de todas as ferramentas. As ferramentas KNIME, Rapidminer e Weka não agregaram registros de outra espécie no mesmo grupo. Já o resultado da ferramenta Tanagra incluiu no cluster da espécie Iris setosa quatro registros da espécie Iris versicolor. As ferramentas KNIME, Rapidminer e Weka geraram resultados iguais também para o cluster majoritariamente composto por registros da espécie Iris setosa e Iris virginica. As três ferramentas deixaram de fora 3 registros da espécie Iris versicolor agrupando um total de 47 registros e incluíram neste cluster 14 registros que deveriam estar em outro cluster. Já a ferramenta Tanagra agrupou menos registros Iris versicolor, apenas 40 e incluiu neste cluster um registro errado totalizando 15 registros que não deveriam estar neste cluster. Por consequência, o cluster da Iris virginica apresentado pelo Tanagra agrupou um registro certo a menos e três registros errado a mais. 147 Um resumo das tabelas 11 a 14, em termos de exclusividade de espécies por cluster é apresentado na tabela 15. KNIME Rapidminer Weka Tanagra Cluster majoritário Iris setosa Cluster majoritário Iris versicolor Cluster majoritário Iris virginica Registros Ok Registros não OK Registro OK Registros não Ok Registros Ok Registros não Ok Registros Ok Registros não Ok 50 0 50 0 50 0 50 4 47 14 47 14 47 14 40 15 36 3 36 3 36 3 35 6 Tabela 15 – Resumo da clusterização do KNIME, Rapidminer, Weka e Tanagra 8. Aceitação das ferramentas O objetivo desta seção é recolher indicativos que possam subsidiar a resposta da questão Q4: Das ferramentas disponíveis, quais aparentam ser a mais utilizadas pela comunidade científica e na comunidade em geral? 8.1 Ferramentas de mineração na comunidade científica Para procurar indícios de qual das ferramentas em análise é mais utilizada na comunidade científica, seus respectivos nomes foram pesquisados nas fontes de dados da Tabela 16 para trabalhos científicos catalogados entre 01/01/2013 e 02/06/2014. Nome da Fonte ACM Digital Library IEEExplore ScienceDirect Link de Acesso http://portal.acm.org http://ieeexplore.ieee.org http://www.sciencedirect.com Tabela 16. Fontes de dados para medida de aceitabilidade de ferramentas Na busca avançada de cada uma das bases foram realizadas quatro consultas: “knime data mining” “tanagra data mining” “rapidminer data mining” “weka data mining” A consulta foi realizada no dia 02/06/2014, o que inviabiliza a apresentação de trabalhos posteriores à esta data. A data de início do resultado das consultas foi 01/01/2013. A Tabela 17 sintetiza a quantidade de artigos retornados para cada uma das dezesseis consultas. 148 ACM KNIME RapidMiner Tanagra Weka 19 63 3 971 Total IEEExplore ScienceDirect Artigos 68 21 28 213 95 55 19 7 9 2834 1126 737 Tabela 17. Total de artigos por base Essa metodologia simples visa apenas servir de indicador do quão popular são as ferramentas na comunidade acadêmica. A adição das palavras “data mining” às pesquisas visa minimizar a possiblidade das ferramentas de pesquisa disponibilizada pelas fontes de dados retornarem artigos não relacionados à mineração de dados. Mesmo com a simplicidade dessa análise, é difícil discordar que a ferramenta Weka é a mais citada em artigos científicos, pois conta com 90,43% do total de resultados das 16 consultas realizadas. 8.2 Ferramentas de mineração na comunidade em geral A comunidade KDnuggets11, dedicada a assuntos relacionados à análise de dados, realiza regularmente uma pesquisa para descobrir quais softwares tem sido mais utilizados. A pesquisa apresentada em maio de 201212 questionava “Qual software de analise de dados, mineração de dados e big data foram utilizadas nos últimos 12 meses para projetos reais?”. A pesquisa teve 798 votos e a posição das ferramentas KNIME, Rapidminer, Weka e Tanagra, o resultado podem ser vistas na Figura 1. Figura 1 – Resumo do percentual de utilização das ferramentas pela comunidade KDNuggets na pesquisa de 2012. 11 Disponível em: http://www.kdnuggets.com Acesso em: 29/05/2014 Disponível em: http://www.kdnuggets.com/polls/2012/analytics-data-mining-big-data-software.html Acesso em: 29/05/2014. 12 149 É importante notar que os percentuais referem-se ao total de votos em todas as ferramentas, inclusive às que foram ocultadas da figura. A ferramenta Tanagra não foi citada no resultado dessa pesquisa. Assim, será considerado que, na comunidade a ferramenta Rapidminer é a mais utilizada, seguida pela ferramenta KNIME, Weka e por último Tanagra. 9. Análise dos resultados Baseado em Mikut e Reischl (2011), foram selecionadas quatro ferramentas para este estudo, KNIME, Rapidminer, Tanagra e Weka, todas atendendo aos pré-requisitos P1 a P7. Na seção 6. Usabilidade das ferramentas, foi identificado que a ferramenta Rapidminer obteve o maior número absoluto de questões conformes dos critérios do checklis ErgoList e também o maior percentual em reação às questões aplicáveis. Na seção 7. Desempenho de tarefas de clusterização e classificação, foi identificado que a tarefa de classificação do conjunto de dados Iris, para o algoritmo Naive Bayes, teve desempenho semelhante nas quatro ferramentas. Já a clusterização do mesmo conjunto de dados feito pela ferramenta Tanagra teve um desempenho inferior ao das ferramentas KNIME, Rapidminer e Weka. Na seção 8.1. Ferramentas de mineração na comunidade científica, foram recolhidos indícios de que a ferramenta Weka é a mais utilizada pela comunidade acadêmica, indícios estes que apontam para uma utilização que pode chegar a mais de 90% dos trabalhos acadêmicos que utilizam uma das quatro ferramentas analisadas. Na seção 8.2. Ferramentas de mineração na comunidade em geral, utilizou-se o resultado da pesquisa realizada junto aos membros da comunidade KDNuggets como indicador de que a ferramenta Rapidminer é a mais utilizada na comunidade em geral. Pelas análises das seções de 6 a 8, pôde-se responder às questões de pesquisa Q1 a Q4. Q1: Quais as ferramentas estão disponíveis para serem utilizadas em estudos acadêmicos sem que seja necessário pagar por licenças de uso? R: Conforme visto na seção 5, as ferramentas mapeadas foram KNIME, Rapidminer, Tanagra e Weka. Q2: Das ferramentas disponíveis qual aparenta ter melhor usabilidade? R: A ferramenta que aparenta ter a melhor usabilidade é a ferramenta RapidMiner. Q3: Das ferramentas disponíveis, qual aparenta ter melhor desempenho? R: As ferramentas que aparentam ter melhor desempenho, segundo as tarefas de clusterização e classificação usando o arquivo de dados Iris foram KNIME, Rapidminer e Weka. 150 Q4: Das ferramentas disponíveis, qual aparenta ser a mais utilizada pela comunidade científica e na comunidade em geral? R: A ferramenta que aparenta ser mais utilizada pela comunidade científica é a Weka, e pela comunidade em geral é a Rapidminer. Tendo como referencial as seções de 6 a 8, foi criada ainda a Tabela 18 contendo uma linha para cada ferramenta, e uma coluna para cada critério analisado. Nas células de intersecção entre critério e ferramenta foram definidas pontuações que podem ser UM (caso tenha-se obtido indícios de que a ferramenta é melhor ou igual às outras) ou ZERO (caso não tenha-se obtido indícios de que a ferramenta é melhor ou igual às outras). A última coluna acrescentada à Tabela 18 foi chamada de “Pontos” e corresponde a soma de pontos de cada ferramenta. Desempenho Aceitação da Comunidade Usabilidade Pontos Classificação Clusterização Acadêmica Geral KNIME 0 0 1 0 0 1 Rapidminer 1 1 1 0 1 4 Tanagra 0 1 0 0 0 1 Weka 0 1 1 1 0 3 Tabela 18. Indicador de possível melhor ferramenta para descoberta de conhecimento em base de dados através de mineração de dados . 10. Conclusão O trabalho de Mikut e Reischl (2011) apontou 89 ferramentas que podem ser utilizadas para análise e mineração de dados, mostrando que existe um leque amplo de opções disponíveis àqueles que realizam este tipo de tarefa. Pelos parâmetros deste trabalho, a ferramenta que aparenta ter a melhor adequação aos critérios que foram definidos é a ferramenta Rapidminer, mas pelo número elevado de algoritmos e parâmetros disponíveis em cada uma dessas ferramentas não é possível realizar a afirmação de que esta é certamente a melhor opção. Se fosse analisado apenas o critério de aceitação da ferramenta pela comunidade científica, por exemplo, a ferramenta Weka seria a adoção ideal, mas foram encontrados indícios de que esta ferramenta possui usabilidade inferior à encontrada no Rapidminer. Também foram encontrados indícios de que a ferramenta Weka é menos utilizada que a ferramenta Rapidminer pela comunidade em geral. Por não ser objetivo deste estudo obter uma resposta definitiva de qual a melhor ferramenta a ser adotada, pode ser prudente não descartar totalmente a utilização das ferramentas KNIME, Tanagra e Weka, e utiliza-las sempre que houver a suspeita de que estas possam trazer facilidades e/ou resultados que porventura não sejam encontradas na ferramenta Rapidminer. 151 11. Referências CARMONA, C.j. et al. Subgroup discovery in an e-learning usage study based on Moodle. In: INTERNATIONAL CONFERENCE ON NEXT GENERATION WEB SERVICES PRACTICES, 7., 2011, Salamanca, Spain. 7th International Conference on Next Generation Web Services Practices. Salamanca, Spain: Institute Of Electrical And Electronics Engineers, 2011. p. 446 - 451. CRM-MT (Org.). Para CFM, exame realizado pelo MEC comprova crise no ensino médico. 2010. Disponível em: <http://www.crmmt.cfm.org.br/index.php?option=com_content&view=article&id=21155:para-cfmexame-realizado-pelo-mec-comprova-crise-no-ensino-medico&catid=3>. Acesso em: 19 jun. 2013. EDITORA MODERNA. Anuário Brasileiro da Educação Básica: 2012. Disponível em: <http://www.moderna.com.br/responsabilidade-social/publicacoes/>, Acesso em: 19 jun. 2013. FISHER, R. A. THE USE OF MULTIPLE MEASUREMENTS PROBLEMS. Annals Of Eugenics. [s.i.], p. 179-188. 1936. IN TAXONOMIC GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. Rio de Janeiro: Elsevier, 2005. 261 p. INEP. Censo Ensino Superior - 2011. Brasília: INEP/Ministério da Educação. Disponível em: <http://portal.inep.gov.br/superior-censosuperior-sinopse>. Acesso em: 19 jun. 2013. MACFADYEN, Leah P.; DAWSON, Shane. Mining LMS data to develop an “early warning system” for educators: A proof of concept. Computers & Education, p. 588-599. fev. 2010. MIKUT, Ralf; REISCHL, Markus. Data mining tools. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. [s.i.], p. 431-433. set. 2011. OAB (Org.). OAB Recomenda: indicador de educação jurídica de qualidade. Brasília: OAB, Conselho Federal, 2012. 58 p. PASTA, Arquelau. Aplicação da técnica de data mining na base de dados do ambiente de gestão educacional: um estudo de caso de uma instituição de ensino superior de Blumenau-SC. 2011. 153 f. Dissertação (Mestrado) - Curso de Mestrado em Computação Aplicada, Universidade do Vale do Itajaí, São José, 2011. SAMARANAYAKE, C.P.; CALDERA, H.A. A data mining solution on high failure rate in Physical Science stream at the university entrance examination. In: INTERNATIONAL CONFERENCE ON ICT AND KNOWLEDGE ENGINEERING, 10., 2012, Bangkok, Thailand. 2012 Tenth International Conference on ICT and Knowledge Engineering. Bangkok, Thailand: Institute Of Electrical And Electronics Engineers, 2012. p. 163 - 170. TRANDAFILI, Evis et al. Discovery and evaluation of student's profiles with machine learning. In: BALKAN CONFERENCE IN INFORMATICS, 5., 2012, Novi Sad, Serbia. Proceedings of the Fifth Balkan Conference in Informatics. Novi Sad, Serbia: Acm, 2012. p. 174 - 179. 152 ZENG, Xianyang. ZHENG, Hongxia Genders Differentials in Computer Sciences Education: Analysis and Proposal. In: INTERNATIONAL WORKSHOP ONEDUCATION TECHNOLOGY AND COMPUTER SCIENCE, 1., 2009, Wuhan, China. 2009 First International Workshop on Education Technology and Computer Science. Wuhan, China: Institute Of Electrical And Electronics Engineers, 2009. p. 494 - 497. ZHANG, Zhiyu. Study and analysis of data mining technology in college courses students failed. In: 2010 INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND INTEGRATED SYSTEMS, 2010, Guilin, China. 2010 International Conference on Intelligent Computing and Integrated Systems. Guilin, China: Institute Of Electrical And Electronics Engineers, 2010. p. 800 - 802. 153 Apêndice B – Algorítmos de Clusterização, Regras de Associação e Classificação do RapidMiner Este apêndice apresenta as principais tarefas de mineração de dados da ferramenta RapidMiner 5.0. Legenda: M: Aceita Missing Values (Dados Faltantes) R: Aceita Rótulo (Label/Target) B: Aceita Dados Binários P: Aceita Dados Polinomiais N: Aceita Dados Numéricos Algoritmo Default Model K-NN Tarefa Classificação Classificação Naive Bayes (Kernel) Classificação Naive Bayes Classificação Perceptron Neural Net AutoMLP Linear Regression Seemingly Unrelated Regression Polynomial Regression Vector Linear Regression Gaussian Process Relevance Vector Machine Logistic Regression Logistic Regression (Evolutionary) Support Vector Machine Support Vector Machine (Linear) Support Vector Machine (LibSVM) Support Vector Machine (Evolutionary) Support Vector Machine (PSO) Fast Large Margin Hyper Hyper Linear Discriminant Analysis Quadratic Discriminant Analysis Regularized Discriminant Analysis Classificação Classificação Classificação Classificação Classificação Classificação Classificação Classificação Classificação Classificação Classificação Classificação Classificação Classificação Dados Saída M R B P N X X X X X 1 valor para rótulo X X X X X Resumo das dimensões e registros Densidade dos atributos em X X X X relação aos outros Descrição da distribuição do X X X X X modelo X X X Hiperplano X X X Rede Neural X X X Rede Neural X X Modelo regressão linear X X Modelo regressão linear X X Modelo regressão linear X X Modelo regressão linear X X Modelo regressão linear X X Modelo regressão linear X X Modelo de regressão logística X X Modelo de regressão logística X X Kernel Model X X LinearMySVM X X Kernel Model Classificação X X Kernel Model Classificação Classificação Classificação Classificação Classificação Classificação X X X X X X X X X X X X Kernel Model Fast Linear Classification HyperHyper Model Quadratic Discriminant Model Linear Discriminant Model Regularized Discriminant Model 154 Algoritmo Decision Tree (Weight-Based) Tarefa Classificação Associação Dados M R B P N Saída X X X Árvore de decisão X X X Árvore de decisão CHAID Classificação Associação Decision Tree Classificação Associação ID3 Classificação Associação X X X Árvore de decisão Decision Stump Classificação Associação X X X Árvore de decisão Random Tree Classificação Associação X X X X X Árvore de decisão Random Forest Classificação Associação X X X X Árvore de decisão Rule Induction Classificação Associação X X X Regras Single Rule Induction Classificação Associação X X Regra Single Rule Induction (Single Attribute) Classificação Associação X X X Regra Subgroup Discovery Classificação Associação X X Regras X X X Regras Create Association Rules k-Means k-Means (Kernel) k-Means (fast) X-Means k-Medoids DBSCAN Expectation Maximization Clustering Support Vector Clustering Random Clustering Classificação Associação Clusterização Clusterização Clusterização Clusterização Clusterização Clusterização X X X X X Árvore de decisão X X X X X X X X X X X X X Registros identificados em clusters Registros identificados em clusters Registros identificados em clusters Registros identificados em clusters Registros identificados em clusters Registros identificados em clusters Clusterização X Registros identificados em clusters Clusterização Clusterização X X X Registros identificados em clusters X X X Registros identificados em clusters Cluster em forma de pastas com X X X subníveis. X Registros identificados em clusters Agglomerative Clustering Clusterização Top Down Clustering Clusterização X 155 Apêndice C – Definição dos Parâmetros de Algoritmos Na Tabela 01 deste Apêndice é apresentado, a título de exemplo, o teste de configuração do algoritmo “Decision Tree”. Além do critério de relevância do atributo, a tabela apresenta também as seguintes colunas: (MS) Tamanho mínimo de um nó (em número de registros/exemplos) para desdobramento; (ML) Tamanho mínimo de um nó folha; (MG) Ganho mínimo para divisão do nó (seguindo o critério escolhido); (MD) Número máximo de níveis (maximal depth) da árvore; (CF) Confiança mínima, utilizada para poda dos galhos; (PA) Número de podas. (P-) Se usa ou não pré-poda; (P+) Se usa ou não uma pós-poda; Tabela 01. Ajuste de parâmetros do algoritmo Decision Tree para CDADir e CDAEng. Nr. Curso 1 2 3 4 5 Dir Dir Dir Dir Dir Critério MS ML MG MD CF Divisão AC 4 2 0.7 8 0.5 AC 0.5 300 2 0.7 8 AC 0.5 4 300 0.7 8 AC 4 150 0.7 8 0.5 AC 4 0.5 50 0.7 8 PA P- P+ 3 3 3 3 3 Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim % Classificado 53,209 53,209 93,898 89,140 57,232 Acurácia 52,85 52,84 50,59 50,88 52,53 6 Dir AC 4 50 0.9 8 0.5 3 Sim Sim 57,232 52,53 7 8 Dir Dir AC AC 4 4 50 50 0.9 0.9 4 8 0.5 0.1 3 3 Sim Sim Sim Sim 61,760 57,232 52,23 52,23 9 Dir AC 4 50 0.9 8 0.5 3 Não Sim 53,209 52,84 10 Dir AC 4 50 0.9 8 0.5 3 Sim Não 4,500 49,53 11 12 13 14 15 16 17 18 19 20 Dir Dir Dir Dir Dir Dir Dir Dir Dir Dir IG IG IG IG IG GR GR GR GR GR 4 4 4 4 4 4 4 4 4 4 2 2 2 2 300 2 2 2 2 300 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 0.7 40 20 10 5 5 40 20 20 20 5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.7 0.5 0.3 3 3 3 3 3 3 3 3 3 3 Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim 100 100 100 100 100 100 100 100 100 100 48,26 48,26 48,26 48,26 48,26 48,26 48,26 48,26 48,26 48,26 21 Dir GI 4 2 0.3 8 0.5 3 Sim Sim 93,127 54,77 22 23 24 Dir Dir Dir GI GI GI 4 4 4 150 0.3 300 0.3 75 0.3 8 8 8 0.5 0.5 0.5 3 3 3 Sim Sim Sim Sim Sim Sim 80,499 98,008 80,582 57,58 54,80 57,57 Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Observações Parâmetro ML = 50 é um bom número para que não sejam geradas regras aplicáveis a 2 ou 3 registros, classificando 57,23% dos exemplos com acurácia de 52% Testando a poda para Acurácia do teste 6 Testando a poda para Acurácia do teste 6 Só 1 regra “else BADA” Só 1 regra “else BADA” Só 1 regra “else BADA” Só 1 regra “else BADA” Só 1 regra “else BADA” Só 1 regra “else BADA” Só 1 regra “else BADA” Só 1 regra “else BADA” Só 1 regra “else BADA” Só 1 regra “else BADA” Primeiro teste a entender que GDA_DIS depende diretamente da aprovação, através da regra:“if ALU_DIS_APR = N then BADA” 156 25 26 27 Dir Dir Eng GI GI AC 4 4 4 50 0.3 200 0.3 2 0.7 8 8 8 0.5 0.5 0.5 3 3 3 Sim Sim Sim Sim Sim Sim 80,582 80,499 0,572 57,57 57,58 59,62 28 Eng AC 4 300 0.7 8 0.5 3 Sim Sim 100 55,49 29 Eng AC 4 150 0.7 8 0.5 3 Sim Sim 100 55,49 30 Eng AC 4 50 0.7 8 0.5 3 Sim Sim 100 55,49 31 Eng AC 4 50 0.9 8 0.5 3 Sim Sim 100 55,49 32 Eng AC 4 500 0.7 8 0.5 3 Sim Sim 100 55,49 33 34 35 36 37 38 39 40 41 42 43 Eng Eng Eng Eng Eng Eng Eng Eng Eng Eng Eng IG IG IG GR GR GI GI GI GI GI GI 4 4 4 4 4 4 4 4 4 4 4 2 2 2 2 2 2 50 2 2 2 2 40 40 40 40 40 8 8 8 13 8 8 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 3 3 3 3 3 3 3 3 3 3 3 Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim 0 0 0 0 0 0,570 0 0,572 0,572 0,572 0,572 59,62 59,62 59,62 59,62 59,62 0.7 0.7 0.3 0.1 0.1 0.3 0.3 0.7 0.7 0.1 0.1 Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Não Iniciando com parâmetros do teste 1 Apenas uma regra: “if DIS_OBR = S then BADA” Apenas uma regra: “if DIS_OBR = S then BADA” Apenas uma regra: “if DIS_OBR = S then BADA” Apenas uma regra: “if DIS_OBR = S then BADA” Apenas uma regra: “if DIS_OBR = S then BADA” Ao final, a melhor configuração para o algoritmo foi o apresentado na linha 23 da Tabela 01 deste Apêndice, com critério Coeficiente de Gini. Apesar deste ser a melhor configuração do algoritmo “Decision Tree”, os outros critérios também foram documentados e analisados, conforme apresentado na Tabela 20 disponível na Seção 5.1.1.6. 157 Apêndice D – Ofício 073/ProEn/2012: Liberação de dados para análise