descoberta de conhecimento para identificação de fatores que

Propaganda
ROBERTO GONÇALVES AUGUSTO JUNIOR
DESCOBERTA DE CONHECIMENTO PARA IDENTIFICAÇÃO
DE FATORES QUE INFLUENCIAM O DESEMPENHO DISCENTE
DIFERENÇAS ENTRE OS CURSOS DE DIREITO E ENGENHARIA CIVIL
Itajaí (SC), Agosto de 2015
UNIVERSIDADE DO VALE DO ITAJAÍ
CURSO DE MESTRADO ACADÊMICO EM
COMPUTAÇÃO APLICADA
DESCOBERTA DE CONHECIMENTO PARA IDENTIFICAÇÃO
DE FATORES QUE INFLUENCIAM O DESEMPENHO DISCENTE
DIFERENÇAS ENTRE OS CURSOS DE DIREITO E ENGENHARIA CIVIL
por
Roberto Gonçalves Augusto Junior
Dissertação apresentada como requisito parcial à
obtenção do grau de Mestre em Computação Aplicada.
Orientador: Raimundo Celeste Ghizoni Teive, Dr. Eng.
Itajaí (SC), Agosto de 2015
FOLHA DE APROVAÇÃO
Esta página é reservada para inclusão da folha de assinaturas, a ser disponibilizada pela
Secretaria do Curso para coleta da assinatura no ato da defesa.
Dedico este trabalho à:
Minha Mãe, Helenilce Lucindo Augusto (in-memoriam), me mostrou o verdadeiro amor e saudade;
Meu pai, Roberto Gonçalves Augusto, meu exemplo de superação;
Meu filho Gabriel Augusto, meu rejuvenescimento e aprendizado diário;
Minha esposa Emilia Tasinafo Silva Augusto, minha vida, a espinha dorsal deste trabalho.
AGRADECIMENTOS
Poucas metas poderiam ser alcançadas trabalhando sozinho, em cada novo desafio várias
pessoas são envolvidas, é muito importante saber reconhecer e agradecer a quem torna nosso
caminho mais suave.
Reconheço aqui a importância de minha amiga e Gerente de Tecnologia da Informação da
Universidade do Vale do Itajaí Ruth Broglio Silveira e também da Excelentíssima Senhora Profª
Dra. Amândia Maria de Borba, Vice-Reitora da Universidade do Vale do Itajaí de 2010 a 2013.
Trabalhar liderado por pessoas como elas é uma oportunidade de aprendizado ímpar. Tenho grande
gratidão pelo apoio que tive para iniciar no Mestrado em Computação Aplicada. Sem o total apoio
delas certamente este trabalho não seria sido realizado.
Agradeço a confiança depositada pela Excelentíssima Senhora Profª Dra. Cássia Ferri, PróReitora de Ensino de 2010 a 2014 e atualmente Vice-Reitora de Graduação da Universidade do
Vale do Itajaí, por liberar dados tão valiosos para a análise efetuada nesta dissertação.
Aos amigos Alcides Vila-Loubos, Rodrigo Balaba Lopes, Marcello de Castro Pessoa,
Jefferson Prebianca, Nilmar de Souza e Leo Lynce Valle de Lacerda por terem oferecido seu
precioso tempo para me auxiliar na extração e compreensão dos dados que foram analisados.
Aos meus colegas de trabalho da Gerência de Tecnologia da Informação da Universidade do
Vale do Itajaí por terem suportado, sem reclamar, a repetição incessante de um único assunto ao
longo do tempo em que fiquei envolvido nas atividades que culminaram nesta dissertação.
Ao meu orientador, Prof. Raimundo Celeste Ghizoni Teive, por toda paciência e pela
dedicação oferecidas, antes do início e durante o meu curso no Mestrado em Computação Aplicada.
Dentre todos aqueles a quem agradeço tenho gratidão especial a três pessoas, por
provocarem o desejo do desafio deste Mestrado e mostrar que era possível apesar das dificuldades.
Um obrigado especial ao Prof. Rafael Ballotin Martins a Profª Cirlene Inácio da Graça e o grande
amigo Mario Tavares Junior. Sem eles eu nunca teria dado o primeiro passo desta desafiante
caminhada.
DESCOBERTA DE CONHECIMENTO PARA IDENTIFICAÇÃO
DE FATORES QUE INFLUENCIAM O DESEMPENHO DISCENTE
DIFERENÇAS ENTRE OS CURSOS DE DIREITO E ENGENHARIA CIVIL
Roberto Gonçalves Augusto Junior
Agosto / 2015
Orientador: Prof. Raimundo Celeste Ghizoni Teive, Dr. Eng.
Área de Concentração: Computação Aplicada
Linha de Pesquisa: Inteligência Aplicada
Palavras-chave: Descoberta de Conhecimento. Mineração de Dados. Ensino. Aprendizagem.
Instituições de Ensino Superior.
Número de páginas: 158
RESUMO
A qualidade do ensino superior no Brasil desperta preocupação na atualidade, apesar do
crescimento significativo no número de instituições de ensino superior entre os anos 2000 e 2010.
A literatura técnica apresenta um esforço de parte da comunidade científica, na busca da
compreensão dos fatores do ambiente de ensino-aprendizagem que influenciem positiva ou
negativamente o desempenho do discente. O presente trabalho buscou identificar estes fatores e
comparar como os mesmos variam entre os cursos de Direito e Engenharia Civil. Para esta análise
foram utilizados dados do sistema de gestão acadêmica da Universidade do Vale do Itajaí, de 2005
ao primeiro semestre de 2014, combinados com técnicas de classificação com regras de associação
e clusterização, da mineração de dados. Este estudo apresenta-se relevante à comunidade científica
ao examinar, uma população ainda não estudada com esta técnica de descoberta de conhecimento e
de posse desses dados apresentar diferenças entre perfis de alunos com determinado desempenho
acadêmico nos cursos de Direito e Engenharia Civil. Foi utilizada a metodologia Cross Industry
Standard Process for Data Mining (CRISP-DM), selecionada a partir quatorze outras metodologias.
O estudo mostrou o número de faltas como fator que mais influencia no desempenho acadêmico de
alunos. O registro de apenas quatro faltas em disciplinas de trabalho de conclusão de curso, por
exemplo, aumenta para 98,60% a probabilidade de o aluno obter uma nota classificada como baixo
desempenho. Ficou evidenciado também uma tendência de melhor desempenho de alunos do
Programa Universidade para Todos (PROUNI) em relação aos alunos com outra forma de ingresso.
Não houve diferenças entre os fatores que influenciam no desempenho acadêmico do aluno entre os
cursos de Direito e Engenharia Civil. Analisando os quatro semestres iniciais do curso do aluno, foi
possível prever com até 78,38% de acurácia e nível de aceitação Kappa “Substancial” qual
desempenho acadêmico o aluno egresso de Direito terá. A quantidade menor de registros do curso
de Engenharia Civil impactou negativamente na acurácia do modelo gerado para prever o grupo de
desempenho do egresso de Engenharia Civil. A acurácia deste modelo foi de 68,42% e a aceitação
Kappa “Justa”.
IDENTIFYING INFLUENTIAL ELEMENTS IN STUDENTS’
ACADEMIC PERFORMANCE THROUGH KNOWLEDGEDISCOVERY IN DATABASES
DIFFERENT PROFILES IN CIVIL ENGINEERING AND LAW
COURSES
Roberto Gonçalves Augusto Junior
August / 2015
Advisor: Raimundo Celeste Ghizoni Teive, Dr.
Area of Concentration: Applied Computer Science
Research Line: Applied Intelligence
Keywords: Knowledge Discovery. Data Mining. Education. Learning. Higher Education
Institutions.
Number of pages: 158
ABSTRACT
The standards in Higher Education in Brazil currently have been arousing great concern,
despite the significant increase in the number of Higher Education institutions between 2000 and
2010. Technical literature shows an effort from faculty members and researchers in order to
understand the elements of learning environment which may influence positive or negatively on
students’ performance. This research intends to identify these elements and compare how they vary
amongst Law and Civil Engineering courses. For such analysis, data has been used from the
academic management system of Universidade do Vale do Itajaí, along with clustering and
classification with with rule induction techniques, from data mining. This study has shown to be
relevant for examining a population that had not yet been studied through this knowledge-discovery
technique, and whose information reveals differences between certain students’ profiles regarding
their performance in Law and Civil Engineering courses. Research has shown number of absences
as a mostly influential element in students’ academic performance. This means that records of four
absences in subjects such as undergraduate thesis increase chances of low grade in final reports to
98,60%. There is also an evidently strong relation between good performance and ProUni students
(state school students with scholarship granted by the government), compared to students taking
regular entrance exams. There was no difference between elements influencing students’ academic
performance in Law and Civil Engineering courses. Through analysis of the first two years in each
course it was possible to predict academic performance with 78,38% accuracy and a substantial
agreement in Kappa values regarding Law alumni’s final average. The lesser number of Civil
Engineering records had a negative impact on the accuracy of results related to Civil Engineering
alumni’s performance. This result was 68,42% accurate and indicated a fair agreement in Kappa
values.
LISTA DE ILUSTRAÇÕES
Figura 1. Dados disponíveis para o processo de KDD. ..................................................................... 21
Figura 2. Hierarquia entre dados, informações e conhecimento. ....................................................... 31
Figura 3. Exemplo de Clusters. .......................................................................................................... 33
Figura 4. Evolução de metodologias e modelos de processos de mineração de dados...................... 41
Figura 5. Fases da metodologia CRISP-DM. ..................................................................................... 44
Figura 6. Discretização de notas por frequência - Direito. ................................................................ 79
Figura 7. Discretização de notas por frequência – Engenharia Civil. ................................................ 81
Figura 8. Avaliação de P1; OE1......................................................................................................... 90
Figura 9. Avaliação de P2; OE2; H1.................................................................................................. 91
Figura 10. Avaliação de P3; OE3; OE4; H2. ..................................................................................... 92
Figura 11. Percentual dos GDA por Curso. ....................................................................................... 94
Figura 12. Percentual dos GDA para Disciplinas TCC, por curso. ................................................... 95
Figura 13. Percentual do GDA em função do número de faltas. ....................................................... 97
Figura 14. Percentual dos GDA para Disciplinas TCC em que o aluno teve mais de 4 faltas. ......... 99
Figura 15. Grupo de desempenho por titulação, curso de Direito. .................................................. 101
Figura 16. Grupo de desempenho por titulação, curso de Engenharia Civil. .................................. 102
Figura 17. Percentual de Faltas por Curso, 2 intervalos. ................................................................. 105
Figura 18. Percentual dos GDA em Disciplinas Não Obrigatórias. ................................................. 106
Figura 19. Percentual dos GDA de Egressos por Curso. ................................................................. 111
Quadro 1. Fontes de dados da revisão Sistemática. ........................................................................... 51
Quadro 2. Seleção final dos artigos, considerando critérios de inclusão e exclusão. ........................ 54
Quadro 3. Síntese das características descritas em cada artigo. ......................................................... 63
Quadro 4. Atributos da Central de Pessoas que serão utilizados. ...................................................... 70
Quadro 5. Atributos do sistema Acadêmico/Financeiro que serão utilizados. .................................. 71
Quadro 6. Atributos do sistema Diário On-line que serão utilizados. ............................................... 73
Quadro 7. Atributos do sistema Controle Docente que serão utilizados. .......................................... 73
Quadro 8. Atributos do sistema Acadêmico/Financeiro que serão utilizados. .................................. 74
Quadro 9. Atributos do sistema Pergamum que serão utilizados. ..................................................... 74
Quadro 10. Atributos do Sistema Ambiente Sophia que serão utilizados. ........................................ 75
Quadro 11. Atributos da Avaliação Institucional que serão utilizados. ............................................. 76
Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng. ................................................. 82
Quadro 13. Atributos dos conjuntos de dados CDADirEgresso e CDAEngEgresso. ....................... 85
Quadro 14. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng ........................... 87
Quadro 15. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng discretizado, sem
valores faltantes.......................................................................................................................... 87
Quadro 16. Algoritmos que cumprem os pré-requisitos para CDADirEgresso e CDAEngEgresso. 88
Quadro 17. Algoritmos que cumprem os pré-requisitos para CDADirEgresso e CDAEngEgresso
discretizado, sem valores faltantes. ............................................................................................ 89
Quadro 18. Modelo de regras de classificação otimizado para CDADirEgresso. ........................... 117
Quadro 19. Modelo de regras de classificação otimizado para CDAEngEgresso. .......................... 119
LISTA DE TABELAS
Tabela 1. Resumo da população. ....................................................................................................... 22
Tabela 2. Matriz de confusão. ............................................................................................................ 35
Tabela 3. Modelo de uma tabela de observação para análise de hipótese. ........................................ 38
Tabela 4. Níveis e aceitação da estatística Kappa .............................................................................. 40
Tabela 5. Exemplo de discretização por frequência, atributo Nota em 3 grupos. ............................. 40
Tabela 6. Etapas das metodologias CRISP-DM e KDD Process. ...................................................... 43
Tabela 7. Ferramentas de mineração de dados que atendem aos pré-requisitos. .............................. 47
Tabela 8. Base de dados e número de artigos por ferramenta ............................................................ 48
Tabela 9. Pontuação das ferramentas. ................................................................................................ 49
Tabela 10. Seleção de estudos por base. ............................................................................................ 54
Tabela 11. Grupos de Desempenho - Direito ..................................................................................... 78
Tabela 12. Grupos de Desempenho – Engenharia Civil .................................................................... 79
Tabela 13. Percentual de reprovações entre 2005/1 e 2014/1. ........................................................... 80
Tabela 14. Regras do Algoritmo Single Rule Induction (Single Attribute) ....................................... 94
Tabela 15. Exemplos de regra com ALU_DIS_FALTAS em destaque ............................................ 95
Tabela 16. Percentual das notas em função do curso e número de faltas .......................................... 98
Tabela 17. Percentual das notas em função do curso e ingresso...................................................... 100
Tabela 18. Percentual dos GDA em função do Tipo de Disciplina. ................................................ 101
Tabela 19. Exemplos de regras descartadas. .................................................................................... 103
Tabela 20. Acurácia e Kappa dos modelos. ..................................................................................... 104
Tabela 21. Regra com análise do grupo de faltas ............................................................................ 105
Tabela 22. Distribuição GDA por cluster, Curso de Direito, algoritmo KMeans Kernel, 3 clusters.
.................................................................................................................................................. 107
Tabela 23. Distribuição GDA por cluster, Curso de Engenharia Civil, algoritmo KMeans Kernel, 6
clusters. .................................................................................................................................... 107
Tabela 24. Distribuição GDA por cluster, Curso de Engenharia Civil, algoritmo KMeans Kernel, 3
clusters. .................................................................................................................................... 108
Tabela 25. Distribuição GDA por cluster, algoritmo KMeans Kernel, 6 clusters. .......................... 108
Tabela 26. Impacto de variações na regra “if PROF_TITUL = M and GRU_INGR = VES and
ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F
and NEG_FIN = N then BDA”, curso de Direito. ................................................................... 109
Tabela 27. Distribuição de faltas em disciplinas que respeitam a regra “if PROF_TITUL = M and
GRU_INGR = VES and ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER >
4.500 and SEXO = F and NEG_FIN = N then BDA”, curso de Direito. ................................ 110
Tabela 28. Quantidade de Egressos por curso. ................................................................................ 111
Tabela 29. Relação GDA semestre iniciais versus GDA egresso no curso de Direito. ................... 112
Tabela 30. Relação GDA semestre iniciais versus GDA egresso no curso de Engenharia Civil. ... 113
Tabela 31. Acurácia e Kappa dos modelos. ..................................................................................... 113
Tabela 32. Regras CDA Egresso com apenas GDA_PER4. ............................................................ 114
Tabela 33. Matriz de confusão do modelo mais eficiente para o curso de Direito. ......................... 115
Tabela 34. Matriz de confusão do modelo otimizado para o curso de Direito ................................ 116
Tabela 35. Matriz de confusão do modelo mais eficiente para o curso de Engenharia Civil. ......... 118
Tabela 36. Matriz de confusão do modelo otimizado para o curso de Engenharia Civil ................ 118
LISTA DE ABREVIATURAS E SIGLAS
AI
AVA
BADA
BDA
BI
CAPES
CCS
CDA
CECIESA-CTL
CECIESA-Gestão
CEJURPS
CFM
CRISP-DM
CRM
CTTMAR
EDM
FN
FP
GDA
H
IBM
IES
INEP
IPM
KDD
KEEL
MD
MDA
MEC
NI
OAB
OE
P
SESU
SINAES
SPSS
TA
UNIVALI
VN
VP
Avaliação Institucional
Ambiente Virtual de Aprendizagem
Baixo Desempenho Acadêmico
Bom Desempenho Acadêmico
Business Intelligence
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Centro de Ciências da Saúde
Conjunto de Dados (Datasets)
Centro de Ciências Sociais Aplicadas – Comunicação, Turismo e Lazer
Centro de Ciências Sociais Aplicadas – Gestão
Centro de Ciências Sociais e Jurídicas
Conselho Federal de Medicina
Cross Industry Standard Process for Data Mining
Conselho Regional de Medicina
Centro de Ciências Tecnológicas da Terra e do Mar
Educational Data Mining
Falso Negativo
Falso Positivo
Grupo de Desempenho Acadêmico
Hipótese
International Business Machine
Instituição de Ensino Superior
Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira
Instituto Paulo Montenegro
Knowledge Discovery in Databases
Knowledge Extraction based on Evolutionary Learning
Mineração de Dados
Médio Desempenho Acadêmico
Ministério da Educação
Não Informado
Ordem dos Advogados do Brasil
Objetivo Específico
Pergunta de pesquisa
Secretaria de Educação Superior
Sistema Nacional de Avaliação da Educação Superior
Statistical Package for the Social Sciences
Total de Analisados
Universidade do Vale do Itajaí
Verdadeiro Negativo
Verdadeiro Positivo
13
SUMÁRIO
1 INTRODUÇÃO.................................................................................... 16
1.1 PROBLEMA DE PESQUISA........................................................................... 18
1.1.1 Solução Proposta ............................................................................................. 20
1.1.2 Delimitação de Escopo .................................................................................... 22
1.1.3 Justificativa ...................................................................................................... 24
1.2 OBJETIVOS ...................................................................................................... 25
1.2.1 Objetivo Geral ................................................................................................. 25
1.2.2 Objetivos Específicos ...................................................................................... 25
1.3 METODOLOGIA .............................................................................................. 26
1.3.1 Metodologia da Pesquisa ................................................................................ 26
1.3.2 Procedimentos Metodológicos........................................................................ 26
1.4 ESTRUTURA DA DISSERTAÇÃO ................................................................ 29
2 FUNDAMENTAÇÃO TEÓRICA ...................................................... 31
2.1 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS ............... 31
2.2 MINERAÇÃO DE DADOS .............................................................................. 32
2.2.1 Aprendizagem automática ............................................................................. 32
2.2.2 Clusterização ................................................................................................... 32
2.2.3 Descoberta de Regras de Associação ............................................................. 34
2.2.4 Classificação..................................................................................................... 34
2.2.5 Critérios de Relevância de atributo............................................................... 36
2.2.6 Medidas de Desempenho ................................................................................ 38
2.2.7 Discretização por Frequência ........................................................................ 40
2.3 METODOLOGIAS PARA KDD/DM.............................................................. 41
2.3.1 A metodologia CRISP-DM ............................................................................. 43
2.4 ESCOLHA DAS FERRAMENTAS ................................................................. 46
3 Revisão Sistemática da Literatura ..................................................... 50
3.1 QUESTÕES DE PESQUISA DA REVISÃO SISTEMÁTICA ..................... 50
3.2 FONTES DE DADOS ........................................................................................ 50
3.3 CRITÉRIOS DE SELEÇÃO ............................................................................ 51
3.3.1 Critérios de Inclusão ....................................................................................... 51
3.3.2 Critérios de exclusão ....................................................................................... 51
3.4 STRING DE BUSCA ......................................................................................... 52
3.5 SELEÇÃO DOS ESTUDOS ............................................................................. 53
3.6 ESTUDOS SELECIONADOS .......................................................................... 53
3.7 ANÁLISE DOS TRABALHOS ........................................................................ 54
3.7.1 Genders Differentials in Computer Sciences Education: Analysis and
Proposal (ZENG E ZHENG, 2009) ......................................................................... 55
14
3.7.2 Mining LMS data to develop an “early warning system” for educators: A
proof of concept (MACFADYEN e DAWSON, 2010) ........................................... 55
3.7.3 Study and analysis of data mining technology in college courses students
failed (ZHANG, 2010) .............................................................................................. 57
3.7.4 Subgroup discovery in an e-learning usage study based on Moodle
(CARMONA et al., 2011) .......................................................................................... 58
3.7.5 A data mining solution on high failure rate in Physical Science stream at
the university entrance examination (SAMARANAYAKE e CALDERA, 2012)59
3.7.6 Discovery and evaluation of student's profiles with machine learning
(TRANDAFILI et al., 2012) ...................................................................................... 60
3.7.7 ANALYZING STUDENTS RECORDS TO IDENTIFY PATTERNS OF
STUDENTS' PERFORMANCE (HOE et al., 2013) .............................................. 61
3.7.8 Sumarização dos resultados ........................................................................... 62
3.8 CONSIDERAÇÕES .......................................................................................... 63
4 Metodologia Proposta .......................................................................... 66
4.1 ESTRUTURA DA IES ...................................................................................... 66
4.2 CONJUNTO DE DADOS E INFORMAÇÕES UTILIZADAS .................... 69
4.2.1 Central de Pessoas ........................................................................................... 70
4.2.2 Sistema Acadêmico/Financeiro ...................................................................... 70
4.2.3 Diário On-Line ................................................................................................ 72
4.2.4 Controle Docente ............................................................................................. 73
4.2.5 Plano de Ensino ............................................................................................... 73
4.2.6 Sistema da Pergamum .................................................................................... 74
4.2.7 Ambiente Sophia ............................................................................................. 74
4.2.8 Sistema de Avaliação ...................................................................................... 75
4.3 PREPARAÇÃO DOS DADOS ......................................................................... 76
4.3.1 Atributos derivados - Simples ........................................................................ 77
4.3.2 Atributos derivados – com análise................................................................. 77
4.3.3 Atributos não utilizados no conjunto de dados final ................................... 81
4.3.4 Conjuntos de dados ......................................................................................... 82
4.4 MODELAGEM .................................................................................................. 86
4.4.1 Seleção dos algoritmos para conjuntos de dados CDADir e CDAEng. ..... 86
4.4.2 Seleção dos algoritmos para conjunto de dados CDADirEgresso e
CDAEngEgresso ........................................................................................................ 88
4.5 PLANO DE AVALIAÇÃO ............................................................................... 89
5 Resultados ............................................................................................. 93
5.1.1 Resultados da análise dos conjuntos de dados CDADir e CDAEng. ......... 93
5.1.2 Resultados da análise dos conjuntos de dados CDADirEgresso e
CDAEngEgresso ...................................................................................................... 110
6 Conclusões .......................................................................................... 121
15
6.1 A DEFINIÇÃO DOS GRUPOS DE DESEMPENHO BADA, MDA, BDA.
121
6.2 CARACTERÍSTICAS QUE SE REPETEM NOS GRUPOS DE
DESEMPENHO ACADÊMICO ............................................................................ 122
6.3 CRIAÇÃO DE MODELO PARA PREDIZER O GRUPO DE
DESEMPENHO DO EGRESSO............................................................................ 125
6.4 PRINCIPAIS CONTRIBUIÇÕES ................................................................. 126
6.5 LIMITAÇÕES DO TRABALHO .................................................................. 127
6.6 TRABALHOS FUTUROS .............................................................................. 128
REFERÊNCIAS ..................................................................................... 129
Apêndice A – Seleção da Ferramenta .................................................. 135
Apêndice B – Algorítmos de Clusterização, Regras de Associação e
Classificação do RapidMiner ................................................................ 153
Apêndice C – Definição dos Parâmetros de Algoritmos .................... 155
Apêndice D – Ofício 073/ProEn/2012: Liberação de dados para análise
157
16
1 INTRODUÇÃO
Nos últimos anos houve um aumento expressivo no número de Instituições de Ensino
Superior (IES) no Brasil, passando de 1.180 no ano 2000 para 2.365 em 2010 (INEP, 2011),
números que deveriam ser comemorados pela sociedade, mas de maneira antagônica, vem
despertando preocupação pela baixa qualidade do ensino oferecido em muitas dessas instituições.
A Ordem dos Advogados do Brasil (OAB), por exemplo, enfatizando sua preocupação,
criou um selo de qualidade que é dado a cursos de direito que atendam a alguns critérios (OAB,
2012). Com preocupação semelhante, o Conselho Federal de Medicina (CFM), aponta o número
indiscriminado de novos cursos como um dos principais motivos da baixa qualidade de ensino,
apresentada pelo Ministério da Educação (MEC) (CRM-MT, 2013).
O MEC, preocupado com a regulação e qualidade dos cursos superiores, na mesma linha
que a OAB e CFM, por meio da Lei 10.861, criou em 2004 o Sistema Nacional de Avaliação da
Educação Superior (SINAES), que através de avaliação sistemática das IES e de seus cursos, provê
dados e indicadores de qualidade de diversos aspectos como ensino, pesquisa, extensão,
desempenho dos alunos, gestão institucional, corpo docente, infraestrutura, entre outros. (SESU,
2013)
Apesar de apenas 12% da população brasileira, entre 35 e 44 anos, terem completado algum
curso superior, contra 24% no Chile e 43% nos EUA, houve no Brasil quase 5,44 milhões de
matrículas em cursos de graduação presencial, indicando que este percentual tende a ser melhorado.
(INEP,2013)(EDITORA MODERNA, 2013)
As IES brasileiras, por sua vez, enfrentam o desafio de prover educação de qualidade a
alunos que possuem conhecimento de ensino fundamental e médio, abaixo do esperado. Segundo o
indicador INAF Brasil, apenas 35% dos alunos do ensino médio são plenamente alfabetizados.
(IPM, 2013)
Neste contexto, dado o baixo nível com que alunos têm ingressado nos cursos superiores de
forma geral, especialmente em alguns cursos e IES, é fundamental que estas IES possam dispor de
mecanismos que propiciem o diagnóstico precoce do desempenho discente em determinados áreas
do conhecimento.
17
A gestão informatizada da vida acadêmica dos alunos do ensino superior gera para as
instituições um volume cada vez maior de dados, que muitas vezes são utilizados apenas em
relatórios administrativos. A disponibilização aos gestores de IES, de informações acadêmicas,
obtidas a partir destes dados, pode ser considerada um grande desafio. (PASTA, 2011)
(TRANDAFILI et al., 2012) (ZHANG, 2010)
Dentre as tecnologias com potencial de promover ganhos na área educacional está a
Descoberta de Conhecimento em Base de Dados (knowledge-discovery in databases - KDD), que
possui em sua principal etapa a mineração de dados (MD), com o objetivo de buscar conhecimentos
novos e úteis. (GOLDSCHMIDT; PASSOS, 2005)
Em uma revisão da literatura, descrita no Capítulo 3, pôde-se identificar sete artigos que
tiveram como objetivo examinar os fatores do ambiente de ensino-aprendizagem que influenciam o
desempenho acadêmico discente: Zeng e Zheng (2009); Macfadyen e Dawson (2010); Zhang
(2010); Carmona et al. (2011); Samaranayake, e Caldera (2012); Trandafili et al. (2012) e Hoe et al.
(2013), destes cinco utilizaram ferramentas de mineração de dados para auxiliar nesta tarefa: Zhang
(2010); Carmona et al. (2011); Samaranayake, e Caldera (2012); Trandafili et al. (2012) e Hoe et al.
(2013). O termo “ambiente de ensino-aprendizagem” é utilizado como síntese de diversas variáveis
que podem ser armazenadas no processo de ensino em uma IES como, por exemplo, alunos,
professores, cursos, notas, biblioteca, etc.
Dentre os artigos analisados, notou-se uma preocupação com a identificação precoce do
risco de reprovação de alunos. Dos sete trabalhos analisados, 42,87% se preocupam mais com os
alunos
que
reprovaram
(ZHANG,
2010)
(SAMARANAYAKE
e
CALDERA,
2012)
(MACFADYEN e DAWSON, 2010), o que é justificável, pois são esses os alunos que se pretende
ajudar. Entretanto, a análise do perfil dos alunos, independente do risco de reprovação, como nos
trabalhos de Carmona et al. (2011), Trandafili et al. (2012) e Hoe et al. (2013) podem dar aos
pesquisadores e gestores de IES informações importantes, que podem auxiliar na melhora do
desempenho acadêmico de todos os alunos, independente se estão em risco de reprovação ou não.
Neste sentido, o presente trabalho propõe a aplicação de técnicas de Descoberta de
Conhecimento em Base de Dados, incluindo-se técnicas de MD (regras de associação, classificação
e regras de associação), para identificar aspectos do ambiente de ensino-aprendizagem que podem
influenciar no desempenho acadêmico de estudantes de graduação de uma IES, e comparar como
18
estes fatores variam entre os cursos de Direito e Engenharia Civil. Fatores como: idade do aluno,
número de livros locados na biblioteca, formação no ensino médio, forma de estudo, titulação dos
professores, carga horária teórica/prática do curso, aluno bolsista, podem ser considerados como
relevantes para esta análise.
Para esta análise foram utilizados dados do sistema de gestão acadêmica da Universidade do
Vale do Itajaí (UNIVALI), uma das noventa e nove IES do estado de Santa Catarina, Brasil. A
UNIVALI possuía no ano de 2012 cerca de 25,5 mil alunos distribuídos em diversos níveis de
ensino, em seis campi e duas unidades de ensino.
1.1 PROBLEMA DE PESQUISA
Durante mais de duas décadas, a IES analisada vem construindo gradativamente sistemas
informatizados capazes de armazenar dados de diversas áreas, contemplando, por exemplo,
matrícula de alunos, frequência, uso da biblioteca, ambiente de aprendizado à distância, dados
financeiros e planos de ensino. Estes dados não são correlacionados em sua totalidade, e passam
apenas por análises parciais, como a busca por eficiência na aquisição de livros e melhoria de
matrizes curriculares, sempre focadas na solução de problemas específicos identificados pelos
gestores de cursos da IES.
A literatura técnica, conforme verificado no Capitulo 3, fornece evidências de que estes
dados podem esconder informações pedagogicamente relevantes. Como exemplo, a descoberta de
características comuns em alunos com bom desempenho acadêmico, o qual pode auxiliar na tomada
de decisões que tenham o objetivo de melhorar o desempenho acadêmico de outros alunos. Na
mesma linha, conhecer fatores comuns em alunos com baixo desempenho também permite
intervenções que tenham como objetivo tentar minimizar ou evitar tais fatores.
Este tipo de análise pode ser feita como em Zeng e Zheng (2009), que busca diferenciar qual
sexo se sai melhor em determinados assuntos. Podem ser realizadas análises como Samaranayake e
Caldera (2012), Zhang (2010) e Macfadyen e Dawson (2010), que se preocupam com alunos de
baixo rendimento ou como Carmona et al. (2011), Trandafili et al (2012) e Hoe et al. (2013) e que
tem o intuito de entender o que leva um aluno a determinado desempenho acadêmico. Nos artigos
citados o nome dado a um conjunto de notas correlatas (altas, baixas ou intermediárias) varia entre
os autores.
19
No contexto deste trabalho, com o intuito de classificar os alunos em termos do seu
desempenho discente, será utilizado o termo “Grupos de Desempenho Acadêmico” (GDA), que
serão descritos como: “Bom Desempenho Acadêmico” (BDA) e “Médio Desempenho Acadêmico”
(MDA) e “Baixo Desempenho Acadêmico” (BADA). O GDA citado neste estudo refere-se à média
das notas de todas as disciplinas cursadas ao final de sua graduação.
Nenhum dos trabalhos descritos no Capítulo 3 considera um número grande de variáveis e a
correlação é feita basicamente entre disciplinas, notas e gênero do aluno. Nos trabalhos que
analisam ambientes virtuais de aprendizagem (AVA), variáveis sobre a utilização do sistema, como
tempo de utilização do AVA e número de exercícios executados são analisadas, mas variáveis
importantes como titulação do professor; carga horária teórica; carga horária prática e locação de
livros não são consideradas.
Dentre os trabalhos analisados não foi verificada nenhuma preocupação em segmentar,
dentre as características que podem levar alunos a um GDA, quais são mais acentuadas em uma ou
outra área de conhecimento1 (exatas, humanas, saúde, etc). Samaranayake e Caldera (2012)
analisam os motivos que levam a reprovação em dois tipos de curso (física e biologia), mas não
realizam comparação entre as áreas.
A análise destes trabalhos trouxe também a percepção de que existe uma lacuna em estudos
que analisam dados na busca de padrões que levam alunos a obter um bom desempenho acadêmico
ou não. Parte desta lacuna é composta pelo baixo número de variáveis encontradas nos estudos e a
falta de correlação entre elas. A inclusão de outras variáveis também permite uma investigação do
potencial destes dados para o desenvolvimento de um sistema de alerta precoce sobre o desempenho
acadêmico do aluno, semelhante ao trabalho de Macfadyen e Dawson (2010), porém focado em
cursos presenciais.
Descritas estas lacunas, este trabalho pretende obter respostas às seguintes perguntas de
pesquisa:
1
As nomenclaturas de área de conhecimento utilizadas neste trabalho estão de acordo com os referenciais nacionais dos
cursos de graduação, definidos pelo MEC para ingressantes a partir de 2010. (MEC, 2010)
20
P1: Quais são os aspectos do ambiente de ensino-aprendizagem que levam alunos da IES
analisada a concluírem o curso em um determinado GDA?
P2: Os fatores do ambiente de ensino-aprendizagem que podem levar um aluno de Direito a
concluir o curso em um determinado GDA são os mesmos de um aluno de Engenharia Civil?
P3: Com os dados disponíveis para análise pela IES, é possível criar um modelo que permita
predizer o GDA que um aluno estará inserido ao final do curso analisando apenas os semestres
iniciais?
Os cursos de Direito e Engenharia Civil foram escolhidos para fazer parte deste estudo pois
são os dois maiores cursos (em número de alunos) da IES.
1.1.1 Solução Proposta
Em razão do volume de dados armazenados pela IES, da não utilização destes em busca de
correlações e do potencial pedagógico descrito na literatura, propõe-se aplicar técnicas de MD,
como clusterização, regras de associação e classificação, para analisar o desempenho acadêmico e,
de posse destas análises, validar se é possível utilizar algoritmos de classificação para identificar
alunos que se direcionam a um determinado GDA.
Para responder as perguntas de pesquisa P1 a P3, apresentadas na seção anterior, pretende-se
analisar os dados do processo de ensino-aprendizagem que a IES armazena. No contexto deste
trabalho, “ambiente de ensino-aprendizagem” resume as informações de alunos, professores, matriz
curricular do curso, dados financeiros, dados de utilização de biblioteca e dados da Avaliação
Institucional. Estes dados são apresentados de forma esquemática na Figura 1 e descritos em mais
detalhes na delimitação de escopo, apresentada na Seção 1.1.2.
Para analisar a pergunta P1, dados de alunos que concluíram os cursos de Direito e
Engenharia Civil serão extraídos dos sistemas da IES e validados pelos responsáveis dos sistemas
para garantir que continuam válidos e íntegros. Estes dados serão analisados utilizando técnicas de
MD (clusterização, regras de associação e classificação), assim como fizeram Samaranayake e
Caldera (2012) e Carmona et al. (2011). O conjunto de dados e informações a serem utilizados no
processo de MD e seus respectivos bancos de dados estão apresentados na Figura 1.
21
A investigação da pergunta P2 é feita, reaplicando as técnicas da pergunta P1, em dois
subconjuntos de dados que podem ser descritos como “alunos de direito” e “alunos de engenharia
civil”, estas serão comparadas juntamente com suas respectivas medidas de desempenho.
Para responder a pergunta P3, os dados serão segmentados em dois grupos “Dados de
Treinamento” e “Dados Testes”, como é praxe em MD. Os dados de treinamento serão utilizados
para descobrir regras do tipo “alunos que locaram X livros do tipo Y e acessaram o AVA Z vezes
estão no GDA Z”. Os dados de testes serão utilizados para gerar a confiança com que essa regra
pode ser considerada, agregando a ela uma informação do tipo “com N% de confiança”. (FAYYAD
et al., 2008) (GOLDSCHMIDT; PASSOS, 2005)
Figura 1. Dados disponíveis para o processo de KDD.
Dados disponibilizados pela IES para processo
de mineração.
Bolsas/Financiamentos
Dados Aluno
Dados Biblioteca
Dados Docente
Aplicação de Técnicas de
MD
Dados Curso
Acessos AVA
Frequência / Notas
Avaliação Institucional
Descoberta de Informações relacionadas
ao processo de ensino-aprendizagem.
Para guiar os estudos, estão definidas duas hipóteses a serem validadas.
H1: Os fatores do ambiente de ensino-aprendizagem que levam um aluno de Direito a
concluir o curso em determinado GDA não são os mesmos que levam um aluno de Engenharia Civil
a figurar no mesmo GDA.
H2: É possível identificar o GDA de um aluno ao final de seu curso, com acurácia maior que
50%, baseado na análise dos quatro primeiros semestres do curso.
22
As hipóteses serão validadas com as respostas investigadas em P1, P2 e P3.
1.1.2 Delimitação de Escopo
Neste trabalho pretende-se utilizar dados de alunos egressos dos cursos de Direito e do curso
de Engenharia Civil. Os cursos foram selecionados por serem de diferentes áreas de avaliação do
MEC/INEP e por serem cursos com maior número de egressos em suas áreas para os anos de 2013 e
2014, considerando a IES foco deste estudo.
Serão analisados dados de alunos de Direito e Engenharia Civil matriculados apenas no
campus de Itajaí, não sendo realizada a análise de alunos matriculados nos outros campi. Serão
considerados todos os turnos do curso de Direito (Matutino e Noturno) e também todos os turnos do
curso de Engenharia Civil (Integral, Diurno e Vespertino/Noturno).
A Tabela 1 apresenta um resumo da população conforme descrito:
Tabela 1. Resumo da população.
Curso
Direito
Engenharia Civil
Nro. Egressos até 17/06/2014
5410
454
Formados entre 2009 e 2014
1293
285
As variáveis a serem analisadas, detalhando o que foi apresentado na Seção 1.1.1, serão:

Aluno: idade; sexo; portador de necessidades especiais; procedente de escola pública
ou privada; se o curso em questão é uma segunda graduação; frequência do aluno;
notas dos alunos em disciplinas teóricas; notas dos alunos em disciplinas práticas;
quantidade de reprovações; número de acessos ao ambiente virtual de aprendizagem
(AVA); índice de carência do aluno; se o aluno foi inadimplente (houve negociação
financeira para parcelamento de débitos ao final de algum semestre)

Docente: número de professores doutores no curso; número de professores mestre no
curso; número de professores especialistas no curso; número de professores
graduados no curso; número de professores com dedicação integral na instituição;
23
número de professores com dedicação parcial na instituição; número de professores
horistas (carga horária menor que 12 horas aula) na instituição e no curso;

Curso: carga horária teórica do curso; carga horária prática do curso;

Bolsas/Financiamentos: se o aluno é ou não bolsista; se o aluno possui ou não
financiamento estudantil

Biblioteca: quantidade de livros técnicos locados; quantidade de livros não técnicos
locados;

Avaliação Institucional: satisfação do aluno com professores na avaliação
institucional; satisfação de alunos com infraestrutura da IES na avaliação
institucional; domínio de língua estrangeira; como o aluno avalia o nível de
importância das disciplinas; como o aluno avalia o nível de exigência das disciplinas;
como o aluno avalia o nível de exigência das disciplinas; como o aluno avalia os
docentes com relação à articulação teoria e prática; como o aluno avalia os docentes
com relação à utilização do plano de ensino.
O banco de dados da IES não contempla informações importantes como número de horas de
estudo extraclasse, trabalhos voluntários na área do curso, suporte de especialistas nos estudos,
conhecimento de idiomas, quociente de inteligência do aluno, informações referentes à qualidade do
ensino básico, dentre outras. Por isso, estes aspectos não serão considerados na análise.
A decisão de fomentar ou não os padrões identificados neste estudo caberá aos gestores de
curso que venham a se interessar pelo resultado deste trabalho. Incentivar alunos a seguirem
caminhos cuja pesquisa indicou que podem ser promissores não faz parte do escopo deste estudo.
Faz parte do escopo deste trabalho validar se o conjunto de dados disponíveis, descritos em
detalhes na Seção 4.2, tem potencial de fornecer as informações necessárias para viabilizar a
identificação precoce do GDA que o aluno se direcionará ao final da graduação, alinhado ao
Objetivo Específico 4 (Seção 1.2.2 ). Não faz parte do escopo deste trabalho construir o sistema
computacional que reúna estes dados e indique à IES de forma automática o grupo de desempenho
acadêmico a que o aluno tende a se posicionar.
24
1.1.3 Justificativa
A descoberta de conhecimento focada na área educacional é atualmente objeto de estudos
em diversos trabalhos, como apresentado no Capítulo 3, tendo inclusive repositórios de
armazenamento e análise de dados educacionais, como o DataShop2 criado pelo Centro de Ciências
da Aprendizagem de Pittsburgh (PSLC – Pittsburgh Science of Learning Center) que armazena e
disponibiliza gratuitamente dados de grandes aplicativos de educação à distância, como o Cognitive
Tutor3 e Math Tutor4. (BAKER; ISOTANI; CARVALHO, 2011)
Dada à importância dessa aplicação de MD, Baker, Isotani e Carvalho (2011) a apresentam
como uma área de pesquisa, que vem sendo chamada de “Mineração de Dados Educacionais” (do
inglês, “Educational Data Mining”, ou EDM), cuja comunidade cresce rapidamente no mundo, e
em ritmo um pouco mais lento no Brasil.
Este estudo justifica-se ao agregar conhecimento à comunidade científica nos seguintes
pontos:
- Fornecer informações sobre o ambiente de ensino-aprendizagem, que ainda não foram
analisadas.
- Investigar padrões do ambiente de ensino-aprendizagem que levam o aluno a concluir o
curso em um determinado GDA utilizando uma população de estudantes ainda não avaliada ou pelo
menos não localizada na revisão sistemática do Capítulo 3.
- Apresentar padrões que levam estudantes do curso de Direito a figurar em determinado
GDA, contrapostos a estudantes do curso de Engenharia Civil.
- Fornecer um modelo de regras de comportamento, baseado na identificação de perfis de
desempenho acadêmico, que pode ser utilizado por gestores de curso para identificar precocemente
alunos que possam terminar o curso com BADA.
2
Disponível em: <https://pslcdatashop.web.cmu.edu>. Acesso em: 20/02/2013.
Disponível em: <http://www.carnegielearning.com>. Acesso em 20/02/2013.
4
Disponível em: <http:// mathtutor.web.cmu.edu>. Acesso em 20/02/2013.
3
25
A identificação precoce do GDA a que o aluno se direciona durante sua graduação pode
viabilizar a construção de um sistema de alerta que permita aos docentes, ou eventualmente
coordenadores, auxiliar alunos que estiverem caminhando para um BADA e potencializar aqueles
que possuem indicativos de que irão figurar no grupo de BDA. Um sistema de alerta precoce como
este foi descrito por Macfadyen e Dawson (2010) com acurácia de até 70%. Entretanto, cabe
destacar que Macfadyen e Dawson utilizaram apenas dados de AVA e com foco específico na
educação à distância.
1.2 OBJETIVOS
Esta seção formaliza os objetivos do trabalho, conforme descrito a seguir.
1.2.1 Objetivo Geral
Identificar os principais fatores do ambiente de ensino-aprendizagem, utilizando-se
descoberta de conhecimento em base de dados, que levam alunos da população analisada a concluir
o curso em um determinado grupo de desempenho acadêmico, comparando eventuais diferenças
entre alunos dos cursos de Direito e Engenharia Civil.
1.2.2 Objetivos Específicos
OE1: Definir três grupos de desempenho acadêmico, classificando alunos em três grupos de
desempenho acadêmico: Bom Desempenho Acadêmico; Médio Desempenho Acadêmico; Baixo
Desempenho Acadêmico.
OE2: Identificar as características do ambiente de ensino-aprendizagem que ocorrem com
maior frequência em cada grupo de desempenho acadêmico, documentando eventuais diferenças
entre os cursos de Direito e Engenharia Civil.
OE3: Desenvolver modelo de predição do Grupo de Desempenho Acadêmico, baseado na
análise dos semestres iniciais, utilizando técnicas de mineração de dados.
OE4: Validar a eficiência do modelo de predição do grupo de desempenho acadêmico dos
alunos através de acurácia e estatística Kappa da classificação.
26
1.3 METODOLOGIA
Nesta seção é apresentada a metodologia de pesquisa e os procedimentos metodológicos que
são utilizados neste trabalho
1.3.1 Metodologia da Pesquisa
O presente trabalho utiliza o método hipotético-dedutivo, ao qual se oferecem hipóteses de
solução provisória, passando-se depois a critica-las, com vistas à eliminação de erro (LAKATOS e
MARCONI, 2011).
Também pode ser classificado como de natureza aplicada, pois visa investigar dados a fim
de validar as hipóteses apresentadas no tópico Solução Proposta.
Com relação à abordagem do problema, a pesquisa pode ser classificada como quantitativa,
buscando relações numéricas entre os dados estudados de forma a embasar descobertas. Pode
também receber a classificação de qualitativa, segundo Maanen (1979) apud Neves (1996) pois visa
descrever e decodificar os componentes de um sistema complexo, neste caso, uma base de dados.
Quanto aos objetivos, possui ainda características exploratórias tentando proporcionar maior
familiaridade com as características da base de dados.
1.3.2 Procedimentos Metodológicos
Esta seção descreve os procedimentos metodológicos que serão utilizados para alcançar os
objetivos almejados neste trabalho.
1.3.2.1 Suporte teórico
Com o objetivo de prover conhecimento e suporte teórico realiza-se uma revisão sistemática
descrita em detalhes no Capitulo 3, a qual segue um mapeamento realizado a partir de um protocolo
de busca, e teve como objetivo encontrar na literatura artigos correlatos ao assunto deste trabalho.
Realizam-se diversas outras pesquisas bibliográficas, estas de caráter exploratório, com o objetivo
de encontrar referenciais atualizados para conceitos referenciados neste trabalho.
27
Apresenta-se um estudo de ferramentas de MD existentes, e uma análise de aderência ao
contexto deste estudo, esta pode ser encontrada na Sessão 2.4. Com este estudo procurou-se mitigar
eventual viés na escolha das ferramentas que são utilizadas no processo de KDD.
Utiliza-se metodologia CRISP-DM, que fornece uma formalização das etapas necessária ao
processo de KDD/MD, a qual foi selecionada através de estudo de Mariscal, Marbán e Fernández
(2010), além de pesquisa bibliográfica, conforme descrito na Sessão 2.3.
Para compreensão do ambiente de negócio utilizou-se entrevistas informais com
especialistas da Vice-Reitoria de Graduação, buscando informações de quais dados são utilizados
para análise e quais poderiam ser utilizados. Realizou-se também entrevistas com especialistas da
gerência de Tecnologia da Informação buscando entender quais os dados estariam disponíveis para
análise e o período em que estes dados começaram a ser armazenados.
1.3.2.2 Experimentos
Utiliza-se pesquisa experimental no processo de preparação dos dados através de estatística
descritiva e aplicação de algoritmos de MD, com o objetivo de maximizar a qualidade dos dados em
direção à fornecer respostas às perguntas de pesquisa e testes das hipóteses apresentadas. A
obtenção do maior número de informações acerca dos dados pode fornecer as primeiras descobertas
além de fornecer indicativos sobre o impacto deste conhecimento no projeto. (CHAPMAN, 2000)
Para associar as notas mais baixas ao grupo BADA, as notas intermediárias ao grupo MDA
e as melhores notas ao grupo BDA, utilizou-se discretização por frequência para obter-se três
grupos de notas, em intervalos crescentes, com a mesma quantidade de registros, ou a quantidade de
registros mais equilibrada possível. (CARVALHO, 2010) (DOUGHERTY; KOHAVI; SAHAMI,
1995)
Foram aplicados algoritmos de clusterização e classificação com regras de associação na
busca por eventuais padrões que possam existir para cada GDA, sendo a clusterização utilizada para
correlacionar dados de forma exploratória, e as regras de associação utilizadas para prover respostas
às perguntas de pesquisa P1 e P2 e validar a hipótese H1.
Os dados do primeiro, segundo, terceiro e quarto semestres foram divididos em dois grupos,
um com 80% dos registros e outro com 20% dos registros. A partir dos 80% dos dados referente aos
28
semestres citados, serão gerados modelos de classificação com o intuito de identificar, a partir
destes, quais alunos figurarão em determinado GDA ao final de seu curso. Este modelo é aplicado
aos 20% dos dados restantes e a acurácia e estatística kappa dos resultados é utilizada para
responder a pergunta de pesquisa P3 e validar a hipótese H2.
1.3.2.3 Avaliação de Resultados
A metodologia de avaliação é descrita em detalhes e representada em diagramas que estão
disponíveis na Seção 4.2.8 os próximos parágrafos apresentam uma descrição resumida destes
procedimentos.
Utilizou-se para avaliação de resultados do processo de MD as métricas Acurácia, Suporte,
Confiança e Kappa, comuns nos trabalhos correlatos apresentados no Capítulo 3 e também em
outros trabalhos de mineração de dados disponíveis na literatura. (GWET, 2014) (POWERS, 2012)
(ESFANDIARI et al., 2014)
Para avaliação da pergunta de pesquisa “P1: Quais são os aspectos do ambiente de ensinoaprendizagem que levam alunos da IES analisada a concluírem o curso em um determinado GDA?”
utilizou-se clusterização e regras de associação.
Para avaliação da pergunta de pesquisa “P2: Os fatores do ambiente de ensino-aprendizagem
que podem levar um aluno de Direito a concluir o curso em um determinado GDA são os mesmos
de um aluno de Engenharia Civil?” utilizou-se as regras de associação resultantes da MD sobre os
dados dos cursos de Direito e de Engenharia Civil. Serão comparados o suporte e acurácia das
mesmas com o objetivo de descobrir quais as que melhor se aplicam a cada curso.
Para avaliação da pergunta de pesquisa “P3: Com os dados disponíveis para análise pela
IES, é possível criar um modelo que permita predizer o GDA que um aluno estará inserido ao final
do curso analisando apenas os semestres iniciais?”; os dados serão divididos em dois blocos. O
primeiro composto por dados que serão utilizados para treinamento de um modelo de classificação.
Sobre o segundo conjunto de dados, será aplicado o modelo de classificação. Os resultados da
acurácia e da estatística kappa foram utilizados para responder P3.
29
1.4 ESTRUTURA DA DISSERTAÇÃO
Este estudo apresenta-se organizado em seis capítulos correlacionados e três apêndices, esta
seção apresenta um resumo do que será encontrado em cada capítulo deste trabalho.
O Capítulo 1, Introdução, apresentou o contexto e o tema proposto neste trabalho. Da
mesma forma foram estabelecidos os resultados esperados por meio da definição de seus objetivos e
apresentadas as limitações do trabalho permitindo uma visão clara do escopo proposto.
O Capítulo 2 apresenta a fundamentação teórica do KDD (MD; aprendizagem automática,
clusterização; classificação e regras de associação; matriz de confusão e medidas de desempenho;
cross-validation) descrita na literatura. Apresenta-se uma introdução sobre Educational Data
Mining (EDM) e uma explanação sobre os dados gerenciados pela IES no processo de ensinoaprendizagem. Por fim é apresentada a diversidade de ferramentas computacionas disponíveis, e
justificada a seleção da que será utilizada no presente trabalho.
O Capítulo 3 apresenta uma revisão da sistemática da literatura realizada com o objetivo de
apresentar trabalhos que analisam dados educacionais para compreender fatores que influenciam no
foco no desempenho acadêmico discente.
O Capítulo 4 apresenta o desenvolvimento deste trabalho detalhando as bases de dados
analisadas, a preparação dos dados, a definição do conjunto de dados que foram analisados, a
seleção de algoritmos aplicáveis aos conjuntos de dados, além do plano de avalição que foi utilizado
neste trabalho.
O Capítulo 5 sintetiza os resultados obtidos das análises realizadas, enfatizando aquelas que
obtiveram os melhores resultados na busca de resposta pelas questões, hipóteses e objetivos
apresentados no Capítulo 1.
No Capítulo 6 são tecidas as conclusões do trabalho, relacionando os objetivos identificados
inicialmente com os resultados alcançados. São ainda propostas possibilidades de continuação da
pesquisa desenvolvida a partir das experiências adquiridas com a execução do trabalho.
O Apêndice A apresenta o estudo realizado para justificar a seleção da ferramenta de
mineração de dados, um resumo deste estudo é descrito na Seção 2.4.
30
O Apêndice B apresenta os algoritmos disponíveis para mineração de dados na ferramenta
RapidMiner, com as características de dados que podem ser manipulados por cada um, bem como o
tipo de saída gerada (árvore de decisão, regras de associação, modelo linear, rede neural, etc).
O Apêndice C apresenta um exemplo de configuração dos parâmetros do algoritmo focando
nos melhores resultados em termos de acurácia do modelo gerado.
O Apêndice D apresenta o ofício da IES que formaliza a liberação dos dados que foram
analisados.
31
2 FUNDAMENTAÇÃO TEÓRICA
Este capítulo apresenta conceitos necessários à compreensão do desenvolvimento do
trabalho, detalhado no Capítulo 4.
2.1 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS
A redução dos custos de armazenamento de dados ao longo da história da tecnologia da
informação tem, cada vez mais, impulsionado a proliferação de bases de dados, tornando a análise e
compreensão destes, um desafio cada vez maior. A necessidade de transpor estes desafios leva ao
desenvolvimento de técnicas e tecnologias que podem ser utilizada para facilitar a descoberta de
conhecimento (Knowledge Discovery) a partir de bases de dados (Database). A Figura 2 ilustra a
hierarquia entre dados, informações e conhecimento, apresentada por Goldschmidt e Passos (2005).
Figura 2. Hierarquia entre dados, informações e conhecimento.
Fonte: Adaptado de Goldschmidt e Passos (2005).
O termo Knowledge Discovey in Database (KDD), foi formalizado em 1989 em referência
ao amplo conceito de procurar conhecimento a partir de base de dados, e foi utilizado especialmente
por pesquisadores de aprendizagem automática e inteligência artificial. Profissionais da estatística e
demais analistas de dados utilizavam neste período o termo mineração de dados (MD) para
referenciar a extração de conhecimento a partir de bases de dados. (FAYYAD et al, 1996)
32
Nos dias atuais os termos KDD e MD muitas vezes são referenciados como sinônimos. É
comum encontrar autores que referenciam trabalhos que utilizam aprendizagem automática e
inteligência artificial, utilizando MD para descrever seus trabalhos. Pode-se citar Witten, Frank e
Hall (2011), Samaranayake e Caldera (2012), Backer et al. (2011)
Este trabalho, assim como Goldschmidt e Passos (2005) e Fayyad et al. (1996), utiliza o
termo KDD como todo o processo de descoberta de conhecimento, que engloba, além da aplicação
da técnica de preparação e mineração de dados, a identificação do problema através da interação
com especialistas no domínio da aplicação para o entendimento do contexto onde os dados estão
inseridos, a definição dos objetivos da aplicação de KDD e a escolha das ferramentas
computacionais utilizadas. O termo MD é referenciado como etapa deste processo.
2.2 MINERAÇÃO DE DADOS
Goldschmidt e Passos (2005) descrevem como a etapa do KDD que efetivamente busca
conhecimentos. Witten, Frank e Hall (2011) descreve ainda o MD como o processo de descoberta
de padrões nos dados, sendo este automático ou semiautomático.
No escopo deste trabalho o termo MD é utilizado para descrever o processo que utiliza
algoritmos de aprendizagem automática (machine learning) para que estes possam apresentar
conhecimento, minimizando o trabalho do analista de dados.
2.2.1 Aprendizagem automática
O conceito de aprendizagem envolve uma discussão filosófica sobre “o que é aprender”. No
escopo de KDD a aprendizagem automática deixa de lado esta discussão e direciona-se a termos
práticos, podendo ser descrita como técnicas para descrever padrões estruturais em dados
objetivando realizar predições a partir destes padrões. (WITTEN; FRANK; HALL, 2011)
(FAYYAD et al, 1996)
2.2.2 Clusterização
A clusterização é uma tarefa da MD que tem como objetivo segmentar os dados em um
conjunto finito de clusters (grupos), os dados agrupados em cada cluster possuem características
comuns que os distinguem dos outros clusters. A associação de um determinado cluster a um rótulo
33
deve ser feita pelo analista de dados, os algoritmos apenas agrupam os dados, não os classificando.
(WITTEN; FRANK; HALL, 2011) (FAYYAD et al, 1996)( GOLDSCHMIDT; PASSOS, 2005)
A Figura 3 apresenta um exemplo de dados segmentados em clusters. Os quadrados
representam um cluster, os losangos outro, e os círculos um terceiro cluster.
Figura 3. Exemplo de Clusters.
Fonte: Adaptado de Witten, Frank e Hall (2011)
34
2.2.3 Descoberta de Regras de Associação
A descoberta de associação tem como objetivo apresentar itens que frequentemente ocorrem
de forma simultânea, sendo usualmente descrita em forma de regras com premissas e conclusões, do
tipo “se X e Y então Z”. Diferentes regras de associação referem-se a diferentes aspectos dos dados
normalmente com conclusões distintas. (WITTEN; FRANK; HALL, 2011) (FAYYAD et al, 1996)(
GOLDSCHMIDT; PASSOS, 2005)
A cada regra, associam-se duas medidas chamadas suporte e confiança. Suporte refere-se ao
percentual de registros que esta regra se aplica, um suporte próximo a um indica que a regra se
aplica a quase todos os registros, um suporte próximo a zero indica que a regra se aplica a poucos
registros. Confiança indica, dentre os registros que ela se aplica, o percentual que ela efetivamente
acerta. (WITTEN; FRANK; HALL, 2011)
2.2.4 Classificação
Na classificação é feita uma análise de padrões que ocorrem com o objetivo de inserir um
rótulo a cada registro do conjunto de dados analisado. O atributo que se deseja classificar deve ser
informado ao algoritmo de classificação. (WITTEN; FRANK; HALL, 2011) (FAYYAD et al,
1996)
A classificação deste rótulo é feita seguindo um conjunto de regras que são geradas pelos
algoritmos de aprendizagem automática. Este conjunto de regras é chamado de “modelo de
classificação”. A eficiência do modelo pode ser testada aplicando-os a um conjunto de dados
relacionados àqueles que deram origem ao modelo.
2.2.4.1 Matriz de Confusão
A classificação gera um modelo que é utilizado para definir valor de um rótulo de um
determinado conjunto de dados (dentro de um mesmo contexto em que foi gerado o modelo de
classificação). A aplicação deste modelo a dados pode ter o desempenho mensurado analisando o
quanto ele acerta quando aplicado a dados cujos rótulos já são conhecidos. O resultado dos erros e
acertos dessa classificação é muitas vezes representado em uma matriz de confusão, a qual é
ilustrada na Tabela 2.(WITTEN; FRANK; HALL, 2011)
35
Tabela 2. Matriz de confusão.
COMO O RÓTULO FOI CLASSIFICADO
COMO O RÓTULO
DEVERIA SER
CLASSIFICADO
X
Y
X
Verdadeiro Positivo (VP)
Falso Negativo (FN)
Y
Falso Positivo (FP)
Verdadeiro Negativo
(VN)
Fonte: Adaptado de Witten, Frank e Hall (2011)
A matriz de confusão da Tabela 2 as linhas representam o total de registros que efetivamente
tem o rótulo X ou Y. As colunas representam o total de registros que o modelo classificaria como X
ou Y. A diagonal principal da matriz indica os acertos do modelo (deveria ser classificado como X e
realmente foi classificado como X), as outras células representam falhas na classificação. Bons
resultados da classificação ocorrem quando os maiores valores estão na diagonal princial e os
menores fora dela. O ideal é que fora da diagonal principal existissem apenas valores zero.
(WITTEN; FRANK; HALL, 2011)
O total de registros analisados (TA) pode ser definido a partir da matriz de confusão, pela
soma de VP, VN, FP e FN, conforme (1).
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑅𝑒𝑔𝑖𝑠𝑡𝑟𝑜𝑠 𝐴𝑛𝑎𝑙𝑖𝑠𝑎𝑑𝑜𝑠 = VP + VN + FP + FN
(1)
A taxa e verdadeiros positivos (VP) é obtida dividindo-se o total de registros classificados
corretamente, pelo total de registros analisados, conforme (2). (WITTEN; FRANK; HALL, 2011)
𝑇𝑎𝑥𝑎 𝑑𝑒 𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜 =
VP
TA
(2)
36
A taxa e verdadeiros negativos (VN) são obtidos dividindo-se o total de registros
classificados corretamente, pelo total de registros analisados, conforme (3). (WITTEN; FRANK;
HALL, 2011)
𝑇𝑎𝑥𝑎 𝑑𝑒 𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑜 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜 =
VN
TA
(3)
2.2.5 Critérios de Relevância de atributo
Os algoritmos de mineração de dados utilizados na Sessão 4.4 utilizam critérios de
relevância para definir quais atributos tem maior peso sobre o rótulo a ser analisado. As regras de
associação e árvores de decisão são geradas utilizando este critério. Um mesmo algoritmo pode
utilizar um ou mais critérios, neste trabalho são utilizados como critérios: Acurácia; Coeficiente de
Gini; Ganho de Informação; Taxa de Ganho de Informação; Qui-Quadrado.
2.2.5.1 Acurácia
O critério de acurácia (accuracy) também chamado de confiança ou taxa de sucesso, indica o
percentual de registros que foram classificados corretamente utilizando os valores do atributo em
análise. Pode ser calculado dividindo o total de registros classificados corretamente pelo total de
registros analisados, conforme (4). (WITTEN; FRANK; HALL, 2011)
𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 =
VP + VN
TA
(4)
2.2.5.2 Coeficiente de Gini
O Coeficiente de Gini (Gini index) foi desenvolvido em 1912 por Conrrado Gini para
calcular a desigualdade na distribuição de renda de populações, entretanto pode ser utilizado com
análise de desigualdade de qualquer distribuição. O coeficiente Gini é representado por um número
entre zero e um, no qual zero corresponde a total igualdade de distribuição dos valores do atributo
37
analisado em relação ao rótulo a ser classificado. O valor 1 para o coeficiente Gini indica uma total
desigualdade. (CERIANI; VERME, 2012)
A seleção deste critério nos algoritmos da Sessão 4.4 faz com que atributos que tenham
maior equilíbrio entre os valores do rótulo a ser classificado tenham maior peso.
2.2.5.3 Ganho de Informação
O ganho de informação (information gain) é um critério de relevância baseado na entropia
(ou valor) de um atributo. Esta entropia é medida em bits, e indica o quão heterogêneo são os
resultados do rótulo a ser classificado em função dos valores de um atributo. Como exemplo, dado
um atributo ATR, que quando possui o valor V1, os rótulos tenham sempre valor VERDADEIRO,
então a entropia = ZERO bits. Se para o mesmo atributo, quando possuir um valor V2 existirem
50% de rótulos classificados como VERDADEIRO e 50% de rótulos classificados como FALSO,
então a entropia atinge seu valor máximo, que varia de acordo com a quantidade de registros em
análise. O ganho de informação do atributo é o percentual de registros classificados por cada um
dos valores do atributo ATR, ponderado pela sua entropia. (WITTEN; FRANK; HALL, 2011)
2.2.5.4 Taxa de Ganho de Informação
A taxa de ganho de informação (information gain ratio) é uma derivação do ganho de
informação, com o objetivo de elimitar viés de ganho para atributos com uma entropia muito grande
mas sem ganho semântico. Um atributo de identificação de registros ID, por exemplo teria um valor
para cada registro, mas a informação não tem semântica alguma. Assim, o ganho de informação é
ponderado, levando em consideração o tamanho e o ganho de informação de outros atributos.
2.2.5.5 Qui-Quadrado
A estatística Qui-Quadrado (Chi-Squared), introduzido por Karl Pearson em 1900,
possibilita o teste de verificação de hipótese para duas proporções da mesma população. Dada a
observação de duas variáveis, por exemplo, o teste indica se existe relação entre as variáveis, ou
seja se a hipóte é ou não verdadeira. (LEVINE et al., 2013) (PLACKETT, 1983)
Dada a observação da Tabela 3, a estatística Qui-Quadrado é dada por (5).
38
Tabela 3. Modelo de uma tabela de observação para análise de hipótese.
ITENS
OBSERVADOS
GRUPO1
GRUPO2
Total
Itens de
Interesse
X1
X2
X
Itens que
não são de
interesse
n1 – X1
n2 – X2
n-X
Totais
n1
n2
n
Fonte: Adaptado de Levine et al. (2013)
∞
2
𝑋 𝑒𝑠𝑡𝑎𝑡 =
∑
(𝑓𝑜 − 𝑓𝑒)2
𝑓𝑒
𝑡𝑜𝑑𝑎𝑠 𝑎𝑠 𝑐é𝑙𝑢𝑙𝑎𝑠
Onde:
fo = frequência observada em uma determinada célula da Tabela 3.
fe = frequência esperada em uma determinada célula da Tabela 3.
(5)
2.2.6 Medidas de Desempenho
2.2.6.1 Acurácia
A acurácia do modelo (também chamada de confiança ou taxa de sucesso) indica o
percentual de registros que foram classificados corretamente e pode ser calculada dividindo o total
de registros classificados corretamente pelo total de registros analisados, conforme equação (4).
(WITTEN; FRANK; HALL, 2011)
39
2.2.6.2 Estatística Kappa
A estatística Kappa, introduzida por Cohen (1960 apud Powers 2012) tem como objetivo
mensurar o percentual de concordância entre dois observadores sobre um determinado assunto (o
diagnóstico de uma doença, por exemplo) e mensurar se a concordância entre os dois observadores
que é superior à classificação ao acaso. (POWERS, 2012)(GWET, 2012)
No contexto de de um algoritmo de classificação, para mensurar a eficiência em relação aos
reais valores que os dados apresentam, pode-se relacionar um observador ao valor real dos dados, e
o outro ao valor definido pelo modelo de classificação. A concordância entre os observadores é
dada pela acurácia, apresentada na equação (4), e chamada por Cohen (1960 apud Gwet 2012)
como percentual de concordância.
O valor máximo do Kappa é 100% e o valor esperado de uma classificação aleatória é 0.
Existem na literatura autores críticos deste indicador, defendendo que ele subestima a eficiência do
classificador. O ponto central dos autores críticos vem justamente da comparação do classificador
contra um modelo “ao acaso”, termo subjetivo que pode gerar discussão. (WITTEN; FRANK;
HALL, 2011) (GWET, 2012) (POWERS, 2012)
A equação (6) indica o cálculo utilizado por Cohen para estimar a probabilidade de uma
classificação aleatória. Na equação (7) o calculo da estatística Kappa. (GWET, 2012)
ClassificaçãoAleatoria =
(𝑉𝑃 + 𝐹𝑁) (𝑉𝑃 + 𝐹𝑃)
(𝐹𝑃 + 𝑉𝑁) (FN + VN)
.
+
.
TA
TA
TA
TA
(6)
𝐾𝑎𝑝𝑝𝑎 =
Acurácia − ClassificaçãoAleatoria
1 − ClassificaçãoAleatoria
(7)
Landis e Koch (1977) propuseram uma tabela de nível de aceitação para a estatística Kappa,
conforme ilustrado na Tabela 4.
40
Tabela 4. Níveis e aceitação da estatística Kappa
Estatística Kappa
< 0,00
0,00 – 0,20
0,21 – 0,40
0,41 – 0,60
0,61 – 0,80
0,81 – 1,00
Fonte: Adaptado de Landis e Koch (1977).
Nível de Aceitação
Pobre
Pequeno
Justo
Moderado
Substancial
Quase perfeito
2.2.7 Discretização por Frequência
Em virtude de restrições para utilização de muitos algoritmos de mineração de dados,
eventualmente é necessário transformar atributos de um tipo de dado em outro. A discretização por
frequência permite transformar um atributo contínuo em um atributo discreto com limitadas faixas
de valores, mantendo entre essas faixas a maior simetria possível. Idealmente cada faixa
discretizada conteria a mesma quantidade de registros contínuos, contudo, sabendo que esta
discretização muitas vezes não é possível, a discretização por frequência busca o maior equilíbrio
possível entre o número de registros representados por cada faixa. (DOUGHERTY; KOHAVI;
SAHAMI, 1995) (CARVALHO, 2010)
A Tabela 5 apresenta dez avaliações hipotéticas, com notas propositalmente segmentadas
para apresentar como a discretização por frequência funciona.
Tabela 5. Exemplo de discretização por frequência, atributo Nota em 3 grupos.
Avaliação
Nota
Nota Discretizada
1
6
range1 [-∞ - 6.500]
2
6
range1 [-∞ - 6.500]
3
6
range1 [-∞ - 6.500]
4
6
range1 [-∞ - 6.500]
5
6
range1 [-∞ - 6.500]
6
7
range2 [6.500 - 7.500]
7
7
range2 [6.500 - 7.500]
8
8
range3 [7.500 - ∞]
9
8
range3 [7.500 - ∞]
10
8
range3 [7.500 - ∞]
Fonte: Saída do operador “Discretize by Frequency” da ferramenta RapidMiner, dados fictícios.
É possível notar que, dentre os valores inteiros informados na coluna Nota, da Tabela 5, a
discretização por frequência, configurada para gerar três grupos, classificou cinco elementos no
grupo “range1”, dois elementos no grupo “range2” e três elementos no grupo “range3”.
41
2.3 METODOLOGIAS PARA KDD/DM
A revisão literária apresentada do Capítulo 3 forneceu indícios de que é comum encontrar
trabalhos de KDD que não deixam explícita a metodologia que foi utilizada. Zeng e Zheng (2009),
Zhanz (2010), Samaranayake e Caldera (2012) são exemplos de trabalhos que não deixam explícita
a metodologia utilizada.
Apesar disso, a necessidade de utilização de uma metodologia leva autores como Mariscal,
Marbán e Fernández (2010) realizarem pesquisas com o intuito de descrever os principais processos
e metodologias são utilizadas para o processo de MD e KDD. Marbán e Fernández (2010)
apresentam uma visão geral destas e um histórico de sua evolução, apresentadas na Figura 4.
Figura 4. Evolução de metodologias e modelos de processos de mineração de dados.
KDD Process
1993
(FAYYAD et al., 1996)
(FAYYAD; PIATETSKY-SHAPIRO;
SMYTH, 1996)
Human-Centered
1996
(BRACHMAN; ANAND, 1996)
(GERTOSIO; DUSSAUCHOY, 2004)
SEMMA
1996
(SAS Institure, 2014)
Anand & Buchner
1998
(ANAND; BUCHNER, 1998)
Carbena et al.
1997
(CARBENA et al., 1997)
KDD Roadmap
2001
(DEBUSE et al., 2001)
Two Crows
1998
(Two Crows Comporation, 1999)
6-σ
1996
(HARRY; SCHROEDER, 1996)
(PYZDEK, 2003)
5A’s
1996
(MARTÍNEZ, 2003)
Legenda
Relacionado ao
KDD Process
Relacionado ao
CRISP-DM
Outras
Abordagens
Fonte: Adaptado de Mariscal e Marbán e Fernández (2010)
CRISP-DM
2000
(CHAPMAN et al., 2000)
Marbán et. al.
2007
(MARBÁN et al., 2007)
(MARBÁN et al., 2008)
DMIE
2002
(SOLARTE, 2012)
RAMSYS
2001
(MOYLE; JORGE, 2001)
Cios et al.
2000
(CIOS et al., 2000)
(CIOS; KURGAN, 2005)
42
As duas principais metodologias apresentadas na Figura 4 são KDD Process como e CRISPDM. A maior parte das outras metodologias são baseadas nestas. (MARISCAL; MARBÁN;
FERNÁNDEZ, 2010) (CHAPMAN et al., 2000)
KDD Process é uma metodologia interativa e iterativa, foi apresentada por Fayyad,
Piatetsky-shapiro e Smyth (1996) apud Mariscal, Marbán e Fernández (2010), descreve o processo
de KDD com as 9 etapas: entendimento do domínio da aplicação; criação do conjunto de dados;
limpeza e pré-processamento; redução e projeção dos dados; escolha das tarefas de mineração;
escolha do algoritmo de mineração; mineração dos dados; interpretação e utilização do
conhecimento descoberto.
CRISP-DM: Apresentada em meados dos anos 90 por um grupo de organizações envolvidas
em atividades de mineração de dados (Teradata, SPSS –ISL-, Daimler-Chrysler e OHRA) a
metodologia CRISP-DM, acrônimo para CRoss Industry Standard Process for Data Mining
(processo padrão interindustrial para mineração de dados, em tradução livre), que foi concebida
pensando na independência do processo em relação à ferramenta e área de aplicação. É composta de
seis etapas: entendimento do negócio; entendimento dos dados; preparação dos dados; modelagem;
avaliação e desenvolvimento. (MARISCAL; MARBÁN; FERNÁNDEZ, 2010).
O site oficial da metodologia CRISP-DM5 não está mais disponível, entretanto um manual
da metodologia está disponível no site da IBM (2011), e esta é a metodologia oficial da ferramenta
de mineração IBM SPSS Modeler.
A Tabela 6 apresenta um mapeamento das etapas da metodologia CRISP-DM e KDD
Process. Na linha referente à metodologia CRISP-DM estão descritas as fases desta metodologia,
cada fase em uma coluna. Para a linha referente à KDD Process, existem colunas com descrição de
mais de uma fase. Para fase “modelagem”, do CRISP-DM, por exemplo, existem três fases em
KDD Process: escolha das tarefas de mineração; escolha do algoritmo de mineração; mineração dos
dados.
5
O site da metodologia era www.crisp-dm.org, hoje não está mais disponível. O endereço consta como propriedade da
IBM, como pode ser verificado em http://whois.domaintools.com/crisp-dm.org. Acesso em: 23/05/2015.
43
Tabela 6. Etapas das metodologias CRISP-DM e KDD Process.
Metodologia
Fases
CRISP-DM
Entendimento
do negócio
Entendimento
dos dados
Preparação dos
dados
Limpeza e préprocessamento
KDD
Process
Entendimento
do domínio
da aplicação
Criação do
conjunto de
dados
Redução e
projeção dos
dados
Modelagem
Avaliação
Desenvolvimento
Escolha das
tarefas de
mineração
Escolha do
algoritmo
de
mineração
Mineração
dos dados
Interpretação
Utilização do
conhecimento
descoberto
Fonte: Adaptado de Mariscal, Marbán e Fernández (2010)
Em pesquisa realizada em 2007 junto à comunidade KDNuggets, a maior parte dos usuários
utilizavam a metodologia CRISP-DM, 42%. Utilizavam a metodologia KDD Process apenas 7%.
Não é possível afirmar que a comunidade científica utiliza essa metodologia na mesma proporção.
(KDNUGGETS, 2007)
Procurando nas bases da IEEExplore; Science Direct e ScienceDirect (ver Tabela 8) pelas
strings “CRISP-DM” e “KDD Process” foi possível encontrar dois trabalhos publicados em 2014,
em revistas reconhecidas com “Qualis A em Ciência da Computação” pela CAPES, que utilizam
CRISP-DM, e nenhum que utiliza KDD Process. Este fator levou a escolha do CRISP-DM como
metodologia de mineração utilizada neste trabalho. (ESFANDIARI et al., 2014) (SPRUIT;
VROON; BATENBURG, 2014) (CAPES, 2014b)
2.3.1 A metodologia CRISP-DM
O objetivo dessa seção é apresentar a metodologia CRISP-DM, que é utilizada neste
trabalho, em mais detalhes que a apresentação descrita na seção anterior, iniciando pela descrição
das fases, apresentadas por Chapman et al. (2000), e ilustradas na Figura 5.
44
Figura 5. Fases da metodologia CRISP-DM.
Entendimento
do Negócio
Entendimento
dos Dados
Preparação
dos Dados
Desenvolvimento
Dados
Modelagem
Avaliação
Fonte: Adaptado de Chapman et al. (2000)
As fases da metodologia CRISP-DM estão no nível mais alto de abstração da metodologia,
as iterações entre as fases podem ser vistas como um ciclo de vida da mineração de dados. Nos
parágrafos seguintes encontram-se definições mais detalhadas de cada modelo desta fase.
2.3.1.1 Entendimento do negócio
Na primeira etapa do CRISP-DM, procura-se entender os objetivos do projeto e seus
requerimentos, o objetivo é usar este conhecimento para uma definição preliminar do problema e o
plano inicial desenvolvido para alcançar os objetivos do projeto. Apesar de não ser uma tarefa tão
simples como pode parecer, esta pode deixar claro problema, objetivos e recursos. (CHAPMAN et
al., 2000) (IBM, 2011)
Completada esta fase, pode-se partir para a fase de entendimento dos dados, descrita na
próxima seção.
45
2.3.1.2 Entendimento dos dados
Nesta fase é feita uma coleta inicial dos dados para viabilizar a familiarização com estes
podendo assim identificar problemas com a qualidade dos dados, descobrir as primeiras
características sobre estes, além de detectar os primeiros subconjuntos que permitam formular
hipóteses sobre a informação escondida nestes dados. (CHAPMAN et al., 2000) (IBM, 2011)
Ao final de uma iteração com esta fase pode-se identificar a necessidade de voltar a fase de
entendimento do negócio afim de refinar o conhecimento já levantado, essa iteração deve ser feita
quantas vezes forem necessário, e só então deve-se iniciar a próxima fase.
2.3.1.3 Preparação dos dados
Esta fase cobre todas as atividades necessárias para a construção do conjunto de dados final,
sobre o qual serão executadas as tarefas de mineração de dados, é a etapa que usualmente consome
a maior parte do tempo do ciclo de vida da mineração. (CHAPMAN et al., 2000)
Na preparação dos dados podem ser desenvolvidas as seguintes tarefas: mesclar
subconjuntos de dados; selecionar subconjuntos de dados; agregar registros; criar novos atributos;
ordenar os dados; tratar valores faltantes; dividir os dados em conjuntos de modelagem e
treinamento. (IBM, 2011)
2.3.1.4 Modelagem
Nesta etapa várias tarefas de mineração de dados são executadas, normalmente diversas
vezes para ajustes de parâmetros. É provável que nesta fase seja necessário iterações com a fase de
preparação de dados, a fim de realizar ajustes neste que viabilizem a aplicação das tarefas.
(CHAPMAN et al., 2000) (IBM, 2011)
Os modelos das tarefas de mineração podem ser apresentados como regras, árvores,
gráficos. (WITTEN; FRANK; HALL, 2011)
2.3.1.5 Avaliação
Nesta fase os modelos gerados por tarefas de mineração de dados são avaliados, é
mensurada a qualidade dos dados minerados, e verificado se existe algum problema com relação
46
aos objetivos de negócio. Pode-se haver novas iterações com as etapas de anteriores a fim de refinar
o processo e obter modelos de maior qualidade. (CHAPMAN et al., 2000) (IBM, 2011)
2.3.1.6 Desenvolvimento
Nesta última fase, os modelos são implantados com o objetivo de melhorar o negócio como
um todo. Pode-se utilizar o conhecimento adquirido para personalização de informações
apresentadas em um website, melhorar a análise de crédito financeiro, diagnóstico médico ou
mesmo a qualidade do ensino. (CHAPMAN et al., 2000) (IBM, 2011) (ESFANDIARI et al.,2014)
(ZHANG, 2010)
2.4 ESCOLHA DAS FERRAMENTAS
A escolha da metodologia CRISP-DM flexibiliza a escolha das ferramentas que podem ser
utilizadas, flexibilidade que direcionou este trabalho ao desafio de escolher a ferramenta de
mineração de dados mais adequada.
Dos artigos citandos na Seção 1.1 Zhang (2010), Carmona et al. (2011) Trandafili et al.
(2012) e Hoe et al. (2013) descrevem qual ferramenta utilizaram em seus trabalhos, sendo MSSSAS, KEEL, Weka e SPSS, respectivamente.
Apenas Carmona et al. (2011) descreve o critério de escolha da ferramenta de mineração de
dados (MD), o qual foi pré-requisito, já que o trabalho envolveu um estudo de caso para apresentar
a utilização da ferramenta KEEL.
Zhang (2010), Trandafili et al. (2012) e Hoe et al. (2013) apenas citam as ferramentas que
foram utilizadas sem, entretanto descrever o motivo da escolha.
Assim, por não haver, nos trabalhos citados, uma ferramenta que se destaque, e para
eliminar qualquer viés na escolha, optou-se por realizar uma pesquisa e avaliação de possíveis
opções. Esta pesquisa é apresentada na íntegra no Apêndice A, e resumida nesta seção.
Foi realizada uma busca por trabalhos realizados pela comunidade científica que pudessem
nortear a escolha da ferramenta a ser utilizada. Nesta busca foi localizado o trabalho realizado por
Mikut e Reischl (2011).
47
A partir da relação de 89 ferramentas relacionadas por Mikut e Reishl (2011), 53 comerciais
e 36 com uso livre, chegou-se quatro ferramentas de uso livre, que atendiam aos seguintes prérequisitos, necessários para a elaboração deste estudo:
PR1 - Ter licença de uso livre para academia;
PR2 - Ter como foco principal a mineração de dados;
PR3 - Fornecer mais de um algoritmo para cada uma das seguintes tarefas: classificação,
regras de associação e clusterização;
PR4 – Poder ser executada em desktop com sistema operacional Windows;
PR5 – Não ser especializada em apenas um tipo de algoritmo (Redes Neurais, Algoritmos
Evolucionários; Algoritmos Estatísticos);
PR6 – Ter uma versão lançada a partir de 2012;
PR7 – Ser uma ferramenta independente e não apenas uma interface para outra;
As ferramentas são apresentadas na Tabela 7.
Tabela 7. Ferramentas de mineração de dados que atendem aos pré-requisitos.
Ferramenta
Site
KNIME
www.knime.org
RapidMiner
www.rapidminer.com
TANAGRA
eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html
WEKA
sourceforge.net/projects/weka
Foi realizada uma análise de usabilidade das ferramentas, utilizando o checklist ERGOLIST
(LABIUTIL, 2011) montado por uma equipe multidisciplinar coordenada pelo Prof. Doutor Walter
de Abreu Cybis, do Laboratório de Utilisabilidade da Informática (LabIUtil) da Universidade
Federal de Santa Catarina. O ERGOLIST fornece um questionário e solicita respostas que
identificam características do software. A partir deste questionário o site gera uma pontuação para o
software. Quanto maior a pontuação maior a usabilidade.
Em uma segunda análise, foram comparados o desempenho da tarefa de classificação
(algoritmo Naive Bayes) e clusterização (algoritmo K-Means ) sobre o conjunto de dados Iris
48
(FISCHER, 1936). A escolha dos algoritmos de clusterização e classificação foi realizada a partir da
análise de dos algoritmos comuns nas quatro ferramentas da Tabela 7, comparando seu nome e
parâmetros implementados. Naive Bayes e K-Means, foram os que apresentaram maior semelhança
de implementação nas ferramentas citadas.
A escolha do conjunto de dados Iris deveu-se ao fato de sua estrutura ser bem descrita na
literatura, o levando a ser um benchmarking conhecido para classificação. É composto por 150
registros, 50 registros para cada uma das espécies Iris setosa, Iris versicolor e Iris virginica.
Através de análise estatística o conjunto de dados divide-se naturalmente em dois clusters, um deles
com registros da espécie Iris setosa e outro com registros das espécies Iris versicolor e Iris virginica.
Pode-se ainda realizar uma leitura com três clusters, um com registro da espécie Iris setosa, um
segundo com a maior parte de registros Iris versicolor e alguns registros Iris virginica e um terceiro
com a maior parte registros Iris virginica e alguns registros Iris versicolor. (FISCHER, 1936).
A terceira análise realizada para a escolha da ferramenta foi uma avaliação de
reconhecimento desta pela comunidade científica e pela comunidade em geral. Para balizar a
aceitação pela comunidade científica foi realizada uma busca por estas nas base de dados da Tabela
8, utilizando as strings “knime data mining”, “tanagra data mining”,
“rapidminer data mining”
e “weka data mining”. Como análise do conhecimento da ferramenta pela comunidade em geral,
foi utilizada a pesquisa realizada pela comunidade KDNuggets (2012).
Tabela 8. Base de dados e número de artigos por ferramenta
Artigos citando
Fonte
Link de Acesso
Knime Rapidminer Tanagra
Weka
ACM DL
http://portal.acm.org
19
63
3
971
IEEExplore
http://ieeexplore.ieee.org
21
95
7
1.126
ScienceDirect http://www.sciencedirect.com
28
55
9
737
Total de artigos
68
213
19
2.834
Ao final das análises de usabilidade, desempenho e aceitação pela comunidade, foi
elaborada a Tabela 9, na qual as ferramentas que se destacaram em relação às outras recebeu um
ponto.
49
Tabela 9. Pontuação das ferramentas.
Desempenho
Aceitação da Comunidade
Usabilidade
Classificação Clusterização
Acadêmica
Geral
KNIME
0
0
1
0
0
Rapidminer
1
1
1
0
1
Tanagra
0
1
0
0
0
Weka
0
1
1
1
0
Pontos
1
4
1
3
Como pode ser visto na Tabela 9, pelos parâmetros deste trabalho, a ferramenta que aparenta
ter a melhor adequação aos critérios que foram definidos é a ferramenta Rapidminer, que será
utilizada prioritariamente neste estudo, mas pelo número elevado de algoritmos e parâmetros
disponíveis em cada uma dessas ferramentas não é possível realizar a afirmação de que esta é
certamente a melhor opção.
Se fosse analisado apenas o critério de aceitação da ferramenta pela comunidade científica,
por exemplo, a ferramenta Weka seria a adoção ideal, mas foram encontrados indícios de que esta
ferramenta possui usabilidade inferior à encontrada no Rapidminer. Também foram encontrados
indícios de que a ferramenta Weka é menos utilizada que a ferramenta Rapidminer pela comunidade
em geral.
Por não ser objetivo do estudo apresentado no Apêndice A obter uma resposta definitiva de
qual a melhor ferramenta a ser adotada, pode ser prudente não descartar totalmente a utilização das
ferramentas KNIME, Tanagra e Weka, e utiliza-las sempre que houver a suspeita de que estas
possam trazer facilidades e/ou resultados que porventura não sejam encontradas na ferramenta
Rapidminer.
50
3 REVISÃO SISTEMÁTICA DA LITERATURA
Neste capítulo apresenta uma análise e comparação de trabalhos científicos que examinem
dados educacionais com foco no desempenho acadêmico de alunos, com o objetivo de posicionar
com relevância científica esta dissertação.
Para isto foi realizado um processo de revisão sistemática da literatura. Revisões
sistemáticas possibilitam alcançar maior qualidade e credibilidade em seus resultados, pois se
baseiam em evidências e combinam o resultado de vários estudos afins, de forma documentada e
reproduzível, possibilitando encontrar lacunas entre pesquisas justificando novos estudos. (DYBÅ;
DINGSØYR, 2008)(MOLLÉRI, 2013)
3.1 QUESTÕES DE PESQUISA DA REVISÃO SISTEMÁTICA
Esta revisão sistemática da literatura foi norteada pelas seguintes questões de pesquisa:
QR1 – Quais técnicas de estatística e mineração de dados têm sido utilizadas na literatura
para analisar o desempenho acadêmico de alunos?
QR2 – Como têm evoluído as pesquisas de avaliação de desempenho acadêmico de alunos?
QR3 – Quais técnicas de mineração de dados têm sido utilizadas na avaliação de
desempenho acadêmico de alunos?
QR4 – Quais tipos de dados das IES têm sido utilizados nesta análise?
3.2 FONTES DE DADOS
Para viabilizar este trabalho, foram escolhidas bases que atendessem aos seguintes critérios:
Ser reconhecida pela comunidade científica; Promover flexibilidade na pesquisa; Viabilizar acesso
à íntegra do texto.
Dentre as que cumpriam estes requisitos, foram selecionadas IEEExplore, ACM Digital
Library e ScienceDirect, cujos links de acesso são apresentados no Quadro 1.
51
Quadro 1. Fontes de dados da revisão Sistemática.
Nome da Fonte
Link de Acesso
IEEExplore
http://ieeexplore.ieee.org
ACM Digital Library
http://portal.acm.org
ScienceDirect
http://www.sciencedirect.com
Definidas as fontes de dados, partiu-se para o inclusão de critérios de seleção dos trabalhos
que fossem identificados nestas fontes.
3.3 CRITÉRIOS DE SELEÇÃO
Os critérios de seleção de trabalhos, na revisão sistemática, pretendem identificar trabalhos
que evidenciem diretamente as questões de pesquisa. Para reduzir o viés na seleção de trabalhos, os
critérios devem ser decididos durante a definição do protocolo da revisão sistemática.
(KITCHENHAM, 2004)
3.3.1 Critérios de Inclusão
O principal critério de inclusão do artigo neste trabalho foi o foco na análise da vida
acadêmica do aluno, feitos a partir de banco de dados utilizados na gestão da vida acadêmica do
aluno.
Ter sido publicado e catalogado nas bases do Quadro 1 entre 01/01/2007 e 12/09/2014.
Trabalhos que a partir da análise da vida acadêmica do aluno, tentam realizar a previsão do
desempenho acadêmico de outros alunos.
3.3.2 Critérios de exclusão
Foram excluídos deste trabalho, os artigos que não se encaixavam nos critérios de inclusão,
valendo a documentação das seguintes características:
- Não relacionados ao ambiente educacional;
- Foco no desenvolvimento de software, framework, método ou algoritmo;
- Foco no desempenho do professor ou pesquisador, ou curso;
52
- Mineração de texto (fóruns de ambiente virtual de aprendizagem);
- Utilização de pesquisas pontuais junto à comunidade acadêmica.
- Trabalhos publicados antes de 01/01/2007.
3.4 STRING DE BUSCA
A criação da string de busca foi sem dúvida a parte mais difícil deste trabalho. A utilização
de termos comuns a muitos trabalhos como “student” e “performance” exibia um volume de dados
muito grande e com pouca relevância.
Por outro lado, a inclusão de termos restritivos como “data analysis” eliminavam trabalhos
com potencial de inclusão. Após diversas iterações entre ajustes da string e leitura de artigos
identificados por esta, foi gerada a seguinte expressão base para busca.
“(education AND (mining OR statistics) AND (performance OR achievement) ) AND NOT
"high school" AND NOT opinion AND NOT feedback AND NOT industry AND NOT architecture”
A busca foi feita sempre pelo resumo do artigo (e não em todo corpo do texto, e nem apenas
no título). A conclusão de que esta restrição poderia ser feita deu-se pela análise de diversos artigos
durante os testes iniciais, onde foi verificado que as principais palavras do corpo do texto se
encontravam no resumo. Foi verificado também que muitos artigos irrelevantes eram listados por
conterem as palavras chave em partes de menor significado semântico do artigo, como nas
referências bibliográficas.
Vale documentar que dentre os diversos testes realizados foram incluídos termos como
“data mining”, “knowledge discovery” e “higher education”, entretanto estes termos aumentavam
significativamente o número de trabalhos retornados, sem melhorar a quantidade de trabalhos
relevantes, que são melhor representados pelas palavras “performance” e “achievement”. O termo
“achievement” foi descoberto nos testes iniciais de composição da string, quando se notou que era
utilizado por diversos autores. Esta palavra foi agregada posteriormente à string que viria a se tornar
a expressão base para busca.
A expressão base foi adaptada para a máquina de busca de cada uma das bases apresentadas
na tabela 1, e a string específica de cada base é apresentada a seguir:
53

IEEExplore: ("Abstract": education AND (mining OR statistics) AND (performance OR
achievement) ) NOT "high school" NOT opinion NOT feedback NOT industry NOT
architecture

ScienceDirect: pub-date > 2008 and title-abstr-key(education AND (mining OR statistics)
AND (performance OR achievement) AND NOT "high school" AND NOT opinion AND
NOT feedback AND NOT industry AND NOT architecture)[All Sources(Computer
Science,Decision Sciences,Social Sciences)]

ACM Digital Library: (Abstract:(education) AND (Abstract:(mining) OR
Abstract:(statistics)) AND (Abstract:(performance) OR Abstract:(achievement))) AND NOT
Abstract:("high school") AND NOT Abstract:(opinion) AND NOT Abstract:(feedback) AND
NOT Abstract:(industry)
3.5 SELEÇÃO DOS ESTUDOS
A string de busca, em todas as bases da Quadro 1, retornou 169 artigos com pouca ou
nenhuma relevância (96,02%), conforme documentado na Seção 3.6, fazendo com que uma etapa
de seleção pela leitura do título e resumo fosse necessária.
Nesta leitura foram considerados os processos de inclusão e exclusão apresentados,
resultando em um número menor de artigos para avaliação na íntegra.
Com relação à base ACM, muitos trabalhos listados foram também catalogados na base
IEEExplore, sendo assim ignorados.
3.6 ESTUDOS SELECIONADOS
A string de busca executada em cada uma das bases do Quadro 1, retornou um total de 176
artigos, sendo 92 artigos do IEEEXplore, 32 artigos do ACM Digital Library e 52 do ScienceDirect,
conforme pode ser verificado na Tabela 10.
Após a leitura do título e resumo restaram para análise completa 41 artigos, sendo 23 artigos
do IEEEXplore, 3 artigos do ACM Digital Library e 15 artigos do ScienceDirect, conforme
resumido na Tabela 10.
54
Com todos os artigos disponíveis na íntegra para análise, a seleção final inclui 7 artigos,
sendo 5 artigos do IEEEXplore, 1 artigo do ACM Digital Library e 1 artigos do ScienceDirect,
conforme apresentado no Quadro 2.
Tabela 10. Seleção de estudos por base.
Nome da Fonte
Quantidade retornada
IEEExplore
ACM Digital library
ScienceDirect
Totais
92
32
52
176
Selecionados
%
Selecionados
pelo resumo
Selecionado
23
5
5.43%
3
1
3.13%
15
1
1.92%
41
7
3.97%
Quadro 2. Seleção final dos artigos, considerando critérios de inclusão e exclusão.
Autores
Ano
Zeng e Zheng
2009
Macfadyen e Dawson 2010
Zhang
2010
Carmona et al.
2011
Samaranayake, e
Caldera
2012
Trandafili et al.
2012
Hoe et al.
2013
Nome do trabalho
Genders Differentials in Computer Sciences
Education: Analysis and Proposal
Mining LMS data to develop an “early
warning system” for educators: A proof of
concept
Study and analysis of data mining
technology in college courses students failed
Subgroup discovery in an e-learning usage
study based on Moodle
A data mining solution on high failure rate
in Physical Science stream at the university
entrance examination
Discovery and evaluation of student's
profiles with machine learning
Analyzing students records to identify
patterns of students' performance
Base
IEEEXplore
ScienceDirect
IEEEXplore
IEEEXplore
IEEEXplore
ACM DL
IEEEXplore
3.7 ANÁLISE DOS TRABALHOS
Nos próximos tópicos estão listados os trabalhos que foram selecionados, e um resumo de
seu conteúdo, com foco nas questões de pesquisa desta revisão da literatura, QR1 a QR4,
apresentadas na Seção 3.1.
55
3.7.1 Genders Differentials in Computer Sciences Education: Analysis and
Proposal (ZENG E ZHENG, 2009)
Este artigo utiliza estatística para comparar o desempenho acadêmico entre os sexos
masculino e feminino, de uma universidade (não nominada) e realiza um estudo mais profundo no
curso de Ciência da Computação.
Foram analisados dados de 2004 a 2008. Além do sexo do estudante, os nomes das
disciplinas e as notas foram utilizadas no estudo. Na análise da instituição como um todo, algumas
disciplinas foram selecionadas como Línguas Estrangeiras e Matemática avançada.
Não é descrita nenhuma ferramenta específica para auxiliar na realização das análises, mas
descreve a utilização de teste de hipótese e contraste.
O autor conclui que na população analisada, mulheres preferem assuntos como inglês, saúde
e negócios, enquanto homens preferem circuitos, novos materiais, automóveis e política.
Na análise mais profunda do curso de ciência da computação, apresenta uma tabela com 34
disciplinas, mostrando que mulheres excederam os homens em disciplinas como Programação Java,
Experimentos matemáticos, e matemática avançada, enquanto os homens foram melhores que as
mulheres em C++, Análise de Dados e Circuitos Eletrônicos.
O artigo se afasta bastante da análise quantitativa de dados, e discute assuntos mais amplos
como a forma com que homens e mulheres são criados na China, e a influência que uma exposição
maior dos homens ao meio tecnológico, influencia em um menor número de mulheres nesta área.
Ao final propõe mudanças na política educacional da China, afim de evitar que as mulheres
se afastem de cursos de tecnologia.
3.7.2 Mining LMS data to develop an “early warning system” for educators: A
proof of concept (MACFADYEN e DAWSON, 2010)
Este artigo apresenta um sistema de alerta para que educadores saibam quais alunos estão
em risco de reprovação em ambientes virtuais de aprendizagem (Learning Management System –
LMS).
56
Utiliza os logs do LMS em cinco classes do curso de graduação em Biologia da University
of British Columbia que é realizado totalmente on-line. Não descreve a ferramenta utilizada para as
análises.
Utiliza da estatística a regressão linear, regressão logística e correlação de variáveis, além de
um diagrama de redes dos relacionamentos sociais dos alunos em fóruns. Foram analisadas
variáveis como: tempo on-line; mensagens enviadas e lidas; mensagens de fórum de discussão
lidas; mensagens postadas em forums de discussão; uso das ferramentas disponíveis no LMS
(compile tool, search function, who is on-line, etc); avaliações iniciadas; avaliações concluídas;
tempo gasto em avaliações, etc.
Como primeira análise utilizou gráficos de dispersão (scatter plots) para identificar
correlação entre as variáveis investigadas, descobrindo assim que, das 22 variáveis analisadas, 13
apresentam um relacionamento estatisticamente significante com a nota final do estudante. Destas 7
apresentam de 9 a 27% da variação na nota final. É relatado, porém que seria um erro confiar no
poder de previsão da correlação simples.
Os autores relatam também que, corroborando Morris e Finnegan (2005), o estudo aparenta
até certo ponto estar documentando o óbvio, como exemplo cita o fato do estudo indicar que
estudantes engajados e discursivos são mais competentes para completar o curso com sucesso
quando comparado aos seus pares menos interativos.
Pelo estudo, os autores identificaram como sendo variáveis com maior potencial de prever o
desempenho do aluno, no contexto do LMS analisado: o número de postagens em fórum de
discussão; número de mensagens de e-mail enviadas; número de avaliações concluídas. A utilização
destas variáveis permitem prever corretamente, através de regressão logística, os alunos que irão
falhar no curso com até 70,3% de acurácia.
Refutando conclusões de outros trabalhos, os autores concluem também que o tempo que
alunos passam on-line possui apenas uma pequena correlação com a nota final do estudante, por
fim, concluem que informações pedagogicamente significativas podem ser extraídas de ambientes
virtuais de aprendizagem.
Foi conduzido um teste utilizando regressão logística binária, com o objetivo de avaliar a
confiança do modelo estatístico criado na previsão de risco de reprovação. Para isso os estudantes
57
com nota final <60% foram classificados como “em risco de reprovação” e estudantes com nota
final >=60% foram classificados como “desempenho adequado ou superior”. Na University of
British Columbia alunos com nota <50% são reprovados, e acima desta nota, aprovados. O objetivo
dessa divisão foi segmentar os alunos que quase reprovaram, como potenciais beneficiários de
suporte e intervenção precoce.
O teste demonstrou que o modelo classifica corretamente o aluno em 73,7% dos casos.
Demonstrou também que foram classificados como “performance adequada” alunos que tiveram
“em risco” em apenas 12,7% dos casos
3.7.3 Study and analysis of data mining technology in college courses students
failed (ZHANG, 2010)
Este trabalho utiliza técnicas de mineração de dados e tem foco na análise de padrões entre
alunos que reprovaram. O autor não menciona a instituição que forneceu os dados para análise,
apenas cita que são dados de 2008 e 2009 e apresenta um comando da linguagem SQL onde
seleciona os registros de uma tabela de notas do curso (CourseScore).
Os dados selecionados pela query e a apresentação de uma descrição das colunas contidas
nas tabelas Course, CourseType e CourseScore apresentam as informações analisadas se resumem a
dados de curso e notas, sem agregar muitas informações do perfil do acadêmico nem do docente.
Utiliza árvore de decisão e algoritmo rough set na mineração dos dados para gerar modelos
de previsão e classificação com o objetivo de encontrar o verdadeiro motivo que afeta as notas dos
estudantes, além de regras de associação.
A ferramenta utilizada para análise foi “Microsoft SQLServer Analysis Services (MSSSAS)”.
Como resultado da análise, é descrita uma concentração de reprovações em dez disciplinas,
dentre elas a de Matemática Avançada, Teoria da Probabilidade e Álgebra Linear.
Outras análises são descritas. O autor afirma, por exemplo, que se um curso teve mais de 25
estudantes reprovados, a chance de ter alunos reprovados na disciplina de matemática é de 100%, e
de mais de 60% na disciplina de artes liberais.
58
O autor afirma ao final que a análise destes padrões poderia gerar sugestões de mudança na
escolha das disciplinas a fim de evitar escolhas que aumentem a possibilidade de reprovações.
3.7.4 Subgroup discovery in an e-learning usage study based on Moodle
(CARMONA et al., 2011)
Este artigo realiza uma análise de dados do Learning Management System (LMS) Moodle6
com foco na descoberta de grupos no ambiente de ensino a distância.
Foram utilizados dados de cinco cursos da University of Cordoba da Espanha, totalizando
239 estudantes, a ferramenta utilizada nas análises dos dados foi a KEEL (ALCALÁ-FDEZ, 2009).
Os algoritmos para descoberta dos grupos foram utilizados o algoritmo de classificação
CN2, o algoritmo de regras de associação Apriori, e os algoritmos baseados em evolutionary fuzzy
systems SDIGA, MESDIF, NMEEF.
São apresentadas dez regras que foram geradas pelo algoritmo NMEEF sem, como por
exemplo:
IF (nAssigment=Low) AND (nQuizz=Low) THEN Fail - Conf:0.836
Podendo ser traduzida: Se o número de tarefas completadas for baixo, e se o número de
jogos completados for baixo, então a nota do aluno entrará nos grupos da que o farão reprovar, com
83,6% de confiança.
Outra regra interessante que pode ser transcrita do artigo é:
IF (nQuizzP=High) THEN Good - Conf:0.655
Podendo ser traduzida como: Se o número de jogos que o estudante foi aprovado for alto,
então a nota do estudante entrará no grupo de notas boas, com 65,5% de confiança.
6
Disponível em: http://moodle.org. Acesso em: 11/07/2014
59
Ao final, os autores afirmam que a análise dos grupos apresentados no trabalho podem ser
utilizadas para que professores tomem decisões sobre as atividades dos cursos para melhorar o
desempenho acadêmico dos alunos.
3.7.5 A data mining solution on high failure rate in Physical Science stream at
the university entrance examination (SAMARANAYAKE e CALDERA,
2012)
Neste trabalho utilizou-se técnicas de mineração de dados para investigar os fatores que
contribuem para a alta taxa de reprovação nos cursos das áreas de Física e Biologia.
O artigo explica que o Department of Examination no Sri Lanka possui duas avaliações para
fornecer acesso de estudantes ao ensino superior, General Certificate of Education Ordinary Level
(O’level) e General Certificate of Education Advanced Level (A’level). O exame O´level é aplicado
após 11 anos de estudo no ensino básico e é utilizado como qualificação para o colegial. Após dois
anos no colegial, é aplicado o exame A´level que é utilizado para acesso à educação superior.
Os exames são realizados em períodos distintos do ensino fundamental, em diversas áreas,
dentre elas PHSC e BISC.
O foco do estudo está na análise de notas das diversas disciplinas do exame O’level, que
levem conclusões de resultados no A’level. Além das notas, das disciplinas e das áreas que o aluno
está se candidatando (por exemplo, PHSC e BISC), não cita a análise de nenhuma outra
característica, como informações de faixa etária, sexo ou renda familiar.
A técnica de mineração de dados foi a geração de regras de associação sem, entretanto
especificar a ferramenta ou algoritmos utilizados.
Na análise da área PHSC, os autores definiram como a melhor regra gerada pela análise: Se
a anota (O´level) em Religion = A e a nota em First Language = A e a nota em Science = A e a
nota em Maths = A e a nota em Social = A e a nota em Techincal = A então o resultado do
A’level é P (aprovado) em 80% dos casos.
Também é encontrado no texto a regra: Se a nota (O´level) em Science = B e a nota em
Maths = A o resultado do A’level é F (reprovado) em 67% dos casos.
60
Em outro exemplo de regra de associação geradas, 51,77% dos estudantes que tiraram A em
matemática no exame O’level foram reprovados no exame A’level. Ainda focado apenas em
matemática, dos estudantes que tiraram C no exame O’level, 97,28% foram reprovados. Diversas
outras regras de associação foram apresentadas no estudo.
Dentre as conclusões apresentadas, está a evidência de que a nota das disciplinas Science e
Mathematics no exame O’level afeta diretamente a possibilidade de aprovação para a área PHSC.
Além destas, as disciplinas de Religion, First Language, Social Studies e Technical Subject, são
assuntos que o candidato ao A’level na área PHSC devem se interessar.
Os autores apresentam ainda algumas limitações ao seu estudo, como a ausência de dados de
fatores externos (sem citar nenhum exemplo) que podem influenciar no desempenho do candidato, e
inclusive sugere como trabalho futuro, uma análise semelhante que possa contemplar tais dados.
3.7.6 Discovery and evaluation of student's profiles with machine learning
(TRANDAFILI et al., 2012)
Utiliza mineração de dados para descobrir perfis de estudantes, com o intuito de realizar
uma análise dos seus desempenhos acadêmicos.
A fonte dos dados é o banco de dados do sistema de informação da Polytechnic University
of Tirana, na Albânia, para os cursos de Informática, Eletrônica e Telecomunicação na faculdade de
Information Tecnology. São analisados 35.000 registros, cada registro sumariza parte de um curso,
para um estudante. Para realizar as análises a ferramenta WEKA foi utilizada.
Foram utilizadas técnicas de clusterização com o algoritmo expectation-maximization e
regras de associação, com o algoritmo Apriori. Também foi gerado um modelo de previsão, com a
intenção de predizer quais estudantes iriam ser aprovados ou reprovados. Para isso utilizou-se o
algoritmo J48 com árvores de decisão.
Na clusterização, foram realizados dois testes, no primeiro, nenhum parâmetro para o
número de clusters foi informado, e o próprio algoritmo foi o responsável por decidir quantos
clusters seriam gerados. Neste experimento foram gerados 7 clusters, mas, segundo os autores, foi
difícil analisar a semântica de cada um deles.
61
Como exemplo, os autores citam uma análise dos clusters 1 (que poderia ser nomeado como
“desempenho muito bons e excelentes”) e do cluster 4 (que poderia ser nomeado como
“desempenho bons e baixos”), ao contrário do esperado, não possuem uma distribuição normal,
uma análise mais detalhada demonstrou que a disciplina L110, em estudo no exemplo, possui um
pré-requisito, assim alunos reprovados neste pré-requisito não cursaram a disciplina L110. Além
disso, para lidar com dados faltantes (no exemplo, o dado faltante é a nota em branco do aluno que
não cursou a disciplina L110) os valores foram preenchidos com nota média da turma, o que
distorceu a informação. Este relato ilustra o quanto um bom conhecimento dos dados pode melhorar
a análise da mineração.
Assim, um segundo experimento, informando ao algoritmo que criasse apenas 4 clusters foi
executado, onde foi possível analisar o significado de cada cluster separadamente. Ficou claro, por
exemplo, que apenas 11% dos alunos estão no cluster “alunos excelentes”, enquanto 56% dos
alunos foram incluídos no cluster com alunos que tem nota média menores.
Os autores citam que esta análise dos clusters pode gerar um modelo estatístico que auxiliem
na avaliação de alunos que possam continuar os estudos em nível de mestrado, naquela
universidade.
Na interpretação das regras de associação, geradas pelo algoritmo Apriori, os autores
concluíram, por exemplo, que a universidade poderia tentar integrar a dissertação com o estágio, já
que duas regras apresentam as notas relacionadas, com 98% de acurácia.
3.7.7 ANALYZING STUDENTS RECORDS TO IDENTIFY PATTERNS OF
STUDENTS' PERFORMANCE (HOE et al., 2013)
Este artigo analisa dados de alunos de graduação da Universiti Tenagra Nasional, da
Malásia com previsão de precoce de performance acadêmica, baseado em dados demográficos e
histórico de performance acadêmica.
A metodologia utilizada no trabalho foi a CRISP-DM sem, entretanto, justificar esta escolha.
No trabalho pode ser encontrado apenas uma breve descrição das atividades realizadas nas fases da
metodologia.
62
Foram utilizados dados como ano e semestre de curso da disciplina; média acumulativa de
pontos (CGPA – Cumulative Grade Point Average) e assunto da disciplina para 2.228 registros dos
anos de 2004 a 2013. As médias CGPA foram segmentadas em quatro categorias, cada uma
representando uma faixa de desempenho acadêmico.
A ferramenta utilizada foi a PASW 13.0 do software SPSS, que permite modelar um fluxo
com etapas para obter o resultado da análise. A ferramenta testou todos os algoritmos disponíveis
(não descritos no trabalho) e o CHAID (Chi-square Automatic Interaction Detection) foi o que
obteve melhor acurácia.
Com o algoritmo CHAID foi possível predizer corretamente 1.564 registros alcançando
assim 70,17% de acurácia, valor que foi utilizado pelos autores para afirmar que o objetivo de
identificar o desempenho dos alunos foi alcançado.
3.7.8 Sumarização dos resultados
As características apontadas em cada artigo foram sumarizadas no Quadro 3, com o objetivo
de facilitar a visualização dos trabalhos analisados, e também apresentar uma intenção de
dissertação de mestrado.
Onde:
Autores e Ano: Referência ao Quadro 2.
Comparação gêneros/cursos: Identifica se foram comparados o desempenho entre gêneros
e/ou entre cursos.
Fonte de dados: Pode ser “Gestão Acadêmica”, indicando que os dados foram extraídos
diretamente do banco de dados que faz a gestão acadêmica de alunos. “LMS”, indicando que os
dados foram extraídos de um sistema e-learning. “Centro de dados”, indicando que os dados foram
extraídos de um órgão ou instituição que centraliza dados de diversas instituições de ensino.
Previsão de Desempenho: Identifica se o trabalho pretende prever o desempenho
acadêmico de alunos.
Estatística: Técnicas da Estatística utilizadas.
63
Mineração: Técnicas e algoritmos da mineração de dados (machine learning) utilizados.
Ferramenta: Nome da ferramenta utilizada. A sigla NI indica que a ferramenta não foi
informada.
Quadro 3. Síntese das características descritas em cada artigo.
Comparação
Gêneros Cursos
Autores
Ano
Zeng e Zheng
2009
Sim
Não
Macfadyen e Dawson 2010
Não
Não
Fonte
Previsão de
Estatística
De dados Desempenho
Gestão
Teste de
Não
Acadêmica
Hipóteses
Regressão
Linear;
Regrassão
LMS
Sim
Logística;
Correlação
de
Variáveis;
Mineração
Ferramenta
Não
NI
Não
NI
Árvores de
Decisão;
Rough Set;
Classificação;
CN2;
Regras de
Associação;
Apriori;
SDIGA;
MESDIF;
NMEEF;
Regras de
Associação;
Clusterização;
Árvores de
Decisão;
Expectation
Maximization;
Zhang
2010
Não
Não
Gestão
Acadêmica
Não
Não
Carmona et al.
2011
Não
Não
LMS
Não
Não
Samaranayake, e
Caldera
2012
Não
Não
Centro de
dados
Não
Não
Trandafili et al.
2012
Não
Não
Gestão
Acadêmica
Sim
Não
Hoe et al.
2013
Não
Não
Gestão
Acadêmica
Sim
Não
Classificação
SPSS
Sim
Gestão
Acadêmica
Sim
Estatística
Descritiva
Regras de
Associação;
Clusterização;
Classificação
Rapidminer
Esta Dissertação
Sim
MS SSAS
KEEL
NI
WEKA
3.8 CONSIDERAÇÕES
Este capítulo apresentou uma relação de trabalhos publicados e inseridos nas bases do
Quadro 1 entre 01/01/2007 e 12/09/2013, que analisam bases de dados relacionadas ao ambiente
educacional, colocando o desempenho acadêmico dos alunos como ponto central do estudo.
Respondendo a questão de pesquisa QR1, notou-se que técnicas de estatística estão sendo
utilizadas para esta análise (28,57% dos trabalhos), mas em 71,43% dos artigos analisados a
mineração de dados foi a técnica utilizada.
64
Na investigação pela resposta da questão de pesquisa QR2, nota-se que em 2009 apenas um
artigo foi publicado, dentro dos critérios de inclusão desta revisão da literatura. Em 2010 foram
localizados dois trabalhos, em 2011 um trabalho, em 2012 mais dois e em 2013 um trabalho. Assim,
através deste estudo nenhuma tendência de evolução, em relação à quantidade de artigos publicados
neste período, foi caracterizada.
Na investigação da questão de pesquisa QR3, vimos que árvores de decisão, regras de
associação, clusterização e classificação são as técnicas (tarefas de MD) mais utilizadas nos artigos
analisados.
Com relação ao tipo de dados analisado, tópico da questão de pesquisa QR4, fica claro que
no período de 01/01/2007 e 12/09/2013 a análise de LMS para estudar o desempenho acadêmico de
alunos não superou a análise de banco de dados tradicionais utilizados na gestão acadêmica. Uma
possível explicação para tal fato, que necessitaria de um novo estudo para confirmação, é a
possibilidade de estar-se utilizando LMS como ferramenta de suporte ao ensino, servindo como
repositório de dados, e ferramenta de comunicação entre os envolvidos. Dados administrativos
como notas, exercícios e avaliações não seriam armazenadas nestes ambientes.
Dentro da análise de desempenho acadêmico, nota-se preocupação com a identificação
precoce do risco de reprovação de alunos em 42,86%, (ZHANG, 2010) (SAMARANAYAKE e
CALDERA, 2012) (MACFADYEN e DAWSON, 2010), o que é justificável, pois são esses os
alunos que pretende-se ajudar. Entretanto, a análise do perfil dos alunos, independente do risco de
reprovação, como nos trabalhos Trandafili et al. (2012) e (CARMONA et al., 2011) (HOE et al.,
2013), podem dar aos especialistas em educação informações importantes, que podem auxiliar na
melhora do desempenho acadêmico de todos os alunos.
Nenhum dos trabalhos analisados procura correlacionar características de alunos em
diferentes cursos. O perfil dos alunos da área de exatas pode ser muito diferente do perfil do aluno
ciências da saúde, ou de ciências humanas. Uma análise do desempenho acadêmico que segmente
essas áreas tem potencial para gerar informações pedagógicas relevantes.
Com relação à ferramenta computacional, 42,86% dos trabalhos não se preocuparam em
informar qual a ferramenta foi utilizada, dificultando assim uma eventual reprodução dos
resultados. Dos que informaram a ferramenta, nenhum justificou a escolha, cada uma das
65
ferramentas MS SSAS, KEEL, WEKA e SPSS foi utilizada em apenas um trabalho, não sendo
possível concluir qual delas seria a ideal para esta dissertação.
É importante notar também, que no período de 01/01/2007 e 12/09/2013 não foi identificado
nenhum artigo de autores brasileiros, considerando a string de busca adotada, as bases da tabela 1, e
os critérios de inclusão e exclusão utilizados. Fato este que pode surpreender por se tratar de um
país em que a educação é tema de constante preocupação da sociedade como apresentado na
introdução desta dissertação, e por ser a análise de dados, especialmente através de mineração de
dados educacionais, uma linha de pesquisa com potencial para melhorar a qualidade do ensino.
(BAKER; ISOTANI; CARVALHO, 2011)
66
4 METODOLOGIA PROPOSTA
Neste capítulo são descritas as etapas desenvolvidas neste trabalho, divididas de acordo com
as fases da metodologia CRISP-DM que foram apresentadas na Seção 2.3.1 , e relacionadas na
Figura 5. Este capítulo está organizado da seguinte forma: a seção 4.1 apresenta uma descrição do
ponto de vista do negócio, descrevendo a hierárquica dos cursos da IES e suas funções. Na Seção
4.2 apresenta-se a forma com que os dados são armazenados, quando os dados foram armazenados,
a qualidade dos dados e o nível de utilização. A Seção 4.3 apresenta a forma com que os dados
foram extraídos, como estes foram enriquecidos e preparados. A Seção 4.4 apresenta a aplicação
das técnicas de mineração de dados, e descreve também iterações com as etapas anteriores afim de
alcançar melhores resultados. A Seção 4.5 apresenta uma avaliação do modelo gerado a partir das
técnicas de mineração de dados do ponto da acurácia, e estatística kappa.
Apesar da apresentação linear deste capítulo, é importante ressaltar que, conforme
apresentado na Figura 5, a metolologia CRISP-DM, bem como as demais apresentadas na Figura 4,
descrevem iterações entre as etapas, com o objetivo de alcançar os melhores resultados. A
documentação de todas as iterações realizadas só foi documentada onde fez-se necessária, como na
Tabela.
4.1 ESTRUTURA DA IES
Esta seção corresponde à fase “Entendimento do Negócio”, da metodologia CRISP-DM,
conforme apresentado na Figura 5, tem como objetivo apresentar uma visão geral do negócio, além
dos objetivos a serem alcançados no processo de KDD.
Para compreender a estrutura da IES analisada, foi utilizado o Plano de Desenvolvimento
Institucional (BORBA, 2012), entrevista com professores atuantes na Vice-Reitoria de Graduação,
referenciada em Borba (2012) como Pró-Reitoria de Ensino (ProEn), e também com profissionais
da Gerência de Tecnologia da informação.
A Universidade do Vale do Itajaí está presente ao longo do litoral centro-norte do estado de
Santa Catarina, Brasil, com unidades/campi em sete cidades, sendo sua sede administrativa
localizada no município de Itajaí. A IES coloca a disposição da comunidade acadêmica uma série
67
de recursos tecnológicos on-line como Portal do Egresso, Matrícula, Plano de ensino, Sistema de
Notas, Sistema de Bibliotecas, AVA, Portal do Aluno, entre outros. (BORBA, 2012)
Atua no ensino fundamental, médio, técnico, superior e pós-graduação lato sensu e stricto
sensu. Na educação superior, oferece cursos organizados em seis Centros de Ensino: Centro de
Ciências da Saúde (CCS); Centro de Ciências Sociais Aplicadas – Comunicação, Turismo e Lazer
(CECIESA-CTL); Centro de Ciências Sociais Aplicadas – Gestão (CECIESA-Gestão); Centro de
Ciências Sociais e Jurídicas (CEJURPS); Centro de Ciências Tecnológicas da Terra e do Mar
(CTTMAR); Núcleo das Licenciaturas. (BORBA, 2012)
Em sua maioria os cursos oferecidos são apenas na modalidade presencial, que
eventualmente oferecem disciplinas semipresenciais, sendo o curso de Pedagogia EAD a única
exceção vigente em 2014.
Cada curso é oferecido em um ou mais campi, em um ou mais turnos. Um determinado
curso oferecido em dois campi/turno é considerado como um curso independente, tendo inclusive
código de avaliação distinto no MEC, assim, um curso para a instituição é a composição de
Curso/Campus/Turno.
Cada curso possui uma matriz curricular, onde constam as disciplinas obrigatórias, eletivas e
optativas oferecidas, a ementa de conteúdos e carga horária teórica e prática de cada uma das
disciplinas. Um curso para o qual ainda são disponibilizadas vagas para calouros é chamado de
“curso ativo”. Um curso para o qual não é mais disponibilizada vagas para calouros, mas ainda
possuem alunos ativos que não integralizaram a matriz curricular é chamado de “curso em
extinção”. Um curso que não é mais oferecido, e não possui alunos ativo é chamado de “curso
inativo”.
No contexto da gestão da IES, divide-se o conceito de aluno em dois conceitos: pessoa e
aluno. O conceito de pessoa é auto explicável, podendo essa desempenhar na IES o papel de
funcionário, professor ou aluno, muitas vezes desempenhando mais de um papel ao mesmo tempo
(por exemplo, uma pessoa que é professor da graduação e aluno do doutorado).
O conceito de aluno é aplicado a qualquer pessoa que tenha ingressado em um curso. Uma
determinada pessoa que tenha ingressado em dois cursos é considerada dois alunos distintos, com
vida acadêmica gerenciada de forma independente. O ingresso do aluno ocorre de diversas formas,
68
valendo o registro do ingresso via vestibular/processo seletivo, transferência interna (a partir de
outro curso da IES) e transferência externa (a partir do curso de outra IES).
O papel de aluno pode receber o status de “ativo” (aqueles regularmente matriculado e
cursando), “trancado” (aquele regularmente matriculado, mas que não está frequentando as aulas),
“inativo” (por abandono, transferência, etc) ou “egresso” (aquele que integralizou toda matriz
curricular obrigatória e não está mais em curso).
Além dos dados já citados, o papel de aluno está associado um papel de responsável
financeiro, que pode ser o próprio aluno ou um terceiro, que também está associado a um papel de
pessoa. Dois alunos associados a uma mesma pessoa pode ter dois responsáveis financeiros
distintos. Um exemplo disso seria uma pessoa que cursasse uma graduação pela manhã e outra à
noite. O responsável financeiro do curso matutino é a mãe, no curso noturno é o pai.
As disciplinas da matriz curricular são ministradas por professores, que do ponto de vista de
gestão da IES são pessoas que assumem o papel de ministrar uma aula. O professor possui uma
titulação (Graduação, Especialização, Mestrado, Doutorado) e uma carga horária (referente a todos
os cursos da instituição. A carga horária classifica o professor em regimes de trabalho “Horistas”
(para carga horária menor de 12h na IES), “dedicação parcial” (para carga horária maior que 12h e
menor que 40h) e “dedicação integral” (para aqueles com 40 horas ou mais na IES).
A IES “ouve” regularmente o que o aluno tem a dizer através de pesquisa chamada
Avaliação Institucional (AI). A frequência que a AI é realizada tem variado com o passar dos anos,
sendo atualmente aplicadas semestralmente, com um conjunto de questões que se repetem a cada
semestre, e outro que se repete anualmente.
A interação entre professores, alunos e IES é referenciada neste trabalho como “ambiente de
ensino-aprendizagem”, e a gestão deste ambiente exige o apoio de software devido ao seu volume e
complexidade. Alguns dos softwares utilizados são desenvolvidos pela Gerência de Tecnologia da
Informação e outros adquiridos de outras fontes.
Os objetivos que se pretende alcançar com este processo de KDD estão descritos na
Seção 1.2, deseja-se também, validar as perguntas de pesquisa P1 à P3, apresentadas na Seção 1.1
além de validar as hipóteses H1 à H2, apresentadas na Seção 1.1.1
69
Detalhes de como será feita a validação dos objetivos podem ser encontrados na Seção 4.3 e
a apresentação dos dados armazenados pelos softwares que auxiliam na gestão deste ambiente,
descritos acima, é feita na próxima seção.
4.2 CONJUNTO DE DADOS E INFORMAÇÕES UTILIZADAS
Esta seção corresponde à fase “Entendimento dos Dados”, da metodologia CRISP-DM,
conforme apresentado na Figura 5, tem como objetivo conhecer os dados, selecionados e identificar
eventuais dificuldades que possam ocorrem na sua utilização.
Em meados de 2014 a IES utiliza aproximadamente 40 sistemas para viabilizar a gestão do
ambiente de ensino-aprendizagem. São aplicações que vão desde a matrícula on-line ao
Planejamento Estratégico, passando por gestão de carga horária docente, biblioteca, controle de
fotocópias disponibilizadas ao aluno, dentre diversos outros. O objetivo desta seção é apresentar
como os dados que serão utilizados no processo de KDD estão estruturados, bem como a frequência
com que são gerados, e o início de controle dos mesmos.
Apesar do grande número de softwares de apoio à gestão do ambiente de ensinoaprendizagem, apenas parte dos dados de sete sistemas estarão sob análise neste trabalho,
escolhidos pela relação próxima ao apoio direto do ensino de graduação. Assim, dados originados
em sistemas que se afastam da gestão de alunos da graduação, como o sistema de compras, o
sistema de patrimônio e o sistema de folha de pagamento, por exemplo, não estarão sob análise.
A seleção dos atributos foi realizada com o objetivo de selecionar o maior número de dados
disponíveis. A decisão de não utilizar um critério específico é justificada pela falta de um critério
para seleção dos atributos nos trabalhos apresentados no Capítulo 3. Nestes trabalhos foi
identificado que Samaranayake e Caldera (2012), Zhang (2010), Trandafili et al. (2012), utilizaram
apenas disciplinas e notas em suas análises, Zeng e Zheng (2009) utilizou também o sexo dos
alunos. Nos trabalhos que utilizam um número maior de atributos, como Carmona et al. (2011) e
Macfadyen e Dawson (2010) a seleção destes atributos não foram justificadas.
Detalhes sobre os atributos utilizados são apresentados nas próximas seções, a cada um
deles é apresentada também a descrição, os possíveis valores e a relação principal do mesmo. O tipo
70
de dado de cada atributo foi apresentado de acordo com a nomenclatura utiliza pela ferramenta
Rapidminer, principal ferramenta que é utilizada neste trabalho conforme descrito na Seção 2.4.
4.2.1 Central de Pessoas
A Central de Pessoas não é um sistema e sim módulo independente de outros sistemas, sem
interface própria, servindo apenas para manutenção de países, estados, cidades, pessoas, senhas e
perfis administrativos das pessoas. A manutenção destes dados ocorre através de outros sistemas,
como o sistema de folha de pagamento (no cadastro de um novo funcionário) ou o sistema
Acadêmico/Financeiro (no cadastro de um novo aluno).
A central de pessoas, apesar de parecer apenas um agregado de tabelas, tem a função de
integração, via banco de dados, dos diversos sistemas (desenvolvidos internamente ou por
terceiros), tornando possível o cadastro de pessoas confiável em qualquer sistema. Serão utilizados,
deste módulo os atributos apresentados no Quadro 4.
Quadro 4. Atributos da Central de Pessoas que serão utilizados.
SEXO
TIP_DEF
DAT_NAS
Valores Possíveis
Descrição
M: Masculino;
Gênero da pessoa
F: Feminino;
NI: Não Informado / Sem
Tipo de deficiência.
necessidade especial;
FIS: Deficiência Física;
Alunos que necessitam
AUD: Deficiência
de auxílio para assistir
Auditiva;
aula certamente tem
VIS: Deficiência Visual;
Polinomial
valor cadastrado aqui.
MEN: Mental;
DOW: Síndrome de
Se o aluno é superdotado
Down;
o cadastro é feito neste
AUT: Autismo;
campo, apesar de não ser
SUP: Altas
uma deficiência.
Habilidades/Superdotação
Data
Datas válidas
Data de Nascimento
Binomial
Ano/Sem
Início
2001/1
X
2001/1
X
2001/1
X
Curso
Tipo de
Dado
Docente
Atributo
Aluno
Relacionado à
X
4.2.2 Sistema Acadêmico/Financeiro
O sistema Acadêmico/Financeiro é o principal sistema na gestão de cursos, sendo este o
sistema responsável por manter dados referentes aos campi, centros de ensino, cursos, matrizes
curriculares, matrículas, lançamentos financeiros e pagamentos (mensalidades, bolsas), etc.
71
O sistema começou a ser desenvolvido no final da década de 80 e tem evoluído
semestralmente desde então. Apesar dos mais de 20 anos de existência, muitas de suas
funcionalidades são relativamente recentes, tendo iniciado nos últimos 3 ou 5 anos fato este que
acende uma luz vermelha sobre a qualidade de dados mais antigos.
Sua base de dados é apoio para outros sistemas como Plano de Ensino, Controle Docente e
Ambiente Sophia (o AVA da IES). A separação do sistema Acadêmico/Financeiro do sistema Plano
de Ensino pode não parecer clara já que a descrição do plano de ensino faz parte do controle
acadêmico, entretanto este trabalho segue a nomenclatura utilizada na IES, descrita pelos
entrevistados, no Quadro 5 são apresentados os atributos que foram selecionados para análise.
Quadro 5. Atributos do sistema Acadêmico/Financeiro que serão utilizados.
X
1990/1
X
Indica por qual meio o aluno
ingressou neste curso da IES
1990/1
X
Binomial
DIR: Direito;
CIV: Engenharia Civil;
Nesta análise serão
analisados apenas alunos
dos cursos de Direito e
Engenharia Civil.
1990/1
X
Binomial
R: Aluno é o próprio
responsável Financeiro;
D: Aluno é dependente
financeiro;
Indica quem é o responsável
financeiro pelo curso.
1990/1
X
1999/1
X
2004/1
X
2004/1
X
Tipo de
Dado
Valores Possíveis
Descrição
ANO_INGR
Inteiro
1980 - 2014
SEM_INGR
Inteiro
1–2
Ano de ingresso do aluno
Semestre de ingresso do
aluno
GRU_INGR
CURSO
RES_FIN
TEX: Transferência
Externa;
TIN: Transferência
Interna;
Polinomial UNI: ProUni;
REI: Reingresso;
SEL: Processo Seletivo;
VES: Vestibular;
OUT: Outros;
NEG_FIN
Binomial
S: Sim;
N: Não;
BOLSA
Binomial
S: Sim;
N: Não;
FINANCIAMENTO
Binomial
S: Sim;
N: Não;
DIS_COD
Inteiro
DIS_TIP
>0
N: Normal;
E: Estágio;
Polinomial
T: TCC;
P: Projetuais;
Indica se em algum
momento o responsável
financeiro pelo aluno
recorreu a um acordo para
pagamento de débitos
Indica se no semestre o
aluno obteve algum tipo de
bolsa.
Indica se no semestre o
aluno a algum tipo de
financiamento gerido pela
IES
Disciplina cursada
Tipo de disciplina
1990/1
N: 1993/1
E: 1993/1
T: 1996/1
P: 1999/1
Curso
1990/1
Atributo
Docente
Aluno
Relação
Ano/Sem
Início
(Confiável)
X
X
72
Quadro 5. Atributos do sistema Acadêmico/Financeiro que serão utilizados.
Valores Possíveis
Descrição
Ano/Sem
Início
(Confiável)
Curso
Tipo de
Dado
Docente
Atributo
Aluno
Relação
Período da disciplina no
currículo.
DIS_PER
0 – 11
Polinomial
DIS_OBR
Binomial
S: Sim;
N: Não;
DIS_INTENSIVO
Binomial
S: Sim;
N: Não;
DIS_HOR_PRATICAS
Inteiro
0 – 300
DIS_HOR_TEORICAS
Inteiro
0 – 300
DIS_HOR_LAB
Inteiro
0 – 81
ALU_DIS_ANO
Inteiro
1980 – 2014
ALU_DIS_SEM
Inteiro
1 ou 2
ALU_DIS_MAIS1_PROF
Binomial
ALU_AFA
Inteiro
S: Sim;
N: Não;
0 – 27
É o período em que a
disciplina deveria ter sido
cursada, e não o período em
que ela foi cursada.
Período ZERO se refere a
disciplinas eletivas ou p
Indica se é uma disciplina
obrigatória ou não
obrigatória (optativa)
Indica se disciplina foi
cursada em regime intensivo
Carga horária prática da
disciplina
Carga horária teórica da
disciplina
Carga horária de laboratório
Ano em que o aluno cursou
a disciplina
Semestre em que o aluno
cursou a disciplina
Indica se mais de um
professor ministrou a
disciplina
Indica o tipo de afastamento
do aluno junto ao curso.
1990/1
X
1993/1
X
1994/1
X
2005/1
X
2005/1
X
2005/1
X
1990/1
X
1990/1
X
1993/1
X X
1990/1
4.2.3 Diário On-Line
O diário on-line é o sistema onde o professor, além de ter opção de cadastrar avaliações, tem
a estrutura necessária para cadastrar as notas e faltas dos alunos, além de poder cadastrar o conteúdo
apresentado em sala de aula, no Quadro 6 são apresentados os atributos que serão utilizados na
análise do processo de KDD.
73
Quadro 6. Atributos do sistema Diário On-line que serão utilizados.
ALU_DIS_MED
Real
ALU_DIS_APR
Binomial
ALU_DIS_FALTAS
ALU_DIS_AVA
Inteiro
Inteiro
Valores Possíveis
Descrição
Ano/Sem
Início
(Confiável)
0,00 – a 10,00
Média do aluno na
disciplina. Esta média é
armazenada discretizada,
tendo um arredondamento
de 0,5 em 0,5
1993/1
X
Aprovado na disciplina
1993/1
X
Número de faltas
Número de avaliações
2004/1
2007/1
X
X
S: Sim;
N: Não;
>= Zero
> Zero
Curso
Tipo de
Dado
Docente
Atributo
Aluno
Relação
4.2.4 Controle Docente
O sistema Controle Docente é o responsável por agregar dados referentes à professores e
fornece-los ao sistema Acadêmico/Financeiro e à Folha de pagamento. O sistema armazena dados
referentes ao papel de professor, como titulação e carga horária (em aulas e também em pesquisas).
No Quadro 7 são apresentados os atributos selecionados nos sistema para análise no
processo de KDD.
Quadro 7. Atributos do sistema Controle Docente que serão utilizados.
PROF_TITUL
PROF_TRAB
PROF_CGH
Valores Possíveis
G: Graduação;
P: Pós-Graduação;
Polinomial
M: Mestrado;
D: Doutorado;
H: Horista;
Polinomial P: Parcial;
I: Integral;
Inteiro
1 – 44
Descrição
Titulação do professor
2008/1
X
Regime de trabalho do
professor na IES
2008/1
X
Carga horária do professor
na IES
2008/1
X
Docente
Tipo de
Dado
Aluno
Atributo
Curso
Relação
Ano/Sem
Início
(Confiável)
4.2.5 Plano de Ensino
O sistema Plano de Ensino permite aos professores cadastrar ementas, referências
bibliográficas e avaliações referentes à disciplinas que ministra. Possui integração com o sistema de
Biblioteca, afim de permitir ao professor referenciar livros que estão disponíveis na biblioteca da
IES. No Quadro 8 são apresentados os atributos que serão analisados.
74
Quadro 8. Atributos do sistema Acadêmico/Financeiro que serão utilizados.
Valores Possíveis
OBRA_ID
Inteiro
> Zero
OBRA_QTD
Inteiro
>= Zero
Descrição
Identificação da bibliografia
no sistema da biblioteca
Quantidade de obras listadas
no plano de ensino da
disciplina
Ano/Sem
Início
(Confiável)
2003/1
Curso
Tipo de
Dado
Docente
Atributo
Aluno
Relação
X
X
4.2.6 Sistema da Pergamum
O sistema Pergamum é o sistema utilizado pelas bibliotecas da IES. Através dele é
gerenciado o acervo disponível aos alunos, assim como a locação e devolução de livros, além de
eventuais multas por atraso na devolução e outras rotinas administrativas. No Quadro 9, estão
relacionados os atributos do sistema Pergamum que serão utilizados para análise.
Quadro 9. Atributos do sistema Pergamum que serão utilizados.
Valores Possíveis
OBRA_ID
Inteiro
> Zero
OBRA_LOC
Inteiro
>= Zero
Descrição
Identificação da bibliografia
no sistema da biblioteca
Quantidade de locações de
uma determinada obra
Curso
Tipo de
Dado
Docente
Atributo
Aluno
Relação
Ano/Sem
Início
(Confiável)
2003/1
X
4.2.7 Ambiente Sophia
O Ambiente Sophia7 é o sistema utilizado pela instituição para que professores possam
apresentar disciplinas semipresenciais, podendo disponibilizar conteúdos, publicar material
didático, realizar exercícios e avaliações. É o AVA da IES. É na verdade uma adaptação do
software Moodle8, um AVA de código aberto. O Ambiente Sophia foi também utilizado como
software de apoio a cursos presenciais até o primeiro semestre de 2014, e os atributos deste sistema
estão descritos no Quadro 10.
7
O ambiente Sophia foi substituído pelo Material Didático, nas disciplinas presenciais no segundo semestre de 2014.
Entretanto, os dados utilizados neste trabalho, ainda são oriundos do Sophia.
8
Disponível em: http://moodle.org. Acesso em: 18/07/2014
75
Quadro 10. Atributos do Sistema Ambiente Sophia que serão utilizados.
Valores Possíveis
SPH_ACE_PROF
Inteiro
>= Zero
SPH_NRO_MSG_PROF
Inteiro
>= Zero
SPH_QUEST
Binomial
SPH_ACE_ALU
Inteiro
>= Zero
SPH_NRO_MSG_ALU
Inteiro
>= Zero
S: Sim;
N: Não;
Descrição
Número de Acessos do
professor à disciplina no
Ambiente Sophia
Número de mensagens
enviada pelo professor na
disciplina do Ambiente
Sophia
Se na disciplina utilizou-se
questionários de avaliação
Número de Acesso do aluno
à disciplina no Ambiente
Sophia
Número de mensagens
enviada pelo aluno na
disciplina do Ambiente
Sophia
2010/1
X
2010/1
X
2010/1
Curso
Tipo de
Dado
Docente
Atributo
Aluno
Relação
Ano/Sem
Início
(Confiável)
X
2010/1
X
2010/1
X
4.2.8 Sistema de Avaliação
O sistema de avaliação é utilizado pela IES para diversas pesquisas, dentre elas a Avaliação
Institucional, que é aplicada junto à comunidade acadêmica para fornecer conhecimento de seu
ambiente nos aspectos de infraestrutura física e curricular e satisfação de alunos e professores.
(BORBA, 2012)
A Avaliação Institucional é a única que será verificada dentre as avaliações realizadas
através do Sistema de Avaliação, e os atributos que serão utilizados no processo de KDD estão
relacionados no Quadro 11.
76
Quadro 11. Atributos da Avaliação Institucional que serão utilizados.
AIPER_ENS_MED_TIP
Binomial
AIPER_ENS_MED_MO
D
Polinomial
AIPER_REC_EST
Polinomial
AIPER_ALEMAO
Binomial
AIPER_ESPANHOL
Binomial
AIPER_FRANCES
Binomial
AIPER_INGLES
Binomial
AIPER_ITALIANO
Binomial
AID_COMPLEXIDADE
Polinomial
AID_EXIGENCIA
Polinomial
AID_IMPORTANCIA
Binomial
Valores Possíveis
Descrição
P: Pública;
V:Privada;
T: Tradicional;
P: Profissionalizante;
M: Magistério;
J: Educação de Jovens e
Adultos;
X: Ensino médio
concluído no exterior;
C: Aplicativos Didáticos
Computacionais;
A: Apostilas;
L: Livros;
R: Artigos/Revistas;
P: Anotações Pessoais;
S: Sim;
N: Não;
S: Sim;
N: Não;
S: Sim;
N: Não;
S: Sim;
N: Não;
S: Sim;
N: Não;
A: Alta
E: Equivalente
B: Baixa
A: Alta
I: Ideal
B: Baixa
A: Alta
B: Baixa
Tipo de escola que cursou o
ensino médio
2012/2
X
Tipo de ensino médio
2012/2
X
Recurso que mais utiliza
para estudar
2012/2
X
2012/2
X
2012/2
X
2012/2
X
2012/2
X
2012/2
X
Possui conhecimentos de
Alemão
Possui conhecimentos de
Espanhol
Possui conhecimentos de
Francês
Possui conhecimentos de
Inglês
Possui conhecimentos de
Italiano
Curso
Tipo de
Dado
Aluno
Atributo
Docente
Relação
Ano/Sem
Início
(Confiável)
Complexidade da disciplina,
na visão do aluno
2011/1
X
Nível de exigência da
disciplina, na visão do aluno
2011/1
X
Nível de importância da
disciplina, na visão do aluno
2011/1
X
4.3 PREPARAÇÃO DOS DADOS
Esta seção corresponde à fase “Preparação dos Dados”, da metodologia CRISP-DM,
conforme apresentado na Figura 5, tem como objetivo a construção do conjunto de dados final,
sobre o qual serão executadas as tarefas de mineração de dados.
Nesta etapa foram descartados os dados anteriores à 2005/1 e posteriores à 2014/1. Os dados
anteriores à 2005/1 foram descartados após análise e considerações junto à equipe de Tecnologia da
Informação, que definiu 2005 como o momento em que os dados começam a ter uma representação
melhor da configuração atual do sistema, melhorando assim a confiabilidade. Pode-se citar como
77
exemplo de dados com maior confiabilidade a depois de 2005 o sistema de notas vigente, o registro
de carga horária teórica e prática, o registro do número de faltas e os registros de locação de livros e
plano de ensino. Os dados posteriores à 2014/1 foram descartados porque 2014/1 foi o último
semestre finalizado antes do início da coleta de dados deste trabalho.
4.3.1 Atributos derivados - Simples
O entendimento do conjunto de dados apresentados na Seção 4.2 permitiu a criação de
atributos derivados com foco em agregar semântica aos dados brutos.
A partir da data de nascimento do aluno (DAT_NAS) e o ano e semestre de ingresso do
aluno (ALU_DIS_ANO e ALU_DIS_SEM) foi criado o atributo faixa etária do aluno
(FXETAALU) que representa a faixa etária do aluno no início do semestre em que a disciplina foi
cursada. Como a faixa etária refere-se ao início de cada semestre, um aluno terá várias faixas
etárias, facilitando eventuais análises com a faixa etária por disciplina. Para análises referentes ao
curso do aluno pode-se obter facilmente a menor faixa etária.
Utilizando o atributo de afastamento do aluno (ALU_AFA) foi gerado o atributo indicando
se o aluno é ou não egresso do curso em análise (EGRESSOCURSO). Optou-se por gerar este
atributo como binomial, com os valores “S” ou “N”, representando “Sim, é egresso do curso em
análise” ou “Não, não é egresso do curso em análise”. Como a análise será feita para o GDA ao
final do curso, informações de afastamento como morte de aluno (ALU_AFA = 10), Transferência
de aluno (ALU_AFA = 2 ou 3) ou Abandono (ALU_AFA = 4) não seriam plenamente utilizados.
Pela identificação de obras existentes em um plano de ensino e o registro de suas locações
na biblioteca (OBRA_ID e OBRA_LOC) foi criado o atributo número de livros da referência
bibliográfica locados (NROLIVROSREFLOC).
4.3.2 Atributos derivados – com análise
A partir das médias do aluno (ALU_DIS_MED) foi realizado um estudo utilizando
discretização por frequência (vide item 2.2.7 ) que objetivou a criação de GDAs coerentes com as
notas de cada um dos cursos analisados, Direito e Engenharia Civil. As médias foram analisadas
isoladamente em cada disciplina em que o aluno foi aprovado, assim uma média é referente à uma
ou mais avaliações realizadas por um Aluno/Disciplina/Ano/Semestre.
78
Este estudo está alinhado ao OE1: “Definir três grupos de desempenho acadêmico,
classificando alunos em três grupos de desempenho acadêmico: Bom Desempenho Acadêmico;
Médio Desempenho Acadêmico; Baixo Desempenho Acadêmico”.
Para realização deste estudo o conjunto alunos foi separado em dois grupos, um para o curso
de Direito e um para o curso de Engenharia Civil.
Na análise das médias do curso de Direito os GDAs foram gerados conforme Tabela 11.
Tabela 11. Grupos de Desempenho - Direito
GDA
BADA
MDA
BDA
Discretização por frequência
range1 [-∞ - 7.750]
range2 [7.750 - 8.750]
range3 [8.750 - ∞]
Para melhor entendimento da tabela, vale registrar que a média do aluno na disciplina é
gravada no banco de dados com um arredondamento de apenas uma casa decimal. O algoritmo de
discretização por frequência disponível no RapidMiner apresenta os intervalos com três casas
decimais fazendo com que os valores dos intervalos range1, range2 e range3 sejam abertos à
esquerda e a direita.
Pela discretização apresentada na Tabela 11 podem-se considerar médias iguais ou inferiores
a 7,7 como notas que compõe o grupo de baixo desempenho acadêmico (BADA); médias entre 7,8
e 8,7 compõe o grupo de médio desempenho acadêmico (MDA); médias a partir de 8,8 compõe o
grupo de bom desempenho acadêmico (BDA).
A Figura 6 apresenta o percentual de médias de alunos em cada GDA por ano e semestre.
Pode-se notar uma pequena oscilação no percentual de médias que figuram no grupo MDA (em
amarelo), variando entre 28 e 33% entre 2005/1 e 2014/1.
Já os grupos BDA e BADA sofreram uma variação maior e simétrica, em relação a uma
linha aproximada, formada pelo grupo de notas MDA. À medida que o percentual de médias que
figuraram no BDA (em verde) sobe o percentual de médias no BADA (em vermelho) cai. Na queda
do percentual de médias do BDA existe um aumento de médias no grupo BADA.
79
É difícil afirmar que existe uma relação de causa e efeito direta entre o BDA e o BADA.
Uma compreensão mais profunda do motivo desta simetria precisaria ser investigada junto à
coordenação do curso.
Figura 6. Discretização de notas por frequência - Direito.
Na análise das médias do curso de Engenharia Civil os GDA foram gerados conforme
Tabela 12.
Tabela 12. Grupos de Desempenho – Engenharia Civil
GDA
BADA
MDA
BDA
Discretização por frequência
range1 [-∞ - 7.250]
range2 [7.250 - 8.250]
range3 [8.250 - ∞]
Pela discretização apresentada na Tabela 12 podem-se considerar médias iguais ou inferiores
a 7,2 como notas que compõe o grupo de baixo desempenho acadêmico (BADA); médias entre 7,3
e 8,2 compõe o grupo de médio desempenho acadêmico (MDA); médias a partir de 8,3 compõe o
grupo de bom desempenho acadêmico (BDA).
Nota-se aqui que no curso de Engenharia Civil a discretização por frequência colocou
médias meio ponto menores no grupo BDA. Em Direito o grupo BDA começa em 8,8 e em
80
Engenharia Civil médias acima de 8.3 já figuram no grupo BDA. Nas análises exploratórias feitas
notou-se ainda que esta diferença seria ainda maior, subindo de meio para um ponto, caso a
discretização por frequência considerasse também as disciplinas em que os alunos reprovaram.
A taxa de reprovações no curso de Engenharia Civil é maior que às do curso de Direito,
como apresentado na Tabela 13. Entre 2005/1 e 2014/1 no curso de Engenharia Civil houve
reprovação em 26,80% das disciplinas cursadas 10,20 pontos percentual maior que o percentual de
reprovações em disciplinas cursadas no curso de Direito. Se a fosse considerada a discretização por
frequência também sobre as disciplinas reprovados o intervalo de definição dos GDA não deixaria
nenhum aluno egresso de Engenharia Civil no grupo BADA.
Tabela 13. Percentual de reprovações entre 2005/1 e 2014/1.
Curso
Direito
Engenharia Civil
Percentual de Reprovações
16,68%
26,80%
A Figura 7 apresenta o percentual de médias de alunos em cada GDA por ano e semestre. É
possível observar uma relativa consistência no percentual de médias no grupo BDA (em verde) e
MDA (em amarelo). Já no grupo BADA (em vermelho) existe uma aparente tendência de
diminuição do percentual de médias que compõe este grupo.
A partir do estudo de discretização de frequência apresentado, foram criados quatro
atributos. O primeiro, GDA_DISCIPLINA, representado o grupo de desempenho em função da
média da disciplina, de acordo com a Tabela 11 e a Tabela 12.
O segundo atributo criado foi GDA_EGRESSO, que considera a soma das médias das
disciplinas cursadas com aprovação durante todo o curso dividido pelo número de disciplinas.
Consideram-se aqui apenas as disciplinas onde o aluno foi aprovado porque são essas que compõe o
histórico oficial do aluno, e é este atributo que se pretende classificar em função dos semestres
iniciais.
81
Figura 7. Discretização de notas por frequência – Engenharia Civil.
O terceiro e quarto atributos criados referem-se à média do aluno nas disciplinas cursadas no
primeiro, segundo, terceiro e quarto semestres. O atributo GDA_PER1234 considera a soma da
média das disciplinas cursadas com aprovação durante os quatro primeiros períodos, dividido pelo
número de disciplinas cursadas nestes. O atributo GDA_SUJA_PER1234 considera a soma da
média das disciplinas cursadas com aprovação ou reprovação durante os quatro primeiros períodos.
4.3.3 Atributos não utilizados no conjunto de dados final
Alguns dos atributos listados na Seção 4.2, ficaram de fora do conjunto de dados final a ser
analisado. Os atributos de ano e semestre que o aluno cursou a disciplina (ALU_DIS_ANO e
ALU_DIS_SEM) foram utilizados para o cálculo da faixa etária do aluno e depois disso foram
descartados da análise final por não haver intenção de uma análise temporal dos dados. Também
por não ser foco deste estudo uma análise temporal dos dados, foram descartados os atributos e ano
e semestre de ingresso do aluno (ANO_INGR e SEM_INGR).
O atributo de afastamento do aluno ALU_AFA, utilizado para geração do atributo derivado
de aluno egresso (EGRESSOCURSO) foi descartado da análise final. Na mesma linha, o atributo de
82
carga horária do professor na IES (PROF_CGH) não consta no conjunto de dados que será
analisado pois foi derivado para o atributo regime de trabalho (PROF_TRAB).
Atributos de identificação de disciplina (DIS_COD); de identificação de uma obra
bibliográfica (OBRA_ID) necessários para totalização número de livros da referência bibliográfica
locados (NROLIVROSREFLOC) também foram excluídos do conjunto de dados final.
4.3.4 Conjuntos de dados
Obtidos os atributos, foram gerados quatro conjuntos de dados (CDA), com o objetivo de
viabilizar as análises. Cada conjunto de dados se desdobrou em dois, um específico para o curso de
Direito, e um específico para o curso de Engenharia Civil.
Os dois primeiros conjuntos, CDADir (com dados do curso de Direito) e CDAEng (com
dados do curso de Engenharia) contém todos os registros desdobrados por disciplina.
Nos dois últimos conjuntos CDAEgressoDir (com dados do curso de Direito) e
CDAEgressoEng (com dados do curso de Engenharia) foi mantido apenas os registros de alunos
egresso aos respectivos cursos, com apenas uma linha por pessoa (1 linha por CPF). As colunas
deste arquivo totalizam as informações dos quatro primeiros períodos do aluno. Por exemplo, nos
arquivos CDADir e CDAEng existe o atributo de titulação do professor (PROF_TITUL) que pode
assumir os valores “G” (graduação); “P” (pós-graduação); “M” (mestrado); “D” (Doutorado), se
transformou em 4 colunas distintas com a contagem do número de professores que o aluno teve aula
em
seu
curso,
em
QTD_DIS_PROF_ESP;
cada
uma
das
titulações
QTD_DIS_PROF_MES;
citadas
(QTD_DIS_PROF_GRA;
QTD_DIS_PROF_DOU),
totalizando
a
quantidade de professores que ministraram aulas a este aluno nos quatro primeiros períodos de seu
curso.
O Quadro 12 sintetiza os conjuntos de dados CDADir e CDAEng.
Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng.
Atributo
SEXO
TIP_DEF
Tipo de
Dado
Valores Possíveis
M: Masculino;
F: Feminino;
Polinomial NI: Não Informado / Sem
Binomial
Descrição
Percentual
Faltantes
(%
missing
values)
Gênero da pessoa
0
Tipo de deficiência.
0
83
Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng.
Atributo
GRU_INGR
CURSO
RES_FIN
NEG_FIN
BOLSA
FINANCIAMENTO
DIS_TIP
DIS_PER
Tipo de
Dado
Valores Possíveis
Descrição
necessidade especial;
FIS: Deficiência Física;
Alunos que necessitam de auxílio
AUD: Deficiência
para assistir aula certamente tem
Auditiva;
valor cadastrado aqui.
VIS: Deficiência Visual;
MEN: Mental;
Se o aluno é superdotado o cadastro
DOW: Síndrome de
é feito neste campo, apesar de não
Down;
ser uma deficiência.
AUT: Autismo;
SUP: Altas
Habilidades/Superdotação
TEX: Transferência
Externa;
TIN: Transferência
Interna;
Indica por qual meio o aluno
Polinomial UNI: ProUni;
ingressou neste curso da IES
REI: Reingresso;
SEL: Processo Seletivo;
VES: Vestibular;
OUT: Outros;
Nesta análise serão analisados
DIR: Direito;
Binomial
apenas alunos dos cursos de Direito
CIV: Engenharia Civil;
e Engenharia Civil.
R: Aluno é o próprio
responsável Financeiro;
Indica quem é o responsável
Binomial
D: Aluno é dependente
financeiro pelo curso.
financeiro;
Indica se em algum momento o
S: Sim;
responsável financeiro pelo aluno
Binomial
N: Não;
recorreu a um acordo para
pagamento de débitos
S: Sim;
Indica se no semestre o aluno
Binomial
N: Não;
obteve algum tipo de bolsa.
Indica se no semestre o aluno a
S: Sim;
Binomial
algum tipo de financiamento gerido
N: Não;
pela IES
N: Normal;
E: Estágio;
Polinomial
Tipo de disciplina
T: TCC;
P: Projetuais;
Período da disciplina no currículo.
0 – 11
Polinomial
DIS_OBR
Binomial
S: Sim;
N: Não;
DIS_INTENSIVO
Binomial
S: Sim;
N: Não;
DIS_HOR_PRATICAS
DIS_HOR_TEORICAS
DIS_HOR_LAB
ALU_DIS_MAIS1_PROF
Inteiro
Inteiro
Inteiro
Binomial
0 – 300
0 – 300
0 – 81
S: Sim;
É o período em que a disciplina
deveria ter sido cursada, e não o
período em que ela foi cursada.
Período ZERO se refere a
disciplinas eletivas ou p
Indica se é uma disciplina
obrigatória ou não obrigatória
(optativa)
Indica se disciplina foi cursada em
regime intensivo
Carga horária prática da disciplina
Carga horária teórica da disciplina
Carga horária de laboratório
Indica se mais de um professor
Percentual
Faltantes
(%
missing
values)
0
0
0
0
0
0
0
0
0
0
0
0
0
0
84
Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng.
Atributo
Tipo de
Dado
Valores Possíveis
N: Não;
NROLIVROSREFLOC
GDA_DISCIPLINA
EGRESSOCURSO
ALU_DIS_APR
ALU_DIS_FALTAS
ALU_DIS_AVA
PROF_TITUL
PROF_TRAB
0 – 11
Inteiro
BDA: Bom Desempenho
Acadêmico
MDA: Médio
Polinomial
Desempenho Acadêmico
BADA: Baixo
Desempenho Acadêmico
S: Sim;
Binomial
N: Não;
S: Sim;
Binomial
N: Não;
Inteiro
>= Zero
Inteiro
> Zero
G: Graduação;
P: Pós-Graduação;
Polinomial
M: Mestrado;
D: Doutorado;
H: Horista;
Polinomial P: Parcial;
I: Integral;
SPH_ACE_PROF
Inteiro
>= Zero
SPH_NRO_MSG_PROF
Inteiro
>= Zero
SPH_QUEST
Binomial
SPH_ACE_ALU
Inteiro
>= Zero
SPH_NRO_MSG_ALU
Inteiro
>= Zero
S: Sim;
N: Não;
P: Pública;
V:Privada;
T: Tradicional;
P: Profissionalizante;
M: Magistério;
AIPER_ENS_MED_MOD Polinomial J: Educação de Jovens e
Adultos;
X: Ensino médio
concluído no exterior;
C: Aplicativos Didáticos
Computacionais;
A: Apostilas;
AIPER_REC_EST
Polinomial
L: Livros;
R: Artigos/Revistas;
P: Anotações Pessoais;
S: Sim;
AIPER_ALEMAO
Binomial
N: Não;
S: Sim;
AIPER_ESPANHOL
Binomial
N: Não;
S: Sim;
AIPER_FRANCES
Binomial
N: Não;
S: Sim;
AIPER_INGLES
Binomial
N: Não;
AIPER_ENS_MED_TIP
Binomial
Descrição
ministrou a disciplina
Número de livros da referência
bibliográfica que foram locados.
Percentual
Faltantes
(%
missing
values)
0
Desempenho acadêmico baseado na
média do aluno da disciplina em
análise.
0
Indica se o aluno é ou não egresso
do curso em análise.
0
Aprovado na disciplina
0
Número de faltas
Número de avaliações
0
0
Titulação do professor
0
Regime de trabalho do professor na
IES
0
Número de Acessos do professor à
disciplina no Ambiente Sophia
Número de mensagens enviada pelo
professor na disciplina do Ambiente
Sophia
Se na disciplina utilizou-se
questionários de avaliação
Número de Acesso do aluno à
disciplina no Ambiente Sophia
Número de mensagens enviada pelo
aluno na disciplina do Ambiente
Sophia
Tipo de escola que cursou o ensino
médio
99,66
99,66
99,66
99,78
99,78
88,36
Tipo de ensino médio
88,36
Recurso que mais utiliza para
estudar
88,36
Possui conhecimentos de Alemão
92,20
Possui conhecimentos de Espanhol
92,20
Possui conhecimentos de Francês
92,20
Possui conhecimentos de Inglês
92,20
85
Quadro 12. Atributos dos conjuntos de dados CDADir e CDAEng.
Atributo
AIPER_ITALIANO
AID_COMPLEXIDADE
AID_EXIGENCIA
AID_IMPORTANCIA
Tipo de
Dado
Valores Possíveis
S: Sim;
N: Não;
A: Alta
Polinomial E: Equivalente
B: Baixa
A: Alta
Polinomial I: Ideal
B: Baixa
A: Alta
Binomial
B: Baixa
Binomial
Descrição
Percentual
Faltantes
(%
missing
values)
Possui conhecimentos de Italiano
92,20
Complexidade da disciplina, na
visão do aluno
84,91
Nível de exigência da disciplina, na
visão do aluno
84,99
Nível de importância da disciplina,
na visão do aluno
84,40
O Quadro 13 sintetiza os conjuntos de dados CDADirEgresso e CDAEngEgresso, que
contém a informação dos 4 primeiros períodos do curso do aluno
Quadro 13. Atributos dos conjuntos de dados CDADirEgresso e CDAEngEgresso.
Atributo
Tipo de
Dado
Valores Possíveis
Descrição
M: Masculino;
Gênero da pessoa
F: Feminino;
NI: Não Informado / Sem
necessidade especial;
Tipo de deficiência.
FIS: Deficiência Física;
AUD: Deficiência
Alunos que necessitam de auxílio
Auditiva;
para assistir aula certamente tem
VIS: Deficiência Visual;
TIP_DEF
Polinomial
valor cadastrado aqui.
MEN: Mental;
DOW: Síndrome de
Se o aluno é superdotado o cadastro
Down;
é feito neste campo, apesar de não
AUT: Autismo;
ser uma deficiência.
SUP: Altas
Habilidades/Superdotação
Nro. de professores Doutores que
PROF_TITUL_DR4
Inteiro
>= Zero
ministraram aulas ao egresso
Inteiro
Nro. de professores Mestres que
PROF_TITUL_MS4
>= Zero
ministraram aulas ao egresso
Inteiro
Nro. de professores especialistas
PROF_TITUL_ESP4
>= Zero
que ministraram aulas ao egresso
Inteiro
Nro. de professores apenas com
PROF_TITUL_GRA4
>= Zero
graduação que ministraram aulas ao
egresso
Inteiro
Nro. de professores horistas que
PROF_TRAB_HORISTA4
>= Zero
ministraram aulas ao egresso
Inteiro
Nro. de professores com carga
horária parcial que ministraram
PROF_TRAB_PARCIAL4
>= Zero
aulas ao egresso (carga horária entre
12 e 39 horas semanais)
Inteiro
Nro. de professores com carga
PROF_TRAB_INTEGRA
horária integral que ministraram
>= Zero
L4
aulas ao egresso (carga horária
maior ou igual a 40 horas semanais)
DIS_INTENSIVO_QTD4
Inteiro
>= Zero
Quantidade de disciplinas cursadas
SEXO
Binomial
Percentual
Faltantes
(%
missing
values)
0
0
0
0
0
0
0
0
0
0
86
Quadro 13. Atributos dos conjuntos de dados CDADirEgresso e CDAEngEgresso.
Atributo
ALU_DIS_APR_QTD4
ALU_DIS_APR_QTD_RE
PROVADO4
DIS_OBR_QTD_OBRIG
ATORIA4
DIS_OBR_QTD_NAOOB
RIGATORIA4
ALU_DIS_FALTAS4
GDA_PER4
GDA_SUJA_PER4
GDA_EGRESSO
Tipo de
Dado
Inteiro
Inteiro
Inteiro
Inteiro
Valores Possíveis
>= Zero
>= Zero
>= Zero
>= Zero
Inteiro
>= Zero
BDA: Bom Desempenho
Acadêmico
MDA: Médio
Polinomial
Desempenho Acadêmico
BADA: Baixo
Desempenho Acadêmico
BDA: Bom Desempenho
Acadêmico
MDA: Médio
Polinomial
Desempenho Acadêmico
BADA: Baixo
Desempenho Acadêmico
BDA: Bom Desempenho
Acadêmico
MDA: Médio
Polinomial
Desempenho Acadêmico
BADA: Baixo
Desempenho Acadêmico
Descrição
no regime intensivo.
Quantidade de disciplinas em que o
aluno foi aprovado.
Quantidade de disciplinas em que o
aluno foi reprovado.
Quantidade de disciplinas
obrigatórias cursadas pelo egresso.
Quantidade de disciplinas não
obrigatórias cursadas pelo egresso.
Número de faltas do egresso.
Percentual
Faltantes
(%
missing
values)
0
0
0
0
0
Desempenho acadêmico baseado na
média do aluno nos quatro
primeiros períodos. Considera
apenas as disciplinas aprovadas.
0
Desempenho acadêmico baseado na
média “suja” do aluno nos quatro
primeiros períodos. Considera
disciplinas aprovadas e não
aprovadas.
0
Desempenho acadêmico baseado na
média de todas as disciplinas do
aluno durante o curso.
Este é o atributo que pretende-se
predizer.
0
4.4 MODELAGEM
Esta seção corresponde à fase “avaliação” da metodologia CRISP-DM, conforme
apresentado na Figura 5, tem como objetivo selecionar, configurar e utilizar os algoritmos de
mineração de dados.
4.4.1 Seleção dos algoritmos para conjuntos de dados CDADir e CDAEng.
A ferramenta RapidMiner, selecionada no estudo descrito na Seção 2.4, possui nativamente
401 operadores que viabilizam o processo de mineração, desde a extração de dados até a
apresentação dos resultados, destes 118 estão relacionados à etapa de modelagem, dos quais 49,
aplicáveis a tarefas de Clusterização, Associação e Classificação (relacionados no Apêndice B) os
demais não se referem a estas tarefas, sendo aplicáveis a análise estatística (ANOVA), similaridade
de dados (Cross Distances), dentre outros.
87
Verificando os dados analisados, descritos no Quadro 12, tem-se, atributos binomiais,
polinomiais, e numéricos. Desta forma, foram selecionados algoritmos que possam lidar com estes
tipos de dados.
Buscou-se obter regras que levam alunos a determinado GDA (rótulo), assim serão
selecionados algoritmos que gerem regras ou árvores de decisão como saída, sendo descartados
algoritmos que gerem modelos de redes neurais ou fórmulas de regressão. Também serão
descartados algoritmos que não aceitem um rótulo de entrada.
O Quadro 14 apresenta os algoritmos relacionados no Apêndice B, que atendem aos
requisitos de entrada: atributos binomiais; polinomiais e numéricos. Também os requisitos de saída:
regras de associação (incluídos também os que geram árvores de decisão que podem ser transcritas
em formato de regras).
Quadro 14. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng
Algoritmo
Decision Tree
Random Tree
Random Clustering
K-Means Kernel
DBSCan
K-Metoids
Tarefa Permitidas
Classificação
Associação
Classificação
Associação
Clusterização
Clusterização
Clusterização
Clusterização
Lida com Dados
Faltantes
Permite
Rótulo
Sim
Sim
Árvore de decisão
Sim
Sim
Árvore de decisão
Sim
Não
Não
Não
Não
Não
Não
Não
CDA Clusterizado
CDA Clusterizado
CDA Clusterizado
CDA Clusterizado
Saída
Para ampliar a abrangência da análise, os atributos dos conjuntos de dados CDADir e
CDAEng foram discretizados e os atributos do Quadro 12 que contém dados faltantes foram
retirados da análise, assim, tornou-se viável a aplicação dos algoritmos do Quadro 15.
Quadro 15. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng discretizado, sem
valores faltantes
Algoritmo
CHAID
Decision Stump
Decision Tree (Weight-Based)
ID3
Tarefa Permitidas
Classificação
Associação
Classificação
Associação
Classificação
Associação
Classificação
Lida com Dados
Faltantes
Permite
Rótulo
Não
Sim
Árvore de decisão
Não
Sim
Árvore de decisão
Não
Sim
Árvore de decisão
Não
Sim
Árvore de decisão
Saída
88
Quadro 15. Algoritmos que cumprem os pré-requisitos para CDADir e CDAEng discretizado, sem
valores faltantes
Algoritmo
Rule Induction
Single Rule Induction (Single
Attribute)
Tarefa Permitidas
Associação
Classificação
Associação
Classificação
Associação
Lida com Dados
Faltantes
Permite
Rótulo
Não
Sim
Regras
Não
Sim
Regras
Saída
4.4.2 Seleção dos algoritmos para conjunto de dados CDADirEgresso e
CDAEngEgresso
Verificando os dados que serão analisados, descritos no Quadro 13, tem-se sob análise,
atributos binomiais, polinomiais, e numéricos, assim serão selecionados algoritmos que possam
lidar com estes tipos de dados, sem apresentar dados faltantes, já que nos conjuntos de dados
CDADirEgresso e CDAEngEgresso os atributos que continham dados faltantes foram eliminados.
À exemplo da seção 4.4.1 pretende-se obter regras que levam alunos a determinado GDA
(rótulo), assim serão selecionados algoritmos que gerem regras ou árvores de decisão como saída,
sendo descartados algoritmos que gerem modelos de redes neurais ou fórmulas de regressão.
Também serão descartados algoritmos que não aceitem um rótulo de entrada.
O Quadro 16 apresenta os algoritmos relacionados no Apêndice B, que atendem aos
requisitos de entrada: atributos binomiais; polinomiais e numéricos. Também os requisitos de saída:
regras de associação (incluídos também os que geram árvores de decisão que podem ser transcritas
em formato de regras).
Quadro 16. Algoritmos que cumprem os pré-requisitos para CDADirEgresso e CDAEngEgresso.
Algoritmo
Decision Tree
Random Tree
Random Forest
Tarefa Permitidas
Classificação
Associação
Classificação
Associação
Classificação
Associação
Lida com Dados
Faltantes
Permite
Rótulo
Sim
Sim
Árvore de decisão
Sim
Sim
Árvore de decisão
Não
Sim
Árvore de decisão
Saída
89
Para incrementar a análise, os atributos dos conjuntos de dados CDADirEgresso e
CDAEngEgresso foram discretizados e os atributos do Quadro 13 que contém dados faltantes foram
retirados da análise, assim, tornou-se viável a aplicação dos algoritmos do Quadro 17.
Quadro 17. Algoritmos que cumprem os pré-requisitos para CDADirEgresso e CDAEngEgresso
discretizado, sem valores faltantes.
Algoritmo
CHAID
Decision Stump
Decision Tree (Weight-Based)
ID3
Rule Induction
Single Rule Induction (Single
Attribute)
Tarefa Permitidas
Classificação
Associação
Classificação
Associação
Classificação
Associação
Classificação
Associação
Classificação
Associação
Classificação
Associação
Lida com Dados
Faltantes
Permite
Rótulo
Não
Sim
Árvore de decisão
Não
Sim
Árvore de decisão
Não
Sim
Árvore de decisão
Não
Sim
Árvore de decisão
Não
Sim
Regras
Não
Sim
Regras
Saída
4.5 PLANO DE AVALIAÇÃO
Esta seção corresponde à fase “avaliação” da metodologia CRISP-DM, conforme
apresentado na Figura 5, tem como objetivo avaliar o conhecimento gerado e melhora-lo através de
iterações com as fases anteriores do processo.
A avalição do processo de KDD desenvolvido neste trabalho vai ao encontro dos objetivos
levantados na fase de “Entendimento do Negócio”, descritos na Seção 4.1.
A resposta da pergunta de pesquisa P1 é alcançada através das regras de associação que
permitem mensurar sua qualidade através de indicadores como suporte e confiança, conforme
ilustrado na Figura 8. Como primeira etapa na busca da pesquisa P1
A utilização de regras e associação com a qualidade mensurada pelo suporte e confiança foi
utilizado nos trabalhos de Zhang (2010) Carmona et al. (2011),
Samaranayake e Caldera (2012),
além de ser descrito na literatura em trabalhos como Witten, Frank e Hall (2011).
90
Figura 8. Avaliação de P1; OE1.
OE1: Definir três grupos de desempenho acadêmico, classificando alunos em três
grupos de desempenho acadêmico: Bom Desempenho Acadêmico; Médio
Desempenho Acadêmico; Baixo Desempenho Acadêmico.
P1: Quais são os aspectos do ambiente de ensino-aprendizagem que levam
alunos da IES analisada a concluírem o curso em um determinado GDA?
Dados
Selecionados
para análise
Gerar
Regras de
Associação
Suporte
Confiança
Aspectos do grupo
BDA
Aspectos do grupo
MDA
BDA
Segmentação
em GDA
MDA
BADA
Aspectos do grupo
BADA
A resposta da pergunta P2, é alcançada através de regras de associação como na pergunta
P1, entretanto, para viabilizar a comparação entre cursos as regras de associação serão geradas a
partir de dois subconjuntos de dados, um para cada curso. A comparação será feita através de
análise, regra a regra, dos indicadores de suporte e da confiança. As regras com os melhores suporte
e confiança de cada curso viabilizaram a resposta da pergunta P2. Através da resposta da pergunta
P2, será possível alcançar o objetivo estratégico OE1 e assim validar a hipótese H1. A Figura 9
ilustra a avaliação descrita.
91
Figura 9. Avaliação de P2; OE2; H1.
H1: Os fatores do ambiente de ensino-aprendizagem que levam um aluno de Direito a concluir o curso em
determinado GDA não são os mesmos que levam um aluno de Engenharia Civil a figurar no mesmo GDA.
OE2: Identificar as características do ambiente de ensino-aprendizagem que ocorrem com maior
frequência em cada grupo de desempenho acadêmico, documentando eventuais diferenças entre os cursos
de Direito e Engenharia Civil.
P2: Os fatores do ambiente de ensino-aprendizagem que podem levar um aluno de Direito a concluir o
curso em um determinado GDA são os mesmos de um aluno de Engenharia Civil?
Aspectos do grupo
BDA
Curso de Direito
Aspectos do grupo
MDA
Curso de Direito
MDA
BADA
Dados
Selecionados
para análise
Curso de
Engenharia Civil
Gerar
Regras de
Associação
Suporte
Confiança
BDA
Segmentação
em GDA
MDA
BADA
Aspectos do grupo
BADA
Curso de Direito
Aspectos do grupo
BADA
Curso de Engenharia
Civil
Aspectos do grupo
MDA
Curso de Engenharia
Civil
Comparação das
melhores regras
BDA
Segmentação
em GDA
Comparação das melhores regras
Gerar
Regras de
Associação
Suporte
Confiança
Comparação das melhores regras
Dados
Selecionados
para análise
Curso de Direito
Aspectos do grupo
BDA
Curso de Engenharia
Civil
Para responder à pergunta P3, os dados do primeiro, segundo, terceiro e quarto semestres
dos alunos foram analisados, utilizando os algoritmos descritos nos Quadro 16 e Quadro 17. A
análise foi feita sobre 80% destes dados (dados de treinamento). Os modelos de classificação
resultantes (que será representado no formato de regras de associação) foram aplicados a 20% dos
dados restantes (dados de testes) para classifica-los em um GDA. O resultado da classificação dos
92
20% dos dados foi comparado através de matriz de confusão ao GDA real (conhecido por se
tratarem de alunos egressos em analise obtida no OE1) viabilizando o cálculo da acurácia e da
estatística Kappa. Uma acurácia igual ou superior à 60% trará uma resposta positiva à pergunta P3.
A resposta positiva também pode vir de uma estatística Kappa maior ou igual a 0.41, considerado
um nível de aceitação moderado por Landis e Koch (1977), conforme Tabela 4.
Figura 10. Avaliação de P3; OE3; OE4; H2.
H2: É possível identificar o GDA de um aluno ao final de seu curso, com acurácia maior que 50%, baseado na
análise dos quatro primeiros semestres do curso.
OE3: Desenvolver modelo de predição do Grupo de Desempenho Acadêmico, baseado na análise dos
semestres iniciais, utilizando técnicas de mineração de dados.
OE4: Validar eficiência do modelo de predição do grupo de desempenho acadêmico dos alunos através de
acurácia e estatística Kappa da classificação.
P3: Com os dados disponíveis para análise pela IES, é possível criar um modelo que permita predizer o
GDA que um aluno estará inserido ao final do curso analisando apenas os semestres iniciais?
Dados sob Análise
Alunos egressos do curso de Direito e Engenharia Civil
GDA ao final do curso conhecido
Dados dos 1º 2º 3º 4º
Semestres
20% dos dados
(Amostragem Extratificada)
Validação do modelo
de classificação
(Matriz de Confusão
Acurácia
80% dos dados
Aplicação do Modelo
(Amostragem Extratificada)
(Testes)
Algoritmos de Classificação
Modelo de Classificação
Dados Classificados
(Treinamento)
(Árvore de Decisão)
(Previsão do GDA ao final do curso)
Kappa)
93
5 RESULTADOS
Este capítulo apresenta uma síntese dos melhores resultados da aplicação dos algoritmos
apresentados nas Seções 4.4.1 e 4.4.2 sobre os conjuntos de dados descritos na Seção 4.3.4 .
5.1.1 Resultados da análise dos conjuntos de dados CDADir e CDAEng.
Nesta sessão são apresentados os resultados mais relevantes da tarefa de Modelagem, da
Metodologia CRISP-DM, apresentada na Figura 5, para os conjuntos de dados CDADir e CDAEng.
Os resultados apresentados nesta seção estão alinhados ao OE2: “Identificar as características do
ambiente de ensino-aprendizagem que ocorrem com maior frequência em cada grupo de
desempenho acadêmico, documentando eventuais diferenças entre os cursos de Direito e
Engenharia Civil.”.
5.1.1.1 Percentual de GDA por curso
Guiado pelo método de priorização do algoritmo com resultados mais simples, recomendado
por Witten, Frank e Hall (2011), é apresentada a análise das regras geradas pelo algoritmo “Single
Rule Induction (Single Attribute)”, que apresenta regras a partir de um único atributo, relacionadas
na Tabela 14. Nota-se que, tanto para o curso de Direito, quanto para o curso de Engenharia Civil,
existe uma tendência de que as notas estejam no grupo BADA, exceto para disciplinas TCC e
Estágio.
Vale ressaltar que regras similares às apresentadas na Tabela 14 foram geradas pelo
algoritmo Decision Stump, diferenciando-se apenas pela ordem em que são apresentadas.
A tendência identificada pelos algoritmos “Single Rule Induction (Single Attribute)” e
“Decision Stump”, apesar de apenas 50,90% de confiança no curso de direito e 56,45% no curso de
Engenharia Civil, corrobora com o maior número de notas de disciplinas inseridas nos grupos
BADA apresentados semestre a semestre para o curso de Direito (Figura 6) e para o curso de
Engenharia Civil (Figura 7).
94
Tabela 14. Regras do Algoritmo Single Rule Induction (Single Attribute)
Curso
Suporte
Confiança
Direito
Regra
if DIS_TIP = N then BADA
92,46%
50,90%
Direito
if DIS_TIP = E then BDA
5,31%
45,02%
Direito
if DIS_TIP = T then BDA
2,23%
61,48%
Direito
if DIS_TIP = P then MDA
0,00%
50,00%
Eng. Civil
if DIS_TIP = N then BADA
98,22%
56,45%
Eng. Civil
if DIS_TIP = T then BDA
0,89%
91,48%
Eng. Civil
if DIS_TIP = E then BDA
0,89%
89,56%
Eng. Civil
if DIS_TIP = P then BADA
0,01%
66,67%
Essa predominância de notas no grupo BADA encontradas nos conjuntos de dados
analisados é claramente notada na Figura 11.
Figura 11. Percentual dos GDA por Curso.
Ainda com relação às regras geras pelo algoritmo “Single Rule Induction (Single Attribute)”,
listadas na Tabela 14 nota-se que as notas de disciplinas do tipo TCC tendem a ficar no grupo BDA
sendo esta característica mais forte na Engenharia Civil (confiança de 91,48%) que no Direito
(61,48%), ilustrado na Figura 12.
95
Figura 12. Percentual dos GDA para Disciplinas TCC, por curso.
Apenas 2,68% das disciplinas de TCC cursadas na Engenharia Civil registraram notas do
grupo BADA, já no Direito 25,34% das disciplinas cursadas figuraram no grupo de notas mais
baixas.
5.1.1.2 Impacto do número de faltas no GDA das notas
Pela a análise das regras geradas pelos algoritmos “Decision Tree”, “CHAID”, “Rule
Induction”, “ID3” e “Decision Tree (Weight-Based)” foi possível observar que o atributo de número
de faltas dos alunos (ALU_DIS_FALTAS) ocorria em regras com confiança acima de 60% nas
análises do conjunto de dados referente ao curso de Direito, podendo-se destacar as regras da
Tabela 15. Na mesma tabela apresenta-se também regras geradas sobre o conjunto de dados do
curso de Engenharia Civil.
Tabela 15. Exemplos de regra com ALU_DIS_FALTAS em destaque
Curso
Algoritmo
1
Direito
Decision
Tree WB
2
Direito
Decision
Tree WB
Regra
if DIS_TIP = N and
DIS_HOR_TEORICAS = range1 [-∞
- 75] and ALU_DIS_FALTAS =
range2 [4.500 - ∞] and
DIS_INTENSIVO = N and TIP_DEF
= NI and SEXO = F then BADA
if DIS_TIP = N and
DIS_HOR_TEORICAS = range1 [-∞
- 75] and ALU_DIS_FALTAS =
range1 [-∞ - 4.500] and
Suporte Confiança
22,48%
62,50%
1,44%
67,59%
96
Tabela 15. Exemplos de regra com ALU_DIS_FALTAS em destaque
DIS_OBR = N and
DIS_HOR_PRATICAS = range1 [-∞
- 7.500] and PROF_TITUL = D
and DIS_HOR_LAB = range1 [-∞ 2.500] then BDA
3
Direito
4
Direito
5
Direito
6
Direito
7
Eng. Civil
8
Eng. Civil
9
Eng. Civil
10
Eng. Civil
Rule
Induction
(Critério
Acurácia)
Rule
Induction
(Critério
Acurácia)
Rule
Induction
(Critério
Acurácia)
CHAID
CHAID
CHAID
Rule
Induction
(Critério
Acurácia)
Rule
Induction
(Critério
Acurácia)
if ALU_DIS_FALTAS = range2
[4.500 - ∞] and DIS_TIP = T
then BADA
0,12%
98,60%
if ALU_DIS_FALTAS = range2
[4.500 - ∞] and PROF_TITUL = D
then BADA
3,10%
76,03%
if ALU_DIS_FALTAS = range2
[4.500 - ∞] and GRU_INGR = REI
then BADA
4,75%
71,51%
12,50%
70,28
12,03%
79,21%
8,12%
46,19%
3,15%
58,77%
0,17%
45,57%
if DIS_HOR_LAB = range1 [-∞ 2.500] and DIS_HOR_PRATICAS =
range1 [-∞ - 7.500] and
DIS_HOR_TEORICAS = range1 [-∞
- 75] and ALU_DIS_FALTAS =
range2 [4.500 - ∞] and
ALU_DIS_AVA = range1 [-∞ 6.500] and SEXO = M then BADA
if DIS_HOR_LAB = range1 [-∞ 2.500] and DIS_HOR_PRATICAS =
range2 [22.500 - ∞] and
DIS_HOR_TEORICAS = range1 [-∞
- 35] and ALU_DIS_FALTAS =
range2 [4.500 - ∞] then BADA
if DIS_HOR_LAB = range1 [-∞ 2.500] and DIS_HOR_PRATICAS =
range1 [-∞ - 22.500] and
DIS_HOR_TEORICAS = range1 [-∞
- 35] and ALU_DIS_FALTAS =
range1 [-∞ - 4.500] and
ALU_DIS_AVA = range1 [-∞ 6.500] then BDA
if ALU_DIS_FALTAS = range2
[4.500 - ∞] and
DIS_HOR_TEORICAS = range2 [35
- ∞] then BADA
if ALU_DIS_FALTAS = range2
[4.500 - ∞] and RES_FIN = D
then BDA
97
Nota-se pelas regras apresentadas na Tabela 15 que o atributo ALU_DIS_FALTAS, quando
maior que 4, tende a apresentar como conclusão da regra o grupo BADA. Pode-se destacar também
que, quando ALU_DIS_FALTAS é menor ou igual a 4, a conclusão tende a ser BDA. Existem
regras que indicam o oposto como a regra 4 da Tabela 15 “if ALU_DIS_FALTAS = range2
[4.500 - ∞] and RES_FIN = D then BDA” com confiança de apenas 46,19%. Mesmo com
exceções como esta, foi realizada uma análise do impacto do número de faltas sobre a nota do
aluno.
A Figura 13 apresenta o percentual de notas de disciplinas figurando nos grupos BDA e
BADA, em função do número de falta dos na disciplina.
Figura 13. Percentual do GDA em função do número de faltas.
Ao analisar a Figura 13 é possível perceber que, dentre as disciplinas cujos alunos tiveram
quatro faltas, 25,63% e 24,81% figuraram no grupo BDA, para os cursos de Direito e Engenharia
Civil, respectivamente. O percentual de disciplinas cujas notas figuraram no grupo BDA cai para
11,86% no curso de Direito e 13,24% no curso de Engenharia Civil, quando considerados apenas as
disciplinas cujos alunos tiveram 10 faltas, e o percentual de notas do grupo BDA tende a cair,
conforme aumenta o número de faltas.
Quando analisado os grupos de desempenho acadêmico de disciplinas que figuraram no
grupo BADA nota-se o comportamento inverso, aumentando o percentual de notas BADA à medida
que o número de faltas sobe. No curso de Direito, o percentual de notas do grupo BADA, para
98
alunos com 4 faltas é de 43,25%, subindo para 60,91% quando o aluno teve 10 faltas. Na
Engenharia Civil, o percentual sobe de 49,08% com 4 faltas para 68,72% com 10 faltas.
Pelas regras exemplificadas na Tabela 15, parece existir uma tendência de que o aluno
obtenha nota no grupo BDA quando ALU_DIS_FALTAS é menor ou igual a 4, e nota no grupo
BADA quando ALU_DIS_FALTAS é maior que quatro, fato que pode ser melhor visualizado na
Tabela 16.
Tabela 16. Percentual das notas em função do curso e número de faltas
BDA
MDA
Direito
24,55%
27,19%
População
Engenharia Civil
22,48%
22,03%
Amostra
com até 4
Faltas
Amostra
com mais
de 4 Faltas
BADA
48,26%
55,49%
Direito
33,23%
30,48%
36,29%
Engenharia Civil
30,23%
25,63%
44,05%
Direito
11,94%
22,41%
65,65%
Engenharia Civil
11,58%
17,04%
71,37%
Por outro lado, a regra 3 da Tabela 15 “if ALU_DIS_FALTAS = range2 [4.500 - ∞]
and DIS_TIP = T then BADA”, referente ao curso de Direito, chama a atenção pela confiança
de 98,60% e pela conclusão BADA, especialmente tendo sido identificado na Tabela 14, que no
curso de Direito disciplinas do tipo TCC (DIS_TIP = T) tendem a ficar no grupo BDA, com
confiança de 61,48%. Na Figura 14, é apresentado o percentual de GDA para disciplinas TCC,
considerando apenas disciplinas cujos alunos tiveram mais de quatro faltas.
99
Figura 14. Percentual dos GDA para Disciplinas TCC em que o aluno teve mais de 4 faltas.
Dentre as disciplinas de TCC, o percentual de alunos que tiveram mais de quatro faltas é de
apenas 5,57% no curso de Direito. Na Engenharia Civil 0,48% (apenas duas disciplinas) foram
cursadas por alunos que tiveram mais de quatro faltas registradas. Apesar do pequeno percentual,
quatro faltas ou mais coloca a nota do aluno, em praticamente 100% das vezes, no grupo de notas
BADA.
5.1.1.3 Impacto do tipo de ingresso no GDA das disciplinas
O algoritmo “Decision Tree”, com critério acurácia, executado sobre o conjunto de dados do
curso de Direito gerou, dentre outras, a regra “if GRU_INGR = REI and TIP_DEF = NI
and
DIS_TIP = N then BADA”, com confiança de 61,04% e suporte de 9,27%, motivou uma análise
mais detalhada do atributo grupo de ingresso (GRU_ING).
Conforme apresentado na Figura 11 o curso de Direito tem 48,26% das notas no grupo
BADA, entretanto, pela regra citada, disciplinas cursadas por alunos reingresso, sem deficiência
física informada, cursando disciplinas do tipo normal, figurariam 61,04% no grupo BADA 12,78
pontos percentuais a mais. A Tabela 17 detalha o percentual de notas que figuram em cada GDA,
em função do ingresso do aluno.
100
Tabela 17. Percentual das notas em função do curso e ingresso.
Direito
BDA
MDA
BADA
BDA
Outros
Processo Seletivo
ProUni
Reingresso
Transferência Externa
Transferência Interna
Vestibular
25,66%
26,04%
33,31%
18,33%
22,96%
23,04%
24,40%
28,16%
26,73%
30,96%
24,08%
27,55%
27,37%
27,38%
46,19%
47,23%
35,72%
57,59%
49,49%
49,59%
48,22%
28,03%
22,30%
32,75%
14,31%
19,55%
18,66%
22,43%
Engenharia Civil
MDA
BADA
25,66%
21,08%
25,33%
18,63%
20,70%
19,63%
22,53%
46,30%
56,62%
41,92%
67,05%
59,74%
61,71%
55,04%
Analisando a Tabela 17, curso de Direito, nota-se que o grupo BDA varia entre 23,04% e
26,04%, muito próximo da distribuição do curso de Direito apresentada na Figura 11, de 24,55%,
exceto para os ingressos ProUni e Reingresso. No ingresso ProUni existem uma tendência de notas
do grupo BDA 8,76 pontos percentuais maior que na análise da distribuição natural do curso. Já no
Reingresso, o percentual de notas do grupo BDA é de 18,33%, menor que a distribuição
apresentada na Figura 11 em 6,22 pontos.
Ainda analisando os dados da Tabela 17, mas desta vez nas colunas BDA do curso de
Engenharia Civil, nota-se que o percentual do ProUni também é maior que a distribuição
apresentada na Figura 11, que é de 22,48%, uma diferença de 10,27 pontos percentuais.
Nota-se também que os alunos bolsistas do PROUNI tendem a ter um desempenho similar
nos cursos de Direito e Engenharia Civil dentro do grupo BDA, com participação de 33,31% e
32,75%, respectivamente . Entretanto, quando comparados no mesmo curso, em relação aos alunos
provenientes de Processo Seletivo e Vestibular, a diferença de desempenho (BDA) é maior na
Engenharia Civil.
5.1.1.4 Impacto da Titulação do Professor no GDA
O algoritmo “Rule Induction”, com critério ganho de informação, executado sobre o
conjunto de dados do curso de Direito gerou, dentre outras, a regra “if DIS_OBR = N and
PROF_TITUL = D then BDA”, com confiança de 62,18% e suporte de 1,21%, motivou uma
análise mais detalhada do atributo de titulação do professor (PROF_TITUL).
101
Na Tabela 18 pode-se notar que 22,48% das notas de disciplinas do tipo normal tendem a
ficar no grupo BDA no curso de Direito (em que a regra foi gerada), e na Engenharia Civil o
percentual é semelhante 21,25% das notas de disciplinas do tipo normal ficam no grupo BDA, o que
faz com que a regra que diz que disciplinas normais, ministradas por doutores tendem ao grupo
BDA com confiança de 60,18% torne-se bastante interessante.
Tabela 18. Percentual dos GDA em função do Tipo de Disciplina.
Curso
Tipo da Disciplina
BADA
Especial
12,02%
Direito
Normal
50,90%
TCC
25,34%
Especial
2,18%
Engenharia Civil
Normal
56,45%
TCC
2,68%
MDA
42,97%
26,62%
13,18%
8,25%
22,30%
5,84%
BDA
45,02%
22,48%
61,48%
89,56%
21,25%
91,48%
Para investigar melhor o impacto da titulação do professor sobre a nota dos alunos foi
elaborado o gráfico apresentado na Figura 15, que apresenta o percentual de disciplinas em cada
GDA por titulação de professor no curso de Direito. Na Figura 16, são apresentados os mesmos
dados para o curso de Engenharia Civil.
Figura 15. Grupo de desempenho por titulação, curso de Direito.
102
Pela análise da Figura 15 pode-se perceber que no curso de Direito os 32,85% de notas no
grupo BDA em disciplinas ministradas por professores doutores é 8,30 pontos percentuais maior
que os 24,55% apresentado na Figura 11.
Figura 16. Grupo de desempenho por titulação, curso de Engenharia Civil.
Pela análise da Figura 16 pode-se perceber que no curso de Engenharia Civil os 14,75%
pontos percentuais de notas no grupo BDA em disciplinas ministradas por professores doutores é
7,73 pontos percentuais menor que os 24,55% apresentado na Figura 11. Na Engenharia Civil
destaca-se também as notas geradas por professores Especialistas, destas 32,31% figuraram no
grupo BDA uma variação de 9,83% quando comparada a probabilidade de 22,48% de notas no
grupo BDA da Engenharia Civil.
Aqui vale ressaltar duas informações importantes:
(a)
A primeira é muitas vezes o professor tem o título de Especialista ou Mestre,
mas demora em apresentá-lo junto ao departamento de RH, podendo assim
causar distorções não mensuráveis nos gráficos.
(b)
Existiram apenas 0,28% de disciplinas ministradas por professores apenas
com título de Bacharel em 2014 nos cursos analisados.
103
Outra regra interessante que inclui a titulação do professor, gerada também pelo algoritmo
“Rule Induction”, mas com critério de Acurácia, no curso de Direito é a regra “if
ALU_DIS_FALTAS = range2 [4.500 - ∞] and PROF_TITUL = D then BADA”, com
76,03% de confiança, corroborando que alunos que faltam tentem a nota BADA.
5.1.1.5 Qualidade dos modelos gerados nas análises de CDADir e CDAEng
Os resultados descritos nas Seções 5.1.1.1 à 5.1.1.3 descrevem investigações motivadas
pelas melhores regras, em termos de suporte e confiança, encontradas pelos algoritmos de
mineração apresentados nos Quadro 14 e Quadro 15. Muitas regras geradas na aplicação dos
algoritmos foram descartadas por sua baixa confiança ou pelo baixo suporte. Na Tabela 19 são
apresentadas algumas regras, e a justificativa de não citá-las nos resultados deste trabalho.
Tabela 19. Exemplos de regras descartadas.
CDA
Algoritmo
Critério
Relevância
de Atributo
Regra
if ALU_DIS_FALTAS ≤ 8.500
and DIS_TIP = N and
DIS_HOR_TEORICAS ≤ 52.500
and PROF_TITUL = E and
TIP_DEF = VIS and
ALU_DIS_MAIS1_PROF = N and
GRU_INGR = UNI then BDA
(0 / 2 / 1)
if DIS_HOR_LAB = range1 [-∞
- 2.500] and
DIS_HOR_PRATICAS = range2
[7.500 - ∞] and
DIS_HOR_TEORICAS = range1
[-∞ - 75] and
ALU_DIS_FALTAS = range1 [-∞
- 4.500] and ALU_DIS_AVA =
range1 [-∞ - 6.500] and
SEXO = M and TIP_DEF = AUD
then BDA
(0 / 2 / 0)
if DIS_HOR_LAB = range1 [-∞
- 2.500] and
DIS_HOR_PRATICAS = range1
[-∞ - 7.500] and
DIS_HOR_TEORICAS = range1
[-∞ - 75] and
ALU_DIS_FALTAS = range1 [-∞
- 4.500] and ALU_DIS_AVA =
range1 [-∞ - 6.500] and
SEXO = F and TIP_DEF = NI
then BDA
(13536 / 13682 /
10862)
Sup.
%
Conf.
%
Motivo do Descarte
1,7x
10-3
66,67
Baixo suporte, apenas 11 alunos com
deficiência visual em CDADir. Das
disciplinas cursadas por eles 25,83%
estão no grupo BDA e 43,38% no
BADA, muito próximo da distribuição
apresentada na Figura 11, quando a
deficiência não é considerada.
0,2x
10-3
100
Apesar da confiança de 100%, esta
regra classifica apenas 2 registros do
CDA sobre o qual foi gerada.
22,0
2
35,93
Esta regra tem um bom suporte, mas a
confiança da mesma é muito baixa,
apenas 35,93%, ou seja, ela erra em
64,07% dos registros a que se aplica.
Dir
Decision Tree
Coeficiente
de Gini
Dir
CHAID
QuiQuadrado
Dir
CHAID
QuiQuadrado
Dir
Decision
Stump
Taxa de
Ganho de
Informação
if DIS_TIP = P then MDA
(1 / 0 / 1)
0,00
50
Acurácia
if DIS_OBR = S and
AIPER_ENS_MED_MOD = ? and
SPH_QUEST = ? and GRU_INGR
= TIN and TIP_DEF = NI and
DIS_TIP = N then BADA
(2298 / 643 / 728)
7,92
62,63
Eng
Decision Tree
Além do baixo suporte, aplicando-se a
apenas 2 registros, a confiança é de
apenas 50%.
Se a regra fosse sintetizada à
GRU_INGR = TIN (Transferência
Interna) a acurácia da mesma seria de
61,67%, conforme apresentada no
Tabela 17, e verificando manualmente o
CDA, verifica-se que o suporte de tal
regra seria de 8,03%.
104
Tabela 19. Exemplos de regras descartadas.
Eng
ID3
Taxa de
Ganho de
Informação
if DIS_HOR_LAB = range1 [-∞
- 2.500] and
DIS_HOR_PRATICAS = range1
[-∞ - 22.500] and
DIS_HOR_TEORICAS = range1
[-∞ - 35] and
ALU_DIS_FALTAS = range1 [-∞
- 4.500] and ALU_DIS_AVA =
range1 [-∞ - 6.500] and
SEXO = M and TIP_DEF = NI
and BOLSA = N and
FINANCIAMENTO = N and
PROF_TITUL = M and
ALU_DIS_MAIS1_PROF = S then
BDA
(12 / 16 / 12)
0,09
40
Baixo suporte, baixa confiança.
A qualidade dos modelos gerados foi mensurada pela Acurácia de sua aplicação e pela
Estatística Kappa, e é relacionado na Tabela 1.
Tabela 20. Acurácia e Kappa dos modelos.
Taxa de Ganho de Informação
Ganho de Informação
Acurácia
Coeficiente de Gini
Qui-Quadrado
Taxa de Ganho de Informação
Taxa de Ganho de Informação
Acurácia do
Modelo
48,26
48,26
52,85
54,35
50,63
50,82
53,48
Estatística
Kappa
0,000
0,000
0,079
0,212
0,164
0,081
0,194
Taxa de Ganho de Informação
52,59
0,160
Taxa de Ganho de Informação
Acurácia
Information Gain
Não Documentado
48,08
53,24
53,06
50,82
0,144
0,174
0,160
0,081
Ganho de Informação
Taxa de Ganho de Informação
Coeficiente de Gini
Acurácia
Qui-Quadrado
Taxa de Ganho de Informação
Taxa de Ganho de Informação
Qui-Quadrado
Ganho de Informação
55,48
55,48
59,62
59,62
57,89
57,05
61,23
63,67
63,84
0,000
0,000
0,218
0,218
0,136
0,048
0,227
0,314
0,314
Taxa de Ganho de Informação
60,00
0,214
Taxa de Ganho de Informação
Ganho de Informação
Acurácia
Não Documentado
60,63
59,23
60,49
57,05
0,288
0,182
0,203
0,048
CDA
Algoritmo
Critério do Algoritmo
01
02
03
04
05
06
07
CDADir-Contínuo
CDADir-Contínuo
CDADir-Contínuo
CDADir-Contínuo
CDADir-Discreto
CDADir-Discreto
CDADir-Discreto
08
CDADir-Discreto
09
10
11
12
CDADir-Discreto
CDADir-Discreto
CDADir-Discreto
CDADir-Discreto
Decision Tree
Decision Tree
Decision Tree
Decision Tree
CHAID
Decision Stump
Decision Tree
ID3 (mínimo de 1440 registros de
suporte)
ID3 (mínimo de 2 registro de suporte)
Rule Inductino
Rule Induction
Single Rule Induction (Single Attribute)
13
14
15
16
17
18
19
20
21
CDAEng-Contínuo
CDAEng-Contínuo
CDAEng-Contínuo
CDAEng-Contínuo
CDAEng-Discreto
CDAEng-Discreto
CDAEng-Discreto
CDAEng-Discreto
CDAEng-Discreto
22
CDAEng-Discreto
23
24
25
26
CDAEng-Discreto
CDAEng-Discreto
CDAEng-Discreto
CDAEng-Discreto
Decision Tree
Decision Tree
Decision Tree
Decision Tree
CHAID
Decision Stump
Decision Tree
Decision Tree
Decision Tree
ID3 (mínimo de 180 registros de
suporte)
ID3 (mínimo de 2 registro de suporte)
Rule Induction
Rule Induction
Single Rule Induction (Single Attribute)
Para chegar a estes valores de Acurária e Kappa, os indicadores “Decision Tree”, “CHAID”,
“Decision Stump”, “Rule Induction” e “ID3” tiveram diversas configurações de parâmetros
testados. O método de testes envolveu, a partir das configurações padrão, ajustar um parâmetro por
vez e testá-lo, avaliando a Acurácia e Estatística Kappa. Após o melhor ajuste deste parâmetro, o
próximo foi testado, no Apêndice C é apresentado um exemplo do teste de otimização dos
parâmetros.
105
5.1.1.6 Investigação de padrões que se repetem em função do número de faltas
O impacto do número de faltas no desempenho acadêmico do estudante, descrito na Seção
5.1.1.2 motivou a investigação de padrões que ocorrem em determinados grupos de faltas. Nesta
análise, foi investigado o número de faltas discretizado em dois grupos, “até 4 faltas” e “acima de 4
faltas” em cada disciplina cursada. A distribuição desta análise está ilustrada na Figura 17.
Figura 17. Percentual de Faltas por Curso, 2 intervalos.
Nota-se um número maior de disciplinas em que os alunos tiveram até quatro faltas, no
Direito foram 59,23% e na Engenharia Civil 58,13%. O grupo “Acima de 4 Faltas” incluiu 40,77%
das disciplinas do curso de Direito e 41,87% das disciplinas de Engenharia Civil. Apesar das regras
geradas associarem disciplinas com mais de quatro faltas a notas menores, nota-se que na maior
parte das disciplinas houveram até 4 faltas.
A Tabela 21 apresenta regra com confiança superior aos percentuais apresentados na Figura
17, e com suporte de pelo menos 1%.
Tabela 21. Regra com análise do grupo de faltas
Curso
1
Direito
Algoritmo
Decision
Tree
Regra
if DIS_TIP = N and DIS_OBR = N
and PROF_TITUL = D then range1
[-∞ - 4.500]
Suporte Confiança
1,6725%
88,73%
106
A regra 1 da Tabela 21, que pode ser lida como “Se ‘Disciplina Normal’ E ‘Disciplina Não
Obrigatória’ e ‘Ministrada por Doutor’ então Até 4 Faltas”, do curso de Direito, apresenta uma
confiança de 88,73%. Uma análise mais detalhada nos dados permite reescrever esta regra como
“if DIS_OBR = N then range1 [-∞ - 4.500]” (“Se ‘Disciplina Não Obrigatória’ então
Até 4 Faltas”), com confiança de 86,59% e suporte de 7,40%. No curso de Engenharia Civil não
houve nenhuma disciplina optativa registrada nos dados analisados.
É possível notar na Figura 18 que, além da existência de menos faltas, disciplinas não
obrigatórias têm 43,51% de notas no grupo BDA. Na Figura 11 foi mostrado que no curso de direito
o percentual de notas BDA é de 24,55%.
Figura 18. Percentual dos GDA em Disciplinas Não Obrigatórias.
5.1.1.7 Aplicação dos Algoritmos de Clusterização
Dentre os algoritmos citados no Quadro 15, o “K-Metoids” não pôde ser executado por
limitações no hardware disponível. O Algoritmo “DBSCan”, que não permite configurar um
número de clusters, identificou, para o curso de Direito 5086 clusters, destes o “cluster_0” tem
72,95% dos dados. Para o curso de Engenharia Civil, foram gerados o algoritmo DBScan gerou 688
clusters com 88,63% dos dados no “cluster_0”, os resultados do algoritmo “DBScan” foram
descartados desta análise.
Com o algoritmo “KMeans Kernel” foi possível realizar, com o hardware disponível, todos
os 46mil registros do curso de Engenharia Civil, assim foram gerados duas análises, uma com três
clusters e outra com seis clusters.
Não foi possível, entretanto, concluir a clusterização, utilizando o algoritmo“KMeans
Kernel”, dos 172mil registros do curso de Direito, nas tentativas de clusterização houve travamento
da maquina após aproximadamente 4 dias e 15 horas de processamento. Assim, optou-se por
realizar a clusterização de 50 mil registros do curso de Direito, segmentados por meio de
107
amostragem estratificada. Foram realizadas duas análises, uma com três clusters e outra com seis
clusters.
5.1.1.8 Análise dos clusters do curso de Direito
Nos clusters gerados pelo algoritmo “KMeans Kernel” houve segmentação de clusters mais
significativos para o grupo BDA e BADA. A Tabela 22 apresenta o percentual de registros de cada
cluster em função do GDA é possível notar que o “D3cluster_0” tem 56,66% de registros BDA e o
cluster “D3cluster_2” tem 53,88% de registros BADA.
Tabela 22. Distribuição GDA por cluster, Curso de Direito, algoritmo KMeans Kernel, 3 clusters.
Cluster
BADA
MDA
BDA
D3cluster_0
23,44%
19,90%
56,66%
D3cluster_1
48,88%
27,66%
23,46%
D3cluster_2
53,88%
20,40%
25,72%
Sobre os clusters “D3cluster_0” e “D3cluster_2” foi aplicado o algoritmo “Decision Tree”
com critério Coeficiente Gini para verificar se as regras geradas a partir de um cluster com
concentração maior de um determinado grupo de desempenho podem ser aplicadas a todo conjunto
de dados. Foram geradas regras interessantes como “if TIP_DEF = NI and GRU_INGR =
VES and DIS_TIP = N and DIS_INTENSIVO = N and DIS_HOR_TEORICAS > 45 then
BADA”, que pode ser lida como “Se ‘Deficiência Física Não Informada’ e ‘Ingresso por
Vestibular’ e ‘Disciplina Normal’ e ‘Disciplina não Intensivo’ e ‘Carga horária teórica maior
que 45’ então Baixo Desempenho Acadêmico ” com confiança de 79,38 e suporte de 11,58% e
“if TIP_DEF = NI and GRU_INGR = VES and DIS_TIP = N and DIS_INTENSIVO =
N and DIS_HOR_TEORICAS ≤ 45 and PROF_TITUL = D then BDA”, que pode ser lida
como “Se ‘Deficiência Física Não Informada’ e ‘Ingresso por Vestibular’ e e ‘Disciplina
Normal’ e ‘Disciplina não Intensivo’ e ‘Carga Horária Teórica menor que 45’ então Bom
Desempenho Acadêmico”, com confiança de 77,63% e suporte de 11%. Entretanto o teste destas
regras em todo conjunto de dados do curso de Direito faz com que a confiança caia para 34,61% na
primeira regra e 34,61% na segunda, o mesmo problema acontece com regras do “D3cluster_2”.
Na clusterização em seis grupos, cuja distribuição dos clusters em função do GDA é
apresentada na Tabela 23, também foi possível identificar um grupo com majoritariamente registros
BADA e outro com maioria BDA. O cluster “D6cluster_2” tem 93,81% de registros BADA e o
cluster “D6cluster_3” tem 51,50% de registros BDA.
Tabela 23. Distribuição GDA por cluster, Curso de Engenharia Civil, algoritmo KMeans Kernel, 6
clusters.
Cluster
BADA
MDA
BDA
D6cluster_0
43,66%
21,55%
34,78%
D6cluster_1
75,84%
6,76%
17,40%
D6cluster_2
93,81%
0,00%
6,19%
D6cluster_3
28,18%
20,31%
51,50%
D6cluster_4
70,16%
2,42%
27,42%
D6cluster_5
54,83%
23,09%
22,09%
Nos registros inseridos no cluster “D6cluster_2” e “D6cluster_3” do curso de Direito, foi
aplicado o algoritmo “Decision Tree”, que quando configurado pelo critério do Coeficiente de Gini
108
gerou regras que não mantiveram a confiança quando reaplicadas a todo conjunto de dados. Mesmo
as melhores regras como “if TIP_DEF = NI and FINANCIAMENTO = N and GRU_INGR =
SEL and BOLSA = N and PROF_TITUL = D and DIS_TIP = N and DIS_INTENSIVO =
N and CURSO = DIR and PROF_TRAB = I and DIS_HOR_TEORICAS ≤ 37.500 then
BDA”, que pode ser lida como “Se ‘Deficiência Física Não Informada’ e ‘Sem Financiamento’ e
‘Ingresso por Processo Seletivo’ e ‘Sem Bolsa’ e ‘Ministrada por Doutor’ e ‘Disciplina
Normal’ e ‘Disciplina Não Intensivo’ e ‘Curso de Direito’ e ‘Professor Regime de Trabalho
Integral’ e ‘Carga Horária Teórica até 37’ então Bom Desempenho Acadêmico”, com 77,45%
de confiança e suporte de 10,02%, não mantiveram a mesma eficiência quando aplicados à todo
conjunto de dados, neste caso, a regra aplicada a todo o conjunto de dados teve sua confiança
reduzida para 37,28%.
5.1.1.9 Análise dos clusters do curso de Engenharia Civil
Nos dados do curso de Engenharia Civil, no qual a clusterização foi realizada sobre todo o
conjunto de dados, o algoritmo “KMeans Kernel” configurando o algoritmo para gerar três e seis
clusters.
A Tabela 24 apresenta o percentual de registros de cada cluster em função do GDA. É
possível notar que os clusters “E3cluster_0”, “E3cluster_1” e “E3cluster_2” possuem
majoritariamente registros BADA, ou seja, a clusterização não conseguiu diferenciar um cluster
majoritariamente BDA, como ocorreu no curso de Direito. Em relação a distribuição dos registros
em função dos cluster, o “E3cluster_0” agrupou 96,94% de todos os registros.
Tabela 24. Distribuição GDA por cluster, Curso de Engenharia Civil, algoritmo KMeans Kernel, 3
clusters.
Cluster
BADA
MDA
BDA
E3cluster_0
54,44%
22,73%
22,83%
E3cluster_1
89,42%
0,00%
10,58%
E3cluster_2
87,60%
0,00%
12,40%
Na na Tabela 25 são apresentados os clusters da execução do algoritmo “KMeans Kernel”
junto com o percentual de registros de cada GDA.
Tabela 25. Distribuição GDA por cluster, algoritmo KMeans Kernel, 6 clusters.
Cluster
BADA
MDA
E6cluster_0
43,66%
21,55%
E6cluster_1
75,84%
6,76%
E6cluster_2
93,81%
0,00%
E6cluster_3
28,18%
20,31%
E6cluster_4
70,16%
2,42%
E6cluster_5
54,83%
23,09%
BDA
34,78%
17,40%
6,19%
51,50%
27,42%
22,09%
Destacou-se na Tabela 25 o “E6cluster_2”, com 93,81% das notas no grupo BADA e o
“E6cluster_3”, com 51,50% das notas no grupo BDA. Sobre estes 2 clusters foi aplicado o
algoritmo “Decision Tree”, com critério Coeficiente de Gini que obteve os melhores resultados,
conforme apresentado na Tabela 25.
109
Sobre os registros agrupados no cluster_2 o algoritmo “Decision Tree” gerou apenas uma
regra “if TIP_DEF = NI then BADA”, com 93,81% de confiança. Apesar da boa confiança
para os dados do cluster_2 esta regra não é útil quando aplicada para todo conjunto de dados.
Na aplicação do “Decision Tree” sobre o cluster_3, foram geradas 37 regras, das quais
destaca-se a regra “if TIP_DEF = NI and PROF_TITUL = M and BOLSA = N and
FINANCIAMENTO
=
N
and
GRU_INGR
=
VES
and
DIS_TIP
=
N
and
ALU_DIS_MAIS1_PROF = N and DIS_OBR = S and DIS_INTENSIVO = N and CURSO =
ENG and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and NEG_FIN = N
and EGRESSOCURSO = N then BDA”, que pode ser lida como “Se ‘Deficiência Física Não
Informada’ e ‘Ministrada por Mestre’ e ‘Sem Bolsa’ e ‘Sem Financiamento’ e ‘Ingresso por
Vestibular’ e ‘Disciplina Normal’ ‘Apenas Um professor’ e ‘Disciplina Obrigatória’ e
‘Disciplina Não Intensivo’ e ‘Curso Engenharia’ e ‘Professor em Regime de Trabalho
Integral’ e ‘Disciplina a partir do quinto período’ e ‘Sexo Feminino’ e ‘Sem Negociação
Financeira’ e ‘Aluno não Egresso’ então Bom Desempenho Acadêmico”. Esta regra, quando
aplicada a todos os dados do curso de Engenharia Civil classifica corretamente 51,50% dos
registros, com suporte de 1,80%.
A mesma regra pode ser reescrita como “if PROF_TITUL = M and GRU_INGR = VES
and ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER > 4.500 and SEXO
= F and NEG_FIN = N then BDA” (“Se ‘Ministrada por Mestre’ e ‘Ingresso por
Vestibular’ e ‘Apenas Um professor’ e ‘Professor em Regime de Trabalho Integral’ e
‘Disciplina a partir do quinto período’ e ‘Sexo Feminino’ e ‘Sem Negociação Financeira’
então Bom Desempenho Acadêmico”) mantendo a classificação correta de 51,02% dos registros
BDA. Para o curso de Engenharia Civil, o percentual de alunos que usualmente fica no grupo BDA
é de apenas 22,48%. Esta regra torna-se especial porque, diferente das outras identificadas não pode
ser resumida em função do número de faltas, tipo de ingresso ou tipo de disciplina. Na Tabela 26, é
apresentado o percentual de registros classificados como BDA caso qualquer dos atributos da
premissa sejam retirados ou alterados.
Tabela 26. Impacto de variações na regra “if PROF_TITUL = M and GRU_INGR = VES and
ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and
NEG_FIN = N then BDA”, curso de Direito.
Premissa gerada pela classificação
PROF_TITUL = M (Mestre)
PROF_TITUL = M
GRU_INGR = VES (Vestibular)
ALU_DIS_MAIS1_PROF = N
ALU_DIS_MAIS1_PROF = N
PROF_TRAB = I (Trabalho integral)
DIS_PER > 4.500
DIS_PER > 4.500
SEXO = F
SEXO = F
NEG_FIN = N
Alteração da Premissa Original para a
descrita nesta coluna
Retirada a premissa da regra
PROF_TITUL = D (doutor)
Retirada a premissa da regra
Retirada a premissa da regra
ALU_DIS_MAIS1_PROF = S
Retirada a premissa da regra
Retirada a premissa da regra
DIS_PER < 4.500
Retirada a premissa da regra
SEXO = M
Retirada a premissa da regra
Nova Confiança, da
regra com a
premissa alterada
47,52%
24,88%
46,49%
49,49%
40,82%
50,71%
32,34%
21,86%
41,40%
38,26%
49,14%
Pela Tabela 26 nota-se que, à exceção as pré-condições de mais de um professor em sala de
aula (ALU_DIS_MAIS1_PROF) e o regime de trabalho integral (PROF_TRAB), as outras pré-condições
não podem ser retiradas ou modificadas sem uma perda próxima a 5%, chegando a até 29,16% no
caso de não considerar o período da disciplina (DIS_PER).
110
Assim, parece ser correto dizer que, “Alunos de Engenharia Civil, que tem aula com
professor de titulação ‘Mestrado’, que ingressaram por meio do vestibular, cursando disciplinas a
partir do 5º período, que são do sexo ‘Feminino’, e nunca tiveram negociação financeira” tendem
tirar notas que figuram no grupo de desempenho BDA.
Um dado interessante, apresentado na Tabela 27 é que, para o conjunto de registros da regra
“if PROF_TITUL = M and GRU_INGR = VES and ALU_DIS_MAIS1_PROF = N and
PROF_TRAB = I and DIS_PER > 4.500 and SEXO = F and NEG_FIN = N then BDA”,
70,49% tiveram até 4 faltas.
Tabela 27. Distribuição de faltas em disciplinas que respeitam a regra “if PROF_TITUL = M and
GRU_INGR = VES and ALU_DIS_MAIS1_PROF = N and PROF_TRAB = I and DIS_PER >
4.500 and SEXO = F and NEG_FIN = N then BDA”, curso de Direito.
GDA
Disciplinas com até 4 faltas Disciplinas com mais de 4 faltas
Total
BADA
12,43%
10,27%
22,70%
MDA
19,12%
7,17%
26,28%
BDA
38,95%
12,07%
51,02%
Total
70,49%
29,51%
100%
Apesar da regra maximizar o acerto da classificação do grupo BDA em relação à
probabilidade de um aluno figurar no grupo BDA, manter um conjunto significativo de atributos
sem minimizar sua confiança, e corroborar com a validade de que alunos do grupo BDA tentem a
ter menos faltas, isoladamente, esta regra não pode ser tida como verdade, pois, conforme indicado
por sua confiança de 51,02%, ela tende a acertar apenas metade dos registros que classifica.
5.1.2 Resultados da análise dos conjuntos de dados CDADirEgresso e
CDAEngEgresso
Nesta sessão são apresentados os resultados mais relevantes da tarefa de Modelagem, da
Metodologia CRISP-DM, apresentada na Figura 5, para os conjuntos de dados CDADirEgresso e
CDAEngEgresso.
Na análise apresentada na Seção 5.1.1 objetivou-se conhecer padrões do ambiente de ensinoaprendizagem, apresentados no conjunto de dados do Quadro 13. A análise desta seção está
alinhada ao OE3:“ Desenvolver modelo de predição do Grupo de Desempenho Acadêmico, baseado
na análise dos semestres iniciais, utilizando técnicas de mineração de dados”.
De acordo com a Figura 10 do Plano de Avaliação, as regras foram geradas sobre 80% dos
egresso 1339 egressos do curso de Direito e 293 egressos do curso de Engenharia Civil. A
verificação da eficiência do modelo foi realizada sobre os 20% dos dados restantes, conforme
detalhado na Tabela 28.
111
Tabela 28. Quantidade de Egressos por curso.
Curso
Direito
Engenharia Civil
Registros para
Treinamento
1034
228
Registros para Testes
259
57
Total de
Egressos
1293
285
5.1.2.1 Percentual de GDA de egressos por Curso
Na Figura 19 é apresentada o percentual de alunos egressos por GDA nos cursos de Direito
e Engenharia Civil.
Figura 19. Percentual dos GDA de Egressos por Curso.
Para ambos os cursos o percentual maior de alunos egressos se encontra no grupo MDA,
sendo 65,20% no curso de Direito e 66,67% no curso de Engenharia Civil, valores bem acima dos
apresentados na Figura 11, onde é possível notar que 27,19% de disciplinas com notas no grupo
MDA no curso de Direito e 22,03% de disciplinas MDA no curso de Engenharia Civil. Esta
divergência deve-se ao fato do gráfico considerar apenas as médias que são inseridas no currículo
do aluno, ou seja, apenas as que ele aprovou.
Continuando a leitura da Figura 19, o segundo grupo com maior percentual de egressos, em
ambos os cursos, é o grupo BADA com 22,58% no Direito e 20,35% na Engenharia Civil e grupo
BDA tem a menor percentual de egressos, 12,22% no Direito e 12,98% na Engenharia Civil. Estes
112
valores, a exemplo do apresentado para o grupo MDA também divergem dos apresentados na
Figura 11, também por considerar apenas as médias que são inseridas no currículo do aluno, ou
seja, apenas as que ele aprovou.
5.1.2.2 Relação GDA dos quatro primeiros semestres versus GDA Egresso.
A Tabela 32, disponível na Seção 5.1.2.3 mostrou que 6 das 24 análises documentadas na
Tabela 31 geraram regras baseadas apenas no atributo de GDA dos semestres iniciais
(GDA_PER4), motivando a análise realizada nesta seção, para investigar a relação GDA início
versus GDA Egresso.
Tabela 29. Relação GDA semestre iniciais versus GDA egresso no curso de Direito.
GDA Egresso
GDA dos quatro
semestres iniciais
BADA
MDA
BDA
BADA
20,53%
16,19%
0,08%
Total
Geral
36,79%
MDA
2,01%
43,76%
2,09%
47,87%
BDA
0,08%
5,19%
10,07%
15,34%
Total Geral
22,62%
65,14%
12,24%
100,00%
A Tabela 29 apresenta que, apenas 0,08% dos 36,79% de alunos do curso de Direito que
obtiveram uma média no grupo BADA nos semestres iniciais, figuraram como egressos de média
BDA. Destes mesmos 36,79% que iniciaram no grupo BADA 16,19% conseguiram concluir o curso
com média dentro do grupo MDA. Dos 15,34% de egressos que começaram com média BDA
5,27% não conseguiram manter a média e figurar como egresso BDA, mas a maior parte destes,
10,07% mantiveram notas que os fizeram egressos no grupo BDA. O grupo de desempenho
acadêmico maior percentual de redução é de alunos que iniciam como BADA (36,79%) e terminam
como BADA (22,62%), ou seja, existe uma maior probabilidade de um aluno BADA dos semestres
iniciais terminar como MDA.
A Tabela 30 apresenta a relação de GDA dos semestres iniciais versos GDA do egresso para
o curso de Engenharia Civil.
113
Tabela 30. Relação GDA semestre iniciais versus GDA egresso no curso de Engenharia Civil.
GDA Egresso
GDA dos quatro
semestres iniciais
BADA
MDA
BDA
Total Geral
BADA
20,35%
23,86%
0,00%
44,21%
MDA
0,00%
42,11%
6,67%
48,77%
BDA
Total
Geral
0,00%
0,70%
6,32%
7,02%
20,35%
66,67%
12,98%
100,00%
Na Tabela 30 é possível notar que no curso de Engenharia Civil não houve percentual
representativo de alunos que tiveram os semestres iniciais com média no grupo BADA que
conseguiram se recuperar e figurar com média que o colocasse como egresso no grupo de BDA.
Dos 44,21% de alunos que iniciaram com médias no grupo BADA 23,86% conseguiram médias que
os colocassem como egresso MDA. O grupo de desempenho acadêmico maior percentual de
redução, assim como no curso de Direito, é de alunos que iniciam como BADA (44,21%) e
terminam como BADA (20,35%), ou seja, na Engenharia Civil também existe uma maior
probabilidade de um aluno BADA dos semestres iniciais terminar como MDA.
Analisando a distribuição dos 7,02% que iniciaram o curso de Engenharia Civil no grupo
BDA, não houve percentual significativo que se tornou egresso com médias no grupo BADA.
Destes 7,02% que iniciaram no grupo BDA 6,32 conseguiram concluir o curso com médias que os
levaram ao grupo de egressos BDA.
5.1.2.3 Modelos de Classificação do GDA Egresso
Os modelos gerados por meio dos algoritmos nos Quadros 16 e Quadro 17 sobre 80% dos
dados do CDADirEgresso e CDAEngEgresso e validados sobre os 20% restantes são apresentados
na Tabela 31. A segmentação dos subconjuntos de treinamento (80%) e validação (20%) foi
realizada por meio de análise estratificada.
Tabela 31. Acurácia e Kappa dos modelos.
CDA
01
02
03
04
05
06
CDADirEgresso
Contínuo
CDADirEgresso
Contínuo
CDADirEgresso
Discretizado
CDADirEgresso
Contínuo
CDADirEgresso
Contínuo
CDADirEgresso
Algoritmo
Critério do Algoritmo
Acurácia do
Modelo
Estatística
Kappa
Decision Tree
Taxa de Ganho de Informação
74,90
0,580
Decision Tree
Ganho de Informação
74,90
0,580
Single Rule Induction (Single Attribute)
Não Documentado
74,90
0,580
Decision Tree
Acurácia
74,90
0,575
Decision Tree
Coeficiente de Gini
77,22
0,564
ID3
Acurácia
74,52
0,507
114
Tabela 31. Acurácia e Kappa dos modelos.
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Discretizado
CDADirEgresso
Discretizado
CDADirEgresso
Discretizado
CDADirEgresso
Discretizado
CDADirEgresso
Discretizado
CDADirEgresso
Discretizado
CDADirEgresso
Discretizado
CDAEngEgresso
Contínuo
CDAEngEgresso
Discretizado
CDAEngEgresso
Discretizado
CDAEngEgresso
Contínuo
CDAEngEgresso
Discretizado
CDAEngEgresso
Contínuo
CDAEngEgresso
Contínuo
CDAEngEgresso
Discretizado
CDAEngEgresso
Discretizado
CDAEngEgresso
Discretizado
CDAEngEgresso
Discretizado
CDAEngEgresso
Discretizado
ID3
Coeficiente de Gini
74,52
0,507
ID3
Ganho de Informação
68,34
0,250
ID3
Taxa de Ganho de Informação
68,34
0,250
CHAID
Qui-Quadrado
65,25
0,085
Rule Induction
Acurácia
65,25
0,000
Decision Stump
Coeficiente de Gini
65,25
0,000
Decision Tree
Coeficiente de Gini
66,67
0,335
ID3
Acurácia
63,16
0,236
ID3
Coeficiente de Gini
63,16
0,181
Decision Tree
Acurácia
66,67
0,171
Rule Induction
Acurácia
63,16
0,148
Decision Tree
Taxa de Ganho de Informação
68,42
0,128
Decision Tree
Ganho de Informação
68,42
0,128
Single Rule Induction (Single Attribute)
Não Documentado
68,42
0,128
CHAID
Qui-Quadrado
61,40
0,062
ID3
Ganho de Informação
64,91
0,018
ID3
Taxa de Ganho de Informação
64,91
0,018
Decision Stump
Coeficiente de Gini
66,67
0,000
A aplicação dos algoritmos descritos na Tabela 31 mostrou que foi possível alcançar até
77,22% de acurácia na predição do GDA do egresso do curso de Direito (linha 5) ou, pela estatística
Kappa, “aceitação moderada”, com índice de 0,580 (linha 1). Na análise dos CDA do curso de
Engenharia Civil foi possível obter até 68,48% de acurácia (linhas 18 a 20) ou Kappa de 0,335,
“aceitação justa” (linha 13).
Um fato que vale ser destacado é que para os testes das linhas 1, 2, 3, 18, 19 e 20 foram
geradas apenas três regras, conforme Tabela 32.
Tabela 32. Regras CDA Egresso com apenas GDA_PER4.
Conjunto de Dados
CDADirEgresso
Regra
if GDA_PER4 = BADA then BADA
if GDA_PER4 = MDA then MDA
if GDA_PER4 = BDA then BDA
Confiança
44,88%
0,65%
4,40%
CDAEngEgresso
if GDA_PER4 = BADA then MDA
if GDA_PER4 = MDA then MDA
if GDA_PER4 = BDA then BDA
54,46%
12,73%
0,00%
115
As regras da Tabela 32, apesar de simples, conseguiram no curso de Direito uma acurácia de
74,90% e Estatística Kappa de 0,580 que representa “aceitação moderada”. Na Engenharia Civil,
essas regras tiveram 68,42% de Acurácia e Estatística Kappa de 0,128 representando “aceitação
pequena”.
5.1.2.4 Critério de eficiência dos modelos considerando Acurácia e Estatística Kappa
Para definir o modelo mais eficiente nos critérios Acurácia e Estatística Kappa, optou-se por
utilizar o nível de aceitação que discretiza o indicador Kappa, conforme descrito na Tabela 4. Em
seguida, foi selecionado a melhor acurácia dentro no nível de aceitação Kappa. Este critério está
alinhado ao OE4:“Validar eficiência do modelo de predição do grupo de desempenho acadêmico
dos alunos através de acurácia e estatística Kappa da classificação”.
Este critério foi definido após a análise da Tabela 31 e justifica-se pelo fato de que, no curso
de Direito os melhores níveis de aceitação Kappa gerados, entre 0,507 e 0,580 “aceitação
moderada” inclui também a melhor Acurácia. Nos modelos gerados para o conjunto de dados do
curso de Engenharia Civil, os melhores níveis de aceitação Kappa geradas, entre 0,236 e 0,335,
considerada como “aceitação justa”, tem na maior acurácia 66,67%, sendo apenas 1,75 pontos
percentuais menor que a melhor acurácia.
5.1.2.5 Modelo mais eficiente para o curso de Direito
Pelos critérios apresentados na Seção 5.1.2.4, o melhor modelo foi gerado sobre o conjunto
de dados CDADirEgresso sem discretização, pelo algoritmo “Decision Tree”, utilizando
Coeficiente de Gini como critério de relevância. Este modelo, citado na linha 05 da Tabela 31
obteve nível de aceitação Kappa “moderado” e Acurácia de 77,22%. Na Tabela 33 é apresentada a
matriz de confusão do modelo.
Tabela 33. Matriz de confusão do modelo mais eficiente para o curso de Direito.
Verdadeiro BADA Verdadeiro MDA Verdadeiro BDA
Classificado
23
1
42
BADA
Classificado
16
9
136
MDA
Classificado
0
10
22
BDA
Recall
72,41%
80,47%
68,75%
Precision
63,64%
84,47%
68,75%
116
Na matriz de confusão apresentada na Tabela 33 nota-se pelo indicador Precision que o
modelo acertou 63,64% dos egressos que classificou como BADA. O indicador Recall indica que o
modelo selecionou corretamente 72,41% dos indicadores que efetivamente figuram no grupo
BADA. Para o grupo MDA o modelo acertou 84,47% dos que classificou como MDA, sendo que
esta classificação abrangeu 80,47% daqueles que efetivamente foram MDA. Nota-se pelo indicador
do grupo BDA Precision teve um acerto de 68,75% na identificação da classificação e um Recall de
68,75%.
Foi possível notar que o atributo de média nos primeiros quatro períodos (GDA_PER4)
apareceu como primeiro atributo em todas as regras geradas. Como segundo atributo apareceu a
média suja dos primeiros quatro períodos (GDA_SUJA_PER4) em 17 das 26 regras, reforçando a
importância das médias nos semestres iniciais na definição da média do egresso.
Baseado nisso foi realizado uma redução no número de atributos utilizados para gerar o
modelo de classificação. O método utilizado para tentar otimizar o modelo foi a inclusão apenas dos
atributos de média nos quatro semestres iniciais (GDA_PER4) e média suja nos quatro semestres
iniciais, seguida da execução do algoritmo “Decision Tree”, e otimização dos parâmetros, aos
moldes do exemplo citado no Apêndice C. Após a melhor configuração o próximo atributo mais
frequente nas regras era incluído, e o processo de otimização do modelo repetido. Os atributos que
melhoravam a acurácia e o nível de aceitação Kappa eram mantidos, o que não melhoravam eram
descartados e testados novamente ao final do teste de todos os atributos.
Assim, foi possível otimizar o modelo do curso de Direito da acurácia 77,22% para 78,38%,
melhorando o nível de aceitação Kappa de “moderado” para “substancial”. Outra vantagem desta
otimização foi a redução de um modelo com 26 regras para um modelo com 6 regras.
A Tabela 34 apresenta a matriz de confusão do melhor modelo para o curso de Direito após
a otimização. O Quadro 18 apresenta o modelo de regras após a otimização.
Tabela 34. Matriz de confusão do modelo otimizado para o curso de Direito
Verdadeiro BADA Verdadeiro MDA Verdadeiro BDA
Classificado
BADA
Classificado MDA
Classificado BDA
Recall
Precision
46
24
0
65,71%
12
0
79,31%
131
14
77,71%
6
26
81,25%
87,92%
65,00%
117
É possível notar pelo indicador Recall que o modelo segmenta corretamente 81,25% dos
alunos que seriam BDA. Dos segmentados, a taxa de acerto, apresentada pelo indicador Precision é
de 65,71%, bem acima da probabilidade dos alunos de Direito em figurar no grupo BDA, que é de
12,98%, conforme apresentado na Figura 19. Análise semelhante pode ser feita para o grupo
BADA, que apresenta Recall de 79,31% e Precision de 65,71%.
Quadro 18. Modelo de regras de classificação otimizado para CDADirEgresso.
Regra
GDA
Sup.
Conf.
1 if GDA_PER4 = BADA and GDA_SUJA_PER4 = BADA and ALU_DIS_FALTAS4 > 51 then BADA
BADA 23,81%
69,64%
2 if GDA_PER4 = BADA and GDA_SUJA_PER4 = BADA and ALU_DIS_FALTAS4 ≤ 51 then MDA
MDA
9,91%
65,00%
3 if GDA_PER4 = BDA and ALU_DIS_APR_QTD4 > 13.500 then BDA
BDA
31,00%
78,57%
4 if GDA_PER4 = BDA and ALU_DIS_APR_QTD4 ≤ 13.500 and ALU_DIS_FALTAS4 > 3 then MDA
MDA
4,12%
80,00%
5 if GDA_PER4 = BDA and ALU_DIS_APR_QTD4 ≤ 13.500 and ALU_DIS_FALTAS4 ≤ 3 then BDA
BDA
3,35%
0,00%
6 if GDA_PER4 = MDA then MDA
MDA
45,82%
94,69%
Pelo modelo do Quadro 18, é possível notar que apenas quatro atributos foram efetivamente
utilizados, média dos quatro períodos iniciais (GDA_PER4), média suja (GDA_SUJA_PER4),
número de faltas nos quatro semestres iniciais (ALU_DIS_FALTAS4). Pelas regras 1 e 2 é possível
notar que o aluno que começa os semestres iniciais com média no grupo BADA tende a sair ou não
deste grupo e em função do número de faltas.
Pelas regras 3, 4 e 5, nota-se que o aluno que inicia no grupo BDA tende a ficar neste grupo
apenas se ele obteve mais de 13 aprovações. A julgar que o currículo de direito apresenta 23
disciplinas nos quatro primeiros períodos, tem-se uma evidência de que alunos do grupo BDA em
disciplinas dos semestres iniciais, que cursaram o restante das disciplinas fora da UNIVALI
(aproveitamento de créditos) tendem a não figurar como egresso BDA.
A regra 4, a mais simples, indica que dos alunos egressos analisados, que iniciaram o curso
no grupo MDA tendem a terminar no grupo MDA com confiança de 94,69%.
5.1.2.6 Modelo mais eficiente para o curso de Engenharia Civil
Na análise do CDA de Engenharia Civil, pelos critérios da Seção 5.1.2.4, o melhor modelo
foi gerado pelo algoritmo “Decision Tree”, sobre os dados sem discretização, utilizando como
critério o Coeficiente de Gini, conforme registrado na linha 13 da Tabela 31. Este obteve Kappa
0,335 “aceitação justa” e Acurácia de 66,67%. Na Tabela 35 é apresentada a matriz de confusão
deste modelo.
118
Tabela 35. Matriz de confusão do modelo mais eficiente para o curso de Engenharia Civil.
Verdadeiro BADA Verdadeiro MDA Verdadeiro BDA
Precision
Classificado
8
0
46,67%
7
BADA
Classificado
5
4
75,68%
28
MDA
Classificado
0
2
60%
3
BDA
Recall
58,33%
73,68%
42,86%
É possível notar na matriz de confusão da Tabela 35 que a precisão dos egressos
classificados como BADA foi de 46,67% e 58,33% dos egressos que deveriam ser classificados
como BADA assim o foram. No grupo MDA houve o indicador Precision foi de 75,68% e Recall
de 73,68%. Para BDA houve 60% de precisão de 42,86% de Recall.
A exemplo da análise do curso de Direito, foi testada uma redução do número de atributos
para geração do modelo, mas nesta optou-se por retirar o atributo de tipo de deficiência (TIP_DEF)
qua apareceu em todas as 17 regras do modelo, sempre com o resultado “Não Informado” (NI). Isso
porque, dentre os dados analisados, não houve nenhum registro nos sistemas de egresso com
cadastro de deficiência.
Para os registros do curso de Engenharia Civil, esta otimização melhorou a acurácia de
66,67% para 68,42%, mantendo o nível de aceitação Kappa em “Justa”.
A Tabela 36 apresenta a matriz de confusão do melhor modelo para o curso de Direito após
a otimização. O Quadro 19 apresenta o modelo de regras após a otimização.
Tabela 36. Matriz de confusão do modelo otimizado para o curso de Engenharia Civil
Verdadeiro BADA Verdadeiro MDA Verdadeiro BDA
Precision
Classificado
BADA
Classificado MDA
Classificado BDA
Recall
4
3
0
57,14%
8
0
33,33%
32
3
84,22%
4
3
42,86%
72,73%
50%
119
É possível notar pelo indicador Recall que a maior parte dos registros verdadeiramente
BADA e BDA não foram selecionados pelo modelo gerado. A acurácia e o nível de aceitação
Kappa não foram piores porque a precisão do modelo foi de 57,14% para a classificação de
registros BADA e de 72,73% para registros MDA. Mesmo registros BDA, com precisão de 50%
ainda é bem maior que a probabilidade dos alunos de Engenharia Civil em figurar no grupo BDA,
que é de 12,98%.
Por haverem apenas 285 egressos do curso de Engenharia Civil, a análise fica prejudicada,
já que, no modelo de avaliação utilizado, apenas 57 registros (20% de 285) foram utilizados para
avaliação do modelo, conforme apresentado na Tabela 28.
Quadro 19. Modelo de regras de classificação otimizado para CDAEngEgresso.
Regra
GDA
Sup.
Conf.
1
if GDA_PER4 = BADA and GDA_SUJA_PER4 = BADA and ALU_DIS_FALTAS4 > 234.500 then BADA
BADA 12,28% 57,14%
2
if GDA_PER4 = BADA and GDA_SUJA_PER4 = BADA and ALU_DIS_FALTAS4 ≤ 234.500 then MDA
MDA
13,58% 55,56%
3
if GDA_PER4 = BDA then BDA
BDA
5,26%
4
if GDA_PER4 = MDA and GDA_SUJA_PER4 = BADA then MDA
MDA
10,53% 83,33%
5
if GDA_PER4 = MDA and GDA_SUJA_PER4 = MDA and ALU_DIS_FALTAS4 > 30.500 then MDA
MDA
53,09% 85,00%
6
if GDA_PER4 = MDA and GDA_SUJA_PER4 = MDA and ALU_DIS_FALTAS4 ≤ 30.500 then BDA
BDA
5,26%
66,67%
33,33%
Pelo Quadro 19 é possível notar pelas regras 1 e 2 que iniciando com média no grupo de
desempenho BADA o algoritmo apresentou como condição para concluir o curso com média no
grupo MDA, ter tido até 234 faltas. Acima disso o modelo entende que o aluno será um egresso
com média no grupo BDA. Ambas as regras tem uma confiança inferior à 60%.
O modelo, pela regra 3, indica também que o aluno de Engenharia Civil que consegue uma
média do grupo BDA nos quatro semestres iniciais tende a concluir o curso com uma média BDA,
com confiança de 66,67%. Esta tendência já havia sido apresentada na Tabela 30.
As regras 4 e 5 apresentam que o aluno de Engenharia Civil que tem uma média nos quatro
semestres iniciais dentro do grupo MDA tende a concluir o curso no grupo MDA, caso a média suja
dos quatro semestres iniciais seja BADA, ou se o aluno tiver tido acima de 30 faltas nos quatro
primeiros semestres. As confianças de 83,33% apresentadas na regra 4, e de 85% na regra 5
corroboram a tendência de se manter no grupo MDA, já apresentada na Tabela 30.
120
Iniciando no grupo MDA, o modelo considera que o aluno pode concluir o curso no grupo
BDA caso ele tenha menos de 30 faltas nos semestres iniciais, mas a confiança deste regra é de
apenas 33,33%.
121
6 CONCLUSÕES
O presente estudo buscou identificar, dentre os dados armazenados nos sistemas de
informação da IES analisada, quais tem maior impacto sobre o desempenho acadêmico do aluno.
Justificou-se por meio da revisão da literatura descrita no Capítulo 3 , pela qual foi apresentado que
os trabalhos que buscam entender o desempenho acadêmico de alunos utilizando técnicas de
mineração de dados, catalogados nas bases consultadas, tentem a considerar poucas variáveis,
predominantemente notas e disciplinas, exceto quando são pautados exclusivamente em ambientes
virtuais de aprendizagem. Os trabalhos identificados no Capítulo 3 também não deixam evidente
uma comparação entre áreas de conhecimento. Este estudo buscou ampliar o número de variáveis
analisadas, além de comparar os cursos de Direito e o curso de Engenharia Civil, buscando
identificar eventuais diferenças entre estes.
6.1 A DEFINIÇÃO DOS GRUPOS DE DESEMPENHO BADA, MDA, BDA.
Alinhado ao objetivo OE1: “Definir três grupos de desempenho acadêmico, classificando
alunos em três grupos de desempenho acadêmico: Bom Desempenho Acadêmico; Médio
Desempenho Acadêmico; Baixo Desempenho Acadêmico”, o estudo descrito na seção 4.3.2 foi
identificado, por meio de discretização por frequência, que notas cima de 8,7 podem ser
classificadas no grupo BDA quando pertencentes ao curso de Direito. Já para o curso de Engenharia
Civil notas acima de 8,2 podem ser consideradas no grupo BDA. A diferença entre um curso e outro
pôde ser explicada pelo maior percentual de reprovações no curso de Engenharia Civil, que obteve
entre 2005/1 e 2014/1 um percentual de 26,80% de reprovações, contra 16,68% no curso de Direito.
A discretização por frequência, ainda sob influência do percentual de reprovações,
classificou no grupo BADA, no curso de Direito, notas abaixo de 7,7 enquanto para o curso de
Engenharia Civil o grupo BADA incluiu notas abaixo de 7,25.
Tendo como critério o número de reprovações e as faixas de notas inseridas nos grupos de
desempenho acadêmico BADA, MDA e BDA, pode-se concluir que o curso de Engenharia Civil
apresenta uma maior dificuldade para o aluno, quando comparado ao curso de Direito.
122
6.2 CARACTERÍSTICAS QUE SE REPETEM NOS GRUPOS DE
DESEMPENHO ACADÊMICO
O objetivo OE2:“Identificar as características do ambiente de ensino-aprendizagem que
ocorrem com maior frequência em cada grupo de desempenho acadêmico, documentando eventuais
diferenças entre os cursos de Direito e Engenharia Civil” foi alcançado pelos resultados
apresentados na Seção 5.1.1 .
Os resultados apresentaram que existe uma probabilidade maior de notas no grupo BADA,
sendo 55,49% na Engenharia Civil e 48,26% no Direito. Entretanto apenas na Engenharia Civil
existe possibilidade maior do aluno ficar no grupo BADA do que pertencer aos grupos MDA ou
BDA.
Foi identificado que disciplinas de TCC tendem a gerar notas no grupo BDA. No Direito
61,48% dos TCCs produzem notas no grupo BDA, já na Engenharia Civil o percentual é maior,
91,48% das disciplinas de TCC tendem a figurar no grupo de notas BDA. O percentual maior de
notas BDA das disciplinas de TCC que ocorrem na Engenharia Civil é especialmente interessante,
pois, como foi visto na Figura 11, existe uma maior probabilidade de notas de Engenharia Civil
figurar no grupo BADA. Podem-se propor duas hipóteses a serem investigadas em estudos futuros:
(a) as maiores dificuldades durante o curso de Engenharia Civil levam os alunos a se prepararem
melhor durante o processo que leva ao TCC; (b) existe uma maior exigência com relação ao
trabalho de TCC no curso de Direito que na Engenharia Civil.
Para disciplinas de estágio ocorre situação semelhante, enquanto no Direito 45,02% dos
estágios geram notas no grupo BDA, na Engenharia Civil 89,56% dos estágios geram notas neste
grupo. Aqui se destaca o fato do curso de Direito ter apresentado, no conjunto de dados analisados,
um percentual quase seis vezes maior de disciplinas de estágio cursadas, quando comparada ao
curso de Engenharia Civil, conforme pode ser notado pelo suporte das regras da Tabela 14. Este
dado pode ser um indício de que um conjunto mais heterogêneo de alunos participa de estágio no
curso de Direito que no curso de Engenharia Civil.
O conjunto de regras, apresentadas pelos algoritmos de mineração do Quadro 14,
evidenciaram também um impacto direto do número de faltas no grupo de desempenho acadêmico
em que a nota é enquadrada. A Figura 13 apresenta uma correlação difícil de ser contestada, entre o
aumento do número de faltas e a diminuição do percentual de notas no grupo BDA. A correlação do
123
aumento no número de faltas com o aumento do percentual de disciplinas no grupo BADA também
pode ser observada.
Foi possível notar também que o registro por parte do professor, de mais de quatro faltas ao
seu orientando de TCC o leva a uma nota inserida no grupo BADA em, no mínimo, 98,60% dos
casos, conforme ilustrado na Figura 14.
No estudo da Seção 5.1.1.3, foi realizado uma verificação do impacto do tipo de ingresso no
desempenho acadêmico, pelo qual se notou que alunos ingressantes pelo ProUni tendem a ficar com
um desempenho superior do que os outros tipos de ingresso, tanto no curso de Direito como no
curso de Engenharia Civil, conforme apresentado na Tabela 17. No curso de Direito, 33,31% das
disciplinas cursadas por alunos ProUni resultaram em notas do grupo BDA, contra uma variação de
22,96% a 26,04% nos outros ingressos. Na Engenharia Civil, o mesmo comportamento parece ser
verdadeiro, disciplinas cursadas por alunos ProUni resultam em notas no grupo BDA em 32,75%
dos casos, contra uma variação de 14,31% a 28,03% nos outros ingressos.
Ainda com relação ao tipo de ingresso, alunos que cursaram disciplinas a partir do momento
em que receberam classificação de Reingresso representaram o menor percentual no grupo BDA,
18,33% no Direito e 14,31% na Engenharia Civil.
É também notável que alunos ProUni apresentaram o menor percentual de disciplinas
cursadas com notas no grupo BADA, quando comparado a outros tipos de ingresso, sendo 35,72%
no Direito, contra uma variação de 49,49% a 57,59%. Na Engenharia Civil foram 41,92% das
disciplinas cursadas por alunos com ingresso ProUni com notas no grupo BADA, contra uma
variação de 46,30% a 67,05% nos outros ingressos. Os maiores percentuais de notas no grupo
BADA apresentados foram alcançados por alunos com ingresso do Reingresso.
Alunos ProUni tem uma exigência de aprovação de, no mínimo, 75% das disciplinas
cursadas (SESU, 2013), sob pena de perderem a bolsa, o que poderia explicar o melhor desempenho
destes alunos. Por outro lado parece compreensível que alunos que se afastaram do curso tenham
maior dificuldade que seus pares, explicando assim o maior percentual de notas no grupo BADA
existente entre alunos com ingresso Reingresso.
Pelos gráficos apresentados nas Figura 15 e Figura 16, ficou evidenciado que, independente
da titulação do professor, o percentual de notas no grupo BDA é menor que o numero de notas no
124
grupo BADA, alinhado aos dados da Figura 11. Entretanto no curso de Direito existe uma variação
positiva de 8,30 pontos no grupo BDA, enquanto na Engenharia Civil a titulação que mais se
destacou com relação ao percentual de notas no grupo BDA foi a de especialista, com 9,83 pontos
percentuais a mais que a probabilidade apresentada na Figura 11.
Outros fatores como os dados do ambiente virtual de aprendizagem e locação de livros da
biblioteca não foram identificados como significativos no desempenho acadêmico do aluno. No
caso do AVA, a análise fica prejudicada já que mais de 99% dos registros de disciplinas cursadas
não utilizam recursos didáticos da ferramenta, o ambiente nestes casos foi utilizado apenas como
repositório de material de apoio.
Apesar do algoritmo “KMeans Kernel” ter conseguido segmentar clusters que possam ser
considerados predominantemente do grupo de desempenho BADA ou BDA, a partir da
interpretação destes clusters não foi possível extrair regras significativas aplicáveis a todo conjunto
de dados, a exceção ficou pela regra da Tabela 27, com confiança de 51,02% e suporte de 1,80%.
Em resposta à pergunta de pesquisa P1:“Quais são os aspectos do ambiente de ensinoaprendizagem que levam alunos da IES analisada a concluírem o curso em um determinado
GDA?”. Pode se dizer que o número de frequência no curso é fator com maior impacto em sua nota,
depois do número de faltas, o grupo de ingresso ProUni tendem a ter notas pouco acima dos outros
grupos, e o grupo de ingresso Reingresso tende a ter notas pouco abaixo dos outros grupos.
Em resposta à pergunta de pesquisa P2:“ Os fatores do ambiente de ensino-aprendizagem
que podem levar um aluno de Direito a concluir o curso em um determinado GDA são os mesmos
de um aluno de Engenharia Civil?”. Nos dados avaliados, não foram encontrados fatores
significativos que possam se diferenciar entre os cursos de Direito e Engenharia Civil. O número de
faltas, o grupo de ingresso e a titulação do professor tendem a interferir mais no GDA do aluno.
A Hipótese H1:“Os fatores do ambiente de ensino-aprendizagem que levam um aluno de
Direito a concluir o curso em determinado GDA não são os mesmos que levam um aluno de
Engenharia Civil a figurar no mesmo GDA” pode ser respondida como FALSA, já que as principais
características no ambiente de ensino e aprendizagem encontrados, número de faltas e tipo de
ingresso, se repetem para alunos do curso de Direito também ocorrem no curso de Engenharia Civil.
125
6.3 CRIAÇÃO DE MODELO PARA PREDIZER O GRUPO DE
DESEMPENHO DO EGRESSO.
Para alcançar o objetivo OE3:“Desenvolver modelo de predição do Grupo de Desempenho
Acadêmico, baseado na análise dos semestres iniciais, utilizando técnicas de mineração de dados”
foi realizado o estudo detalhado na Seção 5.1.2 utilizando diversos configurações dos algoritmos
descritos nos Quadro 16 e Quadro 17, a partir dos quais, seguindo os critérios detalhados na Seção
5.1.2.4, que gerou os modelos do Quadro 18 e Quadro 19, expresso em regras de associação.
Foi possível perceber que os fatores dos quatro semestres iniciais que melhor descrevem o
GDA do aluno ao final do curso foram média, média suja (inclui as reprovações) e o número de
faltas e o número de aprovações. No curso de Direito, por exemplo, o fato de ter notas no grupo
BDA nos semestres iniciais parece não ser garantia de figurar entre egressos com média no grupo
BDA caso o aluno não tenha cursado pelo menos 13 disciplinas dos semestres iniciais na IES.
O objetivo OE4:“Validar eficiência do modelo de predição do grupo de desempenho
acadêmico dos alunos através de acurácia e estatística Kappa da classificação”, utilizou a melhor
combinação Acurácia x Kappa, conforme detalhado na Seção 5.1.2.4, sendo possível predizer,
baseado nos quatro primeiros semestres do aluno, o grupo de desempenho acadêmico que a média
das disciplinas que aparecem em seu histórico terá, com acurácia de até 78,38% e aceitação Kappa
“0,623 - substancial” (ver a Tabela 4) no curso de Direito. No curso de Engenharia Civil a acurácia
baixou para 68,42% e a aceitação Kappa também baixou para “0,293 - justa”.
O curso de Direito possui um número de alunos maior que o curso de Engenharia Civil na
IES cujos dados foram analisados. Nos conjuntos de dados extraídos existiram quase 173mil
registros de disciplinas cursadas por alunos do curso de Direito, contra pouco mais de 46mil
registros no curso de Engenharia Civil. Esta diferença na quantidade de dados analisados pode ter
sido crucial no melhor desempenho do modelo de predição do grupo de desempenho.
A validação da hipótese H2:“É possível identificar o GDA de um aluno ao final de seu
curso, com acurácia maior que 50%, baseado na análise dos quatro primeiros semestres do curso”
pode ser considerada VERDADEIRA pois baseado na análise dos quatro primeiros semestres do
curso.”, que indica que sim, foi possível alcançar até 77,22% de acurácia, no curso de Direito.
126
O teste da hipótese H2 responde à P3:“Com os dados disponíveis para análise pela IES, é
possível criar um modelo que permita predizer o GDA que um aluno estará inserido ao final do
curso analisando apenas os semestres iniciais?”. Sim, apenas com os dados disponíveis nos sistemas
de ensino da IES é possível gerar um modelo de predição do GDA do egresso, com a ressalva de
que cursos com menor quantidade de dados podem a apresentar acurácia abaixo do desejado.
6.4 PRINCIPAIS CONTRIBUIÇÕES
O presente trabalho propôs-se a fornecer para a comunidade científica ganhos que possam
colaborar na construção do conhecimento. Esta seção resume os principais ganhos para a área de
aplicação e para a computação.
A comunidade interessada em pesquisas relacionadas à informática na educação encontra
neste trabalho a análise empírica, baseada em mineração de dados, de uma população não analisada
por meio desta técnica. Os resultados deste trabalho, em conjunto com outros similares que possam
ser realizados com dados de outras IES, contribuem para a descoberta de informações que possam,
com o tempo, serem generalizadas a populações cada vez maiores.
Foi também proposta na Seção 4.3.2 a segmentação de grupos de desempenho acadêmico
por meio de técnica estatística em detrimento à definição arbitrária do que é uma nota Baixa, Média
e Boa. Segmentação semelhante não foi identificada nos trabalhos descritos na Seção 3 e tem
potencial para gerar debates sobre o tema da classificação, como para o tema da comparação entre
cursos de diferentes áreas.
Dos trabalhos de mineração de dados educacionais identificados na Seção 3 não justificam a
escolha da ferramenta utilizada, eventualmente às citam. Atualmente uma pesquisa rápida ao site
Kdnuggets (KDNUGGETS, 2015), por exemplo, retorna quase uma centena de ferramentas
disponíveis para realização de estudos de análise de dados, dificultando a escolha da ferramenta de
pesquisadores iniciantes na área.
A Seção 2.4 apresenta uma análise que amplia o trabalho de Mikut e Reishl (2011),
fornecendo critérios para seleção de ferramentas de mineração de dados baseados nos critérios: (i)
desempenho de algoritmos; (ii) usabilidade; (iii) aceitação pela comunidade científica; (iv)
aceitação pela comunidade em geral; (v) disponibilização de licença de software livre. Estes
127
critérios seriam aplicáveis a todos os trabalhos identificados na revisão bibliográfica apresentada no
Capítulo 3 exceto ao trabalho de Carmona et al. (2011), que descreve a ferramenta como prérequisito para o estudo.
Pesquisadores da computação podem se beneficiar também do estudo realizado na Seção 2.3
que demonstrou que, dentre as metodologias descritas por Mariscal, Marbán e Fernández (2010), a
metodologia CRISP-DM, apesar de não possuir mantenedores oficialmente, se mantém relevante e
utilizada em trabalhos recentes, publicados em revistas “Qualis A1 em Computação”, no ano de
2014.
6.5 LIMITAÇÕES DO TRABALHO
Apesar do esforço para abranger a maior quantidade de informações a serem analisadas,
alguns dados não foram incluídos, e algumas análises deixaram de ser realizadas e estão
documentadas nesta seção.
Ficaram de fora da análise informações importantes referentes à pesquisa e extensão
realizadas por professores e alunos. Uma ampliação do estudo correlacionando a pesquisa e
extensão de professores no desempenho acadêmico de alunos poderia ter sido incluída com os
dados disponíveis atualmente na IES.
Foi identificado que alunos com ingresso do tipo Reingresso tendem a tirar notas que
figuram com maior frequência no grupo de desempenho BADA, entretanto ficou de fora deste
estudo uma análise da relação entre desempenho acadêmico e a evasão de alunos.
Não foi possível também analisar dados socioeconômicos de alunos, que podem ter
potencial para fornecer informações relevantes no desempenho acadêmico.
128
6.6 TRABALHOS FUTUROS
Partindo deste estudo, foi possível identificar oportunidades para os seguintes trabalhos
futuros:
i)
análise de dados de desempenho acadêmico e o impacto na evasão;
ii)
análise de dados de produção científica e o impacto no desempenho acadêmico;
iii)
automatização do processo de análise de regras de associação baseada na redução de
atributos, maximização do suporte e manutenção da confiança, mensurando o
resultado na acurácia do modelo.
iv)
ampliação do estudo de escolha da ferramenta, disponível na Seção 2.4, incluindo
teste de acurácia de todos os algoritmos disponíveis nas ferramentas; inclusão de
teste de desempenho (tempo de processamento); análise de algoritmos disponíveis
baseado no tipo de dado que pode ser analisado.
129
REFERÊNCIAS
ALCALÁ-FDEZ, J. et al. KEEL: A Software Tool to Assess Evolutionary Algorithms for Data
Mining Problems. Soft Computing, v. 13, n. 3, p.307-318, 2009.
ANAND, S., BUCHNER, A. 1998. Decision Support Using Data Mining. 1st [s.i.]:Financial
Times Management, 1998. 184 p.
BAKER, Ryan; ISOTANI, Seiji; CARVALHO, Adriana. Revista Brasileira de Informática na
Educação. Mineração de Dados Educacionais: Oportunidades para o Brasil, [s.i.], v. 19, n. 2,
p.3-13, ago. 2011. Quadrimestral.
BORBA, AMÂNDIA MARIA DE (Itajaí-sc). Vice-reitora (Org.). UNIVALI: Plano de
Desenvolvimento Institucional - PDI: 2012-2016. Itajaí-sc: Editora Univali, 2012. 184 p.
BRACHMAN, Ronald J.; ANAND, Tej. The process of knowledge discovery in Databases.
Advances in Knowledge Discovery and Data Mining. American Association for Artificial
Intelligence, p. 37–57. 1996.
BUCHNER, Alex G. et al. An internet-enabled knowledge discovery process. In: Proceedings of
the 9th international database conference, Hong Kong. 1999. p. 13-27.
CABENA, Peter et al. Discovering Data Mining: From Concept to Implementation. [s.i]: Prentice
Hall, 1997.
CAPES. Ministério da Educação. Sobre as áreas de avaliação. 2014ª. Disponível em:
<http://www.capes.gov.br/avaliacao/sobre-as-areas-de-avaliacao>. Acesso em: 17 jun. 2014.
CAPES. Ministério da Educação. WEBQUALIS. 2014b. Disponível em:
<http://qualis.capes.gov.br/webqualis>.Acesso em: 10/07/2014.
CARMONA, C. J. et al. Subgroup discovery in an e-learning usage study based on Moodle. In:
INTERNATIONAL CONFERENCE ON NEXT GENERATION WEB SERVICES PRACTICES,
7., 2011, Salamanca, Spain. 7th International Conference on Next Generation Web Services
Practices. Salamanca, Spain: Institute Of Electrical And Electronics Engineers, 2011. p. 446 - 451.
CARVALHO, Marcos Alberto de. Discretização de atributos contínuos em sistemas de
informação utilizando algoritmos genéticos para a aplicação da teoria dos conjuntos
aproximados. 2010. 91 f. Dissertação (Mestrado) - Curso de Mestrado em Ciência e Tecnologia da
Computação, Universidade Federal de Itajubá, Itajubá-MG, 2010.
CERIANI, Lidia; VERME, Paolo. The origins of the Gini index: Extracts from Variabilità e
Mutabilità (1912) by Corrado Gini. The Journal Of Economic Inequality. [s.i], p. 421-433. 01 set.
2012.
CHAPMAN, Pete et al. CRISP-DM 1.0: Step-by-step data mining guide. 2000. 76 p.
130
CIOS, K. Diagnosing myocardial perfusion from pect bull’s-eye maps: a knowledge discovery
approach. IEEE Engineering in Medicine and Biology Magazine, v. 19, 17–25. 2000.
CIOS, K. J.; KURGAN, L. A. Trends in data mining and knowledge discovery. Advanced
Techniques in Knowledge Discovery and Data Mining. Advanced Information and Knowledge
Processing. Springer, 2005. p. 1–26.
CIOS, K., et al, 2000. Diagnosing myocardial perfusion from pect bull’s-eye maps: a knowledge
discovery approach. IEEE Engineering in Medicine and Biology Magazine. 2000. p. 17–25.
DAVIS, Jesse; GOADRICH, Mark. The Relationship Between Precision-Recall and ROC Curves.
In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 23., 2006, Pittsburgh, Pa.
Proceedings of the 23 rd International Confer ence on Machine Learning. New York, Ny:
Acm, 2006. p. 233 - 240.
DEBUSE, J. C. W et al. Building the KDD Roadmap: A Methodology for Knowledge Discovery.
In: DEBUSE, J. C. W et al. Industrial Knowledge Management. London:Springer, 2001. p. 179–
196.
DOUGHERTY, James; KOHAVI, Ron; SAHAMI, Mehran. Supervised and Unsupervised
Discretization of Continuous Features. In: MACHINE LEARNING INTERNATIONAL
CONFERENCE, 12., 1995, San Francisco - CA. MACHINE LEARNING: PROCEEDINGS OF
THE TWELFTH INTERNATIONAL CONFERENCE. San Francisco - Ca: Morgan Kaufmann,
1995. p. 194 - 202.
Dybå T., Dingsøyr T. Strength of evidence in systematic reviews in software engineering,
Proceedings of the Second ACM-IEEE international symposium on Empirical software
engineering and measurement, Kaiserslautern, Germany, pp. 178—187, October 2008.
ESFANDIARI, Nura et al. Knowledge discovery in medicine: Current issue and future trend.
Expert Systems With Applications. Philadelphia, PA, p. 4434-4463. July, 2014.
FAYYAD, Usama M. et al. Advances in Knowledge Discovey. 1st Cambridge: The Mit Press,
1996a. 611 p.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. The KDD process for
extracting useful knowledge from volumes of data. Communications Of The Acm, New York, Ny,
v. 39, n. 11, p.27-34, nov. 1996
FISHER, R. A. The use of multiple measurements in taxonomic problems. Annals Of Eugenics.
[s.i.], p. 179-188. 1936.
GERTOSIO, Christine; DUSSAUCHOY, Alan. Knowledge discovery from industrial databases.
Journal of Intelligent Manufacturing. v. 15. p. 29–37. fev 2004.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. Rio de Janeiro:
Elsevier, 2005. 261 p.
GWET, Kilem L. The Kappa Coefficient: A Review. In: GWET, Kilem L. Handbook of InterRater Reliability: The Definitive Guide to Measuring the Extent of Agreement Among Multiple
131
Raters. 3. ed. Gaitbersburg, Md: Advanced Analytics, 2012. Cap. 2. p. 15-25. Disponível em:
<http://www.agreestat.com/book3/bookexcerpts/chapter2.pdf>. Acesso em: 14 jun. 2014.
HARRY, M. J.; SCHROEDER, R. Six Sigma: The Breakthrough Management Strategy
Revolutionizing the World’s Top Corporations. New York: Random House Inc. 1999.
HOE, Alan Cheah Kah et al. Analyzing students records to identify patterns of students'
performance. In: INTERNATIONAL CONFERENCE ON RESEARCH AND INNOVATION
IN INFORMATION SYSTEMS, 2013, Kuala Lumpur. 2013 International Conference on
Research and Innovation in Information Systems. Kuala Lumpur: IEEE, 2013. p. 544 - 547.
IBM. IBM SPSS Modeler CRISP-DM Guide. Cidade: Editora, 2011. 53 p. Disponível em:
<ftp://public.dhe.ibm.com/software/analytics/spss/documentation/modeler/14.2/en/CRISP_DM.pdf
>. Acesso em: 10 jul. 2014.
IMBENS, Guido W; LANCASTER, Tony. Efficient estimation and stratified sampling. Journal Of
Econometrics. S.i., p. 289-318. out. 1992.
INEP. Censo Ensino Superior - 2012. Brasília: INEP/Ministério da Educação. Disponível em:
<http://portal.inep.gov.br/internacional-novo-pisa-resultados>. Acesso em: 19 mai. 2015.
KDNUGGETS (Org.). Polls: Data Mining Methodology. 2007a. Disponível em:
<http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm>. Acesso em: 10 jul. 2014.
KDNUGGETS. KDNuggets Pools: Data Mining Methodology. aug 2007b. Disponível em:
http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm. Acesso em: 04/07/2014.
KDNUGGETS. Pools: What Analytics, Data mining, Big Data software you used in the past 12
months for a real project?. 2012. Disponível em: < http://www.kdnuggets.com/polls/2012/analyticsdata-mining-big-data-software.html >. Acesso em: 05 jul. 2014.
KDNUGGETS. Pools: What Analytics, Data mining, Big Data software you used in the past 12
months for a real project?. 2015. Disponível em: < http://www.kdnuggets.com/2015/05/pollanalytics-data-mining-data-science-software-used.html>. Acesso em: 19 mai. 2015.
KITCHENHAM, Barbara. Procedures for Performing Systematic Reviews. Joint Technical
Report, Keele University, Department of Computer Science Keele University, Empirical Software
Engineering, National ICT Australia Ltd.Jul, 2004.
LABIUTIL. Universidade Federal de Santa Catarina. ErgoList. 2011. Disponível em:
<http://www.labiutil.inf.ufsc.br/ergolist>. Acesso em: 05 jul. 2014.
LANDIS, J. Richard; KOCH, Gary G. The Measurement of Observer Agreement for
Categorical Data. Biometrics. v. 33. n. 1. p. 159-174. mar 1977.
LEVINE, David M et al. Estatística: Teoria e Aplicações. 6. ed. Rio de Janeiro: LTC, 2013. 804 p.
Tradução Teresa Cristina Padilha de Souza.
MAANEN, John Van. Reclaiming qualitative methods for organization research: a preface.
Administrative Science Quarterly, v. 24. n. 4. p. 539-550. dez 1979.
132
MACFADYEN, Leah P.; DAWSON, Shane. Mining LMS data to develop an “early warning
system” for educators: A proof of concept. Computers & Education, p. 588-599. fev. 2010.
MARISCAL, Gonzalo; MARBÁN, Óscar; FERNÁNDEZ, Covadonga. A survey of data mining
and knowledge discovery process models and methodologies. The Knowledge Engineering
Review. Cambridge, p. 137-166. jun. 2010.
MARBÁN, O. et al. An engineering approach to data mining projects. Lecture Notes in Computer
Science. [s.i.]:Springer. v. 4881, p. 578–588. 2007.
MARBÁN, O. et al. Towards data mining engineering: a software engineering approach.
Information Systems Journal. [s.i.]: Elsevier, v. 34, n.1, p. 87-107. 2008.
MEC. Governo Federal. Consulta Pública dos Referenciais Nacionais dos Cursos de
Graduação. 2010. Disponível em:
<http://portal.mec.gov.br/index.php?option=com_content&id=13812&Itemid=995>. Acesso em: 14
mai. 2015.
MOLLÉRI, Jefferson Seide. Automatização do processo de condução de revisões sistemáticas
da literatura em engenharia de software. 2013. 192 f. Dissertação (Mestrado) - Curso de
Mestrado Acadêmico em Computação Aplicada, Universidade do Vale do Itajaí, Itajaí, Sc, 2013.
Disponível em: <http://www.univali.br/Lists/TrabalhosMestrado/Attachments/756/Jefferson Seide
Molleri-2013.pdf>. Acesso em: 11 jul. 2014.
MORRIS, L. V., FINNEGAN, C., & Wu, S.-S. Tracking student behavior, persistence and
achievement in online courses. The Internet and Higher Education, 8, 221–231. 2005.
MOYLE, S. ; JORGE, A. RAMSYS: A methodology for supporting rapid remote collaborative data
mining projects. ECML/PKDD 2001 Workshop on Integrating Aspects of Data Mining,
Decision Support and Meta-Learning: Internal SolEuNet Session. p. 20–31. 2001.
NEVES, José Luiz. Pesquisa qualitativa: Características, usos e possibilidades. Cadernode
Pesquisas em Administração. São Paulo. v. 1. n. 3. 1996.
OGWUELEKA, Francisca Nonyelum. Potential Value of Data Mining for Customer Relationship
Marketing in the Banking Industry. Advances In Natural And Applied Sciences. [s.i.], p. 73-78.
2009.
PLACKETT, R L. Karl Pearson and the Chi-Squared Test. International Statistical Review. [s.i.],
p. 59-72. abr. 1983.
POWERS, David M W. The Problem with Kappa. In: CONFERENCE OF THE EUROPEAN
CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 13., 2012,
Stroudsburg, PA. Proceedings of the 13th Conference of the European Chapter of the
Association for Computational Linguistics. Stroudsburg, PA: Acl, 2012. p. 345 – 355
PRATI, Ronaldo C; A BATISTA, G e A P; MONARD, M C. Curvas ROC para avaliação de
classificadores. IEEE Latin America Transactions, [s.i.], v. 6, n. 2, p.214-222, jun. 2008. Disponível
em: <http://dx.doi.org/10.1109/TLA.2008.4609920>. Acesso em: 30 jun. 2014.
133
PYZDEK, Thomas. The Six Sigma Handbook: The Complete Guide for Greenbelts, Blackbelts,
and Managers at All Levels, Revised and Expanded Edition. 2nd [s.i.]: Mc-Graw-Hill, 2003. 830 p.
SAMARANAYAKE, C.P.; CALDERA, H.A. A data mining solution on high failure rate in
Physical Science stream at the university entrance examination. In: INTERNATIONAL
CONFERENCE ON ICT AND KNOWLEDGE ENGINEERING, 10., 2012, Bangkok,
Thailand. Tenth International Conference on ICT and Knowledge Engineering. Bangkok,
Thailand: Institute Of Electrical And Electronics Engineers, 2012. p. 163 - 170.
SAS Institute. SAS Enterprise Miner: SEMMA. London, UK. Disponível em:
<http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/miner/semma.html >.
Acesso em: 03/07/2014.
SESU. Ministério da Educação. ProUni: Manual do Bolsista. 2013. Disponível em: <
http://prouniportal.mec.gov.br/images/pdf/manual_bolsista_prouni.pdf>. Acesso em: 19/05/2015.
SOLARTE, J. A Proposed Data Mining Methodoloy and Its Aplication to Industrial
Engineering, Master’s thesis, University of Tennessee, Knoxville. 2002.
SPRUIT, Marco; VROON, Robert; BATENBURG, Ronald. Towards healthcare business
intelligence in long-term care: An explorative case study in the Netherlands. Computers In
Human Behavior. Philadelphia, Pa, p. 698-707. jan. 2014.
TRANDAFILI, Evis et al. Discovery and evaluation of student's profiles with machine learning. In:
BALKAN CONFERENCE IN INFORMATICS, 5., 2012, Novi Sad, Serbia. Proceedings of the
Fifth Balkan Conference in Informatics. Novi Sad, Serbia: Acm, 2012. p. 174 - 179.
Two Crows Corporation. Introduction to Data mining and Knowledge Discovery. 3rd. Potomac,
MD: Two Crows Corporation, 1999. 36 p.
UGUZ, Harun. A hybrid system based on information gain and principal component analysis for the
classification of transcranial Doppler signals. Computer Methods And Programs In
Biomedicine. S.i., p. 598-609. set. 2012.
VIJAYLAXMI; BATRA, Gunjan; ALAM, M Afshar. PRESERVING PRIVACY IN DATA
MINING USING SEMMA METHODOLOGY. International Journal On Computer Science
And Engineering. [s.i], p. 853-858. maio 2012
WITTEN, Ian H.; FRANK, Eibe; HALL, Mark A. Data Mining: practical machine learning tools
and techniques. 3rd [s.i.]: Elsevier, 2011. 629 p.
XIA, Belle Selene; GONG, Peng. Review of business intelligence through data analysis.
Benchmarking: An International Journal. [s.i.], p. 300-311. jan. 2014.
ZENG, Xianyang. ZHENG, Hongxia Genders Differentials in Computer Sciences Education:
Analysis and Proposal. In: INTERNATIONAL WORKSHOP ONEDUCATION TECHNOLOGY
AND COMPUTER SCIENCE, 1., 2009, Wuhan, China. First International Workshop on
Education Technology and Computer Science. Wuhan, China: Institute Of Electrical And
Electronics Engineers, 2009. p. 494 - 497.
134
ZHANG, Zhiyu. Study and analysis of data mining technology in college courses students failed.
In: 2010 INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND
INTEGRATED SYSTEMS, 2010, Guilin, China. International Conference on Intelligent
Computing and Integrated Systems. Guilin, China: Institute Of Electrical And Electronics
Engineers, 2010. p. 800 - 802.
135
Apêndice A – Seleção da Ferramenta
Seleção de ferramenta para descoberta de conhecimento em base
de dados utilizando mineração de dados.
Roberto Gonçalves Augusto Junior
Universidade do Vale do Itajaí (UNIVALI) - Mestrado em Computação Aplicada
Orientador: Prof. Dr. Raimundo Celeste Ghizoni Teive
Resumo: Diversas ferramentas computacionais estão disponíveis atualmente para análise
e mineração de dados, podendo ser encontradas sob licença livre ou comercial. Em um
levantamento realizado em 2011 por Ralf Mikut e Markus Reischl foram relacionadas 89
ferramentas, sendo a escolha de uma destas uma atividade complexa. Este trabalho tenta
minimizar a possiblidade de um viés na escolha através do uso de seis pré-requisitos para
seleção :licença de uso livre, foco em mineração de dados, disponibilidade de vários
algoritmos, disponível para Windows, não ser especializada em apenas um tipo de
algoritmo, ter uma versão lançada a partir de 2012,ser uma ferramenta independente e
não apenas uma interface para outra. Além disto, foi considerado a análise de:
usabilidade; desempenho e aceitação pela comunidade. O estudo partiu do levantamento
de 2011 aplicando o filtro de pré requisitos e chegou-se a quatro ferramentas: KNIME,
Rapidminer, Tanagra e Weka. Dentre estas, a que mais se destacou foi a ferramenta
Rapidminer sem, entretanto, encontrar justificativa para que se descarte qualquer uma
das outras três.
Palavras-chave: Ferramenta, Descoberta de Conhecimento, KDD, Mineração de Dados,
Educação.
136
1. Introdução
Nos últimos anos houve um aumento expressivo no número de Instituições de Ensino
Superior (IES) no Brasil, crescendo de 1.180 no ano 2000 para 2.365 em 2010, números que
deveriam ser comemorados pela sociedade, mas de maneira antagônica, vem despertando
preocupação pela baixa qualidade do ensino oferecido em muitas destas. (INEP,2011) (CRM-MT,
2010)(OAB, 2012)
Apesar de apenas 12% da população brasileira entre 35 e 44 anos terem completado algum
curso superior, contra 24% no Chile e 43% nos EUA, houve no Brasil quase 5,44 milhões de
matrículas em cursos de graduação presencial. (INEP,2013)(EDITORA MODERNA, 2013)
A gestão informatizada da vida acadêmica destes alunos gera para as instituições um volume
cada vez maior de dados, que muitas vezes são utilizados apenas em relatórios administrativos e
análise estatística. A disponibilização aos gestores de IES, de informações acadêmicas, obtidas a
partir destes dados, pode ser considerada um grande desafio. (PASTA, 2011) (TRANDAFILI et al.,
2012) (ZHANG, 2010)
Conhecer as informações ocultas nos dados armazenados pelas IES pode dar aos gestores
subsídios para melhorar o desempenho acadêmico de alunos, o que se torna ainda mais importante
em situações onde alunos possuem conhecimento, de ensino fundamental e médio, abaixo do
esperado. Segundo o indicador INAF Brasil (IPM, 2011), apenas 35% dos alunos do ensino médio
foram considerados plenamente alfabetizados em pesquisa realizada entre dezembro de 2011 e abril
de 2012.
É possível encontrar na literatura trabalhos com o objetivo de conhecer diferentes aspectos
destes dados. Zeng e Zheng (2009) investigam as diferenças entre os gêneros em um curso de
ciências da computação. Samaranayake e Caldera (2012) buscam identificar os motivos que levam a
altas taxas de reprovação em um exame para admissão da educação superior, nas áreas de física e
biologia no Sri-Lanka. Macfadyen e Dawson (2010), analisando dados de um ambiente educacional
on-line, afirmam poder dizer com 70,3% de acurácia (utilizando um modelo baseado em regressão
logística utilizando variáveis como número de logins no AVA, tempo on-line, número de postagens
em fóruns do AVA, avaliações completadas, dentre outras), se o aluno entrará para o grupo “em
risco de reprovação” que, para estes autores, incluem os alunos que têm maior probabilidade de
alcançar uma nota abaixo de 6.
Zhang (2010) analisa dados de estudantes que reprovaram para localizar padrões entre estes
alunos. Carmona et al. (2011), realiza uma análise de dados de um AVA para localização de
padrões de desempenho de alunos. Trandafili et al. (2012) utiliza clusterização e regras de
associação para também realizar uma segmentação de perfis de estudantes.
Todos estes autores citados acima estão preocupados com o ensino superior e com questões
relativas ao processo ensino-aprendizagem e utilizam como tarefas de mineração de dados para
investigação destes aspectos.
2. Objetivo
O objetivo deste trabalho é propor um método de seleção dentre as ferramentas de
mineração de dados disponíveis, encontrando as que melhores se adequam ao trabalho de
descoberta de conhecimento em base de dados através de mineração de dados.
137
3. Justificativa
Dos artigos citados na introdução: Zeng e Zheng (2009), Zhang (2010), Carmona et al.
(2011), Samaranayake e Caldera (2012), Macfadyen e Dawson (2010), Trandafili et al. (2012),
apenas Zhang (2010), Carmona et al. (2011) Trandafili et al. (2012) descrevem qual ferramenta
utilizaram em seus trabalhos, sendo MS-SSAS, KEEL e Weka, respectivamente.
Apenas Carmona et al. (2011) descreve o critério de escolha da ferramenta de mineração de
dados (MD), o qual foi pré-requisito, já que o trabalho envolveu um estudo de caso para apresentar
a utilização da ferramenta KEEL.
Zhang (2010) e Trandafili et al. (2012) apenas citam as ferramentas que foram utilizadas
sem, entretanto descrever o motivo da escolha.
Assim, por não haver, nos trabalhos citados, uma ferramenta que se destaque, optou-se por
realizar uma pesquisa e avaliação de possíveis opções.
4. Questões de pesquisa
Este trabalho pretende responder às seguintes questões de pesquisa:
Q1: Quais as ferramentas para MD estão disponíveis para serem utilizadas em estudos
acadêmicos sem que seja necessário pagar por licenças de uso?
Q2: Das ferramentas disponíveis quais aparentam ter melhor usabilidade?
Q3: Das ferramentas disponíveis, quais aparentam ter melhor desempenho?
Q4: Das ferramentas disponíveis, quais são a mais utilizadas pela comunidade científica e na
comunidade em geral, em função das citações?
5. Análise das ferramentas disponíveis
Foram realizadas três buscas exploratórias nas fontes de dados da Tabela 1. Uma delas
buscando a string “data mining software”, em outra a string buscada foi “data mining tools” e na
terceira a string bucada foi “data mining comparison”.
Nome da Fonte
Link de Acesso
ACM Digital Library
http://portal.acm.org
Google Scholar
http://scholar.google.com
IEEExplore
http://ieeexplore.ieee.org
ScienceDirect
http://www.sciencedirect.com
Tabela 1. Fontes de Dados.
Na fonte de dados “Google Scholar” foi localizado o trabalho de Mikut e Reischl (2011) que
apresentada um histórico do desenvolvimento de ferramentas de mineração de dados, e o estado da
arte destas. Foram relacionadas 53 ferramentas comerciais e 36 não comerciais.
Mikut e Reischl (2011) também propõe um critério para categorização das ferramentas de
mineração de dados, baseado em : grupos de usuário,estruturas de dados que podem ser analisados,
tarefas de mineração, visualização de dados e interação com a ferramenta, recursos de importação e
138
exportação de dados e modelos,
(comercial/livre/código aberto).
plataformas
(sistemas
operacionais)
e
licenças
O estudo de Mikut e Reischl (2011) foi utilizado como ponto de partida na buca pela
resposta da questão de pesquisa Q1: Quais as ferramentas estão disponíveis para serem utilizadas
em estudos acadêmicos sem que seja necessário pagar por licenças de uso? As questões de pesquisa
Q2, Q3 e Q4, entretanto, não podem ser respondidas por Mikut e Reischl (2011).
Pela classificação de grupo de usuário proposta em Mikut e Reischl (2011), estudos como os
elaborados por Zeng e Zheng (2009), Zhang (2010), Carmona et al. (2011), Samaranayake e
Caldera (2012), Macfadyen e Dawson (2010), Trandafili et al. (2012) se encaixam no que foi
nomeado por eles como “grupo de usuários: pesquisa aplicada”, que é descrito como:
Um grupo de usuários que aplica mineração de dados para problemas de
pesquisa, por exemplo, tecnologia e ciências da vida. Estes usuários são
interessados em ferramentas com métodos comprovados, interface gráfica (GUI) e
interfaces para os formatos de dados a serem estudados ou banco de dados.
Mikut e Reischl (2011) destacam que, dentre os softwares disponíveis, os que são mais úteis
ao “grupo de usuários: pesquisa aplicada” são os softwares do tipo Data Mining Suites (DMS),
Mathematical Packages (MAT) e Integration Packages (INT).
Estes softwares, são classificados ainda em dois subgrupos: (a) Softwares Comerciais; (b)
Softwares Livre/Código Aberto. No subgrupo (b), Mikut e Reischel optaram por incluir também os
softwares comerciais que disponibilizam licença para uso acadêmico.
Seguindo o trabalho de Mikut e Reischl (2011), das 89 ferramentas enumeradas, foram préselecionados para análise neste trabalho 39 ferramentas com potencial para serem utilizadas. Destas
ferramentas, 27 são comerciais e 12 podem ser utilizadas sem custo. A relação das ferramentas é
apresentada nas Tabela 2- Softwares Comerciais e Tabela 3-Softwares Livre/Código Aberto.
Ferramenta
1 ADAPA (Zementis)
2 Alice (d’Isoft)
3 Data Applied
4 DataDetective
5 DataEngine
Ferramenta
6 Datascope
7 GhostMiner
8 IBM SPSS Modeler
9 IBM SPSS Statistics
10 iModel
11 JMP
12 KnowledgeStudio
13 KXEN
Tipo Site
DMS www.zementis.com
DMS www.alice-soft.com
DMS data-applied.com
DMS www.sentient.nl/?dden
DMS www.dataengine.de
Tabela 2. Softwares Comerciais
Tipo
DMS
DMS
DMS
MAT
DMS
DMS
DMS
DMS
Site
www.cygron.hu
www.fqs.pl/businessintelligence/products/ghostminer
www.spss.com/software/modeling/modeler
www.spss.com/software/statistics
www.biocompsystems.com/products/imodel
www.jmpdiscovery.com
www.angoss.com
www.kxen.com
139
14
15
16
17
18
19
20
21
22
23
24
MATLAB
MAT www.mathworks.com
Model Builder
DMS www.fico.com
Oracle Data Mining (ODM)
DMS www.oracle.com/technology/products/bi/odm/index.html
Partek Discovery Suite
DMS www.partek.com/software
PolyAnalyst
DMS www.megaputer.com/polyanalyst.php
R-PLUS
MAT www.experience-rplus.com
SAS Enterprise Miner
DMS www.sas.com/products/miner
SPAD Data Mining
DMS eng.spadsoft.com
SQL Server Analysis Services
DMS www.microsoft.com/sql
STATISTICA
DMS www.statsoft.com/products/data-mining-solutions/G259
SuperQuery
DMS www.azmy.com
Think Enterprise Data Miner
25 (EDM)
DMS www.thinkanalytics.com
26 TIBCO Spotfire
DMS spotfire.tibco.com
27 Unica PredictiveInsight
DMS www.unica.com
Tabela 2. Softwares Comerciais (continuação)
Ferramenta
Tipo Site
D2K (comercial, com versão
1 livre para uso acadêmico)
DMS alg.ncsa.uiuc.edu
2 Gait-CAD
INT sourceforge.net/projects/gait-cad
3 Gnome Data Mine Tools
DMS www.togaware.com/datamining/gdatamine
4 KEEL
INT www.keel.es
5 Kepler
MAT kepler-project.org
6 KNIME
INT www.knime.org
7 R
MAT www.r-project.org
8 RapidMiner
DMS www.rapidminer.com
9 Rattle
INT rattle.togaware.com
cran.r10 RWEKA
INT project.org/web/packages/RWeka/index.html
eric.univ-lyon2.fr/
11 TANAGRA
INT ricco/tanagra/en/tanagra.html
12 WEKA
DMS sourceforge.net/projects/weka
Tabela 3. Softwares Livre/Código Aberto
5.1 Pré-requisitos da seleção
Dadas as ferramentas pré-selecionadas através das sugestões publicadas por Mikut e Reischl
(2011), faz-se necessário apresentar os pré-requisitos para seleção daquelas que possuem maior
aplicação em trabalhos de descoberta de conhecimento em base de dados, através de mineração de
dados.
Foram elencados os seguintes pré-requisitos para a seleção de ferramentas candidatas:
P1 - Ter licença de uso livre para academia;
P2 - Ter como foco principal a mineração de dados;
140
P3 - Fornecer mais de um algoritmo para cada uma das seguintes tarefas: classificação,
regras de associação e clusterização;
P4 – Poder ser executada em desktop com sistema operacional Windows;
P5 – Não ser especializada em apenas um tipo de algoritmo (Redes Neurais, Algoritmos
Evolucionários; Algoritmos Estatísticos);
P6 – Ter uma versão lançada a partir de 2012;
P7 – Ser uma ferramenta independente e não apenas uma interface para outra;
Considerando o pré-requisito P1, pode-se eliminar todos as ferramentas comerciais
relacionadas na Tabela 2.
Pelo pré-requisito P2, pode-se também eliminar as ferramentas de pacotes matemáticos
Kepler e R, restando assim para análise mais detalhadas, as 12 ferramentas apresentadas na Tabela
4.
Ferramenta
D2K (comercial, com versão
1 livre para uso acadêmico)
2 Gait-CAD
3 Gnome Data Mine Tools
4 KEEL
6 KNIME
8 RapidMiner
9 Rattle
10 RWEKA
11 TANAGRA
12 WEKA
Tipo Site
DMS
INT
DMS
INT
INT
DMS
INT
alg.ncsa.uiuc.edu
sourceforge.net/projects/gait-cad
www.togaware.com/datamining/gdatamine
www.keel.es
www.knime.org
www.rapidminer.com
rattle.togaware.com
cran.rINT project.org/web/packages/RWeka/index.html
eric.univINT lyon2.fr/~ricco/tanagra/en/tanagra.html
DMS sourceforge.net/projects/weka
Tabela 4. Ferramentas que atendem aos critérios P1 e P2
Analisando as ferramentas da Tabela 4, foram excluídas pelos pré-requisitos P2 a P9, as
seguintes:
D2K: O link apresentado no trabalho de Mikut e Reischl (2011) não é um link válido em
25/03/2012. No site KDNuggets9, na mesma data, esta ferramenta é apresenta como sem
desenvolvimento de novas versões desde 2004. Foi eliminada pelo pré-requisito P6.
Gait-CAD: É uma toolbox que permite mineração de dados dentro da ferramenta MatLab.
Apesar de ser uma ferramenta disponibilizada sobre a licença GNU General Public Licence, que
não implica em custo de utilização, esta ferramenta é executada dentro do software MatLab, que é
9
Disponível em: http://www.kdnuggets.com Acesso em: 29/05/2014
141
um software proprietário. Esta dependência faz com que a ferramenta seja excluída pelo prérequisito P1.
Gnome Data Mine Tools: É o pacote de conjunto de ferramentas distribuídas sobre licença
GNU General Public License. Esta ferramenta foi desenvolvida para ser utilizada sobre o sistema
operacional Linux, o que a exclui pela pré-requisito P4.
KEEL: É uma ferramenta que disponibiliza acesso a algoritmos evolucionários para solução
de problemas de mineração de dados como regressão, classificação clusterização, descoberta de
padrões, entre outros. É disponibilizado sob a licença GPLv3, a qual permite a utilização sem
custos.
Possui
versão
atualizada,
de
29/01/2014
(em
25/03/2014
site
http://sci2s.ugr.es/keel/download.php#software). Apesar de disponibilizar alguns poucos algoritmos
como apriori e C4.5, ele é declaradamente um software para acesso de algoritmos evolucionários, o
que faz com que a ferramenta seja excluída pelo pré-requisito P5.
Rattle: É uma interface gráfica para mineração de dados usando a ferramenta R. Por ser
apenas uma interface gráfica para utilização de alguns recursos da linguem R a ferramenta será
excluída pelo pré-requisito P7.
RWeka: É uma interface da linguagem R para ser utilizada dentro da ferramenta WEKA.
Por ser apenas uma interface gráfica para utilização de alguns recursos da linguem R a ferramenta
será excluída pelo pré-requisito P7.
Assim, das ferramentas apresentadas por Mikut e Reischl (2011), que atendem aos prérequisitos de P1 a P7 são KNIME, RapidMiner; Tanagra e Weka.
KNIME: É uma ferramenta de código aberto para todo o processo de mineração de dados,
que inclui: acesso aos dados, transformação dos dados, análise preditiva e visualização. Possui uma
versão comercial na qual são agregados serviços como suporte e correção de eventuais problemas
que venham a ser encontrados; ferramentas de workflow compartilhado e utilização de
processamentos em servidores. Pode ser executadas em diversas plataformas, entre elas a Windows.
RapidMiner: É um ambiente visual para análise preditiva, com uma interface gráfica para
desenho e análise de processos. Oferece modelos de análise de dados que diminuem a curva de
aprendizagem em diversos contextos como comparação de algoritmos, validação cruzada de um
modelo, utilização de algoritmos de clusterização e classificação, análise de compras e préprocessamento e classificação de textos. Pode ser executado em diversas plataformas, dentre elas, a
plataforma Windows.
O RapidMiner, apesar de ser uma ferramenta comercial, provê uma versão sem custo para
utilização, com restrição de acesso à dados via arquivos CSV ou EXCEL. Atualmente se encontra
na versão 6.0. A versão 5.0 teve o código fonte aberto e disponibilizada à comunidade. Este possui
todos os recursos da versão comercial, como acesso a banco de dados.
TANAGRA: É uma ferramenta livre de mineração de dados com propósitos acadêmicos e
de pesquisa. O objetivo principal desta ferramenta é propor aos pesquisadores uma arquitetura que
permite, facilmente, adicionar os próprios métodos de mineração. O TANAGRA atua mais como
uma plataforma experimental com o intuito de liberá-los para as tarefas essenciais de seus trabalhos.
Pode ser executado na plataforma Windows.
WEKA: É uma coleção de algoritmos de aprendizagem de máquina para tarefas de
mineração de dados. Contêm dados para pré-processamento, classificação, regressão, clusterização,
142
regras de associação, e visualização. É uma ferramenta open-source liberada sobre a licença GNU
General Public License.
A Tabela 5 apresenta as ferramentas apresentadas por Mikut e Reischl (2011) que cumprem
todos os pré-requisitos P1 a P7.
Ferramenta
6 KNIME
8 RapidMiner
Tipo Site
INT www.knime.org
DMS www.rapidminer.com
eric.univINT
lyon2.fr/~ricco/tanagra/en/tanagra.html
DMS sourceforge.net/projects/weka
11 TANAGRA
12 WEKA
Tabela 5 – Ferramentas que atendem aos pré-requisitos.
Assume-se neste estudo que a as ferramentas KNIME, RapidMiner, Tanagra e Weka
possuem as características necessárias para descoberta de conhecimento em base de dados através
de mineração de dados, seguindo os pré requisitos P1 a P6, sendo resposta para a questão Q1: Quais
as ferramentas estão disponíveis para serem utilizadas em estudos acadêmicos sem que seja
necessário pagar por licenças de uso?
6. Usabilidade das ferramentas
Para procurar evidências da boa usabilidade das ferramentas e responder a questão de
pesquisa Q2, foi realizada uma pesquisa exploratória com o objetivo de localizar algum
questionário que viabilizasse a inspeção por checklist dos softwares.
O questionário selecionado foi o ErgoList10 montado por uma equipe multidisciplinar
coordenada pelo Prof. Doutor Walter de Abreu Cybis, do Laboratório de Utilisabilidade da
Informática (LabIUtil) da Universidade Federal de Santa Catarina.
O questionário, composto por 194 questões, tem caráter didático destinado a exercícios de
inspeção que levem estudantes a identificar falhas ergonômicas mais flagrantes, o que é suficiente a
no escopo deste estudo.
A aplicação do questionário pode ser resumida pela Tabela 6. Resumo da Aplicação do
ErgoList.
KNIME RapidMiner Tanagra Weka
Questões Conformes
131
137
107 102
Questões Não
conformes
32
25
52
56
Questões Não
Aplicáveis
31
32
35
36
Total
194
194
194 194
Tabela 6. Resumo da Aplicação do ErgoList
10
Disponível em: http://www.labiutil.inf.ufsc.br/ergolist/. Acesso em 26/05/2014
143
A ferramenta RapidMiner foi a que teve um maior número de questões conformes: 137,
conforme pode ser observado na Tabela 6. Questões conformes são aquelas que estão de acordo
com os critérios de usabilidade do questionário. Em segundo lugar ficou a ferramenta KNIME com
131, a ferramenta Tanagra com 107 e por último a ferramenta Weka, com 102.
Mesmo quando considerado apenas as questões aplicáveis, ou seja, retirando as questões que
não fazem sentido no escopo da interface de cada software, o software RapidMiner teve o melhor
percentual de questões conformes, 84,57% e foi seguido pelo KNIME com 80,37%, Tanagra com
67,30% e Weka com 64,56% (102/158).
As perguntas e respostas do ErgoList para cada uma das ferramentas podem ser encontrada
no Apêndice A.
7. Desempenho de tarefas de clusterização e classificação
Uma análise detalhada do desempenho de cada uma das ferramentas exige um esforço que
extrapola o escopo deste trabalho. O objetivo desta seção é validar um algoritmo de cllassificação e
um algoritmo de clusterização comuns às ferramentas KNIME, RapidMiner, Tanagra e Weka, a fim
de ponderar se existe alguma delas com desempenho destoe das demais.
Para isso será utilizado o conjunto de dados Iris, originado do trabalho de Fischer (1936) que
é composto por 150 registros, cada um deles representando a flor de plantas das espécies Iris setosa,
Iris versicolor e Iris virginica, juntamente com as medidas, em centímetros, sepal length
(comprimento da sépala), sepal width (largura da sépala), petal length (comprimento da pétala),
petal width (largura da pétala). Este conjunto de dados é um benchmarking conhecido para
classificação.
Baseado no modelo linear de Fischer (FISCHER, 1936) sabe-se que, utilizando as medidas
disponíveis, separar as espécies Iris setosa da espécie Iris versicolor. Entretanto as medidas da
espécie Iris virginica assemelham-se às da espécie Iris versicolor.
Em outras palavras, através de análise estatística o conjunto de dados divide-se naturalmente
em dois clusters, um deles com registros da espécie Iris setosa e outro com registros das espécies
Iris versicolor e Iris virginica. Pode-se ainda realizar uma leitura com três clusters, um com registro
da espécie Iris setosa, um segundo com a maior parte de registros Iris versicolor e alguns registros
Iris virginica e um terceiro com a maior parte registros Iris virginica e alguns registros Iris
versicolor.
Uma análise detalhada das ferramentas KNIME, RapidMiner, Tanagra e Weka mostrou que
para tarefas de classificação, o algoritmo Naive Bayes é o que tem maior similaridade (de nome e
parâmetros) entre as três ferramentas. Já para tarefas de clusterização o algoritmo K-Means é o que
tem maior similaridade.
7.1 Classificação com algoritmo Naive Bayes
A tarefa de classificação é definida por Goldschmidt e Passos (2005) como uma função que
permita associar corretamente cada registro Xi de um conjunto de dados a um único rótulo
categórico Y.
O algoritmo Naive Bayes foi executado sobre o conjunto de dados Iris. Para calcular o
desempenho, foi utilizada a matriz de confusão, que apresenta os dados em duas dimensões: classes
verdadeiras e classes preditas, a diagonal principal da matriz representa os registos que a o
algoritmo efetivamente acertou. (GOLDSCHMIDT; PASSOS, 2005)
144
As Tabelas de 7 a 10 representam a matriz de confusão calculada para um dos softwares
KNIME, Rapidminer, Weka e Tanagra. Em cada uma delas foi calculada a acurácia da
classificação.
A acurácia do modelo indica o percentual de registros que do conjunto de dados que foi
classificado corretamente, forme fórmula: (WITTEN; FRANK; HALL, 2011)
𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 =
KNIME
Acurácia 94,67%
Classificado
Iris setosa
Classificado
Iris versicolor
Classificado
Iris virginica
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑅𝑒𝑔𝑖𝑠𝑡𝑟𝑜𝑠 𝐶𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑐𝑎𝑑𝑜𝑠 𝐶𝑜𝑟𝑟𝑒𝑡𝑎𝑚𝑒𝑛𝑡𝑒
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑅𝑒𝑔𝑖𝑠𝑡𝑟𝑜𝑠 𝐴𝑛𝑎𝑙𝑖𝑠𝑎𝑑𝑜𝑠
Verdadeiro
Iris setosa
Verdadeiro
Iris versicolor
Verdeiro
Iris virginica
50
0
0
0
45
5
0
3
47
Tabela 7 – Matriz de confusão do classificador Naive Bayes no KNIME
Rapidminer
Acurácia 96,00%
Classificado
Iris setosa
Classificado
Iris versicolor
Classificado
Iris virginica
Verdadeiro
Iris setosa
Verdadeiro
Iris versicolor
Verdeiro
Iris virginica
50
0
0
0
47
3
0
3
47
Tabela 8 – Matriz de confusão do classificador Naive Bayes no Rapidminer
Weka
Acurácia 96,00%
Classificado
Iris setosa
Classificado
Iris versicolor
Classificado
Iris virginica
Verdadeiro
Iris setosa
Verdadeiro
Iris versicolor
Verdeiro
Iris virginica
50
0
0
0
48
2
0
4
46
Tabela 9 – Matriz de confusão do classificador Naive Bayes no Weka
145
Tanagra
Acurácia 96,00%
Classificado
Iris setosa
Classificado
Iris versicolor
Classificado
Iris virginica
Verdadeiro
Iris setosa
Verdadeiro
Iris versicolor
Verdeiro
Iris virginica
50
0
0
0
48
2
0
4
46
Tabela 10 – Matriz de confusão do classificador Naive Bayes no Tanagra
Conforme apresentado, a ferramenta KNIME conseguiu uma acurácia de 94,67%.
Rapidminer, Weka e Tanagra, por sua vez, alcançaram 96% de acurácia no processo de
classificação de dados.
7.2 Clusterização com algoritmo K-Means
Goldschmidt e Passos (2005) definem clusterização como uma tarefa utilizada para
particionar os registros de uma base de dados em subconjuntos (clusters), de tal forma que
elementos de um cluster compartilhem um conjunto de propriedades comuns que os distingam dos
elementos de outros clusters.
O algoritmo K-Means, presente nas ferramentas KNIME, RapidMiner, Tanagra e Weka, foi
aplicado sobre o conjunto de dados Iris. Foi configurado para que fossem gerados 3 grupos. A
definição de três grupos alinha-se com a característica, descrita no trabalho de Fischer (1936), de
que existem no conjunto de dados três espécies Iris setosa, Iris versicolor e Iris virginica, com 50
registros de cada uma.
Assim, a configuração ideal seria um cluster com a 50 registros Iris setosa, outro com 50
registros Iris versicolor e outro com 50 registros Iris virginica.
Sabe-se, entretanto, que o tipo Iris setosa separa-se linearmente dos outros dois tipos, e que
os atributos dos tipos Iris setosa e Iris virginica possuem medidas que não possibilitam uma
separação linear entre os mesmos, o que deve dificultar a segmentação de dois clusters. (FISCHER,
1936)
As tabelas de 11 a 14 mostra o resultado da clusterização em cada uma das ferramentas.
KNIME
Cluster 0
Cluster 1
Cluster 2
Iris setosa
0
0
50
Iris versicolor
3
47
0
Iris virginica
36
14
0
Total Registros
39
61
50
Tabela 11. Clusters K-Means no KNIME
146
Rapidminer
Cluster 0
Cluster 1
Cluster 2
Iris setosa
50
0
0
Iris versicolor
0
3
47
Iris virginica
0
36
14
Total Registros
50
39
61
Tabela 12. Clusters K-Means no Rapidminer
Weka
Cluster 0
Cluster 1
Cluster 2
Iris setosa
0
50
0
Iris versicolor
47
0
3
Iris virginica
14
0
36
Total Registros
61
50
39
Tabela 13. Clusters K-Means no Weka
Tanagra
Cluster 1
Cluster 2
Cluster 3
Iris setosa
50
0
0
Iris versicolor
4
40
6
Iris virginica
0
15
35
Total Registros
54
55
42
Tabela 14. Clusters K-Means no Tanagra
Analisando os resultados apresentados nas tabelas de 11 a 14, pode-se notar que em cada um
dos três clusters gerados existe majoritariamente uma espécie, a qual foi destacada em negrito.
Os clusters que apresentam majoritariamente registros da espécie Iris setosa agrupam todos
os registros desta espécie são no resultado da clusterização de todas as ferramentas. As ferramentas
KNIME, Rapidminer e Weka não agregaram registros de outra espécie no mesmo grupo. Já o
resultado da ferramenta Tanagra incluiu no cluster da espécie Iris setosa quatro registros da espécie
Iris versicolor.
As ferramentas KNIME, Rapidminer e Weka geraram resultados iguais também para o
cluster majoritariamente composto por registros da espécie Iris setosa e Iris virginica.
As três ferramentas deixaram de fora 3 registros da espécie Iris versicolor agrupando um
total de 47 registros e incluíram neste cluster 14 registros que deveriam estar em outro cluster. Já a
ferramenta Tanagra agrupou menos registros Iris versicolor, apenas 40 e incluiu neste cluster um
registro errado totalizando 15 registros que não deveriam estar neste cluster.
Por consequência, o cluster da Iris virginica apresentado pelo Tanagra agrupou um registro
certo a menos e três registros errado a mais.
147
Um resumo das tabelas 11 a 14, em termos de exclusividade de espécies por cluster é
apresentado na tabela 15.
KNIME
Rapidminer
Weka
Tanagra
Cluster
majoritário
Iris setosa
Cluster
majoritário
Iris
versicolor
Cluster
majoritário
Iris
virginica
Registros
Ok
Registros
não OK
Registro
OK
Registros
não Ok
Registros
Ok
Registros
não Ok
Registros
Ok
Registros
não Ok
50
0
50
0
50
0
50
4
47
14
47
14
47
14
40
15
36
3
36
3
36
3
35
6
Tabela 15 – Resumo da clusterização do KNIME, Rapidminer, Weka e Tanagra
8. Aceitação das ferramentas
O objetivo desta seção é recolher indicativos que possam subsidiar a resposta da questão Q4:
Das ferramentas disponíveis, quais aparentam ser a mais utilizadas pela comunidade científica e na
comunidade em geral?
8.1 Ferramentas de mineração na comunidade científica
Para procurar indícios de qual das ferramentas em análise é mais utilizada na comunidade
científica, seus respectivos nomes foram pesquisados nas fontes de dados da Tabela 16 para
trabalhos científicos catalogados entre 01/01/2013 e 02/06/2014.
Nome da Fonte
ACM Digital Library
IEEExplore
ScienceDirect
Link de Acesso
http://portal.acm.org
http://ieeexplore.ieee.org
http://www.sciencedirect.com
Tabela 16. Fontes de dados para medida de aceitabilidade de ferramentas
Na busca avançada de cada uma das bases foram realizadas quatro consultas:
 “knime data mining”
 “tanagra data mining”
 “rapidminer data mining”
 “weka data mining”
A consulta foi realizada no dia 02/06/2014, o que inviabiliza a apresentação de trabalhos
posteriores à esta data.
A data de início do resultado das consultas foi 01/01/2013.
A Tabela 17 sintetiza a quantidade de artigos retornados para cada uma das dezesseis
consultas.
148
ACM
KNIME
RapidMiner
Tanagra
Weka
19
63
3
971
Total
IEEExplore ScienceDirect Artigos
68
21
28
213
95
55
19
7
9
2834
1126
737
Tabela 17. Total de artigos por base
Essa metodologia simples visa apenas servir de indicador do quão popular são as
ferramentas na comunidade acadêmica.
A adição das palavras “data mining” às pesquisas visa minimizar a possiblidade das
ferramentas de pesquisa disponibilizada pelas fontes de dados retornarem artigos não relacionados à
mineração de dados.
Mesmo com a simplicidade dessa análise, é difícil discordar que a ferramenta Weka é a mais
citada em artigos científicos, pois conta com 90,43% do total de resultados das 16 consultas
realizadas.
8.2 Ferramentas de mineração na comunidade em geral
A comunidade KDnuggets11, dedicada a assuntos relacionados à análise de dados, realiza
regularmente uma pesquisa para descobrir quais softwares tem sido mais utilizados.
A pesquisa apresentada em maio de 201212 questionava “Qual software de analise de dados,
mineração de dados e big data foram utilizadas nos últimos 12 meses para projetos reais?”.
A pesquisa teve 798 votos e a posição das ferramentas KNIME, Rapidminer, Weka e
Tanagra, o resultado podem ser vistas na Figura 1.
Figura 1 – Resumo do percentual de utilização das ferramentas pela comunidade
KDNuggets na pesquisa de 2012.
11
Disponível em: http://www.kdnuggets.com Acesso em: 29/05/2014
Disponível em: http://www.kdnuggets.com/polls/2012/analytics-data-mining-big-data-software.html Acesso em:
29/05/2014.
12
149
É importante notar que os percentuais referem-se ao total de votos em todas as ferramentas,
inclusive às que foram ocultadas da figura.
A ferramenta Tanagra não foi citada no resultado dessa pesquisa.
Assim, será considerado que, na comunidade a ferramenta Rapidminer é a mais utilizada,
seguida pela ferramenta KNIME, Weka e por último Tanagra.
9. Análise dos resultados
Baseado em Mikut e Reischl (2011), foram selecionadas quatro ferramentas para este
estudo, KNIME, Rapidminer, Tanagra e Weka, todas atendendo aos pré-requisitos P1 a P7.
Na seção 6. Usabilidade das ferramentas, foi identificado que a ferramenta Rapidminer
obteve o maior número absoluto de questões conformes dos critérios do checklis ErgoList e também
o maior percentual em reação às questões aplicáveis.
Na seção 7. Desempenho de tarefas de clusterização e classificação, foi identificado que a
tarefa de classificação do conjunto de dados Iris, para o algoritmo Naive Bayes, teve desempenho
semelhante nas quatro ferramentas. Já a clusterização do mesmo conjunto de dados feito pela
ferramenta Tanagra teve um desempenho inferior ao das ferramentas KNIME, Rapidminer e Weka.
Na seção 8.1. Ferramentas de mineração na comunidade científica, foram recolhidos indícios
de que a ferramenta Weka é a mais utilizada pela comunidade acadêmica, indícios estes que
apontam para uma utilização que pode chegar a mais de 90% dos trabalhos acadêmicos que utilizam
uma das quatro ferramentas analisadas.
Na seção 8.2. Ferramentas de mineração na comunidade em geral, utilizou-se o resultado da
pesquisa realizada junto aos membros da comunidade KDNuggets como indicador de que a
ferramenta Rapidminer é a mais utilizada na comunidade em geral.
Pelas análises das seções de 6 a 8, pôde-se responder às questões de pesquisa Q1 a Q4.
Q1: Quais as ferramentas estão disponíveis para serem utilizadas em estudos acadêmicos
sem que seja necessário pagar por licenças de uso?
R: Conforme visto na seção 5, as ferramentas mapeadas foram KNIME, Rapidminer,
Tanagra e Weka.
Q2: Das ferramentas disponíveis qual aparenta ter melhor usabilidade?
R: A ferramenta que aparenta ter a melhor usabilidade é a ferramenta RapidMiner.
Q3: Das ferramentas disponíveis, qual aparenta ter melhor desempenho?
R: As ferramentas que aparentam ter melhor desempenho, segundo as tarefas de
clusterização e classificação usando o arquivo de dados Iris foram KNIME, Rapidminer
e Weka.
150
Q4: Das ferramentas disponíveis, qual aparenta ser a mais utilizada pela comunidade
científica e na comunidade em geral?
R: A ferramenta que aparenta ser mais utilizada pela comunidade científica é a Weka, e
pela comunidade em geral é a Rapidminer.
Tendo como referencial as seções de 6 a 8, foi criada ainda a Tabela 18 contendo uma linha
para cada ferramenta, e uma coluna para cada critério analisado.
Nas células de intersecção entre critério e ferramenta foram definidas pontuações que podem
ser UM (caso tenha-se obtido indícios de que a ferramenta é melhor ou igual às outras) ou ZERO
(caso não tenha-se obtido indícios de que a ferramenta é melhor ou igual às outras).
A última coluna acrescentada à Tabela 18 foi chamada de “Pontos” e corresponde a soma de
pontos de cada ferramenta.
Desempenho
Aceitação da Comunidade
Usabilidade
Pontos
Classificação Clusterização
Acadêmica
Geral
KNIME
0
0
1
0
0
1
Rapidminer
1
1
1
0
1
4
Tanagra
0
1
0
0
0
1
Weka
0
1
1
1
0
3
Tabela 18. Indicador de possível melhor ferramenta para descoberta de conhecimento em base de
dados através de mineração de dados .
10. Conclusão
O trabalho de Mikut e Reischl (2011) apontou 89 ferramentas que podem ser utilizadas para
análise e mineração de dados, mostrando que existe um leque amplo de opções disponíveis àqueles
que realizam este tipo de tarefa.
Pelos parâmetros deste trabalho, a ferramenta que aparenta ter a melhor adequação aos
critérios que foram definidos é a ferramenta Rapidminer, mas pelo número elevado de algoritmos e
parâmetros disponíveis em cada uma dessas ferramentas não é possível realizar a afirmação de que
esta é certamente a melhor opção.
Se fosse analisado apenas o critério de aceitação da ferramenta pela comunidade científica,
por exemplo, a ferramenta Weka seria a adoção ideal, mas foram encontrados indícios de que esta
ferramenta possui usabilidade inferior à encontrada no Rapidminer. Também foram encontrados
indícios de que a ferramenta Weka é menos utilizada que a ferramenta Rapidminer pela comunidade
em geral.
Por não ser objetivo deste estudo obter uma resposta definitiva de qual a melhor ferramenta
a ser adotada, pode ser prudente não descartar totalmente a utilização das ferramentas KNIME,
Tanagra e Weka, e utiliza-las sempre que houver a suspeita de que estas possam trazer facilidades
e/ou resultados que porventura não sejam encontradas na ferramenta Rapidminer.
151
11. Referências
CARMONA, C.j. et al. Subgroup discovery in an e-learning usage study based on Moodle. In:
INTERNATIONAL CONFERENCE ON NEXT GENERATION WEB SERVICES PRACTICES,
7., 2011, Salamanca, Spain. 7th International Conference on Next Generation Web Services
Practices. Salamanca, Spain: Institute Of Electrical And Electronics Engineers, 2011. p. 446 - 451.
CRM-MT (Org.). Para CFM, exame realizado pelo MEC comprova crise no ensino médico.
2010.
Disponível
em:
<http://www.crmmt.cfm.org.br/index.php?option=com_content&view=article&id=21155:para-cfmexame-realizado-pelo-mec-comprova-crise-no-ensino-medico&catid=3>. Acesso em: 19 jun. 2013.
EDITORA MODERNA. Anuário Brasileiro da Educação Básica: 2012. Disponível em:
<http://www.moderna.com.br/responsabilidade-social/publicacoes/>, Acesso em: 19 jun. 2013.
FISHER, R. A. THE USE OF MULTIPLE MEASUREMENTS
PROBLEMS. Annals Of Eugenics. [s.i.], p. 179-188. 1936.
IN
TAXONOMIC
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. Rio de Janeiro:
Elsevier, 2005. 261 p.
INEP. Censo Ensino Superior - 2011. Brasília: INEP/Ministério da Educação. Disponível em:
<http://portal.inep.gov.br/superior-censosuperior-sinopse>. Acesso em: 19 jun. 2013.
MACFADYEN, Leah P.; DAWSON, Shane. Mining LMS data to develop an “early warning
system” for educators: A proof of concept. Computers & Education, p. 588-599. fev. 2010.
MIKUT, Ralf; REISCHL, Markus. Data mining tools. Wiley Interdisciplinary Reviews: Data
Mining and Knowledge Discovery. [s.i.], p. 431-433. set. 2011.
OAB (Org.). OAB Recomenda: indicador de educação jurídica de qualidade. Brasília: OAB,
Conselho Federal, 2012. 58 p.
PASTA, Arquelau. Aplicação da técnica de data mining na base de dados do ambiente de
gestão educacional: um estudo de caso de uma instituição de ensino superior de Blumenau-SC.
2011. 153 f. Dissertação (Mestrado) - Curso de Mestrado em Computação Aplicada, Universidade
do Vale do Itajaí, São José, 2011.
SAMARANAYAKE, C.P.; CALDERA, H.A. A data mining solution on high failure rate in
Physical Science stream at the university entrance examination. In: INTERNATIONAL
CONFERENCE ON ICT AND KNOWLEDGE ENGINEERING, 10., 2012, Bangkok,
Thailand. 2012 Tenth International Conference on ICT and Knowledge Engineering. Bangkok,
Thailand: Institute Of Electrical And Electronics Engineers, 2012. p. 163 - 170.
TRANDAFILI, Evis et al. Discovery and evaluation of student's profiles with machine learning. In:
BALKAN CONFERENCE IN INFORMATICS, 5., 2012, Novi Sad, Serbia. Proceedings of the
Fifth Balkan Conference in Informatics. Novi Sad, Serbia: Acm, 2012. p. 174 - 179.
152
ZENG, Xianyang. ZHENG, Hongxia Genders Differentials in Computer Sciences Education:
Analysis and Proposal. In: INTERNATIONAL WORKSHOP ONEDUCATION TECHNOLOGY
AND COMPUTER SCIENCE, 1., 2009, Wuhan, China. 2009 First International Workshop on
Education Technology and Computer Science. Wuhan, China: Institute Of Electrical And
Electronics Engineers, 2009. p. 494 - 497.
ZHANG, Zhiyu. Study and analysis of data mining technology in college courses students failed.
In: 2010 INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND
INTEGRATED SYSTEMS, 2010, Guilin, China. 2010 International Conference on Intelligent
Computing and Integrated Systems. Guilin, China: Institute Of Electrical And Electronics
Engineers, 2010. p. 800 - 802.
153
Apêndice B – Algorítmos de Clusterização, Regras de Associação e
Classificação do RapidMiner
Este apêndice apresenta as principais tarefas de mineração de dados da ferramenta
RapidMiner 5.0.
Legenda:
M: Aceita Missing Values (Dados Faltantes)
R: Aceita Rótulo (Label/Target)
B: Aceita Dados Binários
P: Aceita Dados Polinomiais
N: Aceita Dados Numéricos
Algoritmo
Default Model
K-NN
Tarefa
Classificação
Classificação
Naive Bayes (Kernel)
Classificação
Naive Bayes
Classificação
Perceptron
Neural Net
AutoMLP
Linear Regression
Seemingly Unrelated Regression
Polynomial Regression
Vector Linear Regression
Gaussian Process
Relevance Vector Machine
Logistic Regression
Logistic Regression (Evolutionary)
Support Vector Machine
Support Vector Machine (Linear)
Support Vector Machine (LibSVM)
Support Vector Machine
(Evolutionary)
Support Vector Machine (PSO)
Fast Large Margin
Hyper Hyper
Linear Discriminant Analysis
Quadratic Discriminant Analysis
Regularized Discriminant Analysis
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
Dados
Saída
M R B P N
X X X X X 1 valor para rótulo
X X X X X Resumo das dimensões e registros
Densidade dos atributos em
X X X X
relação aos outros
Descrição da distribuição do
X X X X X
modelo
X X
X Hiperplano
X X
X Rede Neural
X X
X Rede Neural
X
X Modelo regressão linear
X
X Modelo regressão linear
X
X Modelo regressão linear
X
X Modelo regressão linear
X
X Modelo regressão linear
X
X Modelo regressão linear
X
X Modelo de regressão logística
X
X Modelo de regressão logística
X
X Kernel Model
X
X LinearMySVM
X
X Kernel Model
Classificação
X
X Kernel Model
Classificação
Classificação
Classificação
Classificação
Classificação
Classificação
X
X
X
X
X
X
X
X
X
X
X
X
Kernel Model
Fast Linear Classification
HyperHyper Model
Quadratic Discriminant Model
Linear Discriminant Model
Regularized Discriminant Model
154
Algoritmo
Decision Tree (Weight-Based)
Tarefa
Classificação
Associação
Dados
M R B P N
Saída
X X X
Árvore de decisão
X X X
Árvore de decisão
CHAID
Classificação
Associação
Decision Tree
Classificação
Associação
ID3
Classificação
Associação
X X X
Árvore de decisão
Decision Stump
Classificação
Associação
X X X
Árvore de decisão
Random Tree
Classificação
Associação
X X X X X Árvore de decisão
Random Forest
Classificação
Associação
X X X X Árvore de decisão
Rule Induction
Classificação
Associação
X X X
Regras
Single Rule Induction
Classificação
Associação
X X
Regra
Single Rule Induction (Single
Attribute)
Classificação
Associação
X X X
Regra
Subgroup Discovery
Classificação
Associação
X X
Regras
X X X
Regras
Create Association Rules
k-Means
k-Means (Kernel)
k-Means (fast)
X-Means
k-Medoids
DBSCAN
Expectation Maximization
Clustering
Support Vector Clustering
Random Clustering
Classificação
Associação
Clusterização
Clusterização
Clusterização
Clusterização
Clusterização
Clusterização
X X X X X Árvore de decisão
X
X
X
X
X
X
X
X
X
X
X
X X
Registros identificados em clusters
Registros identificados em clusters
Registros identificados em clusters
Registros identificados em clusters
Registros identificados em clusters
Registros identificados em clusters
Clusterização
X Registros identificados em clusters
Clusterização
Clusterização
X X X Registros identificados em clusters
X X X Registros identificados em clusters
Cluster em forma de pastas com
X X X
subníveis.
X Registros identificados em clusters
Agglomerative Clustering
Clusterização
Top Down Clustering
Clusterização
X
155
Apêndice C – Definição dos Parâmetros de Algoritmos
Na Tabela 01 deste Apêndice é apresentado, a título de exemplo, o teste de configuração do
algoritmo “Decision Tree”. Além do critério de relevância do atributo, a tabela apresenta também as
seguintes colunas:
(MS) Tamanho mínimo de um nó (em número de registros/exemplos) para desdobramento;
(ML) Tamanho mínimo de um nó folha;
(MG) Ganho mínimo para divisão do nó (seguindo o critério escolhido);
(MD) Número máximo de níveis (maximal depth) da árvore;
(CF)
Confiança mínima, utilizada para poda dos galhos;
(PA)
Número de podas.
(P-)
Se usa ou não pré-poda;
(P+)
Se usa ou não uma pós-poda;
Tabela 01. Ajuste de parâmetros do algoritmo Decision Tree para CDADir e CDAEng.
Nr. Curso
1
2
3
4
5
Dir
Dir
Dir
Dir
Dir
Critério
MS ML MG MD CF
Divisão
AC
4
2 0.7 8
0.5
AC
0.5
300 2 0.7 8
AC
0.5
4 300 0.7 8
AC
4 150 0.7 8
0.5
AC
4
0.5
50 0.7 8
PA
P-
P+
3
3
3
3
3
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
%
Classificado
53,209
53,209
93,898
89,140
57,232
Acurácia
52,85
52,84
50,59
50,88
52,53
6
Dir
AC
4
50
0.9
8
0.5
3
Sim Sim
57,232
52,53
7
8
Dir
Dir
AC
AC
4
4
50
50
0.9
0.9
4
8
0.5
0.1
3
3
Sim Sim
Sim Sim
61,760
57,232
52,23
52,23
9
Dir
AC
4
50
0.9
8
0.5
3
Não Sim
53,209
52,84
10
Dir
AC
4
50
0.9
8
0.5
3
Sim Não
4,500
49,53
11
12
13
14
15
16
17
18
19
20
Dir
Dir
Dir
Dir
Dir
Dir
Dir
Dir
Dir
Dir
IG
IG
IG
IG
IG
GR
GR
GR
GR
GR
4
4
4
4
4
4
4
4
4
4
2
2
2
2
300
2
2
2
2
300
0.7
0.7
0.7
0.7
0.7
0.7
0.7
0.7
0.7
0.7
40
20
10
5
5
40
20
20
20
5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.7
0.5
0.3
3
3
3
3
3
3
3
3
3
3
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
100
100
100
100
100
100
100
100
100
100
48,26
48,26
48,26
48,26
48,26
48,26
48,26
48,26
48,26
48,26
21
Dir
GI
4
2
0.3
8
0.5
3
Sim Sim
93,127
54,77
22
23
24
Dir
Dir
Dir
GI
GI
GI
4
4
4
150 0.3
300 0.3
75 0.3
8
8
8
0.5
0.5
0.5
3
3
3
Sim Sim
Sim Sim
Sim Sim
80,499
98,008
80,582
57,58
54,80
57,57
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Observações
Parâmetro ML = 50 é um bom
número para que não sejam geradas
regras aplicáveis a 2 ou 3 registros,
classificando 57,23% dos exemplos
com acurácia de 52%
Testando a poda para Acurácia do
teste 6
Testando a poda para Acurácia do
teste 6
Só 1 regra “else BADA”
Só 1 regra “else BADA”
Só 1 regra “else BADA”
Só 1 regra “else BADA”
Só 1 regra “else BADA”
Só 1 regra “else BADA”
Só 1 regra “else BADA”
Só 1 regra “else BADA”
Só 1 regra “else BADA”
Só 1 regra “else BADA”
Primeiro teste a entender que
GDA_DIS depende diretamente da
aprovação, através da regra:“if
ALU_DIS_APR = N then BADA”
156
25
26
27
Dir
Dir
Eng
GI
GI
AC
4
4
4
50 0.3
200 0.3
2 0.7
8
8
8
0.5
0.5
0.5
3
3
3
Sim Sim
Sim Sim
Sim Sim
80,582
80,499
0,572
57,57
57,58
59,62
28
Eng
AC
4
300 0.7
8
0.5
3
Sim Sim
100
55,49
29
Eng
AC
4
150 0.7
8
0.5
3
Sim Sim
100
55,49
30
Eng
AC
4
50
0.7
8
0.5
3
Sim Sim
100
55,49
31
Eng
AC
4
50
0.9
8
0.5
3
Sim Sim
100
55,49
32
Eng
AC
4
500 0.7
8
0.5
3
Sim Sim
100
55,49
33
34
35
36
37
38
39
40
41
42
43
Eng
Eng
Eng
Eng
Eng
Eng
Eng
Eng
Eng
Eng
Eng
IG
IG
IG
GR
GR
GI
GI
GI
GI
GI
GI
4
4
4
4
4
4
4
4
4
4
4
2
2
2
2
2
2
50
2
2
2
2
40
40
40
40
40
8
8
8
13
8
8
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
0.5
3
3
3
3
3
3
3
3
3
3
3
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
0
0
0
0
0
0,570
0
0,572
0,572
0,572
0,572
59,62
59,62
59,62
59,62
59,62
0.7
0.7
0.3
0.1
0.1
0.3
0.3
0.7
0.7
0.1
0.1
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Sim
Não
Iniciando com parâmetros do teste 1
Apenas uma regra: “if DIS_OBR =
S then BADA”
Apenas uma regra: “if DIS_OBR =
S then BADA”
Apenas uma regra: “if DIS_OBR =
S then BADA”
Apenas uma regra: “if DIS_OBR =
S then BADA”
Apenas uma regra: “if DIS_OBR =
S then BADA”
Ao final, a melhor configuração para o algoritmo foi o apresentado na linha 23 da Tabela 01
deste Apêndice, com critério Coeficiente de Gini. Apesar deste ser a melhor configuração do
algoritmo “Decision Tree”, os outros critérios também foram documentados e analisados, conforme
apresentado na Tabela 20 disponível na Seção 5.1.1.6.
157
Apêndice D – Ofício 073/ProEn/2012: Liberação de dados para análise
Download