universidade do vale do itajaí centro de ciências

Propaganda
UNIVERSIDADE DO VALE DO ITAJAÍ
CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
APLICAÇÃO DE ALGORITMOS DE MINERAÇÃO DE DADOS PARA
IDENTIFICAÇÃO DE FATORES QUE INFLUENCIAM A EVASÃO DE
ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO DA UNIVALI
Área de Mineração de Dados
por
Mauricio Carniel
Luis Carlos Martins
Orientador
Itajaí (SC), novembro de 2013
UNIVERSIDADE DO VALE DO ITAJAÍ
CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
APLICAÇÃO DE ALGORITMOS DE MINERAÇÃO DE DADOS PARA
IDENTIFICAÇÃO DE FATORES QUE INFLUENCIAM A EVASÃO DE
ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO DA UNIVALI
Área de Mineração de Dados
por
Mauricio Carniel
Relatório apresentado à Banca Examinadora
do Trabalho Técnico Científico de
Conclusão do Curso de Ciência da
Computação para análise e aprovação.
Orientador: Luis Carlos Martins, Esp.
Itajaí (SC), novembro de 2013
RESUMO
CARNIEL, Mauricio. Aplicação de algoritmos de Mineração de Dados para
Identificação de Fatores que Influenciam a Evasão de Alunos do Curso de Ciência
da Computação da UNIVALI. Itajaí, 2013. 117. Trabalho Técnico-científico de Conclusão
de Curso (Graduação em Ciência da Computação) – Centro de Ciências Tecnológicas da Terra
e do Mar, Universidade do Vale do Itajaí, Itajaí, 2013.
A evasão escolar é um dos maiores e mais preocupantes desafios do Sistema
Educacional, pois é fator de desequilíbrio, desarmonia e desajustes dos objetivos educacionais
pretendidos. Apesar de diversas iniciativas, os índices de abandono do ensino superior pelos
alunos vêm aumentando, pois diversos fatores podem influenciar na continuidade dos alunos
no ensino superior. A identificação de possíveis fatores que possam influenciar a evasão, pode
ser auxiliada pelos sistemas de informação, que através de suas rotinas diárias coletam e
armazenam uma grande quantidade de dados, constituindo-se como fontes para aplicação do
processo KDD (Knowledge Discovery in Databases). A aplicação do processo KDD e de
Técnicas de Mineração de dados podem contribuir de forma significativa para descoberta de
conhecimento útil, propiciando assim subsídios para os gestores aplicarem medidas que possam
minimizar o problema da evasão. O presente trabalho abordou o tema evasão escolar em
instituições de ensino superior e utilizou dados dos alunos do curso de Ciência da Computação
da UNIVALI (Universidade do Vale do Itajaí), Campus Itajaí/SC, identificando grupos de risco,
faixa etária de alunos mais propensos a evasão e classificando alunos por tipo de afastamento.
Também foi possível identificar o perfil de alunos evadidos, além de sugerir novas pesquisas
com um foco mais específico no intuito de prever alunos propensos a evasão ou buscar possíveis
fatores e ou motivadores, para evasão destes alunos.
Palavras-chave: Evasão Escolar, KDD, Mineração de Dados, Instituições de Ensino Superior
e Descoberta de Conhecimento.
ABSTRACT
The evasion is one of the biggest and most troubling challenges Educational System,
because it is factor of disequilibrium, disharmony and misfits of intended educational goals.
Despite several initiatives, dropout rates of the higher education students are increasing
because many factors can influence the continuity of students in higher education. The
identification of potential factors that may influence evasion, can be aided by information
systems, which through their daily routines collect and store a large amount of data,
constituting themselves as sources for application of KDD process (Knowledge Discovery in
Database). The application of KDD process and Data Mining Techniques can contribute
significantly to the discovery of useful knowledge, thus providing subsidies for managers
implement measures to reduce the problem of evasion. This present work addressed theme the
school evasion in higher education institutions and uses data from students of Computer
Science UNIVALI Campus Itajaí / SC, identifying risk groups aged students more likely evasion
and classifying students by type of evasion. It was also possible to identify the profile of dropout
students, and suggest further research with a more specific focus in order to predict likely
students evasion or seek possible factors and motivators or for avoidance of these students.
Keywords: School dropout, KDD, Data Mining, Higher Education Institutions, Knowledge
Discovery.
LISTA DE FIGURAS
Figura 1 - Processo KDD ......................................................................................................... 28
Figura 2 - Modelagem Data Mart ............................................................................................. 53
Figura 3 - Alunos Ingressos entre 2008 e 2012 ........................................................................ 56
Figura 4 - Alunos evadidos entre os anos de 2008 a 2012. ...................................................... 56
Figura 5– Evasão dos alunos ingressos em 2008. .................................................................... 58
Figura 6 - Tipos de Afastamento dos alunos ingressos em 2008 (Detalhamento entre 2008 e
2012) ......................................................................................................................................... 59
Figura 7 - Evasão por semestre alunos ingressos em 2008/1 ................................................... 60
Figura 8 – Alunos evadidos por período acadêmico disciplinas mais cursadas no semestre da
evasão. ...................................................................................................................................... 64
Figura 9 - Disciplinas mais cursadas por alunos evadidos, agrupamento por área. ................. 65
Figura 10 – Resultado clusterização algoritmo SimpleKMeans, desempenho acadêmico, dados
afastamento alunos evadidos toda a pesquisa. .......................................................................... 69
Figura 11 – Resultado Clusterização algoritmo SimpleKMeans, 5 Clusters, alunos evadidos.
.................................................................................................................................................. 72
Figura 12 – Resultados para Clusterização, dados pessoais e de evasão dos alunos ............... 75
Figura 13 - Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho
acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. ................ 81
Figura 14 – Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho
acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento, exclusão de
atributos. ................................................................................................................................... 82
Figura 15 - Resultados para Associação algoritmo Apriori, todos os alunos, atributos pessoais
e de evasão. ............................................................................................................................... 84
Figura 16 – Resultados classificação, precisão por classe e Matriz de Confusão. ................... 87
Figura 17 - Resultado Classificação alunos evadidos por faixa de nota, algoritmo RandomTree.
.................................................................................................................................................. 89
Figura 18 - Resultado Classificação, todos os alunos, histórico escolar e afastamento. .......... 91
LISTA DE TABELAS
Tabela 1 - Indicadores do Censo da Educação Superior 2011 ................................................. 17
Tabela 2 – Censo da Educação Superior 2011 – Ciência da Computação: Evasão ................. 17
Tabela 3 – Alunos ingressos, Alunos Matriculados e Alunos Evadidos. ................................. 57
Tabela 4 - Detalhamento das Evasões dos Alunos Ingressos em 2008. ................................... 60
Tabela 5 - Distribuição da evasão para alunos ingressos em 2008/1. ...................................... 61
Tabela 6 – Cálculo da Taxa de Evasão Semestral. ................................................................... 62
LISTA DE QUADROS
Quadro 1 - Métodos de Mineração de Dados aplicáveis a cada Tarefa KDD .......................... 41
Quadro 2 - Resumo das Características do WEKA .................................................................. 45
Quadro 3 - Desenvolvimento Cálculo Taxa de Conclusão de Curso. ...................................... 62
Quadro 4 - Desenvolvimento Cálculo Taxa Evasão Semestral. ............................................... 63
Quadro 5 – Argumentos para clusterização algoritmo SimpleKMeans, desempenho acadêmico,
dados afastamento alunos evadidos toda a pesquisa. ............................................................... 66
Quadro 6- Argumentos para clusterização algoritmo SimpleKMeans, alunos evadidos. ........ 70
Quadro 7 – Argumentos para Clusterização, dados pessoais e de evasão dos alunos. ............. 73
Quadro 8 - Argumentos para Associação algoritmo PredictiveApriori, alunos tipo de
afastamento abandono, notas, disciplinas e categoria. ............................................................. 76
Quadro 9 – Resultados gerados pela ferramenta WEKA e interpretação, para Associação
algoritmo PredictiveApriori, alunos evadidos, tipo afastamento abandono nos anos
pesquisados. .............................................................................................................................. 76
Quadro 10 - Argumentos para Associação algoritmo Apriori, alunos evadidos, desempenho
acadêmico segmentado com período pré-estabelecido............................................................. 77
Quadro 11 - Argumentos para Associação algoritmo Apriori, alunos evadidos, desempenho
acadêmico segmentado com período pré-estabelecido............................................................. 77
Quadro 12- Argumentos para Associação algoritmo FPGrowth, alunos evadidos, desempenho
acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. ................ 79
Quadro 13- Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho
acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. ................ 80
Quadro 14 - Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho
acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. ................ 81
Quadro 15 - Argumentos para Associação algoritmo Apriori, todos os alunos, atributos pessoais
e de evasão. ............................................................................................................................... 83
Quadro 16 - Resultados para Associação algoritmo Apriori, todos os alunos, atributos pessoais
e de evasão. ............................................................................................................................... 83
Quadro 17 - Classificação utilizando o algoritmo JRip, por tipo de afastamento. ................... 85
Quadro 18 - Regras de classificação utilizando o algoritmo JRip, por tipo de afastamento. ... 85
Quadro 19 - Classificação alunos evadidos por faixa de nota, algoritmo RandomTree. .......... 88
Quadro 20 – Argumentos experiência classificação, todos os alunos, histórico escolar e
afastamento. .............................................................................................................................. 90
Quadro 21 - Forma de notação adotada na pesquisa ................................................................ 94
Quadro 22 - Classificação Disciplinas.................................................................................... 110
Quadro 23 – Tabela aluno_afastamentos(t0055) .................................................................... 114
Quadro 24 – Tabela alunos(t0001) ......................................................................................... 114
Quadro 25 – Tabela alunos_historico(t0023) ......................................................................... 114
Quadro 26 – Tabela alunos_periodoletivo(t0002) .................................................................. 115
Quadro 27 – Tabela avaliacoes_aluno(avaaluno) ................................................................... 115
Quadro 28 - Tabela avaliacoes_disciplina(avadisc) ............................................................... 115
Quadro 29 - Tabela Categoria_Disciplina .............................................................................. 116
Quadro 30 - Tabela classes(classe) ......................................................................................... 116
Quadro 31 - Tabela classes_alunos(aluclass) ......................................................................... 116
Quadro 32 - Tabela codigos_afastamento(t0034) .................................................................. 117
Quadro 33 - Tabela codigos_estadocivil(t0038) .................................................................... 117
Quadro 34 - Tabela codigos_tipoingresso(t0045) .................................................................. 117
Quadro 35 - Tabela codigos_tipomatricula(t0052) ................................................................ 117
Quadro 36 - Tabela curso(t0007)............................................................................................ 117
Quadro 37 - Tabela curso_curriculo(t0017) ........................................................................... 117
Quadro 38 – Tabela curso_curriculo_disciplina(t0018) ......................................................... 117
Quadro 39 - Tabela disciplinas(t0010) ................................................................................... 118
Quadro 40 - Tabela media_tipo_media(medprcse) ................................................................ 118
Quadro 41 - Tabela medias_parciais(medprcal) ..................................................................... 118
Quadro 42 - Tabela pre-requisitos(t0031) .............................................................................. 118
Quadro 43 - Tabela sexo......................................................................................................... 118
Quadro 44 - Tabela tipo_media(tipomedi) ............................................................................. 119
Quadro 45 - Tabela tipo_codigo_avaliacoes(TipAvaCod) ..................................................... 119
Quadro 46 - Tabela alunos(t0001) .......................................................................................... 120
Quadro 47 - Tabela alunos_periodoletivo(t0002) .................................................................. 123
Quadro 48 - Tabela aluno_afastamentos(t0055) .................................................................... 124
Quadro 49 - Tabela alunos_historico(t0023) .......................................................................... 124
Quadro 50 - Tabela codigos_afastamento(t0034) .................................................................. 124
Quadro 51 - Tabela codigos_tipoingresso(t0045) .................................................................. 124
Quadro 52 - Tabela curso(t0007)............................................................................................ 124
Quadro 53 - Tabela curso_curriculo(t0017) ........................................................................... 125
Quadro 54 - Tabela curso_curriculo_disciplina(t0018).......................................................... 126
Quadro 55 - Tabela disciplinas(t0010) ................................................................................... 126
Quadro 56 - Tabela pre-requisitos(t0031) .............................................................................. 127
Quadro 57 - Tabela classes(classe) ......................................................................................... 127
Quadro 58 - Tabela Avaliações(AvaMedia) ........................................................................... 128
Quadro 59 - Tabela Tipo_Curso(CurTipo) ............................................................................. 128
Quadro 60 - Tabela Medias_Parciais(MedPrcAl) .................................................................. 128
Quadro 61 - Tabela Avaliaçoes_Aluno(AvaAluno) ............................................................... 128
Quadro 62 - Tabela Avaliações_Disciplina(AvaDisc) ........................................................... 129
Quadro 63 - Tabela Classes_Alunos(AluClass) ..................................................................... 129
Quadro 64 - Scripts utilizados para importação das tabelas do banco de dados da UNIVALI.
................................................................................................................................................ 130
Quadro 65 – Scripts para seleção dos dados dos alunos matriculados entre 2008/1 a 2012/2
................................................................................................................................................ 131
Quadro 66 – Scripts para seleção dos atributos e criação das tabelas para carga no Data Mart
Evasão..................................................................................................................................... 132
Quadro 67 – Pré-processamento dos dados, problemas e correções ...................................... 138
LISTA DE ABREVIATURAS E SIGLAS
ARFF
CTG
CTTMAR
FIES
IES
IFSul
INEP
KDD
LDB
MEC
OLAP
PROUNI
SIES
SISU
SQL
TTC
TTC I
TTC II
UFPE
UFRGS
UFRJ
UNIVALI
Attribute-Relation File Format
Centro de Tecnologia e Geociência
Centro de Ciências Tecnológicas da Terra e do Mar
Fundo de Financiamento Estudantil
Instituições de Ensino Superior
Instituto Federal Sul-Rio-Grandense
Instituto Nacional de Estudo e Pesquisas Educacionais
Knowledge Discovery in Databases
Lei de Diretrizes e Bases da Educação
Ministério da Educação
On-line Analytical Processing
Programa Universidade para Todos
Sociedade Itajaiense de Ensino Superior
Sistema de Seleção Unificada
Structured Query Language
Trabalho Técnico-científico de Conclusão de Curso
Trabalho Técnico-científico de Conclusão de Curso – Parte 1
Trabalho Técnico-científico de Conclusão de Curso – Parte 2
Universidade Federal de Pernambuco
Universidade Federal do Rio Grande do Sul
Universidade Federal do Rio de Janeiro
Universidade do Vale do Itajaí
SUMÁRIO
1 INTRODUÇÃO .......................................................................................................................... 12
1.1 PROBLEMATIZAÇÃO ............................................................................................................. 15
1.1.1 FORMULAÇÃO DO PROBLEMA .................................................................................. 15
1.1.2 SOLUÇÃO PROPOSTA .................................................................................................... 18
1.2 OBJETIVOS................................................................................................................................ 18
1.2.1 OBJETIVO GERAL ........................................................................................................... 18
1.2.2 OBJETIVOS ESPECÍFICOS ............................................................................................. 18
1.3 METODOLOGIA ....................................................................................................................... 19
1.4 ESTRUTURA DO TRABALHO .............................................................................................. 21
2 FUNDAMENTAÇÃO TEÓRICA ............................................................................................. 23
2.1 DADOS........................................................................................................................................ 23
2.2 INFORMAÇÃO .......................................................................................................................... 24
2.3 CONHECIMENTO ..................................................................................................................... 24
2.4 DESCOBERTA DE CONHECIMENTO .................................................................................. 25
2.5 KDD - KNOWLEDGE DISCOVERY IN DATABASES ........................................................ 27
2.5.1 PRÉ – PROCESSAMENTO .............................................................................................. 28
2.5.1.1 SELEÇÃO ............................................................................................................................ 29
2.5.1.2 LIMPEZA ............................................................................................................................ 29
2.5.1.3 CODIFICAÇÃO .................................................................................................................. 30
2.5.1.4 ENRIQUECIMENTO ........................................................................................................ 30
2.5.1.5 NORMALIZAÇÃO ............................................................................................................. 30
2.5.2 MINERAÇÃO DE DADOS ............................................................................................... 31
2.5.3 PÓS-PROCESSAMENTO................................................................................................. 32
2.6 TAREFAS DE KDD ................................................................................................................... 32
2.6.1 ASSOCIAÇÃO .................................................................................................................... 33
2.6.2 CLASSIFICAÇÃO .............................................................................................................. 33
2.6.3 CLUSTERIZAÇÃO ............................................................................................................ 35
2.6.4 PREVISÃO ......................................................................................................................... 36
2.6.5 ESTIMATIVA .................................................................................................................... 36
2.7 MÉTODOS DE MINERAÇÃO DE DADOS............................................................................ 36
2.7.1 MÉTODOS BASEADOS EM REDES NEURAIS ........................................................... 37
2.7.2 MÉTODOS BASEADOS EM ALGORITMOS GENÉTICOS ........................................ 38
2.7.3 MÉTODOS BASEADOS EM INSTÂNCIAS .................................................................. 38
2.7.4 MÉTODOS ESTATÍSTICOS............................................................................................ 39
2.7.5 MÉTODOS ESPECÍFICOS ............................................................................................... 39
2.7.6 MÉTODOS BASEADOS EM INDUÇÃO DE ÁRVORES DE DECISÃO .................... 40
2.8 SISTEMAS DE APOIO A DECISÃO ....................................................................................... 41
2.8.1 DATA WAREHOUSE ....................................................................................................... 43
2.8.2 DATA MART ..................................................................................................................... 43
2.9 FERRAMENTA WEKA ............................................................................................................ 44
2.10 ............................ APLICAÇÃO DE MINERAÇÃO DE DADOS SOBRE BASES DE DADOS
EDUCACIONAIS – TRABALHOS RELACIONADOS.................................................................. 46
2.10.1 PREVISÃO DE ESTUDANTES COM RISCO DE EVASÃO UTILIZANDO
TÉCNICAS DE MINERAÇÃO DE DADOS. ................................................................................... 46
2.10.2 TÉCNICAS DE APRENDIZADO DE MÁQUINA APLICADAS NA PREVISÃO DE
EVASÃO ACADÊMICA .................................................................................................................... 47
2.10.3 APLICAÇÃO DE TÉCNICAS DE MINERAÇÃO DE DADOS NA PREVISÃO DE
PROPENSÃO À EVASÃO ESCOLAR............................................................................................. 48
2.10.4 METODOLOGIA DE ANÁLISE E TRATAMENTO DA EVASÃO E RETENÇÃO EM
CURSOS DE GRADUAÇÃO DE INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR ....... 49
3 DESENVOLVIMENTO ............................................................................................................. 51
3.1 BASE DE DADOS ...................................................................................................................... 51
3.2 O PROCESSO KDD ................................................................................................................... 53
3.2.1 PRÉ-PROCESSAMENTO ................................................................................................ 54
3.2.2 MINERAÇÃO DE DADOS ............................................................................................... 55
3.2.2.1 CLUSTERIZAÇÃO .............................................................................................................. 66
3.2.2.2 ASSOCIAÇÃO ...................................................................................................................... 75
3.2.2.3 CLASSIFICAÇÃO ................................................................................................................ 84
3.2.3 ANÁLISE DOS RESULTADOS ....................................................................................... 91
4 CONCLUSÕES ........................................................................................................................... 99
REFERÊNCIAS ................................................................................................................................ 104
APÊNDICE A – MODELAGEM BANCO DE DADOS SISTEMA ACADÊMICO UNIVALI .. 109
APÊNDICE B – CLASSIFICAÇÃO DAS DISCIPLINAS POR ÁREA ....................................... 110
APÊNDICE C – DICIONÁRIO DE DADOS DOS REFERENTE AOS ATRIBUTOS
CAPTADOS A PARTIR DAS TELAS DO SISTEMA ACADÊMICO DA UNIVALI –
MODELAGEM DATA MART........................................................................................................ 114
APÊNDICE D – LISTA DOS ATRIBUTOS EXCLUÍDOS EM CADA TABELA E A
JUSTIFICATIVA PARA EXCLUSÃO ........................................................................................... 120
APÊNDICE E – SCRIPTS PARA SELEÇÃO DOS DADOS ....................................................... 130
APÊNDICE F - PROBLEMAS COM DADOS (AJUSTES, CORREÇÕES)............................... 138
1 INTRODUÇÃO
O ensino superior no Brasil, nos últimos anos, vem crescendo tanto em número de
alunos quanto em Instituições de Ensino Superior (IES). A demanda pelo conhecimento e a
busca por melhores oportunidades no mercado de trabalho, vem alavancando de forma
exponencial este crescimento.
Dados do Censo da Educação Superior, apontam um crescimento de aproximadamente
168% no número de IES desde o início da década de 1980 até 2011. Neste mesmo período o
número de alunos que era de 1.377.286 nos anos de 1980, chega na faixa de 6.739.689 em 2011,
portanto um crescimento de aproximadamente 389%. O Censo da Educação Superior ainda
aponta uma crescimento substancial do número de cursos oferecidos, em 1984 o total de cursos
era de 3.806, já em 2011 saltou para 30.420, um crescimento de 699% aproximadamente (INEP,
1980, 2011)
Acompanhando este crescimento do ensino superior, um problema histórico e não
exclusivo do Brasil, aquece os debates entre educadores e gestores do ensino superior. A evasão
escolar que conforme Silva Filho et al (2007) explica, é um dos problemas que afligem as
instituições de ensino em geral e no ensino superior afeta o resultado dos sistemas educacionais
em âmbito internacional.
Evasão significa fuga, ação de evadir-se, escapar. Nesta linha evasão escolar é o ato de
evadir-se da escola, abandonar ou sair da instituição de ensino. Moraes e Theóphilo (2006),
definem evasão como o desligamento da instituição de ensino, sem que esta tenha controle do
mesmo. Segundo Ribeiro (2005), a evasão é o “desligamento do curso superior em função de
abandono (não matrícula), transferência ou reescolha, trancamento e/ou exclusão por norma
institucional; evasão da instituição na qual está matriculado; evasão do sistema: abandono
definitivo ou temporário do ensino superior”.
O combate a este problema tem gerado inúmeros debates e algumas iniciativas tomadas
na tentativa do entendimento dos fatores que geram este distúrbio demandam da área de
sistemas de informação. Os sistemas de informação são para as instituições a memória, o
histórico, aonde são guardados os dados relacionados a todo relacionamento com seus clientes
e fornecedores, alunos, professores ou qualquer outro. Para Oliveira (2002), praticamente todas
as empresas utilizam sistemas informatizados para realizar seus processos.
13
A utilização destes sistemas de informação, com o passar do tempo gera uma grande
quantidade de dados, dados estes que no formato e organização que geralmente se encontram
em suas bases de dados só poderão ser utilizados nas atividades transacionais, diárias de
relacionamento com os clientes. Pinheiro (2008), explica que devido a capacidade
armazenamento de dados e a automação dos processos, o volume de informações disponível
está cada vez maior, porém estes dados operacionais contribuem pouco para a tomada de
decisão.
Conforme Rezende e Abreu (2000), dados é um “elemento da informação, um conjunto
de letras, números ou dígitos”. Em uma IES, dados sobre os seus alunos são gerados
diariamente, quando um aluno novo faz sua matricula seu endereço, filiação, dados financeiros,
data de nascimento e outros são solicitados para fins de cadastro. O setor de bolsas de uma IES,
por sua vez, também retém uma grande quantidade de dados sobre os alunos. Além das fontes
de dados que são geradas no início da vida acadêmica, toda a interação do aluno com o meio
acadêmico é registrada e serve como histórico do aluno, notas, presença, disciplinas cursadas,
reprovações e uma gama de outras fontes de dados que podem ser armazenadas.
As IES, mantém dados sobre seu alunos, dados estes gerados pelo relacionamento entre
IES e aluno. Estes dados armazenados em bases de dados de sistemas de informação podem ser
utilizados, oferecendo-lhes o devido tratamento, na busca pelos fatores motivadores da evasão
escolar no ensino superior e na tentativa de minimizar o problema.
A informação é um bem muito valioso para as empresas e organizações em geral, ela é
a base do processo de tomada de decisão. Com base na informação os gestores podem definir
estratégias, traçar metas ou corrigir problemas em suas organizações. Conforme Moresi (2000),
pode se dizer que a informação é considerada um capital precioso, assim como os recursos de
produção, materiais e financeiros.
Informação é uma coleção de dados organizados de forma que façam sentido, que
denotem significado e sejam úteis para o processo de tomada de decisão (MIRANDA, 1999).
Para que um dado bruto torne-se uma informação é necessário que o mesmo sofra um
tratamento, que seja organizado a fim de que faça sentido e torne-se útil. Pinheiro (2008),
salienta que é fundamental a transformação dos dados em sua forma e conteúdo. Já Davenport
(2003) define a informação como um termo que engloba dados, informação e conhecimento,
abrangendo também a conexão entre os dados e o conhecimento obtido.
14
Mesmo com a organização dos dados gerando informação para suporte à tomadas de
decisões, muitas vezes não satisfazem as condições necessárias para que uma empresa tenha
diferencial competitivo. A partir deste ponto é necessário o uso de mecanismos especializados
para que a partir destes dados organizados sejam abstraídos conhecimentos.
Um conceito que pode ser usado para conhecimento é o descrito por Moresi (2000) que
define o conhecimento como o processo de análise e avaliação das informações, atendo-se a
confiabilidade, relevância e importância.
O processo denominado Descoberta de Conhecimento em Bancos de Dados, ou KDD
(do inglês, “Knowledge Discovery in Databases”), é composto por uma série de etapas e é
responsável pela descoberta de conhecimentos em bases de dados. A principal etapa deste
processo é a Mineração de Dados.
Focada na aplicação de técnicas Estatísticas e de Inteligência Artificial para análise de
interativa de dados e visando à identificação de padrões de comportamento, tendências ou
predições, a Mineração de Dados muitas vezes é confundida com o próprio KDD (PINHEIRO,
2008). Oliveira (2002) escreve que Mineração de Dados se trata de descoberta de informações
válidas, não óbvias de grandes quantidades de dados e de uma forma eficiente.
Apesar de diversos trabalhos voltados para a descoberta de possíveis motivações ou
padrões que possam levar a evasão dos alunos das IES tenham sido realizados, este tema ainda
possibilita uma variedade de outros estudos, principalmente utilizando o grande volume de
dados que as IES mantêm referente aos seus alunos e empregando a tecnologia da informação
disponível.
Para Silva Filho et al. (2007), enquanto no setor privado de 2% a 6% das receitas das
IES são despendidos com marketing para atrair novos estudantes, nada parecido é investido
para manter os estudantes já matriculados. Os autores completam afirmando que são raríssimas
as IES brasileiras que possuem um programa institucional profissionalizado de combate à
evasão, com planejamento de ações, acompanhamento de resultados e coleta de experiências
bem-sucedidas. Como política institucional no Planejamento Estratégico 2010-2015 a
UNIVALI instituiu estratégias para a Dimensão Capital Social, no qual se inserem ações dos
cursos de graduação para a redução do percentual de evasão de alunos do primeiro período,
bem como do curso (UNIVALI, 2012).
15
A UNIVALI teve sua história iniciada no ano de 1964 com registrado em cartório o
Estatuto da SIES (Sociedade Itajaiense de Ensino Superior), oficializando a criação das
faculdades pioneiras: a de Ciências Jurídicas e Sociais do Vale do Itajaí e a de Filosofia,
Ciências e Letras do Vale do Itajaí. Em 16 de fevereiro de 1989 a UNIVALI é reconhecida
como universidade pelo MEC (Ministério da Educação), mesmo ano da autorização para
criação do curso de Ciência da Computação (UNIVALI, 2013).
Em 16 de novembro de 1989, foi criado o curso de Ciência da Computação a fim de
suprir a demanda por profissionais qualificados e recursos de informática. Em março de 1990
foi iniciada a implantação no campus de Itajaí (SC) e posteriormente na região da Grande
Florianópolis, no Campus de Biguaçu, do 1º semestre de 1993 ao 1º semestre de 1999, e no
Campus São José, a partir do 2º semestre de 1999. Recentemente, a UNIVALI também passou
a oferecer o curso na unidade Ilha, em Florianópolis (SC) e na unidade Kobasol, em São José
(SC) (ibidem). O curso de Ciência da Computação na UNIVALI foi reconhecido pelo
Ministério da Educação e Desporto em 1994 e nestes mais de 20 anos de existência sempre
buscou acompanhar a evolução constante da área de Informática e da educação superior na
região e no Brasil. Contudo, apesar dos esforços para atrair e manter alunos a evasão tem sido
um desafio constante (ibidem).
O que pretendeu o pesquisador com a presente pesquisa foi aplicar técnicas de
Mineração de Dados sobre a base de dados dos alunos do curso de Ciência da Computação da
UNIVALI – Universidade do Vale do Itajaí, Campus Itajaí - SC, seguindo a metodologia do
processo KDD a fim de identificar fatores que possam influenciar no processo de evasão escolar
do curso e a aplicação dos conhecimentos adquiridos durante o curso de Ciência da Computação
nesta IES, nas áreas de Banco de Dados, Estatística e Inteligência Artificial.
1.1 Problematização
1.1.1 Formulação do Problema
A LDB (Lei de Diretrizes e Bases da Educação) em seu Art. 1º afirma que “a educação
abrange os processos formativos que se desenvolvem na vida familiar, na convivência humana,
no trabalho, nas instituições de ensino e pesquisa, nos movimentos sociais e organizações da
sociedade civil e nas manifestações culturais” (BRASIL, 1996). Portanto, a educação é mais do
que apenas aprender conteúdo, seguir ementa de disciplina, a educação é o conjunto da vivência
do ser humano, tudo que ele absorver durante a vida.
16
As grandes mudanças pelas quais a sociedade está passando, geram incertezas. As novas
tecnologias e a quebra de paradigmas, tornam a sociedade cada vez mais complexa e a educação
tem um papel fundamental neste processo de mudança, em todos os seus níveis, principalmente
na educação superior. Para Peleias et al. (2011), “a função das IES não é apenas capacitar os
acadêmicos para novos postos de trabalho, mas também para exercerem com consciência a
cidadania, e para tal, a autonomia, o senso crítico e o desenvolvimento intelectual são pontos
chaves no processo de inserção social e profissional”.
Acompanhando esta nova realidade do Brasil, o Governo Federal busca incentivar, por
meio de bolsas de estudos (PROUNI - Programa Universidade para Todos, FIES - Fundo de
Financiamento Estudantil) e vagas para alunos carentes em Instituições Públicas de Ensino
Superior (SISU - Sistema de Seleção Unificada), o ingresso e a continuidade dos alunos no
ensino superior. Além destas iniciativas outras podem ser enumeradas, como o Artigo 170 ou
também bolsas de estudos de empresas privadas, que tem a finalidade de incentivar seus
colaboradores e ou alunos que se destacam a cursar o ensino superior.
A principal finalidade do PROUNI é a concessão de bolsas de estudos integrais e
parciais em cursos de graduação e sequenciais de formação especifica, em instituições privadas
de educação superior (PROUNI, 2013). Apesar deste tipo de iniciativa ter um impacto positivo
na questão da evasão dos alunos nas IES elas não garantem a permanência dos mesmos no
ensino superior e isso se comprova a medida que verifica-se um aumento nos índices de
abandono, pois diversos fatores, podem influenciar na continuidade ou não dos alunos nas IES.
A evasão de alunos no ensino superior não é um problema apenas para a UNIVALI, mas
está presente em todas as Instituições de Ensino Superior - IES, tanto públicas quanto privadas.
Segundo Reinert & Gonçalves (2010), a evasão escolar compreende, em linhas gerais, o
abandono da escola durante o período letivo, ou seja, o aluno se matricula, inicia suas atividades
escolares, porém, em seguida deixa de frequentar a escola, por uma ou um conjunto de razões.
Souza (2008), afirma que “evasão é o desligamento do aluno, por sua própria decisão, do curso
e/ou instituição de ensino a qual está matriculado”.
Com o foco na captação de alunos por processos convencionais, tais como o Vestibular,
a universidade, de forma paradoxal, convive com uma evasão média da ordem de 40% ao final
do ciclo de um curso de graduação, comprometendo a sua produtividade. (NUNES, 2008).
Tomando como base o Censo da Educação 2011, verifica-se que os cursos de Ciência da
17
Computação, em geral, atingem índices maiores que os índices gerais dos demais cursos. Na
Tabela 1 pode-se verificar que somente 52,7% das vagas ofertadas são preenchidas, isso
considerando a totalidade dos casos (Instituições de Ensino Superior Pública e Privada). Se
forem isolados os dados e calculados os índices somente das IES Privadas, a situação se agrava
ainda mais, com apenas 47,3% das vagas ofertadas sendo preenchidas. Nos cursos de Ciência
da Computação este índice é de apenas 41% para IES Privadas, o que ocasiona uma grande
ociosidade para as instituições.
Tabela 1 - Indicadores do Censo da Educação Superior 2011
Dados Gerais
Indicadores
Instituições
IES Públicas
Ciência da Computação
IES Privadas
IES Públicas
IES Privadas
284
2.081
111
384
9.833
20.587
189
569
1.773.315
4.996.374
34.168
96.188
Concluintes
218.365
798.348
2.786
12.446
Vagas oferecidas
531.489
3.921.942
12.005
80.239
5.257.898
4.705.865
115.593
88.422
490.680
1.856.015
10.259
32.985
Cursos ofertados
Matrículas
Candidatos inscritos
Ingressos
Fonte: INEP, 2012.
Comparando as Tabelas 1 e 2 constata-se que a evasão escolar nos cursos de Ciência da
Computação em IES Privadas têm índices de evasão temporária (Matrícula Trancada) que
representa 20% dos alunos matriculados, enquanto que a evasão definitiva (Alunos
Desvinculados; Transferência para outros Cursos da IES; Falecidos) representa 29%.
Tabela 2 – Censo da Educação Superior 2011 – Ciência da Computação: Evasão
Indicadores
Públicas
Privadas
Matrícula Trancada
2.317
19.302
Alunos Desvinculados
5.334
25.081
282
2.695
6
17
Alunos Trans. Outros Cursos da IES
Alunos Falecidos
Fonte: INEP, 2012.
A evasão escolar atinge tanto IES Públicas quanto Privadas, e é motivador de inúmeras
discussões entre gestores e educadores, mas em geral apenas algumas IES mantêm programas
voltados à redução deste índice. Segundo Silva Filho et al, (2007), as perdas financeiras com a
evasão no ensino superior em 2009 chegaram a cerca de R$ 9 bilhões. Além das perdas
financeiras a ociosidade de instalações e educadores é outra consequência da evasão. Os cursos
das áreas de Ciências, Matemática, Computação, apresentaram índices médios de evasão entre
os anos de 2001 e 2005 de 28%, sendo que os cursos de Ciência da Computação atingiram 32%.
18
A UNIVALI, através de seu Sistema Acadêmico, mantém dados relacionados aos seus
alunos dos cursos de graduação, como Nome, Endereço, Data de Nascimento, Tipo de Ingresso,
Situação do Aluno, Bolsa de Estudos, Disciplinas Cursadas, Notas, Frequências, entre outros
dados. No período letivo compreendido entre 2010/1 e 2013/1, o Curso de Ciência da
Computação da UNIVALI, campus Itajaí – SC, registrou em média 273 alunos matriculados
por semestre, sendo que entre estes alunos em média 97 estavam entre o 1º e o 3º períodos do
curso, a estes semestres iniciais estão associados os maiores índices de abandono do curso.
O Sistema Acadêmico da UNIVALI, gera relatórios operacionais e gerenciais referente
ao cotidiano dos procedimentos acadêmicos e administrativos, porém não possui ferramentas
de análise de dados capazes de gerar o conhecimento necessário para identificação de possíveis
fatores que influenciam a evasão na IES sobre a base de dados disponível. Neste contexto a
aplicação do processo KDD sobre a base de dados da UNIVALI pode revelar conhecimentos
referentes a evasão escolar em IES.
1.1.2 Solução Proposta
A solução proposta teve o objetivo de aplicar Técnicas de Mineração de Dados sobre a
base de dados da UNIVALI, referente aos alunos matriculados no Curso de Ciência da
Computação, Campus Itajaí/SC, no período letivo compreendido entre 2010/1 e 2013/1 e que
cursavam entre o 1º e 3º períodos, a fim de descobrir padrões válidos, novos, potencialmente
úteis que possam influenciar a evasão escolar do curso e para que de posse deste conhecimento
os gestores tenham subsídios no processo de tomada de decisão.
1.2 Objetivos
1.2.1 Objetivo Geral
Este trabalho teve como objetivo geral a aplicação de algoritmos de mineração de dados
para identificação de possíveis fatores que influenciam a evasão dos alunos curso Ciência da
Computação da UNIVALI, do campus de Itajaí/SC, utilizando-se dos dados destes alunos
contidos na base de dados desta instituição.
1.2.2 Objetivos Específicos

Pesquisar sobre indicadores de Evasão Escolar, conceito e técnicas do processo
KDD e Mineração de Dados;
19

Revisar a literatura sobre sistemas de apoio a decisão com Data Warehouse/Data

Pesquisar na literatura referências de estudos sobre Evasão Escolar em
Mart;
Instituições de Ensino Superior a fim de identificar indicadores de análise, ações ou
experiências positivas que atualmente são realizadas no combate à evasão;

Identificar as variáveis e as fontes de dados de alunos do curso de Ciência da
Computação que tenham possível relação com a Evasão Escolar;

Implementar o Data Mart evasão de acordo com as etapas do processo de
descoberta do conhecimento;

Realizar o Pré-Processamento e a carga do Data Mart;

Definir as técnicas de mineração de dados de acordo com o problema de pesquisa
e aplicar os algoritmos utilizando a ferramenta WEKA;

Analisar os resultados e validar a solução desenvolvida com os especialistas da
área de ensino da UNIVALI.
1.3 Metodologia
O desenvolvimento deste trabalho se deu inicialmente por meio de uma revisão na
literatura sobre as áreas de abrangência da pesquisa. Inteligência Artificial, Estatística e Banco
de Dados formaram a base da pesquisa bibliográfica. Inicialmente, foi feita “a busca de
informações bibliográficas, seleção de documentos que se relacionam com o problema de
pesquisa (livros, verbetes de enciclopédia, artigos de revistas, trabalhos de congressos, teses
etc.) [...]” (MACEDO, 1994).
Na etapa inicial foram vistos índices de Evasão Escolar em IES, Descoberta de
Conhecimento em Bases de Dados estudando o processo KDD e suas fases, a utilização da
Mineração de Dados nesta descoberta de conhecimento com suas técnicas e tarefas de
mineração, foram também aprofundados os conhecimentos em banco de dados com o estudo
sobre Data Warehouse e Data Mart, estes estudos preliminares tiveram por finalidade dar o
embasamento necessário para o restante do trabalho a ser realizado.
20
Ainda na etapa do TTC I (Trabalho Técnico-científico de Conclusão de Curso – Parte
1), foram analisadas e identificadas as variáveis dos alunos do curso de Ciência da Computação,
que posteriormente foram substituídas pelos atributos extraídos diretamente da base de dados
do sistema acadêmico da UNIVALI e acabaram compondo a base de dados que foi utilizada no
processo KDD, tendo em vista as possíveis relações com a evasão escolar do curso. Com base
nestes atributos foi modelado o Data Mart que foi utilizado para armazenar os dados que foram
utilizados nas fases seguintes do KDD. Foram também pesquisados trabalhos similares,
soluções desenvolvidas por outros pesquisadores ou instituições a fim de identificar
ferramentas, técnicas ou quaisquer informações que de algum modo contribuíssem para o
trabalho desenvolvido.
O início do TTC II (Trabalho Técnico-científico de Conclusão de Curso – Parte 2) se
deu com a aplicação dos conhecimentos adquiridos na fase de pesquisa e fundamentação. Foi
trabalhado o processo KDD e as etapas de seleção dos dados, preparação, transformação,
mineração de dados, a análise e a avaliação dos resultados se deram nesta sequência. Em dado
momento houve a necessidade, devido às características do processo KDD, de repetições deste
ciclo de etapas buscando a geração de modelos de conhecimento melhores.
Foi feita uma análise na base de dados, a fim de identificar a melhor forma de migração
dos dados. Feita está migração os dados passaram por um tratamento, uma preparação, que
permitiu que valores faltantes, dados incorretos, não utilizáveis fossem corrigidos, os valores
faltantes preenchidos ou eliminados, dando forma adequada a base de dados para as etapas
posteriores.
Na transformação os dados foram normalizados, agrupados e convertidos em formatos
que pudessem ser entendidos pelo WEKA e também obtendo um melhor entendimento e
visualização dos mesmos. Na sequência o Data Mart foi implementado onde os dados foram
armazenados e posteriormente foram aplicados os algoritmos de Mineração de Dados através
da ferramenta WEKA.
A fase Mineração de Dados, ou aplicação de algoritmos de mineração, que ocorreu com
a utilização da ferramenta WEKA, se vale de tarefas de associação, classificação e clusterização
para descoberta de conhecimento e assim gerou um modelo de conhecimento que na última fase
do processo KDD foi analisado, interpretado e validado.
21
Na última etapa foram feitas as análises, interpretações do modelo de conhecimento
obtido e em alguns momentos, com resultado desta etapa não suficientemente satisfatório, o
ciclo do KDD foi repetido buscando de um modelo de dados melhor gerando conhecimento
útil.
1.4 Estrutura do Trabalho
A estrutura deste TTC (Trabalho Técnico-científico de Conclusão de Curso) está
dividida em quatro capítulos: Introdução, Fundamentação Teórica, desenvolvimento e
conclusões.
Na Introdução é apresentada uma breve descrição dos temas abordados, ambientando o
leitor ao tema que será desenvolvido, ainda neste capítulo e formulada a questão problema e
apresentada a solução proposta, na sequência são apresentados objetivos geral e específicos do
trabalho e finalizando a metodologia de desenvolvimento e a estrutura em que o trabalho se
apresenta.
No segundo capítulo Fundamentação Teórica, são abordados os conceitos e técnicas que
dão embasamento teórico ao projeto, sendo abordados e conceituados temas como: Dados,
Informação, Conhecimento, Descoberta de Conhecimento e Descoberta de Conhecimento em
Bases de Dados. O processo KDD e suas etapas está mais detalhado, abordando conceitos de
Seleção, Limpeza, Codificação, Enriquecimento, Normalização de dados, Data Warehouse e
Data Marts, Mineração de Dados (conceitos, etapas e tarefas), a Ferramenta WEKA e PósProcessamento. Para finalizar este capítulo são apresentados trabalhos relacionados ao tema,
trabalhos de outros pesquisadores e ou instituições que abordam os temas de evasão escolar em
IES e Mineração de Dados.
O capitulo três trata da aplicação do processo KDD desde a seleção do dados dos alunos
do curso de Ciência da Computação do campus Itajaí – SC, diretamente do sistema acadêmico
da UNIVALI, retratando ainda como estes dados foram organizados, tratados e migrados para
o Data Mart a aplicação dos algoritmos de mineração de dados e os resultados extraídos através
da ferramenta e das técnicas utilizadas.
No último capítulo são apresentadas as conclusões, um apanhado do trabalho realizado,
e uma avaliação da metodologia empregada, serão descritos os problemas enfrentados e as
22
soluções encontradas, bem como uma análise dos objetivos traçados e alcançados com relação
aos resultados obtidos e também a possibilidade de trabalhos futuros será abordada.
2 FUNDAMENTAÇÃO TEÓRICA
A busca pelo conhecimento, a análise de padrões, a formulação de hipóteses e testes
para validá-las, foram algumas das maneiras que a humanidade encontrou para aprender e
evoluir. Com o surgimento da computação o volume de dados gerado pelos sistemas de
informação tornou inviável a análise pelo homem sendo necessário o emprego de técnicas e
recursos computacionais para esta tarefa.
A mineração de dados faz parte de um processo maior denominado descoberta de
conhecimento em bases de dados, este processo pode ser dividido em 3(três) grandes grupos: o
Pré-processamento, a Mineração de Dados e o Pós-processamento.
Tendo em vista um bom entendimento do processo KDD, serão explanados a seguir os
conceitos de dados, informação e conhecimento e em seguida será abordado o tema descoberta
de conhecimento e suas particularidades.
2.1 Dados
Atendo-se a área de computação, a definição de dados pode ser dada da seguinte forma:
“[...] elemento da informação, um conjunto de letras, números ou dígitos [...]” (REZENDE;
ABREU, 2000). Expandindo a definição o mesmo autor complementa que dados, se tomados
de forma isolada, não transmite nenhum conhecimento, não contém um significado claro. Para
Stair; Reynolds (2006), mesmo não contendo significado claro de forma isolada, se trabalhados
os dados em seu conjunto podem representar fatos, e que se organizados e ordenados de forma
correta, podem gerar informações.
Os dados podem ser gerados por sistemas transacionais e a camada de dados é o
resultado da operação destes sistemas, responsáveis pela viabilidade das operações das
empresas (PINHEIRO, 2008). Segundo Batista (2006), dados são “[...] elementos que
expressam um fato isolado gerado por uma atividade que pode ser controlada, ou seja, tudo que
é gerado no dia-a-dia da empresa é um dado”.
Sendo assim, pode se dizer que dados são constituídos de fatos puros na sua forma
primária, descrição básica das coisas. Isoladamente não apresentam significado e são captados
e armazenados pelas instituições e podem ser tratados e organizados para gerar informação.
24
2.2 Informação
Inúmeras áreas do conhecimento conceituam o termo informação, embora algumas
delas não tenham relação direta com a informática, suas ideias podem ser utilizadas na tentativa
chegar a um entendimento sobre o termo.
Conforme estudos de Drucker (1999), informação é compreendida como dados
organizados dotados de significados. Para que dados torne-se informações os mesmos devem
passar por um processo de agrupamento e organização. Então:
A informação é todo o dado trabalhado, tratado e com um sentido natural e lógico
para quem a usa. O dado é entendido como um elemento da informação, um conjunto
de letras, números ou dígitos, que tomado isoladamente não transmite nenhum
conhecimento, ou seja, não contém um significado claro. O tratamento e a
estruturação de dados gera informações (REZENDE, 1999).
Miranda (1999), estende o conceito de informação dizendo que são dados organizados
de modo significativo e sendo subsidio útil ao processo de tomada de decisão. Na mesma linha
que Miranda (1999), o autor Pinheiro (2008) reforça que este conjunto de dados é capaz de
consolidar e sincronizar as informações. O mesmo continua destacando que este conjunto de
dados permite uma visão corporativa e também analítica dos cenários de mercado. Davenport
(2003), sintetiza o conceito definindo a informação como um termo que engloba dados,
informação e conhecimento, abrangendo também a conexão entre os dados e o conhecimento
obtido.
Como visto, informação pode ser dita como o resultante do agrupamento organizado,
trabalhado e tratado, dos dados armazenados por instituições, fornecendo algum significado ou
dando subsidio a tomada de decisões ou também sendo a conexão entre dados e conhecimento
obtido.
2.3 Conhecimento
Muito antes de se estudar sobre o significado de conhecimento ele foi necessário e
fundamental para subsistência do ser humano (OLIVA, 2011). O autor continua dizendo que o
saber filosófico veio depois e mais tarde ainda veio a ciência, antes de tudo a necessidade de
sobreviver motivou o desejo de conhecer.
25
Buscando um conceito para conhecimento pode-se apresentar a ideia de que
conhecimento é o “conjunto de ferramentas conceituais e categorias usadas pelos seres humanos
para criar, colecionar armazenar e compartilhar a informação” (LAUDON E LAUDON, 1999).
Já para Nonaka e Takeuchi (1997), o conhecimento está ligado a crenças e compromisso, sendo
relacionado à ação e ao significado, específico ao contexto. O processo de análise e avaliação
da informação, atendo-se a confiabilidade, relevância e importância (MORESI, 2000).
Alguns autores classificam o conhecimento por tipo, Miranda (1999) conceitua 3 (três)
tipos de conhecimento, conforme segue:

O conhecimento explícito: “é o conjunto de informações já elicitadas em algum
suporte (livros, documento etc.) e que caracteriza o saber disponível sobre tema específico”
(MIRANDA 1999);

O conhecimento tácito: “é o acúmulo de saber prático sobre um determinado
assunto, que agrega convicções, crenças, sentimentos, emoções e outros fatores ligados à
experiência e à personalidade de quem o detém” (MIRANDA 1999);

O conhecimento estratégico: “é a combinação de conhecimento explícito e tácito
formado a partir das informações estratégicas e de informações de acompanhamento,
agregando-se o conhecimento de especialistas” (MIRANDA 1999).
Neste contexto, a formação do conhecimento, para Rodriguez (2001), “começa por
eventos que ao ocorrer, resultam em dados. Estes dados ao serem tratados, manipulados e
interpretados, geram informações. As informações testadas, validadas e codificadas,
transformam-se em conhecimento”.
Pode-se verificar então que os conceitos de dados, informações e conhecimento se
complementam, e que cada um tem seu papel dentro de um processo maior denominado
descoberta de conhecimento.
2.4 Descoberta de Conhecimento
A sequência de conceitos abordados anteriormente traça o caminho que um dado bruto,
em sua forma original faz para tornar-se informação e posteriormente esta informação gerar
conhecimento.
26
Devido aos avanços na área de informática, tanto hardware como software, a relação
custo x desempenho, permitiu um aumento substancial da capacidade de armazenamento de
dados. As empresas e/ou entidades em geral passaram a acumular grandes quantidades de dados
oriundos de suas relações com seus clientes, dados estes utilizados em suas atividades
cotidianas (emissão de notas, controle de estoque, cadastro de clientes...).
Para Singh (2001), os dados estão por toda parte. Pesquisas indicam que os dados de
uma organização dobram a cada cinco anos e para serem competitivas as organizações precisam
aprender a administrar esta avalanche de informação. O diferencial competitivo é fundamental
para a permanecia no mercado atual. As empresas ou entidades necessitam analisar
periodicamente os dados gerados em seus bancos de dados em busca de informações novas e
úteis a fim de aperfeiçoar suas relações com os clientes, atraindo novos clientes, tornando-os
lucrativos, mantendo os clientes já conquistados e melhorando a lucratividade sobre eles e
reconquistando aqueles que deixaram de ser.
Oliveira (2002), é enfático ao ressaltar que em uma esfera altamente competitiva, as
informações assumem um papel fundamental para o sucesso e que são necessários critérios para
seleção e organização dos dados que interessam para manter as empresas competitivas.
Contudo, devido a quantidade cada vez maior de dados, a análise manual tornou-se
impraticável e o uso de técnicas auxiliadas por computador se tornaram fundamentais para
extração de conhecimento nestas bases de dados (FERRO; LEE, 2001). Sistemas de apoio a
decisão são utilizados para auxiliar e agilizar o processo de tomada de decisão das empresas.
Buscando obter ainda mais informações relevantes, as organizações utilizam os conceitos da
Mineração de Dados para extração de conhecimento das grandes massas de dados provenientes
de suas operações diárias.
Para Singh (2001), Mineração de Dados é o processo de extrair informações
desconhecidas e significativas de grandes volumes de dados para utilização na tomada de
decisão do negócio. Em consonância com Singh (2001), Oliveira (2002) escreve que Mineração
de Dados se trata de descoberta de informações válidas, não óbvias de grandes quantidades de
dados e de uma forma eficiente. Embora a Mineração de dados seja importante para descoberta
de conhecimento ela é uma parte de um conjunto maior de técnicas e procedimentos para
conversão de dados em informações, processo este denominado KDD.
27
Conforme descrito por Tan, Steinbach e Kumar (2009), a mineração de dados é uma
parte integral do KDD, que é o processo que engloba a transformação de dados brutos em
informações úteis e que consiste de uma série de outros passos. Na mesma linha Oliveira
(2002), contempla que a mineração de dados é considerada a principal fase do processo KDD,
mas que é responsável, exclusivamente, pelo algoritmo minerador, que busca extrair o
conhecimento implícito e potencialmente útil conforme a tarefa especificada.
2.5 KDD - Knowledge Discovery in Databases
Segundo Goldschmidt e Passos (2005), o termo KDD - Knowledge Discovery in
Databases foi formalizado em 1989, em referência ao amplo conceito de procurar conhecimento
a partir de base de dados. Já para Braga (2005), o termo KDD [...] “designa o conjunto de
processos, técnica e abordagens que propiciam o contexto no qual a mineração de dados terá
lugar”.
A Descoberta de Conhecimento em Bases de Dados reúne técnicas e algoritmos a fim
de descobrir conhecimento em bases de dados. O processo inicia-se a partir de uma base de
dados bruta, em seu formato original, percorrendo etapas predefinidas até chegar na análise dos
resultados obtidos.
Um dos conceitos mais utilizados é o de Fayyad et al (1996): “KDD é o processo não
trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis em
dados”. Hair et al. (1998), escreve que o KDD trata da “extração de nova informação a partir
de bases de dados por meio de uma variedade de processos de descoberta de conhecimento”.
As etapas do KDD, de uma forma simples, podem ser resumidas em três grupos: préprocessamento; mineração de dados; pós-processamento. Goldschmidt e Passos (2005), explica
que a etapa de pré-processamento compreende as funções relacionadas à captação, à
organização e ao tratamento dos dados. A etapa de pré-processamento tem como objetivo a
preparação dos dados para os algoritmos da etapa seguinte, a mineração de dados. Durante essa
etapa é realizada a busca efetiva por conhecimentos úteis no contexto da aplicação de KDD. A
etapa de pós-processamento abrange o tratamento do conhecimento obtido na mineração de
dados.
Segundo Fayyad et al. (1996), o processo KDD é composto de cinco etapas: seleção dos
dados; pré-processamento e limpeza dos dados; transformação dos dados; Mineração de Dados
28
(Data Mining); e interpretação e avaliação dos resultados. Já Silva Filho (2009) define etapas
distintas, a saber: seleção de dados, processamento e limpeza, transformação, mineração de
dados e interpretação e avaliação.
Como visto, tanto de Fayyad et al (1996), Goldschmidt e Passos (2005) e Silva Filho
(2009) demonstram as etapas do processo KDD de maneira equivalente, divergindo apenas em
algumas na nomenclaturas de fases. Na Figura 1, pode ser visto o processo KDD na visão
Fayyad et al (1996).
Figura 1 - Processo KDD
Fonte: Fayyad et al. (1996)
Para fins de estudo serão considerados os 3 (três) grupos citados por Goldschmidt e
Passos (2005): Pré-Processamento, Mineração de Dados e Pós-Processamento e suas
respectivas etapas.
2.5.1 Pré – Processamento
As etapas de Pré-Processamento são de grande importância para o processo de
Mineração de Dados, são elas que darão a base para a descoberta de conhecimento. “Antes de
iniciar qualquer análise de dados ou projeto de data mining, os dados precisam ser coletados,
caracterizados, limpos, transformados e particionados em uma forma apropriada para posterior
processamento” (MYAT, 2007).
Para Braga (2005), parte-se do princípio que os dados são a fonte predominante para
obtenção de informação, sendo assim esta etapa constitui um dos pilares para a mineração de
dados. A seguir, serão descritas algumas das fases do Pré-Processamento, visando ressaltar as
mais utilizadas e comentadas por autores da área.
29
2.5.1.1 Seleção
A etapa de seleção dos dados compreende a escolha dos dados que farão parte do
processo de mineração de dados. Compreende a identificação de quais informações devem ser
consideradas durante o processo KDD (GOLDSCHMIDT; PASSOS, 2005).
A seleção está relacionada ao estudo e a relevância dos dados disponíveis na base de
dados na busca de soluções para os problemas identificados, uma seleção criteriosa de dados é
base para a descoberta de conhecimento (KAMPFF, 2009).
Goldschmidt e Passos (2005), afirmam que geralmente os dados encontram-se em bases
de dados transacionais, mas em casos que exista uma estrutura de Data Warehouse, deve-se
verificar a possibilidade de utilização desta estrutura no processo KDD.
2.5.1.2 Limpeza
A qualidade dos conhecimentos obtidos com o processo KDD está relacionada com a
qualidade dos dados de entrada, ou seja, o tratamento dos dados visando a eliminação de ruídos,
inconsistências e complemento de valores faltantes é fundamental para a geração de modelos
de conhecimento confiáveis.
Para Goldschmidt e Passos (2005), “a fase de limpeza envolve a verificação da
consistência dos dados, a correção de possíveis erros e o preenchimento ou eliminação de
valores desconhecidos e redundantes, além da eliminação de valores não pertencentes ao
domínio”. As principais funções de limpeza de dados conforme Goldschmidt e Passos (2005)
são:

Limpeza de Valores Ausentes: compreende o processo de eliminação de registro
com valores faltantes ou técnicas de preenchimento destes valores;

Limpeza de Inconsistências: refere-se a identificação e eliminação de valores
inconsistentes. Pode ocorrer em uma tupla ou em um conjunto de tuplas e as formas de
tratamento são a Exclusão dos Casos ou a Correção dos Erros;

Limpeza de Valores não Pertencentes ao Domínio: compreende a identificação
e a eliminação de valores que não pertençam ao domínio dos atributos do problema. Pode ser
considerado um caso particular de Limpeza de Inconsistências e tem as mesmas formas de
tratamento.
30
2.5.1.3 Codificação
É a etapa em que os dados são modificados para que fiquem na forma que os algoritmos
de Mineração de Dados possam utiliza-los.
“Codificação de dados é a operação de Pré-Processamento responsável pela forma que
os dados serão representados durante o processo KDD” (GOLDSCHMIDT; PASSOS, 2005).
“Os dados são codificados para que possam ficar numa forma que possam ser efetivamente
usados como entrada dos algoritmos de Garimpagem de Dados” (BOENTE; OLIVEIRA;
ROSA, 2007).
O tipo de conhecimento a ser descoberto é fortemente influenciado pela maneira como
a informação é codificada, para Goldschmidt e Passos (2005), deve-se levar em consideração
que os dados devem atender às necessidades específicas dos algoritmos de Mineração de Dados.
Exemplo disso é uma rede neural que aceita apenas dados que estejam em uma representação
numérica. Assim sendo, caso a base de dados a ser processada apresente valores nominais
(texto), estes devem ser codificados antes de serem submetidos à rede. O inverso também é
verdadeiro, tendo em vista um algoritmo que aceita somente valores nominais e a base apresente
valores numéricos faz-se necessária a codificação dos dados.
2.5.1.4 Enriquecimento
“Consiste em conseguir mais informações que possam ser agregadas aos registros
existentes, enriquecendo assim, os dados para que sejam capazes de fornecer mais informações
para efetivação do processo de descoberta de conhecimento em bases de dados” (BOENTE;
OLIVEIRA; ROSA, 2007). Para Goldschmidt e Passos (2005), é o processo de agregação de
mais informações fornecendo elementos extras para o processo de descoberta de conhecimento.
A aquisição destes dados ou atributos adicionais pode se dar através diversas técnicas,
sendo as mais usuais a Pesquisa junto as Fontes Originais ou Consulta às Bases de Dados
Externas (GOLDSCHMIDT; PASSOS, 2005).
2.5.1.5 Normalização
O
propósito
da
normalização
é
minimizar
uso de unidades e dispersões distintas entre as variáveis.
os
problemas
oriundos
do
31
Segundo Goldschmidt e Passos (2005), consiste em ajustar a escala de valores dos
atributos, de forma que os valores fiquem em pequenos intervalos. Se justifica devido a
influência tendenciosa causada pela escala de valores de alguns atributos sobre os métodos de
Mineração de Dados. A “Normalização de dados permite atribuir uma nova escala a um atributo
de forma que os valores deste atributo possam cair na nova escala em um intervalo específico,
tal como entre -1.0 a 1.0 ou de 0.0 a 1.0, etc.” (CÔRTES; PORCARO; LIFSCHITZ, 2002).
Podem ser citados alguns métodos de normalização conforme Goldschmidt e Passos
(2005) sugere: Normalização Linear; Normalização por Desvio Padrão; Normalização pela
Soma dos Elementos; Normalização pelo Valor Máximo dos Elementos e Normalização por
Escala Decimal.
2.5.2 Mineração de Dados
A Mineração de dados é a principal etapa do processo KDD, devido a isto é comum
alguns autores se referirem a Mineração de Dados como sinônimo do processo KDD
(GOLDSCHMIDT; PASSOS, 2005).
Pode ser dito que Mineração de Dados é o conjunto de técnicas das áreas de Estatística
e Inteligência Artificial que objetiva a descoberta de conhecimento novo, retirando-o de grandes
massas de dados empresarias (CARVALHO, 2005). Já Pinheiro (2008), escreve que
“Mineração de Dados é o processo de descoberta de padrões e tendências existentes em
repositórios de dados”. Outro conceito é o de que Mineração de Dados é o processo de
descoberta automática de informações úteis em grandes depósitos de dados (TAN;
STEINBACH; KUMAR, 2006).
Então a Mineração de Dados é a principal etapa do processo KDD e utiliza-se de
técnicas de Estatística e Inteligência Artificial objetivando a descoberta de conhecimento em
bases de dados. Sendo uma etapa do processo KDD, a Mineração de Dados se dá mediante a
aplicação de algoritmos sobre a base de dados.
Para Carvalho (2005), em função do nível de conhecimento que se tem do problema
estudado pode-se realizar a Mineração de Dados de três formas distintas:
32

Descoberta Não-supervisionada de Relações: é usada quando não se tem
conhecimento algum sobre o problema e deixa que as técnicas de Mineração de Dados
procurem novas relações;

Testagem de Hipóteses: quando se tem alguma ideia do que se procura ou algum
conhecimento sobre o problema, pode-se definir hipóteses e testa-las, confirmando ou refutando
a mesma;

Modelagem Matemática dos Dados: quando se tem bom conhecimento sobre
problema define-se exatamente o que se deseja encontrar.
Independente da metodologia aplicada serão utilizadas praticamente as mesmas técnicas
ou Tarefas de KDD.
2.5.3 Pós-Processamento
A etapa de Pós-processamento abrange a visualização, a análise e a interpretação do
modelo de conhecimento gerado pela etapa de Mineração de Dados (GOLDSCHMIDT;
PASSOS, 2005).
Silva Filho (2009) explica que terminada a fase de Mineração de Dados é chegada a
hora de [...] “avaliar o conhecimento extraído das bases de dados, identificar padrões e
interpretá-los, transformando-os em conhecimentos que possam ser úteis para a tomada de
decisão”. Um pouco mais sucinto, Rezende (2003), escreve que é uma etapa que consiste na
validação das descobertas efetuadas e visualização dos resultados encontrados.
Para uma melhor visualização e compreensão dos modelos gerados, nesta etapa podem
ser utilizadas técnicas de simplificação, transformação visando uma melhor organização e
clareza na apresentação dos resultados. Nesta fase os dados gerados pelas etapas anteriores são
simplificados de forma a torná-lo menos complexo, sempre levando em consideração que
nenhuma informação relevante pode ser perdida (GOLDSCHMIDT; PASSOS, 2005).
2.6 Tarefas de KDD
A lista de Tarefas de KDD é extensa e ainda podem ocorrer combinações de tarefas.
Goldschmidt e Passos (2005), explica que existem tarefas primárias e compostas, sendo a
33
primária aquela que não pode ser desmembrada em outras tarefas e a composta aquela que pode
ser desmembrada em duas ou mais tarefas.
Apesar de serem inúmeras as Tarefas de Mineração de Dados, segundo Carvalho (2005),
cinco técnicas gerais abraçam didaticamente todas as outras e permitem uma visão global do
assunto. São elas descritas a seguir.
2.6.1 Associação
Consiste em encontrar conjuntos de itens que ocorram simultaneamente e de forma
frequente (GOLDSCHMIDT; PASSOS, 2005). Tem como finalidade determinar que fatos
ocorrem simultaneamente com probabilidade razoável ou que itens de uma massa de dados
estão presentes juntos com uma certa chance (CARVALHO, 2005).
Para a obtenção da probabilidade razoável mencionada no parágrafo anterior, torna-se
necessário o entendimento de um conceito fundamental para a associação denominado suporte
mínimo. O suporte mínimo diz respeito ao mínimo de vezes que uma associação entre um
conjunto de itens deve ocorre em relação ao número total de transações de um banco de dados
(GOLDSCHMIDT; PASSOS, 2005). Geralmente, a frequência mínima tem que ser superior a
taxa pré-estabelecida de suporte mínimo para esta associação ser considerada frequente.
Uma associação é considerada válida se o número de vezes em que ocorrer associação
entre dois itens em comparação ao primeiro item da associação for superior ao valor préestabelecido chamado confiança mínima (GOLDSCHMIDT; PASSOS, 2005). Esta medida
procura expressar a qualidade da regra, indicando se existir a ocorrência do primeiro item o
quanto é seguro a ocorrência do segundo.
2.6.2 Classificação
É senso comum entre diversos autores que a classificação é uma das tarefas mais
utilizadas e importantes da Mineração de Dados. Carvalho (2005), explica sua importância e
popularidade quando diz que a classificação [...] “é uma das mais realizadas tarefas cognitivas
humanas no auxílio à compreensão do ambiente em que vivemos”.
Segundo Tan, Steinbach e Kumar (2009), “classificação é a tarefa de organizar objetos
em uma entre diversas categorias pré-definidas, é um problema universal que engloba muitas
aplicações diferentes”. Na visão de outro autor a Classificação é a busca por uma função que
34
associe cada registro de um banco de dados a um rótulo categórico, denominado classe
(GOLDSCHMIDT; PASSOS, 2005).
Na classificação a entrada de dados é composta por um conjunto de registros, sendo que
cada registros é composto por (x, y), aonde x é o conjunto de atributos e y o atributo especial,
ou rótulo de classe (TAN, STEINBACH E JUMAR, 2009).
Goldschmidt e Passos (2005), explica que:
[...] “Consideremos um par ordenado de forma (x, f(x)), aonde x é o vetor de entradas
n-dimensional e f(x) a saída de uma função f, desconhecida, aplicada a x. A tarefa de
inferência indutiva consiste em, dada uma coleção de exemplos de f, obter uma função
h que se aproxime de f. A função h é chamada de hipótese ou modelo de f”.
A função responsável pela associação dos registros dá-se o nome de função alvo ou
modelo de classificação segundo Tan, Steinbach e Kumar (2009), sendo o modelo de
classificação útil para uma modelagem descritiva ou preditiva:

A Modelagem Descritiva: pode servir como ferramenta explicativa para se
distinguir entre objetos e classes diferentes. Sobre um determinado conjunto de dados, pode se
obter um resumo sobre quais características definem cada grupo (TAN, STEINBACH E
JUMAR, 2009);

A Modelagem Preditiva: pode ser usada para prever o rótulo da classe de
registros não conhecidos. Atribui automaticamente um rótulo de classe quando recebe o
conjunto de atributos de um registro desconhecido (TAN, STEINBACH E JUMAR, 2009).
Uma medida muito importante para a classificação é a acurácia, pois ela retrata a
qualidade ou precisão de uma hipótese em mapear corretamente cada vetor de entrada. Tem-se,
então, para treinamento um conjunto de pares, estes são utilizados para identificação da função
modelo e outro conjunto de pares para avaliação da acurácia que é denominado conjunto de
testes (GOLDSCHMIDT; PASSOS, 2005).
Dois erros podem ocorrer no processo de treinamento e teste dos algoritmos, o erro
denominado overfitting ocorre quando o classificados tem bom desempenho no treinamento,
mas não no teste, e o erro denominado underfitting é aquele que ocorre quando o classificador
não se ajusta ou se ajusta muito pouco ao conjunto de treinamento.
35
Já na fase de interpretação do modelo de conhecimento, uma importante ferramenta de
visualização dos resultados obtidos pode ser encontrada, é a matriz de confusão. Esta
ferramenta tem a função de oferecer um detalhamento do desempenho do modelo de
classificação, mostrando o número de classificações corretas em comparação ao número de
classificações feitas (GOLDSCHMIDT; PASSOS, 2005).
2.6.3 Clusterização
A clusterização é a divisão dos elementos em grupos, sendo que cada grupo é composto
por elementos com propriedades comuns entre todos. Para Goldschmidt e Passos (2005), a
clusterização ou agrupamento [...] “é usada para particionar os registros de uma base de dados
em subconjuntos ou clusters, de tal forma que os elementos em um cluster compartilhem um
conjunto de propriedades comuns que os distingam dos elementos de outros clusters”.
A clusterização não utiliza classes ou rótulos pré-definidos, ela agrupa de forma natural
os elementos conforme suas características comuns. Alguns autores também a chamam de
indução não supervisionada.
A análise de grupos divide os grupos de dados em clusters que tenham significado,
sejam úteis, ou ambas as coisas (TAN, STEINBACH E JUMAR, 2009). Os mesmos autores
ainda completam o raciocínio dizendo que os objetos são agrupados baseando-se apenas em
informações encontradas nos dados que descrevem os objetos e seus relacionamentos.
A busca de semelhança dos objetos dentro de um grupo é o objetivo da clusterização,
quanto maior a semelhança dentro de um grupo maior será a diferença entre grupos (TAN,
STEINBACH E JUMAR, 2009). A clusterização ou agrupamento é comumente usada como
uma técnica preliminar quando nada ou pouco se sabe sobre os dados (CARVALHO, 2005).
A clusterização pode se dar por dois propósitos, por compreensão aonde grupos
conceitualmente significativos compartilham de características comuns ou utilidade que
fornece uma abstração de objetos individuais para os grupos nos quais estes objetos pertencem
(TAN, STEINBACH E JUMAR, 2009). A tarefa de clusterização é relativamente mais
complexa que a tarefa de classificação, pois não se possui parâmetros para classificação, os
dados são agrupados de acordo com suas características, podendo ser gerados grupos que não
tenham nenhum significado (CARVALHO, 2005).
36
Pode-se classificar o resultado da clusterização em diferentes tipos de grupos, citando:
Hierárquico, Particional, Exclusivo, Interseccionado, Difuso, Completo e Parcial. Tan,
Steinbach e Jumar (2009), ainda apresentam tipos de agrupamentos, levando em consideração
as diversas noções de grupos que se provam úteis na prática, que são: Grupos Bem Separados,
Baseados em Protótipo, Baseados em Gráfico e Baseados em Densidade.
2.6.4 Previsão
A previsão consiste em definir um valor para um determinado índice baseando-se nos
dados deste índice no passado (CARVALHO, 2005).
Busca-se então prever o valor de uma determinada variável em decorrência dos valores
que a mesma assumiu em tempos anteriores. A única maneira de verificar se a previsão foi
acertada é aguardar o acontecimento para comparação.
Goldschmidt e Passos (2005), explica que é um processo de identificação das
características, dos padrões e das propriedades importantes, utilizados para descrever o
fenômeno gerador e tem como principal objetivo a geração de modelos voltados a previsão de
valores futuros.
2.6.5 Estimativa
A estimativa é usada para determinar valores prováveis de variáveis baseando-se em
valores existentes de outras variáveis.
Para Carvalho (2005), “estimar algum índice é determinar seu valor mais provável
diante de dados do passado ou de dados de outros índices semelhantes sobre os quais se tem
conhecimento”.
2.7 Métodos de Mineração de Dados
Para cada tarefa de Mineração de Dados existe um ou mais algoritmos que podem ser
aplicados, nesta seção serão apresentados alguns dos principais ou mais utilizados algoritmos,
mostrando suas características e quais tarefas podem ser implementadas pelos diversos métodos
apresentados.
Diferentes Métodos de Mineração de dados requerem diferentes tipos de préprocessamento, e a combinação entre os tipos pré-processamento e Métodos de Mineração de
37
dados pode variar conforme a extensão da base de dados, sendo a qualidade do resultado do
processo KDD influenciado por estas escolhas. “Cada Método de Mineração de Dados requer
diferentes necessidades de pré-processamento” (MORIK, 2000, apud GOLDSCHMIDT;
PASSOS, 2005).
Goldschmidt e Passos (2005), explica que “um plano de ação de KDD válido é toda a
sequência de métodos de KDD aonde as precondições para execução de cada um dos métodos
da sequência sejam devidamente atendidas”. A seguir serão apresentados alguns métodos
levando em conta os mais utilizados e citados pelos autores pesquisados:
2.7.1 Métodos Baseados em Redes Neurais
Os métodos baseados em redes neurais podem ser utilizados para implementação de
tarefas como Classificação, Regressão, Previsão e Clusterização, sendo que alguns Modelos de
Redes Neurais podem ser aplicados em mais de um tipo de Tarefa de Mineração de Dados
(GOLDSCHMIDT; PASSOS, 2005).
As redes neurais podem ser utilizadas com aprendizado supervisionado e não
supervisionado, sendo o primeiro caso a saída do modelo corresponde ao atributo objetivo,
sendo que o algoritmo de aprendizado ajusta os pesos das conexões a fim de chegar o mais
próximo possível da saída desejada, sendo úteis para tarefas de predição, por exemplo. Já no
caso do aprendizado não supervisionado, a tarefa de Clusterização é a mais utilizada
(CARVALHO, 2005).
Back-Propagation
Algoritmo utilizado para tarefas de Classificação, Regressão ou Previsão, ou seja, utiliza
aprendizado supervisionado, aonde o algoritmo busca aproximar a saída real da saída desejada.
O Back-Propagation, tem este nome devido “[...] ao fato de que ao se aplicar a regra de
aprendizado, os erros de aprendizado dos neurônios das camadas intermediária e de entrada são
calculados em função dos erros da camada de saída” (CARVALHO, 2005). Então, os erros da
camada de saída são propagados para as camadas intermediária e de entrada, fazendo com que
possa ser alterada a sinapse de aprendizado.
Kohonen
38
Faz parte da classe das Redes Neurais auto organizáveis, o treinamento não
supervisionado é baseado em uma forma de competição entre os elementos processadores, entre
suas principais aplicações estão a Tarefa de Clusterização e Detecção de Regularidades
(GOLDSCHMIDT; PASSOS, 2005).
Os Mapas auto organizáveis aplicados a Tarefa de Clusterização, sempre que se desejar
descobrir conhecimento novo em uma base de dados, se configura em uma forma simples de
descobrir se há algo interessante ou organizado na massa de dados (CARVALHO, 2005).
2.7.2 Métodos Baseados em Algoritmos Genéticos
São uteis em problemas complexos que envolvam otimização. São inspirados na teoria
da evolução de Charles Darwin e empregam um processo adaptativo e paralelo de busca de
soluções. Por meio da evolução de populações de soluções codificadas em cromossomas
artificiais as técnicas de Algoritmos Genéticos buscam obter boas soluções para problemas
complexos.
Conforme Carvalho (2005), “qualquer problema de Mineração de Dados que possa ser
definido como a maximização ou minimização de alguma função pode ser, em princípio,
resolvido com um algoritmo genético”.
Exemplos de Método baseados em Algoritmos Genéticos que podem ser citados são o
Rule Evolver e o Algoritmo Genético para Tarefa de Clusterização (GOLDSCHMIDT;
PASSOS, 2005).
2.7.3 Métodos Baseados em Instâncias
Um método Baseado em Instância indica que o método, ao processar um novo registro,
leva em consideração as instancias ou registros existentes na base de dados (GOLDSCHMIDT;
PASSOS, 2005).
K-NN
É um dos principais métodos baseado em instâncias, muito utilizado para Tarefa de
Classificação, de fácil entendimento e implementação, não necessitando de treinamento prévio
para aplicação (GOLDSCHMIDT; PASSOS, 2005).
39
Utiliza cálculo de distância (métrica de distância), para calcular a proximidade do novo
item a classificar com todos os outros da base de referência, identificando quais são os de menor
distância apura quais as classes mais frequentes entre os registros identificados.
2.7.4 Métodos Estatísticos
Diversos algoritmos de Mineração de Dados são fundamentados em princípios e teorias
da estatística. Segue lista de alguns métodos mais conhecidos e utilizados.
Classificador Bayesiano Ingênuo
Conforme o nome sugere o Classificador Bayesiano é utilizado na Tarefa de
Classificação, baseado no Teorema de Bayes, utiliza cálculo de probabilidade condicional, e
Ingênuo porque assume que todos os atributos são independentes (GOLDSCHMIDT; PASSOS,
2005). “Um classificador Bayesiano avalia a probabilidade condicional de classe supondo que
os atributos sejam condicionalmente independentes [...]” (TAN, STEINBACH E JUMAR,
2009).
O funcionamento do algoritmo baseia-se em calcular a probabilidade condicional dos
atributos de um registro e indicar como saída a classe em que a probabilidade deste registro
pertencer for máxima.
KMeans
A popularidade deste método para a Tarefa de Clusterização pode estar na simplicidade.
Conforme Tan, Steinbach e Jumar (2009), o funcionamento do algoritmo acontece da seguinte
forma: Escolhe-se K (parâmetro especificado pelo usuário, número de grupos desejado)
centroides iniciais, a seguir cada ponto é atribuído ao centroide mais próximo formando grupos.
Atualiza-se o centroide baseados nos pontos do grupo e repete-se a atribuição e atualização até
que não ocorram mudanças de pontos ou centroides.
Goldschmidt e Passos (2005), desta que a especificação de K (número de clusters) pelo
usuário, pode ser uma desvantagem e recomenda que vários experimentos variando o número
de K sejam realizados.
2.7.5 Métodos Específicos
Alguns algoritmos foram desenvolvidos especificamente para implementar alguma
Tarefa de Mineração de Dados. O algoritmo Apriori é um dos casos mais conhecidos.
40
Apriori
É um algoritmo desenvolvido especificamente para a Tarefa de Associação e diversos
algoritmos foram desenvolvidos inspirados no funcionamento do Apriori, baseados no princípio
de antimonotonicidade do suporte (GOLDSCHMIDT; PASSOS, 2005).
Segundo Tan, Steinbach e Jumar (2009), “foi o primeiro algoritmo de mineração de
Tarefas de Associação que foi precursor do uso de poda baseada em suporte para controlar de
forma sistemática o crescimento exponencial dos conjuntos de itens candidatos”.
O princípio de Apriori é que: se um conjunto de itens é frequente, então todos os seus
subconjuntos também devem ser frequentes. Sendo assim, a combinação de itens para gerar
novo item somente ocorre quando estes são frequentes (GOLDSCHMIDT; PASSOS, 2005).
O Algoritmo de Apriori, trabalha em duas etapas, sendo a primeira responsável por
encontrar todos os conjuntos de itens frequentes, na segunda etapa serão geradas regras de
associação. Na primeira etapa o suporte mínimo deve ser satisfeito e na segunda, a confiança
mínima.
2.7.6 Métodos Baseados em Indução de Árvores de Decisão
Conforme Goldschmidt e Passos (2005), alguns dos principais Métodos de Mineração
de Dados são baseados em árvores de decisão. A construção destas Árvores é realizada segundo
alguma abordagem recursiva de particionamento da base de dados.
O classificador de árvore de decisão constitui-se de uma técnica de classificação
simples, porém muito usada (TAN, STEINBACH E JUMAR, 2009). O funcionamento de uma
árvore de decisão é baseado em uma série de perguntas feitas para os atributos do item a ser
classificado, sendo a resposta gerada induz a próxima pergunta ou a atribuição deste item a um
determinado grupo.
C4.5
O C4.5 procura abstrair árvores de decisão a partir de uma abordagem recursiva de
particionamento das bases de dados, utilizando conceitos e medidas da Teoria da Informação
(GOLDSCHMIDT; PASSOS, 2005).
O funcionamento do C4.5 inicia na escolha do predicado, ou seja, no atributo que melhor
separa ou discrimina as classes, seguindo pela separação recursiva de toda a base de dados até
41
que todos os dados estejam separados e cada classe esteja associada a um nó folha.
(GOLDSCHMIDT; PASSOS, 2005).
Após a escolha do predicado, cada novo nó ira abranger uma partição da base de dados
que é recursivamente separada até que o conjunto associado a cada nó folha consista
inteiramente ao predominantemente de registros de uma mesma classe (GOLDSCHMIDT;
PASSOS, 2005).
No quadro 1 são identificados os Métodos de Mineração de Dados que podem ser
aplicados para cada Tarefa KDD.
Quadro 1 - Métodos de Mineração de Dados aplicáveis a cada Tarefa KDD
Tarefas de KDD
Descoberta de Associações
Métodos de Mineração de Dados
Basic, Apriori, DHP, Partition, DIC, ASCX-2P
Descoberta de Associações Generalizadas Basic, Apriori, DHP, Partition, DIC, ASCX-2P
Descoberta de Sequências
GSP, MSDD, SPADE
Descoberta de Sequências Generalizadas
GSP, MSDD, SPADE
Classificação
Redes Neurais (Ex.: Back-Propagation, RBF), C4.5, Rough Sets,
Algoritmos Genéticos (Ex.: Rule Evolver), CART, K-NN,
Classificadores Bayesianos
Regressão
Redes Neurais (Ex.: Back-Propagation), Lógica Nebulosa
Sumarização
C4.5, Algoritmos Genéticos (Ex.: Rule Evolver)
Clusterização
KMeans, K-Modes, K- Prototypes, Fuzzy KMeans, Algoritmos
Genéticos, Redes Neurais (Ex.: Kohonen)
Previsão de Séries Temporais
Redes Neurais (Ex.: Back-Propagation), Lógica Nebulosa (Ex.:
Wang-Mendel)
Fonte: (GOLDSCHMIDT; PASSOS, 2005).
2.8 Sistemas de Apoio a Decisão
As empresas familiares, aquelas que o dono atende no balcão e que sabe o gosto e as
particularidades de cada cliente, conhece o perfil e sabe o que habitualmente o cliente compra,
tem o relacionamento que as empresas de maior porte buscam ter com os seus clientes
(PINHEIRO, 2008).
Buscando estreitar o relacionamento com o cliente que cada vez mais exige qualidade
nos produtos e serviços que adquire, as empresas necessitam encontrar alternativas para o
atendimento as novas necessidades e anseios do mercado. Pinheiro (2008), em relação as
42
tendências do mercado atual faz a seguinte pergunta: “De que forma uma empresa com uma
carteira de milhares de clientes pode estabelecer uma relação individualizada com os seus
consumidores?”.
Na busca para a resposta a esta questão, as empresas têm investido na captação, no
armazenamento, o tratamento e na aplicação da informação, tendo em vista o diferencial
estratégico e competitivo (GOLDSCHMIDT; PASSOS, 2005).
A área de Tecnologia da Informação têm papel fundamental, desenvolvendo sistemas
de informação capazes de suprir esta demanda e também sendo utilizados em diversas outras
aplicações (GOLDSCHMIDT; PASSOS, 2005). A utilização de sistemas de informação com o
passar do tempo gera uma enorme quantidade de dados relacionados aos negócios (OLIVEIRA,
2002).
No dia a dia das empresas os sistemas de informação armazenam dados pertinentes a
cada setor da organização, dados estes que são utilizados no relacionamento com clientes e
fornecedores, para emissão de notas, cobranças, contas a pagar e outros processos do cotidiano.
Conforme Goldschmidt e Passos (2005), a maioria destes sistemas operacionais opera sobre
banco de dados transacionais, que contém informações detalhadas sobre os processos
operacionais das empresas.
Embora seja de fundamental importância esta estrutura de dados, ela não oferece apoio
à tomada de decisão. Conforme Oliveira (2002), “os sistemas convencionais não são projetados
para gerar e armazenar informações estratégicas, o que torna os dados vagos e sem valor para
o apoio ao processo de tomada de decisão das organizações”. Pinheiro (2008), escreve que
apesar de estes dados serem fundamentais para o controle operacional da empresa, eles possuem
pouca ou nenhuma relevância do ponto de vista gerencial ou estratégico.
“Como os dados armazenados possuem muito pouco ou nenhum processamento, ou
seja, são dados brutos, que se referem a atividades corriqueiras de uma empresa, torna-se
complexa a atividade de buscar informações ou conhecimento em tais bases” (SARTORI,
2012). Nesta linha, cresce a demanda por sistemas que auxiliem no processo de tomada de
decisão, que forneçam subsídios para apoio ao processo decisório (GOLDSCHMIDT;
PASSOS, 2005).
43
Sendo assim, os Data Warehouses e Data Marts, se fazem necessários para o
armazenamento e o acesso as informações de forma a propiciar maior entendimento,
gerenciamento e uso (OLIVEIRA, 2002).
2.8.1 Data Warehouse
Segundo Pinheiro (2008), “o termo Data Warehouse foi utilizado pela primeira vez por
W. H. Inmon para descrever um banco de dados projetado e construído para auxiliar as
empresas no processo de tomada de decisão”. “[...] pode ser definido como um Banco de Dados
especializado, o qual integra a gerencia o fluxo de informações a partir de Bancos de Dados
corporativos e fontes de dados externas à empresa” (OLIVEIRA, 2002).
Goldschmidt e Passos (2005), conceitua Data Warehouse como sendo “[...] um conjunto
de dados baseado em assuntos, integrado, não-volátil, variável em relação ao tempo, e destinado
a auxiliar em decisões de negócio”. Já para Singh (2001), trata-se de um processo de integração
de dados de uma empresa, em um único repositório que facilita a consulta, geração de relatórios
e análises.
Um Data Warehouse é um repositório de dados que concentra grandes quantidades de
dados integrando os dados de diversos setores de uma mesma empresa ou de diversos sistemas
de informação, sendo que suas características privilegiam a consultas, geração de relatório e
análises, tendo sua vocação voltada ao processo decisório à níveis táticos e estratégicos das
empresas.
Contudo, devido ao Data Warehouse ser repositório central, contendo dados de toda a
organização, se torna necessário em alguns casos, devido ao tamanho ou a complexidade, a
construção de uma outra estrutura chamada Data Mart que apesar de possuir as mesmas
características do Data Warehouse, abriga apenas os dados de um determinado setor ou
departamento da uma empresa.
2.8.2 Data Mart
Possui os mesmos atributos do Data Warehouse e desempenha o mesmo papel, com a
diferença de ser uma fração do Data Warehouse, ou seja, é organizado por setor, por
departamento, por filial, entre outros. Para Singh (2001), o Data Mart é “[...] um subconjunto
do Data Warehouse empresa-inteira”.
44
O projeto de um Data Warehouse não é uma tarefa fácil, exigindo uma metodologia
rigorosa, uma completa compreensão dos negócios da empresa e um planejamento bem
detalhado (OLIVEIRA, 2002).
A empresa pode optar por construir vários Data Marts e posteriormente agrupa-los em
um Data Warehouse lógico, ou dividir um Data Warehouse de acordo com sua conveniência.
Para Oliveira (2002), o custo de construção de vários Data Marts para posterior agrupamento
é bem inferior ao custo de criar e dividir um Data Warehouse. A complexidade de elaboração,
os custos e o prazo são os maiores atrativos para criação de Data Marts, segundo Oliveira
(2002).
2.9 Ferramenta WEKA
Diversas são as ferramentas disponíveis no mercado para utilização na Mineração de
Dados, pode-se citar algumas como: SAS Enterprise Miner, PolyAnalyst, Darwin,
SPSS/Clementine, Intelligent Miner, WizRule, Bramining e WEKA. Cada ferramenta possui
sua especificação e características e implementam determinadas Tarefas de Mineração de
Dados.
A ferramenta WEKA é uma das mais populares ferramentas de Mineração de Dados,
foi criada e desenvolvida pelo curso de Ciência da Computação da Universidade de Waikato na
Nova Zelândia e implementada em Java, além disso, possui código aberto. Atualmente está na
versão 3.6.9. Alencar e Schmitz (2012) explicam que, WEKA “é uma plataforma para análise
e mineração de dados, livre e gratuita, que contém vários algoritmos de árvore de classificação,
além de uma grande variedade de métodos estatísticos”.
A utilização do WEKA pode ser de diversas maneiras, ela possui quatro implementações
de interface permitindo que os algoritmos sejam chamados diretamente via código Java. São
elas:

conhecimento
Simple Cliente: interação através de linhas de comando e requer profundo
do
programa,
em
contrapartida
oferece
flexibilidade
e
agilidade
(GOLDSCHMIDT; PASSOS, 2005);

Explorer: interface mais comumente utilizada, separa as etapas de pré-
processamento, mineração de dados e pós-processamento (ibidem);
45

Experimenter: ambiente de experimentação, condução de testes estatísticos para
avaliação do desempenho de algoritmos de aprendizado (ibidem);

KnowledgeFlow: ferramenta gráfica que permite planejamento de ações na
construção de um fluxo de processo de KDD, ainda em desenvolvimento (ibidem).
O WEKA possui implementados diversos métodos de associação, classificação e
clusterização e permite inclusão ou remoção de novos métodos. Além disto, possui visualização
gráfica dos dados (ibidem). O sistema utiliza o padrão de entrada de dados chamado ARFF
(Attribute-Relation File Format). Entretanto, é possível incorporar ao programa conectores, que
permitem com que os dados sejam obtidos diretamente de arquivos em outros formatos ou até
mesmo de bases de dados SQL (Structured Query Language) (SARTORI, 2012). O Quadro 2
apresenta um resumo das características da ferramenta WEKA:
Quadro 2 - Resumo das Características do WEKA
Características
Valores
Acesso a Fontes de Dados Heterogêneas
Sim
Integração de Conjuntos de Dados
Não
Facilidade para Inclusão de Novas Operações
Sim
Facilidade para Inclusão de Novos Métodos
Sim
Recursos para Planejamento de Ações
Sim
Processamento Paralelo/Distribuído
Não
Operações/Métodos
Disponíveis
Visualização de Dados
Distribuição de Frequências; Medidas de
Dispersão; Histograma
Redução de Dados
Amostragem
Limpeza de Dados
Substituição
Codificação de Dados
Discretização automática e manual
Classificação
Árvores de Decisão, Bayes, Redes Neurais...
Clusterização
SimpleKMeans, Cobweb, FarthestFirst...
Simplificação de Resultados N/D
Organização de Resultados
Agrupamento de Padrões; Ordenamento de
Padrões
Apresentação de Resultados Conjunto de Regras; Árvores de Decisão
Estruturas para Armazenamento de Modelos de Conhecimento Sim
Estruturas para Armazenamento de Histórico de Ações
Fonte: (GOLDSCHMIDT; PASSOS, 2005).
Sim
46
2.10 Aplicação de mineração de dados sobre bases de dados educacionais
– trabalhos relacionados
Na sequência são apresentados trabalhos relacionados a evasão escolar e a aplicação da
mineração de dados sobre bases de dados de IES. São descritas as principais características de
cada trabalho bem como os resultados obtidos pelos pesquisadores. Esta revisão bibliográfica
teve o intuito de orientar, com relação a técnica de mineração de dados, tarefas do processo
KDD, atributos utilizáveis e ou constatações úteis, o processo de mineração de dados
apresentado na nestes trabalho. No capítulo das conclusões é realizado um comparativo da
análise destes trabalhos relacionando-os com a presente pesquisa.
2.10.1 Previsão de Estudantes com Risco de Evasão Utilizando Técnicas de Mineração
de Dados.
No trabalho realizado por Manhães et al. (2011), na UFRJ (Universidade Federal do Rio
de Janeiro), buscou-se identificar alunos com risco de evasão nos cursos de graduação desta
universidade, identificando precocemente estes alunos. Neste trabalho também apurou-se a
viabilidade de identificar estes alunos com risco de evasão, através dos atributos selecionados.
Foram feitos três experimentos para verificação da eficácia do processo.
Para o desenvolvimento da pesquisa a base de dados foi coletada diretamente do sistema
acadêmico da UFRJ, utilizando dados de alunos que ingressaram no curso de Engenharia Civil
da Escola Politécnica no período de 1994 a 2005. Nesta base de dados o total de alunos neste
período foi de 887 sendo que 543 concluíram o curso e 344 não concluíram o curso.
Foi considerado pelos pesquisadores a dificuldade de acesso ao banco de dados da IES
e a falta de literatura que servisse de referência sobre quais atributos seriam adequados para a
análise do problema, deixando então, sob análise e para trabalhos futuros, outros atributos que
pudessem contribuir para a Mineração de Dados Educacionais. Conforme Manhães et al.
(2011), “[...] o procedimento de seleção dos atributos ainda está em fase de estudos devido às
limitações de acesso aos dados e pela falta de referências sobre quais atributos são mais
adequados para analisar o problema da evasão escolar utilizando mineração de dados”.
Foram selecionados, então, os seguintes atributos: disciplinas mais cursadas relativas ao
primeiro semestre, entre elas estão Introdução a Engenharia Civil, Engenharia e Meio
Ambiente, Programação de Computadores I, Cálculo Diferencial e Integral I e Química; notas
e a situação final (aprovado, reprovado por nota, reprovado por falta) em cada disciplina; o
47
valor do coeficiente de rendimento acumulado no período e, por fim, o atributo identificador da
classe do aluno. Conforme frisado, somente disciplinas do primeiro período forma
selecionadas, sendo assim um dos critérios de seleção utilizados. Manhães et al. (2011),
“baseado na informação que o maior número de evasões ocorre no início do curso, optou-se por
utilizar dados acadêmicos dos períodos letivos que antecedem o maior número de evasões”.
A ferramenta utilizada para aplicação das Técnicas de Mineração de Dados foi o
WEKA, devido a facilidade de aquisição e disponibilidade de download, por não haver custos
de utilização ou aquisição, por abrigar várias versões de algoritmos e pelos recursos estatísticos
que foram utilizados na comparação do desempenho dos algoritmos.
Os algoritmos selecionados para a tarefa de classificação e os métodos que cada
algoritmo implementa foram: aprendizado de regras (OneR e JRip), tabela de decisão
(DecisionTable), árvore de decisão (SimpleCart, J48 e RandomForest), modelos lineares de
regressão logística (SimpleLogistic), modelo de rede neural artificial (MultilayerPerceptron),
modelos probabilístico (BayesNet), classificador probabilístico simples baseado na aplicação
do teorema de Bayes (NaiveBayes).
Os resultados obtidos nesta pesquisa, no que diz respeito ao objetivo de prever alunos
passiveis de evadir o curso, foram descritos pelos autores como: “os resultados mostraram que
utilizando as primeiras notas semestrais dos calouros é possível identificar com precisão de
80% a situação final do aluno no curso” (MANHÃES et al, 2011).
Outra conclusão importante é a de que é possível prever alunos com risco de evasão
tendo como base um número reduzido de atributos. Também se verificou que todos os
algoritmos utilizados tiveram um desempenho semelhante, independentemente do tipo de
experimento ou da configuração da base de dados.
2.10.2 Técnicas de Aprendizado de Máquina Aplicadas na Previsão de Evasão
Acadêmica
Neste trabalho elaborado por Maurício J. V. Amorim, André Uebe Mansur, Dante
Barone, sendo os dois primeiros do Centro Federal de Educação Tecnológica de Campos e o
último da UFRGS (Universidade Federal do Rio Grande do Sul), foram abordadas técnicas de
aprendizado de máquina na previsão da evasão acadêmica, demonstrando a eficiência do uso
destas técnicas.
48
Todo processo de classificação ou previsão através de aprendizado de máquina requer
certos procedimentos como: levantamento de dados para treinamento e testes, seleção de
atributos e transformação, escolha de classificadores, a execução do treinamento e avaliação
(AMORIM; BARONE; MANSUR, 2008).
Foi utilizado como base de dados os registros de dez semestres letivos de uma IES
particular, não divulgada na pesquisa, do Município de Goytacazes – RJ. Esta base estava
dividida em 4 cursos, em um total de 8073 matriculas sendo que foram utilizados os seguintes
atributos: a matricula de cada aluno; ano e semestre de ingresso; quantidade de disciplinas
cursadas pelo aluno no semestre anterior a coleta dos dados; o percentual de aprovação do aluno
no semestre anterior; o percentual de desconto que o aluno possuía no semestre anterior; a
quantidade de prestações em aberto; coeficiente de rendimento escolar (média de todas as
disciplinas já cursadas); a quantidade de disciplinas do curso; o percentual de conclusão do
curso, reprovações, trancamentos; cancelamentos, transferência ou conclusão.
Conforme descrito por Amorim, Barone e Mansur (2008), “após a fase de pré-seleção
dos atributos, com a massa de treinamento e testes disponível para uso, o passo seguinte é a
escolha dos classificadores”. Então os classificadores escolhidos foram: J48 (baseado em
árvores de decisão), SMO (baseado em máquinas de vetores de suporte) e o Bayes Net
(baseados em métodos bayesianos).
Os resultados obtidos resume-se a apresentar o percentual de evasão por curso da IES e
comparar a eficácia dos três classificadores testados que ficaram com uma acurácia em torno
de 90%.
2.10.3 Aplicação de Técnicas de Mineração de Dados na Previsão de Propensão à
Evasão Escolar
A partir do artigo sobre o trabalho realizado por Milani e Camargo (2010), realizado
sobre a base de dados dos alunos dos cursos de curso Técnico em Informática, Técnico em
Mecânica e Curso Superior de Sistemas para Internet no Campus de Passo Fundo do Instituto
Federal Sul-rio-grandense, que tinha como objetivo identificar os principais fatores que
contribuem para evasão dos alunos do Campus de Passo Fundo do Instituto Federal Sul-RioGrandense (IFSul), foi possível identificar algumas contribuições conforme descritas a seguir.
Foi elaborada uma estrutura de dados para abrigar os dados oriundos de diversos setores
do instituto. Devido a heterogeneidade dos dados o processo de migração ocorreu manualmente
49
e os dados que foram adquiridos continham 22% de alunos que haviam evadido os cursos e
78% que não evadiram.
A ferramenta utilizada para aplicação dos algoritmos de Mineração de Dados foi o
WEKA, utilizando a Tarefa de Classificação foram aplicados métodos que implementam esta
tarefa. “Foram utilizados diversos algoritmos que geram modelos “caixa-branca” com ênfase
em algoritmos de geração de regras e geração de árvores de decisão” (MILANI; CAMARGO,
2010)
Os resultados apresentados no artigo demonstram percentuais de evasão em cada curso
definindo quais cursos tem maior probabilidade do aluno evadir, também foram geradas
algumas regras que apresentam considerações sobre evasão por faixa etária.
Para Milani e Camargo (2010), utilizando algoritmos de geração de regras e de geração
de árvores de decisão pode-se identificar fatores que contribuem para a evasão em IES, sendo
possível reconhecer os grupos de risco para evasão, fornecendo subsidio para indicar alunos
mais propensos a evasão.
2.10.4 Metodologia de Análise e Tratamento da Evasão e Retenção em Cursos de
Graduação de Instituições Federais de Ensino Superior
O trabalho, proposto por Campelo e Lins (2008), ambos da UFPE (Universidade Federal
de Pernambuco), abordou uma metodologia voltada à análise e tratamento da evasão e retenção
em curso de graduação em IES Federais, tendo como objetivo elaborar estratégias voltadas à
redução do problema e gerar informações úteis para os gestores.
A tarefa utilizada neste trabalho foi a clusterização aonde os clusters gerados foram
analisados individualmente permitindo identificar as causas do problema de acordo com as
características dos alunos vinculados a cada cluster (CAMPELLO; LINS, 2008).
Foram utilizados os dados dos alunos do curso de Engenharia de Produção do CTG
(Centro de Tecnologia e Geociência da UFPE), que ingressaram no curso durante os anos de
2000 e 2006, sendo que 280 registros foram encontrados, destes 136 com problemas de evasão
e retenção. Para montar a base de dados forma coletados oriundos de duas fontes distintas, uma
responsável pelo vestibular e a outra foi o Sistema de Gestão Acadêmica. Neste levantamento
de dados foram apurados os seguintes atributos: situação socioeconômica, a classificação no
vestibular, as opções de cursos escolhidas, os vestibulares anteriores prestados, etc.; notas
50
constantes no histórico escolar, os trancamentos efetuados, as reprovações obtidas, as
matrículas-vínculo realizadas, o rank (índice de desempenho acadêmico da UFPE), o prazo para
a conclusão e abandono de curso.
Foi utiliza a ferramenta WEKA para aplicação dos algoritmos de Mineração de Dados
e através de um banco de dados de apoio foram utilizadas rotinas OLAP (On-line Analytical
Processing) para acesso aos dados. A aplicação dos algoritmos de Clusterização gerou seis
clusters distintos os quais são identificados como: Alunos Excelentes, Alunos Bons, Alunos
Regulares, Alunos Fracos, Alunos Péssimos e Alunos Desinteressados.
Após a clusterização várias rotinas OLAP foram aplicadas para comprovar os indícios
levantados analisando cada cluster individualmente e os resultados obtidos foram aplicados no
curso para melhorias e adequações.
51
3 DESENVOLVIMENTO
O desenvolvimento deste trabalho foi voltado à aplicação do processo KDD aonde todas
as etapas desde o Pré-Processamento, Mineração de Dados e Pós-Processamento foram
cumpridas. Além das etapas do processo KDD, foram utilizadas conhecimentos em banco de
dados para a modelagem do Data Mart e para migração da base de dados, seleção,
transformação e tratamento dos dados que compõem a base para mineração.
3.1 Base de Dados
A obtenção dos dados da base de dados da UNIVALI se deu através de consulta direta
ao banco de dados. Foram coletadas diversas tabelas as quais seu conteúdo tinha alguma
relevância com o tema estudado. A análise de relevância foi feita estudando tabela a tabela, isto
se deu devido aos nomes que as mesmas possuem e também por não ser possível consultar
nenhuma documentação que orientasse esta busca. Foi necessária então, a análise dos atributos
de cada tabela antes de selecioná-la. Para obtenção das tabelas do banco de dado da UNIVALI
foram gerados scripts conforme demostrado no Apêndice E.
Com um total de 22 (vinte e duas) tabelas selecionadas e 1 tabela criada para classificar
as disciplinas por área do conhecimento, baseando-se no conhecimento prévio do especialista
da área e orientador do TTC sobre a base de dados original e também nos conhecimentos
adquiridos em modelagem de dados e banco de dados chegou-se a um modelo parcial do banco
de dados do sistema acadêmico da UNIVALI, aonde foram mostrados os relacionamentos entre
as tabelas e seus atributos, favorecendo assim um maior entendimento do problema estudado.
No Apêndice A pode ser observado este modelo.
As disciplinas não possuem originalmente uma classificação por categoria especificada
na base de dados, sendo assim uma classificação utilizada pela coordenação do curso de Ciência
da Computação da UNIVALI foi utilizada como referência para categorizar as disciplinas e
assim permitir uma possível identificação de alunos com dificuldades em determinada área. O
Apêndice B apresenta um quadro aonde cada disciplina recebe a classificação conforme sua
área do conhecimento.
A seleção dos atributos que compõe cada tabela também foi trabalhada. Foram
selecionados apenas atributos que possivelmente tivessem alguma influência ou relevância
52
sobre a evasão escolar, deixando de lado também atributos que possuíam todos os valores nulos.
Esta seleção pode ser feita devido a ajuda e o conhecimento do professor especialista e
orientador do TTC. Para uma melhor identificação de cada tabela e seus atributos, foi elaborado
um dicionário de dados, disponível no Apêndice C deste trabalho. No Apêndice D pode-se
observar a lista dos atributos excluídos em cada tabela e a justificativa para exclusão.
Foi verificado, durante a seleção dos dados, que uma amostragem significativa e com
dados ainda assim confiáveis, poderia ser utilizada. Foram então selecionados dos dados dos
alunos matriculados entre 2008/1 a 2012/2 independente do período do curso.
Uma constatação feita já na fase de mineração dos dados, foi a identificação de dados
de alunos de outros cursos que entre 2008/1 a 2012/2 fizeram alguma disciplina do curso de
Ciência da Computação. Estes dados referem-se ao desempenho acadêmico destes alunos, não
estando disponível, devido a importação inicial, os dados pessoais destes alunos. Para fins deste
trabalho estes dados foram retirados da base para não interferirem no processo de mineração.
O Apêndice E contém os scripts gerados para seleção dos dados e migração para o Data Mart.
A criação de Data Marts “[...] deve ser interativa, não é possível definir
antecipadamente todos os requisitos necessários a sua construção até que ele esteja parcialmente
povoado e sendo utilizado [...]” (OLIVEIRA, 2002). Portanto, a criação desta estrutura foi
adaptada conforme as demandas que surgiram, obtendo assim uma melhor adequação à solução
proposta.
Em virtude da evolução no entendimento da base de dados, entendimento este gerado
pela obtenção das tabelas originais e criação e um modelo relacional de dados que simulava o
relacionamento das tabelas dentro do sistema acadêmico da UNIVALI, pode-se então modelar
um Data Mart que posteriormente recebeu os dados já processados e prontos para mineração.
Para construção do Data Mart foi adotada uma metodologia de modelagem dimensional
que em suma é um modelo de fácil compreensão em relação ao problema proposto. Para
Oliveira (2002), o modelo dimensional tem como principal objetivo “[...] apresentar o dados
em uma arquitetura padrão e intuitiva, que permita acessos de alta performance”.
O modelo Star ou Estrela, adotado para esta modelagem, possui em sua arquitetura uma
tabela dominante chamada Tabela de Fatos, com múltiplas junções conectando outras tabelas,
chamadas Tabelas de Dimensão (OLIVEIRA, 2002). Neste modelo cada tabela dimensão
53
possui apenas uma ligação com a tabela fato deixando o modelo simples e intuitivo. A Figura
8 apresenta o modelo desenvolvido:
Figura 2 - Modelagem Data Mart
3.2 O Processo KDD
Na sequência foram aplicados os conhecimentos adquiridos na fase de pesquisa e
fundamentação teórica, iniciando as etapas do processo KDD sendo que a preparação, a
transformação, a mineração de dados, a análise e a avaliação dos resultados se deram nesta
54
sequência. Devido às características do processo KDD, houveram repetições deste ciclo de
etapas buscando a geração de um modelo de conhecimento mais representativo.
O processo KDD na etapa de Pré-Processamento abrange as fases de Seleção, Limpeza,
Codificação, Enriquecimento e Normalização dos dados. Estes conceitos forneceram subsidio
para um trabalho que visou uma modelagem de dados que permitisse a obtenção de um
resultado satisfatório nas etapas posteriores.
3.2.1 Pré-processamento
Na fase de pré-processamento os dados extraídos do sistema acadêmico da UNIVALI
foram migrados para o MySQL, que é um SGBD relacional com suporte à linguagem SQL e
carregados para o modelo relacional demostrado no Apêndice A. Feita a migração e a carga, os
dados passaram por um tratamento, uma preparação, que permitiu que valores faltantes, dados
incorretos, não utilizáveis fossem corrigidos, sendo eu para isso foram tratados um a um os
atributos de cada tabela, buscando datas como por exemplo: 1/1/0001, erros de ortografia entre
outros descritos no Apêndice E. Como não foi possível uma análise mais profunda com relação
à veracidade e idoneidade dos dados, foram considerados como expressão da realidade os
valores contidos nos atributos em cada tabela. Com relação aos valores faltantes, foram
preenchidos ou eliminados, sendo que para o preenchimento dos valores faltantes foram
utilizados cálculos de média e moda, dando forma adequada a base de dados para as etapas
posteriores.
Na transformação os dados foram normalizados, agrupados e convertidos em formatos
que puderam ser entendidos pelo WEKA e também obtendo um melhor entendimento e
visualização dos mesmos. Na sequência o Data Mart foi implementado, conforme modelo
proposto na Figura 2 e os dados foram armazenados para aplicação dos algoritmos de
Mineração de Dados com a ferramenta WEKA.
Na etapa de pré-processamento os dados passaram por uma série de tratamentos
conforme pode ser observado no Apêndice F. Dentre estes tratamentos pode ser destacada a
concatenação que foi executada entre 3 (três) atributos que compõem a identificação do aluno
na base de dados do sistema acadêmico da UNIVALI. Neste processo estes dados passaram a
formar um único atributo (chave) que recebeu o nome de “Cod_Aluno”. As três colunas que
forneceram
os
dados
para
compor
“ALU2SEMCAD”, “ALU2SEQCAD”.
esta
nova
chave
foram
“ALU2ANOCAD”,
55
Encerrada a fase de pré-processamento os dados foram migrados para o Data Mart
Evasão e a etapa de mineração de dados com o auxílio da ferramenta WEKA teve início.
3.2.2 Mineração de Dados
A etapa de Mineração de Dados foi realizada com o auxílio da ferramenta WEKA,
versão 3.6.10, rodando em ambiente Windons. Devido a esta ferramenta utilizar
preferencialmente arquivos no formato ARFF, algumas alterações foram necessárias para que
fosse possível conectar o Data Mart Evasão a ferramenta. Foi também utilizado o mysqlconnector-java-5.1.25, que é o driver JDBC do MySQL. O Connector/J é um driver JDBC do
tipo IV e contém todas as características de JDBC para utilizar MySQL. Com os dados já
migrados para o Data Mart Evasão e a conexão com o WEKA configurada pôde-se dar início
a mineração dos dados.
O ambiente Explorer da ferramenta WEKA é comumente o mais utilizado devido as
suas características. Esta interface é fácil e intuitiva de se usar e oferece uma visualização dos
atributos que compõem a base de dados carregada, fornecendo assim uma ideia geral das
relações entre estes atributos sem a necessidade de aplicação de nenhum algoritmo. Utilizandose desta ferramenta foi possível observar alguns gráficos e estatísticas interessantes referentes
a base de dados estudada conforme destacado abaixo:

A base é composta em sua totalidade por 906 alunos que entre 2008/1 e 2012/2
fizeram matricula no curso de Ciência da Computação da UNIVALI;

Entre os alunos matriculados no período, 677 ingressaram no curso entre 2008/1
e 2012/2 e o restante 229 são alunos que ingressaram no curso em anos
anteriores.
Conforme apresentado na Figura 3, a distribuição dos alunos ingressos por ano ocorreu
da seguinte forma: 150 alunos em 2008, 136 em 2009, 144 em 2010, 117 em 2011 e 130 em
2012. É possível notar uma variação entre anos impares e pares, nos anos pares (2008, 2010 e
2012) houve uma quantidade maior de alunos ingresso se comparada com os anos impares
(2009 e 2011). Pode-se notar também que o número de alunos ingressos vem caindo nos últimos
anos, porém devido a pesquisa abordar um curto período de tempo, não pode-se afirmar que
existe um padrão nem na variação do número de ingressos entre anos pares e impares e nem
sobre a diminuição dos ingressos através dos anos.
56
Figura 3 - Alunos Ingressos entre 2008 e 2012
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Dentre os 906 alunos cujos dados compõem a base da pesquisa, 527 evadiram entre os
anos de 2008 a 2012. É importante salientar neste momento, que o total de alunos que compõem
a base de dados foi selecionado buscando todas as matriculas entre os anos de 2008 e 2012,
portanto todos estes 906 alunos em um ou vários períodos compreendidos entre os anos da
pesquisa, efetuaram matricula no curso de Ciência da Computação da UNIVALI campus ItajaíSC, independentemente de ser ou não ingresso no período pesquisado. A Figura 4 apresenta a
distribuição da evasão durante os anos pesquisados.
Figura 4 - Alunos evadidos entre os anos de 2008 a 2012.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Uma tabulação destes dados fornece uma ideia mais clara desta distribuição, a Tabela 1
auxilia nesta tarefa explanando os dados tanto de evasão quanto de ingresso dos alunos da base
57
de dados estudada. Na Tabela 1 foram considerados todos os alunos ingressos inclusive os
alunos que reingressaram no curso após um período de afastamento. A coluna “Alunos
Matriculados” apresenta o número de alunos que efetuaram matricula por ano. Já a coluna
“Evasões” não leva em consideração os alunos com tipo de afastamento “CONCLUSÃO” e “A
COLAR GRAU”, devido a não fazerem parte da estáticas de evasão.
Tabela 3 – Alunos ingressos, Alunos Matriculados e Alunos Evadidos.
Alunos
Percentual de
Alunos
Percentual
Ingres
Alunos Ingressos
Matriculados
sos
Evasões
de
Percentual de
Evasão
Matriculas
1998 à 2007
229
25,27%
-
-
2008
150
16,55%
400
22,31%
91
16,02%
2009
136
15,01%
356
19,85%
137
24,12%
2010
144
15,89%
345
19,24%
121
21,30%
2011
117
12,91%
337
18,80%
112
19,72%
2012
130
14,35%
355
19,80%
107
18,84%
Total
906
1793
568
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Pode-se observar através da Tabela 1, como já exposto anteriormente, uma queda no
número de alunos ingressos entre os anos de 2008 à 2012 e como consequência o número de
alunos matriculados também diminui sutilmente neste período. Em contrapartida o número de
evasões possui uma crescimento entre 2008 e 2009 e entre 2010 e 2012 pode-se observar uma
queda neste número acompanhando a queda no número de alunos matriculados e ingressos.
Na sequência a Figura 5 demonstra os alunos que ingressaram no curso durante o ano
de 2008 e a evolução da evasão destes alunos. No ano de 2008, 150 alunos ingressaram no curso
de Ciência da Computação da UNIVALI campus Itajaí e como pode ser notado, neste mesmo
ano já houveram 44 evasões. Dos 150 alunos que ingressaram em 2008 evadiram 113 entre
2008 e 2012 restando assim, apenas 37 alunos após este período.
58
Figura 5– Evasão dos alunos ingressos em 2008.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Considera-se para fins deste estudo como “Evasão Escolar”, os seguintes tipos de
afastamento:
“ABANDONO”,
“NÃO
CONFIRMADA”,
“CANCELAMENTO”,
“CANCELAMENTO 70%”, “TRANSFERENCIA INTERNA” e “TRANSFERENCIA
EXTERNA”. Entre os dados levantados ainda existem outros 2 (dois) tipo de afastamento que
não são considerados na análise pois tratam da fase final do curso que são: “CONCLUSÃO” e
“A COLAR GRAU”. Uma descrição de cada tipo de evasão encontrada na base de dados é
apresentada na sequência:

Abandono: O abandono ocorre quando o aluno não comparece mais as aulas a
partir de um determinado período dentro do semestre e ou não faz nova
matrícula no semestre seguinte, sem apresentar uma justificativa;

Não Confirmada: Ocorre por um período específico de tempo, quando o aluno
efetua a matricula e deixa de pagar a primeira mensalidade. Após um tempo prédeterminado o status muda para abandono se o aluno não quitar o boleto ou para
confirmado se o pagamento ocorreu;

Cancelamento: Quando o aluno entra em contato com a instituição e informa
que se afastará por um determinado período;

Cancelamento 70%: Quando o aluno entra em contato com a instituição e
informa que se afastará por um determinado período, porém, o aviso deve
ocorrer no início do semestre letivo e parte do valor já pago pelo aluno é
reembolsado;
59

Transferência Interna: Ocorre quando o aluno transfere-se de um curso para
outro dentro da instituição;

Transferência Externa: Ocorre quando o aluno transfere-se de uma instituição
para outra;

Conclusão: Quando o alunos afasta-se da instituição pro conclusão do curso;

A Colar Grau: Quando o alunos afasta-se da instituição pro conclusão do curso
mas falta algum requisito par poder colar grau e deverá aguardar por um período
de tempo até a finalização do processo.
Na sequência a Figura 6 representa como fica esta distribuição entre os anos de 2008 a
2012 das evasões dos alunos que ingressaram no curso no ano de 2008.
Figura 6 - Tipos de Afastamento dos alunos ingressos em 2008 (Detalhamento entre 2008 e 2012)
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Observando a Figura 6 nota-se que o tipo de afastamento “ABANDONO” é o
predominante. Este tido de afastamento ocorre quando o aluno deixa de frequentar o curso
durante o semestre ou quando o aluno não faz a rematrícula, estes dois casos caracterizam o
“ABANDONO”.
60
Inserindo uma tabela com os dados relativos a Figura 6 é possível aumentar a percepção
sobre os dados apresentados. Nota-se que os dados representam a totalidade das evasões dos
alunos ingressos no curso em 2008, agrupando-os pelo tipo de afastamento.
Tabela 4 - Detalhamento das Evasões dos Alunos Ingressos em 2008.
2008
2009
2010
2011
2012
Abandono
3
12
32
5
4
Cancelamento
0
3
1
0
0
70%
Cancelamento
0
17
2
1
0
Transferência
2
8
20
5
0
Interna
Transferência
0
0
1
0
1
Externa
Trancamento
1
4
4
2
0
Não
1
0
0
0
0
Confirmada
Total por Ano
44
60
13
5
7
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Total por
tipo
Percentuais
de Evasão
por Tipo
56
43,41%
4
3,10%
20
15,50%
35
27,13%
2
1,55%
11
8,53%
1
0,78%
A partir da Figura 6 pode-se verificar mais claramente que os índices de evasão são mais
altos nos primeiros períodos do curso, mais especificamente nos 3 primeiros períodos. Esta
afirmação pode ser comprovada analisando a Figura 7 que detalha a evasão dos alunos que
ingressaram no curso de Ciência da Computação no ano/semestre de 2008/1.
Figura 7 - Evasão por semestre alunos ingressos em 2008/1
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Buscando um novo panorama referente ao apresentado nas Figura 6 e Figura 7, foi
trabalhado na Tabela 3 a distribuição das evasões referentes aos alunos ingressos no ano de
61
2008 semestre 1. O total de ingressos no Curso de Ciência da Computação da UNIVALI campus
Itajaí no ano de 2008 semestre 1 foi de 91 alunos sendo que o total de evasões entre 2008 e
2012 foi de 78. Observando mais a fundo, verifica-se que o número de alunos evadidos é
diferente do número de evasões, sendo que o total de alunos evadidos é de 70 para estes
períodos, isto se dá devido à alguns alunos terem se afastado em um determinado semestre,
retornado ao curso e se afastado novamente, configurando assim 2 afastamentos. A Tabela 3
demonstra esta distribuição.
Tabela 5 - Distribuição da evasão para alunos ingressos em 2008/1.
2008/1 2008/2 2009/1 2009/2 2010/1 2010/2
2011/1
Abandono
0
12
11
5
1
0
2
Cancelamento
3
0
0
0
0
0
0
70%
Cancelamento
9
3
2
0
0
0
0
Transferência
0
8
5
3
2
0
0
Interna
Transferência
0
0
1
0
0
0
0
Externa
Trancamento
1
1
3
0
0
0
0
Não
0
0
0
0
0
0
0
Confirmada
Total de
Alunos
13
24
22
8
3
0
2
Evadidos
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
2011/2
2012/1
2012/2
0
1
2
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
1
0
1
3
2
Algumas informações importantes podem ser levantadas com relação ao que foi
apresentado até aqui. Referente a evasão são possíveis diversos tipos de cálculos, cada um tendo
um significado buscando demonstrar situações especificas dentro do contexto estudado. Um
exemplo de cálculo é o da Taxa de Conclusão do Curso, conforme Equação 1 abaixo:
Equação 1 - Cálculo da Taxa de Conclusão do Curso.
T = C(n)/(I(n − 4) )
Fonte: (SILVA FILHO; LOBO, 2013).
Em um curso de 5 (cinco) anos, como é o caso do curso estudado, quem ingressou em
2008/1, I(n-4), deveria ser concluinte em 2012/2, C(n) (para ingressantes se considera número
do início do ano e para concluintes o do final do ano, por isso 5 anos de curso comparam os
concluintes de 2012/2 com os ingressantes de 2008/1) (SILVA FILHO; LOBO, 2013). Pôde-se então
calcular a taxa de evasão do curso para os alunos que ingressaram em 2008/1, sendo que o total
de alunos concluintes em 2012/2 foi de 6 alunos e o resultando da taxa de conclusão de curso
62
para este caso foi de 6,59%. O desenvolvimento deste cálculo é detalhado a seguir através do
Quadro 3:
Quadro 3 - Desenvolvimento Cálculo Taxa de Conclusão de Curso.
Alunos Ingressos em 2008/1 = 91 ou I(n-4)
Atributos do Cálculo
Alunos Concluintes em 2012/2 = 6 ou C(n)
𝑇 = 𝐶(𝑛)/(𝐼(𝑛 − 4))
𝑇 = 6/91
Desenvolvimento do Cálculo
𝑇 = 0,0659 𝑜𝑢 6,59%
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Foram calculadas também as taxas de evasão por ano utilizando a Equação 2:
Equação 2 -Taxa de evasão em um determinado período.
Evasão = 1 − [M(n + 1) − I(n + 1)]/[M(n) − C(n)]
Fonte: (SILVA FILHO; LOBO, 2013).
Utilizando a Equação 2, aonde M(n)-C(n) é número de matriculados no ano n menos o
número de concluintes naquele ano e M(n+1)-I(n+1) o número de matriculados no ano n+1
menos o número de ingressantes naquele ano pôde-se então elaborar a Tabela 4. A Equação 2
trabalha com dados anuais, nada que impeça a utilização para outros período de tempo,
conforme observa-se na Tabela 4. A utilização de semestres em contra partida à anos foi devido
a UNIVALI trabalhar com taxas de evasão semestrais, o que na verdade reflete melhor a
realidade dos dados.
Tabela 6 – Cálculo da Taxa de Evasão Semestral.
Alunos
Alunos
Alunos
Alunos
Taxa de
Ingressos
Matriculados
Evadidos
Egressos
Evasão Anual
2008/1
91
339
33
17
24,22%
2008/2
59
303
66
10
24,91%
2009/1
92
312
72
15
25,25%
2009/2
44
266
57
18
18,95%
2010/1
90
291
55
6
20,70%
2010/2
54
280
63
17
17,11%
2011/1
81
299
52
11
18,40%
63
2011/2
36
271
59
7
15,91%
2012/1
75
297
56
16
16,01%
2012/2
55
291
52
18
-
Total
906
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Visualizando a Tabela 4 nota-se que não foi possível calcular a taxa de evasão de
2012/2, isto se deve a falta dos dados de 2013/1 na base estudada. Mesmo sem a taxa de evasão
de 2012/2 uma constatação importante pode ser feita sobre os resultados da Tabela 4, a Taxa
de Evasão dos alunos do Curso de Ciência da Computação vem caindo, sendo que em 2008/1
e 2008/2 esta taxa estava próxima de 25% chegando em 2012/1 e 2012/2 próxima aos 16%. O
Quadro 4 apresenta o desenvolvimento do cálculo da Taxe de Evasão Semestral:
Quadro 4 - Desenvolvimento Cálculo Taxa Evasão Semestral.
Número de Alunos Matriculados no Semestre- M(n)
Número de Alunos Concluintes no Semestre - C(n)
Atributos do Cálculo
Número de Alunos Matriculados no Semestre n+1 - M(n+1)
Número de Alunos Ingressantes no Semestre n+1 - I(n+1)
Evasão = 1 − [M(n + 1) − I(n + 1)]/[M(n) − C(n)]
Evasão = 1 − [303 − 59]/[339 − 17]
Desenvolvimento do Cálculo
Evasão = 1 − [244/322]
Evasão = 0,2422 ou 24,22%
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Outra análise feita diz respeito a questão das disciplinas cursadas pelos alunos
evadidos. Na Figura 9 os alunos ingressos no ano de 2008/1 são agrupados pelo período que
estavam no curso no ano/semestre em que evadiram e quais disciplinas cursavam no
ano/semestre da evasão, sendo que foram selecionados apenas os alunos que evadiram com o
tipo de afastamento “ABANDONO”.
64
Figura 8 – Alunos evadidos por período acadêmico disciplinas mais cursadas no semestre da evasão.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Visualizando a Figura 8 é possível notar claramente uma queda no número de alunos
evadidos conforme os períodos vão avançado para o final o curso. Nota-se também que algumas
disciplinas se destacam como as mais cursadas pelos alunos evadidos, conforme a legenda,
sendo elas: Algoritmos e Programação, Computação Básica, Matemática Computacional,
Álgebra Linear e Cálculo, todas do início do curso. Ainda analisando as disciplinas que os
alunos cursavam no semestre em que evadiram pode-se determinar qual área a maioria das
disciplinas pertencem. Conforme Figura 9 as disciplinas do grupo das disciplinas de
Matemática são as que tem maior frequência nos semestres em que os alunos evadem e em
segundo lugar vem as da área de Programação e em terceiro as de Infraestrutura.
65
Figura 9 - Disciplinas mais cursadas por alunos evadidos, agrupamento por área.
Áre das Disciplinas mais Cursadas
300
249
250
198
200
138
150
123
100
50
3
6
6
0
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Pode-se verificar no eixo “x” as áreas que agrupam as disciplinas e no eixo “y” a
quantidade de vezes que as disciplinas de dada área estavam presentes nas matriculas do alunos
evadidos. Um exemplo são as disciplinas da área de matemática que aparecem 249 vezes entres
as matriculas dos alunos em questão, sendo que dentre elas três disciplinas se destacam com o
maior frequência que são Matemática Computacional, Álgebra Linear e Cálculo como já
destacado na Figura 9 acima.
Na sequência do trabalho iniciou-se a aplicação de algoritmos de mineração sobre a base
dos alunos de Ciência da Computação da UNIVALI campus Itajaí – SC. Foram utilizadas
tarefas de clusterização, associação e classificação que geraram um modelo de conhecimento
que foi analisado, interpretado e validado. Nesta etapa também foram feitas as análises,
interpretações do modelo de conhecimento obtido.
A validação dos resultados que deveria ocorrer através do especialista da área de
informática e do especialista na área de ensino da UNIVALI não foi possível devido ao tempo.
Para a validação, os resultados estatísticos apurados nesta pesquisa seriam comparados com os
dados estatísticos da UNIVALI, na tentativa de observar a similaridade existente e
66
consequentemente atestando que a base de dados selecionada está correta e não distorce a
realidade. Outra alternativa de validação seria a análise dos atributos, ainda na etapa de seleção,
pelo especialista da área de ensino da UNIVALI. Isso seria extremamente útil pois, através de
sua experiência, ele poderia indicar quais destes atributos seriam mais propensos a apresentar
resultados bons resultados e ajudar a eliminar aqueles que não teriam relevância alguma.
3.2.2.1 Clusterização
Através da Clusterização buscou-se classificar os dados de forma não supervisionada a
fim de agrupar os dados através das suas similaridades. Foram trabalhados algoritmos que
agruparam de forma a descobrir algum padrão novo e útil na base de dados. Para que fosse
possível trabalhar estes dados foram utilizados os argumentos conforme Quadro 3:
Quadro 5 – Argumentos para clusterização algoritmo SimpleKMeans, desempenho acadêmico, dados
afastamento alunos evadidos toda a pesquisa.
Base:
Data Mart Evasão
Query:
SELECT
IF(fatos_desenpenho_aluno.Media_Calculada = 0, 1, 0)AS Nota_Evasao,
IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND
fatos_desenpenho_aluno.Media_Calculada <= 4, 1, 0) AS Nota_Reprovado_0a4,
IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND
fatos_desenpenho_aluno.Media_Calculada < 6, 1, 0) AS Nota_Reprovado_4a6,
IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND
fatos_desenpenho_aluno.Media_Calculada < 8, 1, 0) AS Nota_Aprovado_6a8,
IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND
fatos_desenpenho_aluno.Media_Calculada <= 10, 1, 0) AS Nota_Aprovado_8a10,
IF(fatos_afastamento.Idade_na_Data_Afastamento < 18, 1, 0)AS Adolecente,
IF(fatos_afastamento.Idade_na_Data_Afastamento >= 18 AND
fatos_afastamento.Idade_na_Data_Afastamento <= 21 , 1, 0)AS tem_18_a_21_anos,
IF(fatos_afastamento.Idade_na_Data_Afastamento > 21 AND
fatos_afastamento.Idade_na_Data_Afastamento <= 25, 1, 0) AS tem_22_a_25_anos,
IF(fatos_afastamento.Idade_na_Data_Afastamento > 25, 1, 0) AS mais_de_25_anos,
IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno < 10, 1, 0) AS
Menos_de_10_creditos,
IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno >= 10 and
fatos_desenpenho_aluno.Creditos_Academicos_Aluno <= 16, 1, 0) AS de_10_a_16_creditos,
IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno >= 17 and
fatos_desenpenho_aluno.Creditos_Academicos_Aluno <= 20, 1, 0) AS de_17_a_20_creditos,
IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno > 20, 1, 0) AS
Mais_de_20_creditos,
IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno < 4, 1, 0) AS InicioCurso,
IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 4 AND
fatos_desenpenho_aluno.Periodo_Academico_Aluno <= 7, 1, 0) AS MeioCurso,
IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 8, 1, 0) AS FinalCurso,
IF(fatos_desenpenho_aluno.Aluno_Prouni LIKE "S", 1, 0) AS AlunoProuni,
IF(fatos_afastamento.Tipo_Afastamento = 'abandono', 1, 0) AS Abandono,
IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento', 1, 0) AS cancelamento,
IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento 70%', 1, 0) AS Cancelamento_70,
IF(fatos_afastamento.Tipo_Afastamento = 'nao confirmada', 1, 0) AS Nao_Confirmada,
IF(fatos_afastamento.Tipo_Afastamento = 'trancamento', 1, 0) AS trancamento,
67
IF(fatos_afastamento.Tipo_Afastamento = 'transf.interna', 1, 0) AS Transferencia_Interna,
IF(fatos_afastamento.Tipo_Afastamento = 'transf.externa', 1, 0) AS Transferencia_Externa
FROM fatos_desenpenho_aluno
INNER JOIN fatos_afastamento
ON fatos_desenpenho_aluno.id_Aluno = fatos_afastamento.id_Aluno
WHERE Tipo_Afastamento <> 'conclusao' AND Tipo_Afastamento <> 'a colar grau' AND
Media_Parcial_Sigla <> 'acrf' AND Media_Parcial_Sigla <> 'adrf' AND Media_Parcial_Sigla
<> 'ap'
Justificativa
Realizar a clusterização dos dados do desempenho de todos os alunos evadidos. Serão divididos
em 04 grupos com o intuito de que os membros de cada grupo tenham mais similaridades entre
si e mais diferenças para os membros dos outros grupos.
Algoritmo
weka.clusterers.SimpleKMeans -N 4 -A "weka.core.EuclideanDistance -R first-last" -I 500 -S 25
Atributos
inicialmente
presentes
fatos_desenpenho_aluno.Media_Calculada,
fatos_afastamento.Idade_na_Data_Afastamento,
fatos_desenpenho_aluno.Creditos_Academicos_Aluno,
fatos_desenpenho_aluno.Periodo_Academico_Aluno, fatos_desenpenho_aluno.Aluno_Prouni,
fatos_afastamento.Tipo_Afastamento
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Os 4 (quatro) cluster encontrados pelo algoritmo dividiram os dados de desempenho e
afastamento dos alunos e forneceram algumas informações importantes conforme descrito
abaixo. A Figura 10 apresenta o modelo de conhecimento gerado pelo algoritmo e é encontrada
também na sequência.

Em uma análise geral pode-se dizer que existe uma distribuição das notas entre
as faixas especificadas, não se sobressaindo nenhuma das faixas em relação as
outras;

53% dos alunos evadidos fazem entre 17 e 20 créditos acadêmicos no semestre
em que evadiram;

Quase 50% dos alunos evadidos do curso estão na faixa etária entre 18 e 21 anos;

Quase 60% dos alunos estão no início do curso;

43% dos alunos tiveram tipo de afastamento “Abandono”.
O Cluster 1, traçou um perfil de aluno que abrange 16% do total de alunos evadidos que
são aqueles que em 100% dos caso tiram nota acima de 8, em sua grande maioria tem acima de
22 anos 76,33%, cursam entre 10 e 20 créditos por semestre com 98% de certeza, 42% estão no
meio do curso (entre 4º e 7º períodos), e abandonaram o curso em 54,53% dos casos. Este perfil
é um perfil interessante para um aprofundamento das pesquisas;
68
O Cluster 2, agrupa a maioria dos alunos evadidos com 39% dos casos e é composto por
alunos com idade entre 18 e 21 anos (85% dos casos), cursavam de 17 a 20 créditos (74% dos
casos) e em 90% das ocorrências foram de alunos no início do curso e que abandonaram com
39% de chance;
O Cluster 0 com 32% dos casos, são alunos com 38% das notas entre 6 e 8, com idade
entre 22 e 25 anos (62 %) e que cursam 10 a 16 créditos (68%), estão no meio do curso (46%)
e tiveram tipo de evasão abandono (59%).
69
Figura 10 – Resultado clusterização algoritmo SimpleKMeans, desempenho acadêmico, dados afastamento
alunos evadidos toda a pesquisa.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
70
O Trabalho teve sequência analisando dados de alunos evadidos e seu desempenho
durante os períodos do curso. O Quadro 4 apresenta os argumentos utilizados para esta
experimentação:
Quadro 6- Argumentos para clusterização algoritmo SimpleKMeans, alunos evadidos.
Base:
Data Mart Evasão
Query:
SELECT
IF(fatos_desenpenho_aluno.Media_Calculada = 0, 1, 0) AS Nota_Evasao,
IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND
fatos_desenpenho_aluno.Media_Calculada <= 4, 1, 0) AS Nota_Reprovado_0a4,
IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND
fatos_desenpenho_aluno.Media_Calculada < 6, 1, 0) AS Nota_Reprovado_4a6,
IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND
fatos_desenpenho_aluno.Media_Calculada < 8, 1, 0) AS Nota_Aprovado_6a8,
IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND
fatos_desenpenho_aluno.Media_Calculada <= 10, 1, 0) AS Nota_Aprovado_8a10,
IF(Status_Disciplina = 4 AND Status_Frequencia = "I", 1, 0) AS ReprovadoFrequencia,
IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno < 4, 1, 0) AS InicioCurso,
IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 4 AND
fatos_desenpenho_aluno.Periodo_Academico_Aluno <= 7, 1, 0) AS MeioCurso,
IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 8, 1, 0) AS FinalCurso,
IF(fatos_desenpenho_aluno.Aluno_Prouni LIKE "S", 1, 0) AS AlunoProuni,
fatos_desenpenho_aluno.Media_Parcial_Sigla,
fatos_afastamento.Ano_Letivo_Afastamento,
fatos_afastamento.Semestre_Letivo_Afastamento,
fatos_afastamento.Tipo_Afastamento
FROM fatos_afastamento
INNER JOIN dimensao_aluno
ON fatos_afastamento.id_Aluno = dimensao_aluno.id_Aluno
INNER JOIN fatos_desenpenho_aluno
ON fatos_afastamento.id_Aluno = fatos_desenpenho_aluno.id_Aluno
WHERE fatos_afastamento.Tipo_Afastamento <> 'conclusao' AND Tipo_Afastamento <> 'A
COLAR GRAU'
Justificativa
Realizar a clusterizaçao dos dados de todos os alunos evadidos e seu desempenho no decorrer
dos períodos, foram divididos em 05 grupos com o intuito de que os membros de cada grupo
tenham mais similaridades entre si e mais diferenças para os membros dos outros grupos.
Algoritmo
weka.clusterers.SimpleKMeans -N 5 -A "weka.core.EuclideanDistance -R first-last" -I 500 -S 10
Atributos
inicialmente
presentes
Nota_Evasao, Nota_Reprovado_0a4, Nota_Reprovado_4a6, Nota_Aprovado_6a8,
Nota_Aprovado_8a10, ReprovadoFrequencia, InicioCurso, MeioCurso, FinalCurso,
AlunoProuni, fatos_desenpenho_aluno.Media_Parcial_Sigla,
fatos_afastamento.Ano_Letivo_Afastamento,
fatos_afastamento.Semestre_Letivo_Afastamento, fatos_afastamento.Tipo_Afastamento
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
A Figura 11 a seguir, apresenta os resultados encontrados para esta experiência.
Também foi analisando o modelo de dados gerado e pode-se chegar a algumas considerações
importantes com relação aos alunos evadidos e seu desempenho acadêmico conforme destacado
abaixo:
71

Referente as notas dos alunos observou-se uma distribuição uniforme, cerca de
47% dos registros com nota acima de 6 (aprovado) e 53% dos registros com
notas abaixo de 6 (reprovado);

61% dos alunos evadidos estavam no início do curso, entre o 1º e 3º períodos;

O Cluster 4 com 16% dos registros agrupa os alunos que são do início do curso
(entre 1º e 3º períodos), reprovaram por frequência insuficiente em 70% dos
casos e em 95% das vezes não tiveram nota para a M3;

O Cluster 0 com 24% dos registros agrupa alunos do início do curso (entre 1º e
3º períodos), que apesar de em 70% terem notas acima de 6 (aprovado) evadiram
do curso.
72
Figura 11 – Resultado Clusterização algoritmo SimpleKMeans, 5 Clusters, alunos evadidos.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Em mais uma experiência de Clusterização foram trabalhados dados pessoais da tabela
“Dimensão_Aluno” e de evasão da tabela “Fatos_Afastamento de todos os alunos pesquisados.
No Quadro 5 são apresentados os argumentos da pesquisa.
73
Quadro 7 – Argumentos para Clusterização, dados pessoais e de evasão dos alunos.
Base:
Data Mart Evasão
Query:
SELECT
IF(dimensao_aluno.Estado_Civil
=
'solteiro',
1,
0)
AS
Solteiro,
IF(dimensao_aluno.Estado_Civil
=
'casado',
1,
0)
AS
Casado,
IF(dimensao_aluno.Estado_Civil = 'outros', 1, 0) AS Outros, IF(dimensao_aluno.Sexo =
'masculino', 1, 0) AS Masculino, IF(dimensao_aluno.Sexo = 'feminino', 1, 0) AS Feminino,
IF(fatos_afastamento.Tipo_Afastamento = 'abandono', 1, 0) AS Abandono,
IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento', 1, 0) AS cancelamento,
IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento 70%', 1, 0) AS Cancelamento_70,
IF(fatos_afastamento.Tipo_Afastamento = 'nao confirmada', 1, 0) AS Nao_Confirmada,
IF(fatos_afastamento.Tipo_Afastamento = 'trancamento', 1, 0) AS trancamento,
IF(fatos_afastamento.Tipo_Afastamento = 'transf.interna', 1, 0) AS Transferencia_Interna,
IF(fatos_afastamento.Tipo_Afastamento = 'transf.externa', 1, 0) AS Transferencia_Externa,
IF(ISNULL(fatos_afastamento.Tipo_Afastamento),
1,
0)
AS
Cursando,
IF(fatos_afastamento.Idade_na_Data_Afastamento
<
18,
1, 0)AS
Adolecente,
IF(fatos_afastamento.Idade_na_Data_Afastamento
>=
18
AND
fatos_afastamento.Idade_na_Data_Afastamento <= 21 , 1, 0)AS tem_18_a_21_anos,
IF(fatos_afastamento.Idade_na_Data_Afastamento
>
21
AND
fatos_afastamento.Idade_na_Data_Afastamento <= 25, 1, 0) AS tem_22_a_25_anos,
IF(Idade_na_Data_Afastamento
>
25,
1,
0)
AS
mais_de_25_anos,
dimensao_aluno.Status_Formando FROM dimensao_aluno LEFT OUTER JOIN
fatos_afastamento ON dimensao_aluno.id_Aluno = fatos_afastamento.id_Aluno
Justificativa
Realizar a Clusterização entre atributos pessoais e de evasão de todos os alunos da base de
dados independente do tipo de afastamento e considerando alunos evadidos e não evadidos. O
algoritmo dividiu os alunos em 6 clusters distintos conforme apresendados na Figura 12.
Algoritmo
weka.clusterers.MakeDensityBasedClusterer -M 1.0E-6 -W weka.clusterers.SimpleKMeans - -N 6 -A "weka.core.EuclideanDistance -R first-last" -I 500 -S 10
Atributos
dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, fatos_afastamento.Tipo_Afastamento,
inicialmente
fatos_afastamento.Idade_na_Data_Afastamento, dimensao_aluno.Status_Formando
presentes
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
A Clusterização apresentou 6 grupos de alunos e foi possível identificar alguns
características através dos resultados extraídos. Pode-se notar também que os atributos da
pesquisa não referem-se ao desempenho acadêmico dos alunos mas mantém a relação com a
evasão e permite algumas visualizações interessantes.
O Cluster 0, contém 18% dos alunos e apresenta alunos em sua grande maioria tem
estado civil como solteiro (99,5%), são do sexo masculino (91,09%), os tipos de afastamento
estão divididos sendo que o único que não está presente neste grupo é o abandono, além disto
este cluster é composto apenas por alunos evadidos e que tem idade superior a 22 anos sendo
de 22 a 25, 45,54% e mais que 25 anos 48,51%.
O Cluster 1 agrupou 30% dos alunos sendo que todos solteiros e 93,08% do sexo
masculino. Este grupo de alunos apresentou uma divisão nos tipos de afastamento porém com
uma predominância do tipo abandono (42,45%), neste grupo não existem alunos não evadidos
e todos tem de 18 a 21 anos.
74
No Cluster 2 15% dos alunos estão alocados sendo que 99,26% são solteiros e 91,85%
são do sexo masculino. Todos estes alunos evadiram e o tipo de afastamento para todos foi
abandono e como no cluster 0 a maioria dos alunos tem mais de 22 anos sendo que 54,07% tem
entre 22 e 25 anos e 44,44% tem 25 anos ou mais.
O Cluster 3 agrupou 21% dos alunos sendo nestes cluster nenhum aluno evadiu ou seja
100% Cursando. A maioria dos alunos pertence ao sexo masculino e é solteiro 92,93% e 98,99%
respectivamente.
Já no Cluster 4 os 4% dos alunos ali alocados tem predominância de estado civil igual
a casado (87,5%) e neste cluster 84% dos alunos são do sexo masculino e os tipos de
afastamento estão divididos sendo que existem 18% destes que estão cursando e nota-se
também que a faixa etária predominante neste grupo é acima de 25 anos com 65,63% dos casos.
O Cluster 5 é o único que agrupa alunos com status conclusão de curso igual a sim e em
sua grande maioria são do sexo masculino e solteiros, sendo que todos tem de 22 a 25 anos.
Este cluster agrupou 13% dos alunos.
Em primeira análise observa-se que os agrupamentos gerados não definem um perfil
com uma especificidade que se destaque dos outros. O Cluster 3 com apenas alunos com tipo
de afastamento igual a cursando, apontou alunos do sexo masculino e solteiros, sendo que esta
informação estatística é de fácil obtenção não necessitando mineração e dados para a tarefa.
Com relação aos outros clusters verifica-se uma divisão não muito reveladora, um exemplo são
os Cluster 0 e o Cluster 2 pois possuem valores de atributos muito semelhantes, sendo que a
diferença está somente no que se refere ao tipo de afastamento. Apesar de não revelar um
modelo de conhecimento tão valioso, ainda pôde-se entender com a pesquisa que, em relação a
estes atributos e para a base de dados em questão, não foi possível apontar um grupo específico
de alunos que por estas características tenha tendência a evasão. A Figura 12 apresenta os
resultados comentados sobre esta experiência:
75
Figura 12 – Resultados para Clusterização, dados pessoais e de evasão dos alunos
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
3.2.2.2 Associação
Buscando identificar relações entre atributos da base de dados foram trabalhadas regras
de associação entre as tabelas da base de dados e seus atributos. A experiência a seguir tentou
descobrir possíveis indícios entre as notas dos alunos evadidos e as disciplinas cursadas por
eles conforme apresentado no Quadro 5:
76
Quadro 8 - Argumentos para Associação algoritmo PredictiveApriori, alunos tipo de afastamento abandono,
notas, disciplinas e categoria.
Base:
Data Mart Evasão
Query:
SELECT
IF(fatos_desenpenho_aluno.Media_Calculada = 0, 'Sim', 'nao')AS Nota_Evasao,
IF(fatos_desenpenho_aluno.Media_Calculada
>
0
AND
fatos_desenpenho_aluno.Media_Calculada <= 4, 'Sim', 'nao') AS Nota_Reprovado_0a4,
IF(fatos_desenpenho_aluno.Media_Calculada
>
4
AND
fatos_desenpenho_aluno.Media_Calculada < 6, 'Sim', 'nao') AS Nota_Reprovado_4a6,
IF(fatos_desenpenho_aluno.Media_Calculada
>=
6
AND
fatos_desenpenho_aluno.Media_Calculada < 8, 'Sim', 'nao') AS Nota_Aprovado_6a8,
IF(fatos_desenpenho_aluno.Media_Calculada
>=
8
AND
fatos_desenpenho_aluno.Media_Calculada <= 10, 'Sim', 'nao') AS Nota_Aprovado_8a10,
fatos_afastamento.Ano_Letivo_Afastamento,
dimensao_disciplina.Nome_Disciplina,
dimensao_disciplina.Categoria,
fatos_desenpenho_aluno.Media_Parcial_Sigla
FROM
fatos_afastamento INNER JOIN fatos_desenpenho_aluno ON fatos_afastamento.id_Aluno =
fatos_desenpenho_aluno.id_Aluno
INNER
JOIN
dimensao_disciplina
ON
fatos_desenpenho_aluno.id_Disciplina = dimensao_disciplina.id_Disciplina WHERE
Afastamento = 'abandono'
Justificativa
Realizar a associação entre atributos de alunos evadidos com tipo de afastamento abandono e
considerando as disciplinas cursadas e suas categorias durante os anos pesquisados. Foi feita
uma segmentação das notas para aumentar as possibilidades de encontrar relações
Algoritmo
weka.associations.PredictiveApriori -N 200 -c -1
Atributos
fatos_desenpenho_aluno.Media_Calculada,
fatos_afastamento.Ano_Letivo_Afastamento,
inicialmente
dimensao_disciplina.Nome_Disciplina,
dimensao_disciplina.Categoria,
presentes
fatos_desenpenho_aluno.Media_Parcial_Sigla
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Conforme pode ser visto abaixo, foram coletados alguns resultados gerados pela
experiência descrita no Quadro 6 e explicada a seguir:
Quadro 9 – Resultados gerados pela ferramenta WEKA e interpretação, para Associação algoritmo
PredictiveApriori, alunos evadidos, tipo afastamento abandono nos anos pesquisados.
Resultados 1
1. Nota_Evasao=Sim Ano_Letivo_Afastamento=12 Categoria=Complementares 9 ==>
Nome_Disciplina=TOPICOS ESPECIAIS EM COMPUTACAO
9
acc:(0.90578)
Interpretação 1
As notas zero dos alunos com ano letivo de afastamento igual a 2012 e para disciplina da
categoria das disciplinas complementares, com 90% de certeza pertence a disciplina de
Tópicos Especiais em Computação.
Resultados 2
2. Nota_Aprovado_8a10=Sim Ano_Letivo_Afastamento=9 Categoria=Analise e Projeto
de Sistemas Media_Parcial_Sigla=M3 7 ==> Nome_Disciplina=BANCO DE DADOS
7 acc:(0.88251)
Interpretação 2
Alunos que se afastaram em 2009 e tiveram notas entre 8 e 10 na média parcial M3 para
uma disciplina da categoria Análise e Projeto de Sistemas, com 88% de certeza foi para a
disciplina de Banco de Dados.
Resultado 3
Nota_Evasao=Sim Ano_Letivo_Afastamento=11 Categoria=Humanas
Media_Parcial_Sigla=M1 6 ==> Nome_Disciplina=METODOLOGIA DA PESQUISA
5 acc:(0.72288)
Interpretação 3
Alunos evadidos em 2011 que cursaram disciplinas da categoria humanas e tem nota zero
na média parcial M1, cursaram Metodologia da Pesquisa com 72% de certeza.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
A segunda experiência com associação foi feita trabalhando dados referente ao
desempenho acadêmico dos alunos relacionado com as disciplina cursadas e o tipo de
77
afastamento, o principal diferencial desta experiência para a anterior está relacionada a ao
período trabalhado e também à análise de todos os tipos de afastamentos vide Quadro 7 a seguir:
Quadro 10 - Argumentos para Associação algoritmo Apriori, alunos evadidos, desempenho acadêmico
segmentado com período pré-estabelecido.
Base:
Data Mart Evasão
Query:
SELECT
IF(fatos_desenpenho_aluno.Media_Calculada = 0, 'Sim', 'nao')AS Nota_Evasao,
IF(fatos_desenpenho_aluno.Media_Calculada
>
0
AND
fatos_desenpenho_aluno.Media_Calculada <= 4, 'Sim', 'nao') AS Nota_Reprovado_0a4,
IF(fatos_desenpenho_aluno.Media_Calculada
>
4
AND
fatos_desenpenho_aluno.Media_Calculada < 6, 'Sim', 'nao') AS Nota_Reprovado_4a6,
IF(fatos_desenpenho_aluno.Media_Calculada
>=
6
AND
fatos_desenpenho_aluno.Media_Calculada < 8, 'Sim', 'nao') AS Nota_Aprovado_6a8,
IF(fatos_desenpenho_aluno.Media_Calculada
>=
8
AND
fatos_desenpenho_aluno.Media_Calculada <= 10, 'Sim', 'nao') AS Nota_Aprovado_8a10,
fatos_desenpenho_aluno.Media_Parcial_Sigla,
dimensao_disciplina.Nome_Disciplina,
dimensao_disciplina.Categoria,
fatos_afastamento.Tipo_Afastamento
FROM
fatos_afastamento
INNER
JOIN
fatos_desenpenho_aluno
ON
fatos_afastamento.id_Aluno
=
fatos_desenpenho_aluno.id_Aluno
INNER
JOIN
dimensao_disciplina
ON
fatos_desenpenho_aluno.id_Disciplina = dimensao_disciplina.id_Disciplina WHERE
datamart.
fatos_desenpenho_aluno.media_parcial_sigla
=
'M1'
OR
datamart.
fatos_desenpenho_aluno.media_parcial_sigla
=
'M2'
OR
datamart.
fatos_desenpenho_aluno.media_parcial_sigla
=
'M3'
AND
datamart.
fatos_afastamento.semestre_letivo_afastamento = 9
Justificativa
Realizar a associação entre atributos de alunos evadidos considerando as disciplinas cursadas
e o desempenho acadêmico com segmentação das médias calculadas dos alunos. Foram
utilizados os dados dos alunso evadidos no ano de 2009.
Algoritmo
weka.associations.Apriori -N 1500 -T 0 -C 0.75 -D 0.01 -U 1.0 -M 0.01 -S -1.0 -c 10
Atributos
inicialmente
presentes
fatos_desenpenho_aluno.Media_Calculada,
fatos_afastamento.Ano_Letivo_Afastamento,
fatos_afastamento.Idade_na_Data_Afastamento,
dimensao_disciplina.Nome_Disciplina,
dimensao_disciplina.Categoria,
fatos_desenpenho_aluno.Creditos_Academicos_Aluno,
fatos_desenpenho_aluno.Media_Parcial_Sigla
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Analisando os resultados da experiência acima chegou-se a algumas regras que contem
significado relevante conforme abaixo. O Quadro 8 buscou reunir os resultados da análise feita
através da ferramenta WEKA com a aplicação do algoritmo Apriori e a interpretação das regras
obtidas:
Quadro 11 - Argumentos para Associação algoritmo Apriori, alunos evadidos, desempenho acadêmico
segmentado com período pré-estabelecido.
Resultados 1
1. Media_Parcial_Sigla=M1 Tipo_Afastamento=ABANDONO
1938 ==>
Nota_Evasao=nao 1776 conf:(0.92):
Interpretação 1
Alunos evadidos com alguma nota na M1 (Media_Parcial_Sigla=M1) e o tipo de
afastamento foi igual a abandono, não teve nota zero (Nota_Evasao=não) com 92% de
certeza para a M1 (Media_Parcial_Sigla=M1)
Resultados 2
Media_Parcial_Sigla=M2 Tipo_Afastamento=ABANDONO
1938 ==>
Nota_Reprovado_4a6=nao 1756 conf:(0.91)
Interpretação 2
Alunos evadidos com alguma nota na M2 (Media_Parcial_Sigla=M2) e o tipo de
afastamento foi igual a abandono, não teve nota entre 4,1 a 6 (Nota_Reprovado_4a6=não)
com 91% de certeza para a M2 (Media_Parcial_Sigla=M2)
78
Resultado 3
3. Tipo_Afastamento=ABANDONO
3876 ==> Nota_Reprovado_4a6=nao
3473 conf:(0.9):
Interpretação 3
Com 90% de certeza se o tipo de afastamento for abandono os alunos não tiraram notas
entre 4 e 6 (Nota_Reprovado_4a6);
Resultado 4
4. Categoria=Programacao 2259 ==> Nota_Evasao=nao Nota_Reprovado_4a6=nao 1623
conf:(0.72)
5. Categoria=Programacao 2259 ==> Nota_Reprovado_0a4=nao
Nota_Reprovado_4a6=nao 1622 conf:(0.72):
Interpretação 4
As regras 4 e 5 refletem com 72% de confiança que se a categoria for programação então o
aluno evadido não teve notas acima de 6.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Na sequência é apresentada a terceira experiência com associações, conforme pode se
notar foram empenhados dados de todos os alunos evadidos especificando apenas o ano letivo,
o Quadro 9 apresenta mais detalhes referentes a experiência.
79
Quadro 12- Argumentos para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico,
idade, número de créditos, período acadêmico e tipos de afastamento.
Base:
Data Mart Evasão
Query:
SELECT
IF(fatos_desenpenho_aluno.Media_Calculada = 0, 'Sim', NULL)AS Nota_Evasao,
IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND
fatos_desenpenho_aluno.Media_Calculada <= 4, 'Sim', NULL) AS Nota_Reprovado_0a4,
IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND
fatos_desenpenho_aluno.Media_Calculada < 6, 'Sim', NULL) AS Nota_Reprovado_4a6,
IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND
fatos_desenpenho_aluno.Media_Calculada < 8, 'Sim', NULL) AS Nota_Aprovado_6a8,
IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND
fatos_desenpenho_aluno.Media_Calculada <= 10, 'Sim', NULL) AS Nota_Aprovado_8a10,
IF(fatos_afastamento.Idade_na_Data_Afastamento < 18, 'Sim', NULL)AS Adolecente,
IF(fatos_afastamento.Idade_na_Data_Afastamento >= 18 AND
fatos_afastamento.Idade_na_Data_Afastamento <= 21 , 'Sim', NULL)AS
tem_18_a_21_anos, IF(fatos_afastamento.Idade_na_Data_Afastamento > 21 AND
fatos_afastamento.Idade_na_Data_Afastamento <= 25, 'Sim', NULL) AS
tem_22_a_25_anos, IF(fatos_afastamento.Idade_na_Data_Afastamento > 25, 'Sim', NULL)
AS mais_de_25_anos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno < 10, 'Sim',
NULL) AS Menos_de_10_creditos,
IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno >= 10 and
fatos_desenpenho_aluno.Creditos_Academicos_Aluno <= 16, 'Sim', NULL) AS
de_10_a_16_creditos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno >= 17 and
fatos_desenpenho_aluno.Creditos_Academicos_Aluno <= 20, 'Sim', NULL) AS
de_17_a_20_creditos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno > 20, 'Sim',
NULL) AS Mais_de_20_creditos, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno <
4, 'Sim',NULL) AS InicioCurso, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >=
4 AND fatos_desenpenho_aluno.Periodo_Academico_Aluno <= 7,'Sim',NULL) AS
MeioCurso, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 8,'Sim',NULL) AS
FinalCurso, IF(fatos_desenpenho_aluno.Aluno_Prouni LIKE "S", 'Sim',NULL) AS
AlunoProuni, IF(fatos_afastamento.Tipo_Afastamento = 'abandono', 'Sim', NULL) AS
Abandono, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento', 'Sim', NULL) AS
cancelamento, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento 70%', 'Sim', NULL)
AS Cancelamento_70, IF(fatos_afastamento.Tipo_Afastamento = 'nao confirmada', 'Sim',
NULL) AS Nao_Confirmada, IF(fatos_afastamento.Tipo_Afastamento = 'trancamento',
'Sim', NULL) AS trancamento, IF(fatos_afastamento.Tipo_Afastamento = 'transf.interna',
'Sim', NULL) AS Transferencia_Interna, IF(fatos_afastamento.Tipo_Afastamento =
'transf.externa', 'Sim', NULL) AS Transferencia_Externa FROM fatos_desenpenho_aluno
INNER JOIN fatos_afastamento
ON fatos_desenpenho_aluno.id_Aluno = fatos_afastamento.id_Aluno WHERE Ano_Letivo
= 11 and Tipo_Afastamento <> 'conclusao' AND Tipo_Afastamento <> 'a colar grau' AND
Media_Parcial_Sigla <> 'acrf' AND Media_Parcial_Sigla <> 'adrf' AND
Media_Parcial_Sigla <> 'ap'
Justificativa
Realizar a associação entre atributos de alunos que evadiram do curso de Ciência da
Computação no ano de 2011. Foram considerados o desempenho acadêmico com segmentação
das médias calculadas dos alunos, período do aluno no curso, idade na data de afastamento e
o tipo de afastamento. Foram realizadas segmentações e determinadas faixas para que fossem
observadas difetentes nuances dos dados e suas relações.
Algoritmo
weka.associations.FPGrowth -P 2 -I -1 -N 500 -T 0 -C 0.5 -D 0.05 -U 1.0 -M 0.1
Atributos
inicialmente
presentes
fatos_desenpenho_aluno.Media_Calculada, fatos_afastamento.Idade_na_Data_Afastamento,
fatos_desenpenho_aluno.Creditos_Academicos_Aluno,
fatos_desempenho_aluno.Media_Parcial_Sigla,
fatos_desempenho_aluno.Periodo_Academico_Aluno,
fatos_desempenho_aluno.Aluno_Prouni
fatos_afastamento.Tipo_Afastamento
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
80
Os resultados apresentados pela ferramenta com aplicação do algoritmo FPGrowth,
sobre a base de dados estão expressos no Quadro 10 a seguir. Todas as 66 regras que o algoritmo
gerou para esta experiência fazem sentido, foram trazidas para o texto apenas algumas das
regras para demonstrar os resultados. Foram selecionadas também as regras com maior grau de
confiança.
Quadro 13- Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade,
número de créditos, período acadêmico e tipos de afastamento.
Resultados 1
[tem_18_a_21_anos=Sim, de_10_a_16_creditos=Sim, Abandono=Sim]: 300 ==>
[InicioCurso=Sim]: 279 <conf:(0.93)> lift:(1.49) lev:(0.04) conv:(5.14)
Interpretação 1
Alunos com idade entre 18 e 21 anos que estava matriculado com a quantidade de 10 a 16
créditos e teve como tipo de afastamento o abandono em 2011 com confiança de 93% estava
entre o 1º e o 3º períodos.
Resultados 2
[Transferencia_Interna=Sim]: 297 ==> [InicioCurso=Sim]: 267 <conf:(0.9)> lift:(1.44)
lev:(0.03) conv:(3.61)
Interpretação 2
Aluno que em 2011 teve como tipo de afastamento transferência interna estava no início do
curso, ou seja, entre o 1º e o 3º períodos com 90% de certeza.
Resultado 3
[Transferencia_Interna=Sim]: 297 ==> [tem_18_a_21_anos=Sim]: 243 <conf:(0.82)>
lift:(1.35) lev:(0.03) conv:(2.13)
Interpretação 3
Com 82% de confiança pode se dizer que em 2011 se o aluno fez transferência interna ele
tinha entre 18 e 21 anos.
Resultado 4
[tem_18_a_21_anos=Sim, Nota_Evasao=Sim]: 319 ==> [InicioCurso=Sim]: 256
<conf:(0.8)> lift:(1.29) lev:(0.02) conv:(1.88)
Interpretação 4
Aluno evadido em 2011 com 18 a 21 anos com nota zero (Nota_Evasao) com 80% de
confiança estava entre o 1º e 3º períodos (InicioCurso)
Resultado 5
[Nota_Evasao=Sim]: 574 ==> [InicioCurso=Sim]: 387 <conf:(0.67)> lift:(1.08)
lev:(0.01) conv:(1.15)
[Abandono=Sim]: 840 ==> [InicioCurso=Sim]: 564 <conf:(0.67)> lift:(1.08) lev:(0.02)
conv:(1.14)
Interpretação 5
A duas regras do Resultado 5 tem a mesma confiança de 67% e dizem que se o aluno evadido
em 2011 tinha nota zero era do início do curso e se o tipo de afastamento foi abandono
também era do início do curso.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Está experiência ainda abordou uma tentativa de aumentar o suporte mínimo para que
regras de associação mais confiáveis fossem encontradas, ou seja, um filtro foi aplicado para
que entre o montante de regras encontradas fossem selecionadas aquelas que tivessem a
capacidade de ampliar a confiabilidade da pesquisa. Neste sentido foram feitas 4 tentativas com
o suporte mínimo variando entre 50% e 20%. Na primeira experiência o suporte mínimo iniciou
em 50%, o que não apresentou nenhuma regra, em um segundo momento o suporte mínimo foi
alterado para 40% e ainda não apresentou nenhuma regra. A partir de 30% algumas regras foram
encontradas, mas em contra partida, eram poucas e com pouco significado agregado então,
foram alterados os parâmetros para 20% o que resultou em algumas regras conforme são
apresentadas na Figura 13.
81
Figura 13 - Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade,
número de créditos, período acadêmico e tipos de afastamento.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Com 20% de suporte mínimo foram apresentadas somente 11 regras, dentre elas a regra
2
diz
que
“2.
[InicioCurso=Sim,
[tem_18_a_21_anos=Sim]: 705
de_17_a_20_creditos=Sim]:
996
==>
<conf:(0.71)> lift:(1.36) lev:(0.06) conv:(1.63)”,
interpretando esta regra entende-se que alunos no início do curso que cursaram de 17 a 20
créditos no semestre em que evadiram tinham com 71% de certeza de 18 a 21 anos na data da
evasão. Outra regra que pode ser observada e apresentada é a regra 11 que apresenta a seguinte
interpretação: Com 55% de confiança alunos que cursaram 10 a 16 créditos no semestre que
evadiram estavam no início do curso. O Quadro 12 apresenta todas as regras geradas:
Quadro 14 - Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade,
número de créditos, período acadêmico e tipos de afastamento.
1. [tem_18_a_21_anos=Sim]: 1554 ==> [InicioCurso=Sim]: 1152 <conf:(0.74)> lift:(1.29) lev:(0.09)
conv:(1.63)
2. [InicioCurso=Sim, de_17_a_20_creditos=Sim]: 996 ==> [tem_18_a_21_anos=Sim]: 705 <conf:(0.71)>
lift:(1.36) lev:(0.06) conv:(1.63)
3. [de_17_a_20_creditos=Sim, tem_18_a_21_anos=Sim]: 996 ==> [InicioCurso=Sim]: 705 <conf:(0.71)>
lift:(1.23) lev:(0.04) conv:(1.44)
4. [InicioCurso=Sim]: 1719 ==> [tem_18_a_21_anos=Sim]: 1152 <conf:(0.67)> lift:(1.29) lev:(0.09)
conv:(1.45)
5. [tem_18_a_21_anos=Sim]: 1554 ==> [de_17_a_20_creditos=Sim]: 996 <conf:(0.64)> lift:(1.19)
lev:(0.05) conv:(1.28)
6. [de_17_a_20_creditos=Sim]: 1611 ==> [InicioCurso=Sim]: 996 <conf:(0.62)> lift:(1.07) lev:(0.02)
conv:(1.11)
7. [de_17_a_20_creditos=Sim]: 1611 ==> [tem_18_a_21_anos=Sim]: 996 <conf:(0.62)> lift:(1.19)
lev:(0.05) conv:(1.25)
8. [InicioCurso=Sim, tem_18_a_21_anos=Sim]: 1152 ==> [de_17_a_20_creditos=Sim]: 705 <conf:(0.61)>
lift:(1.13) lev:(0.03) conv:(1.18)
9. [Abandono=Sim]: 1101 ==> [InicioCurso=Sim]: 639 <conf:(0.58)> lift:(1.01) lev:(0) conv:(1.01)
10. [InicioCurso=Sim]: 1719 ==> [de_17_a_20_creditos=Sim]: 996 <conf:(0.58)> lift:(1.07) lev:(0.02)
conv:(1.09)
11. [de_10_a_16_creditos=Sim]: 1287 ==> [InicioCurso=Sim]: 702 <conf:(0.55)> lift:(0.95) lev:(-0.01)
conv:(0.93)
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Uma tentativa de buscar novas regras para esta experiência foi a retirada de dois
atributos os quais aparecem na maioria das regras geradas que foram: “tem_18_a_21_anos” e
“InicioCurso”. Para esta nova configuração dos atributos foi diminuída a confiança mínima
82
para 20%, na expectativa de gerar um número maior de regras para avaliação. Porém a resposta
do algoritmo foi um conjunto de 30 (trinta) regras com baixa confiança e com pouco ou nenhum
significado agregado conforme pode ser visualizado na Figura 14 abaixo:
Figura 14 – Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade,
número de créditos, período acadêmico e tipos de afastamento, exclusão de atributos.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Na sequência mais uma experiência de associação foram trabalhados os dados de todos
os alunos evadidos ou não, sendo estes atributos pessoais e referentes a evasão, observando que
alunos que não evadiram possuem status sim no atributo “Cursando”. Na sequência o Quadro
12 ilustra os argumentos utilizados na tarefa.
83
Quadro 15 - Argumentos para Associação algoritmo Apriori, todos os alunos, atributos pessoais e de evasão.
Base:
Data Mart Evasão
Query:
SELECT
IF(dimensao_aluno.Estado_Civil = 'solteiro', 1, 0) AS Solteiro,
IF(dimensao_aluno.Estado_Civil = 'casado', 1, 0) AS Casado,
IF(dimensao_aluno.Estado_Civil = 'outros', 1, 0) AS Outros, IF(dimensao_aluno.Sexo =
'masculino', 1, 0) AS Masculino, IF(dimensao_aluno.Sexo = 'feminino', 1, 0) AS Feminino,
IF(fatos_afastamento.Tipo_Afastamento = 'abandono', 1, 0) AS Abandono,
IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento', 1, 0) AS cancelamento,
IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento 70%', 1, 0) AS Cancelamento_70,
IF(fatos_afastamento.Tipo_Afastamento = 'nao confirmada', 1, 0) AS Nao_Confirmada,
IF(fatos_afastamento.Tipo_Afastamento = 'trancamento', 1, 0) AS trancamento,
IF(fatos_afastamento.Tipo_Afastamento = 'transf.interna', 1, 0) AS Transferencia_Interna,
IF(fatos_afastamento.Tipo_Afastamento = 'transf.externa', 1, 0) AS Transferencia_Externa,
IF(ISNULL(fatos_afastamento.Tipo_Afastamento), 1, 0) AS Cursando,
IF(fatos_afastamento.Idade_na_Data_Afastamento < 18, 1, 0)AS Adolecente,
IF(fatos_afastamento.Idade_na_Data_Afastamento >= 18 AND
fatos_afastamento.Idade_na_Data_Afastamento <= 21 , 1, 0)AS tem_18_a_21_anos,
IF(fatos_afastamento.Idade_na_Data_Afastamento > 21 AND
fatos_afastamento.Idade_na_Data_Afastamento <= 25, 1, 0) AS tem_22_a_25_anos,
IF(Idade_na_Data_Afastamento > 25, 1, 0) AS mais_de_25_anos,
dimensao_aluno.Status_Formando FROM dimensao_aluno LEFT OUTER JOIN
fatos_afastamento ON dimensao_aluno.id_Aluno = fatos_afastamento.id_Aluno
Justificativa
Realizar a Associação entre atributos pessoais e de evasão de todos os alunos da base de
dados independente do tipo de afastamento e considerando alunos evadidos e não evadidos.
O algoritmo apresentou uma série de regras que são apresendadas na Figura 13.
Algoritmo
weka.associations.Apriori -N 100 -T 0 -C 0.5 -D 0.05 -U 1.0 -M 0.3 -S -1.0 -c -1
Atributos
dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, fatos_afastamento.Tipo_Afastamento,
inicialmente
fatos_afastamento.Idade_na_Data_Afastamento, dimensao_aluno.Status_Formando
presentes
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Para a pesquisa cujo argumentos estão descritos no Quadro 12, pode-se notar que foi
considerado o suporte mínimo de 30% e a confiança mínima foi de 50% porém o algoritmo
gerou regras com confiança mínima de 79% conforme é visto na Figura 13.
Fora encontradas 31 regras que não apontam nenhuma associação que envolva os tipos
de afastamento mas observando melhor podem ser encontrados na maioria das regras
apresentadas associação com a idade do aluno na data do afastamento o que tornou possível
algumas constatações conforme apresenta o Quadro 13:
Quadro 16 - Resultados para Associação algoritmo Apriori, todos os alunos, atributos pessoais e de evasão.
Resultados 1
tem_18_a_21_anos=Sim 318 ==> Solteiro=Sim 318 conf:(1)
Interpretação 1
Com 100% de confiança alunos evadidos com idade entre 18 e 21 anos eram solteiros.
Resultados 2
solteiro=Sim Masculino=Sim tem_18_a_21_anos=Sim 296 ==> Status_Formando=N 293
conf:(0.99)
Alunos evadidos do sexo masculino com idade entre 18 e 21 anos não eram formandos com
99% de confiança.
tem_18_a_21_anos=Sim 318 ==> Masculino=Sim 296 conf:(0.93)
Interpretação 2
Resultado 3
84
Interpretação 3
Com 93% de confiança alunos evadidos cuja idade era entre 18 e 21 na data da evasão
eram do sexo masculino
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
O conjunto total das regras geradas pode ser visto na Figura 13, tendo a possibilidade
de observar que algumas regras geradas são variações das apresentadas no Quadro 13.
Figura 15 - Resultados para Associação algoritmo Apriori, todos os alunos, atributos pessoais e de evasão.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
3.2.2.3 Classificação
85
Para a tarefa de classificação foram trabalhados algoritmos na tentativa de classificar os
alunos por tipo de afastamento, levando em consideração seus dados pessoais e os dados
referentes a evasão. Conforme pode-se observar no Figura 15, o algoritmo JRip criou algumas
regras para a classificação destes alunos e resultou em uma classificação com taxa de acerto em
torno de 63%. A seguir o Quadro 15 relata os parâmetros utilizados nesta pesquisa:
Quadro 17 - Classificação utilizando o algoritmo JRip, por tipo de afastamento.
Base:
Data Mart Evasão
Query:
SELECT
dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, dimensao_aluno.Data_Nascimento,
dimensao_aluno.Tipo_Ingresso, dimensao_aluno.Ano_Ingresso,
dimensao_aluno.Semestre_Ingresso, dimensao_aluno.Curso_Aprovado,
dimensao_aluno.Semestre_Vestibular, dimensao_aluno.Ano_Vestibular,
dimensao_aluno.Status_Formando, dimensao_aluno.Cidade,
dimensao_aluno.Quant_Semestres, fatos_afastamento.Ano_Letivo_Afastamento,
fatos_afastamento.Semestre_Letivo_Afastamento,
fatos_afastamento.Semestre_Afastamento, fatos_afastamento.Idade_na_Data_Afastamento,
fatos_afastamento.Tipo_Afastamento FROM dimensao_aluno INNER JOIN
fatos_afastamento ON dimensao_aluno.id_Aluno = fatos_afastamento.id_Aluno WHERE
Tipo_Afastamento <> 'conclusao' AND Tipo_Afastamento <> 'a colar grau'
Justificativa
Trabalhar a tarefa de classificação dos alunos evadidos no em todo período da pesquisa pelo
tipo de afastamento com base nos atributos do aluno (tabela dimesao_aluno) e os atributos
referentes ao afastamento destes alunos (tabela fatos_afastamento)
Algoritmo
weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1
Atributos
dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, dimensao_aluno.Data_Nascimento,
dimensao_aluno.Tipo_Ingresso, dimensao_aluno.Ano_Ingresso,
dimensao_aluno.Semestre_Ingresso, dimensao_aluno.Curso_Aprovado,
dimensao_aluno.Semestre_Vestibular, dimensao_aluno.Ano_Vestibular,
dimensao_aluno.Status_Formando, dimensao_aluno.Cidade,
dimensao_aluno.Quant_Semestres, fatos_afastamento.Ano_Letivo_Afastamento,
fatos_afastamento.Semestre_Letivo_Afastamento,
fatos_afastamento.Semestre_Afastamento, fatos_afastamento.Idade_na_Data_Afastamento,
fatos_afastamento.Tipo_Afastamento
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Visualizando as regras apresentadas no Quadro 16 na sequência, pode se notar que o
algoritmo conseguiu uma boa classificação com as regras criadas para a maioria dos tipos de
afastamento mas acabou que para o tipo abandono ocorreram a maioria dos erros de
classificação e isto pode ser comprovado através da Figura 15 na seção Detailed Accuracy By
Class ou Precisão detalhada por classe aonde, o detalhamento da precisão para o atributo
abando ficou em 0,588 que é significativamente abaixo do resultado dos outros atributos,
aumentado os erros de classificação e ocasionando uma baixa na taxa de classificações corretas.
Quadro 18 - Regras de classificação utilizando o algoritmo JRip, por tipo de afastamento.
=== Classifier model (full training set) ===
JRIP rules:
===========
86
(Data_Nascimento >= 730090800000) and (Data_Nascimento >= 773982000000) =>
Tipo_Afastamento=CANCELAMENTO 70% (4.0/1.0)
(Ano_Vestibular = 2012) and (Ano_Letivo_Afastamento = 12) => Tipo_Afastamento=CANCELAMENTO
(29.0/13.0)
(Ano_Letivo_Afastamento = 8) and (Semestre_Letivo_Afastamento = 1) and (Quant_Semestres = 0) and
(Data_Nascimento >= 548046000000) => Tipo_Afastamento=CANCELAMENTO (15.0/4.0)
(Ano_Letivo_Afastamento = 10) and (Ano_Ingresso = 10) and (Semestre_Letivo_Afastamento = 1) =>
Tipo_Afastamento=CANCELAMENTO (11.0/3.0)
(Quant_Semestres = 8) => Tipo_Afastamento=TRANCAMENTO (60.0/11.0)
(Quant_Semestres = 2) => Tipo_Afastamento=TRANCAMENTO (9.0/1.0)
(Quant_Semestres = 1) => Tipo_Afastamento=TRANCAMENTO (12.0/4.0)
(Quant_Semestres = 4) => Tipo_Afastamento=TRANCAMENTO (3.0/0.0)
(Quant_Semestres = 3) and (Sexo = Masculino) => Tipo_Afastamento=TRANCAMENTO (4.0/0.0)
(Ano_Vestibular = 2008) and (Cidade = BALNEARIO CAMBORIU) and (Semestre_Vestibular = 2) =>
Tipo_Afastamento=TRANSF.INTERNA (9.0/1.0)
=> Tipo_Afastamento=ABANDONO (464.0/191.0)
Number of Rules : 11
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
A seguir a Figura 15 demonstra a matriz de confusão gerada na resolução desta
pesquisa. Conforme já dito, pode-se notar que na classificação por tipo de afastamento
abandono ocorre inúmeros erro o que aumenta a taxa de erro de classificação conforme
apresentado na mesma figura. É demonstrado ainda a precisão detalhada por classe.
87
Figura 16 – Resultados classificação, precisão por classe e Matriz de Confusão.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Em um segundo momento a tarefa de classificação foi trabalhada através dos atributos
pessoais de todos os alunos evadidos durante o período da pesquisa e suas notas, foi utilizado
o algoritmo RandomTree conforme detalhado no Quadro 17:
88
Quadro 19 - Classificação alunos evadidos por faixa de nota, algoritmo RandomTree.
Base:
Data Mart Evasão
Query:
SELECT
dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, dimensao_aluno.Data_Nascimento,
dimensao_aluno.Tipo_Ingresso, dimensao_aluno.Ano_Ingresso,
dimensao_aluno.Semestre_Ingresso, dimensao_aluno.Curso_Aprovado,
dimensao_aluno.Semestre_Vestibular, dimensao_aluno.Ano_Vestibular,
dimensao_aluno.Status_Formando, dimensao_aluno.Cidade,
dimensao_aluno.Quant_Semestres, fatos_desenpenho_aluno.Ano_Letivo,
fatos_desenpenho_aluno.Semestre_Letivo, fatos_desenpenho_aluno.id_Disciplina,
fatos_desenpenho_aluno.Media_Parcial_Sigla,
IF(fatos_desenpenho_aluno.Media_Calculada = 0, 'Nota_Evasao',
IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND
fatos_desenpenho_aluno.Media_Calculada <= 4, 'Nota_Reprovado_0a4',
IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND
fatos_desenpenho_aluno.Media_Calculada < 6, 'Nota_Reprovado_4a6',
IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND
fatos_desenpenho_aluno.Media_Calculada < 8, 'Nota_Aprovado_6a8',
IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND
fatos_desenpenho_aluno.Media_Calculada <= 10, 'Nota_Aprovado_8a10', 0))))) AS
Classificação_Nota FROM fatos_afastamento INNER JOIN dimensao_aluno ON
fatos_afastamento.id_Aluno = dimensao_aluno.id_Aluno INNER JOIN
fatos_desenpenho_aluno ON fatos_afastamento.id_Aluno =
fatos_desenpenho_aluno.id_Aluno
Justificativa
Trabalhar a tarefa de classificação dos alunos evadidos no em todo período da pesquisa
classificando-os pela nota. Foram utilizados os atributos pessoais juntamente com alguns
atributos referentes ao desempenho acadêmico.
Algoritmo
classifiers.trees.RandomTree -K 0 -M 1.0 -S 15
Atributos
dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, dimensao_aluno.Data_Nascimento,
dimensao_aluno.Tipo_Ingresso, dimensao_aluno.Ano_Ingresso,
dimensao_aluno.Semestre_Ingresso, dimensao_aluno.Curso_Aprovado,
dimensao_aluno.Semestre_Vestibular, dimensao_aluno.Ano_Vestibular,
dimensao_aluno.Status_Formando, dimensao_aluno.Cidade,
dimensao_aluno.Quant_Semestres, fatos_desenpenho_aluno.Ano_Letivo,
fatos_desenpenho_aluno.Semestre_Letivo, fatos_desenpenho_aluno.id_Disciplina,
fatos_desenpenho_aluno.Media_Parcial_Sigla, fatos_desenpenho_aluno.Media_Calculada
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
O resultados para esta classificação foram muito bons, conforme será mostrado a
seguir na Figura 16, ocorreu uma taxa de classificações corretas de mais de 99%. Foram
classificados corretamente 22941 instancias e apenas 5 foram classificadas incorretamente. Para
esta experiência foram utilizados 17 atributos conforme Quadro 17. Pode ser observado que o
erro absoluto também foi muito baixo o que significa maior precisão do modelo, neste caso
pode-se dizer que o modelo é estatisticamente perfeito devido ao valor ser muito próximo de
zero. Devido ao tamanho da arvore (90824), não foi possível exibir as regras geradas.
89
Figura 17 - Resultado Classificação alunos evadidos por faixa de nota, algoritmo RandomTree.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
A matriz de confusão para este caso também apresenta uma divisão quase perfeita,
ocorrendo apenas um pequeno erro na classe “Nota_Aprovado_6a8. Outros algoritmos como o
J48, DecisionStump ou também baseados em regras com o ZeroR geram modelos com taxa de
classificação correta inferior a 70%.
A experiência cujos argumentos estão organizados no Quadro 18, tiveram a intensão
de tentar através do algoritmo RotationForest, classificar os alunos segundo atributos do seu
histórico escolar e atributos referentes a evasão, sendo que foram considerados alunos evadidos
e não evadidos que possuíam algum histórico escolar válido.
90
Quadro 20 – Argumentos experiência classificação, todos os alunos, histórico escolar e afastamento.
Base:
Data Mart Evasão
Query:
SELECT
fatos_historico_escolar.Periodo_Disciplina_Curso, fatos_historico_escolar.Ano_Aprovacao,
fatos_historico_escolar.Semestre_Aprovacao, fatos_historico_escolar.Media_Aprovacao,
IF(ISNULL(fatos_afastamento.Tipo_Afastamento), 'Cursando', Tipo_Afastamento) AS
Status_Curso, fatos_afastamento.Semestre_Afastamento,
fatos_afastamento.Ano_Letivo_Afastamento,
fatos_afastamento.Semestre_Letivo_Afastamento FROM fatos_historico_escolar LEFT
OUTER JOIN fatos_afastamento ON fatos_historico_escolar.id_Aluno =
fatos_afastamento.id_Aluno WHERE fatos_historico_escolar.Media_Aprovacao <> 0
Justificativa
Tentou-se classificar alunos evadidos e não evadidos utilizando atributos relacionados com o
histórico escolar e a evasão o critério de seleção foi o tipo de afastamento “Status_Curso”
que nestes caso tornou-se um atributo que englobou o status do aluno no curso, ou seja, se
evadiu, se não evadiu, se concluiu e suas variantes.
Algoritmo
weka.classifiers.meta.RotationForest -G 3 -H 3 -P 50 -F
"weka.filters.unsupervised.attribute.PrincipalComponents -R 1.0 -A 5 -M -1" -S 1 -I 10 -W
weka.classifiers.trees.J48 -- -C 0.25 -M 2
Atributos
fatos_historico_escolar.Periodo_Disciplina_Curso, fatos_historico_escolar.Ano_Aprovacao,
fatos_historico_escolar.Semestre_Aprovacao, fatos_historico_escolar.Media_Aprovacao,
fatos_afastamento.Tipo_Afastamento, fatos_afastamento.Semestre_Afastamento,
fatos_afastamento.Ano_Letivo_Afastamento,
fatos_afastamento.Semestre_Letivo_Afastamento
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Foi obtida uma árvore com 2035 nós e 1018 folhas que apresentou os resultados
conforme Figura 17. Pode-se observar que o algoritmo gerou uma boa classificação para os
tipos de afastamento, aqui denominados “Status_Curso” devido a englobar todos os tipos de
afastamento inclusive “Conclusão” e “A Colar Grau” e ainda foram caracterizados como
“Cursando” aqueles alunos que não possuíam um histórico de evasão. Para os atributos
utilizados o algoritmo conseguiu classificar corretamente 16011 (88,93%) ocorrências
referentes ao histórico escolar e a evasão dos alunos e 1992 (11,06%) classificações incorretas,
sendo que para esta pesquisa foram utilizados 8 atributos diferentes.
Esta pesquisa demonstrou ser possível através dos atributos selecionados classificar os
alunos pelo tipo de afastamento “Status_Curso”, separando-os por classes e obtendo assim
características especificas de cada grupo. A utilização de outros algoritmos ou outros ajustes
pede otimizar esta classificação obtendo um resultado mais próximo dos 100% de classificações
corretas, no entanto, para a pesquisa em questão as tentativas ajustes utilizadas, não surtiram o
efeito esperado e em alguns casos aumentando o erro de classificação, então optou-se por
considerar o algoritmo com as configurações conforme apresentadas no Quadro 18.
91
Figura 18 - Resultado Classificação, todos os alunos, histórico escolar e afastamento.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
3.2.3 Análise dos Resultados
Na etapa de análise dos resultados foram avaliados os resultados obtidos através da
aplicação dos algoritmos de mineração de dados sobre a base de dados dos alunos do curso de
Ciência da Computação da UNIVALI. Algumas considerações importantes puderam ser feitas
com relação a aplicação do processo KDD em bases de dados, e dizem respeito ao
planejamento, organização e sequência a ser adotada e seguida. Estas considerações se tornam
importantes à medida que facilitam o entendimento do trabalho realizado para a presente
pesquisa e podem desta forma orientar novas pesquisas na área.
Para a aplicação do processo KDD e em conjunto a Mineração de Dados, é
extremamente importante ter em mente o problema a ser abordado, suas características e o que
se espera alcançar com o trabalho. Uma análise prévia da base de dados e dos atributos
envolvidos deve ser feita e através desta análise os objetivos devem ser traçados. Mesmo que
isso pareça obvio, o grau de conhecimento do pesquisador sobre o tema problema que será
92
tratado, sobre a base de dados que será utilizada e sobre o processo KDD e a Mineração de
Dados, é determinante para um melhor resultado com o um menor esforço.
A base de dados é parte fundamental para o processo KDD e deve estar disponível
para ajudar no processo de entendimento do problema abordado e na seleção dos dados a serem
utilizados. Se o pesquisador for especialista na base de dados à ser utilizada facilitará a etapa
de seleção dos atributos envolvidos. Os dados devem estar na forma mais bruta possível
possibilitando o tratamento adequando sem que sofra influências de fatores externos. No caso
da pesquisa em questão, devido o pesquisador possuir pouco ou quase nenhum conhecimento
com relação à base de dados utilizada para mineração, tornou-se necessário um esforço extra
do pesquisador para o entendimento dos atributos e de seus relacionamentos e também do
orientador no auxílio a este trabalho.
A seleção dos dados, conforme já destacado, torna-se mais fácil a se o pesquisador
possui o domínio do assunto abordado e um bom conhecimento da base de dados, sendo que
atributos que possivelmente possam gerar uma melhor resposta à aplicação da Mineração de
Dados poderão ser identificados e selecionados mais facilmente. Ainda na fase de PréProcessamento uma atenção especial deve ser dispensada para a preparação dos dados,
correções dos erros, complemento dos valores faltantes, pois esta etapa demanda a maior parte
do tempo e esforço para a aplicação do processo KDD e um bom trabalho nesta fase é
fundamenta para que o resultado da pesquisa seja satisfatório.
O conhecimento prévio das ferramentas utilizadas, ferramentas de bando de dados, de
modelagem de dados e principalmente a ferramenta utilizada para a Mineração de Dados, no
caso desta pesquisa a ferramenta WEKA, influencia diretamente no tempo gasto na pesquisa,
sendo que um bom conhecimento facilita o progresso do trabalho e a obtenção de melhores
resultados.
Um estudo dos métodos de mineração de dados e seus algoritmos torna o trabalho de
mineração mais interessante do ponto de vista da geração do modelo de conhecimento esperado
e também torna menos trabalhosa a aplicação do processo KDD. Cada algoritmo possui suas
particularidades, suas configurações e aceitam ou não determinados tipos de dados, além disso,
o resultados apresentados pelo algoritmo deverão ser interpretados sendo assim, um estudo
prévio dos principais algoritmos a serem utilizados se faz necessário visando uma facilidade na
aplicação dos mesmo e na interpretação do resultados. Estas particularidade dos algoritmos
93
podem ser vistas na seção More e Capabilities de cada algoritmo. Em resumo, para a tarefa de
classificação, os algoritmos aceitam dados nominais, numéricos, dentre outros, com um porém
que é a categoria que deve ser definida pelo pesquisador, que nestes caso deve ser do tipo
nominal. Outro detalhe que pode ser apresentado é que na associação algoritmos Apriori e
PredictiveApriori, utilizam dados nominais. Outra preocupação para com a tarefa de associação
é em relação ao tamanho da amostra e o algoritmo a ser selecionado, pode-se levar horas para
geração de um resultado que em análise não apresenta nenhuma relevância com relação ao
problema abordado.
Um bom conhecimento da ferramenta e dos métodos de Mineração de Dados pode
impactar diretamente o cronograma do projeto, sendo que um atraso nesta altura do trabalho
poderá comprometer a interpretação dos resultados obtidos ou até mesmo algumas experiências
poderão deixar de ser executadas devido ao tempo, comprometendo assim toda a pesquisa.
A utilização de sistemas de apoio a decisão para Mineração de Dados torna-se
interessante no momento em que a pesquisa em questão tem perspectiva de expansão,
facilitando trabalhos futuros que poderão assim utilizar os conhecimentos obtidos expandindo
e ou modificando para atender as novas necessidade. Outro ponto de grande importância com
relação à sistemas de apoio à decisão diz respeito a utilização da ferramenta WEKA com
conexão a banco de dados. Um banco de dados relacional tem um desempenho inferior a um
banco de dados dimensional o que pode ocasionar ociosidade do pesquisador e tempo perdido
na execução dos scripts para busca dos dados utilizados pelos algoritmos de mineração. A
utilização de Data Marts para Mineração de Dados possibilita uma melhor visualização do
universo de atributos disponíveis através das tabelas fatos e dimensão possibilitando melhores
resultados com menor esforço computacional.
A presente pesquisa aplicou tarefas de Clusterização, Associação e Classificação sobre
a base de dados, foram trabalhados diversos algoritmos e aqueles que resultaram alguma
informação ou informações com melhor detalhamento e relevância forma selecionados e
demonstrados. Para um melhor entendimento dos dados envolvidos em cada experiência, foi
utilizado um modelo de apresentação conforme proposto por Sartori (2012) aonde independente
do algoritmo selecionado e da base de dados estudada, dados básicos das atividades realizadas
são apresentados contendo dados suficientes para que seja possível reproduzir os experimentos.
O Quadro 19 apresentado na sequência demonstra o modelo proposto juntamente com a
explicação em cada campo:
94
Quadro 21 - Forma de notação adotada na pesquisa
Base:
Deve ser constado em qual base ou Data Mart o pesquisador realizou a pesquisa, tendo
em vista as diversas interpretações que podem ser dadas em virtude das fontes de dados
que estão sendo pesquisadas.
Exemplo: Data Mart Evasão
Query:
Aqui deve ser anotada a pesquisa que foi feita na base de dados e que resultou na amostra
que foi estudada.
Exemplo: Select * from data_mart.fatos_aluno where tipo_ingresso = ‘vestibular’”
Justificativa:
Neste campo o pesquisador deve anotar o porquê de estar realizando aquele experimento
ou o que busca encontrar com tal atividade.
Exemplo: Classificar as pessoas na categoria de tipo de afastamento (atributo
tipo_afastamento) com base nos demais dados.
Algoritmo:
Faz-se imprescindível registrar, também, o algoritmo e os parâmetros utilizados para
realizar a pesquisa de mineração. No WEKA, o comando de mineração executado pelo
software já mostra também os argumentos selecionados.
Exemplo: weka.classifiers.rules.OneR -B 6
Atributos
inicialmente
presentes:
O pesquisador deve deixar anotado também os argumentos que foram utilizados, tendo em
vista que os resultados podem variar de acordo com o número de argumentos utilizados.
Exemplo: Sexo, Estado_Civil, Tipo_Afastamento, Data_Afastametno, Cidade.
Fonte: (SARTORI, 2012)
Após a aplicação dos algoritmos de Mineração de Dados foram gerados diversos
resultados, cada algoritmo conforme suas características apresentou um modelo de
conhecimento que foi disponibilizado nas seções anteriores. Através destes modelos de
conhecimento tornou-se possível apresentar uma análise de resultados que objetivou um melhor
entendimento dos resultados obtidos. Alguns resultados e experiências não foram
disponibilizadas pois não apresentaram nada que já não tivesse sido apresentado ou por conter
informações muito obvias a ponto de serem dispensáveis ou também, por não apresentarem
nenhuma informação.
Utilizou-se em um primeiro momento o recurso chamado de “Preprocess” da
ferramenta WEKA que gerou informações de caráter estatístico mas que buscou representar a
realidade do curso de Ciência da Computação da UNIVALI, campus Itajaí, sendo que boa parte
destes resultados é sabido de forma empírica mas que através dos dados apresentados pôde-se
ter uma visualização um pouco mais aprofundada da base de dados dos alunos. Os principais
resultados obtidos com esta análise dizem respeito a verificação da queda do número de alunos
ingressos e consequentemente aluno matriculados durante o período pesquisado, o tipo de
afastamento “Abandono” foi o predominante, os índices de evasão são maiores nos períodos
iniciais dos curso (1º à 3º períodos), a taxa de conclusão de curso para alunos ingresso em 2008/1
foi de 6,59%, a taxa de evasão semestral caiu de aproximadamente 24% em 2008/1 para 16%
95
aproximadamente em 2012/1 além de determinar as disciplinas e as respectivas áreas são mais
cursadas nos semestres que os alunos evadiram a serem citadas:

Matemática, Programação, Infraestrutura, nesta ordem, são as áreas que mais
possuem disciplinas que os alunos estão matriculados nos semestres em que
evadiram;

As disciplinas com maior frequência de alunos matriculados nos anos que
evadiram são Algoritmos e Programação, Computação Básica, Matemática
Computacional, Álgebra Linear e Cálculo.
Apesar destes apontamento não representarem um conhecimento novo e também não
ser necessária a utilização de ferramentas de Mineração de Dados para estas constatações, é de
grande importância para esta pesquisa a geração destes relatórios pois através da aplicação de
um processo de validação é possível verificar se o processo de coleta dos dados se deu de forma
correta e se os dados coletados refletem a realidade do curso de Ciência da Computação da
UNIVALI, campus Itajaí, se comparados com as estatísticas da instituição.
Na sequência a aplicação dos algoritmos de Mineração de Dados iniciou-se com a tarefa
de
Clusterização.
Foram
trabalhados
os
algoritmos
SimpleKMeans
e
MakeDensityBasedClusterer, em 3 (três) experimentos distintos apresentados com a finalidade
de agrupar os alunos pelas suas semelhanças sendo que cada cluster agrupou alunos com mais
características comuns entre os componentes do cluster e mais diferenças para os alunos dos
outros clusters. Como a Clusterização é um processo não supervisionado para agrupamento de
dados, as classes são definidas automaticamente pelo algoritmo precisando somente ser
especificadas quantas classe o algoritmo deve gerar e os atributos que serão minerados.
As experiências de Clusterização apontaram alguns dados estatísticos que apoiam o que
se observou com a utilização do recurso Preprocess, mas foi além, traçando perfis de alunos
evadidos e não evadidos. Estes dados possuem potencial para novos estudos afim de aprofundar
os conhecimentos sobre cada perfil possibilitando assim, a utilização para o combate à evasão.
Uma constatação importante gerada através destes experimentos foi que a evasão independe
das notas dos alunos, sendo que alunos com notas para aprovação evadem na mesma proporção
de alunos com notas para evasão. Alguns perfis podem ser apresentados como ilustração ao que
está sendo explicado:
96

O Cluster 1 da primeira experiência, traçou um perfil de aluno que abrange
16% do total de alunos evadidos que são aqueles que em 100% dos caso tiram
nota acima de 8, em sua grande maioria tem acima de 22 anos 76,33%, cursam
entre 10 e 20 créditos por semestre com 98% de certeza, 42% estão no meio do
curso (entre 4º e 7º períodos), e abandonaram o curso em 54,53% dos casos;

O Cluster 4 da segunda experiência, com 16% dos registros agrupa os alunos
que são do início do curso (entre 1º e 3º períodos), reprovaram por frequência
insuficiente em 70% dos casos e em 95% das vezes não tiveram nota para a
M3;

Cluster 4 da terceira experiência, os 4% dos alunos ali alocados tem
predominância de estado civil igual a casado (87,5%) e neste cluster 84% dos
alunos são do sexo masculino e os tipos de afastamento estão divididos sendo
que existem 18% destes que estão cursando e nota-se também que a faixa etária
predominante neste grupo é acima de 25 anos com 65,63% dos casos.
A associação tratou de encontrar regras frequentes entre os atributos da base de dados,
buscando identificar relações entre a evasão e algum comportamento ou característica frequente
ou corriqueira entre os alunos evadidos, também nesta linha tentou-se encontrar estas relações
para os alunos não evadidos. Para tanto, foram trabalhados os algoritmos PredictiveApriori,
Apriori e FPGrowth em 4 (quatro) experiências distintas, sendo que nas duas primeiras
experiências não foi considerado o suporte mínimo, deixando como padrão o especificado pelo
algoritmo.
Na primeira experiência observou-se um apontamento de disciplinas e áreas específicas
as quais os alunos evadidos cursaram no semestre em que evadiram, em determinados anos da
pesquisa. Na maioria dos casos são disciplinas dos primeiros períodos, o que corrobora com a
avaliação feita no início deste capítulo. Na segunda experiência foi possível demonstrar que
alunos evadidos possuem notas distribuídas nas diversas faixas pré-estabelecidas, mais uma vez
pôde-se apoiar outra constatação já levantada anteriormente neste capítulo, de que a evasão
independe das notas dos alunos.
Ainda na associação a terceira experiência teve 2 momento, no primeiro o suporte
mínimo foi trabalhado com valores padrões do algoritmo e em um segundo momento foram
feitas tentativas com valores que variaram de 50% a 20%, sendo que o resultados apareceram
97
com suporte mínimo de 20%. A experiência retornou algumas associações que demonstram os
resultados encontrados:

Alunos com idade entre 18 e 21 anos que estava matriculado com a quantidade
de 10 a 16 créditos e teve como tipo de afastamento o abandono em 2011 com
confiança de 93% estava entre o 1º e o 3º períodos;

Aluno evadido em 2011 com 18 a 21 anos com nota zero (Nota_Evasao) com
80% de confiança estava entre o 1º e 3º períodos (InicioCurso);

Alunos no início do curso que cursaram de 17 a 20 créditos no semestre em
que evadiram tinham com 71% de certeza de 18 a 21 anos;

Com 55% de confiança alunos que cursaram 10 a 16 créditos no semestre que
evadiram estavam no início do curso.
Houve associações entre idade, número de créditos cursados, tipo de afastamento e
período do curso em que o aluno estava na data de evasão. Esta experiência diz respeito ao ano
de 2011 sendo que pode ser ampliada para que os resultados possam ser comparados e melhor
analisados. Porém há de se ressaltar que das quatro regras apresentadas, alunos com faixa etária
entre 18 e 21 anos estão presentes em três associados a diversos outros fatores. Outros sim
diriam que nesta faixa etária estão compreendidos a maioria dos alunos do curso, portanto, pela
lógica, associada a maioria dos fatores apresentados, entretanto esta constatação abre a
possibilidade de uma investigação específica à esta faixa etária, canalizando esforços ao
principal foco do problema. Outra variável que surge novamente é a dos alunos no início do
curso, que neste caso aparecem nas quatro regras apresentadas. Com resultados parecidos, a
última experiência de Associação apontou alunos com idade entre 18 e 21 anos associados a
sexo, ao estado civil, ao status de formando, porém para este caso o suporte mínimo foi de 30%.
Na tarefa de associação é necessário um cuidado com relação a atributos que aparecem
na maioria das regras apresentadas, este cuidado deve ser maior quando se tratar do algoritmo
de associação Apriori, pois devido a maneira que o algoritmo processa os atributos, regras
importantes podem ser desprezadas. No caso dos testes feitos para a terceira experiência
observou-se que retirando os atributos que predominaram nos resultados, não foi possível gerar
regras relevantes que supostamente teriam sido eliminadas, conforme destacado.
98
Para a Classificação foram utilizados os algoritmos JRip, RandomTree e RotationForest
na tentativa de agrupar os alunos em classes pré-definidas através dos atributos indicados em
cada pesquisa. Na definição das classes para estas experiências foram utilizados dois atributos
que estão presentes em praticamente todas as outras experiências deste trabalho. Estes atributos
referentes a evasão e ao desempenho escolar dos alunos são os principais atributos desta
pesquisa, a citar: Tipo de Afastamento e as Médias Calculadas. Para esta tarefa foram
trabalhadas 3 pesquisas sendo que os resultados das classificações foram satisfatórios obtendo
índices de classificação correta que variaram de 63% a 99,98%. Este índices indicam que novos
alunos podem ser classificados utilizando-se dos atributos gerados para os grupos apresentados.
As experiências apresentaram resultados que pode ser passíveis de novos estudos, pois com
uma melhor análise dos atributos dos alunos, selecionando atributos disponíveis já no início da
vida acadêmica do aluno pode ser possível classificar novos alunos e tentar prever possíveis
alunos com possíveis dificuldades de aprendizado no curso e ou consequentemente passiveis
de evasão.
99
4 CONCLUSÕES
O desenvolvimento do trabalho implicou em um estudo sobre a situação do ensino
superior no Brasil, tendo enfoque na evasão escolar, suas características, causas e
consequências, trazendo à luz um problema que apesar de ser reconhecido pelas IES, em muitos
casos não é combatido com eficiência.
As inciativas para o combate da evasão demandam de um entendimento de suas causas,
em virtude disso a aplicação das técnicas de Mineração de Dados juntamente com o processo
KDD abre horizontes que antes, devido à grande quantidade de dados, era inviável. Na revisão
bibliográfica realizada, foram estudados os conceitos e técnicas envolvidas no processo KDD
e na Mineração de Dados, traçando um caminho a ser seguido para a aplicação destes recursos.
Neste caminho outros estudos também forma realizados, a aplicação da Mineração de
dados requer uma normalização dos dados e para uma melhor performance dos algoritmos um
Data Mart se faz necessário. Para isso os estudo foram voltados para esta área de estruturas de
dados sendo que conceitos de Data Warehouse e Data Mart, foram tratados embasando o
prosseguimento do trabalho.
Com o intuito de buscar referências para um melhor desempenho da pesquisa em
questão, trabalhos relacionados a evasão em IES com aplicação de Mineração de Dados foram
pesquisados e algumas constatações puderam ser feitas. É notável que a Mineração de Dados
sendo utilizada para descoberta de conhecimento em bases de dados educacionais é
relativamente nova, sendo que são poucos os trabalhos disponíveis para pesquisa.
Não existe um caminho definido, ou seja, quais técnicas ou métodos devem ser
utilizados ou quais atributos devem ser considerados. É preciso buscar na também na estatística
as referências teóricas necessárias para um melhor conhecimento sobre as tarefas de a serem
utilizadas. A utilização de livros que tratam sobre a estatística multivalorada podem ser de
grande valia para o entendimento de tarefas de classificação, clusterização e associação por
exemplo e devem ser buscados antes do início da aplicação da mineração de dados.
A maioria dos trabalhos pesquisados apontava um determinado grupo de atributos,
geralmente diferentes dos outros trabalhos. Na questão dos métodos o problema se repete, não
existe um consenso entre os pesquisadores sobre que método é mais apropriado ou que
algoritmo obterá melhor resultado sobre determinado grupo de atributos. Uma característica
100
comum a praticamente todos os trabalhos é a utilização das tarefas de Classificação e
Clusterização, o que de certa forma restringe os métodos a serem aplicados.
Devido os trabalhos pesquisados não terem dado a contribuição esperada, a seleção dos
atributos foi feita com a contribuição do especialista da área e também professor orientador
desta pesquisa. Para isso foram selecionadas as tabelas diretamente do banco de dados do
sistema acadêmico da UNIVALI e os atributos com maior potencial de relevância para a
pesquisa foram selecionados em cada tabela. De posse da base de dados, foi criado um modelo
de dados relacional que pretendeu retratar as mesmas relações entre tabelas e atributos do
SGBD da UNIVALI fornecendo assim subsídios para a modelagem do Data Mart Evasão.
Apesar da grande ajuda que esta nova estrutura prestou, foram realizados ajustes no Data Mart
em etapas posteriores devido a constatações e melhorias necessárias para um melhor
desempenho.
Embora a descoberta de conhecimento seja mais significativa com a aplicação de
mineração de dados em grandes volumes, optou-se por uma base de dados que continha os
dados dos alunos matriculados entre os anos de 2008/1 a 2012/2, independentemente do período
do curso em que o aluno estava matriculado. A ideia inicial do trabalho era abranger dados do
setor de bolsas, desempenho escolar, socioeconômicos e culturais dos alunos, mas, no decorrer
do TTC I verificou-se a inviabilidade de neste momento utilizarmos todas estas bases de dados.
Através de interações com o especialista da área e orientador deste TTC, constatamos que seria
mais relevante neste primeiro estudo restringirmos a pesquisa aos dados de desempenho
escolar, sendo que a princípio, estas opções não invalidam a aplicação da mineração de dados
e servirá como o primeiro estudo e, conforme os resultados, poderá ser ampliado para os demais
períodos e outros cursos da UNIVALI. Esta constatação feita no TTC I confirmou-se no TTC
II, quando as dificuldades na obtenção, entendimento e seleção dos dados dos alunos acabou
sendo um grande obstáculo que foi superado.
Apesar da restrição com relação ao tamanho da base de dados se justificou a utilização
do Data Mart. Embora a quantidade de alunos (906) não parecer expressiva, a quantidade de
informações gerada por cada aluno semestralmente durante o seu ciclo acadêmico fez com que
algumas tabelas tivessem milhares de registros tornando a utilização de um SGBD relacional
inviável. Outro fator que corrobora com a utilização do Data Mart é devido a possibilidade de
utilização dos conhecimentos aqui abordados em trabalhos futuros ou na ampliação desta
101
pesquisa. Além disso é um benefício implementar um Data Mart, pois a preparação dos dados
para esta estrutura engloba etapas do pré-processamento do KDD.
De posse dos dados dos alunos observou-se necessária a criação de uma base de dados
que auxiliasse no entendimento das relações entre as tabelas e atributos e possibilitasse um
melhor entendimento do problema tratado. Muito embora de grande valia, esta estrutura não
constava do planejamento do TTC e acabou custando um tempo precioso para sua elaboração,
confecção e carga. Esta estrutura de dados foi desenvolvida em MySQL e os dados importados
do bando de dados do sistema acadêmico da UNIVALI estavam disponíveis em formato CSV
e demandaram um trabalho de adaptação para posterior migração. Vencida esta etapa os dados
passaram para o pré-processamento que apesar de trabalhoso, dispendendo um grande tempo e
esforço do pesquisador, transcorreu de forma normal sem percalços. Então, dados tratados,
limpos, organizado e prontos para carga no Data Mart.
Referente a base de dados extraída do sistema acadêmico da UNIVALI, ficou claro que
a grande quantidade de atributos que a princípio estaria disponível fornecendo diversas
alternativas para a mineração de dados, acabou sendo reduzida à algumas poucas varáveis que
foram intensamente trabalhadas. Apesar do aprendizado obtido com a pesquisa bibliográfica, a
aplicação dos algoritmos nos atributos não se deu trivialmente. Muitas experiências com
algoritmos que necessitavam de horas para expressar um resultado e que por fim não traziam
nada que pudesse, ao entender do pesquisador, fazer sentido com relação ao tema, foram
exaustivamente trabalhadas. Esta dificuldade na aplicação dos algoritmos se deve em parte a
inexperiência do pesquisados com relação ao uso da ferramenta WEKA e também a vasta
quantidade de algoritmos disponível para aplicação pela ferramenta.
A análise dos resultados obtidos foi filtrada e foram disponibilizados apenas as
experiências que implicaram em algum sentido e que agregaram algum conhecimento.
Conhecimento este que em boa parte foi de caráter comprobatório expressando em números e
estatísticas aquilo que já se sabia de forma empírica mas que por outro lado revelou algumas
informações que podem influenciar novas pesquisa sobre este assunto. Muito ainda pode ser
feito, a própria pesquisa que aqui se encerra pode ser continuada, abrangendo mais variáveis
que possam revelar novos conhecimentos, buscando outras visões sobre o aluno (econômica,
social, cultural...) ou mesmo melhorando refinando esta pesquisa.
102
A análise dos resultados apresentou algumas sugestões de novos trabalhos que podem
ser pensados para o futuro, porém uma análise detalhada dos perfis gerados pelos algoritmos
de Clusterização pode revelar um conhecimento novo, uma busca por outros atributos dos
alunos de cada perfil pode ser interessante do ponto de vista de identificar possíveis motivadores
da evasão no ensino superior. Outra situação também apontada na análise dos resultados é a
busca de atributos presentes desde o início da vida acadêmica do aluno para que possa ser
trabalhada a previsão da classificação e por consequência a previsão dos alunos passiveis de
problemas no curso e propícios a evasão. E uma terceira abordagem pode estar na análise
detalhada dos alunos com idade entre 18 e 21 anos, pois concentra-se nesta classe a maioria dos
alunos evadidos, a ampliação do entendimento dos atributos deste grupo de alunos pode
propiciar conhecimentos interessantes sobre a evasão.
Se for traçado um comparativo entre os trabalhos relacionados e a presente pesquisa,
pode-se afirmar que os algoritmos utilizados foram praticamente os mesmo, salvo algumas
exceções e algumas tarefas que não foram utilizadas nesta pesquisa. A ferramenta para
mineração de dados comum entre todos foi o WEKA. As sugestões de trabalhos futuros aqui
apresentadas englobam a previsão de alunos evadidos o que é tema de três entre os quatro
trabalhos apresentados. Em questão de resultados obtidos apenas um concluiu que é possível
prever alunos com tendências a evasão, outro sim apresentou seis cluster que dividiram os
alunos por faixas de notas (Alunos Excelente, Alunos Bons, etc.) também ocorreu como
resultado a capacidade de prever grupos de risco e assim alunos mais propensos a evadirem.
Neste sentido a presente pesquisa apresentou experiências que contemplaram todas estas
situações. Indicações de trabalhos futuros restringindo as pesquisas para determinados fatores
ou grupos de alunos e ou atributos, também foram apresentados.
Uma contribuição que pode ser atribuída a esta pesquisa, é o leque de novas
possibilidades que se abre para a aplicação da mineração de dados sobre os dados educacionais.
Também á de se ressaltar a experiência relatada na aplicação do processo KDD, na utilização
da ferramenta WEKA, na aplicação dos algoritmos para Mineração de Dados e em sistemas de
apoio a decisão.
Este trabalho teve como objetivo geral a aplicação de algoritmos de mineração de dados
para identificação de possíveis fatores que influenciam a evasão dos alunos do curso de Ciência
da Computação da UNIVALI, campus Itajaí, sendo possível verificar durante a pesquisa que
várias são as influências que podem levar os alunos à evasão. Neste sentido foram levantadas
103
diversas nuances do problema, podendo estas, serem alvo para o desenvolvimento de trabalhos
futuros com o objetivo de entender melhor cada uma destas hipóteses. No tocante dos objetivos
específicos, a presente pesquisa ficou em débito se considerada a validação dos resultados
obtidos. O trabalho poderia ou deveria contar com a figura do especialista no assunto, mas
devido a motivos alheios a vontade do pesquisador, não foi possível analisar o modelo de
conhecimento gerado utilizando-se do conhecimento destes profissional, conforme previsto e
como seria de gosto. Porém pode-se considerar que os resultados encontrados, apesar de não
validados, podem ser utilizados para novas pesquisas, aprofundando os conhecimentos aqui
encontrados ou refutando os resultados obtidos. Nenhum conhecimento definitivo foi
encontrado ou mesmo pretende-se que possam ser considerados como relevantes em termos
acadêmicos. O principal resultado obtido com este trabalho é a possibilidade de servir como
base para novas experiências, apontando possíveis caminhos a serem seguidos, dificuldades
que poderão ser encontradas, atalhos ou portas mais propensas ao sucesso.
104
REFERÊNCIAS
ALENCAR, Antônio Juarez; SCHMITZ, Eder Assis. Análise de Risco em Gerência de
Projetos: Com Exemplos em @RisK. 3. ed. Rio de Janeiro: Brasport, 2012.
AMORIM, Maurício J. V.; BARONE, Dante; MANSUR, André Uebe. Técnicas de
Aprendizado de Máquina Aplicadas na Previsão de Evasão Acadêmica. XIX Simpósio
Brasileiro de Informática na Educação, 2008. Disponível em: <http://www.brie.org/pub/index.php/sbie/article/view/755/741>. Acesso em: 20 abr. 2013.
BATISTA, Emerson de Oliveira. Sistemas de Informação: o uso consciente da tecnologia
para o gerenciamento. Saraiva: 2006. 282 p.
BOENTE, Alfredo Nazareno Pereira; OLIVEIRA, Fabiano Saldanha Gomes de; ROSA, José
Luiz Dos Anjos. Utilização de Ferramentas de KDD para Integração de Aprendizagem e
Tecnologia em Busca da Gestão Estratégica do Conhecimento na Empresa. Centro
Universitário Estadual da Zona Oeste - UEZO. Rio de Janeiro, 2007. Disponível em:
<http://www.aedb.br/seget/artigos07/1219_Artigo%20SEGET%202007.pdf>. Acesso em: 02
maio 2013.
BRAGA, Luis Paulo Vieira. Introdução a Mineração de Dados. 2. ed. Rio de Janeiro: EPapers Serviços Editoriais, 2005. 212 p.
BRASIL. Lei nº 9.394/96 de 20 de dezembro de 1996: Lei de Diretrizes e Bases da
Educação Nacional (LDB). Diário Oficial da República Federativa do Brasil, Brasília, DF,
no. 248, p. 27.833-27.841, dez. 1996.
CAMPELLO, Antônio de Vasconcellos Carneiro; LINS, Luciano Nadler. METODOLOGIA
DE ANÁLISE E TRATAMENTO DA EVASÃO E RETENÇÃO EM CURSOS DE
GRADUAÇÃO DE INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR. XXVIII
ENCONTRO NACIONAL DE ENGENHARIA DE PRODUÇÃO, Rio de Janeiro, 2008.
Disponível em:
<http://www.abepro.org.br/biblioteca/enegep2008_TN_STO_078_545_11614.pdf>. Acesso
em: 20 maio 2013.
CARVALHO, Luís Alfredo Vidal de. DATAMINING: a mineração de dados no marketing,
medicina, economia, engenharia e administração. Rio de Janeiro: Editora Ciência Moderna
Ltda., 2005.
CÔRTES, Sérgio da Costa; PORCARO, Rosa Maria; LIFSCHITZ, Sérgio. Mineração de
Dados: Funcionalidades, Técnicas e Abordagens. Rio de Janeiro,2002. Disponível em:
<ftp://ftp.inf.puc-rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acesso em: 02 maio 2013.
DAVENPORT, Thomas H. Ecologia da informação: por que só a tecnologia não basta para
o sucesso na era da informação. 2.ed. São Paulo: Futura, 2003. 316 p.
DRUCKER, P. Desafios gerenciais para o século XXI. São Paulo: Pioneira, 1999. 168p.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to
knowledge discovery in databases. AAAI Press, 1996, p. 42. Disponível em:
105
<http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf >. Acessado em:
15 de março de 2013.
FERRO, Mariza; LEE, Huei Diana. O Processo de KDD Knowledge Discovery in Database
para Aplicações na Medicina. Cascavel: Seminc, 2001. Anais da Seminc 2001. Disponível
em:
<http://186.233.12.17:8000/portal_labi/publicacoes/Inp_Ferro_Seminc_2001%20_Processo.p
df>. Acesso em: 10 abr. 2013.
GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. 2. ed. Rio
de Janeiro: Elsevier, 2005.
HAIR, Joseph et al. Analise Multivariada de Dados. 5. ed. Porto Alegre: Artmed Editora
S.A., 1998. Tradução: Leticia Vasconcelos Abreu.
INEP - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Censo da
educação superior 1980. Disponível em: < http://www.ufrgs.br/sai/dadosresultados/avaliacao-das-ies-em-geral/censo-da-educacao-superior>. Acessado em: 15 de
março de 2013.
INEP - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Censo da
educação superior 2011. Disponível em: < http://www.ufrgs.br/sai/dadosresultados/avaliacao-das-ies-em-geral/censo-da-educacao-superior>. Acessado em: 15 de
março de 2013.
KAMPFF, Adriana Justin Cerveira. Mineração de Dados Educacionais para Geração de
Alertas em Ambientes Virtuais de Aprendizagem com Apoio a Prática Docentes. Porto
Alegre, 2009. Disponível em:
<http://www.lume.ufrgs.br/bitstream/handle/10183/19032/000734349.pdf?sequence=1>.
Acesso em: 02 abr. 2013.
LAUDON, Kenneth C; LAUDON, Jane Price. Sistemas de informação com Internet. 4. ed.
Rio de Janeiro, RJ: LTC, c1999. Xv, 389p
MACEDO, Neusa Dias de. Iniciação a Pesquisa Bibliográfica: Guia do Estudante para
Fundamentação do Trabalho de Pesquisa. 2. ed. São Paulo: Loyola, 1994.
MANHÃES, Laci Mary Barbosa et al. Previsão de Estudantes com Risco de Evasão
Utilizando Técnicas de Mineração de Dados. Rio de Janeiro, 2011. Disponível em:
<http://br-ie.org/pub/index.php/sbie/article/view/1585/1350>. Acesso em: 20 abr. 2013.
MILANI, Fernanda; CAMARGO, Sandro da Silva. Aplicação de Técnicas de Mineração de
Dados na Previsão de Propensão à Evasão Escolar. Vol. 5, No 5 (2010): Anais V
SULCOMP. Disponível em:
<http://periodicos.unesc.net/index.php/sulcomp/article/view/363/370>. Acesso em: 25 maio
2013.
MIRANDA, Roberto Campos da Rocha. O uso da informação na formulação de ações
estratégicas pelas empresas. Ciência da Informação, Brasília, v. 28, n. 3, p. 286-292,
set./dez. 1999.
106
MYATT, Glenn J.. Making Sense of Data: a practical guide to exploratory data analysis and
data mining. Hoboken: John Wiley & Sons, 2007.
MORAES, Júlia Oliveira De; THEÓPHILO, Carlos Renato. Evasão no Ensino
Superior: Estudo dos Fatores Causadores da Evasão no Curso de Ciências Contábeis da
Universidade Estadual de Montes Claros – Unimontes. 3º Congresso USP de Controladoria e
Contabilidade. São Paulo, 2006. Disponível em:
<http://www.congressousp.fipecafi.org/artigos32006/370.pdf>. Acesso em: 07 abr. 2013.
MORESI, Eduardo Amadeu Dutra. Delineando o valor do sistema de informação de uma
organização. Ciência da Informação, Brasília, v. 29, n. 1, p. 14-24, jan./abr. 2000.
MORIK, K. The Representation Race – Preprocessing of Multi-Criteria Metrics for
Evaluation of Data Mining Algorithms. 2000. apud GOLDSCHMIDT, Ronaldo; PASSOS,
Emmanuel. Data Mining: Um Guia Prático. 2. ed. Rio de Janeiro: Elsevier, 2005.
NONAKA, Ikujiro; TAKEUCHI, Hirotaka. Criação de Conhecimento na Empresa: como
as empresas japonesas geram a dinâmica da inovação. 12. ed. Rio de Janeiro: Campus, 1997.
358p
NUNES, Getúlio Tadeu; LANZER, Edgar Augusto; SERRA, Fernando; FERREIRA, Manuel
Portugal. Abordagem do marketing de relacionamento no ensino superior. 2008.
Disponível em:
<http://seer.uscs.edu.br/index.php/revista_gestao/article/view/87/49>. Acessado em: 15 de
março de 2013.
OLIVA, Alberto. Teoria do Conhecimento: Filosofia - Passo a Passo - 91. Rio de Janeiro:
Geográfica, 2011. Disponível em: <http://books.google.com.br/books?id=I3kguwQ2vAC&printsec=frontcover&hl=ptPT&source=gbs_ge_summary_r&cad=0#v=onepage&q&f;=false>. Acesso em: 21 abr. 2013.
OLIVEIRA, Wilson José de. Data Warehouse. Florianópolis: Visual Books Ltda., 2002.
PELEIAS, Ivan Ricardo et al. INTERDISCIPLINARIDADE NO ENSINO SUPERIOR:
análise da percepção de professores de controladoria em cursos de ciências contábeis na
cidade de São Paulo. São Paulo, 2011. Disponível em:
<http://www.scielo.br/pdf/aval/v16n3/v16n1a02.pdf>. Acesso em: 20 maio 2013.
PINHEIRO, Carlos André Reis. Inteligência Analítica: mineração de dados e descoberta de
conhecimento. Rio de Janeiro: Ciência Moderna, 2008. 397 p.
PROUNI – Programa Universidade para Todos. <http://prouniportal.mec.gov.br/index.php?option=com_content&view=article&id=124&Itemid=140>. Acessado em: 07 de abril de
2013.
REINERT, José Nilson; GONÇALVES, Wilson José. Evasão escolar: percepção curricular
como elemento motivador no ensino para os cursos de Administração – estudo de caso. 2010.
Disponível em <http://www.inpeau.ufsc.br/wp/wpcontent/BD_documentos/coloquio10/164.pdf >. Acessado em: 15 de março de 2013.
REZENDE, Denis Alcides; ABREU, Aline França de. Tecnologia da Informação: aplicada a
sistemas de informação empresariais. São Paulo: Atlas, 2000. 306 p.
107
REZENDE, Denis Alcides. Engenharia de Software e Sistemas de Informações. Rio de
Janeiro: Brasport, 1999. 292p
REZENDE, Solange Oliveira. Sistemas Inteligentes: fundamentos e aplicações. Barueri:
Manole, 2003. 525 p.
RIBEIRO, M. A. O Projeto Profissional Familiar como Determinante da Evasão
Universitária: um estudo preliminar. Revista Brasileira de Orientação Profissional. São
Paulo, 2005. Disponível em: <
http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S167933902005000200006&lng=pt&nrm=iso >. Acesso em 07 de abril de 2013.
RODRIGUEZ, M. V. R. Gestão do Conhecimento: reinventando a empresa para uma
sociedade baseada em valores intangíveis. Rio de Janeiro IBPI, 2001. 289 p.
SARTORI, Ricardo. Mineração dos dados da Polícia Militar de Santa Catarina no
Município de Balneário Camboriú para geração de informação e conhecimento na área
de segurança pública. Itajaí, 2012. 103 f. Trabalho de Conclusão de Curso (Graduação em
Ciência da Computação) – Centro de Ciências Tecnológicas da Terra e do Mar, Universidade
do Vale do Itajaí, Itajaí, 2012.
SILVA FILHO, Luiz Alberto da. Mineração de regras de associação utilizando KDD e
KDT: uma aplicação em segurança pública. 2009. 85 f. Dissertação (Mestrado) Universidade Federal do Pará, Belém, 2009.
SILVA FILHO, R. L. L. et al. A evasão no ensino superior brasileiro. Caderno de Pesquisa,
São Paulo, v. 37, n. 132, dez. 2007. Disponível em <
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010015742007000300007&lng=pt&nrm=iso&tlng=pt >. Acessado em 07 abril 2013.
SILVA FILHO, Roberto Leal Lobo e; LOBO, Maria Beatriz de Carvalho
Melo. ESCLARECIMENTOS METODOLÓGICOS SOBRE OS CÁLCULOS DE
EVASÃO. Publicado no site em 26 de janeiro de 2012. Disponível em:
<http://institutolobo.org.br/imagens/pdf/artigos/art_078.pdf>. Acesso em: 25 out. 2013.
SINGH, Hary S.. Data Warehouse. São Paulo: Makron Books Ltda., 2001. Tradução:
Monica Rosemberg; Editor: Milton Mira de Assumpção Filho.
SOUZA, Solange Lima. Evasão no ensino superior: um estudo utilizando a mineração de
dados como ferramenta de gestão do conhecimento em um banco de dados referente à
graduação de engenharia. Dissertação de Mestrado. COPPE/UFRJ, Rio de Janeiro/RJ, 2008.
Disponível em: <http://wwwp.coc.ufrj.br/teses/mestrado/
Novas_2008/teses/SOUZA_SL_08_t_M_int.pdf >. Acessado em: 15 de março de 2013.
STAIR, Ralph M; REYNOLDS, George W. Princípios de Sistemas de Informação: uma
abordagem gerencial. 6. ed. São Paulo: Thompson Learning, 2006.
TAN, Pang -Ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao DATAMINIG
Mineração de Dados. Florianópolis: Ciência Moderna, 2009. Tradução: Acauan P.
Fernandes; Editor: Paulo André P. Marques.
108
UNIVALI, Universidade do Vale do Itajaí. Planejamento Estratégico Institucional 20102015.Univerisidade do Vale do Itajaí - Itajaí: Universidade do Vale do Itajaí, 2012.
UNIVALI, Universidade do Vale do Itajaí. História. Disponível em:
<http://www.univali.br/modules/system/stdreq.aspx?P=15&VID=default&SID=86713535169
0717&S=0&C=26593>. Acesso em: 18 abr. 2013.
APÊNDICE A – MODELAGEM BANCO DE DADOS SISTEMA ACADÊMICO UNIVALI
APÊNDICE B – CLASSIFICAÇÃO DAS DISCIPLINAS POR ÁREA
Quadro 22 - Classificação Disciplinas
CÓDIGO DISCIPLINA
ÁREA
62 ORGANIZAÇÃO E METODOS
Complementares
67 TEORIA GERAL DA ADMINISTRAÇÃO
Complementares
111 ADMINISTRAÇÃO DE CPD
112 ANÁLISE E PROJETOS DE SISTEMAS I
113 ANÁLISE E PROJETOS DE SISTEMAS II
114 ARQUITETURA DE COMPUTADORES
115 AUDITORIA DE SISTEMAS
116 BANCO DE DADOS I
117 BANCO DE DADOS II
118 ESTÁGIO SUPERVISIONADO DE CIÊNCIA COMPUTAÇÃO
119 ENGENHARIA DE SOFTWARE
120 ESTRUTURA DE DADOS
Complementares
Análise e Projetos de
Sistemas
Análise e Projetos de
Sistemas
Infraestrutura
Análise e Projetos de
Sistemas
Análise e Projetos de
Sistemas
Análise e Projetos de
Sistemas
Conclusão de Curso
Análise e Projetos de
Sistemas
121 GARANTIA E CONTR. DE QUALIDADE EM PROC. DADOS
Programação
Análise e Projetos de
Sistemas
122 INFORMÁTICA JURÍDICA (NOÇÕES DE DIREITO)
Humanas
123 INTRODUÇÃO A COMPUTAÇÃO
126 LABORATÓRIO
Infraestrutura
Teoria da Computação e
Inteligência Artificial
127 LINGUAGENS DE PROGRAMAÇÃO
Infraestrutura
128 LÓGICA
Programação
129 ORGANIZAÇÃO DE ARQUIVOS
130 PESQUISA OPERACIONAL
Programação
Teoria da Computação e
Inteligência Artificial
132 PROGRAMAÇÃO I
Programação
133 PROGRAMAÇÃO II
Programação
134 PROGRAMAÇÃO III
Programação
135 PROGRAMAÇÃO IV
Programação
Análise e Projetos de
Sistemas
Análise e Projetos de
Sistemas
136 SISTEMAS DE INFORMAÇÕES GERENCIAIS I
137 SISTEMAS DE INFORMAÇÕES GERENCIAS II
138 SISTEMAS OPERACIONAIS I
139 SISTEMAS OPERACIONAIS II
Infraestrutura
Teoria da Computação e
Inteligência Artificial
140 TELEPROCESSAMENTO I
Infraestrutura
141 TELEPROCESSAMENTO II
142 TÓPICOS AVANCADOS EM COMPUTAÇÃO I
Infraestrutura
Teoria da Computação e
Inteligência Artificial
143 TÓPICOS AVANCADOS EM COMPUTAÇÃO II
Complementares
156 CONTABILIDADE DE CUSTOS
Complementares
111
199 INTRODUÇÃO A ECONOMIA
Humanas
259 ALGEBRA LINEAR
Matemática
262 ALGORITMO
Programação
268 CÁLCULO I
Matemática
269 CÁLCULO II
Matemática
283 ESTATÍSTICA GERAL I
Matemática
284 ESTATÍSTICA GERAL II
Matemática
295 MATEMÁTICA BÁSICA
Matemática
296 MATEMÁTICA FINANCEIRA
Matemática
305 ESTUDO DE PROBLEMAS BRASILEIROS I
Humanas
308 ESTUDO DE PROBLEMAS BRASILEIROS II
Humanas
326 INFORMÁTICA SOCIAL
Humanas
630 PRÁTICA DESPORTIVA I
Humanas
631 PRÁTICA DESPORTIVA II
Humanas
802 LINGUA PORTUGUESA I
Humanas
803 LINGUA PORTUGUESA II
Humanas
824 INGLES TÉCNICO I
Humanas
825 INGLES TÉCNICO II
Humanas
840 METODOLOGIA CIENTÍFICA
Humanas
1041 RELAÇÕES HUMANAS
Humanas
1218 EDUCAÇÃO FÍSICA
Humanas
1219 EDUCAÇÃO FÍSICA
Humanas
1354 ÉTICA E CIDADANIA I
Humanas
1355 ÉTICA E CIDADANIA II
Humanas
1544 ESTATÍSTICA
Matemática
1760 CÁLCULO
Matemática
1767 CÁLCULO
1787 BANCO DE DADOS
Matemática
Análise e Projetos de
Sistemas
Análise e Projetos de
Sistemas
1798 ADMINISTRAÇÃO EMPRESARIAL
Complementares
1799 ÉTICA EM INFORMÁTICA
Humanas
Análise e Projetos de
Sistemas
1781 BANCO DE DADOS
1801 ANÁLISE E PROJETO DE SISTEMAS
1803 REDES DE COMPUTADORES
1805 PESQUISA OPERACIONAL
Infraestrutura
Teoria da Computação e
Inteligência Artificial
Teoria da Computação e
Inteligência Artificial
1806 ESTRATÉGIA DE NEGOCIOS
Complementares
1809 REDES DE COMPUTADORES
Infraestrutura
2021 ALGORITMOS
Programação
2023 COMPUTAÇÃO BÁSICA
Infraestrutura
2024 MATEMÁTICA COMPUTACIONAL
Matemática
2025 ALGEBRA LINEAR
Matemática
2158 ALGORITMOS
Programação
1804 INTELIGÊNCIA ARTIFICIAL
112
2159 ELETRÔNICA PARA COMPUTAÇÃO
Infraestrutura
2160 INGLÊS INSTRUMENTAL
Humanas
2161 METODOLOGIA DA PESQUISA
Humanas
2162 PROGRAMAÇÃO
Programação
2163 PROGRAMAÇÃO
Programação
2164 LINGUAGEM DE MÁQUINA
Infraestrutura
2165 CÁLCULO NUMÉRICO
Matemática
2166 MODELAGEM DE INCERTEZA
Matemática
2167 SISTEMAS OPERACIONAIS
Infraestrutura
2168 TOPICOS ESPECIAIS EM PROGRAMAÇÃO
Programação
Análise e Projetos de
Sistemas
2169 ENGENHARIA DE SOFTWARE
2170 INFORMÁTICA E A SOCIEDADE
2171 LINGUAGENS FORMAIS E COMPILADORES
2172 LINGUAGENS FORMAIS E COMPILADORES
2173 TÓPICOS ESPECIAIS EM COMPUTAÇÃO
2174 ANÁLISE E PROJETO DE SISTEMAS
2175 SISTEMAS DE INFORMAÇÃO
2176 TÓPICOS ESPECIAIS EM COMPUTAÇÃO
2177 ERGONOMIA E QUALIDADE
Humanas
Teoria da Computação e
Inteligência Artificial
Teoria da Computação e
Inteligência Artificial
Complementares
Análise e Projetos de
Sistemas
Análise e Projetos de
Sistemas
Complementares
Análise e Projetos de
Sistemas
2178 ADMINISTRAÇÃO EM INFORMÁTICA
TRABALHO TÉCNICO-CIENTÍFICO DE CONCLUSAO DE
2179 CURSO
Complementares
2180 TRABALHO DE CONCLUSÃO DE CURSO
Conclusão de Curso
3058 EMPREENDEDORISMO
Complementares
3641 PROGRAMAÇÃO
Programação
3642 INFORMÁTICA E A SOCIEDADE
TRABALHO TÉCNICO-CIENTIFICO DE CONCLUSÃO DE
3647 CURSO
Humanas
4186 ALGORITMOS E PROGRAMAÇÃO
Programação
4187 CIRCUITOS DIGITAIS
Infraestrutura
4188 ALGORITMOS E PROGRAMAÇÃO
Programação
4189 ARQUITETURA E ORGANIZACAO DE COMPUTADORES
Infraestrutura
4190 ESTRUTURAS DE DADOS
Programação
4191 PROGRAMAÇÃO
Programação
4192 ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES
Infraestrutura
4193 SIMULAÇÃO DISCRETA DE SISTEMAS
Matemática
Teoria da Computação e
Inteligência Artificial
Teoria da Computação e
Inteligência Artificial
Teoria da Computação e
Inteligência Artificial
Teoria da Computação e
Inteligência Artificial
4194 GRAFOS
4195 LINGUAGENS FORMAIS E AUTOMATOS
4196 COMPLEXIDADE DE ALGORITMOS
4197 COMPILADORES
Conclusão de Curso
Conclusão de Curso
113
4198 ENGENHARIA DE SOFTWARE
4199 SISTEMAS DISTRIBUIDOS
4200 INTELIGÊNCIA ARTIFICIAL
4201 INFORMÁTICA NA EDUCACAO
4202 ENGENHARIA DE USABILIDADE
Fonte: Coordenação Acadêmica Curso de Ciência da Computação - UNIVALI
Análise e Projetos de
Sistemas
Infraestrutura
Teoria da Computação e
Inteligência Artificial
Complementares
Análise e Projetos de
Sistemas
114
APÊNDICE C – DICIONÁRIO DE DADOS DOS REFERENTE AOS ATRIBUTOS
CAPTADOS A PARTIR DAS TELAS DO SISTEMA ACADÊMICO DA UNIVALI –
MODELAGEM DATA MART
Quadro 23 – Tabela aluno_afastamentos(t0055)
Campo
Formato
Descrição do campo
LETANO
INT
Ano letivo
LETSEM
INT
Semestre letivo
HISSEMAFA
INT
Semestre em que o aluno afastou-se do curso
HISDATAFA
DATE
Data em que o aluno afastou-se do curso dd/mm/aaaa
Chave estrangeira para a tabela alunos(t0001), contém o código individual
Cad_Aluno
INT
de cada aluno
HISCURCOD
INT
Chave estrangeira para a tabela curso(t0007), indica o curso do aluno
Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual
HISCURRNRO INT
currículo pertence o aluno
Chave estrangeira para a tabela codigos_afastamento(t0034), indica o
HISAFACOD
INT
motivo do afastamento
Fonte: Sistema Acadêmico UNIVALI.
Quadro 24 – Tabela alunos(t0001)
Campo
Formato
Cad_Aluno
INT
ALU2NOM
VARCHAR(45)
ALU2ANOAFA INT
ALU2DATAFA DATE
ALU2SEMAFA INT
ALU2ANOING INT
ALU2SEMING INT
ALU2DATING DATE
ALU2DATNAS DATE
ALU2CURVES VARCHAR(80)
ALU2SEMVES INT
ALU2ANOVES INT
ALU2STAFMD CHAR(1)
ALU2CID
VARCHAR(20)
ALU2QTDSEM INT
Descrição do campo
Chave primária, única, contendo o código identificador do aluno.
Contém o nome do aluno
Contém o ano em que o aluno afastou-se do curso
Data em que o aluno afastou-se do curso dd/mm/aaaa
Contém o semestre em que o aluno afastou-se do curso
Contém o ano em que o aluno ingressou no curso
Contém o semestre em que o aluno ingressou o curso
Contém a data em que o aluno ingressou no curso dd/mm/aaaa
Contém a data de nascimento do aluno
Contém o curso para o qual o aluno prestou vestibular
Contém o semestre em que o aluno prestou vestibular
Contém o ano em que o aluno prestou vestibular
Contém o status de formando ou não do aluno
Contém a cidade em que o aluno reside
Contém a quantidade de semestres em que o aluno está no curso
Chave estrangeira para a tabela codigos_estadocivil(t0038), indica o estado
ESTCIVCOD
INT
civil do aluno
ALU2SEX
INT
Chave estrangeira para a tabela sexo, indica o sexo o aluno
Chave estrangeira para a tabela codigos_afastamento(t0034), indica o
AFACOD
INT
motivo do afastamento
CURCOD
INT
Chave estrangeira para a tabela curso(t0007), indica o curso do aluno
Chave estrangeira para a tabela codigos_tipoingresso(t0045), indica o tipo
INGCOD
INT
de ingresso do aluno no curso
Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual
CURRNRO
INT
currículo pertence o aluno
Fonte: Sistema Acadêmico UNIVALI.
Quadro 25 – Tabela alunos_historico(t0023)
Campo
Formato
Descrição do campo
HISPERCUR
INT
Contém o historio do período ao qual a disciplina pertence
HISANOAPR
INT
Contém o ano em que o aluno foi aprovado na disciplina
HISSEMAPR
INT
Contém o semestre em que o aluno foi aprovado na disciplina
HISMEDAPR
FLOAT
Contém a média de aprovação do aluno na disciplina
115
Contém o status de aproveitamento ou não da disciplina de outro curso ou
instituição (sim = aproveitada, não = cursada no Curso de Ciência da
HISOBSDIS
CHAR
Computação da UNIVALI)
Chave estrangeira para a tabela alunos(t0001), contém o codico individual
Cad_Aluno
INT
de cada aluno
HISCURCOD
INT
Chave estrangeira para a tabela curso(t0007), indica o curso do aluno
Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual
HISCURRNRO INT
currículo pertence o aluno
HISDISCOD
INT
Chave estrangeira para a tabela disciplina(t0010), indica a disciplina
Fonte: Sistema Acadêmico UNIVALI.
Quadro 26 – Tabela alunos_periodoletivo(t0002)
Campo
Formato
Descrição do campo
Chave estrangeira para a tabela alunos(t0001), contém o codico individual
INT
Cad_Aluno
de cada aluno
LETANO
INT
Ano Letivo
LETSEM
INT
Semestre Letivo
ALU2PERACA
INT
Período acadêmico que o aluno estava
ALU2CREACA
INT
Quantidade de créditos acadêmicos feitos pelo aluno no semestre
ALU2ULTALT
DATE
Última alteração na matrícula
ALU2STAFOR
CHAR
Se o aluno é formando naquele período
Chave estrangeira para a tabela codigos_tipomatricula(t0052), indica o tipo
INT
MATCODTIP
de matricula que o aluno está fazendo
ALU2DATMAT DATE
Data em que o aluno efetuou a matricula
ALU2ENTPEN
CHAR
Indica se o aluno possui alguma pendência na matricula
ALU2ENTCON
CHAR
Indica a confirmação da entrega de documentação
ALU2ENTDTA
DATE
Data entrega documentação
ALU2MATCOM CHAR
Confirmação da Matrícula
LETFLGPROUNI CHAR
Indica se o aluno possui bolsa do PROUNI
Fonte: Sistema Acadêmico UNIVALI.
Quadro 27 – Tabela avaliacoes_aluno(avaaluno)
Campo
Formato
Descrição do campo
LETANO
INT
Ano Letivo
LETSEM
INT
Semestre Letivo
Chave estrangeira para a tabela disciplinas(t0010), contém o código da
INT
DISCOD
disciplina
TURCURCOD INT
Chave estrangeira para a tabela curso(t0007), contém o código do curso
TURSEQDIS
INT
Sequência da disciplina (pré-requisitos)
TURTNODIS
INT
Contém o turno em que a disciplina é ministrada
Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do
INT
MEDTIPCOD
tipo de média
Chave estrangeira para a tabela media_tipo_media(medprcse), contém as
INT
MEDCOD
divisões que cada tipo de media possui
Chave estrangeira, contém o código das avaliações que cada professor
INT
AVACOD
propõe durante o semestre
Chave estrangeira para a tabela alunos(t0001), contém o codico individual
INT
Cad_Aluno
de cada aluno
AVAALUNOT FLOAT
Contém a nota do aluno em cada avaliação feita pelo professor (AVACOD)
Fonte: Sistema Acadêmico UNIVALI.
Quadro 28 - Tabela avaliacoes_disciplina(avadisc)
Campo
Formato
Descrição do campo
LETANO
INT
Ano Letivo
LETSEM
INT
Semestre Letivo
Chave estrangeira para a tabela disciplinas(t0010), contém o código da
INT
DISCOD
disciplina
TURCURCOD INT
Chave estrangeira para a tabela curso(t0007), contém o código do curso
TURSEQDIS INT
Sequência da disciplina (pré-requisitos)
116
TURTNODIS
INT
Contém o turno em que a disciplina é ministrada
Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do
INT
MEDTIPCOD
tipo de média
Chave estrangeira para a tabela media_tipo_media(medprcse), contém as
INT
MEDCOD
divisões que cada tipo de media possui
Contém o código das avaliações que cada professor propõe durante o
INT
AVACOD
semestre
Contém a descrição das avaliações que cada professor propõe durante os
VARCHAR(45)
AVADESC
semestre
TIPAVACOD INT
Código para classificação da avaliação.
AVAPESO
FLOAT
Contém o peso que cada avaliação tem para fechamento das medias
Fonte: Sistema Acadêmico UNIVALI.
Quadro 29 - Tabela Categoria_Disciplina
Campo
Formato
Descrição do campo
Chave primária, única, contendo o código identificador dos grupos das
GRUCOD
INT
disciplinas.
GRUDESC
VARCHAR(30) Contém a descrição de cada grupo de disciplina
Fonte: Sistema Acadêmico UNIVALI.
Quadro 30 - Tabela classes(classe)
LETANO
INT
Ano Letivo
LETSEM
INT
Semestre Letivo
Chave estrangeira para a tabela disciplinas(t0010), contém o código da
INT
DISCOD
disciplina
TURCURCOD INT
Chave estrangeira para a tabela curso(t0007), contém o código do curso
TURSEQDIS
INT
Sequência da disciplina (pré-requisitos)
TURTNODIS
INT
Contém o turno em que a disciplina é ministrada
TURPERCUR
INT
Período do curso que a disciplina pertence
TURQTDALU CHAR
Contém a quantidade de alunos na turma
TURMEDAPRD INT
Contém a média que o aluno necessita para a aprovação
TURMAXALU INT
Máximo de alunos que a turma pode ter
Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do
INT
TURMEDTIPC
tipo de média
Chave estrangeira para a tabela curso_curriculo(t0017), contém o currículo
INT
CLACURRNRO
que a disciplina faz parte
Fonte: Sistema Acadêmico UNIVALI.
Quadro 31 - Tabela classes_alunos(aluclass)
Campo
Formato
Descrição do campo
LETANO
INT
Ano Letivo
LETSEM
INT
Semestre Letivo
Chave estrangeira para a tabela disciplinas(t0010), contém o código da
INT
DISCOD
disciplina
TURCURCOD
INT
Chave estrangeira para a tabela curso(t0007), contém o código do curso
TURSEQDIS
INT
Sequência da disciplina (pré-requisitos)
TURTNODIS
INT
Contém o turno em que a disciplina é ministrada
Chave estrangeira para a tabela alunos(t0001), contém o codico individual
INT
Cad_Aluno
de cada aluno
ALU2CONNOT
CHAR
Status de confirmação da nota do aluno
ALU2NOTSEM
FLOAT
Nota do aluno no semestre
ALU2NOTEXA
FLOAT
Nota do aluno no exame
ALU2MEDSEM
FLOAT
Nota fina do aluno no semestre
ALU2STADIS
INT
Status de aprovado ou reprovado
Chave estrangeira para a tabela disciplinas(t0010), contém o código de uma
INT
DISCODEQV
disciplina equivalente
ALU2STAFRE
CHAR
Status aprovado ou reprovado por frequência
Chave estrangeira para a tabela disciplinas(t0010), contém o código de uma
INT
DISCODEQV2
disciplina equivalente
117
ALU2STAMAT
INT
Status confirmação Matricula
ALU2FLGEXTCURR CHAR
Contém o status da disciplina referente a ser de extinção ou não
Fonte: Sistema Acadêmico UNIVALI.
Quadro 32 - Tabela codigos_afastamento(t0034)
Campo
Formato
Descrição do campo
AFACOD
INT
Chave primária, única, contendo os códigos de afastamento
AFADES
VARCHAR(45) Contém a descrição dos tipo de afastamento
Fonte: Sistema Acadêmico UNIVALI.
Quadro 33 - Tabela codigos_estadocivil(t0038)
Campo
Formato
Descrição do campo
ESTCIVCOD
INT
Chave primária, única, contendo os códigos do estado civil
ESTCIVDES
VARCHAR(15) Contém a descrição dos tipo de estado civil
Fonte: Sistema Acadêmico UNIVALI.
Quadro 34 - Tabela codigos_tipoingresso(t0045)
Campo
Formato
Descrição do campo
INGCOD
INT
Chave primária, única, contendo os códigos de ingresso
INGDES
VARCHAR(20) Contém a descrição dos tipo de ingresso
Fonte: Sistema Acadêmico UNIVALI.
Quadro 35 - Tabela codigos_tipomatricula(t0052)
Campo
Formato
Descrição do campo
MATCODTIP INT
Chave primária, única, contendo os códigos de matricula
MATDESTIP
VARCHAR(25) Contém a descrição dos tipo de matricula
Fonte: Sistema Acadêmico UNIVALI.
Quadro 36 - Tabela curso(t0007)
Campo
Formato
Descrição do campo
CURCOD
INT
Chave primária, única, contendo os códigos dos cursos
CURNOM
VARCHAR(45) Contém o nome dos cursos
Fonte: Sistema Acadêmico UNIVALI.
Quadro 37 - Tabela curso_curriculo(t0017)
Campo
Formato
Descrição do campo
CURRNRO
INT
Chave primária, única, contendo os currículos
CURCOD
INT
Chave estrangeira para a tabela curso(t0007), indica o curso
CURRQTDPER INT
Quantidade de períodos possui o currículo
CURRANOINI INT
Ano que o currículo começou a ser utilizado
CURRSEMINI INT
Semestre que o currículo começou a ser utilizado
CURRCARHO
Carga horaria total do currículo
R
INT
CURRFLGATU CHAR
Indica se o currículo é o atual
Fonte: Sistema Acadêmico UNIVALI.
Quadro 38 – Tabela curso_curriculo_disciplina(t0018)
Campo
Formato
Descrição do campo
CURCOD
INT
Chave estrangeira para a tabela curso(t0007), indica o curso
Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual
INT
CURRNRO
currículo
Chave estrangeira para a tabela disciplinas(t0010), contém o código da
INT
DISCOD
disciplina
CURRPERDIS INT
Contém o período que pertence a disciplina para o currículo
CURRMEDAPR INT
Contém a média para aprovação no currículo
Fonte: Sistema Acadêmico UNIVALI.
118
Quadro 39 - Tabela disciplinas(t0010)
Campo
Formato
Descrição do campo
DISCOD
INT
Chave primária, única, contendo a chave para cada disciplina
VARCHAR(30
Contém o nome da disciplina
DISNOM
)
DISCREACA
INT
Contém a quantidade de créditos acadêmicos tem a disciplina
DISCGH
INT
Carga horaria total da disciplina
Chave estrangeira para a tabela Categoria_Disciplina, contém os códigos
INT
para a classificação das disciplinas em grupos conforme a área de
GRUCOD
conhecimento
DISCGHTEO
INT
Carga horaria teoria da disciplina
DISCGHPRA
INT
Carga horaria pratica da disciplina
Fonte: Sistema Acadêmico UNIVALI.
Quadro 40 - Tabela media_tipo_media(medprcse)
Campo
Formato
Descrição do campo
Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do
INT
MEDTIPCOD
tipo de média
Chave estrangeira para a tabela media_tipo_media(medprcse), contém as
INT
MEDCOD
divisões que cada tipo de media possui
VARCHAR(35
Contém o descritivo de MEDCOD, ou seja, Media 1, Media 2...
MEDDESC
)
MEDSIGLA
VARCHAR(5) Contém a sigla para MEDDESC, ou seja, M1, M2...
MEDPESO
INT
Contém o peso que cada MEDCOD apresenta na composição da nota final
Fonte: Sistema Acadêmico UNIVALI.
Quadro 41 - Tabela medias_parciais(medprcal)
Campo
Formato
Descrição do campo
Chave estrangeira para a tabela alunos(t0001), contém o codico individual
INT
Cad_Aluno
de cada aluno
LETANO
INT
Ano Letivo
LETSEM
INT
Semestre Letivo
Chave estrangeira para a tabela disciplinas(t0010), contém o código da
INT
DISCOD
disciplina
TURCURCOD INT
Chave estrangeira para a tabela curso(t0007), contém o código do curso
TURSEQDIS
INT
Sequência da disciplina (pré-requisitos)
TURTNODIS
INT
Contém o turno em que a disciplina é ministrada
Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do
INT
MEDTIPCOD
tipo de média
Chave estrangeira para a tabela media_tipo_media(medprcse), contém as
INT
MEDCOD
divisões que cada tipo de media possui
MEDCALC
FLOAT
Contém a média do aluno em cada MEDCOD (M1, M2...)
MEDFALTAS INT
Contém as faltas do aluno em cada MEDCOD (M1, M2...)
Fonte: Sistema Acadêmico UNIVALI.
Quadro 42 - Tabela pre-requisitos(t0031)
Campo
Formato
Descrição do campo
CURCOD
INT
Chave estrangeira para a tabela curso(t0007), indica o curso
Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual
INT
CURRNRO
currículo
DISCOD
INT
Chave estrangeira para a tabela disciplina(t0010), indica uma disciplina
Chave estrangeira para a tabela disciplina(t0010), indica uma disciplina que
INT
DISPREREQ
é pré-requisito da disciplina do atributo DISCOD
Fonte: Sistema Acadêmico UNIVALI.
Quadro 43 - Tabela sexo
Campo
Formato
Cod_Sexo
INT
Descrição
VARCHAR(9)
Descrição do campo
Chave primária, única, contendo os sexo
Feminino ou Masculino
119
Fonte: Sistema Acadêmico UNIVALI.
Quadro 44 - Tabela tipo_media(tipomedi)
Campo
Formato
Descrição do campo
MEDTIPCOD INT
Chave primária, única, contendo os tipos de media
MEDTIPDES
VARCHAR(9) Contém o descritivo dos tipos de media
Fonte: Sistema Acadêmico UNIVALI.
Quadro 45 - Tabela tipo_codigo_avaliacoes(TipAvaCod)
Campo
Formato
Descrição do campo
TIPAVACOD INT
Chave primária, única, contendo os tipos de grupos de avaliações
TIPAVADESC VARCHAR(30) Contém a descrição dos grupos de avaliações
Fonte: Sistema Acadêmico UNIVALI.
120
APÊNDICE D – LISTA DOS ATRIBUTOS EXCLUÍDOS EM CADA TABELA E A
JUSTIFICATIVA PARA EXCLUSÃO
Quadro 46 - Tabela alunos(t0001)
Campo
ALU2NROIDE
ALU2NOMCOM
ALU2MAE
ALU2ORGIDE
ALU2ESTIDE
ALU2DATIDE
ALU2NROTIT
ALU2SECTIT
ALU2ZONTIT
ALU2CIDTIT
ALU2ESTTIT
ALU2DATTIT
ALU2NROMIL
ALU2DOCMIL
ALU2SERMIL
ALU2ORGMIL
ALU2DATMIL
ALU2FLGPSS
MODCOD
HABCOD
ALU2TUR
ALU2TNO
ALU2ANOFEZ
ALU2SEMFEZ
ALU2QTDREP
ALU2MEDVES
ALU2MEDGER
ALU2INDGER
ALU2INDREG
ALU2INDMED
ALU2INDREP
ALU2USUIND
ALU2DTHRIN
ALU2CPF
ALU2INTEND
ALU2INTCEP
ALU2INTBAI
ALU2INTCID
ALU2INTEST
ALU2INTFON
ALU2INTCOM
ALU2INTEMA
ALU2INTBAN
ALU2INTAGE
ALU2INTNOM
ALU2INTDAT
ALU2RESDAT
ALU2END
ALU2BAI
ALU2CEP
ALU2ESTRES
Descrição
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Todos os registros vazios
Contém apenas o número 1
Contém apenas o número 0
Contém apenas o número 1
Contém apenas o número 3
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Todos os registros vazios
Todos os registros contém 1/1/0001
Irrelevante para a pesquisa
Todos os registros vazios
Contém apenas o número 0
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Contém apenas o número 0
Contém apenas o número 0
Todos os registros vazios
Todos os registros contém 1/1/0001
Todos os registros contém 1/1/0001
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
121
ALU2FONRES
ALU2FONCOM
ALU2FONREC
RESCPFCGCN
ALU2BANAGE
ALU2BANCOD
ALU2SENHA
ALU2DTHRCR
ALU2DTHRUL
ALU2DTHRSE
ALU2EMAIL
ALU2ENTDTC
ALU2ENTDTR
ALU2DIAVCT
ALU2DEBBAN
ALU2DEBAGE
ALU2DEBNRO
ALU2DEBDIG
ALU2DATDIP
ALU2FLG2
MOTAFACOD
EMPUNICOD
ALU2INGMAN
ALU2DOCBAN
ALU2DOCAGE
ALU2DOCNRO
ALU2DOCDIG
ALU2DOCCPF
ALU2DOCNOM
ALU2EMAILC
ALU2CARGO
ALU2FLGPRO
ALU2FLGESP
ALU2EMPCOD
ALU2DOCFLG
ALU2DATENV
ALU2AGRCON
ALU2MAILCR
ALU2MAILCO
ALU2GRAUNV
ALU2GRACMP
ALU2GRACNT
ALU2GRACEX
ALU2ESPUNV
ALU2ESPCMD
ALU2ESPCNT
ALU2ESPCEX
ALU2PROFUN
ALU2NOMREFBIB
LINPESCOD
ALU2DATSLCQLF
ALU2DATSLCDFS
ALU2DATCONFQLF
ALU2DATCONFDFS
ALU2USUCONFQLF
ALU2USUCONFDFS
ALU2DATAPRQLF
ALU2DATAPRDFS
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Todos os registros contém 1/1/0001
Todos os registros contém 1/1/0001
Todos os registros contém 1/1/0001
E-mail do aluno
Todos os registros contém 1/1/0001
Todos os registros contém 1/1/0001
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Todos os registros contém 1/1/0001
Todos os registros vazios
Contém apenas o número 0
Contém apenas o número 0
Todos os registros vazios
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros contém 1/1/0001
Todos os registros contém N
Todos os registros contém 1/1/0001
Todos os registros contém 1/1/0001
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Todos os registros vazios
Contém apenas o número 0
Todos os registros contem 1/1/0001
Todos os registros contem 1/1/0001
Todos os registros contem 1/1/0001
Todos os registros contem 1/1/0001
Todos os registros vazios
Todos os registros vazios
Todos os registros contem 1/1/0001
Todos os registros contem 1/1/0001
122
ALU2USUAPRQLF
ALU2USUAPRDFS
ALU2PREMATFLG
ALU2VAGTIPCOD
ALU2NOMUPPER
ALU2FLGCOMPL
ALU2PERSUG
ALU2BLQMAT
ALU2BLQMTV
ALU2FLGSEG
ALU2PFC
ALU2DOCAGEDIG
ALU2BANAGEDIG
ALU2NATURALIZADO
ALU2FLGADIC
ALU2AN4AFA
ALU2AN4ING
ALU2PAI
ALU2CIDNAS
ALU2ESTNAS
ALU2STAMAE
ALU2INSVES
ALU2INS2GR
ALU2CID2GR
ALU2EST2GR
ALU2ANO2GR
ALU2FLG1
ALU2NROCAI
ALU2FLG3
ALU2CLAGER
ALU2ENTCPF
ALU2ENTRES
ALU2RESP
ALU2CADCPF
ALU2CADDTC
ALU2CADRES
ALU2CADDTR
ALU2INTRES
ALU2INSSUP
ALU2CIDGRA
ALU2ESTINS
ALU2ANOGRD
ALU2CURSUP
ALU2PT1VES
ALU2PT2VES
ALU2PT3VES
ALU2PT4VES
ALU2DATCON
ALU2DATCOL
ALU2CUR2GR
ALU2RECTIT
ALU2DEBRES
TIPPGOCOD
PAICOD
ALU2EXTANO
ALU2EXTSEM
ALU2EXTNUM
ALU2DVPAIS
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Contém apenas o número 0
Contém o nome do aluno
Todos os registros contém N
Contém apenas o número 0
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Todos os registros contém N
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
123
ALU2IDERAC
ALU2INGUNC
ALU2AFAUNC
ALU2DATTRF
ALU2ANOTRF
ALU2SEMTRF
ALU2SEQTRF
ALU2TIPDEF
ALU2GRUING
ALU2NACIDC
ALU2RECIDC
ALU2TECIDC
ALU22GCIDC
ALU2ESCIDC
ALU2IDUFCO
ALU2VECIDC
AFACODANT
AFADATANT
AFAANOANT
AFASEMANT
ALU2CENESCPUBLICA
ALU2FLGATUHIST
ALU2CIDREC
ALU2ULTANO
ALU2ULTSEM
ALU2ULTPER
ALU2FLG3
ALU2PESCOD
ALU2DIGPES
ALU2PESSOA
ALU2CODANT
ALU2CIDVES
Fonte: Sistema Acadêmico UNIVALI.
Quadro 47 - Tabela alunos_periodoletivo(t0002)
Campo
ALU2TIPPAG
ALU2SITFIN
USUCODMAT1
ALU2LETFL2
ALU2LETFL3
ALU2LETFL1
ALU2ENTPEN
ALU2MANDSE
ALU2FLGMAT
ALU2FLGSIT
ALU2LETNUM
ALU2MATTER
ALU2MATCOM
ALU2LETEXT
LETFLGAPV
LETMEDGERL
LETPERCFREQ
LETQTDPARC
LETFLGDILU
LETMESINI
ALU2CREFIN
EDUFISCODD
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Descrição
Irrelevante para a pesquisa
Todos os registros vazios
Irrelevante para a pesquisa
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Irrelevante para a pesquisa
Irrelevante para a pesquisa
124
ALU2PEREDU
ALU2PERFIN
ALU2OUTCRE
ALU2PEROUT
JUSCODTIP
Fonte: Sistema Acadêmico UNIVALI.
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Quadro 48 - Tabela aluno_afastamentos(t0055)
Campo
HISCURCOD
HISHABCOD
HISMODCOD
Fonte: Sistema Acadêmico UNIVALI.
Descrição
Irrelevante para a pesquisa
Contém apenas o número 0
Irrelevante para a pesquisa
Quadro 49 - Tabela alunos_historico(t0023)
Campo
HISNMEDAPR
CONCSEQ
CONCTIPCUR
HISMODCOD
HISHABCOD
HISOBSREQP
HISAN4APR
Fonte: Sistema Acadêmico UNIVALI.
Descrição
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Contém apenas o número 1
Contém apenas o número 0
Contém apenas o número 0
Irrelevante para a pesquisa
Quadro 50 - Tabela codigos_afastamento(t0034)
Campo
AFAMULTACO
AFAQTDMESE
AFAFLGHIS
AFACODINEP
Fonte: Sistema Acadêmico UNIVALI.
Descrição
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Quadro 51 - Tabela codigos_tipoingresso(t0045)
Campo
INGFLGCAL
GRUINGCOD
INGCURTIPC
INGLANTIP
INGBOLPERC
CENINGCOD
Fonte: Sistema Acadêmico UNIVALI.
Descrição
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Quadro 52 - Tabela curso(t0007)
Campo
CURNOMABR
UNICOD
CAMCOD
SISCOD
CENCUSCOD
CURSTACHE
CURSTAATV
CURSTATIT
CURFLGPROV
CURPERINIP
CURFLG2
CURTIPCURS
CURFLG4
Descrição
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
125
CURFLG5
CURBCOCOD
CURBCOAGEC
CURCREQTDM
CURCREPER
CURIMPTODT
COORDCOD
CURDATIMPL
CURINADAT
CURINAANO
CURINASEM
CURSERCODS
CURSERCODE
CURSERNUM
CURIDAMIN
CURIDAMAX
CURQTDRESV
CURQTDPREC
CURQTDMAXA
CURQTDMINA
CURNOMOFI
CURQTDREAP
CURFLGNIV
CURUR
CURLISMATU
CURNUCLIC
GRUCURCOD
CURABRPER
CURDESPER
CURCODPRX
CURFLGRCPR
SIGCURCAPE
CODCURCAPE
PRGMESCOD
CUREAD
CURMODU
ESDCOD
CURFLGNUC
ID_INEP
CURALIESTR
CURSEDID
CURFLGCHOQPER
CURLINHA4
CURNOMSUG
CURFLGMI
DATINICURENA
Fonte: Sistema Acadêmico UNIVALI.
Quadro 53 - Tabela curso_curriculo(t0017)
Campo
HABCOD
MODCOD
CURRDESALT
CURRFLGATU
CURRFLGEDU
CURRATIVEX
CURRDSCATI
CURNMCTDIS
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Descrição
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
126
CURRCHANUA
CURRDURAUL
CURRQTDIAS
CURRQTDSNA
CURRQTDDIA
CURRMAXDISALUESP
CURRMINDISALUESP
CURRTMPRETAFA
CURRTMPPRG
CURRTMPMAX
CURRTMPMIN
CURRPFC
CURRMINQTDSEM
CURRPERCENADE
Fonte: Sistema Acadêmico UNIVALI.
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Quadro 54 - Tabela curso_curriculo_disciplina(t0018)
Campo
Descrição
MODCOD
Irrelevante para a pesquisa
HABCOD
Irrelevante para a pesquisa
CURROBSDIS
Irrelevante para a pesquisa
CURRPREHOR
Irrelevante para a pesquisa
CURRDISMED
Irrelevante para a pesquisa
CURREXTERI
Irrelevante para a pesquisa
CURRQTDCLA
Irrelevante para a pesquisa
CURRHORCM
Irrelevante para a pesquisa
CURRCOBOBR
Irrelevante para a pesquisa
CURRQTDDEV
Irrelevante para a pesquisa
CURRQTDPAR
Irrelevante para a pesquisa
CURRMINIDA
Irrelevante para a pesquisa
CURRCHSNAD
Irrelevante para a pesquisa
TIPDISCOD
Irrelevante para a pesquisa
AREACOD
Irrelevante para a pesquisa
OPCCOD
Irrelevante para a pesquisa
CURRLIMFAL
Irrelevante para a pesquisa
CURRMETIPC
Irrelevante para a pesquisa
CURRMEDEXMAPV
Irrelevante para a pesquisa
CURRPREHORPERFIM
Irrelevante para a pesquisa
CURRPREHORPERINI
Irrelevante para a pesquisa
GRUFINCOD
Irrelevante para a pesquisa
Fonte: Sistema Acadêmico UNIVALI.
Quadro 55 - Tabela disciplinas(t0010)
Campo
SISCOD
DISNOMCOMP
DISCGHINT
DISSIG
DISSIGCAPE
DISTIP
DISCGHINTTEO
DISCGHINTPRA
DISDURAULHOR
DISNOMCONCAT
DISCREFIN
DISQUOTAEXTRAALUNO
DISQUOTAPROF
Fonte: Sistema Acadêmico UNIVALI.
Descrição
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
127
Quadro 56 - Tabela pre-requisitos(t0031)
Campo
MODCOD
HABCOD
Fonte: Sistema Acadêmico UNIVALI.
Quadro 57 - Tabela classes(classe)
Campo
TURTMACOD
TURMODCOD
TURHABCOD
TURCURRNRO
DISCLASSE
TIPSAICOD
TURDATLIBP
TURDATVALI
TURDATREVI
TURDATALTP
TURFLGCONV
TURFLGEMEN
TURDATEMEN
TURDATOBSC
TURUSUOBSC
TURDATOBSA
TURUSUOBSA
TURDHRECDI
TURUSUCODR
TUROBSPER
TURSTAINT
TURSTABLO
TURSTADIA
TURSTAMEDS
TURSTAMEDF
TURMAXALUS
TURQTDALUS
TURMAXALUC
TURFLGMODU
TURFLGEAD
TURQTDCHT
TURQTDCHP
TURFLGDISC
UNICOD
TUREXCVRF
TURCURREXC
TURPEREXCL
TURSEMEXCL
TURANOEXCL
TURFORVRF
TURALUFOR
TURPERVRF
TURPERFIM
TURPERINI
TURREGVRF
TURALUREG
TURLIMFAL
TURFLGCON
TURBLOEME
TURMEDEXMAPV
Descrição
Contém apenas o número 1
Contém apenas o número 0
Descrição
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém somente 1/1/0001
Contém somente 1/1/0001
Contém somente 1/1/0001
Contém somente 1/1/0001
Todos os registros vazios
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Contém somente 1/1/0001
Contém apenas o número 0
Contém somente 1/1/0001
Contém apenas o número 0
Contém somente 1/1/0001
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Todos os registros vazios
Todos os registros vazios
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas N
Contém apenas N
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Contém apenas N
Contém apenas o número 50
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Todos os registros vazios
Contém apenas o número 25
Contém apenas o N
Todos os registros vazios
Todos os registros vazios
128
TURTIPCLAS
TURDTNUMCHA
TURAGEHOR
TURDURINTERVALO
CLAHABCOD
CLAMODCOD
CLAQTDHAP
CLAFLGBLOQALU
CLAFLGPROFHOR
CLAFLGNAOEXTR
CLAMAXVET
Fonte: Sistema Acadêmico UNIVALI.
Todos os registros vazios
Contém somente 1/1/0001
Todos os registros vazios
Todos os registros vazios
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Irrelevante para a pesquisa
Contém apenas o N
Contém apenas o N
Contém apenas o número 0
Quadro 58 - Tabela Avaliações(AvaMedia)
Campo
TURTMACOD
TURMODCOD
TURHABCOD
TURCURRNRO
Fonte: Sistema Acadêmico UNIVALI.
Descrição
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Quadro 59 - Tabela Tipo_Curso(CurTipo)
Campo
CURTIPDURA
CURTIPFRQD
CURTIPLIMF
CURTIPAVAD
CURTIPAVAA
CURTIPMEDE
CURTIPMEAR
CURTIPMFDE
CURTIPMFAR
CURFLGCCTO
CURMEDEXMA
CURTIPQTDENC
CURTIPINT
CURTIPPLANENS
CURTIPMATCOMP
CURTIPINGCOD
CURTIPQTDMAXAFA
Fonte: Sistema Acadêmico UNIVALI.
Descrição
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Quadro 60 - Tabela Medias_Parciais(MedPrcAl)
Campo
TURTMACOD
TURMODCOD
TURHABCOD
TURCURRNRO
MEDTIP
MEDCONF
MEDPONCNS
Fonte: Sistema Acadêmico UNIVALI.
Descrição
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Quadro 61 - Tabela Avaliaçoes_Aluno(AvaAluno)
Campo
TURTMACOD
TURMODCOD
TURHABCOD
Descrição
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
129
TURCURRNRO
AVAALUCONF
AVAPRCALT
AVAALUAUSE
Fonte: Sistema Acadêmico UNIVALI.
Contém apenas o número 0
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Irrelevante para a pesquisa
Quadro 62 - Tabela Avaliações_Disciplina(AvaDisc)
Campo
Descrição
TURTMACOD
Contém apenas o número 0
TURMODCOD
Contém apenas o número 0
TURHABCOD
Contém apenas o número 0
TURCURRNRO
Contém apenas o número 0
AVADATAPL
Irrelevante para a pesquisa
AVADATDEV
Irrelevante para a pesquisa
AVAMEDSIT
Irrelevante para a pesquisa
AVAMEDJUSD
Todos os registros vazios
AVAFLGRCPR
Todos os registros vazios
AVACRIT
Todos os registros vazios
AVACARHOR
Contém apenas o número 0
AVADATCAD
Todos os registros vazios
AVAAPOSVLDPLN
Todos os registros vazios
AVMLETANO
Todos os registros vazios
AVMLETSEM
Todos os registros vazios
AVMDISCOD
Todos os registros vazios
AVMTURCURCOD
Todos os registros vazios
AVMTURSEQDIS
Todos os registros vazios
AVMTURTNODIS
Todos os registros vazios
AVMTURTMACOD
Todos os registros vazios
AVMTURMODCOD
Todos os registros vazios
AVMTURHABCOD
Todos os registros vazios
AVMTURCURRNRO
Todos os registros vazios
AVMTURDIAAUL
Todos os registros vazios
AVMTURDATAUL
Todos os registros vazios
AVMHORCOD1
Todos os registros vazios
AVMTIPHORCOD
Todos os registros vazios
AVADATANU
Contém apenas 1/1/0001
Fonte: Sistema Acadêmico UNIVALI.
Quadro 63 - Tabela Classes_Alunos(AluClass)
Campo
TURTMACOD
TURMODCOD
TURHABCOD
TURCURRNRO
ALU2CONNOT
ALU2DISCEX
ALU2DATMS
ALU2DATMF
USUCODMAT2
ALU2VLRCRE
ALU2NUMPRO
ALU2PROJUS
ALU2NUMCHAM
ALU2SITCLASS
TURLIBDIGNOT
TURVALDIGNOT
ALU2FLGEXTCURR
Fonte: Sistema Acadêmico UNIVALI.
Descrição
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Contém apenas o número 0
Todos os registros vazios
Todos os registros vazios
Contém apenas 1/1/0001
Contém apenas 1/1/0001
Irrelevante para a pesquisa
Contém apenas o número 0
Todos os registros vazios
Todos os registros vazios
Contém apenas o número 0
Todos os registros vazios
Todos os registros vazios
Contém apenas 1/1/0001
Irrelevante para a pesquisa
130
APÊNDICE E – SCRIPTS PARA SELEÇÃO DOS DADOS
Quadro 64 - Scripts utilizados para importação das tabelas do banco de dados da UNIVALI.
Nome da Tabela
Script
Tabela
select t0001.*
Alunos_PeriodoLetivo(T0002)
from sa_academico_gnx.t0001
where curcod = 031
Tabela Curso(T0007)
select t0007.*
from sa_academico_gnx.t0007
where curcod = 031
Tabela Disciplinas(T0010)
select t0010.*
from sa_academico_gnx.t0010
Tabela Curso_Curriculo(T0017)
select t0017.*
from sa_academico_gnx.t0017
where curcod = 031
Tabela
select t0018.*
Curso_Curriculo_Disciplina(T0018)
from sa_academico_gnx.t0018
where curcod = 031
Tabela Alunos_Historico(T0023)
select t0023.*
from sa_academico_gnx.t0001 t1,
sa_academico_gnx.t0023
where curcod = 031 and hiscurcod=curcod and
t1.alu2anocad=t0023.alu2anocad and
t1.alu2semcad=t0023.alu2semcad and
t1.alu2seqcad=t0023.alu2seqcad
Tabela Turmas_Disciplina(T0027)
select t0027.*
from sa_academico_gnx.t0001 t1,
sa_academico_gnx.t0027
where curcod = 031 and turcurcod=curcod
Tabela Pre-Requisitos(T0031)
select t0031.*
from sa_academico_gnx.t0031
where curcod = 031
Tabela Codigos_Afastamento(T0034) select t0034.*
from sa_academico_gnx.t0034
Tabela Codigos_EstadoCivil(T0038) select t0038.*
from sa_academico_gnx.t0038
Tabela
select t0043.*
codigos_EstadosBrasil(T0043)
from sa_academico_gnx.t0043
Tabela
Codigos_TipoIngresso(T0045)
select t0045.*
from sa_academico_gnx.t0045
Tabela
Codigos_TipoMatricula(T0052)
select t0052.*
from sa_academico_gnx.t0052
Tabela Aluno_Afastamentos(T0055)
select t0055.*
from sa_academico_gnx.t0001 t1,
sa_academico_gnx.t0055
where
curcod
=
031
and
t1.alu2anocad=t0055.alu2anocad
t1.alu2semcad=t0055.alu2semcad
t1.alu2seqcad=t0055.alu2seqcad
select *
from sa_academico_gnx.aluclass
where turcurcod=31
select *
from sa_academico_gnx.medprcal
where turcurcod=31
Tabela Classes_Alunos(AluClass)
Tabela Medias_Parciais(MedPrcAl)
hiscurcod=curcod
and
and
and
131
Tabela Classes(Classe)
Tabela Avaliacoes(AvaMedia)
Tabela
Avaliacoes_Disciplina(AvaDisc)
Tabela Avaliacoes_Aluno(AvaAluno)
Tabela Tipo_Curso(CurTipo)
Tabela
Media_Tipo_Media(MedPrcSe)
Tabela Tipo_Media(TipoMedi)
select *
from sa_academico_gnx.classe
where turcurcod=31
select *
from sa_academico_gnx.avamedia
where turcurcod=31
select *
from sa_academico_gnx.avadisc
where turcurcod=31
select *
from sa_academico_gnx.avaaluno
where turcurcod=31
select *
from sa_academico_gnx.curtipo
select *
from sa_academico_gnx.medprcse
select *
from sa_academico_gnx.tipomedi
Fonte: Script Seleção Dados.
Quadro 65 – Scripts para seleção dos dados dos alunos matriculados entre 2008/1 a 2012/2
Tabela
Script
Tabela alunos_periodolietivo(t0002)
DELETE a
FROM mydb.`alunos_periodoletivo(t0002)` a
where LETANO < 8;
Tabela classes_alunos(aluclass)
Tabela alunos(t0001)
Tabela aluno_afastamentos(t0055)
Tabela alunos_historico(t0023)
Tabela disciplinas(t0010)
DELETE a
FROM mydb.`alunos_periodoletivo(t0002)` a
where LETANO > 12;
DELETE a
FROM mydb.`classes_alunos(aluclass)` a
where LETANO < 8;
DELETE a
FROM mydb.`classes_alunos(aluclass)` a
where LETANO > 12;
SELECT DISTINCT a.*
from mydb.`alunos(t0001)` as a inner join
mydb.`alunos_periodoletivo(t0002)` as c
ON (a.Cad_Aluno = c.Cad_Aluno);
Tabela foi exportada e depois substituiu a tabela original.
SELECT c.*
from mydb.`alunos(t0001)` as a inner join
mydb.`aluno_afastamentos(t0055)` as c
ON (a.Cad_Aluno = c.Cad_Aluno);
Tabela foi exportada e depois substituiu a tabela original.
SELECT c.*
from mydb.`alunos(t0001)` as a inner join
mydb.`alunos_historico(t0023)` as c
ON (a.Cad_Aluno = c.Cad_Aluno);
Tabela foi exportada e depois substituiu a tabela original.
SELECT DISTINCT d.*
from mydb.`disciplinas(t0010)` as d inner join
mydb.`alunos_historico(t0023)` as c
ON (d.DISCOD = c.HISDISCOD);
Tabela foi exportada e depois substituiu a tabela original.
132
Tabela medias_parciais(medprcal)
Tabela avaliacoes_aluno(avaaluno)
Tabela classes(classe)
Tabela avaliacoes(avamedia)
Tabela avaliacoes_disciplina(avadisc)
DELETE a
FROM mydb.`medias_parciais(medprcal)` a
where LETANO < 8;
DELETE a
FROM mydb.`medias_parciais(medprcal)` a
where LETANO > 12;
DELETE a
FROM mydb.`avaliacoes_aluno(avaaluno)` a
where LETANO < 8;
DELETE a
FROM mydb.`avaliacoes_aluno(avaaluno)` a
where LETANO > 12;
DELETE a
FROM mydb.`classes(classe)` a
where LETANO < 8;
DELETE a
FROM mydb.`classes(classe)` a
where LETANO > 12;
DELETE a
FROM mydb.`avaliacoes(avamedia)` a
where LETANO > 12;
DELETE a
FROM mydb.`avaliacoes(avamedia)` a
where LETANO < 8;
DELETE a
FROM mydb.`avaliacoes_disciplina(avadisc)` a
where LETANO < 8;
DELETE a
FROM mydb.`avaliacoes_disciplina(avadisc)` a
where LETANO > 12;
Fonte: Script Seleção Dados.
Quadro 66 – Scripts para seleção dos atributos e criação das tabelas para carga no Data Mart Evasão.
Tabela
Script
Tabela dimensao_aluno
SELECT
`alunos(t0001)`.Cad_Aluno AS id_Aluno,
`codigos_estadocivil(t0038)` .ESTCIVDES AS Estado_Civil,
sexo.Descricao AS Sexo,
`alunos(t0001)`.ALU2DATNAS AS Data_Nascimento,
`codigos_tipoingresso(t0045)`.INGDES AS Tipo_Ingresso,
`alunos(t0001)`.ALU2ANOING AS Ano_Ingresso,
`alunos(t0001)`.ALU2SEMING AS Semestre_Ingresso,
`alunos(t0001)`.ALU2DATING AS Data_Ingresso,
`alunos(t0001)`.ALU2CURVES AS Curso_Aprovado,
`alunos(t0001)`.ALU2SEMVES AS Semestre_Vestibular,
`alunos(t0001)`.ALU2ANOVES AS Ano_Vestibular,
`alunos(t0001)`.ALU2STAFMD AS Status_Formando,
`alunos(t0001)`.ALU2CID AS Cidade,
`alunos(t0001)`.ALU2QTDSEM AS Quant_Semestres
FROM `alunos(t0001)`
INNER JOIN sexo
ON `alunos(t0001)`.ALU2SEX = sexo.ALUSEX
INNER JOIN `codigos_tipoingresso(t0045)`
ON `alunos(t0001)`.INGCOD =
`codigos_tipoingresso(t0045)`.INGCOD
133
Tabela Dimensao_Disciplina
Tabela Dimensao_Curso_Curriculo
Tabela Fatos_Historico_Escolar
Tabela Fatos_Afastamento
INNER JOIN `codigos_estadocivil(t0038)`
ON `alunos(t0001)`.ESTCIVCOD =
`codigos_estadocivil(t0038)`.ESTCIVCOD
SELECT
`disciplinas(t0010)`.DISCOD AS id_Disciplina,
`disciplinas(t0010)`.DISNOM AS Nome_Disciplina,
`disciplinas(t0010)`.DISCREACA AS Num_Creditos,
`disciplinas(t0010)`.DISCGH AS Carga_Horaria_Total,
categoria_disciplina.GRUDESC AS Categoria,
`disciplinas(t0010)`.DISCGHTEO AS Carga_Horaria_Teorica,
`disciplinas(t0010)`.DISCGHPRA AS Carga_Horaria_Pratica
FROM `disciplinas(t0010)`
INNER JOIN categoria_disciplina
ON `disciplinas(t0010)`.GRUCOD =
categoria_disciplina.GRUCOD
SELECT
`curso_curriculo(t0017)`.CURRNRO AS id_Curso_Curriculo,
`curso(t0007)`.CURNOM AS Nome_Curso,
`curso_curriculo(t0017)`.CURRQTDPER AS Quantidade_Periodos,
`curso_curriculo(t0017)`.CURRANOINI AS Ano_Inicio,
`curso_curriculo(t0017)`.CURRSEMINI AS Sem_Inicio,
`curso_curriculo(t0017)`.CURRCARHOR AS Carga_Horaria,
`curso_curriculo(t0017)`.CURRFLGATU AS Curriculo_Atual
FROM `curso_curriculo(t0017)`
INNER JOIN `curso(t0007)`
ON `curso_curriculo(t0017)`.CURCOD =
`curso(t0007)`.CURCOD
SELECT
`alunos_historico(t0023)`.Cad_Aluno AS id_Aluno,
`alunos_historico(t0023)`.HISCURRNRO AS id_Curso_Curriculo,
`alunos_historico(t0023)`.HISDISCOD AS id_Disciplina,
`alunos_historico(t0023)`.HISPERCUR AS
Periodo_Disciplina_Curso,
`alunos_historico(t0023)`.HISANOAPR AS Ano_Aprovacao,
`alunos_historico(t0023)`.HISSEMAPR AS Semestre_Aprovacao,
`alunos_historico(t0023)`.HISMEDAPR AS Media_Aprovacao,
`alunos_historico(t0023)`.HISOBSDIS AS
Disciplina_Aproveitamento,
`curso_curriculo_disciplina(t0018)`.CURRMEDAPR AS
Media_Para_Aprovacao
FROM `alunos_historico(t0023)`
INNER JOIN `curso_curriculo_disciplina(t0018)`
ON `alunos_historico(t0023)`.HISCURCOD =
`curso_curriculo_disciplina(t0018)`.CURCOD AND
`alunos_historico(t0023)`.HISCURRNRO =
`curso_curriculo_disciplina(t0018)`.CURRNRO AND
`alunos_historico(t0023)`.HISDISCOD =
`curso_curriculo_disciplina(t0018)`.DISCOD
SELECT
`aluno_afastamentos(t0055)`.Cad_Aluno AS id_Aluno,
`aluno_afastamentos(t0055)`.LETANO AS Ano_Letivo,
`aluno_afastamentos(t0055)`.LETSEM AS Semestre_Letivo,
`aluno_afastamentos(t0055)`.HISCURRNRO AS
id_Curso_Curriculo,
`codigos_afastamento(t0034)`.AFADES AS Tipo_Afastamento,
`aluno_afastamentos(t0055)`.HISSEMAFA AS
Semestre_Afastamento,
`aluno_afastamentos(t0055)`.HISDATAFA AS Data_Afastamento,
134
Tabela Fatos_Avaliacoes_Disciplina
(YEAR(`aluno_afastamentos(t0055)`.HISDATAFA)YEAR(`alunos(t0001)`.ALU2DATNAS))(RIGHT(CURDATE(),5)<RIGHT(`alunos(t0001)`.ALU2DATNAS,5))
AS Idade_na_Data_Afastamento
FROM `aluno_afastamentos(t0055)`
INNER JOIN `codigos_afastamento(t0034)`
ON `aluno_afastamentos(t0055)`.HISAFACOD =
`codigos_afastamento(t0034)`.AFACOD
INNER JOIN `alunos(t0001)`
ON `aluno_afastamentos(t0055)`.Cad_Aluno =
`alunos(t0001)`.Cad_Aluno
Parcial 1
SELECT
`avaliacoes_disciplina(avadisc)`.*,
`tipo_codigos_avaliacao(tipavacod)`.TIPAVADESC,
`tipo_media(tipomedi)`.MEDTIPDES
FROM `avaliacoes_disciplina(avadisc)`
INNER JOIN `tipo_codigos_avaliacao(tipavacod)`
ON `avaliacoes_disciplina(avadisc)`.TIPAVACOD =
`tipo_codigos_avaliacao(tipavacod)`.TIPAVACOD
INNER JOIN `tipo_media(tipomedi)`
ON `avaliacoes_disciplina(avadisc)`.MEDTIPCOD =
`tipo_media(tipomedi)`.MEDTIPCOD
Parcial 2
SELECT
`avaliacoes_disciplina(avadisc) - parcial 1`.*,
`media_tipo_media(medprcse)`.MEDDESC,
`media_tipo_media(medprcse)`.MEDSIGLA,
`media_tipo_media(medprcse)`.MEDPESO
FROM `avaliacoes_disciplina(avadisc) - parcial 1`
INNER JOIN `media_tipo_media(medprcse)`
ON `avaliacoes_disciplina(avadisc) - parcial 1`.MEDCOD =
`media_tipo_media(medprcse)`.MEDCOD AND
`avaliacoes_disciplina(avadisc) - parcial 1`.MEDTIPCOD =
`media_tipo_media(medprcse)`.MEDTIPCOD
Final
SELECT
`avaliacoes_aluno(avaaluno)`.LETANO AS Ano_Letivo,
`avaliacoes_aluno(avaaluno)`.LETSEM AS Semestre_Letivo,
`avaliacoes_aluno(avaaluno)`.DISCOD AS id_Disciplina,
`classes(classe)`.CLACURRNRO AS id_Curso_Curriculo,
`avaliacoes_aluno(avaaluno)`.TURSEQDIS AS
Sequencia_Disciplina,
`avaliacoes_aluno(avaaluno)`.TURTNODIS AS Turno_Disciplina,
`avaliacoes_aluno(avaaluno)`.MEDTIPCOD AS
Tipo_Media_Codigo,
`avaliacoes_aluno(avaaluno)`.MEDCOD AS
Media_Parcial_Codigo,
`avaliacoes_aluno(avaaluno)`.AVACOD AS Avaliacao_Codigo,
`avaliacoes_aluno(avaaluno)`.Cad_Aluno AS id_Aluno,
`avaliacoes_disciplina(avadisc) - parcial 2`.MEDTIPDES AS
Tipo_Media_Descricao,
`avaliacoes_disciplina(avadisc) - parcial 2`.MEDDESC AS
Media_Parcial_Descricao,
`avaliacoes_disciplina(avadisc) - parcial 2`.MEDSIGLA AS
Media_Parcial_Sigla,
`avaliacoes_disciplina(avadisc) - parcial 2`.MEDPESO AS
Media_Parcial_Peso,
135
`avaliacoes_disciplina(avadisc) - parcial 2`.AVADESC AS
Avaliacao_Descricao,
`avaliacoes_disciplina(avadisc) - parcial 2`.AVAPESO AS
Avaliacao_Peso,
`avaliacoes_disciplina(avadisc) - parcial 2`.TIPAVADESC AS
Tipo_Avaliacao,
`avaliacoes_aluno(avaaluno)`.AVAALUNOT AS Nota_Avaliacao,
`classes(classe)`.TURPERCUR AS Classe_Periodo_Curso,
`classes(classe)`.TURQTDALU AS Quandidade_Alunos,
`classes(classe)`.TURMEDAPRD AS Media_Para_Aprovacao,
`classes(classe)`.TURMAXALU AS Maximo_Alunos
FROM `classes(classe)`
INNER JOIN `avaliacoes_disciplina(avadisc) - parcial 2`
ON `classes(classe)`.LETANO = `avaliacoes_disciplina(avadisc) parcial 2`.LETANO AND `classes(classe)`.LETSEM =
`avaliacoes_disciplina(avadisc) - parcial 2`.LETSEM AND
`classes(classe)`.DISCOD = `avaliacoes_disciplina(avadisc) parcial 2`.DISCOD AND `classes(classe)`.TURCURCOD =
`avaliacoes_disciplina(avadisc) - parcial 2`.TURCURCOD AND
`classes(classe)`.TURSEQDIS = `avaliacoes_disciplina(avadisc) parcial 2`.TURSEQDIS AND `classes(classe)`.TURTNODIS =
`avaliacoes_disciplina(avadisc) - parcial 2`.TURTNODIS AND
`classes(classe)`.TURMEDTIPC = `avaliacoes_disciplina(avadisc) parcial 2`.MEDTIPCOD
INNER JOIN `avaliacoes_aluno(avaaluno)`
ON `avaliacoes_disciplina(avadisc) - parcial 2`.LETANO =
`avaliacoes_aluno(avaaluno)`.LETANO AND
`avaliacoes_disciplina(avadisc) - parcial 2`.LETSEM =
`avaliacoes_aluno(avaaluno)`.LETSEM AND
`avaliacoes_disciplina(avadisc) - parcial 2`.DISCOD =
`avaliacoes_aluno(avaaluno)`.DISCOD AND
`avaliacoes_disciplina(avadisc) - parcial 2`.TURCURCOD =
`avaliacoes_aluno(avaaluno)`.TURCURCOD AND
`avaliacoes_disciplina(avadisc) - parcial 2`.TURSEQDIS =
`avaliacoes_aluno(avaaluno)`.TURSEQDIS AND
`avaliacoes_disciplina(avadisc) - parcial 2`.TURTNODIS =
`avaliacoes_aluno(avaaluno)`.TURTNODIS AND
`avaliacoes_disciplina(avadisc) - parcial 2`.MEDTIPCOD =
`avaliacoes_aluno(avaaluno)`.MEDTIPCOD AND
`avaliacoes_disciplina(avadisc) - parcial 2`.MEDCOD =
`avaliacoes_aluno(avaaluno)`.MEDCOD AND
`avaliacoes_disciplina(avadisc) - parcial 2`.AVACOD =
`avaliacoes_aluno(avaaluno)`.AVACOD
Tabela Fatos_Desempenho_Aluno
Parcial 1
SELECT
`medias_parciais(medprcal)`.*,
`tipo_media(tipomedi)`.MEDTIPDES,
`media_tipo_media(medprcse)`.MEDDESC,
`media_tipo_media(medprcse)`.MEDSIGLA,
`media_tipo_media(medprcse)`.MEDPESO
FROM `medias_parciais(medprcal)`
INNER JOIN `tipo_media(tipomedi)`
ON `medias_parciais(medprcal)`.MEDTIPCOD =
`tipo_media(tipomedi)`.MEDTIPCOD
INNER JOIN `media_tipo_media(medprcse)`
ON `medias_parciais(medprcal)`.MEDTIPCOD =
`media_tipo_media(medprcse)`.MEDTIPCOD AND
`medias_parciais(medprcal)`.MEDCOD =
`media_tipo_media(medprcse)`.MEDCOD
136
Parcial 2
SELECT
`classes_alunos(aluclass)`.*,
`classes(classe)`.CLACURRNRO
FROM `classes_alunos(aluclass)`
INNER JOIN `classes(classe)`
ON `classes_alunos(aluclass)`.LETANO =
`classes(classe)`.LETANO AND `classes_alunos(aluclass)`.LETSEM
= `classes(classe)`.LETSEM AND
`classes_alunos(aluclass)`.DISCOD = `classes(classe)`.DISCOD
AND `classes_alunos(aluclass)`.TURCURCOD =
`classes(classe)`.TURCURCOD AND
`classes_alunos(aluclass)`.TURSEQDIS =
`classes(classe)`.TURSEQDIS AND
`classes_alunos(aluclass)`.TURTNODIS =
`classes(classe)`.TURTNODIS
Parcial 3
SELECT
`alunos_periodoletivo(t0002)`.*,
`codigos_tipomatricula(t0052)`.MATDESTIP
FROM `alunos_periodoletivo(t0002)`
INNER JOIN `codigos_tipomatricula(t0052)`
ON `alunos_periodoletivo(t0002)`.MATCODTIP =
`codigos_tipomatricula(t0052)`.MATCODTIP
Final
SELECT
`medias_parciais(medprcal) - parcial 1`.Cad_Aluno AS id_Aluno,
`medias_parciais(medprcal) - parcial 1`.LETANO AS Ano_Letivo,
`medias_parciais(medprcal) - parcial 1`.LETSEM AS
Semestre_Letivo,
`medias_parciais(medprcal) - parcial 1`.DISCOD AS id_Disciplina,
`classes_alunos(aluclass) - parcial 1`.CLACURRNRO AS
id_Curso_Curriculo,
`medias_parciais(medprcal) - parcial 1`.TURSEQDIS AS
Sequencia_Disciplina,
`medias_parciais(medprcal) - parcial 1`.TURTNODIS AS
Turno_Disciplina,
`medias_parciais(medprcal) - parcial 1`.MEDTIPCOD AS
Tipo_Media_Codigo,
`medias_parciais(medprcal) - parcial 1`.MEDCOD AS
Media_Parcial_Codigo,
`medias_parciais(medprcal) - parcial 1`.MEDTIPDES AS
Tipo_Media_Descricao,
`medias_parciais(medprcal) - parcial 1`.MEDDESC AS
Media_Parcial_Descricao,
`medias_parciais(medprcal) - parcial 1`.MEDSIGLA AS
Media_Parcial_Sigla,
`medias_parciais(medprcal) - parcial 1`.MEDPESO AS
Media_Parcial_Peso,
`medias_parciais(medprcal) - parcial 1`.MEDCALC AS
Media_Calculada,
`medias_parciais(medprcal) - parcial 1`.MEDFALTAS AS Faltas,
`classes_alunos(aluclass) - parcial 1`.ALU2MEDSEM AS
Media_Semestre,
`classes_alunos(aluclass) - parcial 1`.ALU2STADIS AS
Status_Disciplina,
`classes_alunos(aluclass) - parcial 1`.ALU2STAFRE AS
Status_Frequencia,
137
`classes_alunos(aluclass) - parcial 1`.DISCODEQV AS
Disc_Equivalente1,
`classes_alunos(aluclass) - parcial 1`.DISCODEQV2 AS
Disc_Equivalente2,
`classes_alunos(aluclass) - parcial 1`.ALU2STAMAT AS
Status_Matricula,
`classes_alunos(aluclass) - parcial 1`.ALU2FLGEXTCURR AS
Disciplina_Extracurricular,
`alunos_periodoletivo(t0002) - parcial 1`.ALU2PERACA AS
Periodo_Academico_Aluno,
`alunos_periodoletivo(t0002) - parcial 1`.ALU2CREACA AS
Creditos_Academicos_Aluno,
`alunos_periodoletivo(t0002) - parcial 1`.ALU2ULTALT AS
Aluno_Ultima_Alteracao,
`alunos_periodoletivo(t0002) - parcial 1`.ALU2STAFOR AS
Aluno_Formando,
`alunos_periodoletivo(t0002) - parcial 1`.ALU2DATMAT AS
Data_Matricula,
`alunos_periodoletivo(t0002) - parcial 1`.MATDESTIP AS
Tipo_Matricula,
`alunos_periodoletivo(t0002) - parcial 1`.ALU2ENTPEN AS
Entrada_Pendencia,
`alunos_periodoletivo(t0002) - parcial 1`.ALU2ENTCON AS
Entrada_Confirmada,
`alunos_periodoletivo(t0002) - parcial 1`.ALU2ENTDTA AS
Data_Entrada,
`alunos_periodoletivo(t0002) - parcial 1`.LETFLGPROUNI AS
Aluno_Prouni
FROM `alunos_periodoletivo(t0002) - parcial 1`
INNER JOIN `classes_alunos(aluclass) - parcial 1`
ON `alunos_periodoletivo(t0002) - parcial 1`.LETANO =
`classes_alunos(aluclass) - parcial 1`.LETANO AND
`alunos_periodoletivo(t0002) - parcial 1`.LETSEM =
`classes_alunos(aluclass) - parcial 1`.LETSEM AND
`alunos_periodoletivo(t0002) - parcial 1`.Cad_Aluno =
`classes_alunos(aluclass) - parcial 1`.Cad_Aluno
INNER JOIN `medias_parciais(medprcal) - parcial 1`
ON `classes_alunos(aluclass) - parcial 1`.LETANO =
`medias_parciais(medprcal) - parcial 1`.LETANO AND
`classes_alunos(aluclass) - parcial 1`.LETSEM =
`medias_parciais(medprcal) - parcial 1`.LETSEM AND
`classes_alunos(aluclass) - parcial 1`.DISCOD =
`medias_parciais(medprcal) - parcial 1`.DISCOD AND
`classes_alunos(aluclass) - parcial 1`.Cad_Aluno =
`medias_parciais(medprcal) - parcial 1`.Cad_Aluno
Fonte: Script Seleção Dados.
138
APÊNDICE F - PROBLEMAS COM DADOS (AJUSTES, CORREÇÕES)
Quadro 67 – Pré-processamento dos dados, problemas e correções
Tabela
Atributo
Ajustes/Correções
Tabela alunos(t0001)
ALU2DATING
Alguns alunos apresentavam data de ingresso
invalida (01/01/0001), solução foi colocar como
data ingresso o ano de ingresso do campo
(ALU2ANOING), para o mês assumiu-se 03 para
o primeiro semestre e 07 para o segundo semestre
(ALU2SEMING) e o dia sempre 01.
Tabela alunos(t0001)
ALU2SEMVES
Alguns campos apresentavam valores 0 e 3 para o
semestre de vestibular, como correção foi
colocado o mesmo semestre de ingresso
(ALU2SEMING).
Tabela alunos(t0001)
ALU2ANOVES
Alguns campos apresentavam valores 0,
2, 12 e 2022 para o ano de vestibular, como
correção foi colocado o mesmo semestre de
ingresso (ALU2ANOING).
Tabela alunos(t0001)
ALU2CURVES
Alguns campos estavam com erros de português e
alguns estavam vazios, a moda para estes campos
foi Ciência da Computação aplicada a correção
para os campos vazios e para os campos com erro
de português corrigiu-se os erros.
Tabela alunos(t0001)
ALU2CID
Alguns campos apresentam cidades com distância
muito grande em relação ao curso, foram trocadas
pela moda (ITAJAI) todas as cidade com
distancia acima de 150KM
Tabela aluno_afastamentos(t0055)
HISSEMAFA
Alguns campos estão com o semestre de
afastamento incorreto “0”, a solução foi utilizar o
mês da data de afastamento (HISDATAFA) e
corrigir o campo.
Tabela alunos_historico(t0023)
HISMEDAPR
Alguns campos com historio de notas com valores
fora dos padrões ex. 98,98. As notas foram
corrigidas para valores até 10,00, passando a
virgula 1 casa para a esquerda.
Tabela classes(classe)
CLACURRNRO
Alguns campos estão com o valor “0”, foram
filtradas as disciplinas e colocadas os currículos
ao qual elas pertencem.
Tabela classe_alunos(aluclass)
ALU2CONNOT
Alguns campos estavam vazios, como se trata da
confirmação da nota do aluno e o campo da nota
está com o valor “0”. Os campos ALU2CONNOT
que contém o valor “N” também possuem “0” no
campo da nota, então foram completados os
valores vazios de ALU2CONNOT com “N”.
Tabela disciplina(t0010)
DISNOM
Alguns campos apresentavam caracteres
inválidos, valores corrigidos.
Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.
Download