UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO APLICAÇÃO DE ALGORITMOS DE MINERAÇÃO DE DADOS PARA IDENTIFICAÇÃO DE FATORES QUE INFLUENCIAM A EVASÃO DE ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO DA UNIVALI Área de Mineração de Dados por Mauricio Carniel Luis Carlos Martins Orientador Itajaí (SC), novembro de 2013 UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO APLICAÇÃO DE ALGORITMOS DE MINERAÇÃO DE DADOS PARA IDENTIFICAÇÃO DE FATORES QUE INFLUENCIAM A EVASÃO DE ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO DA UNIVALI Área de Mineração de Dados por Mauricio Carniel Relatório apresentado à Banca Examinadora do Trabalho Técnico Científico de Conclusão do Curso de Ciência da Computação para análise e aprovação. Orientador: Luis Carlos Martins, Esp. Itajaí (SC), novembro de 2013 RESUMO CARNIEL, Mauricio. Aplicação de algoritmos de Mineração de Dados para Identificação de Fatores que Influenciam a Evasão de Alunos do Curso de Ciência da Computação da UNIVALI. Itajaí, 2013. 117. Trabalho Técnico-científico de Conclusão de Curso (Graduação em Ciência da Computação) – Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2013. A evasão escolar é um dos maiores e mais preocupantes desafios do Sistema Educacional, pois é fator de desequilíbrio, desarmonia e desajustes dos objetivos educacionais pretendidos. Apesar de diversas iniciativas, os índices de abandono do ensino superior pelos alunos vêm aumentando, pois diversos fatores podem influenciar na continuidade dos alunos no ensino superior. A identificação de possíveis fatores que possam influenciar a evasão, pode ser auxiliada pelos sistemas de informação, que através de suas rotinas diárias coletam e armazenam uma grande quantidade de dados, constituindo-se como fontes para aplicação do processo KDD (Knowledge Discovery in Databases). A aplicação do processo KDD e de Técnicas de Mineração de dados podem contribuir de forma significativa para descoberta de conhecimento útil, propiciando assim subsídios para os gestores aplicarem medidas que possam minimizar o problema da evasão. O presente trabalho abordou o tema evasão escolar em instituições de ensino superior e utilizou dados dos alunos do curso de Ciência da Computação da UNIVALI (Universidade do Vale do Itajaí), Campus Itajaí/SC, identificando grupos de risco, faixa etária de alunos mais propensos a evasão e classificando alunos por tipo de afastamento. Também foi possível identificar o perfil de alunos evadidos, além de sugerir novas pesquisas com um foco mais específico no intuito de prever alunos propensos a evasão ou buscar possíveis fatores e ou motivadores, para evasão destes alunos. Palavras-chave: Evasão Escolar, KDD, Mineração de Dados, Instituições de Ensino Superior e Descoberta de Conhecimento. ABSTRACT The evasion is one of the biggest and most troubling challenges Educational System, because it is factor of disequilibrium, disharmony and misfits of intended educational goals. Despite several initiatives, dropout rates of the higher education students are increasing because many factors can influence the continuity of students in higher education. The identification of potential factors that may influence evasion, can be aided by information systems, which through their daily routines collect and store a large amount of data, constituting themselves as sources for application of KDD process (Knowledge Discovery in Database). The application of KDD process and Data Mining Techniques can contribute significantly to the discovery of useful knowledge, thus providing subsidies for managers implement measures to reduce the problem of evasion. This present work addressed theme the school evasion in higher education institutions and uses data from students of Computer Science UNIVALI Campus Itajaí / SC, identifying risk groups aged students more likely evasion and classifying students by type of evasion. It was also possible to identify the profile of dropout students, and suggest further research with a more specific focus in order to predict likely students evasion or seek possible factors and motivators or for avoidance of these students. Keywords: School dropout, KDD, Data Mining, Higher Education Institutions, Knowledge Discovery. LISTA DE FIGURAS Figura 1 - Processo KDD ......................................................................................................... 28 Figura 2 - Modelagem Data Mart ............................................................................................. 53 Figura 3 - Alunos Ingressos entre 2008 e 2012 ........................................................................ 56 Figura 4 - Alunos evadidos entre os anos de 2008 a 2012. ...................................................... 56 Figura 5– Evasão dos alunos ingressos em 2008. .................................................................... 58 Figura 6 - Tipos de Afastamento dos alunos ingressos em 2008 (Detalhamento entre 2008 e 2012) ......................................................................................................................................... 59 Figura 7 - Evasão por semestre alunos ingressos em 2008/1 ................................................... 60 Figura 8 – Alunos evadidos por período acadêmico disciplinas mais cursadas no semestre da evasão. ...................................................................................................................................... 64 Figura 9 - Disciplinas mais cursadas por alunos evadidos, agrupamento por área. ................. 65 Figura 10 – Resultado clusterização algoritmo SimpleKMeans, desempenho acadêmico, dados afastamento alunos evadidos toda a pesquisa. .......................................................................... 69 Figura 11 – Resultado Clusterização algoritmo SimpleKMeans, 5 Clusters, alunos evadidos. .................................................................................................................................................. 72 Figura 12 – Resultados para Clusterização, dados pessoais e de evasão dos alunos ............... 75 Figura 13 - Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. ................ 81 Figura 14 – Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento, exclusão de atributos. ................................................................................................................................... 82 Figura 15 - Resultados para Associação algoritmo Apriori, todos os alunos, atributos pessoais e de evasão. ............................................................................................................................... 84 Figura 16 – Resultados classificação, precisão por classe e Matriz de Confusão. ................... 87 Figura 17 - Resultado Classificação alunos evadidos por faixa de nota, algoritmo RandomTree. .................................................................................................................................................. 89 Figura 18 - Resultado Classificação, todos os alunos, histórico escolar e afastamento. .......... 91 LISTA DE TABELAS Tabela 1 - Indicadores do Censo da Educação Superior 2011 ................................................. 17 Tabela 2 – Censo da Educação Superior 2011 – Ciência da Computação: Evasão ................. 17 Tabela 3 – Alunos ingressos, Alunos Matriculados e Alunos Evadidos. ................................. 57 Tabela 4 - Detalhamento das Evasões dos Alunos Ingressos em 2008. ................................... 60 Tabela 5 - Distribuição da evasão para alunos ingressos em 2008/1. ...................................... 61 Tabela 6 – Cálculo da Taxa de Evasão Semestral. ................................................................... 62 LISTA DE QUADROS Quadro 1 - Métodos de Mineração de Dados aplicáveis a cada Tarefa KDD .......................... 41 Quadro 2 - Resumo das Características do WEKA .................................................................. 45 Quadro 3 - Desenvolvimento Cálculo Taxa de Conclusão de Curso. ...................................... 62 Quadro 4 - Desenvolvimento Cálculo Taxa Evasão Semestral. ............................................... 63 Quadro 5 – Argumentos para clusterização algoritmo SimpleKMeans, desempenho acadêmico, dados afastamento alunos evadidos toda a pesquisa. ............................................................... 66 Quadro 6- Argumentos para clusterização algoritmo SimpleKMeans, alunos evadidos. ........ 70 Quadro 7 – Argumentos para Clusterização, dados pessoais e de evasão dos alunos. ............. 73 Quadro 8 - Argumentos para Associação algoritmo PredictiveApriori, alunos tipo de afastamento abandono, notas, disciplinas e categoria. ............................................................. 76 Quadro 9 – Resultados gerados pela ferramenta WEKA e interpretação, para Associação algoritmo PredictiveApriori, alunos evadidos, tipo afastamento abandono nos anos pesquisados. .............................................................................................................................. 76 Quadro 10 - Argumentos para Associação algoritmo Apriori, alunos evadidos, desempenho acadêmico segmentado com período pré-estabelecido............................................................. 77 Quadro 11 - Argumentos para Associação algoritmo Apriori, alunos evadidos, desempenho acadêmico segmentado com período pré-estabelecido............................................................. 77 Quadro 12- Argumentos para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. ................ 79 Quadro 13- Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. ................ 80 Quadro 14 - Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. ................ 81 Quadro 15 - Argumentos para Associação algoritmo Apriori, todos os alunos, atributos pessoais e de evasão. ............................................................................................................................... 83 Quadro 16 - Resultados para Associação algoritmo Apriori, todos os alunos, atributos pessoais e de evasão. ............................................................................................................................... 83 Quadro 17 - Classificação utilizando o algoritmo JRip, por tipo de afastamento. ................... 85 Quadro 18 - Regras de classificação utilizando o algoritmo JRip, por tipo de afastamento. ... 85 Quadro 19 - Classificação alunos evadidos por faixa de nota, algoritmo RandomTree. .......... 88 Quadro 20 – Argumentos experiência classificação, todos os alunos, histórico escolar e afastamento. .............................................................................................................................. 90 Quadro 21 - Forma de notação adotada na pesquisa ................................................................ 94 Quadro 22 - Classificação Disciplinas.................................................................................... 110 Quadro 23 – Tabela aluno_afastamentos(t0055) .................................................................... 114 Quadro 24 – Tabela alunos(t0001) ......................................................................................... 114 Quadro 25 – Tabela alunos_historico(t0023) ......................................................................... 114 Quadro 26 – Tabela alunos_periodoletivo(t0002) .................................................................. 115 Quadro 27 – Tabela avaliacoes_aluno(avaaluno) ................................................................... 115 Quadro 28 - Tabela avaliacoes_disciplina(avadisc) ............................................................... 115 Quadro 29 - Tabela Categoria_Disciplina .............................................................................. 116 Quadro 30 - Tabela classes(classe) ......................................................................................... 116 Quadro 31 - Tabela classes_alunos(aluclass) ......................................................................... 116 Quadro 32 - Tabela codigos_afastamento(t0034) .................................................................. 117 Quadro 33 - Tabela codigos_estadocivil(t0038) .................................................................... 117 Quadro 34 - Tabela codigos_tipoingresso(t0045) .................................................................. 117 Quadro 35 - Tabela codigos_tipomatricula(t0052) ................................................................ 117 Quadro 36 - Tabela curso(t0007)............................................................................................ 117 Quadro 37 - Tabela curso_curriculo(t0017) ........................................................................... 117 Quadro 38 – Tabela curso_curriculo_disciplina(t0018) ......................................................... 117 Quadro 39 - Tabela disciplinas(t0010) ................................................................................... 118 Quadro 40 - Tabela media_tipo_media(medprcse) ................................................................ 118 Quadro 41 - Tabela medias_parciais(medprcal) ..................................................................... 118 Quadro 42 - Tabela pre-requisitos(t0031) .............................................................................. 118 Quadro 43 - Tabela sexo......................................................................................................... 118 Quadro 44 - Tabela tipo_media(tipomedi) ............................................................................. 119 Quadro 45 - Tabela tipo_codigo_avaliacoes(TipAvaCod) ..................................................... 119 Quadro 46 - Tabela alunos(t0001) .......................................................................................... 120 Quadro 47 - Tabela alunos_periodoletivo(t0002) .................................................................. 123 Quadro 48 - Tabela aluno_afastamentos(t0055) .................................................................... 124 Quadro 49 - Tabela alunos_historico(t0023) .......................................................................... 124 Quadro 50 - Tabela codigos_afastamento(t0034) .................................................................. 124 Quadro 51 - Tabela codigos_tipoingresso(t0045) .................................................................. 124 Quadro 52 - Tabela curso(t0007)............................................................................................ 124 Quadro 53 - Tabela curso_curriculo(t0017) ........................................................................... 125 Quadro 54 - Tabela curso_curriculo_disciplina(t0018).......................................................... 126 Quadro 55 - Tabela disciplinas(t0010) ................................................................................... 126 Quadro 56 - Tabela pre-requisitos(t0031) .............................................................................. 127 Quadro 57 - Tabela classes(classe) ......................................................................................... 127 Quadro 58 - Tabela Avaliações(AvaMedia) ........................................................................... 128 Quadro 59 - Tabela Tipo_Curso(CurTipo) ............................................................................. 128 Quadro 60 - Tabela Medias_Parciais(MedPrcAl) .................................................................. 128 Quadro 61 - Tabela Avaliaçoes_Aluno(AvaAluno) ............................................................... 128 Quadro 62 - Tabela Avaliações_Disciplina(AvaDisc) ........................................................... 129 Quadro 63 - Tabela Classes_Alunos(AluClass) ..................................................................... 129 Quadro 64 - Scripts utilizados para importação das tabelas do banco de dados da UNIVALI. ................................................................................................................................................ 130 Quadro 65 – Scripts para seleção dos dados dos alunos matriculados entre 2008/1 a 2012/2 ................................................................................................................................................ 131 Quadro 66 – Scripts para seleção dos atributos e criação das tabelas para carga no Data Mart Evasão..................................................................................................................................... 132 Quadro 67 – Pré-processamento dos dados, problemas e correções ...................................... 138 LISTA DE ABREVIATURAS E SIGLAS ARFF CTG CTTMAR FIES IES IFSul INEP KDD LDB MEC OLAP PROUNI SIES SISU SQL TTC TTC I TTC II UFPE UFRGS UFRJ UNIVALI Attribute-Relation File Format Centro de Tecnologia e Geociência Centro de Ciências Tecnológicas da Terra e do Mar Fundo de Financiamento Estudantil Instituições de Ensino Superior Instituto Federal Sul-Rio-Grandense Instituto Nacional de Estudo e Pesquisas Educacionais Knowledge Discovery in Databases Lei de Diretrizes e Bases da Educação Ministério da Educação On-line Analytical Processing Programa Universidade para Todos Sociedade Itajaiense de Ensino Superior Sistema de Seleção Unificada Structured Query Language Trabalho Técnico-científico de Conclusão de Curso Trabalho Técnico-científico de Conclusão de Curso – Parte 1 Trabalho Técnico-científico de Conclusão de Curso – Parte 2 Universidade Federal de Pernambuco Universidade Federal do Rio Grande do Sul Universidade Federal do Rio de Janeiro Universidade do Vale do Itajaí SUMÁRIO 1 INTRODUÇÃO .......................................................................................................................... 12 1.1 PROBLEMATIZAÇÃO ............................................................................................................. 15 1.1.1 FORMULAÇÃO DO PROBLEMA .................................................................................. 15 1.1.2 SOLUÇÃO PROPOSTA .................................................................................................... 18 1.2 OBJETIVOS................................................................................................................................ 18 1.2.1 OBJETIVO GERAL ........................................................................................................... 18 1.2.2 OBJETIVOS ESPECÍFICOS ............................................................................................. 18 1.3 METODOLOGIA ....................................................................................................................... 19 1.4 ESTRUTURA DO TRABALHO .............................................................................................. 21 2 FUNDAMENTAÇÃO TEÓRICA ............................................................................................. 23 2.1 DADOS........................................................................................................................................ 23 2.2 INFORMAÇÃO .......................................................................................................................... 24 2.3 CONHECIMENTO ..................................................................................................................... 24 2.4 DESCOBERTA DE CONHECIMENTO .................................................................................. 25 2.5 KDD - KNOWLEDGE DISCOVERY IN DATABASES ........................................................ 27 2.5.1 PRÉ – PROCESSAMENTO .............................................................................................. 28 2.5.1.1 SELEÇÃO ............................................................................................................................ 29 2.5.1.2 LIMPEZA ............................................................................................................................ 29 2.5.1.3 CODIFICAÇÃO .................................................................................................................. 30 2.5.1.4 ENRIQUECIMENTO ........................................................................................................ 30 2.5.1.5 NORMALIZAÇÃO ............................................................................................................. 30 2.5.2 MINERAÇÃO DE DADOS ............................................................................................... 31 2.5.3 PÓS-PROCESSAMENTO................................................................................................. 32 2.6 TAREFAS DE KDD ................................................................................................................... 32 2.6.1 ASSOCIAÇÃO .................................................................................................................... 33 2.6.2 CLASSIFICAÇÃO .............................................................................................................. 33 2.6.3 CLUSTERIZAÇÃO ............................................................................................................ 35 2.6.4 PREVISÃO ......................................................................................................................... 36 2.6.5 ESTIMATIVA .................................................................................................................... 36 2.7 MÉTODOS DE MINERAÇÃO DE DADOS............................................................................ 36 2.7.1 MÉTODOS BASEADOS EM REDES NEURAIS ........................................................... 37 2.7.2 MÉTODOS BASEADOS EM ALGORITMOS GENÉTICOS ........................................ 38 2.7.3 MÉTODOS BASEADOS EM INSTÂNCIAS .................................................................. 38 2.7.4 MÉTODOS ESTATÍSTICOS............................................................................................ 39 2.7.5 MÉTODOS ESPECÍFICOS ............................................................................................... 39 2.7.6 MÉTODOS BASEADOS EM INDUÇÃO DE ÁRVORES DE DECISÃO .................... 40 2.8 SISTEMAS DE APOIO A DECISÃÇÃO DE MINERAÇÃO DE DADOS SOBRE BASES DE DADOS EDUCACIONAIS – TRABALHOS RELACIONADOS.................................................................. 46 2.10.1 PREVISÃO DE ESTUDANTES COM RISCO DE EVASÃO UTILIZANDO TÉCNICAS DE MINERAÇÃO DE DADOS. ................................................................................... 46 2.10.2 TÉCNICAS DE APRENDIZADO DE MÁQUINA APLICADAS NA PREVISÃO DE EVASÃO ACADÊMICA .................................................................................................................... 47 2.10.3 APLICAÇÃO DE TÉCNICAS DE MINERAÇÃO DE DADOS NA PREVISÃO DE PROPENSÃO À EVASÃO ESCOLAR............................................................................................. 48 2.10.4 METODOLOGIA DE ANÁLISE E TRATAMENTO DA EVASÃO E RETENÇÃO EM CURSOS DE GRADUAÇÃO DE INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR ....... 49 3 DESENVOLVIMENTO ............................................................................................................. 51 3.1 BASE DE DADOS ...................................................................................................................... 51 3.2 O PROCESSO KDD ................................................................................................................... 53 3.2.1 PRÉ-PROCESSAMENTO ................................................................................................ 54 3.2.2 MINERAÇÃO DE DADOS ............................................................................................... 55 3.2.2.1 CLUSTERIZAÇÃO .............................................................................................................. 66 3.2.2.2 ASSOCIAÇÃO ...................................................................................................................... 75 3.2.2.3 CLASSIFICAÇÃO ................................................................................................................ 84 3.2.3 ANÁLISE DOS RESULTADOS ....................................................................................... 91 4 CONCLUSÕES ........................................................................................................................... 99 REFERÊNCIAS ................................................................................................................................ 104 APÊNDICE A – MODELAGEM BANCO DE DADOS SISTEMA ACADÊMICO UNIVALI .. 109 APÊNDICE B – CLASSIFICAÇÃO DAS DISCIPLINAS POR ÁREA ....................................... 110 APÊNDICE C – DICIONÁRIO DE DADOS DOS REFERENTE AOS ATRIBUTOS CAPTADOS A PARTIR DAS TELAS DO SISTEMA ACADÊMICO DA UNIVALI – MODELAGEM DATA MART........................................................................................................ 114 APÊNDICE D – LISTA DOS ATRIBUTOS EXCLUÍDOS EM CADA TABELA E A JUSTIFICATIVA PARA EXCLUSÃO ........................................................................................... 120 APÊNDICE E – SCRIPTS PARA SELEÇÃO DOS DADOS ....................................................... 130 APÊNDICE F - PROBLEMAS COM DADOS (AJUSTES, CORREÇÕES)............................... 138 1 INTRODUÇÃO O ensino superior no Brasil, nos últimos anos, vem crescendo tanto em número de alunos quanto em Instituições de Ensino Superior (IES). A demanda pelo conhecimento e a busca por melhores oportunidades no mercado de trabalho, vem alavancando de forma exponencial este crescimento. Dados do Censo da Educação Superior, apontam um crescimento de aproximadamente 168% no número de IES desde o início da década de 1980 até 2011. Neste mesmo período o número de alunos que era de 1.377.286 nos anos de 1980, chega na faixa de 6.739.689 em 2011, portanto um crescimento de aproximadamente 389%. O Censo da Educação Superior ainda aponta uma crescimento substancial do número de cursos oferecidos, em 1984 o total de cursos era de 3.806, já em 2011 saltou para 30.420, um crescimento de 699% aproximadamente (INEP, 1980, 2011) Acompanhando este crescimento do ensino superior, um problema histórico e não exclusivo do Brasil, aquece os debates entre educadores e gestores do ensino superior. A evasão escolar que conforme Silva Filho et al (2007) explica, é um dos problemas que afligem as instituições de ensino em geral e no ensino superior afeta o resultado dos sistemas educacionais em âmbito internacional. Evasão significa fuga, ação de evadir-se, escapar. Nesta linha evasão escolar é o ato de evadir-se da escola, abandonar ou sair da instituição de ensino. Moraes e Theóphilo (2006), definem evasão como o desligamento da instituição de ensino, sem que esta tenha controle do mesmo. Segundo Ribeiro (2005), a evasão é o “desligamento do curso superior em função de abandono (não matrícula), transferência ou reescolha, trancamento e/ou exclusão por norma institucional; evasão da instituição na qual está matriculado; evasão do sistema: abandono definitivo ou temporário do ensino superior”. O combate a este problema tem gerado inúmeros debates e algumas iniciativas tomadas na tentativa do entendimento dos fatores que geram este distúrbio demandam da área de sistemas de informação. Os sistemas de informação são para as instituições a memória, o histórico, aonde são guardados os dados relacionados a todo relacionamento com seus clientes e fornecedores, alunos, professores ou qualquer outro. Para Oliveira (2002), praticamente todas as empresas utilizam sistemas informatizados para realizar seus processos. 13 A utilização destes sistemas de informação, com o passar do tempo gera uma grande quantidade de dados, dados estes que no formato e organização que geralmente se encontram em suas bases de dados só poderão ser utilizados nas atividades transacionais, diárias de relacionamento com os clientes. Pinheiro (2008), explica que devido a capacidade armazenamento de dados e a automação dos processos, o volume de informações disponível está cada vez maior, porém estes dados operacionais contribuem pouco para a tomada de decisão. Conforme Rezende e Abreu (2000), dados é um “elemento da informação, um conjunto de letras, números ou dígitos”. Em uma IES, dados sobre os seus alunos são gerados diariamente, quando um aluno novo faz sua matricula seu endereço, filiação, dados financeiros, data de nascimento e outros são solicitados para fins de cadastro. O setor de bolsas de uma IES, por sua vez, também retém uma grande quantidade de dados sobre os alunos. Além das fontes de dados que são geradas no início da vida acadêmica, toda a interação do aluno com o meio acadêmico é registrada e serve como histórico do aluno, notas, presença, disciplinas cursadas, reprovações e uma gama de outras fontes de dados que podem ser armazenadas. As IES, mantém dados sobre seu alunos, dados estes gerados pelo relacionamento entre IES e aluno. Estes dados armazenados em bases de dados de sistemas de informação podem ser utilizados, oferecendo-lhes o devido tratamento, na busca pelos fatores motivadores da evasão escolar no ensino superior e na tentativa de minimizar o problema. A informação é um bem muito valioso para as empresas e organizações em geral, ela é a base do processo de tomada de decisão. Com base na informação os gestores podem definir estratégias, traçar metas ou corrigir problemas em suas organizações. Conforme Moresi (2000), pode se dizer que a informação é considerada um capital precioso, assim como os recursos de produção, materiais e financeiros. Informação é uma coleção de dados organizados de forma que façam sentido, que denotem significado e sejam úteis para o processo de tomada de decisão (MIRANDA, 1999). Para que um dado bruto torne-se uma informação é necessário que o mesmo sofra um tratamento, que seja organizado a fim de que faça sentido e torne-se útil. Pinheiro (2008), salienta que é fundamental a transformação dos dados em sua forma e conteúdo. Já Davenport (2003) define a informação como um termo que engloba dados, informação e conhecimento, abrangendo também a conexão entre os dados e o conhecimento obtido. 14 Mesmo com a organização dos dados gerando informação para suporte à tomadas de decisões, muitas vezes não satisfazem as condições necessárias para que uma empresa tenha diferencial competitivo. A partir deste ponto é necessário o uso de mecanismos especializados para que a partir destes dados organizados sejam abstraídos conhecimentos. Um conceito que pode ser usado para conhecimento é o descrito por Moresi (2000) que define o conhecimento como o processo de análise e avaliação das informações, atendo-se a confiabilidade, relevância e importância. O processo denominado Descoberta de Conhecimento em Bancos de Dados, ou KDD (do inglês, “Knowledge Discovery in Databases”), é composto por uma série de etapas e é responsável pela descoberta de conhecimentos em bases de dados. A principal etapa deste processo é a Mineração de Dados. Focada na aplicação de técnicas Estatísticas e de Inteligência Artificial para análise de interativa de dados e visando à identificação de padrões de comportamento, tendências ou predições, a Mineração de Dados muitas vezes é confundida com o próprio KDD (PINHEIRO, 2008). Oliveira (2002) escreve que Mineração de Dados se trata de descoberta de informações válidas, não óbvias de grandes quantidades de dados e de uma forma eficiente. Apesar de diversos trabalhos voltados para a descoberta de possíveis motivações ou padrões que possam levar a evasão dos alunos das IES tenham sido realizados, este tema ainda possibilita uma variedade de outros estudos, principalmente utilizando o grande volume de dados que as IES mantêm referente aos seus alunos e empregando a tecnologia da informação disponível. Para Silva Filho et al. (2007), enquanto no setor privado de 2% a 6% das receitas das IES são despendidos com marketing para atrair novos estudantes, nada parecido é investido para manter os estudantes já matriculados. Os autores completam afirmando que são raríssimas as IES brasileiras que possuem um programa institucional profissionalizado de combate à evasão, com planejamento de ações, acompanhamento de resultados e coleta de experiências bem-sucedidas. Como política institucional no Planejamento Estratégico 2010-2015 a UNIVALI instituiu estratégias para a Dimensão Capital Social, no qual se inserem ações dos cursos de graduação para a redução do percentual de evasão de alunos do primeiro período, bem como do curso (UNIVALI, 2012). 15 A UNIVALI teve sua história iniciada no ano de 1964 com registrado em cartório o Estatuto da SIES (Sociedade Itajaiense de Ensino Superior), oficializando a criação das faculdades pioneiras: a de Ciências Jurídicas e Sociais do Vale do Itajaí e a de Filosofia, Ciências e Letras do Vale do Itajaí. Em 16 de fevereiro de 1989 a UNIVALI é reconhecida como universidade pelo MEC (Ministério da Educação), mesmo ano da autorização para criação do curso de Ciência da Computação (UNIVALI, 2013). Em 16 de novembro de 1989, foi criado o curso de Ciência da Computação a fim de suprir a demanda por profissionais qualificados e recursos de informática. Em março de 1990 foi iniciada a implantação no campus de Itajaí (SC) e posteriormente na região da Grande Florianópolis, no Campus de Biguaçu, do 1º semestre de 1993 ao 1º semestre de 1999, e no Campus São José, a partir do 2º semestre de 1999. Recentemente, a UNIVALI também passou a oferecer o curso na unidade Ilha, em Florianópolis (SC) e na unidade Kobasol, em São José (SC) (ibidem). O curso de Ciência da Computação na UNIVALI foi reconhecido pelo Ministério da Educação e Desporto em 1994 e nestes mais de 20 anos de existência sempre buscou acompanhar a evolução constante da área de Informática e da educação superior na região e no Brasil. Contudo, apesar dos esforços para atrair e manter alunos a evasão tem sido um desafio constante (ibidem). O que pretendeu o pesquisador com a presente pesquisa foi aplicar técnicas de Mineração de Dados sobre a base de dados dos alunos do curso de Ciência da Computação da UNIVALI – Universidade do Vale do Itajaí, Campus Itajaí - SC, seguindo a metodologia do processo KDD a fim de identificar fatores que possam influenciar no processo de evasão escolar do curso e a aplicação dos conhecimentos adquiridos durante o curso de Ciência da Computação nesta IES, nas áreas de Banco de Dados, Estatística e Inteligência Artificial. 1.1 Problematização 1.1.1 Formulação do Problema A LDB (Lei de Diretrizes e Bases da Educação) em seu Art. 1º afirma que “a educação abrange os processos formativos que se desenvolvem na vida familiar, na convivência humana, no trabalho, nas instituições de ensino e pesquisa, nos movimentos sociais e organizações da sociedade civil e nas manifestações culturais” (BRASIL, 1996). Portanto, a educação é mais do que apenas aprender conteúdo, seguir ementa de disciplina, a educação é o conjunto da vivência do ser humano, tudo que ele absorver durante a vida. 16 As grandes mudanças pelas quais a sociedade está passando, geram incertezas. As novas tecnologias e a quebra de paradigmas, tornam a sociedade cada vez mais complexa e a educação tem um papel fundamental neste processo de mudança, em todos os seus níveis, principalmente na educação superior. Para Peleias et al. (2011), “a função das IES não é apenas capacitar os acadêmicos para novos postos de trabalho, mas também para exercerem com consciência a cidadania, e para tal, a autonomia, o senso crítico e o desenvolvimento intelectual são pontos chaves no processo de inserção social e profissional”. Acompanhando esta nova realidade do Brasil, o Governo Federal busca incentivar, por meio de bolsas de estudos (PROUNI - Programa Universidade para Todos, FIES - Fundo de Financiamento Estudantil) e vagas para alunos carentes em Instituições Públicas de Ensino Superior (SISU - Sistema de Seleção Unificada), o ingresso e a continuidade dos alunos no ensino superior. Além destas iniciativas outras podem ser enumeradas, como o Artigo 170 ou também bolsas de estudos de empresas privadas, que tem a finalidade de incentivar seus colaboradores e ou alunos que se destacam a cursar o ensino superior. A principal finalidade do PROUNI é a concessão de bolsas de estudos integrais e parciais em cursos de graduação e sequenciais de formação especifica, em instituições privadas de educação superior (PROUNI, 2013). Apesar deste tipo de iniciativa ter um impacto positivo na questão da evasão dos alunos nas IES elas não garantem a permanência dos mesmos no ensino superior e isso se comprova a medida que verifica-se um aumento nos índices de abandono, pois diversos fatores, podem influenciar na continuidade ou não dos alunos nas IES. A evasão de alunos no ensino superior não é um problema apenas para a UNIVALI, mas está presente em todas as Instituições de Ensino Superior - IES, tanto públicas quanto privadas. Segundo Reinert & Gonçalves (2010), a evasão escolar compreende, em linhas gerais, o abandono da escola durante o período letivo, ou seja, o aluno se matricula, inicia suas atividades escolares, porém, em seguida deixa de frequentar a escola, por uma ou um conjunto de razões. Souza (2008), afirma que “evasão é o desligamento do aluno, por sua própria decisão, do curso e/ou instituição de ensino a qual está matriculado”. Com o foco na captação de alunos por processos convencionais, tais como o Vestibular, a universidade, de forma paradoxal, convive com uma evasão média da ordem de 40% ao final do ciclo de um curso de graduação, comprometendo a sua produtividade. (NUNES, 2008). Tomando como base o Censo da Educação 2011, verifica-se que os cursos de Ciência da 17 Computação, em geral, atingem índices maiores que os índices gerais dos demais cursos. Na Tabela 1 pode-se verificar que somente 52,7% das vagas ofertadas são preenchidas, isso considerando a totalidade dos casos (Instituições de Ensino Superior Pública e Privada). Se forem isolados os dados e calculados os índices somente das IES Privadas, a situação se agrava ainda mais, com apenas 47,3% das vagas ofertadas sendo preenchidas. Nos cursos de Ciência da Computação este índice é de apenas 41% para IES Privadas, o que ocasiona uma grande ociosidade para as instituições. Tabela 1 - Indicadores do Censo da Educação Superior 2011 Dados Gerais Indicadores Instituições IES Públicas Ciência da Computação IES Privadas IES Públicas IES Privadas 284 2.081 111 384 9.833 20.587 189 569 1.773.315 4.996.374 34.168 96.188 Concluintes 218.365 798.348 2.786 12.446 Vagas oferecidas 531.489 3.921.942 12.005 80.239 5.257.898 4.705.865 115.593 88.422 490.680 1.856.015 10.259 32.985 Cursos ofertados Matrículas Candidatos inscritos Ingressos Fonte: INEP, 2012. Comparando as Tabelas 1 e 2 constata-se que a evasão escolar nos cursos de Ciência da Computação em IES Privadas têm índices de evasão temporária (Matrícula Trancada) que representa 20% dos alunos matriculados, enquanto que a evasão definitiva (Alunos Desvinculados; Transferência para outros Cursos da IES; Falecidos) representa 29%. Tabela 2 – Censo da Educação Superior 2011 – Ciência da Computação: Evasão Indicadores Públicas Privadas Matrícula Trancada 2.317 19.302 Alunos Desvinculados 5.334 25.081 282 2.695 6 17 Alunos Trans. Outros Cursos da IES Alunos Falecidos Fonte: INEP, 2012. A evasão escolar atinge tanto IES Públicas quanto Privadas, e é motivador de inúmeras discussões entre gestores e educadores, mas em geral apenas algumas IES mantêm programas voltados à redução deste índice. Segundo Silva Filho et al, (2007), as perdas financeiras com a evasão no ensino superior em 2009 chegaram a cerca de R$ 9 bilhões. Além das perdas financeiras a ociosidade de instalações e educadores é outra consequência da evasão. Os cursos das áreas de Ciências, Matemática, Computação, apresentaram índices médios de evasão entre os anos de 2001 e 2005 de 28%, sendo que os cursos de Ciência da Computação atingiram 32%. 18 A UNIVALI, através de seu Sistema Acadêmico, mantém dados relacionados aos seus alunos dos cursos de graduação, como Nome, Endereço, Data de Nascimento, Tipo de Ingresso, Situação do Aluno, Bolsa de Estudos, Disciplinas Cursadas, Notas, Frequências, entre outros dados. No período letivo compreendido entre 2010/1 e 2013/1, o Curso de Ciência da Computação da UNIVALI, campus Itajaí – SC, registrou em média 273 alunos matriculados por semestre, sendo que entre estes alunos em média 97 estavam entre o 1º e o 3º períodos do curso, a estes semestres iniciais estão associados os maiores índices de abandono do curso. O Sistema Acadêmico da UNIVALI, gera relatórios operacionais e gerenciais referente ao cotidiano dos procedimentos acadêmicos e administrativos, porém não possui ferramentas de análise de dados capazes de gerar o conhecimento necessário para identificação de possíveis fatores que influenciam a evasão na IES sobre a base de dados disponível. Neste contexto a aplicação do processo KDD sobre a base de dados da UNIVALI pode revelar conhecimentos referentes a evasão escolar em IES. 1.1.2 Solução Proposta A solução proposta teve o objetivo de aplicar Técnicas de Mineração de Dados sobre a base de dados da UNIVALI, referente aos alunos matriculados no Curso de Ciência da Computação, Campus Itajaí/SC, no período letivo compreendido entre 2010/1 e 2013/1 e que cursavam entre o 1º e 3º períodos, a fim de descobrir padrões válidos, novos, potencialmente úteis que possam influenciar a evasão escolar do curso e para que de posse deste conhecimento os gestores tenham subsídios no processo de tomada de decisão. 1.2 Objetivos 1.2.1 Objetivo Geral Este trabalho teve como objetivo geral a aplicação de algoritmos de mineração de dados para identificação de possíveis fatores que influenciam a evasão dos alunos curso Ciência da Computação da UNIVALI, do campus de Itajaí/SC, utilizando-se dos dados destes alunos contidos na base de dados desta instituição. 1.2.2 Objetivos Específicos Pesquisar sobre indicadores de Evasão Escolar, conceito e técnicas do processo KDD e Mineração de Dados; 19 Revisar a literatura sobre sistemas de apoio a decisão com Data Warehouse/Data Pesquisar na literatura referências de estudos sobre Evasão Escolar em Mart; Instituições de Ensino Superior a fim de identificar indicadores de análise, ações ou experiências positivas que atualmente são realizadas no combate à evasão; Identificar as variáveis e as fontes de dados de alunos do curso de Ciência da Computação que tenham possível relação com a Evasão Escolar; Implementar o Data Mart evasão de acordo com as etapas do processo de descoberta do conhecimento; Realizar o Pré-Processamento e a carga do Data Mart; Definir as técnicas de mineração de dados de acordo com o problema de pesquisa e aplicar os algoritmos utilizando a ferramenta WEKA; Analisar os resultados e validar a solução desenvolvida com os especialistas da área de ensino da UNIVALI. 1.3 Metodologia O desenvolvimento deste trabalho se deu inicialmente por meio de uma revisão na literatura sobre as áreas de abrangência da pesquisa. Inteligência Artificial, Estatística e Banco de Dados formaram a base da pesquisa bibliográfica. Inicialmente, foi feita “a busca de informações bibliográficas, seleção de documentos que se relacionam com o problema de pesquisa (livros, verbetes de enciclopédia, artigos de revistas, trabalhos de congressos, teses etc.) [...]” (MACEDO, 1994). Na etapa inicial foram vistos índices de Evasão Escolar em IES, Descoberta de Conhecimento em Bases de Dados estudando o processo KDD e suas fases, a utilização da Mineração de Dados nesta descoberta de conhecimento com suas técnicas e tarefas de mineração, foram também aprofundados os conhecimentos em banco de dados com o estudo sobre Data Warehouse e Data Mart, estes estudos preliminares tiveram por finalidade dar o embasamento necessário para o restante do trabalho a ser realizado. 20 Ainda na etapa do TTC I (Trabalho Técnico-científico de Conclusão de Curso – Parte 1), foram analisadas e identificadas as variáveis dos alunos do curso de Ciência da Computação, que posteriormente foram substituídas pelos atributos extraídos diretamente da base de dados do sistema acadêmico da UNIVALI e acabaram compondo a base de dados que foi utilizada no processo KDD, tendo em vista as possíveis relações com a evasão escolar do curso. Com base nestes atributos foi modelado o Data Mart que foi utilizado para armazenar os dados que foram utilizados nas fases seguintes do KDD. Foram também pesquisados trabalhos similares, soluções desenvolvidas por outros pesquisadores ou instituições a fim de identificar ferramentas, técnicas ou quaisquer informações que de algum modo contribuíssem para o trabalho desenvolvido. O início do TTC II (Trabalho Técnico-científico de Conclusão de Curso – Parte 2) se deu com a aplicação dos conhecimentos adquiridos na fase de pesquisa e fundamentação. Foi trabalhado o processo KDD e as etapas de seleção dos dados, preparação, transformação, mineração de dados, a análise e a avaliação dos resultados se deram nesta sequência. Em dado momento houve a necessidade, devido às características do processo KDD, de repetições deste ciclo de etapas buscando a geração de modelos de conhecimento melhores. Foi feita uma análise na base de dados, a fim de identificar a melhor forma de migração dos dados. Feita está migração os dados passaram por um tratamento, uma preparação, que permitiu que valores faltantes, dados incorretos, não utilizáveis fossem corrigidos, os valores faltantes preenchidos ou eliminados, dando forma adequada a base de dados para as etapas posteriores. Na transformação os dados foram normalizados, agrupados e convertidos em formatos que pudessem ser entendidos pelo WEKA e também obtendo um melhor entendimento e visualização dos mesmos. Na sequência o Data Mart foi implementado onde os dados foram armazenados e posteriormente foram aplicados os algoritmos de Mineração de Dados através da ferramenta WEKA. A fase Mineração de Dados, ou aplicação de algoritmos de mineração, que ocorreu com a utilização da ferramenta WEKA, se vale de tarefas de associação, classificação e clusterização para descoberta de conhecimento e assim gerou um modelo de conhecimento que na última fase do processo KDD foi analisado, interpretado e validado. 21 Na última etapa foram feitas as análises, interpretações do modelo de conhecimento obtido e em alguns momentos, com resultado desta etapa não suficientemente satisfatório, o ciclo do KDD foi repetido buscando de um modelo de dados melhor gerando conhecimento útil. 1.4 Estrutura do Trabalho A estrutura deste TTC (Trabalho Técnico-científico de Conclusão de Curso) está dividida em quatro capítulos: Introdução, Fundamentação Teórica, desenvolvimento e conclusões. Na Introdução é apresentada uma breve descrição dos temas abordados, ambientando o leitor ao tema que será desenvolvido, ainda neste capítulo e formulada a questão problema e apresentada a solução proposta, na sequência são apresentados objetivos geral e específicos do trabalho e finalizando a metodologia de desenvolvimento e a estrutura em que o trabalho se apresenta. No segundo capítulo Fundamentação Teórica, são abordados os conceitos e técnicas que dão embasamento teórico ao projeto, sendo abordados e conceituados temas como: Dados, Informação, Conhecimento, Descoberta de Conhecimento e Descoberta de Conhecimento em Bases de Dados. O processo KDD e suas etapas está mais detalhado, abordando conceitos de Seleção, Limpeza, Codificação, Enriquecimento, Normalização de dados, Data Warehouse e Data Marts, Mineração de Dados (conceitos, etapas e tarefas), a Ferramenta WEKA e PósProcessamento. Para finalizar este capítulo são apresentados trabalhos relacionados ao tema, trabalhos de outros pesquisadores e ou instituições que abordam os temas de evasão escolar em IES e Mineração de Dados. O capitulo três trata da aplicação do processo KDD desde a seleção do dados dos alunos do curso de Ciência da Computação do campus Itajaí – SC, diretamente do sistema acadêmico da UNIVALI, retratando ainda como estes dados foram organizados, tratados e migrados para o Data Mart a aplicação dos algoritmos de mineração de dados e os resultados extraídos através da ferramenta e das técnicas utilizadas. No último capítulo são apresentadas as conclusões, um apanhado do trabalho realizado, e uma avaliação da metodologia empregada, serão descritos os problemas enfrentados e as 22 soluções encontradas, bem como uma análise dos objetivos traçados e alcançados com relação aos resultados obtidos e também a possibilidade de trabalhos futuros será abordada. 2 FUNDAMENTAÇÃO TEÓRICA A busca pelo conhecimento, a análise de padrões, a formulação de hipóteses e testes para validá-las, foram algumas das maneiras que a humanidade encontrou para aprender e evoluir. Com o surgimento da computação o volume de dados gerado pelos sistemas de informação tornou inviável a análise pelo homem sendo necessário o emprego de técnicas e recursos computacionais para esta tarefa. A mineração de dados faz parte de um processo maior denominado descoberta de conhecimento em bases de dados, este processo pode ser dividido em 3(três) grandes grupos: o Pré-processamento, a Mineração de Dados e o Pós-processamento. Tendo em vista um bom entendimento do processo KDD, serão explanados a seguir os conceitos de dados, informação e conhecimento e em seguida será abordado o tema descoberta de conhecimento e suas particularidades. 2.1 Dados Atendo-se a área de computação, a definição de dados pode ser dada da seguinte forma: “[...] elemento da informação, um conjunto de letras, números ou dígitos [...]” (REZENDE; ABREU, 2000). Expandindo a definição o mesmo autor complementa que dados, se tomados de forma isolada, não transmite nenhum conhecimento, não contém um significado claro. Para Stair; Reynolds (2006), mesmo não contendo significado claro de forma isolada, se trabalhados os dados em seu conjunto podem representar fatos, e que se organizados e ordenados de forma correta, podem gerar informações. Os dados podem ser gerados por sistemas transacionais e a camada de dados é o resultado da operação destes sistemas, responsáveis pela viabilidade das operações das empresas (PINHEIRO, 2008). Segundo Batista (2006), dados são “[...] elementos que expressam um fato isolado gerado por uma atividade que pode ser controlada, ou seja, tudo que é gerado no dia-a-dia da empresa é um dado”. Sendo assim, pode se dizer que dados são constituídos de fatos puros na sua forma primária, descrição básica das coisas. Isoladamente não apresentam significado e são captados e armazenados pelas instituições e podem ser tratados e organizados para gerar informação. 24 2.2 Informação Inúmeras áreas do conhecimento conceituam o termo informação, embora algumas delas não tenham relação direta com a informática, suas ideias podem ser utilizadas na tentativa chegar a um entendimento sobre o termo. Conforme estudos de Drucker (1999), informação é compreendida como dados organizados dotados de significados. Para que dados torne-se informações os mesmos devem passar por um processo de agrupamento e organização. Então: A informação é todo o dado trabalhado, tratado e com um sentido natural e lógico para quem a usa. O dado é entendido como um elemento da informação, um conjunto de letras, números ou dígitos, que tomado isoladamente não transmite nenhum conhecimento, ou seja, não contém um significado claro. O tratamento e a estruturação de dados gera informações (REZENDE, 1999). Miranda (1999), estende o conceito de informação dizendo que são dados organizados de modo significativo e sendo subsidio útil ao processo de tomada de decisão. Na mesma linha que Miranda (1999), o autor Pinheiro (2008) reforça que este conjunto de dados é capaz de consolidar e sincronizar as informações. O mesmo continua destacando que este conjunto de dados permite uma visão corporativa e também analítica dos cenários de mercado. Davenport (2003), sintetiza o conceito definindo a informação como um termo que engloba dados, informação e conhecimento, abrangendo também a conexão entre os dados e o conhecimento obtido. Como visto, informação pode ser dita como o resultante do agrupamento organizado, trabalhado e tratado, dos dados armazenados por instituições, fornecendo algum significado ou dando subsidio a tomada de decisões ou também sendo a conexão entre dados e conhecimento obtido. 2.3 Conhecimento Muito antes de se estudar sobre o significado de conhecimento ele foi necessário e fundamental para subsistência do ser humano (OLIVA, 2011). O autor continua dizendo que o saber filosófico veio depois e mais tarde ainda veio a ciência, antes de tudo a necessidade de sobreviver motivou o desejo de conhecer. 25 Buscando um conceito para conhecimento pode-se apresentar a ideia de que conhecimento é o “conjunto de ferramentas conceituais e categorias usadas pelos seres humanos para criar, colecionar armazenar e compartilhar a informação” (LAUDON E LAUDON, 1999). Já para Nonaka e Takeuchi (1997), o conhecimento está ligado a crenças e compromisso, sendo relacionado à ação e ao significado, específico ao contexto. O processo de análise e avaliação da informação, atendo-se a confiabilidade, relevância e importância (MORESI, 2000). Alguns autores classificam o conhecimento por tipo, Miranda (1999) conceitua 3 (três) tipos de conhecimento, conforme segue: O conhecimento explícito: “é o conjunto de informações já elicitadas em algum suporte (livros, documento etc.) e que caracteriza o saber disponível sobre tema específico” (MIRANDA 1999); O conhecimento tácito: “é o acúmulo de saber prático sobre um determinado assunto, que agrega convicções, crenças, sentimentos, emoções e outros fatores ligados à experiência e à personalidade de quem o detém” (MIRANDA 1999); O conhecimento estratégico: “é a combinação de conhecimento explícito e tácito formado a partir das informações estratégicas e de informações de acompanhamento, agregando-se o conhecimento de especialistas” (MIRANDA 1999). Neste contexto, a formação do conhecimento, para Rodriguez (2001), “começa por eventos que ao ocorrer, resultam em dados. Estes dados ao serem tratados, manipulados e interpretados, geram informações. As informações testadas, validadas e codificadas, transformam-se em conhecimento”. Pode-se verificar então que os conceitos de dados, informações e conhecimento se complementam, e que cada um tem seu papel dentro de um processo maior denominado descoberta de conhecimento. 2.4 Descoberta de Conhecimento A sequência de conceitos abordados anteriormente traça o caminho que um dado bruto, em sua forma original faz para tornar-se informação e posteriormente esta informação gerar conhecimento. 26 Devido aos avanços na área de informática, tanto hardware como software, a relação custo x desempenho, permitiu um aumento substancial da capacidade de armazenamento de dados. As empresas e/ou entidades em geral passaram a acumular grandes quantidades de dados oriundos de suas relações com seus clientes, dados estes utilizados em suas atividades cotidianas (emissão de notas, controle de estoque, cadastro de clientes...). Para Singh (2001), os dados estão por toda parte. Pesquisas indicam que os dados de uma organização dobram a cada cinco anos e para serem competitivas as organizações precisam aprender a administrar esta avalanche de informação. O diferencial competitivo é fundamental para a permanecia no mercado atual. As empresas ou entidades necessitam analisar periodicamente os dados gerados em seus bancos de dados em busca de informações novas e úteis a fim de aperfeiçoar suas relações com os clientes, atraindo novos clientes, tornando-os lucrativos, mantendo os clientes já conquistados e melhorando a lucratividade sobre eles e reconquistando aqueles que deixaram de ser. Oliveira (2002), é enfático ao ressaltar que em uma esfera altamente competitiva, as informações assumem um papel fundamental para o sucesso e que são necessários critérios para seleção e organização dos dados que interessam para manter as empresas competitivas. Contudo, devido a quantidade cada vez maior de dados, a análise manual tornou-se impraticável e o uso de técnicas auxiliadas por computador se tornaram fundamentais para extração de conhecimento nestas bases de dados (FERRO; LEE, 2001). Sistemas de apoio a decisão são utilizados para auxiliar e agilizar o processo de tomada de decisão das empresas. Buscando obter ainda mais informações relevantes, as organizações utilizam os conceitos da Mineração de Dados para extração de conhecimento das grandes massas de dados provenientes de suas operações diárias. Para Singh (2001), Mineração de Dados é o processo de extrair informações desconhecidas e significativas de grandes volumes de dados para utilização na tomada de decisão do negócio. Em consonância com Singh (2001), Oliveira (2002) escreve que Mineração de Dados se trata de descoberta de informações válidas, não óbvias de grandes quantidades de dados e de uma forma eficiente. Embora a Mineração de dados seja importante para descoberta de conhecimento ela é uma parte de um conjunto maior de técnicas e procedimentos para conversão de dados em informações, processo este denominado KDD. 27 Conforme descrito por Tan, Steinbach e Kumar (2009), a mineração de dados é uma parte integral do KDD, que é o processo que engloba a transformação de dados brutos em informações úteis e que consiste de uma série de outros passos. Na mesma linha Oliveira (2002), contempla que a mineração de dados é considerada a principal fase do processo KDD, mas que é responsável, exclusivamente, pelo algoritmo minerador, que busca extrair o conhecimento implícito e potencialmente útil conforme a tarefa especificada. 2.5 KDD - Knowledge Discovery in Databases Segundo Goldschmidt e Passos (2005), o termo KDD - Knowledge Discovery in Databases foi formalizado em 1989, em referência ao amplo conceito de procurar conhecimento a partir de base de dados. Já para Braga (2005), o termo KDD [...] “designa o conjunto de processos, técnica e abordagens que propiciam o contexto no qual a mineração de dados terá lugar”. A Descoberta de Conhecimento em Bases de Dados reúne técnicas e algoritmos a fim de descobrir conhecimento em bases de dados. O processo inicia-se a partir de uma base de dados bruta, em seu formato original, percorrendo etapas predefinidas até chegar na análise dos resultados obtidos. Um dos conceitos mais utilizados é o de Fayyad et al (1996): “KDD é o processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis em dados”. Hair et al. (1998), escreve que o KDD trata da “extração de nova informação a partir de bases de dados por meio de uma variedade de processos de descoberta de conhecimento”. As etapas do KDD, de uma forma simples, podem ser resumidas em três grupos: préprocessamento; mineração de dados; pós-processamento. Goldschmidt e Passos (2005), explica que a etapa de pré-processamento compreende as funções relacionadas à captação, à organização e ao tratamento dos dados. A etapa de pré-processamento tem como objetivo a preparação dos dados para os algoritmos da etapa seguinte, a mineração de dados. Durante essa etapa é realizada a busca efetiva por conhecimentos úteis no contexto da aplicação de KDD. A etapa de pós-processamento abrange o tratamento do conhecimento obtido na mineração de dados. Segundo Fayyad et al. (1996), o processo KDD é composto de cinco etapas: seleção dos dados; pré-processamento e limpeza dos dados; transformação dos dados; Mineração de Dados 28 (Data Mining); e interpretação e avaliação dos resultados. Já Silva Filho (2009) define etapas distintas, a saber: seleção de dados, processamento e limpeza, transformação, mineração de dados e interpretação e avaliação. Como visto, tanto de Fayyad et al (1996), Goldschmidt e Passos (2005) e Silva Filho (2009) demonstram as etapas do processo KDD de maneira equivalente, divergindo apenas em algumas na nomenclaturas de fases. Na Figura 1, pode ser visto o processo KDD na visão Fayyad et al (1996). Figura 1 - Processo KDD Fonte: Fayyad et al. (1996) Para fins de estudo serão considerados os 3 (três) grupos citados por Goldschmidt e Passos (2005): Pré-Processamento, Mineração de Dados e Pós-Processamento e suas respectivas etapas. 2.5.1 Pré – Processamento As etapas de Pré-Processamento são de grande importância para o processo de Mineração de Dados, são elas que darão a base para a descoberta de conhecimento. “Antes de iniciar qualquer análise de dados ou projeto de data mining, os dados precisam ser coletados, caracterizados, limpos, transformados e particionados em uma forma apropriada para posterior processamento” (MYAT, 2007). Para Braga (2005), parte-se do princípio que os dados são a fonte predominante para obtenção de informação, sendo assim esta etapa constitui um dos pilares para a mineração de dados. A seguir, serão descritas algumas das fases do Pré-Processamento, visando ressaltar as mais utilizadas e comentadas por autores da área. 29 2.5.1.1 Seleção A etapa de seleção dos dados compreende a escolha dos dados que farão parte do processo de mineração de dados. Compreende a identificação de quais informações devem ser consideradas durante o processo KDD (GOLDSCHMIDT; PASSOS, 2005). A seleção está relacionada ao estudo e a relevância dos dados disponíveis na base de dados na busca de soluções para os problemas identificados, uma seleção criteriosa de dados é base para a descoberta de conhecimento (KAMPFF, 2009). Goldschmidt e Passos (2005), afirmam que geralmente os dados encontram-se em bases de dados transacionais, mas em casos que exista uma estrutura de Data Warehouse, deve-se verificar a possibilidade de utilização desta estrutura no processo KDD. 2.5.1.2 Limpeza A qualidade dos conhecimentos obtidos com o processo KDD está relacionada com a qualidade dos dados de entrada, ou seja, o tratamento dos dados visando a eliminação de ruídos, inconsistências e complemento de valores faltantes é fundamental para a geração de modelos de conhecimento confiáveis. Para Goldschmidt e Passos (2005), “a fase de limpeza envolve a verificação da consistência dos dados, a correção de possíveis erros e o preenchimento ou eliminação de valores desconhecidos e redundantes, além da eliminação de valores não pertencentes ao domínio”. As principais funções de limpeza de dados conforme Goldschmidt e Passos (2005) são: Limpeza de Valores Ausentes: compreende o processo de eliminação de registro com valores faltantes ou técnicas de preenchimento destes valores; Limpeza de Inconsistências: refere-se a identificação e eliminação de valores inconsistentes. Pode ocorrer em uma tupla ou em um conjunto de tuplas e as formas de tratamento são a Exclusão dos Casos ou a Correção dos Erros; Limpeza de Valores não Pertencentes ao Domínio: compreende a identificação e a eliminação de valores que não pertençam ao domínio dos atributos do problema. Pode ser considerado um caso particular de Limpeza de Inconsistências e tem as mesmas formas de tratamento. 30 2.5.1.3 Codificação É a etapa em que os dados são modificados para que fiquem na forma que os algoritmos de Mineração de Dados possam utiliza-los. “Codificação de dados é a operação de Pré-Processamento responsável pela forma que os dados serão representados durante o processo KDD” (GOLDSCHMIDT; PASSOS, 2005). “Os dados são codificados para que possam ficar numa forma que possam ser efetivamente usados como entrada dos algoritmos de Garimpagem de Dados” (BOENTE; OLIVEIRA; ROSA, 2007). O tipo de conhecimento a ser descoberto é fortemente influenciado pela maneira como a informação é codificada, para Goldschmidt e Passos (2005), deve-se levar em consideração que os dados devem atender às necessidades específicas dos algoritmos de Mineração de Dados. Exemplo disso é uma rede neural que aceita apenas dados que estejam em uma representação numérica. Assim sendo, caso a base de dados a ser processada apresente valores nominais (texto), estes devem ser codificados antes de serem submetidos à rede. O inverso também é verdadeiro, tendo em vista um algoritmo que aceita somente valores nominais e a base apresente valores numéricos faz-se necessária a codificação dos dados. 2.5.1.4 Enriquecimento “Consiste em conseguir mais informações que possam ser agregadas aos registros existentes, enriquecendo assim, os dados para que sejam capazes de fornecer mais informações para efetivação do processo de descoberta de conhecimento em bases de dados” (BOENTE; OLIVEIRA; ROSA, 2007). Para Goldschmidt e Passos (2005), é o processo de agregação de mais informações fornecendo elementos extras para o processo de descoberta de conhecimento. A aquisição destes dados ou atributos adicionais pode se dar através diversas técnicas, sendo as mais usuais a Pesquisa junto as Fontes Originais ou Consulta às Bases de Dados Externas (GOLDSCHMIDT; PASSOS, 2005). 2.5.1.5 Normalização O propósito da normalização é minimizar uso de unidades e dispersões distintas entre as variáveis. os problemas oriundos do 31 Segundo Goldschmidt e Passos (2005), consiste em ajustar a escala de valores dos atributos, de forma que os valores fiquem em pequenos intervalos. Se justifica devido a influência tendenciosa causada pela escala de valores de alguns atributos sobre os métodos de Mineração de Dados. A “Normalização de dados permite atribuir uma nova escala a um atributo de forma que os valores deste atributo possam cair na nova escala em um intervalo específico, tal como entre -1.0 a 1.0 ou de 0.0 a 1.0, etc.” (CÔRTES; PORCARO; LIFSCHITZ, 2002). Podem ser citados alguns métodos de normalização conforme Goldschmidt e Passos (2005) sugere: Normalização Linear; Normalização por Desvio Padrão; Normalização pela Soma dos Elementos; Normalização pelo Valor Máximo dos Elementos e Normalização por Escala Decimal. 2.5.2 Mineração de Dados A Mineração de dados é a principal etapa do processo KDD, devido a isto é comum alguns autores se referirem a Mineração de Dados como sinônimo do processo KDD (GOLDSCHMIDT; PASSOS, 2005). Pode ser dito que Mineração de Dados é o conjunto de técnicas das áreas de Estatística e Inteligência Artificial que objetiva a descoberta de conhecimento novo, retirando-o de grandes massas de dados empresarias (CARVALHO, 2005). Já Pinheiro (2008), escreve que “Mineração de Dados é o processo de descoberta de padrões e tendências existentes em repositórios de dados”. Outro conceito é o de que Mineração de Dados é o processo de descoberta automática de informações úteis em grandes depósitos de dados (TAN; STEINBACH; KUMAR, 2006). Então a Mineração de Dados é a principal etapa do processo KDD e utiliza-se de técnicas de Estatística e Inteligência Artificial objetivando a descoberta de conhecimento em bases de dados. Sendo uma etapa do processo KDD, a Mineração de Dados se dá mediante a aplicação de algoritmos sobre a base de dados. Para Carvalho (2005), em função do nível de conhecimento que se tem do problema estudado pode-se realizar a Mineração de Dados de três formas distintas: 32 Descoberta Não-supervisionada de Relações: é usada quando não se tem conhecimento algum sobre o problema e deixa que as técnicas de Mineração de Dados procurem novas relações; Testagem de Hipóteses: quando se tem alguma ideia do que se procura ou algum conhecimento sobre o problema, pode-se definir hipóteses e testa-las, confirmando ou refutando a mesma; Modelagem Matemática dos Dados: quando se tem bom conhecimento sobre problema define-se exatamente o que se deseja encontrar. Independente da metodologia aplicada serão utilizadas praticamente as mesmas técnicas ou Tarefas de KDD. 2.5.3 Pós-Processamento A etapa de Pós-processamento abrange a visualização, a análise e a interpretação do modelo de conhecimento gerado pela etapa de Mineração de Dados (GOLDSCHMIDT; PASSOS, 2005). Silva Filho (2009) explica que terminada a fase de Mineração de Dados é chegada a hora de [...] “avaliar o conhecimento extraído das bases de dados, identificar padrões e interpretá-los, transformando-os em conhecimentos que possam ser úteis para a tomada de decisão”. Um pouco mais sucinto, Rezende (2003), escreve que é uma etapa que consiste na validação das descobertas efetuadas e visualização dos resultados encontrados. Para uma melhor visualização e compreensão dos modelos gerados, nesta etapa podem ser utilizadas técnicas de simplificação, transformação visando uma melhor organização e clareza na apresentação dos resultados. Nesta fase os dados gerados pelas etapas anteriores são simplificados de forma a torná-lo menos complexo, sempre levando em consideração que nenhuma informação relevante pode ser perdida (GOLDSCHMIDT; PASSOS, 2005). 2.6 Tarefas de KDD A lista de Tarefas de KDD é extensa e ainda podem ocorrer combinações de tarefas. Goldschmidt e Passos (2005), explica que existem tarefas primárias e compostas, sendo a 33 primária aquela que não pode ser desmembrada em outras tarefas e a composta aquela que pode ser desmembrada em duas ou mais tarefas. Apesar de serem inúmeras as Tarefas de Mineração de Dados, segundo Carvalho (2005), cinco técnicas gerais abraçam didaticamente todas as outras e permitem uma visão global do assunto. São elas descritas a seguir. 2.6.1 Associação Consiste em encontrar conjuntos de itens que ocorram simultaneamente e de forma frequente (GOLDSCHMIDT; PASSOS, 2005). Tem como finalidade determinar que fatos ocorrem simultaneamente com probabilidade razoável ou que itens de uma massa de dados estão presentes juntos com uma certa chance (CARVALHO, 2005). Para a obtenção da probabilidade razoável mencionada no parágrafo anterior, torna-se necessário o entendimento de um conceito fundamental para a associação denominado suporte mínimo. O suporte mínimo diz respeito ao mínimo de vezes que uma associação entre um conjunto de itens deve ocorre em relação ao número total de transações de um banco de dados (GOLDSCHMIDT; PASSOS, 2005). Geralmente, a frequência mínima tem que ser superior a taxa pré-estabelecida de suporte mínimo para esta associação ser considerada frequente. Uma associação é considerada válida se o número de vezes em que ocorrer associação entre dois itens em comparação ao primeiro item da associação for superior ao valor préestabelecido chamado confiança mínima (GOLDSCHMIDT; PASSOS, 2005). Esta medida procura expressar a qualidade da regra, indicando se existir a ocorrência do primeiro item o quanto é seguro a ocorrência do segundo. 2.6.2 Classificação É senso comum entre diversos autores que a classificação é uma das tarefas mais utilizadas e importantes da Mineração de Dados. Carvalho (2005), explica sua importância e popularidade quando diz que a classificação [...] “é uma das mais realizadas tarefas cognitivas humanas no auxílio à compreensão do ambiente em que vivemos”. Segundo Tan, Steinbach e Kumar (2009), “classificação é a tarefa de organizar objetos em uma entre diversas categorias pré-definidas, é um problema universal que engloba muitas aplicações diferentes”. Na visão de outro autor a Classificação é a busca por uma função que 34 associe cada registro de um banco de dados a um rótulo categórico, denominado classe (GOLDSCHMIDT; PASSOS, 2005). Na classificação a entrada de dados é composta por um conjunto de registros, sendo que cada registros é composto por (x, y), aonde x é o conjunto de atributos e y o atributo especial, ou rótulo de classe (TAN, STEINBACH E JUMAR, 2009). Goldschmidt e Passos (2005), explica que: [...] “Consideremos um par ordenado de forma (x, f(x)), aonde x é o vetor de entradas n-dimensional e f(x) a saída de uma função f, desconhecida, aplicada a x. A tarefa de inferência indutiva consiste em, dada uma coleção de exemplos de f, obter uma função h que se aproxime de f. A função h é chamada de hipótese ou modelo de f”. A função responsável pela associação dos registros dá-se o nome de função alvo ou modelo de classificação segundo Tan, Steinbach e Kumar (2009), sendo o modelo de classificação útil para uma modelagem descritiva ou preditiva: A Modelagem Descritiva: pode servir como ferramenta explicativa para se distinguir entre objetos e classes diferentes. Sobre um determinado conjunto de dados, pode se obter um resumo sobre quais características definem cada grupo (TAN, STEINBACH E JUMAR, 2009); A Modelagem Preditiva: pode ser usada para prever o rótulo da classe de registros não conhecidos. Atribui automaticamente um rótulo de classe quando recebe o conjunto de atributos de um registro desconhecido (TAN, STEINBACH E JUMAR, 2009). Uma medida muito importante para a classificação é a acurácia, pois ela retrata a qualidade ou precisão de uma hipótese em mapear corretamente cada vetor de entrada. Tem-se, então, para treinamento um conjunto de pares, estes são utilizados para identificação da função modelo e outro conjunto de pares para avaliação da acurácia que é denominado conjunto de testes (GOLDSCHMIDT; PASSOS, 2005). Dois erros podem ocorrer no processo de treinamento e teste dos algoritmos, o erro denominado overfitting ocorre quando o classificados tem bom desempenho no treinamento, mas não no teste, e o erro denominado underfitting é aquele que ocorre quando o classificador não se ajusta ou se ajusta muito pouco ao conjunto de treinamento. 35 Já na fase de interpretação do modelo de conhecimento, uma importante ferramenta de visualização dos resultados obtidos pode ser encontrada, é a matriz de confusão. Esta ferramenta tem a função de oferecer um detalhamento do desempenho do modelo de classificação, mostrando o número de classificações corretas em comparação ao número de classificações feitas (GOLDSCHMIDT; PASSOS, 2005). 2.6.3 Clusterização A clusterização é a divisão dos elementos em grupos, sendo que cada grupo é composto por elementos com propriedades comuns entre todos. Para Goldschmidt e Passos (2005), a clusterização ou agrupamento [...] “é usada para particionar os registros de uma base de dados em subconjuntos ou clusters, de tal forma que os elementos em um cluster compartilhem um conjunto de propriedades comuns que os distingam dos elementos de outros clusters”. A clusterização não utiliza classes ou rótulos pré-definidos, ela agrupa de forma natural os elementos conforme suas características comuns. Alguns autores também a chamam de indução não supervisionada. A análise de grupos divide os grupos de dados em clusters que tenham significado, sejam úteis, ou ambas as coisas (TAN, STEINBACH E JUMAR, 2009). Os mesmos autores ainda completam o raciocínio dizendo que os objetos são agrupados baseando-se apenas em informações encontradas nos dados que descrevem os objetos e seus relacionamentos. A busca de semelhança dos objetos dentro de um grupo é o objetivo da clusterização, quanto maior a semelhança dentro de um grupo maior será a diferença entre grupos (TAN, STEINBACH E JUMAR, 2009). A clusterização ou agrupamento é comumente usada como uma técnica preliminar quando nada ou pouco se sabe sobre os dados (CARVALHO, 2005). A clusterização pode se dar por dois propósitos, por compreensão aonde grupos conceitualmente significativos compartilham de características comuns ou utilidade que fornece uma abstração de objetos individuais para os grupos nos quais estes objetos pertencem (TAN, STEINBACH E JUMAR, 2009). A tarefa de clusterização é relativamente mais complexa que a tarefa de classificação, pois não se possui parâmetros para classificação, os dados são agrupados de acordo com suas características, podendo ser gerados grupos que não tenham nenhum significado (CARVALHO, 2005). 36 Pode-se classificar o resultado da clusterização em diferentes tipos de grupos, citando: Hierárquico, Particional, Exclusivo, Interseccionado, Difuso, Completo e Parcial. Tan, Steinbach e Jumar (2009), ainda apresentam tipos de agrupamentos, levando em consideração as diversas noções de grupos que se provam úteis na prática, que são: Grupos Bem Separados, Baseados em Protótipo, Baseados em Gráfico e Baseados em Densidade. 2.6.4 Previsão A previsão consiste em definir um valor para um determinado índice baseando-se nos dados deste índice no passado (CARVALHO, 2005). Busca-se então prever o valor de uma determinada variável em decorrência dos valores que a mesma assumiu em tempos anteriores. A única maneira de verificar se a previsão foi acertada é aguardar o acontecimento para comparação. Goldschmidt e Passos (2005), explica que é um processo de identificação das características, dos padrões e das propriedades importantes, utilizados para descrever o fenômeno gerador e tem como principal objetivo a geração de modelos voltados a previsão de valores futuros. 2.6.5 Estimativa A estimativa é usada para determinar valores prováveis de variáveis baseando-se em valores existentes de outras variáveis. Para Carvalho (2005), “estimar algum índice é determinar seu valor mais provável diante de dados do passado ou de dados de outros índices semelhantes sobre os quais se tem conhecimento”. 2.7 Métodos de Mineração de Dados Para cada tarefa de Mineração de Dados existe um ou mais algoritmos que podem ser aplicados, nesta seção serão apresentados alguns dos principais ou mais utilizados algoritmos, mostrando suas características e quais tarefas podem ser implementadas pelos diversos métodos apresentados. Diferentes Métodos de Mineração de dados requerem diferentes tipos de préprocessamento, e a combinação entre os tipos pré-processamento e Métodos de Mineração de 37 dados pode variar conforme a extensão da base de dados, sendo a qualidade do resultado do processo KDD influenciado por estas escolhas. “Cada Método de Mineração de Dados requer diferentes necessidades de pré-processamento” (MORIK, 2000, apud GOLDSCHMIDT; PASSOS, 2005). Goldschmidt e Passos (2005), explica que “um plano de ação de KDD válido é toda a sequência de métodos de KDD aonde as precondições para execução de cada um dos métodos da sequência sejam devidamente atendidas”. A seguir serão apresentados alguns métodos levando em conta os mais utilizados e citados pelos autores pesquisados: 2.7.1 Métodos Baseados em Redes Neurais Os métodos baseados em redes neurais podem ser utilizados para implementação de tarefas como Classificação, Regressão, Previsão e Clusterização, sendo que alguns Modelos de Redes Neurais podem ser aplicados em mais de um tipo de Tarefa de Mineração de Dados (GOLDSCHMIDT; PASSOS, 2005). As redes neurais podem ser utilizadas com aprendizado supervisionado e não supervisionado, sendo o primeiro caso a saída do modelo corresponde ao atributo objetivo, sendo que o algoritmo de aprendizado ajusta os pesos das conexões a fim de chegar o mais próximo possível da saída desejada, sendo úteis para tarefas de predição, por exemplo. Já no caso do aprendizado não supervisionado, a tarefa de Clusterização é a mais utilizada (CARVALHO, 2005). Back-Propagation Algoritmo utilizado para tarefas de Classificação, Regressão ou Previsão, ou seja, utiliza aprendizado supervisionado, aonde o algoritmo busca aproximar a saída real da saída desejada. O Back-Propagation, tem este nome devido “[...] ao fato de que ao se aplicar a regra de aprendizado, os erros de aprendizado dos neurônios das camadas intermediária e de entrada são calculados em função dos erros da camada de saída” (CARVALHO, 2005). Então, os erros da camada de saída são propagados para as camadas intermediária e de entrada, fazendo com que possa ser alterada a sinapse de aprendizado. Kohonen 38 Faz parte da classe das Redes Neurais auto organizáveis, o treinamento não supervisionado é baseado em uma forma de competição entre os elementos processadores, entre suas principais aplicações estão a Tarefa de Clusterização e Detecção de Regularidades (GOLDSCHMIDT; PASSOS, 2005). Os Mapas auto organizáveis aplicados a Tarefa de Clusterização, sempre que se desejar descobrir conhecimento novo em uma base de dados, se configura em uma forma simples de descobrir se há algo interessante ou organizado na massa de dados (CARVALHO, 2005). 2.7.2 Métodos Baseados em Algoritmos Genéticos São uteis em problemas complexos que envolvam otimização. São inspirados na teoria da evolução de Charles Darwin e empregam um processo adaptativo e paralelo de busca de soluções. Por meio da evolução de populações de soluções codificadas em cromossomas artificiais as técnicas de Algoritmos Genéticos buscam obter boas soluções para problemas complexos. Conforme Carvalho (2005), “qualquer problema de Mineração de Dados que possa ser definido como a maximização ou minimização de alguma função pode ser, em princípio, resolvido com um algoritmo genético”. Exemplos de Método baseados em Algoritmos Genéticos que podem ser citados são o Rule Evolver e o Algoritmo Genético para Tarefa de Clusterização (GOLDSCHMIDT; PASSOS, 2005). 2.7.3 Métodos Baseados em Instâncias Um método Baseado em Instância indica que o método, ao processar um novo registro, leva em consideração as instancias ou registros existentes na base de dados (GOLDSCHMIDT; PASSOS, 2005). K-NN É um dos principais métodos baseado em instâncias, muito utilizado para Tarefa de Classificação, de fácil entendimento e implementação, não necessitando de treinamento prévio para aplicação (GOLDSCHMIDT; PASSOS, 2005). 39 Utiliza cálculo de distância (métrica de distância), para calcular a proximidade do novo item a classificar com todos os outros da base de referência, identificando quais são os de menor distância apura quais as classes mais frequentes entre os registros identificados. 2.7.4 Métodos Estatísticos Diversos algoritmos de Mineração de Dados são fundamentados em princípios e teorias da estatística. Segue lista de alguns métodos mais conhecidos e utilizados. Classificador Bayesiano Ingênuo Conforme o nome sugere o Classificador Bayesiano é utilizado na Tarefa de Classificação, baseado no Teorema de Bayes, utiliza cálculo de probabilidade condicional, e Ingênuo porque assume que todos os atributos são independentes (GOLDSCHMIDT; PASSOS, 2005). “Um classificador Bayesiano avalia a probabilidade condicional de classe supondo que os atributos sejam condicionalmente independentes [...]” (TAN, STEINBACH E JUMAR, 2009). O funcionamento do algoritmo baseia-se em calcular a probabilidade condicional dos atributos de um registro e indicar como saída a classe em que a probabilidade deste registro pertencer for máxima. KMeans A popularidade deste método para a Tarefa de Clusterização pode estar na simplicidade. Conforme Tan, Steinbach e Jumar (2009), o funcionamento do algoritmo acontece da seguinte forma: Escolhe-se K (parâmetro especificado pelo usuário, número de grupos desejado) centroides iniciais, a seguir cada ponto é atribuído ao centroide mais próximo formando grupos. Atualiza-se o centroide baseados nos pontos do grupo e repete-se a atribuição e atualização até que não ocorram mudanças de pontos ou centroides. Goldschmidt e Passos (2005), desta que a especificação de K (número de clusters) pelo usuário, pode ser uma desvantagem e recomenda que vários experimentos variando o número de K sejam realizados. 2.7.5 Métodos Específicos Alguns algoritmos foram desenvolvidos especificamente para implementar alguma Tarefa de Mineração de Dados. O algoritmo Apriori é um dos casos mais conhecidos. 40 Apriori É um algoritmo desenvolvido especificamente para a Tarefa de Associação e diversos algoritmos foram desenvolvidos inspirados no funcionamento do Apriori, baseados no princípio de antimonotonicidade do suporte (GOLDSCHMIDT; PASSOS, 2005). Segundo Tan, Steinbach e Jumar (2009), “foi o primeiro algoritmo de mineração de Tarefas de Associação que foi precursor do uso de poda baseada em suporte para controlar de forma sistemática o crescimento exponencial dos conjuntos de itens candidatos”. O princípio de Apriori é que: se um conjunto de itens é frequente, então todos os seus subconjuntos também devem ser frequentes. Sendo assim, a combinação de itens para gerar novo item somente ocorre quando estes são frequentes (GOLDSCHMIDT; PASSOS, 2005). O Algoritmo de Apriori, trabalha em duas etapas, sendo a primeira responsável por encontrar todos os conjuntos de itens frequentes, na segunda etapa serão geradas regras de associação. Na primeira etapa o suporte mínimo deve ser satisfeito e na segunda, a confiança mínima. 2.7.6 Métodos Baseados em Indução de Árvores de Decisão Conforme Goldschmidt e Passos (2005), alguns dos principais Métodos de Mineração de Dados são baseados em árvores de decisão. A construção destas Árvores é realizada segundo alguma abordagem recursiva de particionamento da base de dados. O classificador de árvore de decisão constitui-se de uma técnica de classificação simples, porém muito usada (TAN, STEINBACH E JUMAR, 2009). O funcionamento de uma árvore de decisão é baseado em uma série de perguntas feitas para os atributos do item a ser classificado, sendo a resposta gerada induz a próxima pergunta ou a atribuição deste item a um determinado grupo. C4.5 O C4.5 procura abstrair árvores de decisão a partir de uma abordagem recursiva de particionamento das bases de dados, utilizando conceitos e medidas da Teoria da Informação (GOLDSCHMIDT; PASSOS, 2005). O funcionamento do C4.5 inicia na escolha do predicado, ou seja, no atributo que melhor separa ou discrimina as classes, seguindo pela separação recursiva de toda a base de dados até 41 que todos os dados estejam separados e cada classe esteja associada a um nó folha. (GOLDSCHMIDT; PASSOS, 2005). Após a escolha do predicado, cada novo nó ira abranger uma partição da base de dados que é recursivamente separada até que o conjunto associado a cada nó folha consista inteiramente ao predominantemente de registros de uma mesma classe (GOLDSCHMIDT; PASSOS, 2005). No quadro 1 são identificados os Métodos de Mineração de Dados que podem ser aplicados para cada Tarefa KDD. Quadro 1 - Métodos de Mineração de Dados aplicáveis a cada Tarefa KDD Tarefas de KDD Descoberta de Associações Métodos de Mineração de Dados Basic, Apriori, DHP, Partition, DIC, ASCX-2P Descoberta de Associações Generalizadas Basic, Apriori, DHP, Partition, DIC, ASCX-2P Descoberta de Sequências GSP, MSDD, SPADE Descoberta de Sequências Generalizadas GSP, MSDD, SPADE Classificação Redes Neurais (Ex.: Back-Propagation, RBF), C4.5, Rough Sets, Algoritmos Genéticos (Ex.: Rule Evolver), CART, K-NN, Classificadores Bayesianos Regressão Redes Neurais (Ex.: Back-Propagation), Lógica Nebulosa Sumarização C4.5, Algoritmos Genéticos (Ex.: Rule Evolver) Clusterização KMeans, K-Modes, K- Prototypes, Fuzzy KMeans, Algoritmos Genéticos, Redes Neurais (Ex.: Kohonen) Previsão de Séries Temporais Redes Neurais (Ex.: Back-Propagation), Lógica Nebulosa (Ex.: Wang-Mendel) Fonte: (GOLDSCHMIDT; PASSOS, 2005). 2.8 Sistemas de Apoio a Decisão As empresas familiares, aquelas que o dono atende no balcão e que sabe o gosto e as particularidades de cada cliente, conhece o perfil e sabe o que habitualmente o cliente compra, tem o relacionamento que as empresas de maior porte buscam ter com os seus clientes (PINHEIRO, 2008). Buscando estreitar o relacionamento com o cliente que cada vez mais exige qualidade nos produtos e serviços que adquire, as empresas necessitam encontrar alternativas para o atendimento as novas necessidades e anseios do mercado. Pinheiro (2008), em relação as 42 tendências do mercado atual faz a seguinte pergunta: “De que forma uma empresa com uma carteira de milhares de clientes pode estabelecer uma relação individualizada com os seus consumidores?”. Na busca para a resposta a esta questão, as empresas têm investido na captação, no armazenamento, o tratamento e na aplicação da informação, tendo em vista o diferencial estratégico e competitivo (GOLDSCHMIDT; PASSOS, 2005). A área de Tecnologia da Informação têm papel fundamental, desenvolvendo sistemas de informação capazes de suprir esta demanda e também sendo utilizados em diversas outras aplicações (GOLDSCHMIDT; PASSOS, 2005). A utilização de sistemas de informação com o passar do tempo gera uma enorme quantidade de dados relacionados aos negócios (OLIVEIRA, 2002). No dia a dia das empresas os sistemas de informação armazenam dados pertinentes a cada setor da organização, dados estes que são utilizados no relacionamento com clientes e fornecedores, para emissão de notas, cobranças, contas a pagar e outros processos do cotidiano. Conforme Goldschmidt e Passos (2005), a maioria destes sistemas operacionais opera sobre banco de dados transacionais, que contém informações detalhadas sobre os processos operacionais das empresas. Embora seja de fundamental importância esta estrutura de dados, ela não oferece apoio à tomada de decisão. Conforme Oliveira (2002), “os sistemas convencionais não são projetados para gerar e armazenar informações estratégicas, o que torna os dados vagos e sem valor para o apoio ao processo de tomada de decisão das organizações”. Pinheiro (2008), escreve que apesar de estes dados serem fundamentais para o controle operacional da empresa, eles possuem pouca ou nenhuma relevância do ponto de vista gerencial ou estratégico. “Como os dados armazenados possuem muito pouco ou nenhum processamento, ou seja, são dados brutos, que se referem a atividades corriqueiras de uma empresa, torna-se complexa a atividade de buscar informações ou conhecimento em tais bases” (SARTORI, 2012). Nesta linha, cresce a demanda por sistemas que auxiliem no processo de tomada de decisão, que forneçam subsídios para apoio ao processo decisório (GOLDSCHMIDT; PASSOS, 2005). 43 Sendo assim, os Data Warehouses e Data Marts, se fazem necessários para o armazenamento e o acesso as informações de forma a propiciar maior entendimento, gerenciamento e uso (OLIVEIRA, 2002). 2.8.1 Data Warehouse Segundo Pinheiro (2008), “o termo Data Warehouse foi utilizado pela primeira vez por W. H. Inmon para descrever um banco de dados projetado e construído para auxiliar as empresas no processo de tomada de decisão”. “[...] pode ser definido como um Banco de Dados especializado, o qual integra a gerencia o fluxo de informações a partir de Bancos de Dados corporativos e fontes de dados externas à empresa” (OLIVEIRA, 2002). Goldschmidt e Passos (2005), conceitua Data Warehouse como sendo “[...] um conjunto de dados baseado em assuntos, integrado, não-volátil, variável em relação ao tempo, e destinado a auxiliar em decisões de negócio”. Já para Singh (2001), trata-se de um processo de integração de dados de uma empresa, em um único repositório que facilita a consulta, geração de relatórios e análises. Um Data Warehouse é um repositório de dados que concentra grandes quantidades de dados integrando os dados de diversos setores de uma mesma empresa ou de diversos sistemas de informação, sendo que suas características privilegiam a consultas, geração de relatório e análises, tendo sua vocação voltada ao processo decisório à níveis táticos e estratégicos das empresas. Contudo, devido ao Data Warehouse ser repositório central, contendo dados de toda a organização, se torna necessário em alguns casos, devido ao tamanho ou a complexidade, a construção de uma outra estrutura chamada Data Mart que apesar de possuir as mesmas características do Data Warehouse, abriga apenas os dados de um determinado setor ou departamento da uma empresa. 2.8.2 Data Mart Possui os mesmos atributos do Data Warehouse e desempenha o mesmo papel, com a diferença de ser uma fração do Data Warehouse, ou seja, é organizado por setor, por departamento, por filial, entre outros. Para Singh (2001), o Data Mart é “[...] um subconjunto do Data Warehouse empresa-inteira”. 44 O projeto de um Data Warehouse não é uma tarefa fácil, exigindo uma metodologia rigorosa, uma completa compreensão dos negócios da empresa e um planejamento bem detalhado (OLIVEIRA, 2002). A empresa pode optar por construir vários Data Marts e posteriormente agrupa-los em um Data Warehouse lógico, ou dividir um Data Warehouse de acordo com sua conveniência. Para Oliveira (2002), o custo de construção de vários Data Marts para posterior agrupamento é bem inferior ao custo de criar e dividir um Data Warehouse. A complexidade de elaboração, os custos e o prazo são os maiores atrativos para criação de Data Marts, segundo Oliveira (2002). 2.9 Ferramenta WEKA Diversas são as ferramentas disponíveis no mercado para utilização na Mineração de Dados, pode-se citar algumas como: SAS Enterprise Miner, PolyAnalyst, Darwin, SPSS/Clementine, Intelligent Miner, WizRule, Bramining e WEKA. Cada ferramenta possui sua especificação e características e implementam determinadas Tarefas de Mineração de Dados. A ferramenta WEKA é uma das mais populares ferramentas de Mineração de Dados, foi criada e desenvolvida pelo curso de Ciência da Computação da Universidade de Waikato na Nova Zelândia e implementada em Java, além disso, possui código aberto. Atualmente está na versão 3.6.9. Alencar e Schmitz (2012) explicam que, WEKA “é uma plataforma para análise e mineração de dados, livre e gratuita, que contém vários algoritmos de árvore de classificação, além de uma grande variedade de métodos estatísticos”. A utilização do WEKA pode ser de diversas maneiras, ela possui quatro implementações de interface permitindo que os algoritmos sejam chamados diretamente via código Java. São elas: conhecimento Simple Cliente: interação através de linhas de comando e requer profundo do programa, em contrapartida oferece flexibilidade e agilidade (GOLDSCHMIDT; PASSOS, 2005); Explorer: interface mais comumente utilizada, separa as etapas de pré- processamento, mineração de dados e pós-processamento (ibidem); 45 Experimenter: ambiente de experimentação, condução de testes estatísticos para avaliação do desempenho de algoritmos de aprendizado (ibidem); KnowledgeFlow: ferramenta gráfica que permite planejamento de ações na construção de um fluxo de processo de KDD, ainda em desenvolvimento (ibidem). O WEKA possui implementados diversos métodos de associação, classificação e clusterização e permite inclusão ou remoção de novos métodos. Além disto, possui visualização gráfica dos dados (ibidem). O sistema utiliza o padrão de entrada de dados chamado ARFF (Attribute-Relation File Format). Entretanto, é possível incorporar ao programa conectores, que permitem com que os dados sejam obtidos diretamente de arquivos em outros formatos ou até mesmo de bases de dados SQL (Structured Query Language) (SARTORI, 2012). O Quadro 2 apresenta um resumo das características da ferramenta WEKA: Quadro 2 - Resumo das Características do WEKA Características Valores Acesso a Fontes de Dados Heterogêneas Sim Integração de Conjuntos de Dados Não Facilidade para Inclusão de Novas Operações Sim Facilidade para Inclusão de Novos Métodos Sim Recursos para Planejamento de Ações Sim Processamento Paralelo/Distribuído Não Operações/Métodos Disponíveis Visualização de Dados Distribuição de Frequências; Medidas de Dispersão; Histograma Redução de Dados Amostragem Limpeza de Dados Substituição Codificação de Dados Discretização automática e manual Classificação Árvores de Decisão, Bayes, Redes Neurais... Clusterização SimpleKMeans, Cobweb, FarthestFirst... Simplificação de Resultados N/D Organização de Resultados Agrupamento de Padrões; Ordenamento de Padrões Apresentação de Resultados Conjunto de Regras; Árvores de Decisão Estruturas para Armazenamento de Modelos de Conhecimento Sim Estruturas para Armazenamento de Histórico de Ações Fonte: (GOLDSCHMIDT; PASSOS, 2005). Sim 46 2.10 Aplicação de mineração de dados sobre bases de dados educacionais – trabalhos relacionados Na sequência são apresentados trabalhos relacionados a evasão escolar e a aplicação da mineração de dados sobre bases de dados de IES. São descritas as principais características de cada trabalho bem como os resultados obtidos pelos pesquisadores. Esta revisão bibliográfica teve o intuito de orientar, com relação a técnica de mineração de dados, tarefas do processo KDD, atributos utilizáveis e ou constatações úteis, o processo de mineração de dados apresentado na nestes trabalho. No capítulo das conclusões é realizado um comparativo da análise destes trabalhos relacionando-os com a presente pesquisa. 2.10.1 Previsão de Estudantes com Risco de Evasão Utilizando Técnicas de Mineração de Dados. No trabalho realizado por Manhães et al. (2011), na UFRJ (Universidade Federal do Rio de Janeiro), buscou-se identificar alunos com risco de evasão nos cursos de graduação desta universidade, identificando precocemente estes alunos. Neste trabalho também apurou-se a viabilidade de identificar estes alunos com risco de evasão, através dos atributos selecionados. Foram feitos três experimentos para verificação da eficácia do processo. Para o desenvolvimento da pesquisa a base de dados foi coletada diretamente do sistema acadêmico da UFRJ, utilizando dados de alunos que ingressaram no curso de Engenharia Civil da Escola Politécnica no período de 1994 a 2005. Nesta base de dados o total de alunos neste período foi de 887 sendo que 543 concluíram o curso e 344 não concluíram o curso. Foi considerado pelos pesquisadores a dificuldade de acesso ao banco de dados da IES e a falta de literatura que servisse de referência sobre quais atributos seriam adequados para a análise do problema, deixando então, sob análise e para trabalhos futuros, outros atributos que pudessem contribuir para a Mineração de Dados Educacionais. Conforme Manhães et al. (2011), “[...] o procedimento de seleção dos atributos ainda está em fase de estudos devido às limitações de acesso aos dados e pela falta de referências sobre quais atributos são mais adequados para analisar o problema da evasão escolar utilizando mineração de dados”. Foram selecionados, então, os seguintes atributos: disciplinas mais cursadas relativas ao primeiro semestre, entre elas estão Introdução a Engenharia Civil, Engenharia e Meio Ambiente, Programação de Computadores I, Cálculo Diferencial e Integral I e Química; notas e a situação final (aprovado, reprovado por nota, reprovado por falta) em cada disciplina; o 47 valor do coeficiente de rendimento acumulado no período e, por fim, o atributo identificador da classe do aluno. Conforme frisado, somente disciplinas do primeiro período forma selecionadas, sendo assim um dos critérios de seleção utilizados. Manhães et al. (2011), “baseado na informação que o maior número de evasões ocorre no início do curso, optou-se por utilizar dados acadêmicos dos períodos letivos que antecedem o maior número de evasões”. A ferramenta utilizada para aplicação das Técnicas de Mineração de Dados foi o WEKA, devido a facilidade de aquisição e disponibilidade de download, por não haver custos de utilização ou aquisição, por abrigar várias versões de algoritmos e pelos recursos estatísticos que foram utilizados na comparação do desempenho dos algoritmos. Os algoritmos selecionados para a tarefa de classificação e os métodos que cada algoritmo implementa foram: aprendizado de regras (OneR e JRip), tabela de decisão (DecisionTable), árvore de decisão (SimpleCart, J48 e RandomForest), modelos lineares de regressão logística (SimpleLogistic), modelo de rede neural artificial (MultilayerPerceptron), modelos probabilístico (BayesNet), classificador probabilístico simples baseado na aplicação do teorema de Bayes (NaiveBayes). Os resultados obtidos nesta pesquisa, no que diz respeito ao objetivo de prever alunos passiveis de evadir o curso, foram descritos pelos autores como: “os resultados mostraram que utilizando as primeiras notas semestrais dos calouros é possível identificar com precisão de 80% a situação final do aluno no curso” (MANHÃES et al, 2011). Outra conclusão importante é a de que é possível prever alunos com risco de evasão tendo como base um número reduzido de atributos. Também se verificou que todos os algoritmos utilizados tiveram um desempenho semelhante, independentemente do tipo de experimento ou da configuração da base de dados. 2.10.2 Técnicas de Aprendizado de Máquina Aplicadas na Previsão de Evasão Acadêmica Neste trabalho elaborado por Maurício J. V. Amorim, André Uebe Mansur, Dante Barone, sendo os dois primeiros do Centro Federal de Educação Tecnológica de Campos e o último da UFRGS (Universidade Federal do Rio Grande do Sul), foram abordadas técnicas de aprendizado de máquina na previsão da evasão acadêmica, demonstrando a eficiência do uso destas técnicas. 48 Todo processo de classificação ou previsão através de aprendizado de máquina requer certos procedimentos como: levantamento de dados para treinamento e testes, seleção de atributos e transformação, escolha de classificadores, a execução do treinamento e avaliação (AMORIM; BARONE; MANSUR, 2008). Foi utilizado como base de dados os registros de dez semestres letivos de uma IES particular, não divulgada na pesquisa, do Município de Goytacazes – RJ. Esta base estava dividida em 4 cursos, em um total de 8073 matriculas sendo que foram utilizados os seguintes atributos: a matricula de cada aluno; ano e semestre de ingresso; quantidade de disciplinas cursadas pelo aluno no semestre anterior a coleta dos dados; o percentual de aprovação do aluno no semestre anterior; o percentual de desconto que o aluno possuía no semestre anterior; a quantidade de prestações em aberto; coeficiente de rendimento escolar (média de todas as disciplinas já cursadas); a quantidade de disciplinas do curso; o percentual de conclusão do curso, reprovações, trancamentos; cancelamentos, transferência ou conclusão. Conforme descrito por Amorim, Barone e Mansur (2008), “após a fase de pré-seleção dos atributos, com a massa de treinamento e testes disponível para uso, o passo seguinte é a escolha dos classificadores”. Então os classificadores escolhidos foram: J48 (baseado em árvores de decisão), SMO (baseado em máquinas de vetores de suporte) e o Bayes Net (baseados em métodos bayesianos). Os resultados obtidos resume-se a apresentar o percentual de evasão por curso da IES e comparar a eficácia dos três classificadores testados que ficaram com uma acurácia em torno de 90%. 2.10.3 Aplicação de Técnicas de Mineração de Dados na Previsão de Propensão à Evasão Escolar A partir do artigo sobre o trabalho realizado por Milani e Camargo (2010), realizado sobre a base de dados dos alunos dos cursos de curso Técnico em Informática, Técnico em Mecânica e Curso Superior de Sistemas para Internet no Campus de Passo Fundo do Instituto Federal Sul-rio-grandense, que tinha como objetivo identificar os principais fatores que contribuem para evasão dos alunos do Campus de Passo Fundo do Instituto Federal Sul-RioGrandense (IFSul), foi possível identificar algumas contribuições conforme descritas a seguir. Foi elaborada uma estrutura de dados para abrigar os dados oriundos de diversos setores do instituto. Devido a heterogeneidade dos dados o processo de migração ocorreu manualmente 49 e os dados que foram adquiridos continham 22% de alunos que haviam evadido os cursos e 78% que não evadiram. A ferramenta utilizada para aplicação dos algoritmos de Mineração de Dados foi o WEKA, utilizando a Tarefa de Classificação foram aplicados métodos que implementam esta tarefa. “Foram utilizados diversos algoritmos que geram modelos “caixa-branca” com ênfase em algoritmos de geração de regras e geração de árvores de decisão” (MILANI; CAMARGO, 2010) Os resultados apresentados no artigo demonstram percentuais de evasão em cada curso definindo quais cursos tem maior probabilidade do aluno evadir, também foram geradas algumas regras que apresentam considerações sobre evasão por faixa etária. Para Milani e Camargo (2010), utilizando algoritmos de geração de regras e de geração de árvores de decisão pode-se identificar fatores que contribuem para a evasão em IES, sendo possível reconhecer os grupos de risco para evasão, fornecendo subsidio para indicar alunos mais propensos a evasão. 2.10.4 Metodologia de Análise e Tratamento da Evasão e Retenção em Cursos de Graduação de Instituições Federais de Ensino Superior O trabalho, proposto por Campelo e Lins (2008), ambos da UFPE (Universidade Federal de Pernambuco), abordou uma metodologia voltada à análise e tratamento da evasão e retenção em curso de graduação em IES Federais, tendo como objetivo elaborar estratégias voltadas à redução do problema e gerar informações úteis para os gestores. A tarefa utilizada neste trabalho foi a clusterização aonde os clusters gerados foram analisados individualmente permitindo identificar as causas do problema de acordo com as características dos alunos vinculados a cada cluster (CAMPELLO; LINS, 2008). Foram utilizados os dados dos alunos do curso de Engenharia de Produção do CTG (Centro de Tecnologia e Geociência da UFPE), que ingressaram no curso durante os anos de 2000 e 2006, sendo que 280 registros foram encontrados, destes 136 com problemas de evasão e retenção. Para montar a base de dados forma coletados oriundos de duas fontes distintas, uma responsável pelo vestibular e a outra foi o Sistema de Gestão Acadêmica. Neste levantamento de dados foram apurados os seguintes atributos: situação socioeconômica, a classificação no vestibular, as opções de cursos escolhidas, os vestibulares anteriores prestados, etc.; notas 50 constantes no histórico escolar, os trancamentos efetuados, as reprovações obtidas, as matrículas-vínculo realizadas, o rank (índice de desempenho acadêmico da UFPE), o prazo para a conclusão e abandono de curso. Foi utiliza a ferramenta WEKA para aplicação dos algoritmos de Mineração de Dados e através de um banco de dados de apoio foram utilizadas rotinas OLAP (On-line Analytical Processing) para acesso aos dados. A aplicação dos algoritmos de Clusterização gerou seis clusters distintos os quais são identificados como: Alunos Excelentes, Alunos Bons, Alunos Regulares, Alunos Fracos, Alunos Péssimos e Alunos Desinteressados. Após a clusterização várias rotinas OLAP foram aplicadas para comprovar os indícios levantados analisando cada cluster individualmente e os resultados obtidos foram aplicados no curso para melhorias e adequações. 51 3 DESENVOLVIMENTO O desenvolvimento deste trabalho foi voltado à aplicação do processo KDD aonde todas as etapas desde o Pré-Processamento, Mineração de Dados e Pós-Processamento foram cumpridas. Além das etapas do processo KDD, foram utilizadas conhecimentos em banco de dados para a modelagem do Data Mart e para migração da base de dados, seleção, transformação e tratamento dos dados que compõem a base para mineração. 3.1 Base de Dados A obtenção dos dados da base de dados da UNIVALI se deu através de consulta direta ao banco de dados. Foram coletadas diversas tabelas as quais seu conteúdo tinha alguma relevância com o tema estudado. A análise de relevância foi feita estudando tabela a tabela, isto se deu devido aos nomes que as mesmas possuem e também por não ser possível consultar nenhuma documentação que orientasse esta busca. Foi necessária então, a análise dos atributos de cada tabela antes de selecioná-la. Para obtenção das tabelas do banco de dado da UNIVALI foram gerados scripts conforme demostrado no Apêndice E. Com um total de 22 (vinte e duas) tabelas selecionadas e 1 tabela criada para classificar as disciplinas por área do conhecimento, baseando-se no conhecimento prévio do especialista da área e orientador do TTC sobre a base de dados original e também nos conhecimentos adquiridos em modelagem de dados e banco de dados chegou-se a um modelo parcial do banco de dados do sistema acadêmico da UNIVALI, aonde foram mostrados os relacionamentos entre as tabelas e seus atributos, favorecendo assim um maior entendimento do problema estudado. No Apêndice A pode ser observado este modelo. As disciplinas não possuem originalmente uma classificação por categoria especificada na base de dados, sendo assim uma classificação utilizada pela coordenação do curso de Ciência da Computação da UNIVALI foi utilizada como referência para categorizar as disciplinas e assim permitir uma possível identificação de alunos com dificuldades em determinada área. O Apêndice B apresenta um quadro aonde cada disciplina recebe a classificação conforme sua área do conhecimento. A seleção dos atributos que compõe cada tabela também foi trabalhada. Foram selecionados apenas atributos que possivelmente tivessem alguma influência ou relevância 52 sobre a evasão escolar, deixando de lado também atributos que possuíam todos os valores nulos. Esta seleção pode ser feita devido a ajuda e o conhecimento do professor especialista e orientador do TTC. Para uma melhor identificação de cada tabela e seus atributos, foi elaborado um dicionário de dados, disponível no Apêndice C deste trabalho. No Apêndice D pode-se observar a lista dos atributos excluídos em cada tabela e a justificativa para exclusão. Foi verificado, durante a seleção dos dados, que uma amostragem significativa e com dados ainda assim confiáveis, poderia ser utilizada. Foram então selecionados dos dados dos alunos matriculados entre 2008/1 a 2012/2 independente do período do curso. Uma constatação feita já na fase de mineração dos dados, foi a identificação de dados de alunos de outros cursos que entre 2008/1 a 2012/2 fizeram alguma disciplina do curso de Ciência da Computação. Estes dados referem-se ao desempenho acadêmico destes alunos, não estando disponível, devido a importação inicial, os dados pessoais destes alunos. Para fins deste trabalho estes dados foram retirados da base para não interferirem no processo de mineração. O Apêndice E contém os scripts gerados para seleção dos dados e migração para o Data Mart. A criação de Data Marts “[...] deve ser interativa, não é possível definir antecipadamente todos os requisitos necessários a sua construção até que ele esteja parcialmente povoado e sendo utilizado [...]” (OLIVEIRA, 2002). Portanto, a criação desta estrutura foi adaptada conforme as demandas que surgiram, obtendo assim uma melhor adequação à solução proposta. Em virtude da evolução no entendimento da base de dados, entendimento este gerado pela obtenção das tabelas originais e criação e um modelo relacional de dados que simulava o relacionamento das tabelas dentro do sistema acadêmico da UNIVALI, pode-se então modelar um Data Mart que posteriormente recebeu os dados já processados e prontos para mineração. Para construção do Data Mart foi adotada uma metodologia de modelagem dimensional que em suma é um modelo de fácil compreensão em relação ao problema proposto. Para Oliveira (2002), o modelo dimensional tem como principal objetivo “[...] apresentar o dados em uma arquitetura padrão e intuitiva, que permita acessos de alta performance”. O modelo Star ou Estrela, adotado para esta modelagem, possui em sua arquitetura uma tabela dominante chamada Tabela de Fatos, com múltiplas junções conectando outras tabelas, chamadas Tabelas de Dimensão (OLIVEIRA, 2002). Neste modelo cada tabela dimensão 53 possui apenas uma ligação com a tabela fato deixando o modelo simples e intuitivo. A Figura 8 apresenta o modelo desenvolvido: Figura 2 - Modelagem Data Mart 3.2 O Processo KDD Na sequência foram aplicados os conhecimentos adquiridos na fase de pesquisa e fundamentação teórica, iniciando as etapas do processo KDD sendo que a preparação, a transformação, a mineração de dados, a análise e a avaliação dos resultados se deram nesta 54 sequência. Devido às características do processo KDD, houveram repetições deste ciclo de etapas buscando a geração de um modelo de conhecimento mais representativo. O processo KDD na etapa de Pré-Processamento abrange as fases de Seleção, Limpeza, Codificação, Enriquecimento e Normalização dos dados. Estes conceitos forneceram subsidio para um trabalho que visou uma modelagem de dados que permitisse a obtenção de um resultado satisfatório nas etapas posteriores. 3.2.1 Pré-processamento Na fase de pré-processamento os dados extraídos do sistema acadêmico da UNIVALI foram migrados para o MySQL, que é um SGBD relacional com suporte à linguagem SQL e carregados para o modelo relacional demostrado no Apêndice A. Feita a migração e a carga, os dados passaram por um tratamento, uma preparação, que permitiu que valores faltantes, dados incorretos, não utilizáveis fossem corrigidos, sendo eu para isso foram tratados um a um os atributos de cada tabela, buscando datas como por exemplo: 1/1/0001, erros de ortografia entre outros descritos no Apêndice E. Como não foi possível uma análise mais profunda com relação à veracidade e idoneidade dos dados, foram considerados como expressão da realidade os valores contidos nos atributos em cada tabela. Com relação aos valores faltantes, foram preenchidos ou eliminados, sendo que para o preenchimento dos valores faltantes foram utilizados cálculos de média e moda, dando forma adequada a base de dados para as etapas posteriores. Na transformação os dados foram normalizados, agrupados e convertidos em formatos que puderam ser entendidos pelo WEKA e também obtendo um melhor entendimento e visualização dos mesmos. Na sequência o Data Mart foi implementado, conforme modelo proposto na Figura 2 e os dados foram armazenados para aplicação dos algoritmos de Mineração de Dados com a ferramenta WEKA. Na etapa de pré-processamento os dados passaram por uma série de tratamentos conforme pode ser observado no Apêndice F. Dentre estes tratamentos pode ser destacada a concatenação que foi executada entre 3 (três) atributos que compõem a identificação do aluno na base de dados do sistema acadêmico da UNIVALI. Neste processo estes dados passaram a formar um único atributo (chave) que recebeu o nome de “Cod_Aluno”. As três colunas que forneceram os dados para compor “ALU2SEMCAD”, “ALU2SEQCAD”. esta nova chave foram “ALU2ANOCAD”, 55 Encerrada a fase de pré-processamento os dados foram migrados para o Data Mart Evasão e a etapa de mineração de dados com o auxílio da ferramenta WEKA teve início. 3.2.2 Mineração de Dados A etapa de Mineração de Dados foi realizada com o auxílio da ferramenta WEKA, versão 3.6.10, rodando em ambiente Windons. Devido a esta ferramenta utilizar preferencialmente arquivos no formato ARFF, algumas alterações foram necessárias para que fosse possível conectar o Data Mart Evasão a ferramenta. Foi também utilizado o mysqlconnector-java-5.1.25, que é o driver JDBC do MySQL. O Connector/J é um driver JDBC do tipo IV e contém todas as características de JDBC para utilizar MySQL. Com os dados já migrados para o Data Mart Evasão e a conexão com o WEKA configurada pôde-se dar início a mineração dos dados. O ambiente Explorer da ferramenta WEKA é comumente o mais utilizado devido as suas características. Esta interface é fácil e intuitiva de se usar e oferece uma visualização dos atributos que compõem a base de dados carregada, fornecendo assim uma ideia geral das relações entre estes atributos sem a necessidade de aplicação de nenhum algoritmo. Utilizandose desta ferramenta foi possível observar alguns gráficos e estatísticas interessantes referentes a base de dados estudada conforme destacado abaixo: A base é composta em sua totalidade por 906 alunos que entre 2008/1 e 2012/2 fizeram matricula no curso de Ciência da Computação da UNIVALI; Entre os alunos matriculados no período, 677 ingressaram no curso entre 2008/1 e 2012/2 e o restante 229 são alunos que ingressaram no curso em anos anteriores. Conforme apresentado na Figura 3, a distribuição dos alunos ingressos por ano ocorreu da seguinte forma: 150 alunos em 2008, 136 em 2009, 144 em 2010, 117 em 2011 e 130 em 2012. É possível notar uma variação entre anos impares e pares, nos anos pares (2008, 2010 e 2012) houve uma quantidade maior de alunos ingresso se comparada com os anos impares (2009 e 2011). Pode-se notar também que o número de alunos ingressos vem caindo nos últimos anos, porém devido a pesquisa abordar um curto período de tempo, não pode-se afirmar que existe um padrão nem na variação do número de ingressos entre anos pares e impares e nem sobre a diminuição dos ingressos através dos anos. 56 Figura 3 - Alunos Ingressos entre 2008 e 2012 Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Dentre os 906 alunos cujos dados compõem a base da pesquisa, 527 evadiram entre os anos de 2008 a 2012. É importante salientar neste momento, que o total de alunos que compõem a base de dados foi selecionado buscando todas as matriculas entre os anos de 2008 e 2012, portanto todos estes 906 alunos em um ou vários períodos compreendidos entre os anos da pesquisa, efetuaram matricula no curso de Ciência da Computação da UNIVALI campus ItajaíSC, independentemente de ser ou não ingresso no período pesquisado. A Figura 4 apresenta a distribuição da evasão durante os anos pesquisados. Figura 4 - Alunos evadidos entre os anos de 2008 a 2012. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Uma tabulação destes dados fornece uma ideia mais clara desta distribuição, a Tabela 1 auxilia nesta tarefa explanando os dados tanto de evasão quanto de ingresso dos alunos da base 57 de dados estudada. Na Tabela 1 foram considerados todos os alunos ingressos inclusive os alunos que reingressaram no curso após um período de afastamento. A coluna “Alunos Matriculados” apresenta o número de alunos que efetuaram matricula por ano. Já a coluna “Evasões” não leva em consideração os alunos com tipo de afastamento “CONCLUSÃO” e “A COLAR GRAU”, devido a não fazerem parte da estáticas de evasão. Tabela 3 – Alunos ingressos, Alunos Matriculados e Alunos Evadidos. Alunos Percentual de Alunos Percentual Ingres Alunos Ingressos Matriculados sos Evasões de Percentual de Evasão Matriculas 1998 à 2007 229 25,27% - - 2008 150 16,55% 400 22,31% 91 16,02% 2009 136 15,01% 356 19,85% 137 24,12% 2010 144 15,89% 345 19,24% 121 21,30% 2011 117 12,91% 337 18,80% 112 19,72% 2012 130 14,35% 355 19,80% 107 18,84% Total 906 1793 568 Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Pode-se observar através da Tabela 1, como já exposto anteriormente, uma queda no número de alunos ingressos entre os anos de 2008 à 2012 e como consequência o número de alunos matriculados também diminui sutilmente neste período. Em contrapartida o número de evasões possui uma crescimento entre 2008 e 2009 e entre 2010 e 2012 pode-se observar uma queda neste número acompanhando a queda no número de alunos matriculados e ingressos. Na sequência a Figura 5 demonstra os alunos que ingressaram no curso durante o ano de 2008 e a evolução da evasão destes alunos. No ano de 2008, 150 alunos ingressaram no curso de Ciência da Computação da UNIVALI campus Itajaí e como pode ser notado, neste mesmo ano já houveram 44 evasões. Dos 150 alunos que ingressaram em 2008 evadiram 113 entre 2008 e 2012 restando assim, apenas 37 alunos após este período. 58 Figura 5– Evasão dos alunos ingressos em 2008. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Considera-se para fins deste estudo como “Evasão Escolar”, os seguintes tipos de afastamento: “ABANDONO”, “NÃO CONFIRMADA”, “CANCELAMENTO”, “CANCELAMENTO 70%”, “TRANSFERENCIA INTERNA” e “TRANSFERENCIA EXTERNA”. Entre os dados levantados ainda existem outros 2 (dois) tipo de afastamento que não são considerados na análise pois tratam da fase final do curso que são: “CONCLUSÃO” e “A COLAR GRAU”. Uma descrição de cada tipo de evasão encontrada na base de dados é apresentada na sequência: Abandono: O abandono ocorre quando o aluno não comparece mais as aulas a partir de um determinado período dentro do semestre e ou não faz nova matrícula no semestre seguinte, sem apresentar uma justificativa; Não Confirmada: Ocorre por um período específico de tempo, quando o aluno efetua a matricula e deixa de pagar a primeira mensalidade. Após um tempo prédeterminado o status muda para abandono se o aluno não quitar o boleto ou para confirmado se o pagamento ocorreu; Cancelamento: Quando o aluno entra em contato com a instituição e informa que se afastará por um determinado período; Cancelamento 70%: Quando o aluno entra em contato com a instituição e informa que se afastará por um determinado período, porém, o aviso deve ocorrer no início do semestre letivo e parte do valor já pago pelo aluno é reembolsado; 59 Transferência Interna: Ocorre quando o aluno transfere-se de um curso para outro dentro da instituição; Transferência Externa: Ocorre quando o aluno transfere-se de uma instituição para outra; Conclusão: Quando o alunos afasta-se da instituição pro conclusão do curso; A Colar Grau: Quando o alunos afasta-se da instituição pro conclusão do curso mas falta algum requisito par poder colar grau e deverá aguardar por um período de tempo até a finalização do processo. Na sequência a Figura 6 representa como fica esta distribuição entre os anos de 2008 a 2012 das evasões dos alunos que ingressaram no curso no ano de 2008. Figura 6 - Tipos de Afastamento dos alunos ingressos em 2008 (Detalhamento entre 2008 e 2012) Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Observando a Figura 6 nota-se que o tipo de afastamento “ABANDONO” é o predominante. Este tido de afastamento ocorre quando o aluno deixa de frequentar o curso durante o semestre ou quando o aluno não faz a rematrícula, estes dois casos caracterizam o “ABANDONO”. 60 Inserindo uma tabela com os dados relativos a Figura 6 é possível aumentar a percepção sobre os dados apresentados. Nota-se que os dados representam a totalidade das evasões dos alunos ingressos no curso em 2008, agrupando-os pelo tipo de afastamento. Tabela 4 - Detalhamento das Evasões dos Alunos Ingressos em 2008. 2008 2009 2010 2011 2012 Abandono 3 12 32 5 4 Cancelamento 0 3 1 0 0 70% Cancelamento 0 17 2 1 0 Transferência 2 8 20 5 0 Interna Transferência 0 0 1 0 1 Externa Trancamento 1 4 4 2 0 Não 1 0 0 0 0 Confirmada Total por Ano 44 60 13 5 7 Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Total por tipo Percentuais de Evasão por Tipo 56 43,41% 4 3,10% 20 15,50% 35 27,13% 2 1,55% 11 8,53% 1 0,78% A partir da Figura 6 pode-se verificar mais claramente que os índices de evasão são mais altos nos primeiros períodos do curso, mais especificamente nos 3 primeiros períodos. Esta afirmação pode ser comprovada analisando a Figura 7 que detalha a evasão dos alunos que ingressaram no curso de Ciência da Computação no ano/semestre de 2008/1. Figura 7 - Evasão por semestre alunos ingressos em 2008/1 Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Buscando um novo panorama referente ao apresentado nas Figura 6 e Figura 7, foi trabalhado na Tabela 3 a distribuição das evasões referentes aos alunos ingressos no ano de 61 2008 semestre 1. O total de ingressos no Curso de Ciência da Computação da UNIVALI campus Itajaí no ano de 2008 semestre 1 foi de 91 alunos sendo que o total de evasões entre 2008 e 2012 foi de 78. Observando mais a fundo, verifica-se que o número de alunos evadidos é diferente do número de evasões, sendo que o total de alunos evadidos é de 70 para estes períodos, isto se dá devido à alguns alunos terem se afastado em um determinado semestre, retornado ao curso e se afastado novamente, configurando assim 2 afastamentos. A Tabela 3 demonstra esta distribuição. Tabela 5 - Distribuição da evasão para alunos ingressos em 2008/1. 2008/1 2008/2 2009/1 2009/2 2010/1 2010/2 2011/1 Abandono 0 12 11 5 1 0 2 Cancelamento 3 0 0 0 0 0 0 70% Cancelamento 9 3 2 0 0 0 0 Transferência 0 8 5 3 2 0 0 Interna Transferência 0 0 1 0 0 0 0 Externa Trancamento 1 1 3 0 0 0 0 Não 0 0 0 0 0 0 0 Confirmada Total de Alunos 13 24 22 8 3 0 2 Evadidos Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. 2011/2 2012/1 2012/2 0 1 2 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 1 3 2 Algumas informações importantes podem ser levantadas com relação ao que foi apresentado até aqui. Referente a evasão são possíveis diversos tipos de cálculos, cada um tendo um significado buscando demonstrar situações especificas dentro do contexto estudado. Um exemplo de cálculo é o da Taxa de Conclusão do Curso, conforme Equação 1 abaixo: Equação 1 - Cálculo da Taxa de Conclusão do Curso. T = C(n)/(I(n − 4) ) Fonte: (SILVA FILHO; LOBO, 2013). Em um curso de 5 (cinco) anos, como é o caso do curso estudado, quem ingressou em 2008/1, I(n-4), deveria ser concluinte em 2012/2, C(n) (para ingressantes se considera número do início do ano e para concluintes o do final do ano, por isso 5 anos de curso comparam os concluintes de 2012/2 com os ingressantes de 2008/1) (SILVA FILHO; LOBO, 2013). Pôde-se então calcular a taxa de evasão do curso para os alunos que ingressaram em 2008/1, sendo que o total de alunos concluintes em 2012/2 foi de 6 alunos e o resultando da taxa de conclusão de curso 62 para este caso foi de 6,59%. O desenvolvimento deste cálculo é detalhado a seguir através do Quadro 3: Quadro 3 - Desenvolvimento Cálculo Taxa de Conclusão de Curso. Alunos Ingressos em 2008/1 = 91 ou I(n-4) Atributos do Cálculo Alunos Concluintes em 2012/2 = 6 ou C(n) 𝑇 = 𝐶(𝑛)/(𝐼(𝑛 − 4)) 𝑇 = 6/91 Desenvolvimento do Cálculo 𝑇 = 0,0659 𝑜𝑢 6,59% Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Foram calculadas também as taxas de evasão por ano utilizando a Equação 2: Equação 2 -Taxa de evasão em um determinado período. Evasão = 1 − [M(n + 1) − I(n + 1)]/[M(n) − C(n)] Fonte: (SILVA FILHO; LOBO, 2013). Utilizando a Equação 2, aonde M(n)-C(n) é número de matriculados no ano n menos o número de concluintes naquele ano e M(n+1)-I(n+1) o número de matriculados no ano n+1 menos o número de ingressantes naquele ano pôde-se então elaborar a Tabela 4. A Equação 2 trabalha com dados anuais, nada que impeça a utilização para outros período de tempo, conforme observa-se na Tabela 4. A utilização de semestres em contra partida à anos foi devido a UNIVALI trabalhar com taxas de evasão semestrais, o que na verdade reflete melhor a realidade dos dados. Tabela 6 – Cálculo da Taxa de Evasão Semestral. Alunos Alunos Alunos Alunos Taxa de Ingressos Matriculados Evadidos Egressos Evasão Anual 2008/1 91 339 33 17 24,22% 2008/2 59 303 66 10 24,91% 2009/1 92 312 72 15 25,25% 2009/2 44 266 57 18 18,95% 2010/1 90 291 55 6 20,70% 2010/2 54 280 63 17 17,11% 2011/1 81 299 52 11 18,40% 63 2011/2 36 271 59 7 15,91% 2012/1 75 297 56 16 16,01% 2012/2 55 291 52 18 - Total 906 Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Visualizando a Tabela 4 nota-se que não foi possível calcular a taxa de evasão de 2012/2, isto se deve a falta dos dados de 2013/1 na base estudada. Mesmo sem a taxa de evasão de 2012/2 uma constatação importante pode ser feita sobre os resultados da Tabela 4, a Taxa de Evasão dos alunos do Curso de Ciência da Computação vem caindo, sendo que em 2008/1 e 2008/2 esta taxa estava próxima de 25% chegando em 2012/1 e 2012/2 próxima aos 16%. O Quadro 4 apresenta o desenvolvimento do cálculo da Taxe de Evasão Semestral: Quadro 4 - Desenvolvimento Cálculo Taxa Evasão Semestral. Número de Alunos Matriculados no Semestre- M(n) Número de Alunos Concluintes no Semestre - C(n) Atributos do Cálculo Número de Alunos Matriculados no Semestre n+1 - M(n+1) Número de Alunos Ingressantes no Semestre n+1 - I(n+1) Evasão = 1 − [M(n + 1) − I(n + 1)]/[M(n) − C(n)] Evasão = 1 − [303 − 59]/[339 − 17] Desenvolvimento do Cálculo Evasão = 1 − [244/322] Evasão = 0,2422 ou 24,22% Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Outra análise feita diz respeito a questão das disciplinas cursadas pelos alunos evadidos. Na Figura 9 os alunos ingressos no ano de 2008/1 são agrupados pelo período que estavam no curso no ano/semestre em que evadiram e quais disciplinas cursavam no ano/semestre da evasão, sendo que foram selecionados apenas os alunos que evadiram com o tipo de afastamento “ABANDONO”. 64 Figura 8 – Alunos evadidos por período acadêmico disciplinas mais cursadas no semestre da evasão. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Visualizando a Figura 8 é possível notar claramente uma queda no número de alunos evadidos conforme os períodos vão avançado para o final o curso. Nota-se também que algumas disciplinas se destacam como as mais cursadas pelos alunos evadidos, conforme a legenda, sendo elas: Algoritmos e Programação, Computação Básica, Matemática Computacional, Álgebra Linear e Cálculo, todas do início do curso. Ainda analisando as disciplinas que os alunos cursavam no semestre em que evadiram pode-se determinar qual área a maioria das disciplinas pertencem. Conforme Figura 9 as disciplinas do grupo das disciplinas de Matemática são as que tem maior frequência nos semestres em que os alunos evadem e em segundo lugar vem as da área de Programação e em terceiro as de Infraestrutura. 65 Figura 9 - Disciplinas mais cursadas por alunos evadidos, agrupamento por área. Áre das Disciplinas mais Cursadas 300 249 250 198 200 138 150 123 100 50 3 6 6 0 Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Pode-se verificar no eixo “x” as áreas que agrupam as disciplinas e no eixo “y” a quantidade de vezes que as disciplinas de dada área estavam presentes nas matriculas do alunos evadidos. Um exemplo são as disciplinas da área de matemática que aparecem 249 vezes entres as matriculas dos alunos em questão, sendo que dentre elas três disciplinas se destacam com o maior frequência que são Matemática Computacional, Álgebra Linear e Cálculo como já destacado na Figura 9 acima. Na sequência do trabalho iniciou-se a aplicação de algoritmos de mineração sobre a base dos alunos de Ciência da Computação da UNIVALI campus Itajaí – SC. Foram utilizadas tarefas de clusterização, associação e classificação que geraram um modelo de conhecimento que foi analisado, interpretado e validado. Nesta etapa também foram feitas as análises, interpretações do modelo de conhecimento obtido. A validação dos resultados que deveria ocorrer através do especialista da área de informática e do especialista na área de ensino da UNIVALI não foi possível devido ao tempo. Para a validação, os resultados estatísticos apurados nesta pesquisa seriam comparados com os dados estatísticos da UNIVALI, na tentativa de observar a similaridade existente e 66 consequentemente atestando que a base de dados selecionada está correta e não distorce a realidade. Outra alternativa de validação seria a análise dos atributos, ainda na etapa de seleção, pelo especialista da área de ensino da UNIVALI. Isso seria extremamente útil pois, através de sua experiência, ele poderia indicar quais destes atributos seriam mais propensos a apresentar resultados bons resultados e ajudar a eliminar aqueles que não teriam relevância alguma. 3.2.2.1 Clusterização Através da Clusterização buscou-se classificar os dados de forma não supervisionada a fim de agrupar os dados através das suas similaridades. Foram trabalhados algoritmos que agruparam de forma a descobrir algum padrão novo e útil na base de dados. Para que fosse possível trabalhar estes dados foram utilizados os argumentos conforme Quadro 3: Quadro 5 – Argumentos para clusterização algoritmo SimpleKMeans, desempenho acadêmico, dados afastamento alunos evadidos toda a pesquisa. Base: Data Mart Evasão Query: SELECT IF(fatos_desenpenho_aluno.Media_Calculada = 0, 1, 0)AS Nota_Evasao, IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND fatos_desenpenho_aluno.Media_Calculada <= 4, 1, 0) AS Nota_Reprovado_0a4, IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND fatos_desenpenho_aluno.Media_Calculada < 6, 1, 0) AS Nota_Reprovado_4a6, IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND fatos_desenpenho_aluno.Media_Calculada < 8, 1, 0) AS Nota_Aprovado_6a8, IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND fatos_desenpenho_aluno.Media_Calculada <= 10, 1, 0) AS Nota_Aprovado_8a10, IF(fatos_afastamento.Idade_na_Data_Afastamento < 18, 1, 0)AS Adolecente, IF(fatos_afastamento.Idade_na_Data_Afastamento >= 18 AND fatos_afastamento.Idade_na_Data_Afastamento <= 21 , 1, 0)AS tem_18_a_21_anos, IF(fatos_afastamento.Idade_na_Data_Afastamento > 21 AND fatos_afastamento.Idade_na_Data_Afastamento <= 25, 1, 0) AS tem_22_a_25_anos, IF(fatos_afastamento.Idade_na_Data_Afastamento > 25, 1, 0) AS mais_de_25_anos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno < 10, 1, 0) AS Menos_de_10_creditos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno >= 10 and fatos_desenpenho_aluno.Creditos_Academicos_Aluno <= 16, 1, 0) AS de_10_a_16_creditos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno >= 17 and fatos_desenpenho_aluno.Creditos_Academicos_Aluno <= 20, 1, 0) AS de_17_a_20_creditos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno > 20, 1, 0) AS Mais_de_20_creditos, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno < 4, 1, 0) AS InicioCurso, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 4 AND fatos_desenpenho_aluno.Periodo_Academico_Aluno <= 7, 1, 0) AS MeioCurso, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 8, 1, 0) AS FinalCurso, IF(fatos_desenpenho_aluno.Aluno_Prouni LIKE "S", 1, 0) AS AlunoProuni, IF(fatos_afastamento.Tipo_Afastamento = 'abandono', 1, 0) AS Abandono, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento', 1, 0) AS cancelamento, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento 70%', 1, 0) AS Cancelamento_70, IF(fatos_afastamento.Tipo_Afastamento = 'nao confirmada', 1, 0) AS Nao_Confirmada, IF(fatos_afastamento.Tipo_Afastamento = 'trancamento', 1, 0) AS trancamento, 67 IF(fatos_afastamento.Tipo_Afastamento = 'transf.interna', 1, 0) AS Transferencia_Interna, IF(fatos_afastamento.Tipo_Afastamento = 'transf.externa', 1, 0) AS Transferencia_Externa FROM fatos_desenpenho_aluno INNER JOIN fatos_afastamento ON fatos_desenpenho_aluno.id_Aluno = fatos_afastamento.id_Aluno WHERE Tipo_Afastamento <> 'conclusao' AND Tipo_Afastamento <> 'a colar grau' AND Media_Parcial_Sigla <> 'acrf' AND Media_Parcial_Sigla <> 'adrf' AND Media_Parcial_Sigla <> 'ap' Justificativa Realizar a clusterização dos dados do desempenho de todos os alunos evadidos. Serão divididos em 04 grupos com o intuito de que os membros de cada grupo tenham mais similaridades entre si e mais diferenças para os membros dos outros grupos. Algoritmo weka.clusterers.SimpleKMeans -N 4 -A "weka.core.EuclideanDistance -R first-last" -I 500 -S 25 Atributos inicialmente presentes fatos_desenpenho_aluno.Media_Calculada, fatos_afastamento.Idade_na_Data_Afastamento, fatos_desenpenho_aluno.Creditos_Academicos_Aluno, fatos_desenpenho_aluno.Periodo_Academico_Aluno, fatos_desenpenho_aluno.Aluno_Prouni, fatos_afastamento.Tipo_Afastamento Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Os 4 (quatro) cluster encontrados pelo algoritmo dividiram os dados de desempenho e afastamento dos alunos e forneceram algumas informações importantes conforme descrito abaixo. A Figura 10 apresenta o modelo de conhecimento gerado pelo algoritmo e é encontrada também na sequência. Em uma análise geral pode-se dizer que existe uma distribuição das notas entre as faixas especificadas, não se sobressaindo nenhuma das faixas em relação as outras; 53% dos alunos evadidos fazem entre 17 e 20 créditos acadêmicos no semestre em que evadiram; Quase 50% dos alunos evadidos do curso estão na faixa etária entre 18 e 21 anos; Quase 60% dos alunos estão no início do curso; 43% dos alunos tiveram tipo de afastamento “Abandono”. O Cluster 1, traçou um perfil de aluno que abrange 16% do total de alunos evadidos que são aqueles que em 100% dos caso tiram nota acima de 8, em sua grande maioria tem acima de 22 anos 76,33%, cursam entre 10 e 20 créditos por semestre com 98% de certeza, 42% estão no meio do curso (entre 4º e 7º períodos), e abandonaram o curso em 54,53% dos casos. Este perfil é um perfil interessante para um aprofundamento das pesquisas; 68 O Cluster 2, agrupa a maioria dos alunos evadidos com 39% dos casos e é composto por alunos com idade entre 18 e 21 anos (85% dos casos), cursavam de 17 a 20 créditos (74% dos casos) e em 90% das ocorrências foram de alunos no início do curso e que abandonaram com 39% de chance; O Cluster 0 com 32% dos casos, são alunos com 38% das notas entre 6 e 8, com idade entre 22 e 25 anos (62 %) e que cursam 10 a 16 créditos (68%), estão no meio do curso (46%) e tiveram tipo de evasão abandono (59%). 69 Figura 10 – Resultado clusterização algoritmo SimpleKMeans, desempenho acadêmico, dados afastamento alunos evadidos toda a pesquisa. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. 70 O Trabalho teve sequência analisando dados de alunos evadidos e seu desempenho durante os períodos do curso. O Quadro 4 apresenta os argumentos utilizados para esta experimentação: Quadro 6- Argumentos para clusterização algoritmo SimpleKMeans, alunos evadidos. Base: Data Mart Evasão Query: SELECT IF(fatos_desenpenho_aluno.Media_Calculada = 0, 1, 0) AS Nota_Evasao, IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND fatos_desenpenho_aluno.Media_Calculada <= 4, 1, 0) AS Nota_Reprovado_0a4, IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND fatos_desenpenho_aluno.Media_Calculada < 6, 1, 0) AS Nota_Reprovado_4a6, IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND fatos_desenpenho_aluno.Media_Calculada < 8, 1, 0) AS Nota_Aprovado_6a8, IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND fatos_desenpenho_aluno.Media_Calculada <= 10, 1, 0) AS Nota_Aprovado_8a10, IF(Status_Disciplina = 4 AND Status_Frequencia = "I", 1, 0) AS ReprovadoFrequencia, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno < 4, 1, 0) AS InicioCurso, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 4 AND fatos_desenpenho_aluno.Periodo_Academico_Aluno <= 7, 1, 0) AS MeioCurso, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 8, 1, 0) AS FinalCurso, IF(fatos_desenpenho_aluno.Aluno_Prouni LIKE "S", 1, 0) AS AlunoProuni, fatos_desenpenho_aluno.Media_Parcial_Sigla, fatos_afastamento.Ano_Letivo_Afastamento, fatos_afastamento.Semestre_Letivo_Afastamento, fatos_afastamento.Tipo_Afastamento FROM fatos_afastamento INNER JOIN dimensao_aluno ON fatos_afastamento.id_Aluno = dimensao_aluno.id_Aluno INNER JOIN fatos_desenpenho_aluno ON fatos_afastamento.id_Aluno = fatos_desenpenho_aluno.id_Aluno WHERE fatos_afastamento.Tipo_Afastamento <> 'conclusao' AND Tipo_Afastamento <> 'A COLAR GRAU' Justificativa Realizar a clusterizaçao dos dados de todos os alunos evadidos e seu desempenho no decorrer dos períodos, foram divididos em 05 grupos com o intuito de que os membros de cada grupo tenham mais similaridades entre si e mais diferenças para os membros dos outros grupos. Algoritmo weka.clusterers.SimpleKMeans -N 5 -A "weka.core.EuclideanDistance -R first-last" -I 500 -S 10 Atributos inicialmente presentes Nota_Evasao, Nota_Reprovado_0a4, Nota_Reprovado_4a6, Nota_Aprovado_6a8, Nota_Aprovado_8a10, ReprovadoFrequencia, InicioCurso, MeioCurso, FinalCurso, AlunoProuni, fatos_desenpenho_aluno.Media_Parcial_Sigla, fatos_afastamento.Ano_Letivo_Afastamento, fatos_afastamento.Semestre_Letivo_Afastamento, fatos_afastamento.Tipo_Afastamento Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. A Figura 11 a seguir, apresenta os resultados encontrados para esta experiência. Também foi analisando o modelo de dados gerado e pode-se chegar a algumas considerações importantes com relação aos alunos evadidos e seu desempenho acadêmico conforme destacado abaixo: 71 Referente as notas dos alunos observou-se uma distribuição uniforme, cerca de 47% dos registros com nota acima de 6 (aprovado) e 53% dos registros com notas abaixo de 6 (reprovado); 61% dos alunos evadidos estavam no início do curso, entre o 1º e 3º períodos; O Cluster 4 com 16% dos registros agrupa os alunos que são do início do curso (entre 1º e 3º períodos), reprovaram por frequência insuficiente em 70% dos casos e em 95% das vezes não tiveram nota para a M3; O Cluster 0 com 24% dos registros agrupa alunos do início do curso (entre 1º e 3º períodos), que apesar de em 70% terem notas acima de 6 (aprovado) evadiram do curso. 72 Figura 11 – Resultado Clusterização algoritmo SimpleKMeans, 5 Clusters, alunos evadidos. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Em mais uma experiência de Clusterização foram trabalhados dados pessoais da tabela “Dimensão_Aluno” e de evasão da tabela “Fatos_Afastamento de todos os alunos pesquisados. No Quadro 5 são apresentados os argumentos da pesquisa. 73 Quadro 7 – Argumentos para Clusterização, dados pessoais e de evasão dos alunos. Base: Data Mart Evasão Query: SELECT IF(dimensao_aluno.Estado_Civil = 'solteiro', 1, 0) AS Solteiro, IF(dimensao_aluno.Estado_Civil = 'casado', 1, 0) AS Casado, IF(dimensao_aluno.Estado_Civil = 'outros', 1, 0) AS Outros, IF(dimensao_aluno.Sexo = 'masculino', 1, 0) AS Masculino, IF(dimensao_aluno.Sexo = 'feminino', 1, 0) AS Feminino, IF(fatos_afastamento.Tipo_Afastamento = 'abandono', 1, 0) AS Abandono, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento', 1, 0) AS cancelamento, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento 70%', 1, 0) AS Cancelamento_70, IF(fatos_afastamento.Tipo_Afastamento = 'nao confirmada', 1, 0) AS Nao_Confirmada, IF(fatos_afastamento.Tipo_Afastamento = 'trancamento', 1, 0) AS trancamento, IF(fatos_afastamento.Tipo_Afastamento = 'transf.interna', 1, 0) AS Transferencia_Interna, IF(fatos_afastamento.Tipo_Afastamento = 'transf.externa', 1, 0) AS Transferencia_Externa, IF(ISNULL(fatos_afastamento.Tipo_Afastamento), 1, 0) AS Cursando, IF(fatos_afastamento.Idade_na_Data_Afastamento < 18, 1, 0)AS Adolecente, IF(fatos_afastamento.Idade_na_Data_Afastamento >= 18 AND fatos_afastamento.Idade_na_Data_Afastamento <= 21 , 1, 0)AS tem_18_a_21_anos, IF(fatos_afastamento.Idade_na_Data_Afastamento > 21 AND fatos_afastamento.Idade_na_Data_Afastamento <= 25, 1, 0) AS tem_22_a_25_anos, IF(Idade_na_Data_Afastamento > 25, 1, 0) AS mais_de_25_anos, dimensao_aluno.Status_Formando FROM dimensao_aluno LEFT OUTER JOIN fatos_afastamento ON dimensao_aluno.id_Aluno = fatos_afastamento.id_Aluno Justificativa Realizar a Clusterização entre atributos pessoais e de evasão de todos os alunos da base de dados independente do tipo de afastamento e considerando alunos evadidos e não evadidos. O algoritmo dividiu os alunos em 6 clusters distintos conforme apresendados na Figura 12. Algoritmo weka.clusterers.MakeDensityBasedClusterer -M 1.0E-6 -W weka.clusterers.SimpleKMeans - -N 6 -A "weka.core.EuclideanDistance -R first-last" -I 500 -S 10 Atributos dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, fatos_afastamento.Tipo_Afastamento, inicialmente fatos_afastamento.Idade_na_Data_Afastamento, dimensao_aluno.Status_Formando presentes Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. A Clusterização apresentou 6 grupos de alunos e foi possível identificar alguns características através dos resultados extraídos. Pode-se notar também que os atributos da pesquisa não referem-se ao desempenho acadêmico dos alunos mas mantém a relação com a evasão e permite algumas visualizações interessantes. O Cluster 0, contém 18% dos alunos e apresenta alunos em sua grande maioria tem estado civil como solteiro (99,5%), são do sexo masculino (91,09%), os tipos de afastamento estão divididos sendo que o único que não está presente neste grupo é o abandono, além disto este cluster é composto apenas por alunos evadidos e que tem idade superior a 22 anos sendo de 22 a 25, 45,54% e mais que 25 anos 48,51%. O Cluster 1 agrupou 30% dos alunos sendo que todos solteiros e 93,08% do sexo masculino. Este grupo de alunos apresentou uma divisão nos tipos de afastamento porém com uma predominância do tipo abandono (42,45%), neste grupo não existem alunos não evadidos e todos tem de 18 a 21 anos. 74 No Cluster 2 15% dos alunos estão alocados sendo que 99,26% são solteiros e 91,85% são do sexo masculino. Todos estes alunos evadiram e o tipo de afastamento para todos foi abandono e como no cluster 0 a maioria dos alunos tem mais de 22 anos sendo que 54,07% tem entre 22 e 25 anos e 44,44% tem 25 anos ou mais. O Cluster 3 agrupou 21% dos alunos sendo nestes cluster nenhum aluno evadiu ou seja 100% Cursando. A maioria dos alunos pertence ao sexo masculino e é solteiro 92,93% e 98,99% respectivamente. Já no Cluster 4 os 4% dos alunos ali alocados tem predominância de estado civil igual a casado (87,5%) e neste cluster 84% dos alunos são do sexo masculino e os tipos de afastamento estão divididos sendo que existem 18% destes que estão cursando e nota-se também que a faixa etária predominante neste grupo é acima de 25 anos com 65,63% dos casos. O Cluster 5 é o único que agrupa alunos com status conclusão de curso igual a sim e em sua grande maioria são do sexo masculino e solteiros, sendo que todos tem de 22 a 25 anos. Este cluster agrupou 13% dos alunos. Em primeira análise observa-se que os agrupamentos gerados não definem um perfil com uma especificidade que se destaque dos outros. O Cluster 3 com apenas alunos com tipo de afastamento igual a cursando, apontou alunos do sexo masculino e solteiros, sendo que esta informação estatística é de fácil obtenção não necessitando mineração e dados para a tarefa. Com relação aos outros clusters verifica-se uma divisão não muito reveladora, um exemplo são os Cluster 0 e o Cluster 2 pois possuem valores de atributos muito semelhantes, sendo que a diferença está somente no que se refere ao tipo de afastamento. Apesar de não revelar um modelo de conhecimento tão valioso, ainda pôde-se entender com a pesquisa que, em relação a estes atributos e para a base de dados em questão, não foi possível apontar um grupo específico de alunos que por estas características tenha tendência a evasão. A Figura 12 apresenta os resultados comentados sobre esta experiência: 75 Figura 12 – Resultados para Clusterização, dados pessoais e de evasão dos alunos Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. 3.2.2.2 Associação Buscando identificar relações entre atributos da base de dados foram trabalhadas regras de associação entre as tabelas da base de dados e seus atributos. A experiência a seguir tentou descobrir possíveis indícios entre as notas dos alunos evadidos e as disciplinas cursadas por eles conforme apresentado no Quadro 5: 76 Quadro 8 - Argumentos para Associação algoritmo PredictiveApriori, alunos tipo de afastamento abandono, notas, disciplinas e categoria. Base: Data Mart Evasão Query: SELECT IF(fatos_desenpenho_aluno.Media_Calculada = 0, 'Sim', 'nao')AS Nota_Evasao, IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND fatos_desenpenho_aluno.Media_Calculada <= 4, 'Sim', 'nao') AS Nota_Reprovado_0a4, IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND fatos_desenpenho_aluno.Media_Calculada < 6, 'Sim', 'nao') AS Nota_Reprovado_4a6, IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND fatos_desenpenho_aluno.Media_Calculada < 8, 'Sim', 'nao') AS Nota_Aprovado_6a8, IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND fatos_desenpenho_aluno.Media_Calculada <= 10, 'Sim', 'nao') AS Nota_Aprovado_8a10, fatos_afastamento.Ano_Letivo_Afastamento, dimensao_disciplina.Nome_Disciplina, dimensao_disciplina.Categoria, fatos_desenpenho_aluno.Media_Parcial_Sigla FROM fatos_afastamento INNER JOIN fatos_desenpenho_aluno ON fatos_afastamento.id_Aluno = fatos_desenpenho_aluno.id_Aluno INNER JOIN dimensao_disciplina ON fatos_desenpenho_aluno.id_Disciplina = dimensao_disciplina.id_Disciplina WHERE Afastamento = 'abandono' Justificativa Realizar a associação entre atributos de alunos evadidos com tipo de afastamento abandono e considerando as disciplinas cursadas e suas categorias durante os anos pesquisados. Foi feita uma segmentação das notas para aumentar as possibilidades de encontrar relações Algoritmo weka.associations.PredictiveApriori -N 200 -c -1 Atributos fatos_desenpenho_aluno.Media_Calculada, fatos_afastamento.Ano_Letivo_Afastamento, inicialmente dimensao_disciplina.Nome_Disciplina, dimensao_disciplina.Categoria, presentes fatos_desenpenho_aluno.Media_Parcial_Sigla Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Conforme pode ser visto abaixo, foram coletados alguns resultados gerados pela experiência descrita no Quadro 6 e explicada a seguir: Quadro 9 – Resultados gerados pela ferramenta WEKA e interpretação, para Associação algoritmo PredictiveApriori, alunos evadidos, tipo afastamento abandono nos anos pesquisados. Resultados 1 1. Nota_Evasao=Sim Ano_Letivo_Afastamento=12 Categoria=Complementares 9 ==> Nome_Disciplina=TOPICOS ESPECIAIS EM COMPUTACAO 9 acc:(0.90578) Interpretação 1 As notas zero dos alunos com ano letivo de afastamento igual a 2012 e para disciplina da categoria das disciplinas complementares, com 90% de certeza pertence a disciplina de Tópicos Especiais em Computação. Resultados 2 2. Nota_Aprovado_8a10=Sim Ano_Letivo_Afastamento=9 Categoria=Analise e Projeto de Sistemas Media_Parcial_Sigla=M3 7 ==> Nome_Disciplina=BANCO DE DADOS 7 acc:(0.88251) Interpretação 2 Alunos que se afastaram em 2009 e tiveram notas entre 8 e 10 na média parcial M3 para uma disciplina da categoria Análise e Projeto de Sistemas, com 88% de certeza foi para a disciplina de Banco de Dados. Resultado 3 Nota_Evasao=Sim Ano_Letivo_Afastamento=11 Categoria=Humanas Media_Parcial_Sigla=M1 6 ==> Nome_Disciplina=METODOLOGIA DA PESQUISA 5 acc:(0.72288) Interpretação 3 Alunos evadidos em 2011 que cursaram disciplinas da categoria humanas e tem nota zero na média parcial M1, cursaram Metodologia da Pesquisa com 72% de certeza. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. A segunda experiência com associação foi feita trabalhando dados referente ao desempenho acadêmico dos alunos relacionado com as disciplina cursadas e o tipo de 77 afastamento, o principal diferencial desta experiência para a anterior está relacionada a ao período trabalhado e também à análise de todos os tipos de afastamentos vide Quadro 7 a seguir: Quadro 10 - Argumentos para Associação algoritmo Apriori, alunos evadidos, desempenho acadêmico segmentado com período pré-estabelecido. Base: Data Mart Evasão Query: SELECT IF(fatos_desenpenho_aluno.Media_Calculada = 0, 'Sim', 'nao')AS Nota_Evasao, IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND fatos_desenpenho_aluno.Media_Calculada <= 4, 'Sim', 'nao') AS Nota_Reprovado_0a4, IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND fatos_desenpenho_aluno.Media_Calculada < 6, 'Sim', 'nao') AS Nota_Reprovado_4a6, IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND fatos_desenpenho_aluno.Media_Calculada < 8, 'Sim', 'nao') AS Nota_Aprovado_6a8, IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND fatos_desenpenho_aluno.Media_Calculada <= 10, 'Sim', 'nao') AS Nota_Aprovado_8a10, fatos_desenpenho_aluno.Media_Parcial_Sigla, dimensao_disciplina.Nome_Disciplina, dimensao_disciplina.Categoria, fatos_afastamento.Tipo_Afastamento FROM fatos_afastamento INNER JOIN fatos_desenpenho_aluno ON fatos_afastamento.id_Aluno = fatos_desenpenho_aluno.id_Aluno INNER JOIN dimensao_disciplina ON fatos_desenpenho_aluno.id_Disciplina = dimensao_disciplina.id_Disciplina WHERE datamart. fatos_desenpenho_aluno.media_parcial_sigla = 'M1' OR datamart. fatos_desenpenho_aluno.media_parcial_sigla = 'M2' OR datamart. fatos_desenpenho_aluno.media_parcial_sigla = 'M3' AND datamart. fatos_afastamento.semestre_letivo_afastamento = 9 Justificativa Realizar a associação entre atributos de alunos evadidos considerando as disciplinas cursadas e o desempenho acadêmico com segmentação das médias calculadas dos alunos. Foram utilizados os dados dos alunso evadidos no ano de 2009. Algoritmo weka.associations.Apriori -N 1500 -T 0 -C 0.75 -D 0.01 -U 1.0 -M 0.01 -S -1.0 -c 10 Atributos inicialmente presentes fatos_desenpenho_aluno.Media_Calculada, fatos_afastamento.Ano_Letivo_Afastamento, fatos_afastamento.Idade_na_Data_Afastamento, dimensao_disciplina.Nome_Disciplina, dimensao_disciplina.Categoria, fatos_desenpenho_aluno.Creditos_Academicos_Aluno, fatos_desenpenho_aluno.Media_Parcial_Sigla Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Analisando os resultados da experiência acima chegou-se a algumas regras que contem significado relevante conforme abaixo. O Quadro 8 buscou reunir os resultados da análise feita através da ferramenta WEKA com a aplicação do algoritmo Apriori e a interpretação das regras obtidas: Quadro 11 - Argumentos para Associação algoritmo Apriori, alunos evadidos, desempenho acadêmico segmentado com período pré-estabelecido. Resultados 1 1. Media_Parcial_Sigla=M1 Tipo_Afastamento=ABANDONO 1938 ==> Nota_Evasao=nao 1776 conf:(0.92): Interpretação 1 Alunos evadidos com alguma nota na M1 (Media_Parcial_Sigla=M1) e o tipo de afastamento foi igual a abandono, não teve nota zero (Nota_Evasao=não) com 92% de certeza para a M1 (Media_Parcial_Sigla=M1) Resultados 2 Media_Parcial_Sigla=M2 Tipo_Afastamento=ABANDONO 1938 ==> Nota_Reprovado_4a6=nao 1756 conf:(0.91) Interpretação 2 Alunos evadidos com alguma nota na M2 (Media_Parcial_Sigla=M2) e o tipo de afastamento foi igual a abandono, não teve nota entre 4,1 a 6 (Nota_Reprovado_4a6=não) com 91% de certeza para a M2 (Media_Parcial_Sigla=M2) 78 Resultado 3 3. Tipo_Afastamento=ABANDONO 3876 ==> Nota_Reprovado_4a6=nao 3473 conf:(0.9): Interpretação 3 Com 90% de certeza se o tipo de afastamento for abandono os alunos não tiraram notas entre 4 e 6 (Nota_Reprovado_4a6); Resultado 4 4. Categoria=Programacao 2259 ==> Nota_Evasao=nao Nota_Reprovado_4a6=nao 1623 conf:(0.72) 5. Categoria=Programacao 2259 ==> Nota_Reprovado_0a4=nao Nota_Reprovado_4a6=nao 1622 conf:(0.72): Interpretação 4 As regras 4 e 5 refletem com 72% de confiança que se a categoria for programação então o aluno evadido não teve notas acima de 6. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Na sequência é apresentada a terceira experiência com associações, conforme pode se notar foram empenhados dados de todos os alunos evadidos especificando apenas o ano letivo, o Quadro 9 apresenta mais detalhes referentes a experiência. 79 Quadro 12- Argumentos para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. Base: Data Mart Evasão Query: SELECT IF(fatos_desenpenho_aluno.Media_Calculada = 0, 'Sim', NULL)AS Nota_Evasao, IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND fatos_desenpenho_aluno.Media_Calculada <= 4, 'Sim', NULL) AS Nota_Reprovado_0a4, IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND fatos_desenpenho_aluno.Media_Calculada < 6, 'Sim', NULL) AS Nota_Reprovado_4a6, IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND fatos_desenpenho_aluno.Media_Calculada < 8, 'Sim', NULL) AS Nota_Aprovado_6a8, IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND fatos_desenpenho_aluno.Media_Calculada <= 10, 'Sim', NULL) AS Nota_Aprovado_8a10, IF(fatos_afastamento.Idade_na_Data_Afastamento < 18, 'Sim', NULL)AS Adolecente, IF(fatos_afastamento.Idade_na_Data_Afastamento >= 18 AND fatos_afastamento.Idade_na_Data_Afastamento <= 21 , 'Sim', NULL)AS tem_18_a_21_anos, IF(fatos_afastamento.Idade_na_Data_Afastamento > 21 AND fatos_afastamento.Idade_na_Data_Afastamento <= 25, 'Sim', NULL) AS tem_22_a_25_anos, IF(fatos_afastamento.Idade_na_Data_Afastamento > 25, 'Sim', NULL) AS mais_de_25_anos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno < 10, 'Sim', NULL) AS Menos_de_10_creditos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno >= 10 and fatos_desenpenho_aluno.Creditos_Academicos_Aluno <= 16, 'Sim', NULL) AS de_10_a_16_creditos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno >= 17 and fatos_desenpenho_aluno.Creditos_Academicos_Aluno <= 20, 'Sim', NULL) AS de_17_a_20_creditos, IF(fatos_desenpenho_aluno.Creditos_Academicos_Aluno > 20, 'Sim', NULL) AS Mais_de_20_creditos, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno < 4, 'Sim',NULL) AS InicioCurso, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 4 AND fatos_desenpenho_aluno.Periodo_Academico_Aluno <= 7,'Sim',NULL) AS MeioCurso, IF(fatos_desenpenho_aluno.Periodo_Academico_Aluno >= 8,'Sim',NULL) AS FinalCurso, IF(fatos_desenpenho_aluno.Aluno_Prouni LIKE "S", 'Sim',NULL) AS AlunoProuni, IF(fatos_afastamento.Tipo_Afastamento = 'abandono', 'Sim', NULL) AS Abandono, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento', 'Sim', NULL) AS cancelamento, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento 70%', 'Sim', NULL) AS Cancelamento_70, IF(fatos_afastamento.Tipo_Afastamento = 'nao confirmada', 'Sim', NULL) AS Nao_Confirmada, IF(fatos_afastamento.Tipo_Afastamento = 'trancamento', 'Sim', NULL) AS trancamento, IF(fatos_afastamento.Tipo_Afastamento = 'transf.interna', 'Sim', NULL) AS Transferencia_Interna, IF(fatos_afastamento.Tipo_Afastamento = 'transf.externa', 'Sim', NULL) AS Transferencia_Externa FROM fatos_desenpenho_aluno INNER JOIN fatos_afastamento ON fatos_desenpenho_aluno.id_Aluno = fatos_afastamento.id_Aluno WHERE Ano_Letivo = 11 and Tipo_Afastamento <> 'conclusao' AND Tipo_Afastamento <> 'a colar grau' AND Media_Parcial_Sigla <> 'acrf' AND Media_Parcial_Sigla <> 'adrf' AND Media_Parcial_Sigla <> 'ap' Justificativa Realizar a associação entre atributos de alunos que evadiram do curso de Ciência da Computação no ano de 2011. Foram considerados o desempenho acadêmico com segmentação das médias calculadas dos alunos, período do aluno no curso, idade na data de afastamento e o tipo de afastamento. Foram realizadas segmentações e determinadas faixas para que fossem observadas difetentes nuances dos dados e suas relações. Algoritmo weka.associations.FPGrowth -P 2 -I -1 -N 500 -T 0 -C 0.5 -D 0.05 -U 1.0 -M 0.1 Atributos inicialmente presentes fatos_desenpenho_aluno.Media_Calculada, fatos_afastamento.Idade_na_Data_Afastamento, fatos_desenpenho_aluno.Creditos_Academicos_Aluno, fatos_desempenho_aluno.Media_Parcial_Sigla, fatos_desempenho_aluno.Periodo_Academico_Aluno, fatos_desempenho_aluno.Aluno_Prouni fatos_afastamento.Tipo_Afastamento Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. 80 Os resultados apresentados pela ferramenta com aplicação do algoritmo FPGrowth, sobre a base de dados estão expressos no Quadro 10 a seguir. Todas as 66 regras que o algoritmo gerou para esta experiência fazem sentido, foram trazidas para o texto apenas algumas das regras para demonstrar os resultados. Foram selecionadas também as regras com maior grau de confiança. Quadro 13- Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. Resultados 1 [tem_18_a_21_anos=Sim, de_10_a_16_creditos=Sim, Abandono=Sim]: 300 ==> [InicioCurso=Sim]: 279 <conf:(0.93)> lift:(1.49) lev:(0.04) conv:(5.14) Interpretação 1 Alunos com idade entre 18 e 21 anos que estava matriculado com a quantidade de 10 a 16 créditos e teve como tipo de afastamento o abandono em 2011 com confiança de 93% estava entre o 1º e o 3º períodos. Resultados 2 [Transferencia_Interna=Sim]: 297 ==> [InicioCurso=Sim]: 267 <conf:(0.9)> lift:(1.44) lev:(0.03) conv:(3.61) Interpretação 2 Aluno que em 2011 teve como tipo de afastamento transferência interna estava no início do curso, ou seja, entre o 1º e o 3º períodos com 90% de certeza. Resultado 3 [Transferencia_Interna=Sim]: 297 ==> [tem_18_a_21_anos=Sim]: 243 <conf:(0.82)> lift:(1.35) lev:(0.03) conv:(2.13) Interpretação 3 Com 82% de confiança pode se dizer que em 2011 se o aluno fez transferência interna ele tinha entre 18 e 21 anos. Resultado 4 [tem_18_a_21_anos=Sim, Nota_Evasao=Sim]: 319 ==> [InicioCurso=Sim]: 256 <conf:(0.8)> lift:(1.29) lev:(0.02) conv:(1.88) Interpretação 4 Aluno evadido em 2011 com 18 a 21 anos com nota zero (Nota_Evasao) com 80% de confiança estava entre o 1º e 3º períodos (InicioCurso) Resultado 5 [Nota_Evasao=Sim]: 574 ==> [InicioCurso=Sim]: 387 <conf:(0.67)> lift:(1.08) lev:(0.01) conv:(1.15) [Abandono=Sim]: 840 ==> [InicioCurso=Sim]: 564 <conf:(0.67)> lift:(1.08) lev:(0.02) conv:(1.14) Interpretação 5 A duas regras do Resultado 5 tem a mesma confiança de 67% e dizem que se o aluno evadido em 2011 tinha nota zero era do início do curso e se o tipo de afastamento foi abandono também era do início do curso. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Está experiência ainda abordou uma tentativa de aumentar o suporte mínimo para que regras de associação mais confiáveis fossem encontradas, ou seja, um filtro foi aplicado para que entre o montante de regras encontradas fossem selecionadas aquelas que tivessem a capacidade de ampliar a confiabilidade da pesquisa. Neste sentido foram feitas 4 tentativas com o suporte mínimo variando entre 50% e 20%. Na primeira experiência o suporte mínimo iniciou em 50%, o que não apresentou nenhuma regra, em um segundo momento o suporte mínimo foi alterado para 40% e ainda não apresentou nenhuma regra. A partir de 30% algumas regras foram encontradas, mas em contra partida, eram poucas e com pouco significado agregado então, foram alterados os parâmetros para 20% o que resultou em algumas regras conforme são apresentadas na Figura 13. 81 Figura 13 - Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Com 20% de suporte mínimo foram apresentadas somente 11 regras, dentre elas a regra 2 diz que “2. [InicioCurso=Sim, [tem_18_a_21_anos=Sim]: 705 de_17_a_20_creditos=Sim]: 996 ==> <conf:(0.71)> lift:(1.36) lev:(0.06) conv:(1.63)”, interpretando esta regra entende-se que alunos no início do curso que cursaram de 17 a 20 créditos no semestre em que evadiram tinham com 71% de certeza de 18 a 21 anos na data da evasão. Outra regra que pode ser observada e apresentada é a regra 11 que apresenta a seguinte interpretação: Com 55% de confiança alunos que cursaram 10 a 16 créditos no semestre que evadiram estavam no início do curso. O Quadro 12 apresenta todas as regras geradas: Quadro 14 - Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento. 1. [tem_18_a_21_anos=Sim]: 1554 ==> [InicioCurso=Sim]: 1152 <conf:(0.74)> lift:(1.29) lev:(0.09) conv:(1.63) 2. [InicioCurso=Sim, de_17_a_20_creditos=Sim]: 996 ==> [tem_18_a_21_anos=Sim]: 705 <conf:(0.71)> lift:(1.36) lev:(0.06) conv:(1.63) 3. [de_17_a_20_creditos=Sim, tem_18_a_21_anos=Sim]: 996 ==> [InicioCurso=Sim]: 705 <conf:(0.71)> lift:(1.23) lev:(0.04) conv:(1.44) 4. [InicioCurso=Sim]: 1719 ==> [tem_18_a_21_anos=Sim]: 1152 <conf:(0.67)> lift:(1.29) lev:(0.09) conv:(1.45) 5. [tem_18_a_21_anos=Sim]: 1554 ==> [de_17_a_20_creditos=Sim]: 996 <conf:(0.64)> lift:(1.19) lev:(0.05) conv:(1.28) 6. [de_17_a_20_creditos=Sim]: 1611 ==> [InicioCurso=Sim]: 996 <conf:(0.62)> lift:(1.07) lev:(0.02) conv:(1.11) 7. [de_17_a_20_creditos=Sim]: 1611 ==> [tem_18_a_21_anos=Sim]: 996 <conf:(0.62)> lift:(1.19) lev:(0.05) conv:(1.25) 8. [InicioCurso=Sim, tem_18_a_21_anos=Sim]: 1152 ==> [de_17_a_20_creditos=Sim]: 705 <conf:(0.61)> lift:(1.13) lev:(0.03) conv:(1.18) 9. [Abandono=Sim]: 1101 ==> [InicioCurso=Sim]: 639 <conf:(0.58)> lift:(1.01) lev:(0) conv:(1.01) 10. [InicioCurso=Sim]: 1719 ==> [de_17_a_20_creditos=Sim]: 996 <conf:(0.58)> lift:(1.07) lev:(0.02) conv:(1.09) 11. [de_10_a_16_creditos=Sim]: 1287 ==> [InicioCurso=Sim]: 702 <conf:(0.55)> lift:(0.95) lev:(-0.01) conv:(0.93) Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Uma tentativa de buscar novas regras para esta experiência foi a retirada de dois atributos os quais aparecem na maioria das regras geradas que foram: “tem_18_a_21_anos” e “InicioCurso”. Para esta nova configuração dos atributos foi diminuída a confiança mínima 82 para 20%, na expectativa de gerar um número maior de regras para avaliação. Porém a resposta do algoritmo foi um conjunto de 30 (trinta) regras com baixa confiança e com pouco ou nenhum significado agregado conforme pode ser visualizado na Figura 14 abaixo: Figura 14 – Resultados para Associação algoritmo FPGrowth, alunos evadidos, desempenho acadêmico, idade, número de créditos, período acadêmico e tipos de afastamento, exclusão de atributos. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Na sequência mais uma experiência de associação foram trabalhados os dados de todos os alunos evadidos ou não, sendo estes atributos pessoais e referentes a evasão, observando que alunos que não evadiram possuem status sim no atributo “Cursando”. Na sequência o Quadro 12 ilustra os argumentos utilizados na tarefa. 83 Quadro 15 - Argumentos para Associação algoritmo Apriori, todos os alunos, atributos pessoais e de evasão. Base: Data Mart Evasão Query: SELECT IF(dimensao_aluno.Estado_Civil = 'solteiro', 1, 0) AS Solteiro, IF(dimensao_aluno.Estado_Civil = 'casado', 1, 0) AS Casado, IF(dimensao_aluno.Estado_Civil = 'outros', 1, 0) AS Outros, IF(dimensao_aluno.Sexo = 'masculino', 1, 0) AS Masculino, IF(dimensao_aluno.Sexo = 'feminino', 1, 0) AS Feminino, IF(fatos_afastamento.Tipo_Afastamento = 'abandono', 1, 0) AS Abandono, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento', 1, 0) AS cancelamento, IF(fatos_afastamento.Tipo_Afastamento = 'cancelamento 70%', 1, 0) AS Cancelamento_70, IF(fatos_afastamento.Tipo_Afastamento = 'nao confirmada', 1, 0) AS Nao_Confirmada, IF(fatos_afastamento.Tipo_Afastamento = 'trancamento', 1, 0) AS trancamento, IF(fatos_afastamento.Tipo_Afastamento = 'transf.interna', 1, 0) AS Transferencia_Interna, IF(fatos_afastamento.Tipo_Afastamento = 'transf.externa', 1, 0) AS Transferencia_Externa, IF(ISNULL(fatos_afastamento.Tipo_Afastamento), 1, 0) AS Cursando, IF(fatos_afastamento.Idade_na_Data_Afastamento < 18, 1, 0)AS Adolecente, IF(fatos_afastamento.Idade_na_Data_Afastamento >= 18 AND fatos_afastamento.Idade_na_Data_Afastamento <= 21 , 1, 0)AS tem_18_a_21_anos, IF(fatos_afastamento.Idade_na_Data_Afastamento > 21 AND fatos_afastamento.Idade_na_Data_Afastamento <= 25, 1, 0) AS tem_22_a_25_anos, IF(Idade_na_Data_Afastamento > 25, 1, 0) AS mais_de_25_anos, dimensao_aluno.Status_Formando FROM dimensao_aluno LEFT OUTER JOIN fatos_afastamento ON dimensao_aluno.id_Aluno = fatos_afastamento.id_Aluno Justificativa Realizar a Associação entre atributos pessoais e de evasão de todos os alunos da base de dados independente do tipo de afastamento e considerando alunos evadidos e não evadidos. O algoritmo apresentou uma série de regras que são apresendadas na Figura 13. Algoritmo weka.associations.Apriori -N 100 -T 0 -C 0.5 -D 0.05 -U 1.0 -M 0.3 -S -1.0 -c -1 Atributos dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, fatos_afastamento.Tipo_Afastamento, inicialmente fatos_afastamento.Idade_na_Data_Afastamento, dimensao_aluno.Status_Formando presentes Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Para a pesquisa cujo argumentos estão descritos no Quadro 12, pode-se notar que foi considerado o suporte mínimo de 30% e a confiança mínima foi de 50% porém o algoritmo gerou regras com confiança mínima de 79% conforme é visto na Figura 13. Fora encontradas 31 regras que não apontam nenhuma associação que envolva os tipos de afastamento mas observando melhor podem ser encontrados na maioria das regras apresentadas associação com a idade do aluno na data do afastamento o que tornou possível algumas constatações conforme apresenta o Quadro 13: Quadro 16 - Resultados para Associação algoritmo Apriori, todos os alunos, atributos pessoais e de evasão. Resultados 1 tem_18_a_21_anos=Sim 318 ==> Solteiro=Sim 318 conf:(1) Interpretação 1 Com 100% de confiança alunos evadidos com idade entre 18 e 21 anos eram solteiros. Resultados 2 solteiro=Sim Masculino=Sim tem_18_a_21_anos=Sim 296 ==> Status_Formando=N 293 conf:(0.99) Alunos evadidos do sexo masculino com idade entre 18 e 21 anos não eram formandos com 99% de confiança. tem_18_a_21_anos=Sim 318 ==> Masculino=Sim 296 conf:(0.93) Interpretação 2 Resultado 3 84 Interpretação 3 Com 93% de confiança alunos evadidos cuja idade era entre 18 e 21 na data da evasão eram do sexo masculino Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. O conjunto total das regras geradas pode ser visto na Figura 13, tendo a possibilidade de observar que algumas regras geradas são variações das apresentadas no Quadro 13. Figura 15 - Resultados para Associação algoritmo Apriori, todos os alunos, atributos pessoais e de evasão. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. 3.2.2.3 Classificação 85 Para a tarefa de classificação foram trabalhados algoritmos na tentativa de classificar os alunos por tipo de afastamento, levando em consideração seus dados pessoais e os dados referentes a evasão. Conforme pode-se observar no Figura 15, o algoritmo JRip criou algumas regras para a classificação destes alunos e resultou em uma classificação com taxa de acerto em torno de 63%. A seguir o Quadro 15 relata os parâmetros utilizados nesta pesquisa: Quadro 17 - Classificação utilizando o algoritmo JRip, por tipo de afastamento. Base: Data Mart Evasão Query: SELECT dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, dimensao_aluno.Data_Nascimento, dimensao_aluno.Tipo_Ingresso, dimensao_aluno.Ano_Ingresso, dimensao_aluno.Semestre_Ingresso, dimensao_aluno.Curso_Aprovado, dimensao_aluno.Semestre_Vestibular, dimensao_aluno.Ano_Vestibular, dimensao_aluno.Status_Formando, dimensao_aluno.Cidade, dimensao_aluno.Quant_Semestres, fatos_afastamento.Ano_Letivo_Afastamento, fatos_afastamento.Semestre_Letivo_Afastamento, fatos_afastamento.Semestre_Afastamento, fatos_afastamento.Idade_na_Data_Afastamento, fatos_afastamento.Tipo_Afastamento FROM dimensao_aluno INNER JOIN fatos_afastamento ON dimensao_aluno.id_Aluno = fatos_afastamento.id_Aluno WHERE Tipo_Afastamento <> 'conclusao' AND Tipo_Afastamento <> 'a colar grau' Justificativa Trabalhar a tarefa de classificação dos alunos evadidos no em todo período da pesquisa pelo tipo de afastamento com base nos atributos do aluno (tabela dimesao_aluno) e os atributos referentes ao afastamento destes alunos (tabela fatos_afastamento) Algoritmo weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1 Atributos dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, dimensao_aluno.Data_Nascimento, dimensao_aluno.Tipo_Ingresso, dimensao_aluno.Ano_Ingresso, dimensao_aluno.Semestre_Ingresso, dimensao_aluno.Curso_Aprovado, dimensao_aluno.Semestre_Vestibular, dimensao_aluno.Ano_Vestibular, dimensao_aluno.Status_Formando, dimensao_aluno.Cidade, dimensao_aluno.Quant_Semestres, fatos_afastamento.Ano_Letivo_Afastamento, fatos_afastamento.Semestre_Letivo_Afastamento, fatos_afastamento.Semestre_Afastamento, fatos_afastamento.Idade_na_Data_Afastamento, fatos_afastamento.Tipo_Afastamento Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Visualizando as regras apresentadas no Quadro 16 na sequência, pode se notar que o algoritmo conseguiu uma boa classificação com as regras criadas para a maioria dos tipos de afastamento mas acabou que para o tipo abandono ocorreram a maioria dos erros de classificação e isto pode ser comprovado através da Figura 15 na seção Detailed Accuracy By Class ou Precisão detalhada por classe aonde, o detalhamento da precisão para o atributo abando ficou em 0,588 que é significativamente abaixo do resultado dos outros atributos, aumentado os erros de classificação e ocasionando uma baixa na taxa de classificações corretas. Quadro 18 - Regras de classificação utilizando o algoritmo JRip, por tipo de afastamento. === Classifier model (full training set) === JRIP rules: =========== 86 (Data_Nascimento >= 730090800000) and (Data_Nascimento >= 773982000000) => Tipo_Afastamento=CANCELAMENTO 70% (4.0/1.0) (Ano_Vestibular = 2012) and (Ano_Letivo_Afastamento = 12) => Tipo_Afastamento=CANCELAMENTO (29.0/13.0) (Ano_Letivo_Afastamento = 8) and (Semestre_Letivo_Afastamento = 1) and (Quant_Semestres = 0) and (Data_Nascimento >= 548046000000) => Tipo_Afastamento=CANCELAMENTO (15.0/4.0) (Ano_Letivo_Afastamento = 10) and (Ano_Ingresso = 10) and (Semestre_Letivo_Afastamento = 1) => Tipo_Afastamento=CANCELAMENTO (11.0/3.0) (Quant_Semestres = 8) => Tipo_Afastamento=TRANCAMENTO (60.0/11.0) (Quant_Semestres = 2) => Tipo_Afastamento=TRANCAMENTO (9.0/1.0) (Quant_Semestres = 1) => Tipo_Afastamento=TRANCAMENTO (12.0/4.0) (Quant_Semestres = 4) => Tipo_Afastamento=TRANCAMENTO (3.0/0.0) (Quant_Semestres = 3) and (Sexo = Masculino) => Tipo_Afastamento=TRANCAMENTO (4.0/0.0) (Ano_Vestibular = 2008) and (Cidade = BALNEARIO CAMBORIU) and (Semestre_Vestibular = 2) => Tipo_Afastamento=TRANSF.INTERNA (9.0/1.0) => Tipo_Afastamento=ABANDONO (464.0/191.0) Number of Rules : 11 Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. A seguir a Figura 15 demonstra a matriz de confusão gerada na resolução desta pesquisa. Conforme já dito, pode-se notar que na classificação por tipo de afastamento abandono ocorre inúmeros erro o que aumenta a taxa de erro de classificação conforme apresentado na mesma figura. É demonstrado ainda a precisão detalhada por classe. 87 Figura 16 – Resultados classificação, precisão por classe e Matriz de Confusão. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Em um segundo momento a tarefa de classificação foi trabalhada através dos atributos pessoais de todos os alunos evadidos durante o período da pesquisa e suas notas, foi utilizado o algoritmo RandomTree conforme detalhado no Quadro 17: 88 Quadro 19 - Classificação alunos evadidos por faixa de nota, algoritmo RandomTree. Base: Data Mart Evasão Query: SELECT dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, dimensao_aluno.Data_Nascimento, dimensao_aluno.Tipo_Ingresso, dimensao_aluno.Ano_Ingresso, dimensao_aluno.Semestre_Ingresso, dimensao_aluno.Curso_Aprovado, dimensao_aluno.Semestre_Vestibular, dimensao_aluno.Ano_Vestibular, dimensao_aluno.Status_Formando, dimensao_aluno.Cidade, dimensao_aluno.Quant_Semestres, fatos_desenpenho_aluno.Ano_Letivo, fatos_desenpenho_aluno.Semestre_Letivo, fatos_desenpenho_aluno.id_Disciplina, fatos_desenpenho_aluno.Media_Parcial_Sigla, IF(fatos_desenpenho_aluno.Media_Calculada = 0, 'Nota_Evasao', IF(fatos_desenpenho_aluno.Media_Calculada > 0 AND fatos_desenpenho_aluno.Media_Calculada <= 4, 'Nota_Reprovado_0a4', IF(fatos_desenpenho_aluno.Media_Calculada > 4 AND fatos_desenpenho_aluno.Media_Calculada < 6, 'Nota_Reprovado_4a6', IF(fatos_desenpenho_aluno.Media_Calculada >= 6 AND fatos_desenpenho_aluno.Media_Calculada < 8, 'Nota_Aprovado_6a8', IF(fatos_desenpenho_aluno.Media_Calculada >= 8 AND fatos_desenpenho_aluno.Media_Calculada <= 10, 'Nota_Aprovado_8a10', 0))))) AS Classificação_Nota FROM fatos_afastamento INNER JOIN dimensao_aluno ON fatos_afastamento.id_Aluno = dimensao_aluno.id_Aluno INNER JOIN fatos_desenpenho_aluno ON fatos_afastamento.id_Aluno = fatos_desenpenho_aluno.id_Aluno Justificativa Trabalhar a tarefa de classificação dos alunos evadidos no em todo período da pesquisa classificando-os pela nota. Foram utilizados os atributos pessoais juntamente com alguns atributos referentes ao desempenho acadêmico. Algoritmo classifiers.trees.RandomTree -K 0 -M 1.0 -S 15 Atributos dimensao_aluno.Estado_Civil, dimensao_aluno.Sexo, dimensao_aluno.Data_Nascimento, dimensao_aluno.Tipo_Ingresso, dimensao_aluno.Ano_Ingresso, dimensao_aluno.Semestre_Ingresso, dimensao_aluno.Curso_Aprovado, dimensao_aluno.Semestre_Vestibular, dimensao_aluno.Ano_Vestibular, dimensao_aluno.Status_Formando, dimensao_aluno.Cidade, dimensao_aluno.Quant_Semestres, fatos_desenpenho_aluno.Ano_Letivo, fatos_desenpenho_aluno.Semestre_Letivo, fatos_desenpenho_aluno.id_Disciplina, fatos_desenpenho_aluno.Media_Parcial_Sigla, fatos_desenpenho_aluno.Media_Calculada Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. O resultados para esta classificação foram muito bons, conforme será mostrado a seguir na Figura 16, ocorreu uma taxa de classificações corretas de mais de 99%. Foram classificados corretamente 22941 instancias e apenas 5 foram classificadas incorretamente. Para esta experiência foram utilizados 17 atributos conforme Quadro 17. Pode ser observado que o erro absoluto também foi muito baixo o que significa maior precisão do modelo, neste caso pode-se dizer que o modelo é estatisticamente perfeito devido ao valor ser muito próximo de zero. Devido ao tamanho da arvore (90824), não foi possível exibir as regras geradas. 89 Figura 17 - Resultado Classificação alunos evadidos por faixa de nota, algoritmo RandomTree. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. A matriz de confusão para este caso também apresenta uma divisão quase perfeita, ocorrendo apenas um pequeno erro na classe “Nota_Aprovado_6a8. Outros algoritmos como o J48, DecisionStump ou também baseados em regras com o ZeroR geram modelos com taxa de classificação correta inferior a 70%. A experiência cujos argumentos estão organizados no Quadro 18, tiveram a intensão de tentar através do algoritmo RotationForest, classificar os alunos segundo atributos do seu histórico escolar e atributos referentes a evasão, sendo que foram considerados alunos evadidos e não evadidos que possuíam algum histórico escolar válido. 90 Quadro 20 – Argumentos experiência classificação, todos os alunos, histórico escolar e afastamento. Base: Data Mart Evasão Query: SELECT fatos_historico_escolar.Periodo_Disciplina_Curso, fatos_historico_escolar.Ano_Aprovacao, fatos_historico_escolar.Semestre_Aprovacao, fatos_historico_escolar.Media_Aprovacao, IF(ISNULL(fatos_afastamento.Tipo_Afastamento), 'Cursando', Tipo_Afastamento) AS Status_Curso, fatos_afastamento.Semestre_Afastamento, fatos_afastamento.Ano_Letivo_Afastamento, fatos_afastamento.Semestre_Letivo_Afastamento FROM fatos_historico_escolar LEFT OUTER JOIN fatos_afastamento ON fatos_historico_escolar.id_Aluno = fatos_afastamento.id_Aluno WHERE fatos_historico_escolar.Media_Aprovacao <> 0 Justificativa Tentou-se classificar alunos evadidos e não evadidos utilizando atributos relacionados com o histórico escolar e a evasão o critério de seleção foi o tipo de afastamento “Status_Curso” que nestes caso tornou-se um atributo que englobou o status do aluno no curso, ou seja, se evadiu, se não evadiu, se concluiu e suas variantes. Algoritmo weka.classifiers.meta.RotationForest -G 3 -H 3 -P 50 -F "weka.filters.unsupervised.attribute.PrincipalComponents -R 1.0 -A 5 -M -1" -S 1 -I 10 -W weka.classifiers.trees.J48 -- -C 0.25 -M 2 Atributos fatos_historico_escolar.Periodo_Disciplina_Curso, fatos_historico_escolar.Ano_Aprovacao, fatos_historico_escolar.Semestre_Aprovacao, fatos_historico_escolar.Media_Aprovacao, fatos_afastamento.Tipo_Afastamento, fatos_afastamento.Semestre_Afastamento, fatos_afastamento.Ano_Letivo_Afastamento, fatos_afastamento.Semestre_Letivo_Afastamento Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. Foi obtida uma árvore com 2035 nós e 1018 folhas que apresentou os resultados conforme Figura 17. Pode-se observar que o algoritmo gerou uma boa classificação para os tipos de afastamento, aqui denominados “Status_Curso” devido a englobar todos os tipos de afastamento inclusive “Conclusão” e “A Colar Grau” e ainda foram caracterizados como “Cursando” aqueles alunos que não possuíam um histórico de evasão. Para os atributos utilizados o algoritmo conseguiu classificar corretamente 16011 (88,93%) ocorrências referentes ao histórico escolar e a evasão dos alunos e 1992 (11,06%) classificações incorretas, sendo que para esta pesquisa foram utilizados 8 atributos diferentes. Esta pesquisa demonstrou ser possível através dos atributos selecionados classificar os alunos pelo tipo de afastamento “Status_Curso”, separando-os por classes e obtendo assim características especificas de cada grupo. A utilização de outros algoritmos ou outros ajustes pede otimizar esta classificação obtendo um resultado mais próximo dos 100% de classificações corretas, no entanto, para a pesquisa em questão as tentativas ajustes utilizadas, não surtiram o efeito esperado e em alguns casos aumentando o erro de classificação, então optou-se por considerar o algoritmo com as configurações conforme apresentadas no Quadro 18. 91 Figura 18 - Resultado Classificação, todos os alunos, histórico escolar e afastamento. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI. 3.2.3 Análise dos Resultados Na etapa de análise dos resultados foram avaliados os resultados obtidos através da aplicação dos algoritmos de mineração de dados sobre a base de dados dos alunos do curso de Ciência da Computação da UNIVALI. Algumas considerações importantes puderam ser feitas com relação a aplicação do processo KDD em bases de dados, e dizem respeito ao planejamento, organização e sequência a ser adotada e seguida. Estas considerações se tornam importantes à medida que facilitam o entendimento do trabalho realizado para a presente pesquisa e podem desta forma orientar novas pesquisas na área. Para a aplicação do processo KDD e em conjunto a Mineração de Dados, é extremamente importante ter em mente o problema a ser abordado, suas características e o que se espera alcançar com o trabalho. Uma análise prévia da base de dados e dos atributos envolvidos deve ser feita e através desta análise os objetivos devem ser traçados. Mesmo que isso pareça obvio, o grau de conhecimento do pesquisador sobre o tema problema que será 92 tratado, sobre a base de dados que será utilizada e sobre o processo KDD e a Mineração de Dados, é determinante para um melhor resultado com o um menor esforço. A base de dados é parte fundamental para o processo KDD e deve estar disponível para ajudar no processo de entendimento do problema abordado e na seleção dos dados a serem utilizados. Se o pesquisador for especialista na base de dados à ser utilizada facilitará a etapa de seleção dos atributos envolvidos. Os dados devem estar na forma mais bruta possível possibilitando o tratamento adequando sem que sofra influências de fatores externos. No caso da pesquisa em questão, devido o pesquisador possuir pouco ou quase nenhum conhecimento com relação à base de dados utilizada para mineração, tornou-se necessário um esforço extra do pesquisador para o entendimento dos atributos e de seus relacionamentos e também do orientador no auxílio a este trabalho. A seleção dos dados, conforme já destacado, torna-se mais fácil a se o pesquisador possui o domínio do assunto abordado e um bom conhecimento da base de dados, sendo que atributos que possivelmente possam gerar uma melhor resposta à aplicação da Mineração de Dados poderão ser identificados e selecionados mais facilmente. Ainda na fase de PréProcessamento uma atenção especial deve ser dispensada para a preparação dos dados, correções dos erros, complemento dos valores faltantes, pois esta etapa demanda a maior parte do tempo e esforço para a aplicação do processo KDD e um bom trabalho nesta fase é fundamenta para que o resultado da pesquisa seja satisfatório. O conhecimento prévio das ferramentas utilizadas, ferramentas de bando de dados, de modelagem de dados e principalmente a ferramenta utilizada para a Mineração de Dados, no caso desta pesquisa a ferramenta WEKA, influencia diretamente no tempo gasto na pesquisa, sendo que um bom conhecimento facilita o progresso do trabalho e a obtenção de melhores resultados. Um estudo dos métodos de mineração de dados e seus algoritmos torna o trabalho de mineração mais interessante do ponto de vista da geração do modelo de conhecimento esperado e também torna menos trabalhosa a aplicação do processo KDD. Cada algoritmo possui suas particularidades, suas configurações e aceitam ou não determinados tipos de dados, além disso, o resultados apresentados pelo algoritmo deverão ser interpretados sendo assim, um estudo prévio dos principais algoritmos a serem utilizados se faz necessário visando uma facilidade na aplicação dos mesmo e na interpretação do resultados. Estas particularidade dos algoritmos 93 podem ser vistas na seção More e Capabilities de cada algoritmo. Em resumo, para a tarefa de classificação, os algoritmos aceitam dados nominais, numéricos, dentre outros, com um porém que é a categoria que deve ser definida pelo pesquisador, que nestes caso deve ser do tipo nominal. Outro detalhe que pode ser apresentado é que na associação algoritmos Apriori e PredictiveApriori, utilizam dados nominais. Outra preocupação para com a tarefa de associação é em relação ao tamanho da amostra e o algoritmo a ser selecionado, pode-se levar horas para geração de um resultado que em análise não apresenta nenhuma relevância com relação ao problema abordado. Um bom conhecimento da ferramenta e dos métodos de Mineração de Dados pode impactar diretamente o cronograma do projeto, sendo que um atraso nesta altura do trabalho poderá comprometer a interpretação dos resultados obtidos ou até mesmo algumas experiências poderão deixar de ser executadas devido ao tempo, comprometendo assim toda a pesquisa. A utilização de sistemas de apoio a decisão para Mineração de Dados torna-se interessante no momento em que a pesquisa em questão tem perspectiva de expansão, facilitando trabalhos futuros que poderão assim utilizar os conhecimentos obtidos expandindo e ou modificando para atender as novas necessidade. Outro ponto de grande importância com relação à sistemas de apoio à decisão diz respeito a utilização da ferramenta WEKA com conexão a banco de dados. Um banco de dados relacional tem um desempenho inferior a um banco de dados dimensional o que pode ocasionar ociosidade do pesquisador e tempo perdido na execução dos scripts para busca dos dados utilizados pelos algoritmos de mineração. A utilização de Data Marts para Mineração de Dados possibilita uma melhor visualização do universo de atributos disponíveis através das tabelas fatos e dimensão possibilitando melhores resultados com menor esforço computacional. A presente pesquisa aplicou tarefas de Clusterização, Associação e Classificação sobre a base de dados, foram trabalhados diversos algoritmos e aqueles que resultaram alguma informação ou informações com melhor detalhamento e relevância forma selecionados e demonstrados. Para um melhor entendimento dos dados envolvidos em cada experiência, foi utilizado um modelo de apresentação conforme proposto por Sartori (2012) aonde independente do algoritmo selecionado e da base de dados estudada, dados básicos das atividades realizadas são apresentados contendo dados suficientes para que seja possível reproduzir os experimentos. O Quadro 19 apresentado na sequência demonstra o modelo proposto juntamente com a explicação em cada campo: 94 Quadro 21 - Forma de notação adotada na pesquisa Base: Deve ser constado em qual base ou Data Mart o pesquisador realizou a pesquisa, tendo em vista as diversas interpretações que podem ser dadas em virtude das fontes de dados que estão sendo pesquisadas. Exemplo: Data Mart Evasão Query: Aqui deve ser anotada a pesquisa que foi feita na base de dados e que resultou na amostra que foi estudada. Exemplo: Select * from data_mart.fatos_aluno where tipo_ingresso = ‘vestibular’” Justificativa: Neste campo o pesquisador deve anotar o porquê de estar realizando aquele experimento ou o que busca encontrar com tal atividade. Exemplo: Classificar as pessoas na categoria de tipo de afastamento (atributo tipo_afastamento) com base nos demais dados. Algoritmo: Faz-se imprescindível registrar, também, o algoritmo e os parâmetros utilizados para realizar a pesquisa de mineração. No WEKA, o comando de mineração executado pelo software já mostra também os argumentos selecionados. Exemplo: weka.classifiers.rules.OneR -B 6 Atributos inicialmente presentes: O pesquisador deve deixar anotado também os argumentos que foram utilizados, tendo em vista que os resultados podem variar de acordo com o número de argumentos utilizados. Exemplo: Sexo, Estado_Civil, Tipo_Afastamento, Data_Afastametno, Cidade. Fonte: (SARTORI, 2012) Após a aplicação dos algoritmos de Mineração de Dados foram gerados diversos resultados, cada algoritmo conforme suas características apresentou um modelo de conhecimento que foi disponibilizado nas seções anteriores. Através destes modelos de conhecimento tornou-se possível apresentar uma análise de resultados que objetivou um melhor entendimento dos resultados obtidos. Alguns resultados e experiências não foram disponibilizadas pois não apresentaram nada que já não tivesse sido apresentado ou por conter informações muito obvias a ponto de serem dispensáveis ou também, por não apresentarem nenhuma informação. Utilizou-se em um primeiro momento o recurso chamado de “Preprocess” da ferramenta WEKA que gerou informações de caráter estatístico mas que buscou representar a realidade do curso de Ciência da Computação da UNIVALI, campus Itajaí, sendo que boa parte destes resultados é sabido de forma empírica mas que através dos dados apresentados pôde-se ter uma visualização um pouco mais aprofundada da base de dados dos alunos. Os principais resultados obtidos com esta análise dizem respeito a verificação da queda do número de alunos ingressos e consequentemente aluno matriculados durante o período pesquisado, o tipo de afastamento “Abandono” foi o predominante, os índices de evasão são maiores nos períodos iniciais dos curso (1º à 3º períodos), a taxa de conclusão de curso para alunos ingresso em 2008/1 foi de 6,59%, a taxa de evasão semestral caiu de aproximadamente 24% em 2008/1 para 16% 95 aproximadamente em 2012/1 além de determinar as disciplinas e as respectivas áreas são mais cursadas nos semestres que os alunos evadiram a serem citadas: Matemática, Programação, Infraestrutura, nesta ordem, são as áreas que mais possuem disciplinas que os alunos estão matriculados nos semestres em que evadiram; As disciplinas com maior frequência de alunos matriculados nos anos que evadiram são Algoritmos e Programação, Computação Básica, Matemática Computacional, Álgebra Linear e Cálculo. Apesar destes apontamento não representarem um conhecimento novo e também não ser necessária a utilização de ferramentas de Mineração de Dados para estas constatações, é de grande importância para esta pesquisa a geração destes relatórios pois através da aplicação de um processo de validação é possível verificar se o processo de coleta dos dados se deu de forma correta e se os dados coletados refletem a realidade do curso de Ciência da Computação da UNIVALI, campus Itajaí, se comparados com as estatísticas da instituição. Na sequência a aplicação dos algoritmos de Mineração de Dados iniciou-se com a tarefa de Clusterização. Foram trabalhados os algoritmos SimpleKMeans e MakeDensityBasedClusterer, em 3 (três) experimentos distintos apresentados com a finalidade de agrupar os alunos pelas suas semelhanças sendo que cada cluster agrupou alunos com mais características comuns entre os componentes do cluster e mais diferenças para os alunos dos outros clusters. Como a Clusterização é um processo não supervisionado para agrupamento de dados, as classes são definidas automaticamente pelo algoritmo precisando somente ser especificadas quantas classe o algoritmo deve gerar e os atributos que serão minerados. As experiências de Clusterização apontaram alguns dados estatísticos que apoiam o que se observou com a utilização do recurso Preprocess, mas foi além, traçando perfis de alunos evadidos e não evadidos. Estes dados possuem potencial para novos estudos afim de aprofundar os conhecimentos sobre cada perfil possibilitando assim, a utilização para o combate à evasão. Uma constatação importante gerada através destes experimentos foi que a evasão independe das notas dos alunos, sendo que alunos com notas para aprovação evadem na mesma proporção de alunos com notas para evasão. Alguns perfis podem ser apresentados como ilustração ao que está sendo explicado: 96 O Cluster 1 da primeira experiência, traçou um perfil de aluno que abrange 16% do total de alunos evadidos que são aqueles que em 100% dos caso tiram nota acima de 8, em sua grande maioria tem acima de 22 anos 76,33%, cursam entre 10 e 20 créditos por semestre com 98% de certeza, 42% estão no meio do curso (entre 4º e 7º períodos), e abandonaram o curso em 54,53% dos casos; O Cluster 4 da segunda experiência, com 16% dos registros agrupa os alunos que são do início do curso (entre 1º e 3º períodos), reprovaram por frequência insuficiente em 70% dos casos e em 95% das vezes não tiveram nota para a M3; Cluster 4 da terceira experiência, os 4% dos alunos ali alocados tem predominância de estado civil igual a casado (87,5%) e neste cluster 84% dos alunos são do sexo masculino e os tipos de afastamento estão divididos sendo que existem 18% destes que estão cursando e nota-se também que a faixa etária predominante neste grupo é acima de 25 anos com 65,63% dos casos. A associação tratou de encontrar regras frequentes entre os atributos da base de dados, buscando identificar relações entre a evasão e algum comportamento ou característica frequente ou corriqueira entre os alunos evadidos, também nesta linha tentou-se encontrar estas relações para os alunos não evadidos. Para tanto, foram trabalhados os algoritmos PredictiveApriori, Apriori e FPGrowth em 4 (quatro) experiências distintas, sendo que nas duas primeiras experiências não foi considerado o suporte mínimo, deixando como padrão o especificado pelo algoritmo. Na primeira experiência observou-se um apontamento de disciplinas e áreas específicas as quais os alunos evadidos cursaram no semestre em que evadiram, em determinados anos da pesquisa. Na maioria dos casos são disciplinas dos primeiros períodos, o que corrobora com a avaliação feita no início deste capítulo. Na segunda experiência foi possível demonstrar que alunos evadidos possuem notas distribuídas nas diversas faixas pré-estabelecidas, mais uma vez pôde-se apoiar outra constatação já levantada anteriormente neste capítulo, de que a evasão independe das notas dos alunos. Ainda na associação a terceira experiência teve 2 momento, no primeiro o suporte mínimo foi trabalhado com valores padrões do algoritmo e em um segundo momento foram feitas tentativas com valores que variaram de 50% a 20%, sendo que o resultados apareceram 97 com suporte mínimo de 20%. A experiência retornou algumas associações que demonstram os resultados encontrados: Alunos com idade entre 18 e 21 anos que estava matriculado com a quantidade de 10 a 16 créditos e teve como tipo de afastamento o abandono em 2011 com confiança de 93% estava entre o 1º e o 3º períodos; Aluno evadido em 2011 com 18 a 21 anos com nota zero (Nota_Evasao) com 80% de confiança estava entre o 1º e 3º períodos (InicioCurso); Alunos no início do curso que cursaram de 17 a 20 créditos no semestre em que evadiram tinham com 71% de certeza de 18 a 21 anos; Com 55% de confiança alunos que cursaram 10 a 16 créditos no semestre que evadiram estavam no início do curso. Houve associações entre idade, número de créditos cursados, tipo de afastamento e período do curso em que o aluno estava na data de evasão. Esta experiência diz respeito ao ano de 2011 sendo que pode ser ampliada para que os resultados possam ser comparados e melhor analisados. Porém há de se ressaltar que das quatro regras apresentadas, alunos com faixa etária entre 18 e 21 anos estão presentes em três associados a diversos outros fatores. Outros sim diriam que nesta faixa etária estão compreendidos a maioria dos alunos do curso, portanto, pela lógica, associada a maioria dos fatores apresentados, entretanto esta constatação abre a possibilidade de uma investigação específica à esta faixa etária, canalizando esforços ao principal foco do problema. Outra variável que surge novamente é a dos alunos no início do curso, que neste caso aparecem nas quatro regras apresentadas. Com resultados parecidos, a última experiência de Associação apontou alunos com idade entre 18 e 21 anos associados a sexo, ao estado civil, ao status de formando, porém para este caso o suporte mínimo foi de 30%. Na tarefa de associação é necessário um cuidado com relação a atributos que aparecem na maioria das regras apresentadas, este cuidado deve ser maior quando se tratar do algoritmo de associação Apriori, pois devido a maneira que o algoritmo processa os atributos, regras importantes podem ser desprezadas. No caso dos testes feitos para a terceira experiência observou-se que retirando os atributos que predominaram nos resultados, não foi possível gerar regras relevantes que supostamente teriam sido eliminadas, conforme destacado. 98 Para a Classificação foram utilizados os algoritmos JRip, RandomTree e RotationForest na tentativa de agrupar os alunos em classes pré-definidas através dos atributos indicados em cada pesquisa. Na definição das classes para estas experiências foram utilizados dois atributos que estão presentes em praticamente todas as outras experiências deste trabalho. Estes atributos referentes a evasão e ao desempenho escolar dos alunos são os principais atributos desta pesquisa, a citar: Tipo de Afastamento e as Médias Calculadas. Para esta tarefa foram trabalhadas 3 pesquisas sendo que os resultados das classificações foram satisfatórios obtendo índices de classificação correta que variaram de 63% a 99,98%. Este índices indicam que novos alunos podem ser classificados utilizando-se dos atributos gerados para os grupos apresentados. As experiências apresentaram resultados que pode ser passíveis de novos estudos, pois com uma melhor análise dos atributos dos alunos, selecionando atributos disponíveis já no início da vida acadêmica do aluno pode ser possível classificar novos alunos e tentar prever possíveis alunos com possíveis dificuldades de aprendizado no curso e ou consequentemente passiveis de evasão. 99 4 CONCLUSÕES O desenvolvimento do trabalho implicou em um estudo sobre a situação do ensino superior no Brasil, tendo enfoque na evasão escolar, suas características, causas e consequências, trazendo à luz um problema que apesar de ser reconhecido pelas IES, em muitos casos não é combatido com eficiência. As inciativas para o combate da evasão demandam de um entendimento de suas causas, em virtude disso a aplicação das técnicas de Mineração de Dados juntamente com o processo KDD abre horizontes que antes, devido à grande quantidade de dados, era inviável. Na revisão bibliográfica realizada, foram estudados os conceitos e técnicas envolvidas no processo KDD e na Mineração de Dados, traçando um caminho a ser seguido para a aplicação destes recursos. Neste caminho outros estudos também forma realizados, a aplicação da Mineração de dados requer uma normalização dos dados e para uma melhor performance dos algoritmos um Data Mart se faz necessário. Para isso os estudo foram voltados para esta área de estruturas de dados sendo que conceitos de Data Warehouse e Data Mart, foram tratados embasando o prosseguimento do trabalho. Com o intuito de buscar referências para um melhor desempenho da pesquisa em questão, trabalhos relacionados a evasão em IES com aplicação de Mineração de Dados foram pesquisados e algumas constatações puderam ser feitas. É notável que a Mineração de Dados sendo utilizada para descoberta de conhecimento em bases de dados educacionais é relativamente nova, sendo que são poucos os trabalhos disponíveis para pesquisa. Não existe um caminho definido, ou seja, quais técnicas ou métodos devem ser utilizados ou quais atributos devem ser considerados. É preciso buscar na também na estatística as referências teóricas necessárias para um melhor conhecimento sobre as tarefas de a serem utilizadas. A utilização de livros que tratam sobre a estatística multivalorada podem ser de grande valia para o entendimento de tarefas de classificação, clusterização e associação por exemplo e devem ser buscados antes do início da aplicação da mineração de dados. A maioria dos trabalhos pesquisados apontava um determinado grupo de atributos, geralmente diferentes dos outros trabalhos. Na questão dos métodos o problema se repete, não existe um consenso entre os pesquisadores sobre que método é mais apropriado ou que algoritmo obterá melhor resultado sobre determinado grupo de atributos. Uma característica 100 comum a praticamente todos os trabalhos é a utilização das tarefas de Classificação e Clusterização, o que de certa forma restringe os métodos a serem aplicados. Devido os trabalhos pesquisados não terem dado a contribuição esperada, a seleção dos atributos foi feita com a contribuição do especialista da área e também professor orientador desta pesquisa. Para isso foram selecionadas as tabelas diretamente do banco de dados do sistema acadêmico da UNIVALI e os atributos com maior potencial de relevância para a pesquisa foram selecionados em cada tabela. De posse da base de dados, foi criado um modelo de dados relacional que pretendeu retratar as mesmas relações entre tabelas e atributos do SGBD da UNIVALI fornecendo assim subsídios para a modelagem do Data Mart Evasão. Apesar da grande ajuda que esta nova estrutura prestou, foram realizados ajustes no Data Mart em etapas posteriores devido a constatações e melhorias necessárias para um melhor desempenho. Embora a descoberta de conhecimento seja mais significativa com a aplicação de mineração de dados em grandes volumes, optou-se por uma base de dados que continha os dados dos alunos matriculados entre os anos de 2008/1 a 2012/2, independentemente do período do curso em que o aluno estava matriculado. A ideia inicial do trabalho era abranger dados do setor de bolsas, desempenho escolar, socioeconômicos e culturais dos alunos, mas, no decorrer do TTC I verificou-se a inviabilidade de neste momento utilizarmos todas estas bases de dados. Através de interações com o especialista da área e orientador deste TTC, constatamos que seria mais relevante neste primeiro estudo restringirmos a pesquisa aos dados de desempenho escolar, sendo que a princípio, estas opções não invalidam a aplicação da mineração de dados e servirá como o primeiro estudo e, conforme os resultados, poderá ser ampliado para os demais períodos e outros cursos da UNIVALI. Esta constatação feita no TTC I confirmou-se no TTC II, quando as dificuldades na obtenção, entendimento e seleção dos dados dos alunos acabou sendo um grande obstáculo que foi superado. Apesar da restrição com relação ao tamanho da base de dados se justificou a utilização do Data Mart. Embora a quantidade de alunos (906) não parecer expressiva, a quantidade de informações gerada por cada aluno semestralmente durante o seu ciclo acadêmico fez com que algumas tabelas tivessem milhares de registros tornando a utilização de um SGBD relacional inviável. Outro fator que corrobora com a utilização do Data Mart é devido a possibilidade de utilização dos conhecimentos aqui abordados em trabalhos futuros ou na ampliação desta 101 pesquisa. Além disso é um benefício implementar um Data Mart, pois a preparação dos dados para esta estrutura engloba etapas do pré-processamento do KDD. De posse dos dados dos alunos observou-se necessária a criação de uma base de dados que auxiliasse no entendimento das relações entre as tabelas e atributos e possibilitasse um melhor entendimento do problema tratado. Muito embora de grande valia, esta estrutura não constava do planejamento do TTC e acabou custando um tempo precioso para sua elaboração, confecção e carga. Esta estrutura de dados foi desenvolvida em MySQL e os dados importados do bando de dados do sistema acadêmico da UNIVALI estavam disponíveis em formato CSV e demandaram um trabalho de adaptação para posterior migração. Vencida esta etapa os dados passaram para o pré-processamento que apesar de trabalhoso, dispendendo um grande tempo e esforço do pesquisador, transcorreu de forma normal sem percalços. Então, dados tratados, limpos, organizado e prontos para carga no Data Mart. Referente a base de dados extraída do sistema acadêmico da UNIVALI, ficou claro que a grande quantidade de atributos que a princípio estaria disponível fornecendo diversas alternativas para a mineração de dados, acabou sendo reduzida à algumas poucas varáveis que foram intensamente trabalhadas. Apesar do aprendizado obtido com a pesquisa bibliográfica, a aplicação dos algoritmos nos atributos não se deu trivialmente. Muitas experiências com algoritmos que necessitavam de horas para expressar um resultado e que por fim não traziam nada que pudesse, ao entender do pesquisador, fazer sentido com relação ao tema, foram exaustivamente trabalhadas. Esta dificuldade na aplicação dos algoritmos se deve em parte a inexperiência do pesquisados com relação ao uso da ferramenta WEKA e também a vasta quantidade de algoritmos disponível para aplicação pela ferramenta. A análise dos resultados obtidos foi filtrada e foram disponibilizados apenas as experiências que implicaram em algum sentido e que agregaram algum conhecimento. Conhecimento este que em boa parte foi de caráter comprobatório expressando em números e estatísticas aquilo que já se sabia de forma empírica mas que por outro lado revelou algumas informações que podem influenciar novas pesquisa sobre este assunto. Muito ainda pode ser feito, a própria pesquisa que aqui se encerra pode ser continuada, abrangendo mais variáveis que possam revelar novos conhecimentos, buscando outras visões sobre o aluno (econômica, social, cultural...) ou mesmo melhorando refinando esta pesquisa. 102 A análise dos resultados apresentou algumas sugestões de novos trabalhos que podem ser pensados para o futuro, porém uma análise detalhada dos perfis gerados pelos algoritmos de Clusterização pode revelar um conhecimento novo, uma busca por outros atributos dos alunos de cada perfil pode ser interessante do ponto de vista de identificar possíveis motivadores da evasão no ensino superior. Outra situação também apontada na análise dos resultados é a busca de atributos presentes desde o início da vida acadêmica do aluno para que possa ser trabalhada a previsão da classificação e por consequência a previsão dos alunos passiveis de problemas no curso e propícios a evasão. E uma terceira abordagem pode estar na análise detalhada dos alunos com idade entre 18 e 21 anos, pois concentra-se nesta classe a maioria dos alunos evadidos, a ampliação do entendimento dos atributos deste grupo de alunos pode propiciar conhecimentos interessantes sobre a evasão. Se for traçado um comparativo entre os trabalhos relacionados e a presente pesquisa, pode-se afirmar que os algoritmos utilizados foram praticamente os mesmo, salvo algumas exceções e algumas tarefas que não foram utilizadas nesta pesquisa. A ferramenta para mineração de dados comum entre todos foi o WEKA. As sugestões de trabalhos futuros aqui apresentadas englobam a previsão de alunos evadidos o que é tema de três entre os quatro trabalhos apresentados. Em questão de resultados obtidos apenas um concluiu que é possível prever alunos com tendências a evasão, outro sim apresentou seis cluster que dividiram os alunos por faixas de notas (Alunos Excelente, Alunos Bons, etc.) também ocorreu como resultado a capacidade de prever grupos de risco e assim alunos mais propensos a evadirem. Neste sentido a presente pesquisa apresentou experiências que contemplaram todas estas situações. Indicações de trabalhos futuros restringindo as pesquisas para determinados fatores ou grupos de alunos e ou atributos, também foram apresentados. Uma contribuição que pode ser atribuída a esta pesquisa, é o leque de novas possibilidades que se abre para a aplicação da mineração de dados sobre os dados educacionais. Também á de se ressaltar a experiência relatada na aplicação do processo KDD, na utilização da ferramenta WEKA, na aplicação dos algoritmos para Mineração de Dados e em sistemas de apoio a decisão. Este trabalho teve como objetivo geral a aplicação de algoritmos de mineração de dados para identificação de possíveis fatores que influenciam a evasão dos alunos do curso de Ciência da Computação da UNIVALI, campus Itajaí, sendo possível verificar durante a pesquisa que várias são as influências que podem levar os alunos à evasão. Neste sentido foram levantadas 103 diversas nuances do problema, podendo estas, serem alvo para o desenvolvimento de trabalhos futuros com o objetivo de entender melhor cada uma destas hipóteses. No tocante dos objetivos específicos, a presente pesquisa ficou em débito se considerada a validação dos resultados obtidos. O trabalho poderia ou deveria contar com a figura do especialista no assunto, mas devido a motivos alheios a vontade do pesquisador, não foi possível analisar o modelo de conhecimento gerado utilizando-se do conhecimento destes profissional, conforme previsto e como seria de gosto. Porém pode-se considerar que os resultados encontrados, apesar de não validados, podem ser utilizados para novas pesquisas, aprofundando os conhecimentos aqui encontrados ou refutando os resultados obtidos. Nenhum conhecimento definitivo foi encontrado ou mesmo pretende-se que possam ser considerados como relevantes em termos acadêmicos. O principal resultado obtido com este trabalho é a possibilidade de servir como base para novas experiências, apontando possíveis caminhos a serem seguidos, dificuldades que poderão ser encontradas, atalhos ou portas mais propensas ao sucesso. 104 REFERÊNCIAS ALENCAR, Antônio Juarez; SCHMITZ, Eder Assis. Análise de Risco em Gerência de Projetos: Com Exemplos em @RisK. 3. ed. Rio de Janeiro: Brasport, 2012. AMORIM, Maurício J. V.; BARONE, Dante; MANSUR, André Uebe. Técnicas de Aprendizado de Máquina Aplicadas na Previsão de Evasão Acadêmica. XIX Simpósio Brasileiro de Informática na Educação, 2008. Disponível em: <http://www.brie.org/pub/index.php/sbie/article/view/755/741>. Acesso em: 20 abr. 2013. BATISTA, Emerson de Oliveira. Sistemas de Informação: o uso consciente da tecnologia para o gerenciamento. Saraiva: 2006. 282 p. BOENTE, Alfredo Nazareno Pereira; OLIVEIRA, Fabiano Saldanha Gomes de; ROSA, José Luiz Dos Anjos. Utilização de Ferramentas de KDD para Integração de Aprendizagem e Tecnologia em Busca da Gestão Estratégica do Conhecimento na Empresa. Centro Universitário Estadual da Zona Oeste - UEZO. Rio de Janeiro, 2007. Disponível em: <http://www.aedb.br/seget/artigos07/1219_Artigo%20SEGET%202007.pdf>. Acesso em: 02 maio 2013. BRAGA, Luis Paulo Vieira. Introdução a Mineração de Dados. 2. ed. Rio de Janeiro: EPapers Serviços Editoriais, 2005. 212 p. BRASIL. Lei nº 9.394/96 de 20 de dezembro de 1996: Lei de Diretrizes e Bases da Educação Nacional (LDB). Diário Oficial da República Federativa do Brasil, Brasília, DF, no. 248, p. 27.833-27.841, dez. 1996. CAMPELLO, Antônio de Vasconcellos Carneiro; LINS, Luciano Nadler. METODOLOGIA DE ANÁLISE E TRATAMENTO DA EVASÃO E RETENÇÃO EM CURSOS DE GRADUAÇÃO DE INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR. XXVIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUÇÃO, Rio de Janeiro, 2008. Disponível em: <http://www.abepro.org.br/biblioteca/enegep2008_TN_STO_078_545_11614.pdf>. Acesso em: 20 maio 2013. CARVALHO, Luís Alfredo Vidal de. DATAMINING: a mineração de dados no marketing, medicina, economia, engenharia e administração. Rio de Janeiro: Editora Ciência Moderna Ltda., 2005. CÔRTES, Sérgio da Costa; PORCARO, Rosa Maria; LIFSCHITZ, Sérgio. Mineração de Dados: Funcionalidades, Técnicas e Abordagens. Rio de Janeiro,2002. Disponível em: <ftp://ftp.inf.puc-rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acesso em: 02 maio 2013. DAVENPORT, Thomas H. Ecologia da informação: por que só a tecnologia não basta para o sucesso na era da informação. 2.ed. São Paulo: Futura, 2003. 316 p. DRUCKER, P. Desafios gerenciais para o século XXI. São Paulo: Pioneira, 1999. 168p. FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases. AAAI Press, 1996, p. 42. Disponível em: 105 <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf >. Acessado em: 15 de março de 2013. FERRO, Mariza; LEE, Huei Diana. O Processo de KDD Knowledge Discovery in Database para Aplicações na Medicina. Cascavel: Seminc, 2001. Anais da Seminc 2001. Disponível em: <http://186.233.12.17:8000/portal_labi/publicacoes/Inp_Ferro_Seminc_2001%20_Processo.p df>. Acesso em: 10 abr. 2013. GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prático. 2. ed. Rio de Janeiro: Elsevier, 2005. HAIR, Joseph et al. Analise Multivariada de Dados. 5. ed. Porto Alegre: Artmed Editora S.A., 1998. Tradução: Leticia Vasconcelos Abreu. INEP - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Censo da educação superior 1980. Disponível em: < http://www.ufrgs.br/sai/dadosresultados/avaliacao-das-ies-em-geral/censo-da-educacao-superior>. Acessado em: 15 de março de 2013. INEP - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Censo da educação superior 2011. Disponível em: < http://www.ufrgs.br/sai/dadosresultados/avaliacao-das-ies-em-geral/censo-da-educacao-superior>. Acessado em: 15 de março de 2013. KAMPFF, Adriana Justin Cerveira. Mineração de Dados Educacionais para Geração de Alertas em Ambientes Virtuais de Aprendizagem com Apoio a Prática Docentes. Porto Alegre, 2009. Disponível em: <http://www.lume.ufrgs.br/bitstream/handle/10183/19032/000734349.pdf?sequence=1>. Acesso em: 02 abr. 2013. LAUDON, Kenneth C; LAUDON, Jane Price. Sistemas de informação com Internet. 4. ed. Rio de Janeiro, RJ: LTC, c1999. Xv, 389p MACEDO, Neusa Dias de. Iniciação a Pesquisa Bibliográfica: Guia do Estudante para Fundamentação do Trabalho de Pesquisa. 2. ed. São Paulo: Loyola, 1994. MANHÃES, Laci Mary Barbosa et al. Previsão de Estudantes com Risco de Evasão Utilizando Técnicas de Mineração de Dados. Rio de Janeiro, 2011. Disponível em: <http://br-ie.org/pub/index.php/sbie/article/view/1585/1350>. Acesso em: 20 abr. 2013. MILANI, Fernanda; CAMARGO, Sandro da Silva. Aplicação de Técnicas de Mineração de Dados na Previsão de Propensão à Evasão Escolar. Vol. 5, No 5 (2010): Anais V SULCOMP. Disponível em: <http://periodicos.unesc.net/index.php/sulcomp/article/view/363/370>. Acesso em: 25 maio 2013. MIRANDA, Roberto Campos da Rocha. O uso da informação na formulação de ações estratégicas pelas empresas. Ciência da Informação, Brasília, v. 28, n. 3, p. 286-292, set./dez. 1999. 106 MYATT, Glenn J.. Making Sense of Data: a practical guide to exploratory data analysis and data mining. Hoboken: John Wiley & Sons, 2007. MORAES, Júlia Oliveira De; THEÓPHILO, Carlos Renato. Evasão no Ensino Superior: Estudo dos Fatores Causadores da Evasão no Curso de Ciências Contábeis da Universidade Estadual de Montes Claros – Unimontes. 3º Congresso USP de Controladoria e Contabilidade. São Paulo, 2006. Disponível em: <http://www.congressousp.fipecafi.org/artigos32006/370.pdf>. Acesso em: 07 abr. 2013. MORESI, Eduardo Amadeu Dutra. Delineando o valor do sistema de informação de uma organização. Ciência da Informação, Brasília, v. 29, n. 1, p. 14-24, jan./abr. 2000. MORIK, K. The Representation Race – Preprocessing of Multi-Criteria Metrics for Evaluation of Data Mining Algorithms. 2000. apud GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: Um Guia Prático. 2. ed. Rio de Janeiro: Elsevier, 2005. NONAKA, Ikujiro; TAKEUCHI, Hirotaka. Criação de Conhecimento na Empresa: como as empresas japonesas geram a dinâmica da inovação. 12. ed. Rio de Janeiro: Campus, 1997. 358p NUNES, Getúlio Tadeu; LANZER, Edgar Augusto; SERRA, Fernando; FERREIRA, Manuel Portugal. Abordagem do marketing de relacionamento no ensino superior. 2008. Disponível em: <http://seer.uscs.edu.br/index.php/revista_gestao/article/view/87/49>. Acessado em: 15 de março de 2013. OLIVA, Alberto. Teoria do Conhecimento: Filosofia - Passo a Passo - 91. Rio de Janeiro: Geográfica, 2011. Disponível em: <http://books.google.com.br/books?id=I3kguwQ2vAC&printsec=frontcover&hl=ptPT&source=gbs_ge_summary_r&cad=0#v=onepage&q&f;=false>. Acesso em: 21 abr. 2013. OLIVEIRA, Wilson José de. Data Warehouse. Florianópolis: Visual Books Ltda., 2002. PELEIAS, Ivan Ricardo et al. INTERDISCIPLINARIDADE NO ENSINO SUPERIOR: análise da percepção de professores de controladoria em cursos de ciências contábeis na cidade de São Paulo. São Paulo, 2011. Disponível em: <http://www.scielo.br/pdf/aval/v16n3/v16n1a02.pdf>. Acesso em: 20 maio 2013. PINHEIRO, Carlos André Reis. Inteligência Analítica: mineração de dados e descoberta de conhecimento. Rio de Janeiro: Ciência Moderna, 2008. 397 p. PROUNI – Programa Universidade para Todos. <http://prouniportal.mec.gov.br/index.php?option=com_content&view=article&id=124&Itemid=140>. Acessado em: 07 de abril de 2013. REINERT, José Nilson; GONÇALVES, Wilson José. Evasão escolar: percepção curricular como elemento motivador no ensino para os cursos de Administração – estudo de caso. 2010. Disponível em <http://www.inpeau.ufsc.br/wp/wpcontent/BD_documentos/coloquio10/164.pdf >. Acessado em: 15 de março de 2013. REZENDE, Denis Alcides; ABREU, Aline França de. Tecnologia da Informação: aplicada a sistemas de informação empresariais. São Paulo: Atlas, 2000. 306 p. 107 REZENDE, Denis Alcides. Engenharia de Software e Sistemas de Informações. Rio de Janeiro: Brasport, 1999. 292p REZENDE, Solange Oliveira. Sistemas Inteligentes: fundamentos e aplicações. Barueri: Manole, 2003. 525 p. RIBEIRO, M. A. O Projeto Profissional Familiar como Determinante da Evasão Universitária: um estudo preliminar. Revista Brasileira de Orientação Profissional. São Paulo, 2005. Disponível em: < http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S167933902005000200006&lng=pt&nrm=iso >. Acesso em 07 de abril de 2013. RODRIGUEZ, M. V. R. Gestão do Conhecimento: reinventando a empresa para uma sociedade baseada em valores intangíveis. Rio de Janeiro IBPI, 2001. 289 p. SARTORI, Ricardo. Mineração dos dados da Polícia Militar de Santa Catarina no Município de Balneário Camboriú para geração de informação e conhecimento na área de segurança pública. Itajaí, 2012. 103 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2012. SILVA FILHO, Luiz Alberto da. Mineração de regras de associação utilizando KDD e KDT: uma aplicação em segurança pública. 2009. 85 f. Dissertação (Mestrado) Universidade Federal do Pará, Belém, 2009. SILVA FILHO, R. L. L. et al. A evasão no ensino superior brasileiro. Caderno de Pesquisa, São Paulo, v. 37, n. 132, dez. 2007. Disponível em < http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010015742007000300007&lng=pt&nrm=iso&tlng=pt >. Acessado em 07 abril 2013. SILVA FILHO, Roberto Leal Lobo e; LOBO, Maria Beatriz de Carvalho Melo. ESCLARECIMENTOS METODOLÓGICOS SOBRE OS CÁLCULOS DE EVASÃO. Publicado no site em 26 de janeiro de 2012. Disponível em: <http://institutolobo.org.br/imagens/pdf/artigos/art_078.pdf>. Acesso em: 25 out. 2013. SINGH, Hary S.. Data Warehouse. São Paulo: Makron Books Ltda., 2001. Tradução: Monica Rosemberg; Editor: Milton Mira de Assumpção Filho. SOUZA, Solange Lima. Evasão no ensino superior: um estudo utilizando a mineração de dados como ferramenta de gestão do conhecimento em um banco de dados referente à graduação de engenharia. Dissertação de Mestrado. COPPE/UFRJ, Rio de Janeiro/RJ, 2008. Disponível em: <http://wwwp.coc.ufrj.br/teses/mestrado/ Novas_2008/teses/SOUZA_SL_08_t_M_int.pdf >. Acessado em: 15 de março de 2013. STAIR, Ralph M; REYNOLDS, George W. Princípios de Sistemas de Informação: uma abordagem gerencial. 6. ed. São Paulo: Thompson Learning, 2006. TAN, Pang -Ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao DATAMINIG Mineração de Dados. Florianópolis: Ciência Moderna, 2009. Tradução: Acauan P. Fernandes; Editor: Paulo André P. Marques. 108 UNIVALI, Universidade do Vale do Itajaí. Planejamento Estratégico Institucional 20102015.Univerisidade do Vale do Itajaí - Itajaí: Universidade do Vale do Itajaí, 2012. UNIVALI, Universidade do Vale do Itajaí. História. Disponível em: <http://www.univali.br/modules/system/stdreq.aspx?P=15&VID=default&SID=86713535169 0717&S=0&C=26593>. Acesso em: 18 abr. 2013. APÊNDICE A – MODELAGEM BANCO DE DADOS SISTEMA ACADÊMICO UNIVALI APÊNDICE B – CLASSIFICAÇÃO DAS DISCIPLINAS POR ÁREA Quadro 22 - Classificação Disciplinas CÓDIGO DISCIPLINA ÁREA 62 ORGANIZAÇÃO E METODOS Complementares 67 TEORIA GERAL DA ADMINISTRAÇÃO Complementares 111 ADMINISTRAÇÃO DE CPD 112 ANÁLISE E PROJETOS DE SISTEMAS I 113 ANÁLISE E PROJETOS DE SISTEMAS II 114 ARQUITETURA DE COMPUTADORES 115 AUDITORIA DE SISTEMAS 116 BANCO DE DADOS I 117 BANCO DE DADOS II 118 ESTÁGIO SUPERVISIONADO DE CIÊNCIA COMPUTAÇÃO 119 ENGENHARIA DE SOFTWARE 120 ESTRUTURA DE DADOS Complementares Análise e Projetos de Sistemas Análise e Projetos de Sistemas Infraestrutura Análise e Projetos de Sistemas Análise e Projetos de Sistemas Análise e Projetos de Sistemas Conclusão de Curso Análise e Projetos de Sistemas 121 GARANTIA E CONTR. DE QUALIDADE EM PROC. DADOS Programação Análise e Projetos de Sistemas 122 INFORMÁTICA JURÍDICA (NOÇÕES DE DIREITO) Humanas 123 INTRODUÇÃO A COMPUTAÇÃO 126 LABORATÓRIO Infraestrutura Teoria da Computação e Inteligência Artificial 127 LINGUAGENS DE PROGRAMAÇÃO Infraestrutura 128 LÓGICA Programação 129 ORGANIZAÇÃO DE ARQUIVOS 130 PESQUISA OPERACIONAL Programação Teoria da Computação e Inteligência Artificial 132 PROGRAMAÇÃO I Programação 133 PROGRAMAÇÃO II Programação 134 PROGRAMAÇÃO III Programação 135 PROGRAMAÇÃO IV Programação Análise e Projetos de Sistemas Análise e Projetos de Sistemas 136 SISTEMAS DE INFORMAÇÕES GERENCIAIS I 137 SISTEMAS DE INFORMAÇÕES GERENCIAS II 138 SISTEMAS OPERACIONAIS I 139 SISTEMAS OPERACIONAIS II Infraestrutura Teoria da Computação e Inteligência Artificial 140 TELEPROCESSAMENTO I Infraestrutura 141 TELEPROCESSAMENTO II 142 TÓPICOS AVANCADOS EM COMPUTAÇÃO I Infraestrutura Teoria da Computação e Inteligência Artificial 143 TÓPICOS AVANCADOS EM COMPUTAÇÃO II Complementares 156 CONTABILIDADE DE CUSTOS Complementares 111 199 INTRODUÇÃO A ECONOMIA Humanas 259 ALGEBRA LINEAR Matemática 262 ALGORITMO Programação 268 CÁLCULO I Matemática 269 CÁLCULO II Matemática 283 ESTATÍSTICA GERAL I Matemática 284 ESTATÍSTICA GERAL II Matemática 295 MATEMÁTICA BÁSICA Matemática 296 MATEMÁTICA FINANCEIRA Matemática 305 ESTUDO DE PROBLEMAS BRASILEIROS I Humanas 308 ESTUDO DE PROBLEMAS BRASILEIROS II Humanas 326 INFORMÁTICA SOCIAL Humanas 630 PRÁTICA DESPORTIVA I Humanas 631 PRÁTICA DESPORTIVA II Humanas 802 LINGUA PORTUGUESA I Humanas 803 LINGUA PORTUGUESA II Humanas 824 INGLES TÉCNICO I Humanas 825 INGLES TÉCNICO II Humanas 840 METODOLOGIA CIENTÍFICA Humanas 1041 RELAÇÕES HUMANAS Humanas 1218 EDUCAÇÃO FÍSICA Humanas 1219 EDUCAÇÃO FÍSICA Humanas 1354 ÉTICA E CIDADANIA I Humanas 1355 ÉTICA E CIDADANIA II Humanas 1544 ESTATÍSTICA Matemática 1760 CÁLCULO Matemática 1767 CÁLCULO 1787 BANCO DE DADOS Matemática Análise e Projetos de Sistemas Análise e Projetos de Sistemas 1798 ADMINISTRAÇÃO EMPRESARIAL Complementares 1799 ÉTICA EM INFORMÁTICA Humanas Análise e Projetos de Sistemas 1781 BANCO DE DADOS 1801 ANÁLISE E PROJETO DE SISTEMAS 1803 REDES DE COMPUTADORES 1805 PESQUISA OPERACIONAL Infraestrutura Teoria da Computação e Inteligência Artificial Teoria da Computação e Inteligência Artificial 1806 ESTRATÉGIA DE NEGOCIOS Complementares 1809 REDES DE COMPUTADORES Infraestrutura 2021 ALGORITMOS Programação 2023 COMPUTAÇÃO BÁSICA Infraestrutura 2024 MATEMÁTICA COMPUTACIONAL Matemática 2025 ALGEBRA LINEAR Matemática 2158 ALGORITMOS Programação 1804 INTELIGÊNCIA ARTIFICIAL 112 2159 ELETRÔNICA PARA COMPUTAÇÃO Infraestrutura 2160 INGLÊS INSTRUMENTAL Humanas 2161 METODOLOGIA DA PESQUISA Humanas 2162 PROGRAMAÇÃO Programação 2163 PROGRAMAÇÃO Programação 2164 LINGUAGEM DE MÁQUINA Infraestrutura 2165 CÁLCULO NUMÉRICO Matemática 2166 MODELAGEM DE INCERTEZA Matemática 2167 SISTEMAS OPERACIONAIS Infraestrutura 2168 TOPICOS ESPECIAIS EM PROGRAMAÇÃO Programação Análise e Projetos de Sistemas 2169 ENGENHARIA DE SOFTWARE 2170 INFORMÁTICA E A SOCIEDADE 2171 LINGUAGENS FORMAIS E COMPILADORES 2172 LINGUAGENS FORMAIS E COMPILADORES 2173 TÓPICOS ESPECIAIS EM COMPUTAÇÃO 2174 ANÁLISE E PROJETO DE SISTEMAS 2175 SISTEMAS DE INFORMAÇÃO 2176 TÓPICOS ESPECIAIS EM COMPUTAÇÃO 2177 ERGONOMIA E QUALIDADE Humanas Teoria da Computação e Inteligência Artificial Teoria da Computação e Inteligência Artificial Complementares Análise e Projetos de Sistemas Análise e Projetos de Sistemas Complementares Análise e Projetos de Sistemas 2178 ADMINISTRAÇÃO EM INFORMÁTICA TRABALHO TÉCNICO-CIENTÍFICO DE CONCLUSAO DE 2179 CURSO Complementares 2180 TRABALHO DE CONCLUSÃO DE CURSO Conclusão de Curso 3058 EMPREENDEDORISMO Complementares 3641 PROGRAMAÇÃO Programação 3642 INFORMÁTICA E A SOCIEDADE TRABALHO TÉCNICO-CIENTIFICO DE CONCLUSÃO DE 3647 CURSO Humanas 4186 ALGORITMOS E PROGRAMAÇÃO Programação 4187 CIRCUITOS DIGITAIS Infraestrutura 4188 ALGORITMOS E PROGRAMAÇÃO Programação 4189 ARQUITETURA E ORGANIZACAO DE COMPUTADORES Infraestrutura 4190 ESTRUTURAS DE DADOS Programação 4191 PROGRAMAÇÃO Programação 4192 ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES Infraestrutura 4193 SIMULAÇÃO DISCRETA DE SISTEMAS Matemática Teoria da Computação e Inteligência Artificial Teoria da Computação e Inteligência Artificial Teoria da Computação e Inteligência Artificial Teoria da Computação e Inteligência Artificial 4194 GRAFOS 4195 LINGUAGENS FORMAIS E AUTOMATOS 4196 COMPLEXIDADE DE ALGORITMOS 4197 COMPILADORES Conclusão de Curso Conclusão de Curso 113 4198 ENGENHARIA DE SOFTWARE 4199 SISTEMAS DISTRIBUIDOS 4200 INTELIGÊNCIA ARTIFICIAL 4201 INFORMÁTICA NA EDUCACAO 4202 ENGENHARIA DE USABILIDADE Fonte: Coordenação Acadêmica Curso de Ciência da Computação - UNIVALI Análise e Projetos de Sistemas Infraestrutura Teoria da Computação e Inteligência Artificial Complementares Análise e Projetos de Sistemas 114 APÊNDICE C – DICIONÁRIO DE DADOS DOS REFERENTE AOS ATRIBUTOS CAPTADOS A PARTIR DAS TELAS DO SISTEMA ACADÊMICO DA UNIVALI – MODELAGEM DATA MART Quadro 23 – Tabela aluno_afastamentos(t0055) Campo Formato Descrição do campo LETANO INT Ano letivo LETSEM INT Semestre letivo HISSEMAFA INT Semestre em que o aluno afastou-se do curso HISDATAFA DATE Data em que o aluno afastou-se do curso dd/mm/aaaa Chave estrangeira para a tabela alunos(t0001), contém o código individual Cad_Aluno INT de cada aluno HISCURCOD INT Chave estrangeira para a tabela curso(t0007), indica o curso do aluno Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual HISCURRNRO INT currículo pertence o aluno Chave estrangeira para a tabela codigos_afastamento(t0034), indica o HISAFACOD INT motivo do afastamento Fonte: Sistema Acadêmico UNIVALI. Quadro 24 – Tabela alunos(t0001) Campo Formato Cad_Aluno INT ALU2NOM VARCHAR(45) ALU2ANOAFA INT ALU2DATAFA DATE ALU2SEMAFA INT ALU2ANOING INT ALU2SEMING INT ALU2DATING DATE ALU2DATNAS DATE ALU2CURVES VARCHAR(80) ALU2SEMVES INT ALU2ANOVES INT ALU2STAFMD CHAR(1) ALU2CID VARCHAR(20) ALU2QTDSEM INT Descrição do campo Chave primária, única, contendo o código identificador do aluno. Contém o nome do aluno Contém o ano em que o aluno afastou-se do curso Data em que o aluno afastou-se do curso dd/mm/aaaa Contém o semestre em que o aluno afastou-se do curso Contém o ano em que o aluno ingressou no curso Contém o semestre em que o aluno ingressou o curso Contém a data em que o aluno ingressou no curso dd/mm/aaaa Contém a data de nascimento do aluno Contém o curso para o qual o aluno prestou vestibular Contém o semestre em que o aluno prestou vestibular Contém o ano em que o aluno prestou vestibular Contém o status de formando ou não do aluno Contém a cidade em que o aluno reside Contém a quantidade de semestres em que o aluno está no curso Chave estrangeira para a tabela codigos_estadocivil(t0038), indica o estado ESTCIVCOD INT civil do aluno ALU2SEX INT Chave estrangeira para a tabela sexo, indica o sexo o aluno Chave estrangeira para a tabela codigos_afastamento(t0034), indica o AFACOD INT motivo do afastamento CURCOD INT Chave estrangeira para a tabela curso(t0007), indica o curso do aluno Chave estrangeira para a tabela codigos_tipoingresso(t0045), indica o tipo INGCOD INT de ingresso do aluno no curso Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual CURRNRO INT currículo pertence o aluno Fonte: Sistema Acadêmico UNIVALI. Quadro 25 – Tabela alunos_historico(t0023) Campo Formato Descrição do campo HISPERCUR INT Contém o historio do período ao qual a disciplina pertence HISANOAPR INT Contém o ano em que o aluno foi aprovado na disciplina HISSEMAPR INT Contém o semestre em que o aluno foi aprovado na disciplina HISMEDAPR FLOAT Contém a média de aprovação do aluno na disciplina 115 Contém o status de aproveitamento ou não da disciplina de outro curso ou instituição (sim = aproveitada, não = cursada no Curso de Ciência da HISOBSDIS CHAR Computação da UNIVALI) Chave estrangeira para a tabela alunos(t0001), contém o codico individual Cad_Aluno INT de cada aluno HISCURCOD INT Chave estrangeira para a tabela curso(t0007), indica o curso do aluno Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual HISCURRNRO INT currículo pertence o aluno HISDISCOD INT Chave estrangeira para a tabela disciplina(t0010), indica a disciplina Fonte: Sistema Acadêmico UNIVALI. Quadro 26 – Tabela alunos_periodoletivo(t0002) Campo Formato Descrição do campo Chave estrangeira para a tabela alunos(t0001), contém o codico individual INT Cad_Aluno de cada aluno LETANO INT Ano Letivo LETSEM INT Semestre Letivo ALU2PERACA INT Período acadêmico que o aluno estava ALU2CREACA INT Quantidade de créditos acadêmicos feitos pelo aluno no semestre ALU2ULTALT DATE Última alteração na matrícula ALU2STAFOR CHAR Se o aluno é formando naquele período Chave estrangeira para a tabela codigos_tipomatricula(t0052), indica o tipo INT MATCODTIP de matricula que o aluno está fazendo ALU2DATMAT DATE Data em que o aluno efetuou a matricula ALU2ENTPEN CHAR Indica se o aluno possui alguma pendência na matricula ALU2ENTCON CHAR Indica a confirmação da entrega de documentação ALU2ENTDTA DATE Data entrega documentação ALU2MATCOM CHAR Confirmação da Matrícula LETFLGPROUNI CHAR Indica se o aluno possui bolsa do PROUNI Fonte: Sistema Acadêmico UNIVALI. Quadro 27 – Tabela avaliacoes_aluno(avaaluno) Campo Formato Descrição do campo LETANO INT Ano Letivo LETSEM INT Semestre Letivo Chave estrangeira para a tabela disciplinas(t0010), contém o código da INT DISCOD disciplina TURCURCOD INT Chave estrangeira para a tabela curso(t0007), contém o código do curso TURSEQDIS INT Sequência da disciplina (pré-requisitos) TURTNODIS INT Contém o turno em que a disciplina é ministrada Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do INT MEDTIPCOD tipo de média Chave estrangeira para a tabela media_tipo_media(medprcse), contém as INT MEDCOD divisões que cada tipo de media possui Chave estrangeira, contém o código das avaliações que cada professor INT AVACOD propõe durante o semestre Chave estrangeira para a tabela alunos(t0001), contém o codico individual INT Cad_Aluno de cada aluno AVAALUNOT FLOAT Contém a nota do aluno em cada avaliação feita pelo professor (AVACOD) Fonte: Sistema Acadêmico UNIVALI. Quadro 28 - Tabela avaliacoes_disciplina(avadisc) Campo Formato Descrição do campo LETANO INT Ano Letivo LETSEM INT Semestre Letivo Chave estrangeira para a tabela disciplinas(t0010), contém o código da INT DISCOD disciplina TURCURCOD INT Chave estrangeira para a tabela curso(t0007), contém o código do curso TURSEQDIS INT Sequência da disciplina (pré-requisitos) 116 TURTNODIS INT Contém o turno em que a disciplina é ministrada Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do INT MEDTIPCOD tipo de média Chave estrangeira para a tabela media_tipo_media(medprcse), contém as INT MEDCOD divisões que cada tipo de media possui Contém o código das avaliações que cada professor propõe durante o INT AVACOD semestre Contém a descrição das avaliações que cada professor propõe durante os VARCHAR(45) AVADESC semestre TIPAVACOD INT Código para classificação da avaliação. AVAPESO FLOAT Contém o peso que cada avaliação tem para fechamento das medias Fonte: Sistema Acadêmico UNIVALI. Quadro 29 - Tabela Categoria_Disciplina Campo Formato Descrição do campo Chave primária, única, contendo o código identificador dos grupos das GRUCOD INT disciplinas. GRUDESC VARCHAR(30) Contém a descrição de cada grupo de disciplina Fonte: Sistema Acadêmico UNIVALI. Quadro 30 - Tabela classes(classe) LETANO INT Ano Letivo LETSEM INT Semestre Letivo Chave estrangeira para a tabela disciplinas(t0010), contém o código da INT DISCOD disciplina TURCURCOD INT Chave estrangeira para a tabela curso(t0007), contém o código do curso TURSEQDIS INT Sequência da disciplina (pré-requisitos) TURTNODIS INT Contém o turno em que a disciplina é ministrada TURPERCUR INT Período do curso que a disciplina pertence TURQTDALU CHAR Contém a quantidade de alunos na turma TURMEDAPRD INT Contém a média que o aluno necessita para a aprovação TURMAXALU INT Máximo de alunos que a turma pode ter Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do INT TURMEDTIPC tipo de média Chave estrangeira para a tabela curso_curriculo(t0017), contém o currículo INT CLACURRNRO que a disciplina faz parte Fonte: Sistema Acadêmico UNIVALI. Quadro 31 - Tabela classes_alunos(aluclass) Campo Formato Descrição do campo LETANO INT Ano Letivo LETSEM INT Semestre Letivo Chave estrangeira para a tabela disciplinas(t0010), contém o código da INT DISCOD disciplina TURCURCOD INT Chave estrangeira para a tabela curso(t0007), contém o código do curso TURSEQDIS INT Sequência da disciplina (pré-requisitos) TURTNODIS INT Contém o turno em que a disciplina é ministrada Chave estrangeira para a tabela alunos(t0001), contém o codico individual INT Cad_Aluno de cada aluno ALU2CONNOT CHAR Status de confirmação da nota do aluno ALU2NOTSEM FLOAT Nota do aluno no semestre ALU2NOTEXA FLOAT Nota do aluno no exame ALU2MEDSEM FLOAT Nota fina do aluno no semestre ALU2STADIS INT Status de aprovado ou reprovado Chave estrangeira para a tabela disciplinas(t0010), contém o código de uma INT DISCODEQV disciplina equivalente ALU2STAFRE CHAR Status aprovado ou reprovado por frequência Chave estrangeira para a tabela disciplinas(t0010), contém o código de uma INT DISCODEQV2 disciplina equivalente 117 ALU2STAMAT INT Status confirmação Matricula ALU2FLGEXTCURR CHAR Contém o status da disciplina referente a ser de extinção ou não Fonte: Sistema Acadêmico UNIVALI. Quadro 32 - Tabela codigos_afastamento(t0034) Campo Formato Descrição do campo AFACOD INT Chave primária, única, contendo os códigos de afastamento AFADES VARCHAR(45) Contém a descrição dos tipo de afastamento Fonte: Sistema Acadêmico UNIVALI. Quadro 33 - Tabela codigos_estadocivil(t0038) Campo Formato Descrição do campo ESTCIVCOD INT Chave primária, única, contendo os códigos do estado civil ESTCIVDES VARCHAR(15) Contém a descrição dos tipo de estado civil Fonte: Sistema Acadêmico UNIVALI. Quadro 34 - Tabela codigos_tipoingresso(t0045) Campo Formato Descrição do campo INGCOD INT Chave primária, única, contendo os códigos de ingresso INGDES VARCHAR(20) Contém a descrição dos tipo de ingresso Fonte: Sistema Acadêmico UNIVALI. Quadro 35 - Tabela codigos_tipomatricula(t0052) Campo Formato Descrição do campo MATCODTIP INT Chave primária, única, contendo os códigos de matricula MATDESTIP VARCHAR(25) Contém a descrição dos tipo de matricula Fonte: Sistema Acadêmico UNIVALI. Quadro 36 - Tabela curso(t0007) Campo Formato Descrição do campo CURCOD INT Chave primária, única, contendo os códigos dos cursos CURNOM VARCHAR(45) Contém o nome dos cursos Fonte: Sistema Acadêmico UNIVALI. Quadro 37 - Tabela curso_curriculo(t0017) Campo Formato Descrição do campo CURRNRO INT Chave primária, única, contendo os currículos CURCOD INT Chave estrangeira para a tabela curso(t0007), indica o curso CURRQTDPER INT Quantidade de períodos possui o currículo CURRANOINI INT Ano que o currículo começou a ser utilizado CURRSEMINI INT Semestre que o currículo começou a ser utilizado CURRCARHO Carga horaria total do currículo R INT CURRFLGATU CHAR Indica se o currículo é o atual Fonte: Sistema Acadêmico UNIVALI. Quadro 38 – Tabela curso_curriculo_disciplina(t0018) Campo Formato Descrição do campo CURCOD INT Chave estrangeira para a tabela curso(t0007), indica o curso Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual INT CURRNRO currículo Chave estrangeira para a tabela disciplinas(t0010), contém o código da INT DISCOD disciplina CURRPERDIS INT Contém o período que pertence a disciplina para o currículo CURRMEDAPR INT Contém a média para aprovação no currículo Fonte: Sistema Acadêmico UNIVALI. 118 Quadro 39 - Tabela disciplinas(t0010) Campo Formato Descrição do campo DISCOD INT Chave primária, única, contendo a chave para cada disciplina VARCHAR(30 Contém o nome da disciplina DISNOM ) DISCREACA INT Contém a quantidade de créditos acadêmicos tem a disciplina DISCGH INT Carga horaria total da disciplina Chave estrangeira para a tabela Categoria_Disciplina, contém os códigos INT para a classificação das disciplinas em grupos conforme a área de GRUCOD conhecimento DISCGHTEO INT Carga horaria teoria da disciplina DISCGHPRA INT Carga horaria pratica da disciplina Fonte: Sistema Acadêmico UNIVALI. Quadro 40 - Tabela media_tipo_media(medprcse) Campo Formato Descrição do campo Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do INT MEDTIPCOD tipo de média Chave estrangeira para a tabela media_tipo_media(medprcse), contém as INT MEDCOD divisões que cada tipo de media possui VARCHAR(35 Contém o descritivo de MEDCOD, ou seja, Media 1, Media 2... MEDDESC ) MEDSIGLA VARCHAR(5) Contém a sigla para MEDDESC, ou seja, M1, M2... MEDPESO INT Contém o peso que cada MEDCOD apresenta na composição da nota final Fonte: Sistema Acadêmico UNIVALI. Quadro 41 - Tabela medias_parciais(medprcal) Campo Formato Descrição do campo Chave estrangeira para a tabela alunos(t0001), contém o codico individual INT Cad_Aluno de cada aluno LETANO INT Ano Letivo LETSEM INT Semestre Letivo Chave estrangeira para a tabela disciplinas(t0010), contém o código da INT DISCOD disciplina TURCURCOD INT Chave estrangeira para a tabela curso(t0007), contém o código do curso TURSEQDIS INT Sequência da disciplina (pré-requisitos) TURTNODIS INT Contém o turno em que a disciplina é ministrada Chave estrangeira para a tabela tipo_media(tipomedi), contém o código do INT MEDTIPCOD tipo de média Chave estrangeira para a tabela media_tipo_media(medprcse), contém as INT MEDCOD divisões que cada tipo de media possui MEDCALC FLOAT Contém a média do aluno em cada MEDCOD (M1, M2...) MEDFALTAS INT Contém as faltas do aluno em cada MEDCOD (M1, M2...) Fonte: Sistema Acadêmico UNIVALI. Quadro 42 - Tabela pre-requisitos(t0031) Campo Formato Descrição do campo CURCOD INT Chave estrangeira para a tabela curso(t0007), indica o curso Chave estrangeira para a tabela curso_curriculo(t0017), indica a qual INT CURRNRO currículo DISCOD INT Chave estrangeira para a tabela disciplina(t0010), indica uma disciplina Chave estrangeira para a tabela disciplina(t0010), indica uma disciplina que INT DISPREREQ é pré-requisito da disciplina do atributo DISCOD Fonte: Sistema Acadêmico UNIVALI. Quadro 43 - Tabela sexo Campo Formato Cod_Sexo INT Descrição VARCHAR(9) Descrição do campo Chave primária, única, contendo os sexo Feminino ou Masculino 119 Fonte: Sistema Acadêmico UNIVALI. Quadro 44 - Tabela tipo_media(tipomedi) Campo Formato Descrição do campo MEDTIPCOD INT Chave primária, única, contendo os tipos de media MEDTIPDES VARCHAR(9) Contém o descritivo dos tipos de media Fonte: Sistema Acadêmico UNIVALI. Quadro 45 - Tabela tipo_codigo_avaliacoes(TipAvaCod) Campo Formato Descrição do campo TIPAVACOD INT Chave primária, única, contendo os tipos de grupos de avaliações TIPAVADESC VARCHAR(30) Contém a descrição dos grupos de avaliações Fonte: Sistema Acadêmico UNIVALI. 120 APÊNDICE D – LISTA DOS ATRIBUTOS EXCLUÍDOS EM CADA TABELA E A JUSTIFICATIVA PARA EXCLUSÃO Quadro 46 - Tabela alunos(t0001) Campo ALU2NROIDE ALU2NOMCOM ALU2MAE ALU2ORGIDE ALU2ESTIDE ALU2DATIDE ALU2NROTIT ALU2SECTIT ALU2ZONTIT ALU2CIDTIT ALU2ESTTIT ALU2DATTIT ALU2NROMIL ALU2DOCMIL ALU2SERMIL ALU2ORGMIL ALU2DATMIL ALU2FLGPSS MODCOD HABCOD ALU2TUR ALU2TNO ALU2ANOFEZ ALU2SEMFEZ ALU2QTDREP ALU2MEDVES ALU2MEDGER ALU2INDGER ALU2INDREG ALU2INDMED ALU2INDREP ALU2USUIND ALU2DTHRIN ALU2CPF ALU2INTEND ALU2INTCEP ALU2INTBAI ALU2INTCID ALU2INTEST ALU2INTFON ALU2INTCOM ALU2INTEMA ALU2INTBAN ALU2INTAGE ALU2INTNOM ALU2INTDAT ALU2RESDAT ALU2END ALU2BAI ALU2CEP ALU2ESTRES Descrição Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Todos os registros vazios Contém apenas o número 1 Contém apenas o número 0 Contém apenas o número 1 Contém apenas o número 3 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Todos os registros vazios Todos os registros contém 1/1/0001 Irrelevante para a pesquisa Todos os registros vazios Contém apenas o número 0 Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Contém apenas o número 0 Contém apenas o número 0 Todos os registros vazios Todos os registros contém 1/1/0001 Todos os registros contém 1/1/0001 Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa 121 ALU2FONRES ALU2FONCOM ALU2FONREC RESCPFCGCN ALU2BANAGE ALU2BANCOD ALU2SENHA ALU2DTHRCR ALU2DTHRUL ALU2DTHRSE ALU2EMAIL ALU2ENTDTC ALU2ENTDTR ALU2DIAVCT ALU2DEBBAN ALU2DEBAGE ALU2DEBNRO ALU2DEBDIG ALU2DATDIP ALU2FLG2 MOTAFACOD EMPUNICOD ALU2INGMAN ALU2DOCBAN ALU2DOCAGE ALU2DOCNRO ALU2DOCDIG ALU2DOCCPF ALU2DOCNOM ALU2EMAILC ALU2CARGO ALU2FLGPRO ALU2FLGESP ALU2EMPCOD ALU2DOCFLG ALU2DATENV ALU2AGRCON ALU2MAILCR ALU2MAILCO ALU2GRAUNV ALU2GRACMP ALU2GRACNT ALU2GRACEX ALU2ESPUNV ALU2ESPCMD ALU2ESPCNT ALU2ESPCEX ALU2PROFUN ALU2NOMREFBIB LINPESCOD ALU2DATSLCQLF ALU2DATSLCDFS ALU2DATCONFQLF ALU2DATCONFDFS ALU2USUCONFQLF ALU2USUCONFDFS ALU2DATAPRQLF ALU2DATAPRDFS Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Todos os registros contém 1/1/0001 Todos os registros contém 1/1/0001 Todos os registros contém 1/1/0001 E-mail do aluno Todos os registros contém 1/1/0001 Todos os registros contém 1/1/0001 Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Todos os registros contém 1/1/0001 Todos os registros vazios Contém apenas o número 0 Contém apenas o número 0 Todos os registros vazios Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros contém 1/1/0001 Todos os registros contém N Todos os registros contém 1/1/0001 Todos os registros contém 1/1/0001 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Todos os registros vazios Contém apenas o número 0 Todos os registros contem 1/1/0001 Todos os registros contem 1/1/0001 Todos os registros contem 1/1/0001 Todos os registros contem 1/1/0001 Todos os registros vazios Todos os registros vazios Todos os registros contem 1/1/0001 Todos os registros contem 1/1/0001 122 ALU2USUAPRQLF ALU2USUAPRDFS ALU2PREMATFLG ALU2VAGTIPCOD ALU2NOMUPPER ALU2FLGCOMPL ALU2PERSUG ALU2BLQMAT ALU2BLQMTV ALU2FLGSEG ALU2PFC ALU2DOCAGEDIG ALU2BANAGEDIG ALU2NATURALIZADO ALU2FLGADIC ALU2AN4AFA ALU2AN4ING ALU2PAI ALU2CIDNAS ALU2ESTNAS ALU2STAMAE ALU2INSVES ALU2INS2GR ALU2CID2GR ALU2EST2GR ALU2ANO2GR ALU2FLG1 ALU2NROCAI ALU2FLG3 ALU2CLAGER ALU2ENTCPF ALU2ENTRES ALU2RESP ALU2CADCPF ALU2CADDTC ALU2CADRES ALU2CADDTR ALU2INTRES ALU2INSSUP ALU2CIDGRA ALU2ESTINS ALU2ANOGRD ALU2CURSUP ALU2PT1VES ALU2PT2VES ALU2PT3VES ALU2PT4VES ALU2DATCON ALU2DATCOL ALU2CUR2GR ALU2RECTIT ALU2DEBRES TIPPGOCOD PAICOD ALU2EXTANO ALU2EXTSEM ALU2EXTNUM ALU2DVPAIS Todos os registros vazios Todos os registros vazios Todos os registros vazios Contém apenas o número 0 Contém o nome do aluno Todos os registros contém N Contém apenas o número 0 Irrelevante para a pesquisa Irrelevante para a pesquisa Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Todos os registros contém N Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa 123 ALU2IDERAC ALU2INGUNC ALU2AFAUNC ALU2DATTRF ALU2ANOTRF ALU2SEMTRF ALU2SEQTRF ALU2TIPDEF ALU2GRUING ALU2NACIDC ALU2RECIDC ALU2TECIDC ALU22GCIDC ALU2ESCIDC ALU2IDUFCO ALU2VECIDC AFACODANT AFADATANT AFAANOANT AFASEMANT ALU2CENESCPUBLICA ALU2FLGATUHIST ALU2CIDREC ALU2ULTANO ALU2ULTSEM ALU2ULTPER ALU2FLG3 ALU2PESCOD ALU2DIGPES ALU2PESSOA ALU2CODANT ALU2CIDVES Fonte: Sistema Acadêmico UNIVALI. Quadro 47 - Tabela alunos_periodoletivo(t0002) Campo ALU2TIPPAG ALU2SITFIN USUCODMAT1 ALU2LETFL2 ALU2LETFL3 ALU2LETFL1 ALU2ENTPEN ALU2MANDSE ALU2FLGMAT ALU2FLGSIT ALU2LETNUM ALU2MATTER ALU2MATCOM ALU2LETEXT LETFLGAPV LETMEDGERL LETPERCFREQ LETQTDPARC LETFLGDILU LETMESINI ALU2CREFIN EDUFISCODD Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Descrição Irrelevante para a pesquisa Todos os registros vazios Irrelevante para a pesquisa Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Irrelevante para a pesquisa Irrelevante para a pesquisa 124 ALU2PEREDU ALU2PERFIN ALU2OUTCRE ALU2PEROUT JUSCODTIP Fonte: Sistema Acadêmico UNIVALI. Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Quadro 48 - Tabela aluno_afastamentos(t0055) Campo HISCURCOD HISHABCOD HISMODCOD Fonte: Sistema Acadêmico UNIVALI. Descrição Irrelevante para a pesquisa Contém apenas o número 0 Irrelevante para a pesquisa Quadro 49 - Tabela alunos_historico(t0023) Campo HISNMEDAPR CONCSEQ CONCTIPCUR HISMODCOD HISHABCOD HISOBSREQP HISAN4APR Fonte: Sistema Acadêmico UNIVALI. Descrição Todos os registros vazios Todos os registros vazios Todos os registros vazios Contém apenas o número 1 Contém apenas o número 0 Contém apenas o número 0 Irrelevante para a pesquisa Quadro 50 - Tabela codigos_afastamento(t0034) Campo AFAMULTACO AFAQTDMESE AFAFLGHIS AFACODINEP Fonte: Sistema Acadêmico UNIVALI. Descrição Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Quadro 51 - Tabela codigos_tipoingresso(t0045) Campo INGFLGCAL GRUINGCOD INGCURTIPC INGLANTIP INGBOLPERC CENINGCOD Fonte: Sistema Acadêmico UNIVALI. Descrição Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Quadro 52 - Tabela curso(t0007) Campo CURNOMABR UNICOD CAMCOD SISCOD CENCUSCOD CURSTACHE CURSTAATV CURSTATIT CURFLGPROV CURPERINIP CURFLG2 CURTIPCURS CURFLG4 Descrição Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa 125 CURFLG5 CURBCOCOD CURBCOAGEC CURCREQTDM CURCREPER CURIMPTODT COORDCOD CURDATIMPL CURINADAT CURINAANO CURINASEM CURSERCODS CURSERCODE CURSERNUM CURIDAMIN CURIDAMAX CURQTDRESV CURQTDPREC CURQTDMAXA CURQTDMINA CURNOMOFI CURQTDREAP CURFLGNIV CURUR CURLISMATU CURNUCLIC GRUCURCOD CURABRPER CURDESPER CURCODPRX CURFLGRCPR SIGCURCAPE CODCURCAPE PRGMESCOD CUREAD CURMODU ESDCOD CURFLGNUC ID_INEP CURALIESTR CURSEDID CURFLGCHOQPER CURLINHA4 CURNOMSUG CURFLGMI DATINICURENA Fonte: Sistema Acadêmico UNIVALI. Quadro 53 - Tabela curso_curriculo(t0017) Campo HABCOD MODCOD CURRDESALT CURRFLGATU CURRFLGEDU CURRATIVEX CURRDSCATI CURNMCTDIS Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Descrição Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa 126 CURRCHANUA CURRDURAUL CURRQTDIAS CURRQTDSNA CURRQTDDIA CURRMAXDISALUESP CURRMINDISALUESP CURRTMPRETAFA CURRTMPPRG CURRTMPMAX CURRTMPMIN CURRPFC CURRMINQTDSEM CURRPERCENADE Fonte: Sistema Acadêmico UNIVALI. Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Quadro 54 - Tabela curso_curriculo_disciplina(t0018) Campo Descrição MODCOD Irrelevante para a pesquisa HABCOD Irrelevante para a pesquisa CURROBSDIS Irrelevante para a pesquisa CURRPREHOR Irrelevante para a pesquisa CURRDISMED Irrelevante para a pesquisa CURREXTERI Irrelevante para a pesquisa CURRQTDCLA Irrelevante para a pesquisa CURRHORCM Irrelevante para a pesquisa CURRCOBOBR Irrelevante para a pesquisa CURRQTDDEV Irrelevante para a pesquisa CURRQTDPAR Irrelevante para a pesquisa CURRMINIDA Irrelevante para a pesquisa CURRCHSNAD Irrelevante para a pesquisa TIPDISCOD Irrelevante para a pesquisa AREACOD Irrelevante para a pesquisa OPCCOD Irrelevante para a pesquisa CURRLIMFAL Irrelevante para a pesquisa CURRMETIPC Irrelevante para a pesquisa CURRMEDEXMAPV Irrelevante para a pesquisa CURRPREHORPERFIM Irrelevante para a pesquisa CURRPREHORPERINI Irrelevante para a pesquisa GRUFINCOD Irrelevante para a pesquisa Fonte: Sistema Acadêmico UNIVALI. Quadro 55 - Tabela disciplinas(t0010) Campo SISCOD DISNOMCOMP DISCGHINT DISSIG DISSIGCAPE DISTIP DISCGHINTTEO DISCGHINTPRA DISDURAULHOR DISNOMCONCAT DISCREFIN DISQUOTAEXTRAALUNO DISQUOTAPROF Fonte: Sistema Acadêmico UNIVALI. Descrição Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa 127 Quadro 56 - Tabela pre-requisitos(t0031) Campo MODCOD HABCOD Fonte: Sistema Acadêmico UNIVALI. Quadro 57 - Tabela classes(classe) Campo TURTMACOD TURMODCOD TURHABCOD TURCURRNRO DISCLASSE TIPSAICOD TURDATLIBP TURDATVALI TURDATREVI TURDATALTP TURFLGCONV TURFLGEMEN TURDATEMEN TURDATOBSC TURUSUOBSC TURDATOBSA TURUSUOBSA TURDHRECDI TURUSUCODR TUROBSPER TURSTAINT TURSTABLO TURSTADIA TURSTAMEDS TURSTAMEDF TURMAXALUS TURQTDALUS TURMAXALUC TURFLGMODU TURFLGEAD TURQTDCHT TURQTDCHP TURFLGDISC UNICOD TUREXCVRF TURCURREXC TURPEREXCL TURSEMEXCL TURANOEXCL TURFORVRF TURALUFOR TURPERVRF TURPERFIM TURPERINI TURREGVRF TURALUREG TURLIMFAL TURFLGCON TURBLOEME TURMEDEXMAPV Descrição Contém apenas o número 1 Contém apenas o número 0 Descrição Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém somente 1/1/0001 Contém somente 1/1/0001 Contém somente 1/1/0001 Contém somente 1/1/0001 Todos os registros vazios Irrelevante para a pesquisa Irrelevante para a pesquisa Contém somente 1/1/0001 Contém apenas o número 0 Contém somente 1/1/0001 Contém apenas o número 0 Contém somente 1/1/0001 Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Todos os registros vazios Todos os registros vazios Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas N Contém apenas N Irrelevante para a pesquisa Irrelevante para a pesquisa Contém apenas N Contém apenas o número 50 Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Todos os registros vazios Contém apenas o número 25 Contém apenas o N Todos os registros vazios Todos os registros vazios 128 TURTIPCLAS TURDTNUMCHA TURAGEHOR TURDURINTERVALO CLAHABCOD CLAMODCOD CLAQTDHAP CLAFLGBLOQALU CLAFLGPROFHOR CLAFLGNAOEXTR CLAMAXVET Fonte: Sistema Acadêmico UNIVALI. Todos os registros vazios Contém somente 1/1/0001 Todos os registros vazios Todos os registros vazios Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Irrelevante para a pesquisa Contém apenas o N Contém apenas o N Contém apenas o número 0 Quadro 58 - Tabela Avaliações(AvaMedia) Campo TURTMACOD TURMODCOD TURHABCOD TURCURRNRO Fonte: Sistema Acadêmico UNIVALI. Descrição Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Quadro 59 - Tabela Tipo_Curso(CurTipo) Campo CURTIPDURA CURTIPFRQD CURTIPLIMF CURTIPAVAD CURTIPAVAA CURTIPMEDE CURTIPMEAR CURTIPMFDE CURTIPMFAR CURFLGCCTO CURMEDEXMA CURTIPQTDENC CURTIPINT CURTIPPLANENS CURTIPMATCOMP CURTIPINGCOD CURTIPQTDMAXAFA Fonte: Sistema Acadêmico UNIVALI. Descrição Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Quadro 60 - Tabela Medias_Parciais(MedPrcAl) Campo TURTMACOD TURMODCOD TURHABCOD TURCURRNRO MEDTIP MEDCONF MEDPONCNS Fonte: Sistema Acadêmico UNIVALI. Descrição Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Quadro 61 - Tabela Avaliaçoes_Aluno(AvaAluno) Campo TURTMACOD TURMODCOD TURHABCOD Descrição Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 129 TURCURRNRO AVAALUCONF AVAPRCALT AVAALUAUSE Fonte: Sistema Acadêmico UNIVALI. Contém apenas o número 0 Irrelevante para a pesquisa Irrelevante para a pesquisa Irrelevante para a pesquisa Quadro 62 - Tabela Avaliações_Disciplina(AvaDisc) Campo Descrição TURTMACOD Contém apenas o número 0 TURMODCOD Contém apenas o número 0 TURHABCOD Contém apenas o número 0 TURCURRNRO Contém apenas o número 0 AVADATAPL Irrelevante para a pesquisa AVADATDEV Irrelevante para a pesquisa AVAMEDSIT Irrelevante para a pesquisa AVAMEDJUSD Todos os registros vazios AVAFLGRCPR Todos os registros vazios AVACRIT Todos os registros vazios AVACARHOR Contém apenas o número 0 AVADATCAD Todos os registros vazios AVAAPOSVLDPLN Todos os registros vazios AVMLETANO Todos os registros vazios AVMLETSEM Todos os registros vazios AVMDISCOD Todos os registros vazios AVMTURCURCOD Todos os registros vazios AVMTURSEQDIS Todos os registros vazios AVMTURTNODIS Todos os registros vazios AVMTURTMACOD Todos os registros vazios AVMTURMODCOD Todos os registros vazios AVMTURHABCOD Todos os registros vazios AVMTURCURRNRO Todos os registros vazios AVMTURDIAAUL Todos os registros vazios AVMTURDATAUL Todos os registros vazios AVMHORCOD1 Todos os registros vazios AVMTIPHORCOD Todos os registros vazios AVADATANU Contém apenas 1/1/0001 Fonte: Sistema Acadêmico UNIVALI. Quadro 63 - Tabela Classes_Alunos(AluClass) Campo TURTMACOD TURMODCOD TURHABCOD TURCURRNRO ALU2CONNOT ALU2DISCEX ALU2DATMS ALU2DATMF USUCODMAT2 ALU2VLRCRE ALU2NUMPRO ALU2PROJUS ALU2NUMCHAM ALU2SITCLASS TURLIBDIGNOT TURVALDIGNOT ALU2FLGEXTCURR Fonte: Sistema Acadêmico UNIVALI. Descrição Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Contém apenas o número 0 Todos os registros vazios Todos os registros vazios Contém apenas 1/1/0001 Contém apenas 1/1/0001 Irrelevante para a pesquisa Contém apenas o número 0 Todos os registros vazios Todos os registros vazios Contém apenas o número 0 Todos os registros vazios Todos os registros vazios Contém apenas 1/1/0001 Irrelevante para a pesquisa 130 APÊNDICE E – SCRIPTS PARA SELEÇÃO DOS DADOS Quadro 64 - Scripts utilizados para importação das tabelas do banco de dados da UNIVALI. Nome da Tabela Script Tabela select t0001.* Alunos_PeriodoLetivo(T0002) from sa_academico_gnx.t0001 where curcod = 031 Tabela Curso(T0007) select t0007.* from sa_academico_gnx.t0007 where curcod = 031 Tabela Disciplinas(T0010) select t0010.* from sa_academico_gnx.t0010 Tabela Curso_Curriculo(T0017) select t0017.* from sa_academico_gnx.t0017 where curcod = 031 Tabela select t0018.* Curso_Curriculo_Disciplina(T0018) from sa_academico_gnx.t0018 where curcod = 031 Tabela Alunos_Historico(T0023) select t0023.* from sa_academico_gnx.t0001 t1, sa_academico_gnx.t0023 where curcod = 031 and hiscurcod=curcod and t1.alu2anocad=t0023.alu2anocad and t1.alu2semcad=t0023.alu2semcad and t1.alu2seqcad=t0023.alu2seqcad Tabela Turmas_Disciplina(T0027) select t0027.* from sa_academico_gnx.t0001 t1, sa_academico_gnx.t0027 where curcod = 031 and turcurcod=curcod Tabela Pre-Requisitos(T0031) select t0031.* from sa_academico_gnx.t0031 where curcod = 031 Tabela Codigos_Afastamento(T0034) select t0034.* from sa_academico_gnx.t0034 Tabela Codigos_EstadoCivil(T0038) select t0038.* from sa_academico_gnx.t0038 Tabela select t0043.* codigos_EstadosBrasil(T0043) from sa_academico_gnx.t0043 Tabela Codigos_TipoIngresso(T0045) select t0045.* from sa_academico_gnx.t0045 Tabela Codigos_TipoMatricula(T0052) select t0052.* from sa_academico_gnx.t0052 Tabela Aluno_Afastamentos(T0055) select t0055.* from sa_academico_gnx.t0001 t1, sa_academico_gnx.t0055 where curcod = 031 and t1.alu2anocad=t0055.alu2anocad t1.alu2semcad=t0055.alu2semcad t1.alu2seqcad=t0055.alu2seqcad select * from sa_academico_gnx.aluclass where turcurcod=31 select * from sa_academico_gnx.medprcal where turcurcod=31 Tabela Classes_Alunos(AluClass) Tabela Medias_Parciais(MedPrcAl) hiscurcod=curcod and and and 131 Tabela Classes(Classe) Tabela Avaliacoes(AvaMedia) Tabela Avaliacoes_Disciplina(AvaDisc) Tabela Avaliacoes_Aluno(AvaAluno) Tabela Tipo_Curso(CurTipo) Tabela Media_Tipo_Media(MedPrcSe) Tabela Tipo_Media(TipoMedi) select * from sa_academico_gnx.classe where turcurcod=31 select * from sa_academico_gnx.avamedia where turcurcod=31 select * from sa_academico_gnx.avadisc where turcurcod=31 select * from sa_academico_gnx.avaaluno where turcurcod=31 select * from sa_academico_gnx.curtipo select * from sa_academico_gnx.medprcse select * from sa_academico_gnx.tipomedi Fonte: Script Seleção Dados. Quadro 65 – Scripts para seleção dos dados dos alunos matriculados entre 2008/1 a 2012/2 Tabela Script Tabela alunos_periodolietivo(t0002) DELETE a FROM mydb.`alunos_periodoletivo(t0002)` a where LETANO < 8; Tabela classes_alunos(aluclass) Tabela alunos(t0001) Tabela aluno_afastamentos(t0055) Tabela alunos_historico(t0023) Tabela disciplinas(t0010) DELETE a FROM mydb.`alunos_periodoletivo(t0002)` a where LETANO > 12; DELETE a FROM mydb.`classes_alunos(aluclass)` a where LETANO < 8; DELETE a FROM mydb.`classes_alunos(aluclass)` a where LETANO > 12; SELECT DISTINCT a.* from mydb.`alunos(t0001)` as a inner join mydb.`alunos_periodoletivo(t0002)` as c ON (a.Cad_Aluno = c.Cad_Aluno); Tabela foi exportada e depois substituiu a tabela original. SELECT c.* from mydb.`alunos(t0001)` as a inner join mydb.`aluno_afastamentos(t0055)` as c ON (a.Cad_Aluno = c.Cad_Aluno); Tabela foi exportada e depois substituiu a tabela original. SELECT c.* from mydb.`alunos(t0001)` as a inner join mydb.`alunos_historico(t0023)` as c ON (a.Cad_Aluno = c.Cad_Aluno); Tabela foi exportada e depois substituiu a tabela original. SELECT DISTINCT d.* from mydb.`disciplinas(t0010)` as d inner join mydb.`alunos_historico(t0023)` as c ON (d.DISCOD = c.HISDISCOD); Tabela foi exportada e depois substituiu a tabela original. 132 Tabela medias_parciais(medprcal) Tabela avaliacoes_aluno(avaaluno) Tabela classes(classe) Tabela avaliacoes(avamedia) Tabela avaliacoes_disciplina(avadisc) DELETE a FROM mydb.`medias_parciais(medprcal)` a where LETANO < 8; DELETE a FROM mydb.`medias_parciais(medprcal)` a where LETANO > 12; DELETE a FROM mydb.`avaliacoes_aluno(avaaluno)` a where LETANO < 8; DELETE a FROM mydb.`avaliacoes_aluno(avaaluno)` a where LETANO > 12; DELETE a FROM mydb.`classes(classe)` a where LETANO < 8; DELETE a FROM mydb.`classes(classe)` a where LETANO > 12; DELETE a FROM mydb.`avaliacoes(avamedia)` a where LETANO > 12; DELETE a FROM mydb.`avaliacoes(avamedia)` a where LETANO < 8; DELETE a FROM mydb.`avaliacoes_disciplina(avadisc)` a where LETANO < 8; DELETE a FROM mydb.`avaliacoes_disciplina(avadisc)` a where LETANO > 12; Fonte: Script Seleção Dados. Quadro 66 – Scripts para seleção dos atributos e criação das tabelas para carga no Data Mart Evasão. Tabela Script Tabela dimensao_aluno SELECT `alunos(t0001)`.Cad_Aluno AS id_Aluno, `codigos_estadocivil(t0038)` .ESTCIVDES AS Estado_Civil, sexo.Descricao AS Sexo, `alunos(t0001)`.ALU2DATNAS AS Data_Nascimento, `codigos_tipoingresso(t0045)`.INGDES AS Tipo_Ingresso, `alunos(t0001)`.ALU2ANOING AS Ano_Ingresso, `alunos(t0001)`.ALU2SEMING AS Semestre_Ingresso, `alunos(t0001)`.ALU2DATING AS Data_Ingresso, `alunos(t0001)`.ALU2CURVES AS Curso_Aprovado, `alunos(t0001)`.ALU2SEMVES AS Semestre_Vestibular, `alunos(t0001)`.ALU2ANOVES AS Ano_Vestibular, `alunos(t0001)`.ALU2STAFMD AS Status_Formando, `alunos(t0001)`.ALU2CID AS Cidade, `alunos(t0001)`.ALU2QTDSEM AS Quant_Semestres FROM `alunos(t0001)` INNER JOIN sexo ON `alunos(t0001)`.ALU2SEX = sexo.ALUSEX INNER JOIN `codigos_tipoingresso(t0045)` ON `alunos(t0001)`.INGCOD = `codigos_tipoingresso(t0045)`.INGCOD 133 Tabela Dimensao_Disciplina Tabela Dimensao_Curso_Curriculo Tabela Fatos_Historico_Escolar Tabela Fatos_Afastamento INNER JOIN `codigos_estadocivil(t0038)` ON `alunos(t0001)`.ESTCIVCOD = `codigos_estadocivil(t0038)`.ESTCIVCOD SELECT `disciplinas(t0010)`.DISCOD AS id_Disciplina, `disciplinas(t0010)`.DISNOM AS Nome_Disciplina, `disciplinas(t0010)`.DISCREACA AS Num_Creditos, `disciplinas(t0010)`.DISCGH AS Carga_Horaria_Total, categoria_disciplina.GRUDESC AS Categoria, `disciplinas(t0010)`.DISCGHTEO AS Carga_Horaria_Teorica, `disciplinas(t0010)`.DISCGHPRA AS Carga_Horaria_Pratica FROM `disciplinas(t0010)` INNER JOIN categoria_disciplina ON `disciplinas(t0010)`.GRUCOD = categoria_disciplina.GRUCOD SELECT `curso_curriculo(t0017)`.CURRNRO AS id_Curso_Curriculo, `curso(t0007)`.CURNOM AS Nome_Curso, `curso_curriculo(t0017)`.CURRQTDPER AS Quantidade_Periodos, `curso_curriculo(t0017)`.CURRANOINI AS Ano_Inicio, `curso_curriculo(t0017)`.CURRSEMINI AS Sem_Inicio, `curso_curriculo(t0017)`.CURRCARHOR AS Carga_Horaria, `curso_curriculo(t0017)`.CURRFLGATU AS Curriculo_Atual FROM `curso_curriculo(t0017)` INNER JOIN `curso(t0007)` ON `curso_curriculo(t0017)`.CURCOD = `curso(t0007)`.CURCOD SELECT `alunos_historico(t0023)`.Cad_Aluno AS id_Aluno, `alunos_historico(t0023)`.HISCURRNRO AS id_Curso_Curriculo, `alunos_historico(t0023)`.HISDISCOD AS id_Disciplina, `alunos_historico(t0023)`.HISPERCUR AS Periodo_Disciplina_Curso, `alunos_historico(t0023)`.HISANOAPR AS Ano_Aprovacao, `alunos_historico(t0023)`.HISSEMAPR AS Semestre_Aprovacao, `alunos_historico(t0023)`.HISMEDAPR AS Media_Aprovacao, `alunos_historico(t0023)`.HISOBSDIS AS Disciplina_Aproveitamento, `curso_curriculo_disciplina(t0018)`.CURRMEDAPR AS Media_Para_Aprovacao FROM `alunos_historico(t0023)` INNER JOIN `curso_curriculo_disciplina(t0018)` ON `alunos_historico(t0023)`.HISCURCOD = `curso_curriculo_disciplina(t0018)`.CURCOD AND `alunos_historico(t0023)`.HISCURRNRO = `curso_curriculo_disciplina(t0018)`.CURRNRO AND `alunos_historico(t0023)`.HISDISCOD = `curso_curriculo_disciplina(t0018)`.DISCOD SELECT `aluno_afastamentos(t0055)`.Cad_Aluno AS id_Aluno, `aluno_afastamentos(t0055)`.LETANO AS Ano_Letivo, `aluno_afastamentos(t0055)`.LETSEM AS Semestre_Letivo, `aluno_afastamentos(t0055)`.HISCURRNRO AS id_Curso_Curriculo, `codigos_afastamento(t0034)`.AFADES AS Tipo_Afastamento, `aluno_afastamentos(t0055)`.HISSEMAFA AS Semestre_Afastamento, `aluno_afastamentos(t0055)`.HISDATAFA AS Data_Afastamento, 134 Tabela Fatos_Avaliacoes_Disciplina (YEAR(`aluno_afastamentos(t0055)`.HISDATAFA)YEAR(`alunos(t0001)`.ALU2DATNAS))(RIGHT(CURDATE(),5)<RIGHT(`alunos(t0001)`.ALU2DATNAS,5)) AS Idade_na_Data_Afastamento FROM `aluno_afastamentos(t0055)` INNER JOIN `codigos_afastamento(t0034)` ON `aluno_afastamentos(t0055)`.HISAFACOD = `codigos_afastamento(t0034)`.AFACOD INNER JOIN `alunos(t0001)` ON `aluno_afastamentos(t0055)`.Cad_Aluno = `alunos(t0001)`.Cad_Aluno Parcial 1 SELECT `avaliacoes_disciplina(avadisc)`.*, `tipo_codigos_avaliacao(tipavacod)`.TIPAVADESC, `tipo_media(tipomedi)`.MEDTIPDES FROM `avaliacoes_disciplina(avadisc)` INNER JOIN `tipo_codigos_avaliacao(tipavacod)` ON `avaliacoes_disciplina(avadisc)`.TIPAVACOD = `tipo_codigos_avaliacao(tipavacod)`.TIPAVACOD INNER JOIN `tipo_media(tipomedi)` ON `avaliacoes_disciplina(avadisc)`.MEDTIPCOD = `tipo_media(tipomedi)`.MEDTIPCOD Parcial 2 SELECT `avaliacoes_disciplina(avadisc) - parcial 1`.*, `media_tipo_media(medprcse)`.MEDDESC, `media_tipo_media(medprcse)`.MEDSIGLA, `media_tipo_media(medprcse)`.MEDPESO FROM `avaliacoes_disciplina(avadisc) - parcial 1` INNER JOIN `media_tipo_media(medprcse)` ON `avaliacoes_disciplina(avadisc) - parcial 1`.MEDCOD = `media_tipo_media(medprcse)`.MEDCOD AND `avaliacoes_disciplina(avadisc) - parcial 1`.MEDTIPCOD = `media_tipo_media(medprcse)`.MEDTIPCOD Final SELECT `avaliacoes_aluno(avaaluno)`.LETANO AS Ano_Letivo, `avaliacoes_aluno(avaaluno)`.LETSEM AS Semestre_Letivo, `avaliacoes_aluno(avaaluno)`.DISCOD AS id_Disciplina, `classes(classe)`.CLACURRNRO AS id_Curso_Curriculo, `avaliacoes_aluno(avaaluno)`.TURSEQDIS AS Sequencia_Disciplina, `avaliacoes_aluno(avaaluno)`.TURTNODIS AS Turno_Disciplina, `avaliacoes_aluno(avaaluno)`.MEDTIPCOD AS Tipo_Media_Codigo, `avaliacoes_aluno(avaaluno)`.MEDCOD AS Media_Parcial_Codigo, `avaliacoes_aluno(avaaluno)`.AVACOD AS Avaliacao_Codigo, `avaliacoes_aluno(avaaluno)`.Cad_Aluno AS id_Aluno, `avaliacoes_disciplina(avadisc) - parcial 2`.MEDTIPDES AS Tipo_Media_Descricao, `avaliacoes_disciplina(avadisc) - parcial 2`.MEDDESC AS Media_Parcial_Descricao, `avaliacoes_disciplina(avadisc) - parcial 2`.MEDSIGLA AS Media_Parcial_Sigla, `avaliacoes_disciplina(avadisc) - parcial 2`.MEDPESO AS Media_Parcial_Peso, 135 `avaliacoes_disciplina(avadisc) - parcial 2`.AVADESC AS Avaliacao_Descricao, `avaliacoes_disciplina(avadisc) - parcial 2`.AVAPESO AS Avaliacao_Peso, `avaliacoes_disciplina(avadisc) - parcial 2`.TIPAVADESC AS Tipo_Avaliacao, `avaliacoes_aluno(avaaluno)`.AVAALUNOT AS Nota_Avaliacao, `classes(classe)`.TURPERCUR AS Classe_Periodo_Curso, `classes(classe)`.TURQTDALU AS Quandidade_Alunos, `classes(classe)`.TURMEDAPRD AS Media_Para_Aprovacao, `classes(classe)`.TURMAXALU AS Maximo_Alunos FROM `classes(classe)` INNER JOIN `avaliacoes_disciplina(avadisc) - parcial 2` ON `classes(classe)`.LETANO = `avaliacoes_disciplina(avadisc) parcial 2`.LETANO AND `classes(classe)`.LETSEM = `avaliacoes_disciplina(avadisc) - parcial 2`.LETSEM AND `classes(classe)`.DISCOD = `avaliacoes_disciplina(avadisc) parcial 2`.DISCOD AND `classes(classe)`.TURCURCOD = `avaliacoes_disciplina(avadisc) - parcial 2`.TURCURCOD AND `classes(classe)`.TURSEQDIS = `avaliacoes_disciplina(avadisc) parcial 2`.TURSEQDIS AND `classes(classe)`.TURTNODIS = `avaliacoes_disciplina(avadisc) - parcial 2`.TURTNODIS AND `classes(classe)`.TURMEDTIPC = `avaliacoes_disciplina(avadisc) parcial 2`.MEDTIPCOD INNER JOIN `avaliacoes_aluno(avaaluno)` ON `avaliacoes_disciplina(avadisc) - parcial 2`.LETANO = `avaliacoes_aluno(avaaluno)`.LETANO AND `avaliacoes_disciplina(avadisc) - parcial 2`.LETSEM = `avaliacoes_aluno(avaaluno)`.LETSEM AND `avaliacoes_disciplina(avadisc) - parcial 2`.DISCOD = `avaliacoes_aluno(avaaluno)`.DISCOD AND `avaliacoes_disciplina(avadisc) - parcial 2`.TURCURCOD = `avaliacoes_aluno(avaaluno)`.TURCURCOD AND `avaliacoes_disciplina(avadisc) - parcial 2`.TURSEQDIS = `avaliacoes_aluno(avaaluno)`.TURSEQDIS AND `avaliacoes_disciplina(avadisc) - parcial 2`.TURTNODIS = `avaliacoes_aluno(avaaluno)`.TURTNODIS AND `avaliacoes_disciplina(avadisc) - parcial 2`.MEDTIPCOD = `avaliacoes_aluno(avaaluno)`.MEDTIPCOD AND `avaliacoes_disciplina(avadisc) - parcial 2`.MEDCOD = `avaliacoes_aluno(avaaluno)`.MEDCOD AND `avaliacoes_disciplina(avadisc) - parcial 2`.AVACOD = `avaliacoes_aluno(avaaluno)`.AVACOD Tabela Fatos_Desempenho_Aluno Parcial 1 SELECT `medias_parciais(medprcal)`.*, `tipo_media(tipomedi)`.MEDTIPDES, `media_tipo_media(medprcse)`.MEDDESC, `media_tipo_media(medprcse)`.MEDSIGLA, `media_tipo_media(medprcse)`.MEDPESO FROM `medias_parciais(medprcal)` INNER JOIN `tipo_media(tipomedi)` ON `medias_parciais(medprcal)`.MEDTIPCOD = `tipo_media(tipomedi)`.MEDTIPCOD INNER JOIN `media_tipo_media(medprcse)` ON `medias_parciais(medprcal)`.MEDTIPCOD = `media_tipo_media(medprcse)`.MEDTIPCOD AND `medias_parciais(medprcal)`.MEDCOD = `media_tipo_media(medprcse)`.MEDCOD 136 Parcial 2 SELECT `classes_alunos(aluclass)`.*, `classes(classe)`.CLACURRNRO FROM `classes_alunos(aluclass)` INNER JOIN `classes(classe)` ON `classes_alunos(aluclass)`.LETANO = `classes(classe)`.LETANO AND `classes_alunos(aluclass)`.LETSEM = `classes(classe)`.LETSEM AND `classes_alunos(aluclass)`.DISCOD = `classes(classe)`.DISCOD AND `classes_alunos(aluclass)`.TURCURCOD = `classes(classe)`.TURCURCOD AND `classes_alunos(aluclass)`.TURSEQDIS = `classes(classe)`.TURSEQDIS AND `classes_alunos(aluclass)`.TURTNODIS = `classes(classe)`.TURTNODIS Parcial 3 SELECT `alunos_periodoletivo(t0002)`.*, `codigos_tipomatricula(t0052)`.MATDESTIP FROM `alunos_periodoletivo(t0002)` INNER JOIN `codigos_tipomatricula(t0052)` ON `alunos_periodoletivo(t0002)`.MATCODTIP = `codigos_tipomatricula(t0052)`.MATCODTIP Final SELECT `medias_parciais(medprcal) - parcial 1`.Cad_Aluno AS id_Aluno, `medias_parciais(medprcal) - parcial 1`.LETANO AS Ano_Letivo, `medias_parciais(medprcal) - parcial 1`.LETSEM AS Semestre_Letivo, `medias_parciais(medprcal) - parcial 1`.DISCOD AS id_Disciplina, `classes_alunos(aluclass) - parcial 1`.CLACURRNRO AS id_Curso_Curriculo, `medias_parciais(medprcal) - parcial 1`.TURSEQDIS AS Sequencia_Disciplina, `medias_parciais(medprcal) - parcial 1`.TURTNODIS AS Turno_Disciplina, `medias_parciais(medprcal) - parcial 1`.MEDTIPCOD AS Tipo_Media_Codigo, `medias_parciais(medprcal) - parcial 1`.MEDCOD AS Media_Parcial_Codigo, `medias_parciais(medprcal) - parcial 1`.MEDTIPDES AS Tipo_Media_Descricao, `medias_parciais(medprcal) - parcial 1`.MEDDESC AS Media_Parcial_Descricao, `medias_parciais(medprcal) - parcial 1`.MEDSIGLA AS Media_Parcial_Sigla, `medias_parciais(medprcal) - parcial 1`.MEDPESO AS Media_Parcial_Peso, `medias_parciais(medprcal) - parcial 1`.MEDCALC AS Media_Calculada, `medias_parciais(medprcal) - parcial 1`.MEDFALTAS AS Faltas, `classes_alunos(aluclass) - parcial 1`.ALU2MEDSEM AS Media_Semestre, `classes_alunos(aluclass) - parcial 1`.ALU2STADIS AS Status_Disciplina, `classes_alunos(aluclass) - parcial 1`.ALU2STAFRE AS Status_Frequencia, 137 `classes_alunos(aluclass) - parcial 1`.DISCODEQV AS Disc_Equivalente1, `classes_alunos(aluclass) - parcial 1`.DISCODEQV2 AS Disc_Equivalente2, `classes_alunos(aluclass) - parcial 1`.ALU2STAMAT AS Status_Matricula, `classes_alunos(aluclass) - parcial 1`.ALU2FLGEXTCURR AS Disciplina_Extracurricular, `alunos_periodoletivo(t0002) - parcial 1`.ALU2PERACA AS Periodo_Academico_Aluno, `alunos_periodoletivo(t0002) - parcial 1`.ALU2CREACA AS Creditos_Academicos_Aluno, `alunos_periodoletivo(t0002) - parcial 1`.ALU2ULTALT AS Aluno_Ultima_Alteracao, `alunos_periodoletivo(t0002) - parcial 1`.ALU2STAFOR AS Aluno_Formando, `alunos_periodoletivo(t0002) - parcial 1`.ALU2DATMAT AS Data_Matricula, `alunos_periodoletivo(t0002) - parcial 1`.MATDESTIP AS Tipo_Matricula, `alunos_periodoletivo(t0002) - parcial 1`.ALU2ENTPEN AS Entrada_Pendencia, `alunos_periodoletivo(t0002) - parcial 1`.ALU2ENTCON AS Entrada_Confirmada, `alunos_periodoletivo(t0002) - parcial 1`.ALU2ENTDTA AS Data_Entrada, `alunos_periodoletivo(t0002) - parcial 1`.LETFLGPROUNI AS Aluno_Prouni FROM `alunos_periodoletivo(t0002) - parcial 1` INNER JOIN `classes_alunos(aluclass) - parcial 1` ON `alunos_periodoletivo(t0002) - parcial 1`.LETANO = `classes_alunos(aluclass) - parcial 1`.LETANO AND `alunos_periodoletivo(t0002) - parcial 1`.LETSEM = `classes_alunos(aluclass) - parcial 1`.LETSEM AND `alunos_periodoletivo(t0002) - parcial 1`.Cad_Aluno = `classes_alunos(aluclass) - parcial 1`.Cad_Aluno INNER JOIN `medias_parciais(medprcal) - parcial 1` ON `classes_alunos(aluclass) - parcial 1`.LETANO = `medias_parciais(medprcal) - parcial 1`.LETANO AND `classes_alunos(aluclass) - parcial 1`.LETSEM = `medias_parciais(medprcal) - parcial 1`.LETSEM AND `classes_alunos(aluclass) - parcial 1`.DISCOD = `medias_parciais(medprcal) - parcial 1`.DISCOD AND `classes_alunos(aluclass) - parcial 1`.Cad_Aluno = `medias_parciais(medprcal) - parcial 1`.Cad_Aluno Fonte: Script Seleção Dados. 138 APÊNDICE F - PROBLEMAS COM DADOS (AJUSTES, CORREÇÕES) Quadro 67 – Pré-processamento dos dados, problemas e correções Tabela Atributo Ajustes/Correções Tabela alunos(t0001) ALU2DATING Alguns alunos apresentavam data de ingresso invalida (01/01/0001), solução foi colocar como data ingresso o ano de ingresso do campo (ALU2ANOING), para o mês assumiu-se 03 para o primeiro semestre e 07 para o segundo semestre (ALU2SEMING) e o dia sempre 01. Tabela alunos(t0001) ALU2SEMVES Alguns campos apresentavam valores 0 e 3 para o semestre de vestibular, como correção foi colocado o mesmo semestre de ingresso (ALU2SEMING). Tabela alunos(t0001) ALU2ANOVES Alguns campos apresentavam valores 0, 2, 12 e 2022 para o ano de vestibular, como correção foi colocado o mesmo semestre de ingresso (ALU2ANOING). Tabela alunos(t0001) ALU2CURVES Alguns campos estavam com erros de português e alguns estavam vazios, a moda para estes campos foi Ciência da Computação aplicada a correção para os campos vazios e para os campos com erro de português corrigiu-se os erros. Tabela alunos(t0001) ALU2CID Alguns campos apresentam cidades com distância muito grande em relação ao curso, foram trocadas pela moda (ITAJAI) todas as cidade com distancia acima de 150KM Tabela aluno_afastamentos(t0055) HISSEMAFA Alguns campos estão com o semestre de afastamento incorreto “0”, a solução foi utilizar o mês da data de afastamento (HISDATAFA) e corrigir o campo. Tabela alunos_historico(t0023) HISMEDAPR Alguns campos com historio de notas com valores fora dos padrões ex. 98,98. As notas foram corrigidas para valores até 10,00, passando a virgula 1 casa para a esquerda. Tabela classes(classe) CLACURRNRO Alguns campos estão com o valor “0”, foram filtradas as disciplinas e colocadas os currículos ao qual elas pertencem. Tabela classe_alunos(aluclass) ALU2CONNOT Alguns campos estavam vazios, como se trata da confirmação da nota do aluno e o campo da nota está com o valor “0”. Os campos ALU2CONNOT que contém o valor “N” também possuem “0” no campo da nota, então foram completados os valores vazios de ALU2CONNOT com “N”. Tabela disciplina(t0010) DISNOM Alguns campos apresentavam caracteres inválidos, valores corrigidos. Fonte: Aplicação Mineração de Dados Alunos Ciência da Computação UNIVALI.