INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA FLUMINENSE CAMPUS CAMPOS-CENTRO TECNÓLOGO EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS PATRÍCIA SANTANA CARDOSO TAIANE ROSA DE AZEREDO AVALIAÇÃO DO PERFIL DO ALUNO QUE PRETENDE INGRESSAR NO INSTITUTO FEDERAL FLUMINENSE ATRAVÉS DE MINERAÇÃO DE DADOS. Campos dos Goytacazes – RJ 2016 PATRÍCIA SANTANA CARDOSO TAIANE ROSA DE AZEREDO AVALIAÇÃO DO PERFIL DO ALUNO QUE PRETENDE INGRESSAR NO INSTITUTO FEDERAL FLUMINENSE ATRAVÉS DE MINERAÇÃO DE DADOS Trabalho de conclusão de curso apresentado ao Instituto Federal de Educação, Ciência e Tecnologia Fluminense Campus Campos Centro como requisito parcial para a conclusão do Curso de Tecnólogo em Análise e Desenvolvimento de Sistemas. Orientadora: Profª. Renata Mesquita Da Silva Santos Campos dos Goytacazes – RJ 2016 AGRADECIMENTOS Primeiramente agradecemos a Deus, por nos ter permitido chegar ao fim deste trabalho. Aos nossos pais, obrigada por nos ensinar a enfrentar a vida e incentivar sempre na busca pelo nosso crescimento pessoal e profissional, não medindo esforços para isto. Não seriamos nada sem o amor e sabedoria de vocês. Não podemos deixar de agradecer a todos nossos familiares e amigos, por todo incentivo e apoio que nos deram durante esta fase de nossas vidas. Agradecemos à professora e orientadora Renata Mesquita, por suas importantes contribuições para a conclusão deste trabalho, por dedicar seu tempo para nos orientar. Obrigada por ter confiado em nossa capacidade, pelas palavras de incetivo. Com certeza nos motivou ainda mais a chegar até aqui. Agradecemos aos professores do Instituto Federal Fluminense Campus Campos Centro pelos conhecimentos repassados e aos nossos colegas, que sempre estiveram presente em cada fase. Agradecemos a todos que de alguma forma contribuíram nesta fase importante de nossas vidas. Nosso muito Obrigada. “A tarefa não é tanto ver aquilo que ninguém viu, mas pensar o que ninguém ainda pensou sobre aquilo que todo mundo vê.” (Arthur Schopenhauer) RESUMO Todo sistema gera uma base de dados, dados estes que podem ser extraídos, e a partir deles podemos realizar análises que permitam uma melhor utilização, uma melhoria e até mesmo a descoberta de conhecimento. Esse estudo apresenta como se pode utilizar a Mineração de Dados, voltada para a área educacional. Neste sentido, foram aplicadas as técnicas de Clusterização e Associação utilizando uma rica base de dados, coletada no ato da inscrição de um futuro ingressante para um processo seletivo, por meio do preenchimento do formulário socioeconômico. A pesquisa aborda por meio de um levantamento bibliográfico conceitos sobre Mineração de Dados com suas técnicas e tarefas finalizando com a ferramenta de mineração WEKA. Por meio desta pesquisa, foi possível traçar o perfil predominante dos alunos, observar qual o perfil dos alunos dos cursos mais procurados, bem como avaliar os resultados com a aplicação das técnicas de Mineração de dados. Desta forma, como um dos resultados obtidos observou-se que a aplicação de técnicas de Mineração de Dados pode ser um poderoso instrumento para a gestão das informações na área educacional. Palavras-chave: Mineração de dados Educacionais, Associação, Clusterização; ABSTRACT All system generates a database, data that can be extracted and from them we can perform analyses that allow a better utilization, an improvement and even the discovery of knowledge. This study presents how we can use the data mining for the educational area, for both were applied Clustering and Association techniques using a rich data base, collected at the time of inscription of a future ingressante for a selection process by means of the socio-economic form. The research addresses through a bibliographical survey concepts about data mining with its techniques and tasks finishing with the mining tool WEKA. Through this research, it was possible to trace predominant profile of students, observe which courses most sought by a particular profile, as well as evaluate the results with the implementation of these tasks. Thus, as one of the results was that the implementation of a data mining tool can be a powerful tool for the management of information in the educational area. Keywords: Mining Education Data, Association, Clustering ÍNDICE DE FIGURAS Figura 1: Visão geral das etapas que compõem o processo de KDD (FAYYAD et al., 1996)............................................................................................................................18 Figura 2: Relacionamento entre as atividades e tarefas de Mineração de Dados, adaptado de (CONTI, 2011)........................................................................................24 Figura 3: Algoritmo K-means básico (STEINBACH, 2009).........................................27 Figura 4: Usando o Algoritmo K-means para encontrar três grupos nos dados de exemplo(STEINBACH et al., 2009).............................................................................27 Figura 5: Equação do Algoritmo K-means (SILVA, 2010)...........................................28 Figura 6: Algoritmo Apriori...........................................................................................30 Figura 7: Interface gráfica de inicialização do Weka..................................................34 Figura 8: Campus com seus respectivos cursos ofertados........................................36 Figura 9: Resultado da execução do algoritmo Apriori...............................................42 ÍNDICE DE TABELAS Tabela 1: Clusterização por nivel de ensino................................................................44 Tabela 2: Clusterização pela modalidade...................................................................46 Tabela 3: Clusterização por área de conhecimento....................................................48 Tabela 4: Clusterização por curso – nivel superior.....................................................51 Tabela 5: Clusterização por curso – nivel técnico integrado.......................................53 Tabela 6: Clusterização por curso – nivel técnico.......................................................55 LISTA DE ABREVIATURAS E SIGLAS KDD Knowledge Discovery in Databases DCBD Descoberta de Conhecimento em Bases de Dados EDM Mineração de Dados Educacionais EAD Educação a Distancia AVA Ambiente Virtual de Aprendizado UFRJ Universidade Federal do Rio de Janeiro JEDM Journal of Educational Data Mining IFF Instituto Federal Fluminense ODM Oracle Data Mining MDE Mineração de Dados Educacionais BD Banco de Dados STI Sistemas Tutores Inteligentes WEKA Waikato Environment for Knowledge Analysis SUMÁRIO 1. INTRODUÇÃO........................................................................................................12 1.1 PROBLEMA...........................................................................................................12 1.2 OBJETIVO.............................................................................................................12 1.3 JUSTIFICATIVA.....................................................................................................13 1.4 ESTRUTURA DO TRABALHO..............................................................................14 2. DESCOBERTA DO CONHECIMENTO EM BASE DE DADOS EDUCACIONAIS. 15 2.1 PROCESSO SELETIVO.......................................................................................15 2.2 MINERAÇÃO DE DADOS EDUCACIONAIS........................................................15 2.3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS............................17 2.3.1 PRÉ-PROCESSAMENTO..................................................................................19 2.3.1.1 SELEÇÃO....................................................................................................20 2.3.1.2 LIMPEZA......................................................................................................20 2.3.1.3 TRANSFORMAÇÃO....................................................................................20 2.3.2 MINERAÇÃO DE DADOS..................................................................................21 2.3.3 PÓS-PROCESSAMENTO..................................................................................21 2.3.4 DESAFIOS MOTIVADORES..............................................................................22 2.3.5 TAREFAS DE MINERAÇÃO DE DADOS..........................................................23 2.3.6 TÉCNICAS DE MINERAÇÃO DE DADOS........................................................25 2.3.6.1 K-MEANS.....................................................................................................26 2.3.6.1.1 FUNCIONAMENTO DO ALGORITMO K-MEANS BÁSICO.....................26 2.3.6.2 APRIORI.......................................................................................................29 2.3.6.2.1 FUNCIONAMENTO DO ALGORITMO APRIORI.....................................29 2.3.7 FERRAMENTAS DE MINERAÇÃO....................................................................31 2.3.7.1 WEKA...........................................................................................................33 3. ESTUDO DE CASO................................................................................................35 3.1 DESCRIÇÃO DO CENÁRIO.................................................................................35 3.2 DESCOBERTA DE CONHECIMENTO EM DADOS DOS PROCESSOS SELETIVOS.................................................................................................................37 3.3 PRÉ-PROCESSAMENTO.....................................................................................38 3.3.1 SELEÇÃO.......................................................................................................38 3.3.2 LIMPEZA.........................................................................................................39 3.3.3 TRANSFORMAÇÃO.......................................................................................40 3.4 MINERAÇÃO DE DADOS.....................................................................................40 3.5 PÓS-PROCESSAMENTO.....................................................................................41 3.5.1 EXECUÇÃO DO ALGORITMO APRIORI.......................................................42 3.5.2 EXECUÇÃO DO ALGORITMO K-MEANS.....................................................44 3.5.2.1 CLUSTERIZAÇÃO POR NIVEL DE ENSINO..............................................44 3.5.2.2 CLUSTERIZAÇÃO DE ACORDO COM MODALIDADE..............................46 3.5.2.3 CLUSTERIZAÇÃO DE ACORDO COM A ÁREA DE CONHECIMENTO....48 3.5.2.4 CLUSTERIZAÇÃO DE ACORDO COM O CURSO.....................................50 3.5.2.4.1 NIVEL SUPERIOR....................................................................................51 3.5.2.4.2 NIVEL TÉCNICO INTEGRADO................................................................52 3.5.2.4.3 NIVEL TÉCNICO.......................................................................................54 4. CONSIDERAÇÕES FINAIS....................................................................................57 4.1 CONCLUSÕES.....................................................................................................57 4.2 TRABALHOS FUTUROS......................................................................................58 REFERÊNCIAS BIBLIOGRÁFICAS............................................................................59 ANEXO – FORMULÁRIO SOCIOECONÔMICO........................................................62 12 1. INTRODUÇÃO 1.1 PROBLEMA Ao longo do ano, são realizados diversos processos seletivos no Instituto Federal Fluminense, sendo estes para nível médio, técnico, superior e pósgraduação. Cada processo gera uma enorme e rica base de dados que ficam apenas armazenados para alguma possível consulta futura, para produção de dados estatísticos quando necessário, e que se extraídos de modo eficaz viabilizam a Instituição a aplicação de formas de melhorias na oferta dos cursos e disponibilização das vagas para melhor atender aos futuros ingressantes. O reconhecimento das informações disponibilizadas pelos futuros inscritos através do preenchimento de formulários, sendo um destes o socioeconômico, representa uma excelente oportunidade para a descoberta de conhecimento. No entanto, esta descoberta não é uma tarefa trivial. O grande volume de dados, as diferentes informações coletadas, o grande número de perfis possíveis torna o trabalho de extração de conhecimento uma tarefa que exige a utilização de técnicas sofisticadas (SILVA, 2010). Devido a grande quantidade de dados que são obtidos no ato da inscrição no processo seletivo da Instituição, identificamos uma base rica em informações, o que nos motivou a elaboração deste trabalho. O problema a ser conhecido neste trabalho refere-se à utilização de tarefas e métodos de Mineração de Dados, com o objetivo de descobrir conhecimento a partir da determinação de relações entre os dados armazenados. Através de modelos de Descoberta de Conhecimento em Bases de Dados (DCBD) pretende-se estabelecer um conjunto de possíveis perfis de aluno, com a consequente geração de conhecimento. 1.2 OBJETIVO O objetivo geral consiste em aplicar tarefas e métodos de Mineração de Dados para identificar o perfil do aluno que deseja ingressar no Instituto Federal 13 Fluminense. Os objetivos específicos deste trabalho consistem em: • Avaliar os diferentes perfis dos alunos que desejam ingressar na Instituição. • Avaliar os cursos mais procurados por determinado perfil. • Avaliar as técnicas de Mineração de Dados • Avaliar os resultados obtidos com aplicação destas técnicas. 1.3 JUSTIFICATIVA A análise dos dados obtidos no ato do preenchimento socioeconômico é importante, pois seu resultado permite conhecer um pouco mais sobre a realidade daqueles que tem por objetivo ingressar no Instituto Federal Fluminense, podendo traçar assim o perfil dos alunos e verificar quais os cursos mais procurados. Com o intuito de aprofundar mais esse conhecimento, esta pesquisa realizou o processo de Mineração de Dados, que nada mais é do que Descoberta do Conhecimento. O processo de DCBD consiste de diversos passos que são iterativamente e interativamente realizados. Estes passos são sempre categorizados em fases de pré-processamento, geração e verificação de hipóteses, e pósprocessamento (KLÖSGEN & ZYTKOW, 2002, p. 2 apud OGLIARI, 2002). De acordo com Baker (2011), a Mineração de Dados Educacionais – MDE, (do inglês EDM – Educational Data Mining) é uma área recente de pesquisa que tem como principal objetivo o desenvolvimento de métodos para explorar conjuntos de dados coletados em ambientes educacionais. Atualmente ela vem se estabelecendo como uma forte e consolidada linha de pesquisa que possui grande potencial para melhorar a qualidade do ensino. Apesar dos esforços de pesquisadores brasileiros, essa área ainda é pouco explorada no país. Seguindo a linha dos cursos a distância, Gottardo et al. (2012) destaca que os Ambiente Virtual de Aprendizado (AVA) tem se tornado uma ferramenta fundamental, e que estes ambientes armazenam grandes volumes de dados relativos às 14 atividades desenvolvidas pelos estudantes. Estes dados podem ser utilizados com as técnicas de Mineração de Dados para a descoberta de informações que auxiliem professores na gestão do processo de ensino. Manhães et al. (2011) destaca a identificação precocemente alunos em risco de evasão nos cursos de graduação, por meio da aplicação de técnicas de Mineração de Dados, que oferece diversos algoritmos que podem ser empregados para identificar alunos em risco de abandono. 1.4 ESTRUTURA DO TRABALHO A partir desta Introdução, o restante do trabalho está organizado da seguinte maneira: Capítulo 2 trata a mineração de dados voltado para o âmbito educacional de onde veio nossa inspiração para realização deste trabalho. Capítulo 3 aborda a descoberta do conhecimento em base de dados e os processos que são feitos nesta fase, também são apresentados os motivos que fizeram com que a mineração de dados se tornasse tão importante, explica-se as tarefas e as técnicas que são utilizadas e são apresentadas as ferramentas disponíveis para este tipo de trabalho. Capítulo 4 apresenta o estudo de caso explicando sobre o processo seletivo e como se dá a oferta de vagas, explicando o que foi feito e como foi feito, mostrando os resultados obtidos através destas análises de maneira minuciosa. Por fim, o Capítulo 5 fala sobre a conclusão do trabalho, as considerações que podem ser feitas de acordo com o estudo que foi realizado e apresenta sugestões de trabalhos futuros. 15 2. DESCOBERTA DO CONHECIMENTO EM BASE DE DADOS EDUCACIONAIS 2.1 PROCESSO SELETIVO Os processos seletivos em geral são regidos pela Lei de nº 9.394 – Lei de Diretrizes e Bases da Educação Nacional de 20 de dezembro 1996. Para cada novo processo é necessário a publicação de um edital, contendo algumas regras determinadas pela justiça. Dentre estas, pode-se destacar a regra de atendimento especial para portadores de necessidade, regra de cota, seja ela por cor ou renda e a regra de desempate na classificação. No entanto, a maneira em que a inscrição é feita é uma particularidade de cada instituição, sendo o preenchimento do formulário socioeconômico para inscrição uma particularidade determinada pelo Instituto Federal, com o objetivo da realização de trabalhos futuros, não tendo este nenhuma determinação por lei. 2.2 MINERAÇÃO DE DADOS EDUCACIONAIS O termo Mineração de Dados, também conhecido como Descoberta de Conhecimentos em Bancos de Dados – DCBD, ou KDD (do inglês, “Knowledge Discovery in Databases”), refere-se a disciplina que tem como objetivo descobrir “novas” informações através da análise de grandes quantidades de dados (WITTEN, I.H.; FRANK apud BAKER, 2011). O termo “novas informações” refere-se ao processo de identificar relações entre dados que podem produzir novos conhecimentos e gerar novas descobertas científicas. Segundo Baker (2011), as informações sobre a relação entre dados e, posteriormente a descoberta de conhecimento, podem ser muito úteis para realizar atividades de tomada de decisão. Por exemplo, ao minerar os dados de um estoque de supermercado poderia se descobrir que todas as sextas-feiras uma marca específica de cerveja se esgota nas prateleiras e, portanto, um gerente que obtém esta “nova informação” poderia planejar o estoque do supermercado para aumentar 16 a quantidade de cervejas desta marca as sextas-feiras. Analogamente, é possível minerar dados de alunos para verificar a relação entre uma abordagem pedagógica e o aprendizado do aluno. Através desta informação o professor poderia compreender se sua abordagem realmente está ajudando o aluno e desenvolver novos métodos de ensino mais eficazes. A Mineração de Dados tem sido aplicada em diversas áreas do conhecimento, como por exemplo, vendas, bioinformática, e ações contra-terrorismo. Recentemente, com a expansão dos cursos a distância e também daqueles com suporte computacional, muitos pesquisadores da área de Informática na Educação (em particular, Inteligência Artificial Aplicada à Educação) têm mostrado interesse em utilizar mineração de dados para investigar perguntas científicas na área de educação (e.g. quais são os fatores que afetam a aprendizagem? Ou como desenvolver sistemas educacionais mais eficazes?). Dentro deste contexto, surgiu uma nova área de pesquisa conhecida como “Mineração de Dados Educacionais” (do inglês, “Educational Data Mining”, ou EDM) (BAKER, 2011). A área emergente de Mineração de Dados Educacionais procura desenvolver ou adaptar métodos e algoritmos de mineração existentes, de tal modo que se prestem a compreender melhor os dados em contextos educacionais, produzidos principalmente por estudantes e professores, considerando os ambientes nos quais eles interagem, tais como AVAs, Sistemas Tutores Inteligentes (STIs), entre outros (COSTA, 2012). Por exemplo, é possível identificar em que situação um tipo de abordagem instrucional (e.g. aprendizagem individual ou colaborativa) proporciona melhores benefícios educacionais ao aluno. Também é possível verificar se o aluno está desmotivado ou confuso e, assim, personalizar o ambiente e os métodos de ensino para oferecer melhores condições de aprendizagem (BAKER, 2011). A comunidade de EDM vem crescendo rapidamente. Em 2008 criou-se a Conferência Internacional sobre Mineração de Dados Educacionais (International Conference on Educational Data Mining), evento este que se estabeleceu e ganhou regularidade de realização anual após uma sequência de workshops bem-sucedidos realizados anualmente desde 2004. Em 2009, esta sociedade investiu na criação de um periódico e publicou o seu primeiro volume do JEDM (Journal of Educational Data Mining). Além da consolidação da conferência e da revista na área de EDM, a 17 comunidade também publicou dois livros sobre o assunto em 2006 e 2010 (ata Mining in e-learning e Handbook of Educational Data Mining). Enfim, a área de EDM está bem consolidada internacionalmente, mas, ainda dando os seus primeiros passos no Brasil, ficando a produção por conta de algumas poucas iniciativas de pesquisas isoladas (BAKER, 2011). 2.3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS As duas últimas décadas foram marcadas por um avanço dramático na computação e tecnologia em geral. Tais avanços trazem consigo uma quantidade de informações antes inimagináveis. O valor destes dados armazenados está diretamente ligado à capacidade de extrair informações uteis de mais alto nível que se encontra subjacente a estes dados, ou seja, informação útil que pode ser utilizada no entendimento do fenômeno gerador dos dados. Podem existir padrões de vinculações neste amontoado de informações que são uteis, por exemplo, para aperfeiçoar um processo de negócio em uma empresa, na análise de resultados de estudos científicos, sugerir tendências e desvendar particularidades (BUENO & VIANA, 2012). Nesse contexto à área de conhecimento Knowledge Discovery in Databases (KDD), que em português tem a designação de “Descoberta de Conhecimento em Bases de Dados (DCBD)”, tem como objetivo principal extrair conhecimento a partir de grandes bases de dados. Para isto ele envolve integrações com diversas áreas de conhecimento, tais como: estatística, matemática, bancos de dados (BD), inteligência artificial, visualização de dados e reconhecimento de padrões (CASTANHEIRA, 2008). Segundo Fayyad et al. (1996), o modelo tradicional para transformação dos dados em informação (conhecimento) consiste em um processamento manual de todas essas informações por especialistas que, então, produzem relatórios que deverão ser analisados. Na grande maioria das situações, devido ao grande volume de dados, esse processo manual torna-se impraticável, portanto concordamos com Fayyad quando ele diz que: 18 […]Há uma necessidade urgente de uma nova geração de teorias computacionais e ferramentas para ajudar os seres humanos a extrair informações(conhecimento) úteis dos volumes de rápido crescimento de dados digitais. (FAYYAD et al., 1996, p.1) Ainda segundo Fayyad et al. (1996), o KDD é uma tentativa de solucionar o problema causado pela chamada “era da informação”: a sobrecarga de dados. Para ele o KDD refere-se a todo o processo de descoberta de conhecimento útil a partir de dados e a Mineração de Dados refere-se a uma determinada etapa neste processo. O KDD é um processo não trivial, interativo e iterativo, envolvendo vários passos, além de ser um processo de conversão de dados brutos em informações úteis, conforme mostrado na Figura 1. Figura 1: Visão geral das etapas que compõem o processo de KDD (FAYYAD et al., 1996) Sendo que as etapas de Seleção, Pré-Processamento e Transformação dizem respeito à preparação dos dados, ou seja, ao Pré-Processamento. Em seguida, tem-se a fase de Mineração de Dados, sendo esta a etapa principal do processo. Por fim, a etapa de Avaliação, na qual é realizada análise e assimilação dos resultados, ou seja, o Pós-Processamento (apud SILVA, 2010). As atividades de KDD são classificadas em três classes: 19 1. Pré-Processamento: responsável por transformar os dados de entrada brutos em um formato apropriado para análises subsequentes (STEINBACH et al., 2009); 2. Mineração de Dados: responsável por realizar buscas efetivas por conhecimentos úteis em um KDD (GOLDSCHIMIDT, 2005); e 3. Pós-Processamento: abrange o tratamento do conhecimento obtido pela etapa de mineração de dados, assegurando que apenas resultados válidos e úteis sejam incorporados ao sistema de apoio a decisões (STEINBACH et al., 2009). 2.3.1 PRÉ-PROCESSAMENTO A etapa de Pré-Processamento engloba uma análise inicial dos dados para se ter sólidas definições dos mesmos (tais como, estrutura das tabelas, valores potenciais dos atributos, sistema fonte original, formatos e tipos de dados), além de toda e qualquer operação necessária para a escolha dos dados relevantes aos objetivos do usuário, limpeza e transformação dos mesmos para tornar possível a Mineração de Dados a ser feita pela técnica escolhida (NEVES, 2003). De acordo com Mannila apud Castanheira (2008), a fase de préprocessamento é a mais complexa, podendo tomar até 80% de todo o tempo do processo e precisa ser feita com especialistas que conhecem bem o domínio de aplicação dos dados, já que suas atividades são, por exemplo, a integração de dados heterogêneos e a eliminação de incompletude dos dados. Além disso, podem aparecer problemas que são específicos para cada aplicação e que, dessa forma, precisam ser resolvidos com soluções específicas. Os dados de entrada podem ser armazenados em uma diversidade de formatos (arquivos simples, planilhas, ou tabelas relacionais) e podem ficar em um repositório central de dados ou serem distribuídos em múltiplos locais. O propósito do pré-processamento é transformar os dados de entrada brutos em um formato apropriado para análises subsequentes. Os passos envolvidos no pré- 20 processamento de dados incluem a fusão de dados de múltiplas fontes, a limpeza dos dados para remoção de ruídos, observações duplicadas, a seleção de registros e características que sejam relevantes à tarefa de mineração de dados. Por causa das muitas formas através das quais os dados podem ser coletados e armazenados, o pré-processamento de dados talvez seja o passo mais trabalhoso e demorado no processo geral de descoberta de conhecimento (STEINBACH et al., 2009). A etapa de Pré-Processamento é composta pelas seguintes sub-fases: seleção, limpeza e transformação de dados. 2.3.1.1 SELEÇÃO A seleção de dados envolve a escolha da(s) tabela(s), atributos e instâncias da(s) mesma(s) em relação aos objetivos do usuário, considerando-se ainda que, na necessidade de se manipular informações de várias tabelas cabe a integração das mesmas de modo a obter-se um conjunto único de instâncias sobre o qual será dada a continuidade do pré-processamento e/ ou do processo DCBD (NEVES, 2003). 2.3.1.2 LIMPEZA A limpeza dos dados envolve uma verificação da consistência das informações, e o preenchimento ou a eliminação de valores nulos e redundantes. Nessa fase são identificados e removidos os dados duplicados e/ou corrompidos. Uma boa limpeza dos dados é essencial, podendo inclusive diminuir o tempo de processamento, eliminando consultas desnecessárias à base de dados (CASTANHEIRA, 2008). 2.3.1.3 TRANSFORMAÇÃO Quanto à transformação de dados esta corresponde a operações que tornem a apresentação dos dados apropriada à técnica de mineração de dados a ser utilizada, assim encontram-se descritas operações do tipo normalização de dados, conversões de valores simbólicos para valores numéricos, discretização e 21 composição de atributos (NEVES, 2003). Segundo Bueno e Viana (2012) a transformação nada mais é do que analisar os dados e reorganizá-los de uma forma específica e serão interpretados por um software de mineração de dados. 2.3.2 MINERAÇÃO DE DADOS A fase da mineração de dados é considerada como a principal etapa no processo de DCBD, onde é realizada a extração e a descoberta de padrões propriamente dita. A mineração de dados envolve um conjunto de técnicas e ferramentas computacionais usadas para a identificação desses padrões (conhecimentos) embutidos em grandes massas de dados. Os algoritmos são aplicados para extrair padrões dos dados, ou gerar regras que descrevam o comportamento da base de dados (BERRY, 1997). Pode-se concluir que a mineração de dados caracteriza-se pela existência de um algoritmo que diante da tarefa proposta será eficiente em extrair conhecimento implícito e útil de um banco de dados. Pode-se dizer que mineração de dados é a fase que transforma dados puros em informações úteis (CASTANHEIRA, 2008). 2.3.3 PÓS-PROCESSAMENTO Os resultados do processo de descoberta do conhecimento podem ser mostrados de diversas formas. Nesta última fase é onde as regras indicadas pelo processo anterior serão interpretadas e avaliadas. Após a interpretação poderão surgir padrões, relacionamentos e descoberta de novos fatos, que podem ser utilizados para pesquisas, otimização e outros (TEÓFILO, 2015). Segundo Steinbach et al., 2009, “Fechar o laço” é a expressão frequentemente usada para se referir ao processo de integrar os resultados da mineração de dados com os sistemas de apoio a decisões. Por exemplo, em aplicações de negócio, a compreensão permitida pelos resultados da mineração de dados pode ser integrada com ferramentas de administração de campanha de forma 22 que promoções eficazes de venda possam ser realizadas e testadas. Tal integração requer um passo de pós-processamento que assegure que apenas resultados válidos e úteis sejam incorporados ao sistema de apoio a decisões. Um exemplo de pós-processamento é a visualização, a qual permite que os analistas explorem os dados e os resultados da mineração dos mesmos a partir de uma diversidade de pontos de vista. Medições estatísticas ou métodos de teste de hipóteses também podem ser aplicadas durante o pós-processamento para eliminar resultados não legítimos da mineração de dados (STEINBACH et al., 2009). 2.3.4 DESAFIOS MOTIVADORES De acordo com (STEINBACH et al., 2009) pode-se citar os seguintes desafios: • Escalabilidade: devido aos avanços na geração e coleta, conjuntos de dados com tamanhos em gigabytes, terabytes e mesmo petabytes estão se tornando comuns; • Alta Dimensionalidade: é comum encontrarmos conjuntos de dados com centenas ou milhares de atributos ao invés do punhado comum de algumas décadas atrás; • Dados Complexos e Heterogêneos: a medida que o papel da mineração de dados tem aumentado, também o tem a necessidade de técnicas que possam lidar com dados heterogêneos. Os últimos anos também têm visto o aparecimento de objetos de dados mais complexos; • Propriedade e Distribuição de dados: os dados necessários para análise nem sempre estão armazenados num mesmo local ou não são propriedades de uma organização. Eles estão distribuídos geograficamente entre fontes pertencentes a múltiplas instâncias organizacionais; • Análises Não Tradicionais: tarefas atuais de análise de dados muitas vezes requerem a geração e a avaliação de milhares de hipóteses e, 23 consequentemente, o desenvolvimento de técnicas de mineração de dados tem sido motivado pelo desejo de se automatizar esse processo. 2.3.5 TAREFAS DE MINERAÇÃO DE DADOS É importante distinguir o que é uma tarefa e o que é uma técnica de mineração. A tarefa consiste na especificação do que estamos querendo buscar nos dados, que tipo de regularidades ou categoria de padrões temos interesses em encontrar, ou que tipo de padrões poderiam nos surpreender (por exemplo, um gasto exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus gastos) (AMO, 2004). As tarefas de mineração de dados são geralmente divididas em duas categorias principais segundo (STEINBACH et al., 2009). Tarefas de Previsão: O objetivo destas tarefas é prever o valor de um determinado atributo baseado nos valores de outros atributos. O atributo a ser previsto é comumente conhecido como variável dependente ou alvo, enquanto que os atributos usados para fazer a previsão são conhecidos como as variáveis independentes ou explicativas. Tarefas Descritivas: O objetivo é derivar padrões (correlações, tendências, grupos, trajetórias, e anomalias) que resumam os relacionamentos subjacentes nos dados. As tarefas descritivas da mineração de dados são muitas vezes exploratórias em sua natureza e frequentemente requerem técnicas de pós-processamento para validar e explicar resultados. As tarefas são descritas de acordo com a Figura 2. 24 Figura 2: Relacionamento entre as atividades e tarefas de Mineração de Dados, adaptado de (CONTI, 2011) As Tarefas de Mineração de Dados estão descritas da seguinte forma: Classificação (Classification) - Segundo Camilo e Silva (2009), a Classificação é uma das tarefas mais comum, visa identificar a qual classe um determinado registro pertence. Nesta tarefa, o modelo analisa o conjunto de registros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a fim de ‘aprender’ como classificar um novo registro (aprendizado supervisionado). Por exemplo, categorizamos cada registro de um conjunto de dados contendo as informações sobre os colaboradores de uma empresa: Perfil Técnico, Perfil Negocial e Perfil Gerencial. O modelo analisa os registros e então é capaz de dizer em qual categoria um novo colaborador se encaixa. Os algoritmos dessa tarefa se utilizam de Redes Neurais, Algoritmos Genéticos e Lógica Indutiva (CAMILO & SILVA, 2009). Estimação (Estimation) ou Regressão (Regression) - A estimação é similar à classificação, porém é usada quando o registro é identificado por um valor numérico e não um categórico. Assim, pode-se estimar o valor de uma determinada variável analisando-se os valores das demais. Por exemplo, um conjunto de registros contendo os valores mensais gastos por diversos tipos de consumidores e 25 de acordo com os hábitos de cada um. Após ter analisado os dados, o modelo é capaz de dizer qual será o valor gasto por um novo consumidor. A tarefa de estimação pode ser usada, por exemplo, para: estimar a quantia gasta por uma família de quatro pessoas durante a volta às aulas, estimar a pressão ideal de um paciente baseando-se na idade, sexo e massa corporal (CAMILO & SILVA, 2009). Agrupamento (Clustering) – Com a aplicação dessa tarefa, os elementos com características semelhantes são agrupados em um mesmo cluster. Cada cluster apresenta internamente grande similaridade e grande diferença em relação aos outros cluster formados pelo conjunto de dados. São exemplos dessa tarefa os algoritmos: K-Means, K-item (CONTI, 2011). Essa tarefa se assemelha com a tarefa de classificação. A diferença é que na classificação, as classes são definidas de forma previa, enquanto que no agrupamento, as classes são definidas durante a tarefa de acordo com o estabelecimento do conjunto de atributos que devem direcionar essa categorização. Os grupos são formados de acordo com a similaridade desses atributos direcionadores (BUENO & VIANA, 2012). Associação (Association) – Visa identificar grupos de fatos que ocorrem em conjunto ou de forma condicionada. Nela encontramos associações e relacionamentos entre itens. Os resultados normalmente são expressos em forma de regras de associação. Uma regra de associação é uma regra da forma X→Y, onde X e Y são conjuntos de itens significando que se X ocorre em uma transação da base de dados Y também tende a ocorrer (BUENO & VIANA, 2012). É uma das tarefas mais conhecidas devido aos bons resultados obtidos. O algoritmo Apriori é um exemplo baseado na associação. 2.3.6 TÉCNICAS DE MINERAÇÃO DE DADOS A técnica de mineração consiste na especificação de métodos que nos garantam como descobrir os padrões que nos interessam. Dentre as principais 26 técnicas utilizadas em mineração de dados, temos técnicas estatísticas, técnicas de aprendizado de máquina e técnicas baseadas em crescimento-poda-validação (AMO, 2004). Para cada tarefa, existem diversos tipos de técnicas, sendo assim foi necessário então escolher com qual algoritmo trabalhar, em cada caso. Para a tarefa de clusterização, foi escolhido o K-means, que é um dos mais utilizados pelos seus bons resultados. Por último, para a Tarefa de Associação, foi utilizado o Apriori, este algoritmo trabalha por meio de uma busca profunda nos dados produzindo conjunto de padrões, onde os mais contínuos são mantidos e os menos são eliminados. 2.3.6.1 K-MEANS De acordo com Steinbach et al. (2009), técnicas de agrupamento baseadas em protótipos criam um particionamento de um nível dos objetos de dados. Há um número de tais técnicas, mas duas das mais proeminentes são o K-means e Kmedoid. K-means define um protótipo em termos de um centróide, que é geralmente a média de um grupo de pontos, e é geralmente aplicada a objetos em um espaço ndimensional contínuo. K-medoid define um protótipo em termos de um medóide, que é o ponto mais representativo para um grupo de pontos e pode ser aplicada a uma ampla faixa de dados, já que requer apenas uma medida de proximidade para um par de objetos. Embora uma centróide quase nunca corresponda a um ponto real de dados, um medóide, pela sua definição deve ser um ponto real de dados. Usaremos, no entanto, o K-means, que é o algoritmo de agrupamento mais antigo e amplamente usado. 2.3.6.1.1 FUNCIONAMENTO DO ALGORITMO K-MEANS BÁSICO A técnica de agrupamento K-means é simples e se inicia com a descrição do algoritmo básico. Primeiro determina-se K centróides iniciais, onde K é um parâmetro especificado pelo usuário, a saber, o número de grupo desejado. Cada ponto é atribuído a seguir ao centróide mais próximo, e cada coleção de pontos atribuídos a um centróide é um grupo. O centróide de cada grupo é então atualizado 27 baseado nos pontos atribuídos ao grupo. Repete-se os passos de atribuição e atualização até que nenhum ponto mude de grupo ou, equivalente até que os centróides permaneçam os mesmos. K-means é formalmente descrito na Figura 3. Figura 3: Algoritmo K-means básico (STEINBACH, 2009). No primeiro passo mostrado na Figura 3 os pontos são atribuídos aos centróides iniciais, que estão todos no grupo maior de pontos. Para este exemplo, usamos a média como centróide. Após os pontos serem atribuídos a um centróide, ele é atualizado. Novamente, a figura para cada passo mostra o centróide no início do passo e a atribuição de pontos àqueles centróides. No segundo passo, os pontos são atribuídos aos centróides atualizados e os centróides são atualizados novamente. Nos passos 2, 3 e 4 que são mostrados na Figura 4, através das etapas (b), (c) e (d), respectivamente, dois dos centróides se movam para os dois grupos pequenos de pontos na parte inferior das figuras. Quando o algoritmo K-means termina na etapa (d), porque não há mais mudanças, os centróides identificaram os agrupamentos naturais dos pontos (STEINBACH et al., 2009). Figura 4: Usando o Algoritmo K-means para encontrar três grupos nos dados de exemplo(STEINBACH et al., 2009). 28 Para algumas combinações de funções de proximidade e tipos de centróides, K-means sempre converge para uma solução; i.e., K-means atinge um estado no qual nenhum ponto mudam de grupo para outro e, assim, os centróides não mudam. Devido ao fato da maioria da convergência ocorrer nos primeiros passos, entretanto, a condição na linha 5 do algoritmo(quadro la de cima) é muitas vezes substituída por uma condição mais fraca, e.g., repetir até que apenas 1% dos pontos mudem de grupo. A execução deste algoritmo parte do princípio de seleção aleatória de k objetos, sendo que, num primeiro momento, cada um representa a média de um cluster. Quanto aos objetos restantes, para eles é realizada a atribuição a um cluster a que esses objetos tenham maior similaridade, sendo que esse processo ocorre até que os centróides não sejam mais alterados (GOLDSCHIMIDT, 2005). O critério de agrupamento do K-médias pode ser descrito conforme expressão da Figura 5 abaixo: Figura 5: Equação do Algoritmo K-means (SILVA, 2010) Analisando o K-médias Gama (2002) esclarece que: a) há influência da configuração inicial na solução obtida; b) não há prova de que todos os elementos ou objetos se dirijam para o ponto previsto; c) não existe nenhuma garantia de convergência para a melhor solução, pois são desconhecidos seus limites; d) no caso do critério de mínimos-quadrados, existe a tendência de divisão de grupos com maior número de elementos, mesmo em situações em que os grupos estejam bem definidos. 29 Atualmente são encontradas muitas variações do algoritmo K-médias, mas em geral essas variações referem-se a seleção das k médias iniciais, no cálculo de similaridades ou na estratégia para o cálculo da média dos clusteres (SILVA, 2010). 2.3.6.2 APRIORI Este algoritmo realiza buscas sucessivas em toda a base de dados, no intuito de encontrar relacionamentos entre os atributos e combinações. Para a execução desse algoritmo é necessário que os dados estejam no formato discretos ou nominais. Como resultado do Apriori é apresentado o tamanho dos conjuntos de itemsets com suporte mínimo e as melhores regras de associação com os números de instâncias ou ocorrências para as quais a associação acontece (CONTI, 2011). Principio Apriori: Se um conjunto de itens é frequente, então todos os seus subconjuntos também devem ser frequentes (STEINBACH, 2009). De acordo com Arbex (2004) as três fases que compõem o APRIORI são: Geração dos conjuntos Candidatos; Poda dos conjuntos Candidatos e Contagem do Suporte (nesta fase é necessário visitar o BD). A este algoritmo é aplicada a propriedade de Antimonotonia da Relação ou Propriedade Apriori que é descrita a seguir: Se X está contido em Y e X não é frequente, logo Y também não é frequente (AMO, 2004). Isto implica uma diminuição do tempo de execução, pois se X não é frequente, então não será necessário calcular o suporte de Y, e o BD não precisará ser varrido. 2.3.6.2.1 FUNCIONAMENTO DO ALGORITMO APRIORI Segundo Arbex (2004) esse algoritmo gera um conjunto de itens frequentes a cada uma de suas passagens. Com base nestes conjuntos será gerado um outro conjunto Ck, conjunto de itens candidatos, que consta os itens do conjunto frequente (Lk) com minsup maior que o estabelecido. O conjunto candidato é resultado do produto cartesiano do conjunto de frequentes da passagem anterior com ele mesmo. Posteriormente o conjunto candidato é podado, seu suporte é contado e os itens que 30 tem suporte acima do estabelecido serão os itens frequentes da próxima passagem (Lk+1). O Algoritmo Apriori utiliza os itens frequentes obtidos pelo comando executado em SQL, sendo a primeira passagem k=1. Para k=2, enquanto o conjunto obtido na passagem anterior não for vazio então k será incrementado e o conjunto de candidatos receberá os itens retornados pela função apriori_gen (ARBEX, 2004). A Função Apriori-gen é responsável pela união dos conjuntos frequentes a fim de formar o conjunto candidato com k itens. Para isso tem os itens frequentes da passagem anterior como parâmetro. Ela faz também a poda dos candidatos (ARBEX, 2004). Então para todas as transações t contidas no conjunto de transações é adicionado um contador de suporte, verificando assim quais itens do conjunto candidato estão contidos em cada uma das transações. Para o processo de contagem do suporte dos candidatos, os conjuntos são dispostos em uma árvore Hash. Esse é um método de espalhar os elementos de um conjunto seguindo uma dada função (função hash) com ela é possível realizar uma busca direta pelo elemento desejado, evitando a princípio buscas sequenciais em todo conjunto, acarretando em um ganho significativo em tempo de execução. Figura 6: Algoritmo Apriori 31 Um nó em uma árvore hash ou contém uma lista de conjuntos de itens (nó folha), ou contém uma tabela hash (nó interno) essa é usada quando o número máximo de elementos em uma folha excede o limite estabelecido. Quando um conjunto candidato é adicionado, inicia-se da raiz da árvore até alcançar uma folha, a definição do caminho a ser seguido é dada pela função hash calculada para este anteriormente. Inicialmente cada nó é criado como sendo uma folha. A poda é realizada se algum subconjunto do conjunto candidato não estiver presente no conjunto de itens frequentes da passagem anterior. Como meio de otimização, a poda dos conjuntos também pode ser feita através de uma árvore hash, mas no algoritmo original ela é feita através da função Apriori_Gen (ARBEX, 2004). A Função Subset é encarregada de contar o suporte dos itens candidatos, ela toma como parâmetros o conjunto candidato (C k) e o conjunto de Transações (T). Primeiramente ela faz as combinações entre os itens da transação da seguinte forma: um item é combinado com todos os outros que estão imediatamente a sua frente e assim até o último elemento. Posteriormente verificam-se quais destes estão presentes na árvore hash, da seguinte forma: é calculada a função hash dos subconjuntos obtidos com a transação e então esses são comparados com a árvore, sendo que se presentes na árvore haverá um contador de suporte que incrementará o suporte deste itemset. Feito isso teremos o suporte dos itens candidatos, os itens que possuírem suporte maior que o estabelecido formarão o conjunto de itens frequentes desta passagem. O Algoritmo Apriori termina quando o conjunto de itens frequentes da passagem anterior for igual a zero, e retorna como resultado de sua execução a união de todos os itens frequentes de todas as passagens (ARBEX, 2004). 2.3.7 FERRAMENTAS DE MINERAÇÃO O mercado de ferramentas de mineração de dados tem se tornado bastante atraente (CAMILO & SILVA, 2009). Com o crescimento da Mineração de Dados como ferramenta de descoberta de conhecimento, aumentou também a oferta de software para esse tipo de abordagem. Aplicações comerciais das empresas IBM 32 (Intelligent Miner), SAS (Enterprise Miner), SPSS (Clementine), e opções de ferramentas Open Source, como por exemplo o Weka, auxiliam na execução do processo de Mineração de Dados (CONTI, 2011). Segue abaixo uma breve descrição de cada uma delas: Clementine – É um kit de ferramentas de mineração de dados que visa permitir que especialistas de domínio (usuários normais) façam sua própria mineração de dados. Ele tem uma interface de programação de dados e foi uma das primeiras ferramentas de mineração de dados de uso geral, é um dos pacotes de Mineração de Dados mais populares (THE DATA MINING, 2016) SAS Enterprise Miner Suite – Modelagem descritiva e preditiva, fornece insights que impulsionam uma melhor tomada de decisão. Com ele pode-se agilizar o processo de mineração de dados para desenvolver modelos rapidamente. Compreender relacionamentos chaves. E encontrar os padrões que mais importam (SAS THE POWER TO KNOW, 2016). SAS Text Miner – Software de mineração de texto, permite que facilmente analise os dados de texto a partir da web, campos de comentário, livros e outras fontes de texto (SAS THE POWER TO KNOW, 2016). WEKA – É um software de código aberto. Possui um conjunto de algoritmos de aprendizado de máquina para tarefas de mineração de dados. Os algoritmos podem ser aplicados diretamente a um conjunto de dados ou chamado a partir de seu próprio código Java. Weka contém ferramentas para pré-processamento de dados, classificação, regressão, clustering, regras de associação, e visualização. É também bem adequada para o desenvolvimento de novos sistemas de aprendizagem máquina (WEKA, 2016) Oracle Data Mining (ODM) – Oracle Data Mining (ODM) fornece uma poderosa funcionalidade de mineração de dados como funções nativas de SQL no banco de dados Oracle (ORACLE, 2016). 33 IBM Intelligent Miner – É um conjunto de ferramentas de mineração de dados para a classificação, associação, sequências, séries temporais, clustering e previsão de valor. O Intelligent Miner é integrado com o banco de dados DB2, embora suporte entrada de outras fontes (IBM INTELLIGENT MINE, 2016). LingPipe – É um kit de ferramentas para processamento de texto usando linguística computacional (LINGPIPE, 2016). KNIME – Plataforma de mineração de dados aberta, que implementa o paradigma de pipelining de dados (OPEN FOR INOVATION – KMINE). A seguir será descrito mais detalhadamente a ferramenta escolhida para ser utilizada neste trabalho. 2.3.7.1 WEKA Para este projeto, foi escolhida a ferramenta WEKA, por ser a mais utilizada na área acadêmica. Ela começou a ser escrita em 1993 usando Java, na Universidade de Waikato, Nova Zelândia sendo adquirido posteriormente por uma empresa no final de 2006 (WIKIPÉDIA, 2016). De acordo com Fabieli (2011) Weka é um conjunto de algoritmos de aprendizado de máquina para tarefas de mineração de dados. Os algoritmos podem ser aplicados diretamente a um conjunto de dados ou chamado a partir de seu próprio código Java. Weka contém ferramentas para pré-processamento de dados, classificação, regressão, clustering, regras de associação, e visualização. É também bem adequada para o desenvolvimento de novos sistemas de aprendizagem. Weka é um software de código aberto, emitido sob a GNU General Public License. Ao longo dos anos o WEKA se consolidou como a ferramenta de data mining mais utilizada em ambiente acadêmico. Essas características facilitam a adaptação, a inclusão de novas funcionalidades em algoritmos e a portabilidade entre diferentes sistemas operacionais. A grande aceitação dessa ferramenta está relacionada às características elencadas acima, aliadas a uma interface amigável. A Figura 7, 34 representa a interface gráfica de inicialização do Weka, onde o usuário pode selecionar um dos quatro modos para trabalhar com os seus dados. Figura 7: Interface gráfica de inicialização do Weka. • A aplicação Explorer é a interface gráfica mais utilizada do Weka, agregando as etapas de pré-processamento, mineração de dados e pós-processamento. • A aplicação Experimenter é a interface gráfica destinado à realização de testes estatísticos utilizados na comparação entre diferentes algoritmos de aprendizagem suportados pelo Weka. • A aplicação KnowledgeFlow é uma interface gráfica semelhante ao Explorer, só diferencia pelo fato de trabalhar com fluxos de dados; • A aplicação Simple Cli é a interface que se apresenta no modo texto, sendo a utilização por linhas de comando, é destinado a usuários avançados . 35 3. ESTUDO DE CASO 3.1 DESCRIÇÃO DO CENÁRIO Todo aquele que deseja ingressar na Instituição precisa passar por um Processo Seletivo, para isso é necessário que o candidato realize sua inscrição através do portal de inscrições, para que o mesmo possa realizar a prova que pode torná-lo um aluno do estabelecimento de ensino. No portal o candidato realiza seu cadastro e preencherá dois formulários, um sobre seus dados pessoais e outro denominado como socioeconômico. Este formulário é formado por treze perguntas. Os dados registrados no ato do preenchimento do questionário socioeconômico, que foram utilizados como base para este trabalho. É importante ressaltar que uma vez cadastrado no portal de inscrição, as informações ficam armazenados para processos futuros que o aluno pode vir a tentar novamente e todas as respostas são padronizadas. O acesso se dá através do CPF e senha do usuário, podendo qualquer informação ser trocada posteriormente pelo candidato, no entanto ele só consegue concluir a inscrição com todas as perguntas respondidas. Há diversas vagas em diferentes campus da Instituição, dividida entre variados cursos. A oferta se dá dividida em dois semestres, onde a maneira que estas serão preenchidas é uma particularidade de cada Campus, uns podem escolher fazer um processo único já para os dois períodos, já outros podem optar por fazer estas fases separadas. Pode ocorrer também deste processo único se dar para apenas alguns tipos de cursos e a grande maioria restante ser dividida em duas etapas. Este trabalho abrange todos os campis listados na Figura 8. Importante ressaltar, que as áreas que estão em branco ocorre devido ao fato daquele campi não possuir cursos nos níveis de ensino citado. 36 Figura 8: Campus com seus respectivos cursos ofertados. 37 3.2 DESCOBERTA DE CONHECIMENTO EM DADOS DOS PROCESSOS SELETIVOS O processo de descoberta do conhecimento em base de dados apresentado será adotado como base para a aplicação do Estudo de Caso, a ser realizado sobre uma base de dados real disponibilizado pelo Instituto Federal Fluminense, para realização deste trabalho. O presente estudo foi conduzido da seguinte forma: identificamos que os dados socioeconômico dos processos seletivos seriam uma boa base de pesquisa, desta maneira entramos em contato com o departamento de processo seletivo e enviamos um memorando para liberação da base de dados. Após a obtenção dos dados, deu-se inicio a fase de pré-processamento dos dados, sendo realizada a seleção, limpeza, e transformação. Esta etapa é de total importância para a próxima etapa, na qual são aplicados os métodos da Mineração de Dados, por meio de algoritmos. Neste trabalho foram utilizados as tarefas de clusterização e associação. Para finalizar, os resultados encontrados são analisados e discutidos. O método de clusterização, também chamada de agrupamento, é uma tarefa utilizada para particionar os registros de uma base de dados em clusteres (subconjuntos) de forma a permitir que os dados de um cluster possam usufruir um grupo de propriedades comuns, mas que os diferenciem dos dados de outros clusteres (GOLDSCHIMIDT, 2005). O método de Associação caracteriza o quanto a presença de um conjunto de itens nos registros de uma base de dados implica na presença de algum outro conjunto distinto de itens nos mesmos registros, desse modo, o objetivo das regras de associação é encontrar tendências que possam ser usadas para entender e explorar padrões de comportamento dos dados (CASTANHEIRA, 2008). Para a realização da Mineração de Dados, foi utilizada a ferramenta de Descoberta de Conhecimento em Base de Dados WEKA – Waikato Environment for Knowledge Analysis, que possui um conjunto de algoritmos para tarefas de Mineração de Dados. Weka contém ferramentas para pré-processamento de dados, classificação, regressão, clustering, regras de associação, e visualização (WEKA, 2016). 38 3.3 PRÉ-PROCESSAMENTO Segundo Fayyad (et al., 1996) a etapa de pré-processamento de dados, de acordo com o processo de Descoberta do Conhecimento é composta pelas etapas de Seleção, Limpeza, e Transformação dos Dados. 3.3.1 SELEÇÃO Os dados designados para esta pesquisa foram obtidos do formulário socioeconômico preenchido por aqueles que pretendem ingressar no Instituto Federal Fluminense nos processos seletivos realizado em 2014.1 e 2014.2, nos campi citados na Figura 8. Este formulário é formado por treze perguntas, como mostrado a seguir: 01-Estado Civil 02-Cor ou raça 03-Em que tipo de estabelecimento você cursa/cursou o ensino médio (2º grau) e/ou fundamental? 04-Em qual colégio você cursou a última série do ensino médio (2º grau) e/ou fundamental? 05-Em que período cursa/cursou o ensino médio (2º grau) e/ou fundamental? 06-Você já fez ou vem fazendo algum curso superior, qual das seguintes alternativas melhor expressa sua situação no referido curso? 07-Qual o motivo predominante na escolha do curso para o qual você se inscreveu? 08-De que fontes você recebeu informações sobre o IF Fluminense? 09-Você exerce alguma atividade remunerada? 10-Qual a renda mensal da sua família? 11-Qual a sua participação na vida econômica da família? 12-Você costuma usar microcomputadores? 13-Considerando as possibilidades em relação ao mercado de trabalho, em que local você considera que terá maiores oportunidades de obtenção de emprego na formação que você está buscando no IF Fluminense? 39 Esta fase se iniciou com a seleção dos atributos(perguntas) úteis para esta pesquisa, foi decidido então retirar o atributo 04 (Em qual colégio você cursou a última série do ensino médio (2º grau) e/ou fundamental?), pois se trata apenas do nome do colégio onde o ingressante estudou, julgamos não ser um fato relevante para a nossa pesquisa, visto que no atributo 03 (Em que tipo de estabelecimento você cursa/cursou o ensino médio (2º grau) e/ou fundamental?) já é possível saber se o candidato que pretende ingressar no Instituto Federal Fluminense veio de escola pública ou particular. Juntamente aos dados do formulário socioeconômico, foi fornecido os respectivos processos seletivos ao qual este candidato a ingressar no Instituto Federal Fluminense já participou. 3.3.2 LIMPEZA Os dados selecionados para realização deste trabalho foram obtidos do questionário socioeconômico que é disponibilizado ao aluno que realiza sua inscrição no processo seletivo do Instituto Federal Fluminense. Foi obtido um total de 57541 dados fornecidos em uma planilha eletrônica no formato xls. Para a utilização dos algoritmos de Mineração de Dados, estes devem estar desnormalizados, ou seja, todas as informações devem estar em uma única tabela. Fez-se necessário a exclusão da coluna quatro, por se tratar de um dado irrelevante como citado acima, fez-se necessário também a exclusão de algumas linhas, somente para a realização do estudo por área de conhecimento, pois constava Técnico Integrado ao Médio, não sendo possível determinar a qual área pertencia. Para estudo dos Cursos foi realizada uma avaliação dos dados identificando os três principais cursos mais procurados de acordo com o nível de ensino (técnico, técnico integrado e superior), após essa identificação esses dados foram colocados em uma outra planilha para que se realiza-se a mineração. Houve a exclusão também de algumas linhas cujo as respostas estavam incoerentes, dado ao fato que uma mesma pessoa que respondia exercer alguma atividade remunerada, também respondia que sua participação na vida econômica 40 da família se dava ao fato que não trabalhava e seus gastos eram financiados pela família. Após todas as exclusões necessárias obteve-se um total de 55028 dados para serem minerados. 3.3.3 TRANSFORMAÇÃO Foram inseridas na planilha quatro colunas, sendo estas: curso, nível de ensino, modalidade e área de conhecimento. A partir da coluna com o processo seletivo o qual o futuro ingressante tentou, foi extraído o nome do curso, para a criação da coluna nível de ensino nos baseamos nos cursos, classificando da seguinte forma: técnico, técnico integrado, superior e pós-graduação. Para a coluna de modalidade, dividimos desta maneira: presencial, semipresencial e proeja, sendo o semipresencial a EAD (Educação a Distância), pois todos aqueles que participam desta modalidade precisam ir na instituição para realização das provas. Por fim a coluna sobre a área de conhecimento, foi necessário fazer uma pesquisa identificando assim a que área de conhecimento cada curso pertencia, referindo-se estas: Ciências Humanas, Ciências Exatas, Engenharia e Ciências Biológicas. Alteramos também a visualização das perguntas, ficando então com P – nº da pergunta, por exemplo P – 01. É importante lembrar que como foi excluído a coluna da pergunta de número quatro, passamos de treze para doze perguntas. Para realizar a análise dos dados, foi necessário a transformação do formato da planilha de xls para o formato Arff, de maneira que pudesse ser executada na ferramenta Weka. 3.4 MINERAÇÃO DE DADOS Realizada a primeira fase, ou seja, a etapa e pré-processamento, e com os dados prontos para a mineração, o próximo passo foi a escolha dos algoritmos de cada tarefa que será aplicado a base de dados. Utilizamos nesta pesquisa a 41 ferramenta de Mineração de Dados WEKA. Para avaliar o perfil do aluno que deseja ingressar ao Instituto Federal, foi aplicado o algoritmo da tarefa de associação, Apriori, que realiza buscas sucessivas em toda base de dados, no intuito de encontrar relacionamentos entre os atributos e combinações. É obtida regras de associação do tipo X→Y, onde X e Y são conjuntos de itens significando que se X ocorre em uma transação da base de dados Y também tende a ocorrer. Para avaliar o perfil dos alunos de acordo com a modalidade, o nível de ensino, a área de conhecimento e os cursos mais procurados, foi aplicada a tarefa de Clusterização por meio do algoritmo K-mediasSimples, que consiste em definir um parâmetro de entrada k e dividir um conjunto de n objetos em k clusteres de forma que a similaridade do cluster seja alta, porém diferencie dos outros clusteres. O objetivo da utilização de clusterização é avaliar o perfil dos alunos que pretendem ingressar no Instituto Federal Fluminense relacionado a modalidade, ao nivel de ensino, a área de conhecimento e aos cursos. Para avaliar a comparação do perfil com a modalidade alterando o valor do parâmetro numClusters (número de clusteres) para o valor correspondente ao número de modalidades possíveis (presencial, semipresencial e proeja). O mesmo tratamento foi usado para fazer a comparação por nível de ensino (técnico, superior, pós-graduação e técnico integrado), e pela área de conhecimento (ciências exatas, engenharias, ciências humanas e ciências biológicas). Para avaliar a comparação do perfil do aluno por curso também foi alterado o valor do parâmetro numClusters (número de clusteres) para o valor correspondente ao número de cursos, que serão três clusteres, pois será realizada a mineração dos três cursos mais procurados de acordo com o nível técnico, superior e técnico integrado. 3.5 PÓS-PROCESSAMENTO Após a execução dos métodos de Mineração de Dados é efetuada a interpretação e a validação dos resultados obtidos. 42 3.5.1 EXECUÇÃO DO ALGORITMO APRIORI Figura 9: Resultado da execução do algoritmo Apriori 43 O algoritmo de associação Apriori apresentou dez regras, conforme descrição na Figura 9. As regras estão ordenadas em ordem de confiança, sendo assim a primeira regra obteve 93% de grau de confiança, a segunda regra obteve 92% de grau de confiança, a terceira regra 91%, a quarta regra 89%, a quinta regra 89%, a sexta regra 87%, a sétima regra 86%, a oitava regra 86%, a nona regra 85% e a décima regra 85% de grau de confiança. Na primeira regra, a P – 04 representa 39403 ocorrências, sendo que 36486 dessas ocorrências são da modalidade presencial. A segunda regra, P – 01 representa 45898 ocorrências, sendo que 42315 dessas ocorrências são da modalidade presencial. A terceira regra, P – 05 representa 40405 ocorrências, sendo que 36885 dessas ocorrências são da modalidade presencial. A quarta regra, a área de conhecimento igual a ciências exatas representa 42167 ocorrências, sendo que 37490 dessas ocorrências são da modalidade presencial. A quinta regra, o nível de ensino igual a técnico representa 42670 ocorrências, sendo que 37873 dessas ocorrências são da modalidade presencial. A sexta regra, a área de conhecimento igual a ciências exatas representa 42167 ocorrências, sendo que 36784 dessas ocorrências são do nível de ensino técnico. A sétima regra, a modalidade igual a presencial representa 49038 ocorrências, sendo que 42315 dessas ocorrências (P – 01) são solteiros. A oitava regra, o nível de ensino igual a técnico representa 42670 ocorrências, sendo que 36784 dessas ocorrências são da área de conhecimento formada pelas ciências exatas. A nona regra, a área de conhecimento igual a ciências exatas representa 42167 ocorrências, sendo que 36024 dessas ocorrências (P – 01) são solteiros. A décima regra, o nível de ensino igual a técnico representa 42670 ocorrências, sendo que 36255 dessas ocorrências são solteiros. Pode-se concluir que os alunos que cursaram o período diurno no ensino médio (2º grau) e/ou fundamental optam pela modalidade de ensino presencial. Também pode-se concluir que os alunos que optam pela modalidade de ensino presencial optam por cursos da área de conhecimento das Ciências Exatas, assim como os que optam pela área de conhecimento das Ciências Exatas optam por cursos de nivel Técnico. 44 3.5.2 EXECUÇÃO DO ALGORITMO K-MEANS 3.5.2.1 CLUSTERIZAÇÃO POR NIVEL DE ENSINO Apresenta-se o resultado obtido através da aplicação do algoritmo de Clusterização, K-mediasSimples, definindo as classes de acordo com o nível de ensino. Foram identificados quatro clusteres, sendo eles técnico, pós-graduação, superior e técnico integrado definidos pela similaridade das ocorrências das instâncias dos itens avaliados serem altas em cada cluster, onde se caracteriza de acordo com a Tabela 1: Tabela 1: Clusterização por nivel de ensino Superior Pós-Graduação Técnico Integrado Técnico Solteiro Solteiro Casado Solteiro Branco Branco Branco Branco Pública/particular – diurno Público – diurno Público – noturno Público – diurno Realização pessoal Mercado de Trabalho Mercado de Trabalho Mercado de Trabalho Não trabalha Atividade Remunerada Atividade Remunerada Não Trabalha Acima de três salários e meio Meio a um salário mínimo e meio Um salário e meio a dois salários e meio Meio a um salário mínimo e meio Acesso a Acesso a computador Acesso a computador Acesso a computador computador em casa em casa em casa em casa Campos dos Goytacazes Campos dos Goytacazes Macaé Macaé Presencial Presencial Presencial Presencial Exatas Exatas Exatas Exatas • Cluster Superior – possui uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental em parte pública e parte particular, somente no período diurno, escolheram determinado curso pela possibilidade de realização pessoal, não exercem atividade remunerada, a renda mensal da família é acima de três salários mínimos e meio, como não 45 trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Campos dos Goytacazes, dentro desse grupo predomina uma procura maior pela modalidade presencial e por fim a área de conhecimento das Ciências Exatas. • Cluster Pós-Graduação – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso visando o mercado de trabalho, exercem atividade remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal da família é entre meio salário mínimo e um salário mínimo e meio, são responsáveis pelo seu próprio sustento e contribui para o sustento da família ou de outra pessoa, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Campos dos Goytacazes, dentro desse grupo predomina uma procura maior pela modalidade presencial e por fim a área de conhecimento das Ciências Exatas. • Cluster Técnico Integrado – neste grupo tem uma maior incidência de pessoas casadas, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período noturno, escolheram determinado curso visando o mercado de trabalho, exercem atividade remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal da família é entre um salário mínimo e meio e dois salários mínimos e meio, são responsáveis pelo sustento da família, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Macaé, dentro desse grupo predomina uma procura maior pela modalidade presencial e por fim a área de conhecimento das Ciências Exatas. • Cluster Técnico – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso visando o mercado de trabalho, não exercem atividade 46 remunerada, a renda mensal da família é entre meio salário mínimo e um salário mínimo e meio, como não trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Macaé, dentro desse grupo predomina uma procura maior pela modalidade presencial e por fim a área de conhecimento das Ciências Exatas. 3.5.2.2 CLUSTERIZAÇÃO DE ACORDO COM MODALIDADE Apresenta-se o resultado obtido através da aplicação do algoritmo de Clusterização, K-mediasSimples, definindo as classes de acordo com a modalidade. Foram identificados três clusteres, sendo eles presencial, semipresencial e proeja, definidos pela similaridade das ocorrências das instâncias dos itens avaliados serem altas em cada cluster, onde se caracteriza de acordo com a Tabela 2: Tabela 2: Clusterização pela modalidade Presencial Semipresencial Proeja Solteiro Solteiro Casado Branco Branco Branco Público – diurno Público – diurno Público – noturno Mercado de Trabalho Mercado de Trabalho Mercado de Trabalho Não trabalha Não trabalha Atividade Remunerada Um salário e meio a dois salários e meio Meio a um salário mínimo e meio Um salário e meio a dois salários e meio Acesso a computador em casa Acesso a computador em casa Acesso a computador em casa Campos dos Goytacazes Macaé Macaé Informática Segurança do Trabalho Eletromecânica Técnico Técnico Técnico Presencial Presencial Presencial • Cluster Presencial – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente 47 em estabelecimento público, escolheram determinado curso visando o mercado de trabalho, não exercem atividade remunerada, a renda mensal da família é entre um salário mínimo e meio e dois salários mínimos e meio, como não trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Campos dos Goytacazes, dentro desse grupo predomina uma procura maior pelo curso de Informática, com nivel de ensino Técnico e por fim a área de conhecimento das Ciências Exatas. • Cluster Semipresencial – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso visando o mercado de trabalho, não exercem atividade remunerada, a renda mensal da família é entre meio salário mínimo e um salário mínimo e meio, como não trabalham seus gastos são financiados pela família ou por outra pessoa, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Macaé, dentro desse grupo predomina uma procura maior pelo curso de Segurança do Trabalho com nivel de ensino Técnico e por fim a área de conhecimento das Ciências Exatas. • Cluster Proeja – neste grupo tem uma maior incidência de pessoas casadas, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período noturno, escolheram determinado curso visando o mercado de trabalho, exercem atividade remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal da família é entre um salário mínimo e meio e dois salários mínimos e meio, são responsáveis pelo sustento da família, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Macaé, dentro desse grupo predomina uma procura maior pelo curso de Eletromecânica com nivel de ensino Técnico e por fim a área de conhecimento das Ciências Exatas. 48 3.5.2.3 CLUSTERIZAÇÃO DE ACORDO COM A ÁREA DE CONHECIMENTO Apresenta-se o resultado obtido através da aplicação do algoritmo de Clusterização, K-mediasSimples, definindo as classes de acordo com a área de Conhecimento. Foram identificados quatro clusteres, sendo eles ciências exatas, engenharias, ciências humanas e ciências biológicas, definidos pela similaridade das ocorrências das instâncias dos itens avaliados serem altas em cada cluster, onde se caracteriza de acordo com a Tabela 3: Tabela 3: Clusterização por área de conhecimento Ciências Exatas Engenharias Ciências Humanas Ciências Biológicas Solteiro Solteiro Solteiro Solteiro Branco Branco Branco Branco Público – diurno Público – diurno Público – diurno, já Público – diurno concluiu ou faz algum curso superior Mercado de Trabalho Continuidade dos estudos Mercado de Trabalho Mercado de Trabalho Não trabalha Não trabalha Atividade Remunerada Não trabalha Um salário e meio a dois salários e meio Meio a um salário mínimo e meio Um salário e meio a dois salários e meio Meio a um salário mínimo e meio Acesso a computador Acesso a computador Acesso a computador Acesso a computador em casa em casa no trabalho e em em casa casa Campos dos Goytacazes Macaé Campos dos Goytacazes Campos dos Goytacazes Técnico Técnico Técnico Técnico Presencial Presencial Presencial Presencial • Cluster Ciências Exatas – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram 49 determinado curso visando o mercado de trabalho, não exercem atividade remunerada, a renda mensal da família é entre um salário mínimo e meio e dois salários mínimos e meio, como não trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Campos dos Goytacazes, dentro desse grupo predomina uma procura maior pelo pela modalidade Presencial com nivel de ensino Técnico. • Cluster Engenharias – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso pela possibilidade de dar continuidade a seus estudos, não exercem atividade remunerada, a renda mensal da família é entre meio salário mínimo e um salário mínimo e meio, como não trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Macaé, dentro desse grupo predomina uma procura maior pela modalidade Presencial com nivel de ensino Técnico. • Cluster Ciências Humanas – este grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, já concluiu ou fiz algum curso superior, escolheram determinado curso visando o mercado de trabalho, exercem atividade remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal da família é entre um salário mínimo e meio e dois salários mínimos e meio, são responsáveis pelo sustento da família, tem acesso a computador no trabalho e em casa, acreditam que suas maiores chances de emprego será em Campos dos Goytacazes, dentro desse grupo predomina uma procura maior pela modalidade Presencial com nivel de ensino Técnico. • Cluster Ciências Biológicas – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, 50 escolheram determinado curso visando o mercado de trabalho, não exercem atividade remunerada, a renda mensal da família é entre meio salário mínimo e um salário mínimo e meio, como não trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Campos dos Goytacazes, dentro desse grupo predomina uma procura maior pela modalidade presencial com nivel de ensino Técnico. Quanto ao fato de já ter feito ou se vem fazendo algum curso superior ouve uma maior incidência de respostas na opção 'Outros' em três clusteres, somente o cluster Ciências Humanas apresentou a resposta que já concluiu ou fez algum curso superior. 3.5.2.4 CLUSTERIZAÇÃO DE ACORDO COM O CURSO Com base no questionário socioeconômico do Instituto Federal Fluminense, foi possível obter alguns resultados com relação aos cursos. Como já citado, para a aplicação dos métodos de Mineração de Dados, se faz necessário a preparação dos dados. Segue abaixo a apresentação dos resultados obtidos através da aplicação do algoritmo de Clusterização, K-mediasSimples, definindo as classes de acordo com o curso. Foram selecionados os três cursos mais procurados de acordo com o nível de ensino Superior, Técnico Integrado e Técnico. Dentro dos cursos superiores foram identificados três clusteres, sendo eles Arquitetura e Urbanismo, Ciências da natureza – Licenciaturas (Física/Química/Biologia) e Engenharia de Controle Automação. Dentro dos cursos técnicos integrados também foram identificados três clusteres, sendo eles Eletrotécnica, Eletrônica e Meio Ambiente, por fim, dentro dos cursos técnicos foram identificados três clusteres, sendo eles Eletromecânica, Automação Industrial e Segurança do Trabalho definidos pela similaridade das ocorrências das instâncias dos itens avaliados serem altas em cada cluster, onde se caracteriza de acordo com as Tabelas 4, 5 e 6: 51 3.5.2.4.1 NIVEL SUPERIOR Tabela 4: Clusterização por curso – nivel superior Arquitetura e Urbanismo Ciências da Natureza Engenharia de Controle e Automação Solteiro Solteiro Solteiro Branco Branco Branco Público – diurno Público – diurno Público – diurno Realização Pessoal Mercado de Trabalho Mercado de Trabalho Não trabalha Atividade Remunerada Não trabalha Acima de três salários e meio Acima de três salários e meio Um salário e meio a dois salários e meio Acesso a computador em casa Acesso a computador em casa Acesso a computador em casa Campos dos Goytacazes Campos dos Goytacazes Macaé Presencial Presencial Presencial Exatas Exatas Engenharias • Cluster Arquitetura e Urbanismo – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso pela possibilidade de realização pessoal, não exercem atividade remunerada, a renda mensal da família é acima de três salários mínimos e meio, como não trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Campos dos Goytacazes, dentro desse grupo predomina uma procura maior por cursos da modalidade Presencial e área do conhecimento das Ciências Exatas. • Cluster Ciências da natureza – Licenciaturas (Física/Química/Biologia) – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso visando o 52 mercado de trabalho, exercem atividade remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal da família é acima de três salários mínimos e meio, como trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador no trabalho e em casa, acreditam que suas maiores chances de emprego será em Campos dos Goytacazes, dentro desse grupo predomina uma procura maior por cursos da modalidade presencial e área do conhecimento das Ciências Exatas. • Cluster Engenharia de Controle e Automação – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso visando o mercado de trabalho, não exercem atividade remunerada, a renda mensal da família é entre um salário mínimo e meio e dois salários mínimos e meio, como não trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Macaé, dentro desse grupo predomina uma procura maior por cursos da modalidade presencial e área do conhecimento das Engenharias. 3.5.2.4.2 NIVEL TÉCNICO INTEGRADO 53 Tabela 5: Clusterização por curso – nivel técnico integrado Eletrotécnica Meio Ambiente Eletrônica Solteiro Solteiro Solteiro Branco Negro Branco Público – diurno/noturno Público – diurno Público – noturno Mercado de Trabalho Mercado de Trabalho Mercado de Trabalho Atividade Remunerada Não Trabalha Atividade Remunerada Um salário e meio a dois salários e meio Um salário e meio a dois salários e meio Meio a um salário mínimo e meio Acesso a computador em casa Acesso a computador em casa Acesso a computador em casa de amigos e parentes Macaé Campos dos Goytacazes Outras localidades/Regiões Proeja Proeja Proeja Exatas Exatas Exatas • Cluster Eletrotécnica – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, parte em período diurno e parte no período noturno, escolheram determinado curso visando o mercado de trabalho, exercem atividade remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal da família é entre um salário mínimo e meio e dois salários mínimos e meio, como trabalham se sustentam e contribui parcialmente para o sustento da família ou de outra pessoa, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Macaé, dentro desse grupo predomina uma procura maior por cursos da modalidade Proeja e área do conhecimento das Ciências Exatas. • Cluster Meio Ambiente – neste grupo tem uma maior incidência de pessoas solteiras, negras, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso visando o mercado de trabalho, não exercem atividade remunerada, a renda mensal da família é entre meio salário mínimo e um salário mínimo e meio, como não trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam 54 que suas maiores chances de emprego será em Campos dos Goytacazes, dentro desse grupo predomina uma procura maior por cursos da modalidade Proeja e área do conhecimento das Ciências Exatas. • Cluster Eletrônica – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período noturno, escolheram determinado curso visando o mercado de trabalho, exercem atividade remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal da família é entre meio salário mínimo e um salário mínimo e meio, como trabalham são responsáveis pelo seu próprio sustento e contribui parcialmente para o sustento da família ou de outra pessoa, tem acesso a computador em casa de amigos e parentes, acreditam que suas maiores chances de emprego será em outras localidades/regiões dentro desse grupo predomina uma procura maior por cursos da modalidade Proeja e área de conhecimento das Ciências Exatas. 3.5.2.4.3 NIVEL TÉCNICO 55 Tabela 6: Clusterização por curso – nivel técnico Segurança do Trabalho Eletromecânica Automação Industrial Solteiro Solteiro Solteiro Branco Branco Branco Público – diurno Público – diurno Público – diurno Mercado de Trabalho Mercado de Trabalho Mercado de Trabalho Atividade Remunerada Não trabalha Não trabalha Um salário e meio a dois salários e meio Meio a um salário mínimo e meio Um salário e meio a dois salários e meio Acesso a computador em casa Acesso a computador em casa Acesso a computador em casa Macaé Macaé Região dos Lagos, inclusive Macaé Presencial Presencial Semipresencial Exatas Exatas Exatas • Cluster Segurança do Trabalho – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso visando o mercado de trabalho, exercem atividade remunerada em tempo integral (cerca de 30 horas semanais), a renda mensal da família é entre um salário mínimo e meio e dois salários mínimos e meio, como trabalham se sustentam e contribui parcialmente para o sustento da família ou de outra pessoa, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Macaé, dentro desse grupo predomina uma procura maior por cursos da modalidade Presencial e área de conhecimento das Ciências Exatas. • Cluster Eletromecânica – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso visando o mercado de trabalho, não exercem atividade remunerada, a renda mensal da família é entre meio salário mínimo e um salário mínimo e meio, como não trabalham seus gastos são financiados pela 56 família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será em Macaé, dentro desse grupo predomina uma procura maior por cursos da modalidade Presencial e área do conhecimento das Ciências Exatas. • Cluster Automação Industrial – neste grupo tem uma maior incidência de pessoas solteiras, brancas, que cursaram o ensino médio e/ou fundamental somente em estabelecimento público, somente no período diurno, escolheram determinado curso visando o mercado de trabalho, não exercem atividade remunerada, a renda mensal da família é entre um salário mínimo e meio e dois salários mínimos e meio, como não trabalham seus gastos são financiados pela família ou por outras pessoas, tem acesso a computador em casa, acreditam que suas maiores chances de emprego será na Região dos Lagos exclusive Macaé, dentro desse grupo predomina uma procura maior por cursos da modalidade Semipresencial da área de conhecimento das Ciências Exatas. 57 4. CONSIDERAÇÕES FINAIS Neste capítulo são feitas algumas considerações a respeito do estudo realizado. Além disso, apresentamos também as sugestões para trabalhos futuros. 4.1 CONCLUSÕES Os processos de DCBD podem ser utilizados para a obtenção de conhecimento útil a partir das bases de dados. Neste trabalho foi demonstrada a relevância da aplicação de tarefas e métodos de Mineração de Dados na descoberta de conhecimento no que se refere ao questionário socioeconômico dos futuros ingressantes do Instituto Federal Fluminense. Assim, teve-se como objetivo a aplicação dessas tarefas e métodos de Mineração de Dados para identificar o perfil dos alunos que pretendem ingressar no Instituto Federal Fluminense. Para alcançar o objetivo pretendido foi utilizada a tarefa de clusterização por meio do algoritmo K-mediasSimples e associação através do algoritmo APRIORI. Os resultados obtidos, tanto com a clusterização e associação, permitiram identificar o perfil dos alunos. Pode-se concluir que tanto na análise por curso, por nível de ensino, por área de conhecimento ou pela modalidade, obtiveram perfis semelhantes, com uma predominância de pessoas brancas, solteiras, que estudaram em escola pública, com a renda mensal da família entre um salário mínimo e meio e dois salários mínimos e meio, maior procura por curso da área das ciências exatas, na modalidade presencial. Dentro dos cursos técnicos a maior procura foi pelo curso de Segurança do Trabalho, os de nível superior a maior procura foi pelo curso de Engenharia de Controle e Automação, já no técnico integrado foi predominante a escolha do curso de Eletrotécnica e, por fim, na pós-graduação houve uma maior procura pelo curso de Mestrado em Engenharia Ambiental. Entende-se que o trabalho proposto foi concluído de forma satisfatória, sendo seus objetivos atingidos de forma plena. 58 4.2 TRABALHOS FUTUROS Como trabalho futuro, sugere-se o estudo de outras tarefas e métodos de Mineração de Dados para a descoberta de conhecimento para análise de resultados, em outros anos, a fim de se obter um estudo comparativo. Uma outra sugestão, seria fazer um estudo de acordo com a quantidade de vagas ofertadas para cada curso e se estas atendem a demanda e/ou estão bem distribuídas. Por fim, sugerimos um estudo para ver o perfil dos alunos que foram aprovados no processo seletivo. 59 REFERÊNCIAS BIBLIOGRÁFICAS ARBEX, Eduardo Compasso; Saboredo, Alexandre de Paiva; Miranda, Dhalila. Implementação e Estudo de caso do algoritmo Apriori para Mineração de Dados. Curso de Sistemas de Informação, Associação Educacional Dom Bosco, Resende RJ-Brasil, 2004. AMO, Sandra de. Técnicas de Mineração de Dados. XXIV Congresso da Sociedade Brasileira de Computação. Jornada de Atualização em Informática, 2004. BAKER, Ryan Shaun Joazeiro de; Seiji Isotani; Adriana Maria Joazeiro Baker de Carvalho. Mineração de dados educacionais: oportunidades para o Brasil. Revista Brasileira de Informática na Educação, vol. 19, n° 2, 2011. BATISTA, Gustavo Enrique de Almeida Prado Alves. Pré-processamento em aprendizado de máquina supervisionado. 2003. Disponível em: <http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003160219/publico/TeseDoutorado.pdf>. Acesso em 14 de maio 2016. BERRY, M. J. A.; LINOFF, G. Data Mining Tehniques – for marketing, sales, andcustomer support. United States: Wiley Computer Publishing, 1997. BUENO, Michel Ferreira; Viana, Maury Reis. Mineração de dados: Aplicações, Eficiência e Usabilidade. Anais do Congresso de Iniciação Científica do INATEL – INCITEL, 2012. CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Mestrado em Ciência da Computação, 2009. CASTANHEIRA, Luciana Gomes. Aplicação de Técnicas de Mineração de Dados em Problemas de Classificação de Padrões. Dissertação de Pós-Graduação em Engenharia Elétrica, 2008. CONTI, Fabieli de. Mineração de dados no moodle: Análise de prazos de entrega de atividades. Dissertação de Mestrado, 2011. COSTA, Evandro; Ryan S.J.d. Baker, Lucas Amorim, Jonathas Magalhães, Tarsis Marinho. Mineração de Dados Educacionais: Conceitos, Técnicas, Ferramentas e Aplicações. Jornada de Atualização em Informática na Educação – JAIE, 2012. CRUNCH, Base. Disponível em: <https://www.crunchbase.com/organization/kxen#/entity> Acesso em 13 de maio de 2016. FAYYAD, U; PIATETSKY-SHAPIRO, G; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. American Association for Artificial Intelligence, 1996. GOLDSCHMIDT R. PASSOS, E. Data Mining: um guia prático. Rio de Janeiro: Elsevier/Campus, 2005. 60 GOTTARDO, Ernani; Celso Kaestner; Robinson Vida Noronha. Avaliação de Desempenho de Estudantes em Cursos de Educação a Distância Utilizando Mineração de Dados. Anais do Workshop de Desafios da Computação Aplicada à Educação. 2012. IBM, Intelligent Mine. Disponível em: <http://www.psy.gla.ac.uk/~steve/pr/ibm.html> Acesso em 13 de maio de 2016. KMINE, Open for Inovation. Disponível em: <https://www.knime.org/> Acesso em 13 de maio de 2016. LINGPIPE. Disponível em: <http://alias-i.com/lingpipe/> Acesso em 13 de maio de 2016. MACHADO, Letícia Santos. Mineração do Uso da Web na Educação a Distância: Propostas para a Condução de um Processo a partir de um Estudo de Caso. Dissertação em Ciência da Computação. Pontifícia Universidade Católica do Rio Grande do Sul, 2002. Disponível em: <http://www. pucrs.br/uni/poa/info/pos/dissertacoes/arquivos/leticiam.pdf> Acesso em 14 de maio 2016. MANHÃES, Laci Mary Barbosa, et al. Previsao de estudantes com risco de evasão utilizando técnicas de mineração de dados. Anais do XXII SBIE-XVII WIE, Aracaju, 2011. MIRANDA, Dhalila. Implementação e Estudo de caso do algoritmo Apriori para Mineração de Dados. Curso de Sistemas de Informação, Associação Educacional Dom Bosco, Resende RJ-Brasil. MINING, The Data. Disponível em: <http://www.the-datamine.com/Software/SPSSClementine> Acesso em 13 de maio de 2016. NEVES, Rita de Cássia David das. Pré-Processamento no Processo de Descoberta de Conhecimento em Banco de Dados. Dissertação de Mestrado em Ciência da Computação, 2003. OGLIARI, Paulo José et al.. Desenvolvimento e Implementação de Metodologia para a Análise de Dados Gero referenciados em Segurança Pública. Universidade Federal de Santa Catarina – Centro Tecnológico Departamento de Informática e Estatística, Pós-Graduação em Ciência da Computação, 2002. Disponível em: <www.inf.ufsc.br/~ogliari/arquivos/Projeto_de_Pesquisa_Seguranca_Publica3.doc> Acesso em 24/05/2016 ORACLE. Disponível <http://www.oracle.com/technetwork/database/options/advancedanalytics/odm/index.html> Acesso em 13 de maio de 2016. em: 61 PRASS, Fernando Sarturi. Algoritmo de K-means; Sopa de Letrinhas – O Blog do Business Intelligence, 2013. Disponível em: <http://fp2.com.br/blog/index.php/2013/algoritmo-de-k-means/> Acesso em: 21 de maio de 2016 PORTAL DE INSCRIÇÕES. Disponível em: (https://inscricoes.iff.edu.br Acesso em 14 de maio de 2016. QUINLAN, J.R. C4.5: programs for machine learning. Sydney, Austrália: Morgan Kaufmann Publishers, 1993. 302 p. RAMISCH, Carlos. Trabalho prático de mineração de dados – Algoritmos de aprendizado para avaliação de carros. 2009 REFAAT, M. Data Preparation for Data Mining Usisg SAS. São Francisco:Elsevier, 2007. SAS, The Power To Know. Disponível em: <http://www.sas.com/en_us/software/analytics/enterprise-miner.html> Acesso em 13 de maio de 2016. SAS, The Power To Know. Disponível em: <http://www.sas.com/en_us/software/analytics/text-miner.html> Acesso em 13 de maio de 2016. SILVA, Renata Mesquita da. Percepção dos Discentes em Relação aos Docentes Através da Aplicação de Técnicas e Métodos de Mineração de Dados. Dissertação de Mestrado, 2010. STEINBACH, Michael; TAN, Pang – Ning; KUMAR, Vipin – Introdução ao DATA MINING Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna Ltda., 2009 TEÓFILO, Daniel – Tecnologia, KDD Knowlegde Discovery in Database. Disponível em: <https://danielteofilo.wordpress.com/2015/02/16/kdd-knowlegdediscovery-in-database/ > Acesso: 24/05/2016. WEKA – The University of Waikato. Disponível <http://www.cs.waikato.ac.nz/ml/weka/> Acesso em 13 de maio de 2016. em: WIKIPÉDIA – A Enciclopédia Livre. Disponível <https://pt.wikipedia.org/wiki/Weka> Acesso em 10 de maio de 2016. em WIVES, L..K. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas Usando Técnicas de"Clustering". Dissertação de Mestrado em Ciência da Computação, UFRGS. Porto Alegre, 1998. 62 ANEXO – FORMULÁRIO SOCIOECONÔMICO 63