UNIVERSIDADE ESTADUAL DE GOIÁS UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS BACHARELADO EM SISTEMAS DE INFORMAÇÃO PAULO HENRIQUE DE FREITAS Aplicação de ferramentas de mineração em dados acadêmicos, com o apoio computacional do software R. Anápolis Janeiro, 2015 UNIVERSIÚDE ESTADUAL DE GOIÁS UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS BACHARELADO EM SISTEMAS DE INFORMAÇÃO PAULO HENRIQUE DE FREITAS Aplicação de ferramentas de mineração em dados acadêmicos, com o apoio computacional do software R. Monografia apresentado ao Departamento de Sistemas de Informação da Unidade Universitária de Ciências Exatas e Tecnológicas da Universidade Estadual de Goiás, como requisito parcial para obtenção do grau de Bacharel em Sistemas de Informação. Orientador: Prof. Emerson Wruck Anápolis Janeiro, 2015 FICHA CATALOGRÁFICA FREITAS, Paulo Henrique. Aplicação de Ferramentas de Mineração em dados Acadêmicos, com o apoio Computacional do Software R. [Anápolis] 2014. (UEG / UnUCET, Bacharelado em Sistemas de Informação, 2014). Monografia, Universidade Estadual de Goiás, Unidade Universitária de Ciências Exatas e Tecnológicas. Departamento de Sistemas de Informação. 1. Mineração de Dados 2. Análise de Agrupamento 3. Dados Educacionais 4. Gower REFERÊNCIA BIBLIOGRÁFICA FREITAS, Paulo Henrique. Aplicação de Ferramentas de Mineração em dados Acadêmicos, com o apoio Computacional do Software R. Anápolis, 2014. p. Monografia – Curso de Sistemas de Informação, UnUCET, Universidade Estadual de Goiás. CESSÃO DE DIREITOS NOME DO AUTOR: Paulo Henrique de Freitas TÍTULO DO TRABALHO: Aplicação de Ferramentas de Mineração em dados acadêmicos, com o apoio Computacional do Software R. GRAU/ANO: Graduação /2014. É concedida à Universidade Estadual de Goiás permissão para reproduzir cópias deste trabalho ou emprestar ou vender tais cópias para propósitos acadêmicos e científicos. O autor reserva outros direitos de publicação e nenhuma parte deste trabalho pode ser reproduzida sem a autorização por escrito do autor. Paulo Henrique de Freitas Rua Cruzeiro do Sul Quadra 28 Lote 24 Jardim Alvorada CEP 75.104-390– Anápolis – GO – Brasil AGRADECIMENTOS A todos os amigos, colegas e professores que ajudaram de alguma forma para a realização desde trabalho, especialmente ao meu orientador que me acompanhou em todas as etapas enriquecendo o conteúdo do trabalho com sua vasta experiência. Aos colegas que cursam o primeiro ano do curso que gentilmente responderam o questionário proposto. A todos, os meus sinceros agradecimentos. LISTA DE ILUSTRAÇÕES Figura 1 – Etapas do processo KDD. (FAYYAD, 1996) ...................................... .............9 Figura 2 – Mineração de Dados como uma confluência de muitas disciplinas. (TAN; STEINBACH & KUMAR, 2009) .................................................................................... 11 Figura 3 – Exemplo de Árvore de Decisão ......... ......................................................... ....13 Figura 4 – Armazenamento de distâncias entre 4 elementos (MINGOTI, 2005) ......... ....20 Figura 5 – Procedimentos hierárquicos aglomerativos e divisivos (MINGOTI, 2005) .. ..24 Figura 6 – Um agrupamento hierárquico de quatro pontos mostrado como um dendograma e como grupos aninhados. (TAN; STEINBACH & KUMAR (2009) ................ ................25 Figura 7 – Tela inicial do R ...............................................................................................31 Figura 8 – Tela versão do R ......................................................................... .....................31 Figura 9 – Menu Ajuda .............................................................................. .......................32 Figura 10 – Exemplo de utilização do comando help() ................................. ...................32 Figura 11 – Exemplo de carregamento de pacote “rpart”............................... .. ................33 Figura 12 – Exemplo de um Objeto ............................................................. .... ................34 Figura 13 – Exemplo de um Vetor ................................................................. .... ..............35 Figura 14 – Carregar e Salvar base de dados ......................................................... ...........36 Figura 15 – Exemplo do Comando names().............................................. ........... .............36 Figura 16 – Comando de geração do Dendograma ............................................ ..... .........37 Figura 17 – Comando e Gráfico do Boxplot ............................................ ............... .........37 Figura 18 – Comando e Gráfico do Barplot ............................................ ................ .........38 Figura 19 – Saída do comando Summary() para idade ...................... ........ .......................39 Figura 20 – Saída do comando Table() para sexo ............................... ...... .......................40 Figura 21 – Saída do comando Table() para escola ............................................. .............40 Figura 22 – Saída do comando Table() para período ............................. ......... .................41 Figura 23 – Saída do comando Summary() e Table() para ano de conclusão do ensino médio ...... .................................................................................................................................. ...41 Figura 24 – Saída do comando Table() para a forma de ingresso no curso ...................... 42 Figura 25 – Saída do comando Summary() para a nota de ingresso .................................. 42 Figura 26 – Saída do comando Table() para listar os alunos repetentes ........................... 43 Figura 27 – Saída do comando Table() para listar quantos já iniciaram outro curso superior ........................................................................................................................................... 43 Figura 28 – Saída do comando Table() para listar quantos vivem com cônjuge............... 44 Figura 29 – Saída do comando Table() para listar quantos residem em outra cidade ....... 44 Figura 30 – Saída do comando Table() para o quesito trabalho ........................................ 45 Figura 31 – Saída do comando Summary() para o quesito prática de atividade física ...... 45 Figura 32 – Saída do comando Summary() para o quesito lazer ....................................... 45 Figura 33 – Saída do comando Table() para a escolaridade dos pais ................................ 46 Figura 34 – Saída do comando Table() para o quesito se moram com os pais ................. 46 Figura 35 – Saída do comando Table() para o quesito se os pais vivem juntos ................ 47 Figura 36 – Saída do comando Table() para a renda familiar ........................................... 48 Figura 37 – Saída do comando Summary() para horas de estudo fora da universidade .... 48 Figura 38 – Saída do comando Summary() para o entendimento do curso ....................... 48 Figura 39 – Saída do comando Summary() para o entendimento da matéria de cálculo ... 49 Figura 40 – Dendograma gerado pelo software R ........................................... ... ..............49 Figura 41 – Resultado dos coeficientes gerados pelo software R ..................................... 51 Figura 42 – Desempenho dos grupos na 1º VA ...................................................... ..........51 Figura 43 – Desempenho dos grupos na 2º VA ...................................................... ..........52 Figura 44 – Desempenho dos grupos na 3º VA ...................................................... ..........53 Figura 45 – Número de alunos evadidos por grupo ............................................... ..........54 LISTA DE TABELAS Tabela 1 – Medidas de Distância (Dissimilaridade). ....................................................... ..19 Tabela 2 – Tabela de Coincidência e Divergência para Cálculo dos Coeficientes ........... 21 Tabela 3 – Coeficientes usuais de Similaridade ............................................................. ...21 Tabela 4 – Operações Lógicas do R ................... ............................. .................................34 Tabela 5 – Média geral dos grupos nas V.A. ................................... .................................52 LISTA DE QUADROS Quadro 1 – Algoritmo de Agrupamento Hierárquico Aglomerativo Básico ................... ..25 Quadro 2 – Descrição dos Grupos Identificados ............................................................... 50 LISTA DE ABREVIATURAS E SIGLAS Siglas Descrição EDM Mineração de Dados Educacionais IA Inteligência Artificial IBM International Business Machines KDD Knowledge Discovery in Databases SAS Sistema de Avaliação Seriado SSE Soma do erro quadrado UEG Universidade Estadual de Goiás UnUCET Unidade de Ciências e Exatas e Tecnologias V.A. Verificação Avaliativa RESUMO Neste trabalho foi proposto a utilização da mineração de dados para a descoberta de conhecimento em base de dados educacionais, trabalhando especificamente com a técnica de análise de agrupamento, afim de conseguir descobrir padrões nas características socioeconômicas dos acadêmicos que estão relativamente correlacionadas a evasão e reprovação. Os dados obtidos através de questionário aplicado aos acadêmicos são compostos de variáveis quantitativas e qualitativas. Para a construção da matriz de similaridade foi utilizado o método de Gower (1971) que combina os dois tipos de variáveis simultaneamente. A fundamentação teórica é fundamentada principalmente nos autores Mingoti (2005) e Tan, Steinbach e Kumar (2009) que descrevem os diferentes tipos de agrupamento possíveis. Foram identificados 4 grupos de alunos com características diferentes entre os grupos e parecidos dentro dos grupos. Os coeficientes aglomerativo e cofenético, apresentaram os valores de 0.83 e 0.94 respectivamente, caracterizando um bom agrupamento. As características mais relevantes no grupo que apresentou melhor desempenho foram: estudo em escola particular e maior tempo de estudo fora da universidade, e para o pior desempenho: pouco tempo de estudo fora da universidade e possuir um trabalho. Os resultados obtidos podem servir de subsídio para a adoção de medidas de apoio direcionadas a grupos específicos de acadêmicos com fim de diminuir a taxa de evasão e reprovação que atualmente na instituição de ensino é bastante alta. Palavras-chave: Mineração de dados, Análise de agrupamento, Dados educacionais, Método de Gower. ABSTRACT This work proposes the use of data mining for knowledge discovery in educational database, working specifically with the cluster analysis technique in order to achieve discover patterns in the socioeconomic characteristics of students that are relatively correlated to evasion and failure. The data obtained from a applied questionnaire to the academics is composed of quantitative and qualitative variables. For the construction of the similarity matrix the used method was from Gower (1971), which combines the two types variables simultaneously. The theoretical framework is mainly based on the authors Mingoti (2005) and Tan, Steinbach and Kumar (2009) that describes the different types of possible grouping. It was identified four groups of students with different characteristics between groups and alike within groups. The agglomerative and cofenetic coefficients showed values of 0.83 and 0.94 respectively, featuring a good clustering. The most prominent features in the group with the best performance were: private school studying and longer study outside the university, and the worst performance: low schooling outside the university and having a job. The results can serve as a basis for the adoption of support measures aimed at specific groups of academics in order to reduce the dropout and failure rates that currently at the educational institution are quite high. Key-Words: Data-mining, Cluster Analysis, Educational Data, Gower’s Method. SUMÁRIO INTRODUÇÃO ........................................................................................................................ 1 CAPÍTULO 1 – DESENHO TEÓRICO E METODÓLOGO DA PESQUISA .................. 3 1.1 Problema da pesquisa ........................................................................................................... 3 1.2 Hipótese ................................................................................................................................ 3 1.3 Objetivo Geral ...................................................................................................................... 3 1.4 Objetivos Específicos da Pesquisa ....................................................................................... 4 1.5 Tipos de Pesquisa ................................................................................................................. 4 1.6 Universo e Amostra .............................................................................................................. 4 1.7 Instrumentos e procedimentos de coleta de dados ............................................................... 4 1.8 Tratamento dos dados ........................................................................................................... 5 CAPÍTULO 2 - INTRODUÇÃO AO DATA MINING (MINERAÇÃO DE DADOS) ....... 6 2.1 Introdução ............................................................................................................................. 6 2.2 Dados .................................................................................................................................... 7 2.3 Base dados ............................................................................................................................ 7 2.4 Tipos de variáveis ................................................................................................................. 7 2.5 O que é mineração de dados? ............................................................................................... 8 2.6 Mineração de dados e Descoberta de conhecimento (KDD) ................................................ 9 2.7 As origens da mineração de dados ..................................................................................... 10 2.8 Tarefas de Mineração de Dados ......................................................................................... 11 2.9 Técnicas de Mineração de Dados ....................................................................................... 12 2.9.1 Classificação .................................................................................................................... 12 2.9.2 Árvores de Decisão .......................................................................................................... 12 2.9.3 Classificadores Bayesianos.............................................................................................. 13 2.9.4 Rede Neural Artificial (ANN) ......................................................................................... 13 2.9.5 Análise Associativa ......................................................................................................... 13 2.9.6 O Princípio Apriori .......................................................................................................... 14 2.9.7 Análise de Grupos ........................................................................................................... 14 CAPÍTULO 3 – ANÁLISE DE AGRUPAMENTO............................................................. 16 3.1 Introdução ........................................................................................................................... 16 3.2 Diferentes Tipos de Agrupamento ...................................................................................... 16 3.3 Distâncias e Coefientes de Similaridade ............................................................................ 17 3.3.1 Medidas de Distância (Dissimilaridades) ........................................................................ 18 3.3.2 Matriz de Distância .......................................................................................................... 19 3.3.3 Coeficientes de Similaridades ......................................................................................... 20 3.3.4 Coeficiente de Gower ...................................................................................................... 22 3.5 Técnicas de Agrupamento .................................................................................................. 23 3.5.1 Técnicas Hierárquicas ..................................................................................................... 24 3.5.1.1 Algoritmo de Agrupamento Hierárquico Aglomerativo Básico................................... 25 3.5.1.2 Método de Ligação Simples ........................................................................................ 26 3.5.1.3 Método de Ligação Completa...................................................................................... 27 3.5.1.4 Considerações sobre o Agrupamento Hierárquico Aglomerativo ................................ 28 3.5.1.5 Métodos de validação do Agrupamento ....................................................................... 28 3.5.1.5.1 Coeficiente de Correlação Cofenética ....................................................................... 29 3.5.1.5.2 Coeficiente Aglomerativo.......................................................................................... 29 CAPÍTULO 4 – INTRODUÇÃO AO SOFTWARE R ....................................................... 30 4.1 Introdução ........................................................................................................................... 30 4.2 Instalação do R ................................................................................................................... 30 4.3 Começar a usar o R ............................................................................................................. 30 4.4 Ajuda sobre o R .................................................................................................................. 32 4.5 “Packages” do R ................................................................................................................. 33 4.6 Objetos ................................................................................................................................ 33 4.7 Operadores .......................................................................................................................... 34 4.8 Tipos de Variáveis .............................................................................................................. 34 4.9 Vetores ................................................................................................................................ 35 4.10 Carregar base de dados ..................................................................................................... 36 4.11 Gráficos ............................................................................................................................ 36 4.11.1 Dendograma .................................................................................................................. 36 4.11.2 BoxPlot .......................................................................................................................... 37 4.11.3 BarPlot ........................................................................................................................... 38 CAPÍTULO 5 – ESTUDO DE CASO ................................................................................... 39 5.1 Introdução ........................................................................................................................... 39 5.2 Análise descritiva dos dados............................................................................................... 39 5.3 Dendograma ....................................................................................................................... 49 5.4 Descrição dos Grupos ......................................................................................................... 50 5.5 Avaliação do Agrupamento ................................................................................................ 51 5.6 Grupos x Desempenho ....................................................................................................... 51 5.7 Grupos x Evasão ................................................................................................................. 54 CONCLUSÃO......................................................................................................................... 55 REFERÊNCIAS ..................................................................................................................... 56 APÊNDICES ........................................................................................................................... 58 Apêndice A – Cronograma .................................................................................................... 58 Apêndice B – Questionário .................................................................................................... 60 Apêndice C – Comandos Utilizados no Software R ............................................................ 62 Apêndice D – Pôster Comunicação Científica ..................................................................... 63 1 INTRODUÇÃO Atualmente, a sociedade vive em uma era informatizada onde diferentes sistemas de informação são de suma importância para as organizações, pois somente através deles é possível fazer um gerenciamento completo e detalhado de toda a organização. Logo, são geradas enormes bases de dados, normalmente não integradas, que contém informações fundamentais para o conhecimento das organizações, mas que por seu tamanho e ou formato, impõem dificuldades na geração de conhecimento. Assim, surgiu a necessidade da mineração de dados, que trata-se de ferramentas de análise de dados mais complexas que unem as técnicas tradicionais com algoritmos sofisticados podendo trabalhar com extensas bases de dados. Na matéria de Cálculo Diferencial e Integral do curso de Sistemas de Informação da UnUCET – Unidade de Ciências Exatas e Tecnológicas foi identificado, através do histórico da disciplina, uma grande taxa de reprovação e evasão. No último ano, por exemplo, apenas 32.65% dos alunos que iniciaram a disciplina foram aprovados, o que preocupa de forma significativa a coordenação do curso. Com o intuito de identificar as causas do problema, propõe-se a aplicação de técnicas de mineração na base de dados dos acadêmicos do curso matriculados na disciplina no ano letivo de 2014. A partir de dados socioeconômicos e de desempenho do acadêmico durante o ano será feita uma análise de agrupamento, que assim é definida por Mingoti (2005): A análise de agrupamentos, também conhecida como análise de conglomerados, classificação ou clusters, tem como objetivo dividir os elementos da amostra, ou população, em grupos de forma que os elementos pertencentes a um mesmo grupo sejam similares entre si com respeito com respeito ás variáveis (características) que neles foram medidas e os elementos em grupos diferentes sejam heterogêneos em relação a estas mesmas características (MINGOTI, 2005, p.155). A análise de agrupamento, ou análise de conglomerado, que também pode ser encontrada em outras literaturas como análise de clusters, já vem sendo utilizada há bastante tempo por diversas áreas devido a sua extensa abrangência. Por exemplo, na medicina, uma doença ou condição possui frequentemente uma quantidade de variantes, e a análise de agrupamento pode ser usada para identificar essas diferentes subcategorias. No clima, compreender o clima da Terra requer encontrar padrões na atmosfera e no oceano, para este fim, a análise de agrupamento tem sido aplicada para encontrar 2 padrões na pressão atmosférica de regiões polares e áreas do oceano que tem um impacto significativo sobre o clima da Terra. Assim, através da análise de agrupamento serão identificados grupos de acadêmicos socioeconomicamente semelhantes e será realizado o acompanhamento do seu respectivo desempenho. Afim de conseguir identificar características socioeconômicas que estejam diretamente relacionadas ao baixo desempenho e a evasão, com esses dados em mãos, no próximo ano será possível facilmente identificar os acadêmicos pertencentes ao grupo de risco e dessa forma, auxiliar no planejamento estratégico do curso, que tem como foco melhorar o desempenho acadêmico dos alunos ingressantes. Com os resultados desse estudo os gestores poderão sugerir o direcionamento dos respectivos grupos previamente a coordenação pedagógica para que sejam aplicadas medidas preventivas na tentativa de melhoria do desempenho e a diminuição da evasão. Os dados iniciais foram coletados através de questionário aplicado em sala com participação dos acadêmicos matriculados no curso de Cálculo Diferencial e Integral no ano de 2014. Para o auxílio da ferramenta de mineração de dados foi utilizado o software R que é desenvolvido por “The R Foundation for Statistical Computing” e disponibilizado de forma gratuita. Este programa consiste em um pacote integrado de softwares para facilitar o trabalho com dados, cálculos e exibição de gráficos. As ferramentas incluem um gerenciador de dados e armazenamento, operadores para cálculos em exibições (matrizes em particular), uma coleção de ferramentas para análise de dados, facilidades para exibição de dados e recursos de programação para os usuários avançados. O principal motivo pela escolha do tema foi sua abrangência de aplicações, e sua utilidade prática. A descoberta de informação em bases de dados que antes só eram armazenadas para histórico, pode proporcionar enormes ganhos para as organizações, proporcionando um maior conhecimento sobre a organização em si e consequentemente possibilitando uma maior especialização e o desenvolvimento de políticas gerenciais para otimizar os resultados. 3 CAPÍTULO 1 – DESENHO TEÓRICO E METODÓLOGO DA PESQUISA 1.1 Problema da pesquisa Devido ao histórico de alto índice de evasão e reprovação na disciplina de Cálculo – Diferencial e Integral no curso de Sistemas de Informação foi identificada a necessidade de realizar um estudo que possa ajudar a diminuir esses índices, contribuindo assim para a formação de mais alunos no curso. Assim, o estudo visou através de ferramentas de mineração de dados, construir agrupamentos de alunos semelhantes com base nas características socioeconômicas e avaliar o desempenho desses, visando identificar nos grupos as respectivas características que podem estar ligadas ao baixo desempenho e evasão. Dessa forma, os padrões encontrados serão disponibilizados a coordenação pedagógica, de maneira que no início de novas turmas possam ser identificados alunos com características similares, viabilizando que medidas de prevenção sejam aplicadas de forma mais eficiente. 1.2 Hipótese A identificação de grupos de alunos com características socioeconômicas semelhantes que baseado no desempenho durante o ano tem maiores chances de evasão e reprovação no curso. 1.3 Objetivo Geral Identificar através da utilização de técnicas de mineração de dados, grupos de alunos com características socioeconômicas semelhantes e relacionar esses grupos com as taxas de evasão e reprovação com apoio computacional do software R à partir das ferramentas de análise de agrupamento disponíveis. 4 1.4 Objetivos Específicos da Pesquisa Realizar revisão bibliográfica sobre técnicas de mineração de dados voltado para o estudo de caso em questão. Realizar coleta de dados socioeconômicos dos alunos da disciplina de Cálculo – Diferencial e Integral a partir da construção e aplicação de questionário. Realizar o estudo do software R, visando a criação e implementação de scripts para análise de agrupamento. Identificar grupos de alunos com características socioeconômicas semelhantes a partir da análise de agrupamento. Acompanhar o desempenho dos grupos ao longo do ano calculando as taxas de evasão e desempenho para cada grupo. 1.5 Tipos de Pesquisa Com o intuito de contribuir com a disciplina de Cálculo – Diferencial e Integral e consequentemente com o curso de Sistemas de Informação, foi realizada uma pesquisa aplicada a partir de um estudo de caso que visa, com a utilização da ferramenta de análise de agrupamento a identificação de grupos de risco, analisando indicadores socioeconômicos e de desemprenho dos alunos do curso com apoio computacional do software R. 1.6 Universo e Amostra Nosso universo foram 36 (trinta e seis) alunos matriculados na disciplina de Cálculo – Diferencial e Integral do curso de Sistemas de Informação no ano de 2014. 1.7 Instrumentos e procedimentos de coleta de dados Os dados foram coletados através de questionário aplicado aos alunos matriculados no curso. 5 1.8 Tratamento dos dados Os dados foram tratados através da técnica de análise de agrupamentos, com o apoio computacional do software R. 6 CAPÍTULO 2 - INTRODUÇÃO AO DATA MINING (MINERAÇÃO DE DADOS) 2.1 Introdução Com os avanços rápidos da tecnologia de coleta e armazenamento de dados, foi permitido que muitas informações fossem acumuladas e tornou-se um grande desafio a descoberta de conhecimento útil dentro dessas gigantes massas. As técnicas tradicionais de análise de dados em muitas situações não podem ser usadas devido ao enorme tamanho do conjunto de dados ou simplesmente por causa da sua natureza não trivial requerendo métodos de análise mais sofisticados. Segundo Tan, Steinbach e Kumar (2009), a mineração de dados é uma tecnologia que combina os métodos tradicionais de análise com algoritmos sofisticados que permitem analisar e processar um conjunto de dados. Um exemplo de aplicação que é bastante usada atualmente encontra-se no comércio, se trata da coleta de dados nos pontos de venda que permite aos varejistas atualizar informações a respeito das compras dos seus clientes nos caixas de suas lojas. Com o apoio de técnicas de mineração de dados os varejistas podem utilizar essa informação, junto com outras, para apoiar uma ampla gama de aplicações de inteligência de negócios como a criação de perfis de clientes, vendas direcionadas, administração do fluxo de trabalho, formato de organização da loja e detecção de fraudes. Assim como também auxiliam os varejistas a responder importantes questões de negócios como “Quais são os clientes mais lucrativos?” e “Qual a perspectiva de lucro da empresa no próximo ano?”. São esses tipos de questões que motivam a criação de técnicas de mineração de dados. Graças a sua versatilidade a mineração de dados pode ser aplicada em diversas áreas, inclusive na educação, onde é o foco da pesquisa. Assim, na área educacional tem-se a “Mineração de Dados Educacionais” (do inglês, “Educational Data Mining”, ou EDM) que tem como principal foco extrair e analisar dados educacionais. Nessa área de pesquisa, pode-se listar alguns trabalhos pioneiros desenvolvidos no Brasil, como por exemplo: o publicado por Brandão et al. (2006) analisando dados do programa nacional de informática na educação, onde foi utilizada a técnica de análise de agrupamento para dividir em grupos as escolas com desempenho semelhante. Dessa forma, foi possível mapear as principais características das escolas com o melhor desempenho, para que essas características pudessem ser aplicadas nas outras escolas. Também pode ser citado o trabalho de Pimentel e Omar (2006), onde foi realizado um estudo para descobrir informação em 7 métodos de avaliação de alunos, o resultado obtido auxilia em uma melhor formulação das próximas avaliações. Também um estudo relacionado a evasão de alunos intitulado “Previsão de Estudantes com Risco de Evasão Utilizando Técnicas de Mineração de Dados” de Manhães et al. (2011) desenvolvido na Universidade Federal do Rio de Janeiro (UFRJ), onde seu objetivo consistia em levantar características de acadêmicos que estivessem relacionadas à evasão. 2.2 Dados Antes de descrever sobre mineração de dados é importante saber o conceito de dado e suas classificações que influenciam diretamente na escolha da melhor técnica de mineração a ser aplicada. De acordo com Setzer (1999), dado é definido como uma sequência de símbolos quantificados ou quantificáveis. Então, por exemplo: texto, imagem, sons e animações são dados pois são símbolos quantificados e assim sendo podem ser armazenados e processados em um computador. 2.3 Base dados Uma base de dados são um conjunto de objetos, que também podem ser chamados de registros, ponteiros, vetores, padrões, casos ou entidades. Por sua vez, um objeto de dados é composto por um número de atributos que define suas características. Tan, Steinbach & Kumar (2009, p. 28) define atributo como “é uma propriedade ou característica de um objeto que pode variar, seja de um objeto para outro ou de tempo para outro.” Por exemplo, um registro de um aluno possui diversos atributos que compõem suas características, como nome, endereço, curso e outras. Os atributos são mais conhecidos como variáveis. 2.4 Tipos de variáveis As variáveis podem ter valores numéricos ou não numéricos, assim sendo classificadas como quantitativas ou qualitativas. As variáveis quantitativas são compostas por números, como o próprio nome sugere, atributos quantitativos como por exemplo, idade, número de identificação, nota. 8 Já as qualitativas, ou também conhecida como categórica, são definidas por categoria, ou seja, representam uma classificação por exemplo, fumante/não fumante, sexo, faixa de renda. 2.5 O que é mineração de dados? Pode-se encontrar em diversas literaturas diferentes definições do termo mineração de dados (do inglês “Data Mining”) que ao longo do tempo foram evoluindo até as mais recentes que são mais utilizadas. De acordo com Weis e Indurkhya (1999), mineração de dados é busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens. Já para Thuraisingham (1999), “mineração de dados é o processo de várias consultas e extração de informações úteis, padrões, tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados.” Mineração de dados é definida para Tan, Steinbach & Kumar (2009) da seguinte forma: A mineração de dados é o processo de descoberta automática de informações úteis em grandes depósitos de dados. As técnicas de mineração de dados são organizadas para agir sobre grandes bancos de dados com o intuito de descobrir padrões úteis e recentes que poderiam, de outra forma, permanecer ignorados (TAN; STEINBACH; KUMAR, 2009, p. 3). A mineração de dados também tem a capacidade de previsão de resultados futuros, como por exemplo quais as chances de determinado cliente dar calote no banco. É importante ressaltar que, nem todas as técnicas de descoberta de informação são consideradas mineração de dados. Por exemplo, a procura de registros individuais usando um sistema gerenciador de banco de dados ou a busca de determinadas páginas na internet através de um mecanismo de busca são tarefas relacionadas à área da recuperação de dados. Por mais sofisticadas que sejam e possam envolver algoritmos e estruturas de dados essas técnicas se baseiam em métodos tradicionais da ciência da computação. A mineração de dados tem sido usada para melhorar esses sistemas de recuperações de informações. 9 2.6 Mineração de dados e Descoberta de conhecimento (KDD) A mineração de dados é uma parte integral da descoberta de conhecimento em banco de dados (KDD – Knowledge Discovery in Databases), que é o processo geral de conversão de dados brutos em informações úteis. Basicamente, esse processo se divide em seis etapas que são: Seleção, Pré-processamento, Transformação, Data Mining e Interpretação dos resultados obtidos da mineração conforme mostrado na Figura 1. Figura 1 - Etapas do processo de KDD. Fayyad et al. (1996). Segundo Fayyad (1996), “KDD é um processo de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados”. A princípio, os dados coletados na seleção são armazenados em diferentes tipos de plataformas e podem ficar em um repositório central ou distribuídos em diferentes locais. O objetivo do pré-processamento é transformar todos esses dados brutos em um único formato e em uma mesma fonte de armazenamento para que se possa ser feita a análise. Os passos envolvidos na etapa da transformação incluem a fusão de dados de múltiplas fontes, a limpeza para remoção de ruídos, observações duplicadas, a seleção de registros e características que sejam relevantes para a mineração (TAN; STEINBACH e KUMAR, 2009). 10 Consequentemente, tem-se a etapa do Data Mining onde será determinada entre as diversas técnicas qual ou quais serão utilizadas para conseguir extrair informação útil dessa base de dados. Mais adiante, algumas dessas técnicas serão apresentadas de forma introdutória. Por fim, mas não menos importante, tem-se a interpretação que é a fusão das informações descobertas na mineração de dados com os sistemas de apoio a decisão existentes. É necessário saber o que fazer com essas novas informações, a forma com que elas impactam nos resultados e sua relevância. Devido a isso, essa etapa é tão importante e decisiva. 2.7 As origens da mineração de dados Com o objetivo de vencer os desafios da descoberta de informação nas bases de dados, pesquisadores de diferentes disciplinas começaram a desenvolver ferramentas mais eficientes e escaláveis que pudessem lidar com diferentes tipos de dados. Dessa forma, surgiu a área da mineração de dados onde foram construídas metodologias e algoritmos para resolver esse problema. Em especial, a mineração de dados atrai ideias, como a amostragem, estimativa e teste de hipóteses a partir de estatísticas e algoritmos de busca, técnicas de modelagem e teorias de aprendizagem da inteligência artificial, reconhecimento de padrões e aprendizagem de máquina (TAN; STEINBACH; KUMAR, 2009, p. 7). A quantidade de áreas que influenciam na mineração de dados é ilustrada na Figura 2. Onde temos a Mineração de Dados como resultado da junção de técnicas estatísticas com técnicas de AI (Inteligência Artificial), aprendizagem de máquina e reconhecimento de padrões, usando como base a tecnologia de banco de dados, computação paralela e computação distribuída. 11 Figura 2 - Mineração de Dados como uma confluência de muitas disciplinas. Fonte: TAN; STEINBACH; KUMAR, 2009 2.8 Tarefas de Mineração de Dados As tarefas de mineração de dados basicamente são divididas em duas categorias principais: tarefas de previsão e tarefas descritivas. Nas tarefas de previsão o objetivo e prever o valor de determinado atributo baseado nos valores de outros atributos. Geralmente, o atributo a ser previsto é conhecido como variável dependente ou alvo, enquanto os atributos usados para fazer a previsão são conhecidos como variáveis independentes ou explicativas (TAN; STEINBACH e KUMAR, 2009). Já nas tarefas descritivas o objetivo é definir padrões (correlações, tendências, grupos, trajetórias e anomalias) que resumam o relacionamento dos dados. Normalmente, as tarefas descritivas são exploratórias em sua natureza e frequentemente requerem técnicas de pós-processamento para validar e explicar os resultados (TAN; STEINBACH e KUMAR, 2009). 12 2.9 Técnicas de Mineração de Dados 2.9.1 Classificação É uma tarefa que tem como objetivo organizar objetos em categorias que são prédefinidas. Classificação é a tarefa de aprender uma função alvo ƒ que mapeie cada conjunto de atributos x para um dos rótulos de classes y pré-determinados. (TAN; STEINBACH; KUMAR, 2009, p.171). Os dados de entrada são um conjunto de registros, onde o cada registro é conhecido como instância ou exemplo é e caracterizado com as variáveis (x, y). O conjunto de atributos e referenciado por x e o y ao atributo especial, designado como rótulo da classe (atributo alvo ou categorização). 2.9.2 Árvores de Decisão Trata-se de uma técnica de classificação simples, onde se constrói uma estrutura hierárquica de questões e de acordo com as respostas os objetos são classificados. É constituída de nodos e arestas direcionadas. No topo da árvore existe um nodo chamado raiz que não possui arestas chegando em zero ou mais arestas saindo. Os nodos internos possuem uma aresta chegando e duas ou mais saindo. E finalmente, os nodos folha ou terminais possuem uma aresta chegando e nenhuma saindo. Observe o exemplo de árvore de decisão apresentado na figura 3, onde apresenta o esquema de avaliação de aluno. 13 Figura 3 – Exemplo de Árvore de Decisão. Fonte: Google. 2.9.3 Classificadores Bayesianos Utiliza-se o teorema de Bayes na classificação quando o conjunto de atributos e a variável classe é não determinístico, ou seja, o rótulo da classe de um registro não pode ser previsto com certeza embora seus atributos sejam compatíveis com a classe. 2.9.4 Rede Neural Artificial (ANN) A rede neutral é uma tentativa de simular o sistema neural biológico em neurais artificiais. Muito utilizado na área de inteligência artificial. Onde se cria um treinamento e a rede é capaz de aprender com novas entradas de dados com base no treinamento aplicado. 2.9.5 Análise Associativa É uma metodologia que tem como objetivo descobrir relacionamentos úteis escondidos em conjuntos de dados. Por exemplo, um supermercado que emite milhares de cupons fiscais em um único dia pode utilizar a análise associativa para tentar identificar um relacionamento de itens nos cupons. Essas informações são valiosas para apoiar aplicações 14 relacionadas ao negócio, como promoção de vendas, gerência de estoque e gerência de relacionamento com os clientes. Os relacionamentos descobertos podem ser representados na forma de regras de associação. Regra de Associação – Uma regra de associação é uma expressão de implicação no formato X -› Y, onde X e Y são conjuntos disjuntos de itens, i.e., X ∩ Y = Ø. A força de uma regra de associação pode ser medida em termos do seu suporte e confiança. O suporte determina a frequência na qual uma regra é aplicável a um determinado conjunto de dados, enquanto que a confiança determina a frequência na qual os itens em Y aparecem em transações que contenham X. As definições formais destas métricas são Suporte, s (X -› Y) = 𝜎 (𝑋 ∪ 𝑌); 𝑁 Confiança, c (X -› Y) = 𝜎 (𝑋 ∪ 𝑌) . 𝜎 (𝑋) (TAN; STEINBANCH; KUMAR, 2009, p.392). 2.9.6 O Princípio Apriori Algoritmo proposto em 1994 pela equipe de pesquisa do projeto QUEST da IBM que originou o software Intelligent Miner. Baseia-se no teorema que diz que se um conjunto de itens é frequente, então todos os seus subconjuntos também devem ser frequentes. Ou seja, a partir de um conjunto pode-se determinar se um item é frequente ou não (AMO, 2003). 2.9.7 Análise de Grupos Divide o conjunto de dados em grupos (clusters) que tenham algum significado, que sejam úteis. Normalmente os clusters devem capturar a estrutura natural dos grupos, que em muitos casos a análise de grupos é um ponto inicial para outros propósitos (TAN; STEINBACH & KUMAR, 2009). A análise de grupos é bastante utilizada e em diversas áreas como, por exemplo, no clima. Compreender o clima da Terra requer encontrar padrões na atmosfera e no oceano. Assim, é utilizada a análise de grupos para encontrar padrões na pressão atmosférica de regiões 15 polares e áreas do oceano que tenham um impacto significativo sobre o clima. Outro exemplo é na medicina, uma doença ou condição possuiu frequentemente uma quantidade de variantes, e a análise de agrupamentos pode ser usada para identificar essas diferentes subcategorias. Dentre os principais algoritmos, são três os mais usados: K-means é uma técnica particional de agrupamento baseada em protótipos que tenta encontrar m número especificado pelo usuário de grupos (K), que são representados pelos seus centroides. Agrupamento Hierárquico Aglomerativo é uma abordagem de agrupamento que se refere a um conjunto de técnicas de agrupamento intimamente relacionadas que produzem um agrupamento hierárquico iniciando com cada ponto como um grupo único e depois fundindo repetidamente os dois grupos mais próximos até que reste um único grupo englobando tudo. DBSCAN é um algoritmo de agrupamento baseado em densidade que produz um agrupamento particional, no qual o número de grupos é determinado automaticamente pelo algoritmo. Pontos em regiões de densidade baixa são classificadas como ruído e omitidas; assim, DBSCAN não produz um agrupamento completo (TAN; STEINBANCH; KUMAR, 2009, p.591). A análise de agrupamento é uma técnica que possui várias técnicas e diferentes tipos de aplicações, logo o próximo capítulo é totalmente dedicado para sua especificação. 16 CAPÍTULO 3 – ANÁLISE DE AGRUPAMENTO 3.1 Introdução Como já especificado de forma introdutória no capítulo 2 (dois), a análise de agrupamento tem a função de dividir um conjunto de dados em grupos (clusters) de forma que sejam úteis, especificamente quando se quer obter um significado ou identificar um padrão, ou seja, quando se deseja entender melhor como os dados se relacionam é capturada a estrutura natural dos dados que é chamado de agrupamento para compreensão. A análise de agrupamentos, também conhecida como análise de conglomerados, classificação ou clusters, tem como objetivo dividir os elementos da amostra, ou população, em grupos de forma que os elementos pertencentes a um mesmo grupo sejam similares entre si com respeito ás variáveis (características) que neles foram medidas e os elementos em grupos diferentes sejam heterogêneos em relação a estas mesmas características (MINGOTI, 2005, p.155). Com as diversas utilizações da técnica e os diferentes objetivos identificados existem alguns tipos de agrupamento definidos. 3.2 Diferentes Tipos de Agrupamento Existem diversas noções de grupo úteis para cada tipo de problema, é importante descrever sobre alguns deles. Bem separados: um grupo é formado por um conjunto de objetos no qual cada objeto esteja mais próximo, ou seja, mais semelhante a cada um dos outros objetos dentro desse mesmo grupo. Em várias situações é utilizado um limite para especificar o quão semelhante o objeto deve ser do outro para popular o mesmo grupo. Essa ideia é satisfeita apenas para os grupos naturais que sejam bastante diferentes entre si, logo a distância entre qualquer dois pontos de grupos diferentes seja maior que a distância entre qualquer dois pontos do mesmo grupo (TAN; STEINBACH & KUMAR, 2009). Baseados em protótipos: para grupos com atributos contínuos, o protótipo de um grupo é na maioria das vezes um centróide, portanto a média de todos os pontos no grupo. Ainda assim, o centróide pode não ser significativo, quando por exemplo os dados possuem 17 atributos categorizados, nesse caso o protótipo será um medóide, o ponto mais representativo do grupo (TAN; STEINBACH & KUMAR, 2009). Baseados em gráfico: para dados representados como um grafo um grupo pode ser definido como um componente conectado, isto é, um grupo de objetos que sejam conectados entre si, mas não tenham conexão com outros objetos fora do grupo (TAN; STEINBACH & KUMAR, 2009). Baseados em densidade: figura pela formação de um grupo que caracteriza uma região densa de objetos que seja rodeada por uma região de baixa densidade (TAN; STEINBACH & KUMAR, 2009). Propriedades compartilhadas (grupos conceituais): de forma simples pode ser caracterizado por um grupo com um conjunto de objetos que compartilham alguma propriedade (TAN; STEINBACH & KUMAR, 2009). 3.3 Distâncias e Coefientes de Similaridade Um ponto chave na análise de agrupamento é saber se um elemento é próximo ou não de outro. Supondo que cada elemento tenha p variáveis, deve-se comparar uma a uma com o outro elemento para se obter um valor resultante que diz qual o grau de similaridade ou dissimilaridade que os dois elementos em questão possuem. De acordo com Quintal (2006), a semelhança mede o grau de proximidade entre os objetos. Por outro lado a dissemelhança reflete o grau de diferença ou afastamento entre dois objetos. Dois objetos pertencem ao mesmo cluster se são semelhantes e pertencem a clusters diferentes se são dissemelhantes. Segundo Mingoti (2005), suponha que se tenha disponível um conjunto de dados constituído de n elementos amostrais, tendo-se medido p-variáveis aleatórias em cada um deles. O objetivo é agrupar esses elementos em g grupos. Para cada elemento amostral j, tem-se, portanto, o vetor de medidas 𝑋𝑗 definido por: ′ 𝑋𝑗 = [𝑋1𝑗 𝑋2𝑗 … 𝑋𝑝𝑗 ] , 𝑗 = 1, 2, … , 𝑛 onde 𝑋𝑖𝑗 representa o valor observado da variável i medida no elemento j. Para que se possa proceder o agrupamento deve-se primeiro decidir a medida de similaridade ou dissimilaridade 18 que será utilizada. Existem vários tipos de medidas e cada uma delas produz um determinado tipo de agrupamento. 3.3.1 Medidas de Distância (Dissimilaridades) Medidas de dissimilaridades são utilizadas quando é necessário realizar o agrupamento de variáveis quantitativas, é aconselhável que se utilize distâncias verdadeiras, ou seja, que atenda as seguintes propriedades: I) d (P,Q) = d (Q,P); II) d (P,Q) > 0 se P ≠ Q; III) d (P,Q) = 0 se P = Q; IV) d (P,Q) ≤ d (P,R) + d (R,Q); Onde: R é um ponto intermediário; I é a Simetria; II e III é a Positividade; IV é a Desigualdade Triangular. A desigualdade triangular tem origem na geometria euclidiana que pode ser encontrado na obra “Os Elementos” de Euclides (2009), onde afirma que em um triângulo o comprimento de um dos lados é sempre inferior à soma dos comprimentos dos outros dois lados. Existem diversos tipos de medidas de distâncias que podem ser usados para o agrupamento de variáveis, as mais usuais são dispostas na Tabela 1. 19 Tabela 1 – Medidas de Distância (Dissimilaridade). Nome Expressão 𝑝 Distância Euclidiana 𝑑(𝑥, 𝑦) = √∑(𝑥𝑗 − 𝑦𝑗 )² 𝑗=1 𝑝 Distância Euclidiana Quadrática 𝑑(𝑥, 𝑦) = ∑(𝑥𝑗 − 𝑦𝑗 )² Distância de Mahalanobis (Estatística) 𝑑(𝑥, 𝑦) = √(𝑥 − 𝑦)𝑇 𝑆 −1 (𝑥 − 𝑦) 𝑗=1 𝑝 Manhattan (Cityblock) 𝑑(𝑥, 𝑦) = [∑|𝑥𝑖 − 𝑦𝑖 |] 𝑖=1 Chebchev 𝑑(𝑥, 𝑦) = max(|𝑥𝑗 − 𝑦𝑖 |), 𝑖 = 1, … , 𝑝 𝑝 Minkowski 𝑑(𝑥, 𝑦) = [∑|𝑥𝑖 − 𝑦𝑖 |𝑚 ] 𝑖=1 1 𝑚 Explicação É a mais comum, simplesmente é a distância geométrica (intuitiva) em um espaço pdimensional. É similar à distância euclidiana, porém atribui um peso maior a distâncias entre objetos mais distantes. −1 𝑆 é a inversa da matriz de covariância. Contudo sem conhecimento dos grupos distintos está matriz não pode ser calculada, portanto é preferível utilizar a distância euclidiana. A distância de Manhattan é a distância média entre as dimensões. Na maioria dos casos a distância encontrada é similar a distância Euclidiana, entretanto, os efeitos de grandes diferenças são suavizados. A distância de Chebchev é apropriada quando o objetivo é definir dois elementos como diferentes, onde apenas uma das dimensões difere. A distância de Minkowski é uma generalização das demais distâncias, pois as distâncias são basicamente normas de vetores. Por exemplo, para m = 2 temos a expressão da distância euclidiana. Fonte: Maximiliano e Cordeiro, 2008. 3.3.2 Matriz de Distância Encontrada o valor da medida de similaridade ou dissimilaridade muitas das vezes é formada uma matriz de distâncias, que é uma matriz n x n com o valor das distâncias entre todos os elementos, como mostrado na Figura 4. 20 Figura 4 – Armazenamento de distâncias entre 4 elementos 𝐷4𝑥4 0 𝑑 = [ 21 𝑑31 𝑑41 𝑑12 0 𝑑32 𝑑42 𝑑13 𝑑23 0 𝑑43 𝑑14 𝑑24 ] 𝑑34 0 Fonte: MINGOTI, 2005 3.3.3 Coeficientes de Similaridades Os coeficientes de similaridades são utilizados para tratar a distância entre indivíduos quando a variável de comparação é qualitativa, por exemplo, a variável é dada pela presença (1) ou ausência (0) de uma determinada característica, sendo assim, os pares possíveis de comparações são (1,0), (0,1), (1,1) e (0,0), percebe-se que as distâncias entre (1,0) e (0,1) são iguais e as distâncias dos empates (1,1) e (0,0) também, porém em alguns casos suas distâncias não devem ser iguais. Para evidenciar analisa-se o seguinte exemplo: Se (1) significa “lê grego antigo” e (0) significa “não lê grego antigo”, é óbvio que o empate (1,1) mostra que estes indivíduos são mais parecidos que os empates (0,0) (CHAVES NETO, 2007). Assim, os coeficientes de similaridades resolvem esse problema, pois atribuem pesos maiores para as distâncias dos empates (1,1), e pesos menos ou até mesmo desconsideram as distâncias dos empates (0,0). Para introduzir a metodologia são apresentados os resultados de coincidência e divergência dos objetos h e i na tabela 2. 21 Tabela 2 – Tabela de Coincidência e Divergência para Cálculo dos Coeficientes. Item I Item h Totais 1 0 1 a b a + b 0 c d c + d a+c b+d p=a+b+c+d Totais Fonte: Adaptação de Johnson e Wichern (1999). Do mesmo modo que as medidas de similaridade existem diversos coeficientes que cabe ao pesquisador escolher a que melhor atende o seu problema. Vários deles são propostos na literatura e alguns apresentados na tabela 3. Tabela 3 – Coeficientes usuais de Similaridade. Nome Coincidência Simples Sokal e Sneath Rogers e Tanimoto Russel e Rao Expressão 𝑎+𝑑 𝑝 2(𝑎 + 𝑑) 2(𝑎 + 𝑑) + 𝑏 + 𝑐 Explicação Pesos iguais para 1-1 e 0-0 Variação Peso duplo 1-1 e 0-0 (0,1) 𝑎+𝑑 𝑎 + 2(𝑏 + 𝑐) + 𝑑 𝑎 𝑝 Duplo peso para pares não coincidentes Nenhum 0-0 no numerador As coincidências 0-0 são tratas como irrelevantes 0-0 é irrelevante e duplo peso para 1-1 Jaccard 𝑎 𝑎+𝑏+𝑐 Sorenson 2𝑎 2𝑎 + 𝑏 + 𝑐 Distância Binária de Sokal √ 𝑏+𝑐 𝑝 𝑎 Ochiai Baroni-Urbani-Buser √(𝑎 + 𝑏)(𝑎 + 𝑐) 𝑎 + √𝑎𝑑 𝑎 + 𝑏 + 𝑐 + √𝑎𝑑 Única medida de dissimilaridade Concordâncias positivas sobre adaptação da média geométrica de discordâncias Coincidência positiva sobre adaptação da média geométrica de concordância positiva e negativa Fonte: Adaptação de Ferreira (1996). (0,1) (0,1) (0,1) (0,1) (0,1) (0,1) (0,1) (0,1) 22 Uma situação comum é aquela em que são observadas p-variáveis quantitativas e q qualitativas nos mesmos elementos amostrais. Nessas situações, Mingoti (2005) lista três alternativas possíveis: I – transformar as q-variáveis qualitativas em quantitativas através da atribuição de valores numéricos às várias categorias; II – transformar as p-variáveis quantitativas em variáveis qualitativas através de categorização de seus valores por algum critério. Essa é a alternativa de uso menos comum em problemas práticos devido à perda de informação que se tem ao categorizar variáveis contínuas; III – Construir medidas de semelhança mistas e utilizá-las para comparação dos elementos amostrais. O coeficiente de Gower (1971) é uma ótima alternativa quando se tem esse tipo de base de dados. 3.3.4 Coeficiente de Gower Quando é preciso fazer uma análise de agrupamento com elementos que possuem características quantitativas e qualitativas as alternativas de medidas de parecença se tornam mais escassas. Gower (1971) propôs um coeficiente geral de similaridade que permite a combinação simultânea de variáveis quantitativas e qualitativas. Este coeficiente é aplicável ao mais diversos tipos de variáveis: binárias, numéricas, nominais (multiníveis) e ordinais (multíniveis). O índice é calculado pela expressão: 𝑆𝑖𝑗 ∑𝑝𝑘=1 𝑊𝑘 𝑆𝑘 = ∑𝑝𝑘=1 𝑊𝑘 Onde, 𝑆𝑖𝑗 , é a dissimilaridade (distância) entre os elementos Xi e Xj , com 𝑖 ≠ j . Se a variável é qualitativa, então: 0, 𝑠𝑒 𝑥𝑘𝑖 = 𝑥𝑘𝑗, 𝑆𝑘 = { 1, 𝑠𝑒 𝑥𝑘𝑖 ≠ 𝑥𝑘𝑗, Se a variável é quantitativa (numéricas), trata-se de maneira diferente. Inicialmente é calculado o desvio entre os valores de duas amostras, |𝑥𝑘𝑖 − 𝑥𝑘𝑗 |, este valor é então dividido 23 pelo desvio máximo max(𝑥𝑘. ) − min(𝑥𝑘. ) que pode ser calculado para esta variável, utilizando a amostra disponível. 𝑆𝑘 = |𝑥𝑘𝑖 − 𝑥𝑘𝑗 | max(𝑥𝑘. ) − min(𝑥𝑘. ) 𝑘 = 1,2, … , 𝑝; 𝑝 = número total de variáveis; 𝑥𝑘𝑖 : é o valor da k-ésima variável para o elemento 𝑖; 𝑥𝑘𝑗 : é o valor da k-ésima variável para o elemento 𝑗; 𝑤𝑘 = 1, quando se tem os valores da k-ésima variável para ambos elementos; 𝑤𝑘 = 0, quando não se tem os valores da k-ésima variável para quaisquer dos dois elementos. O elemento 𝑤𝑖 (Delta de Kronecker) funciona de forma que garante a flexibilidade. Assim, não é feita a comparação para variáveis que faltam informação. O 𝑤𝑖 funciona como um peso para a comparação, informando o valor 1 para variáveis como informação válida e 0 para comparações invalidas, ou seja, quando falta informação na variável. 3.5 Técnicas de Agrupamento Segundo Mingoti (2005), as técnicas de agrupamento ou clusters são frequentemente classificadas em dois tipos: técnicas hierárquicas e não hierárquicas, sendo que as hierárquicas são classificadas em aglomerativas e divisivas, como mostra a figura 5. Para Tan, Steinbach & Kumar (2009), existem duas abordagens básicas para gerar um agrupamento hierárquico: Aglomerativa: Comece com os pontos como grupos individuais e, em cada etapa, funda os pares mais próximos de grupos. Isto requer a definição de uma noção de proximidade de grupos. Divisiva: Comece com um grupo inclusivo com tudo e, a cada etapa, divida um grupo até que restem apenas grupos únicos de pontos individuais. Neste caso, precisamos decidir qual grupo dividir em cada etapa e como fazer a divisão (TAN; STEINBACH; KUMAR, 2009, p. 614). A principal diferença entre as duas técnicas é que nas hierárquicas, na maioria das vezes, são utilizadas em análises exploratórias dos dados com o intuito de identificar possíveis 24 agrupamentos e o valor provável do número de grupos g. Já nas técnicas não hierárquicas, é necessário que o valor do número de grupos já esteja pré-especificado pelo pesquisador. A técnica de agrupamento não hierárquica é bastante utilizada em agrupamentos de variáveis do tipo quantitativas e tem como seus principais métodos de similaridade o k-Médias (k-Means) e o Fuzzy c-Médias (Fuzzy c-Means) por exemplo. Na pesquisa foi utilizada a técnica de agrupamento hierárquica aglomerativa, devido a isso não será mais especificado sobre a técnica não hierárquica Figura 5 – Procedimentos hierárquicos aglomerativos e divisivos. Fonte: MINGOTI, 2005. 3.5.1 Técnicas Hierárquicas Um agrupamento hierárquico é exibido na maioria dos casos usando um diagrama do tipo árvore chamado dendograma, que exibe os relacionamentos grupo-subgrupo quanto na ordem que os grupos são fundidos (visão aglomerativa) ou divididos (visão divisiva), ou em alguns casos também pode ser usado um diagrama de grupos aninhados, observe a Figura 6. 25 Figura 6 – Um agrupamento hierárquico de quatro pontos mostrado como um dendograma e como grupos aninhados. Fonte: TAN; STEINBACH & KUMAR (2009). 3.5.1.1 Algoritmo de Agrupamento Hierárquico Aglomerativo Básico Basicamente as técnicas de agrupamento hierárquico segue a seguinte abordagem: inicia com pontos individuais como grupos, funde sucessivamente os dois grupos mais próximos até que reste apenas um grupo, observe o quadro 1. Formalmente expressada no Algoritmo 2. Quadro 1 – Algoritmo de Agrupamento Hierárquico Aglomerativo básico Algoritmo 2 – Algoritmo de Agrupamento Hierárquico Aglomerativo Básico 1: Calcule a matriz de proximidade, caso necessário. 2: repita 3: Funda os dois grupos mais próximos. 4: Atualize a matriz de proximidade para refletir a proximidade entre o novo grupo e os grupos originais. 5: até que Reste apenas um grupo. Fonte: TAN; STEINBACH; KUMAR, 2009. Para definir a proximidade dos grupos diferentes métodos são utilizados, dentre os mais populares podemos citar média das distâncias, centróide, ward e os que serão introduzidos mais adiante: ligação simples e ligação completa. O método utilizado na pesquisa foi o de ligação completa. 26 3.5.1.2 Método de Ligação Simples Na utilização do método de ligação simples no agrupamento hierárquico, a proximidade de dois grupos é definida como o mínimo da distância (máximo de semelhança) entre dois pontos quaisquer nos dois grupos diferentes (TAN; STEINBACH & KUMAR, 2009). Por exemplo: A matriz de distâncias entre os seis elementos amostrais é dada por: 𝐴 𝐵 𝐶 𝐷 𝐸 𝐴 0 𝐵 3,23 0 𝐶 15,74 12,53 0 𝐷 13,19 12,04 16,29 0 𝐸 6,44 7,50 17,06 19,33 0 𝐹 13.39 10,19 4,12 12,18 16,19 𝐹 0 O menor valor observado na matriz é 3,23, que corresponde à distância entre os elementos A e B nas duas variáveis medidas. Esses indivíduos são então, reunidos em um único conglomerado, e a amostra de seis elementos é repartida em cinco grupos que são: C1= {A, B} C2= {C} C3= {D} C4= {E} C5= {F} A título de ilustração, mostra como foram obtidos os valores de distância do conglomerado {A, B} em relação aos outros neste passo do algoritmo. 𝑑({𝐴, 𝐵}, {𝐶}) = min{𝑑(𝐴, 𝐶), 𝑑(𝐵, 𝐶)} = min{15,74; 12,53)} = 12,53 𝑑({𝐴, 𝐵}, {𝐷}) = min{𝑑(𝐴, 𝐷), 𝑑(𝐵, 𝐷)} = min{13,19; 12,04)} = 12,04 𝑑({𝐴, 𝐵}, {𝐸}) = min {𝑑(𝐴, 𝐸), 𝑑(𝐵, 𝐸)} = min {6,44; 7,50)} = 6,44 𝑑({𝐴, 𝐵}, {𝐹}) = min{𝑑(𝐴, 𝐹), 𝑑(𝐵, 𝐹)} = min{13,39; 10,90)} = 10,19 A partir dos resultados anteriores é formada uma nova matriz de distâncias: 27 𝐴, 𝐵 𝐶 𝐷 𝐸 𝐴, 𝐵 0 𝐶 12,53 0 𝐷 12,04 16,29 0 𝐸 6,44 17,06 19,33 0 𝐹 10,19 4,12 12,18 16,19 𝐹 0 Nesta etapa o valor mínimo da matriz é 4,12 que é a distância entre os indivíduos C e F que serão unidos em um grupo. Após essa etapa a matriz é recalculada e mais um grupo formado até que obtenha o agrupamento total. 3.5.1.3 Método de Ligação Completa No método de ligação completa ou MAX a proximidade de dois grupos é definida como o máximo da distância (mínimo da semelhança) entre quaisquer dois pontos nos dois grupos diferentes (TAN; STEINBACH & KUMAR, 2009). Segundo Mingoti (2005), em cada estágio do processo de agrupamento a medida é calculada para todos os pares de grupos, sendo então, combinados em um único grupo aqueles que apresentarem o menor valor da distância, ou seja, o menor valor do máximo. Esse método é chamado de ligação completa porque todos os objetos em agrupamento são conectados um com o outro a alguma distância máxima ou similaridade mínima. Por exemplo: A matriz de distâncias é dada por: (𝐴, 𝐵) 𝐵 𝐶 𝐷 𝐸 (𝐴, 𝐵) 0 𝐶 15,74 12,53 0 𝐷 13,19 12,04 16,29 0 𝐸 6,44 7,50 17,06 19,33 0 𝐹 13.39 10,19 4,12 12,18 16,19 𝐹 0 O menor valor observado na matriz é 4,12, que corresponde à distância entre os elementos C e F nas duas variáveis medidas. Portanto, a amostra fica repartida em quatro grupos. A título de ilustração, apresenta-se a seguir, os cálculos relativos às distâncias do conglomerado {A, B} aos outros grupos. 𝑑({𝐴, 𝐵}, {𝐶}) = max{𝑑(𝐴, 𝐶), 𝑑(𝐵, 𝐶)} = max{15,74; 12,53)} = 15,74 28 𝑑({𝐴, 𝐵}, {𝐷}) = max{𝑑(𝐴, 𝐷), 𝑑(𝐵, 𝐷)} = max{13,19; 12,04)} = 13,19 𝑑({𝐴, 𝐵}, {𝐸}) = max {𝑑(𝐴, 𝐸), 𝑑(𝐵, 𝐸)} = max {6,44; 7,50)} = 7,50 𝑑({𝐴, 𝐵}, {𝐹}) = max{𝑑(𝐴, 𝐹), 𝑑(𝐵, 𝐹)} = max{13,39; 10,90)} = 13,19 A matriz de distância é dada por: 𝐴, 𝐵 𝐶, 𝐹 𝐷 𝐴, 𝐵 0 𝐶, 𝐹 15,74 0 𝐷 13,19 16,29 0 𝐸 7,50 17,06 19,33 𝐸 0 Nessa etapa, os conglomerados {A, B} e {E} são agrupados, uma vez que a distância entre eles é o menor valor na matriz. E assim continua o processo de agrupamento, recalculando as medidas a cada novo grupo até chegar em um agrupamento total. 3.5.1.4 Aglomerativo Considerações sobre o Agrupamento Hierárquico De modo geral as técnicas de agrupamento hierárquico são usadas para aplicações que as requerem, por exemplo a criação de uma taxonomia. Segundo Tan, Steinbach & Kumar (2009) estudos revelam que esses algoritmos podem produzir grupos de melhor qualidade. O principal ponto fraco é que os algoritmos são custosos em termos de seus requisitos computacionais e de armazenamento. 3.5.1.5 Métodos de validação do Agrupamento Uma questão chave na análise de agrupamento hierárquica é saber qual o número ideal de grupos, ou seja, em que etapa do algoritmo deve ser interrompido. Não existe uma resposta exata para essa pergunta, porém existem alguns critérios que podem auxiliar na validação, como é mostrado a seguir. 29 3.5.1.5.1 Coeficiente de Correlação Cofenética O dendograma representa a simplificação da matriz de similaridade (F), portanto, para se saber se houve ou não um bom agrupamento pode ser utilizado o coeficiente de correlação cofenética. Para isso, o primeiro passo é construir a matriz cofenética, que é a matriz de distâncias entre os objetos obtidos a partir do dendograma. Com a matriz cofenética (C) construída deve-se verificar a proximidade das duas matrizes, através da formula: 𝑐𝑐𝑐 = ̂ (𝐹, 𝐶) 𝐶𝑜𝑣 √𝑉̂ (𝐹) ∙ 𝑉̂ (𝐶) Quanto mais próximo esse resultado for de 1, melhor o seu agrupamento. Pode-se adiantar que algo em torno de 0,8 já pode ser considerado um bom resultado (BASSAB; MIAZAKI e ANDRADE, 1990). 3.5.1.5.2 Coeficiente Aglomerativo Trata-se de um coeficiente para medir agrupamentos aglomerativos. Para cada objeto i, d(i) é sua similaridade em relação ao primeiro agrupamento em que foi inserido pela dissimilaridade na etapa final. O coeficiente é definido da seguinte forma: 𝑛 1 𝐶𝐴 = ∑ 1 − 𝑑(𝑖) 𝑛 𝑖 Onde n é o número total de objetos do conjunto de dados. Os valores do coeficiente variam entre 0 e 1. Valores baixos do coeficiente correspondem a estruturas ruins, onde nenhum agrupamento foi encontrado. Por outro lado, agrupamentos mais próximos de 1 representam que estruturas claras foram encontradas (VARELLA, 2013). 30 CAPÍTULO 4 – INTRODUÇÃO AO SOFTWARE R 4.1 Introdução R é uma linguagem de programação e um ambiente de desenvolvimento integrado para cálculos estatísticos e gráficos, muito conceituado por profissionais da aérea. Foi criada originalmente por Ross Ihaka e Robert Gentleman no departamento de Estatística da universidade de Auckland, Nova Zelândia, e para o seu desenvolvimento contouse com a colaboração de pessoas de várias locais do mundo. O nome R provêm das iniciais dos criadores (R Project Contributors, 2014). Atualmente é mantido por The R Fundation for Statistical Computing e uma das suas principais características é a sua distribuição de forma gratuita e a sua compatibilidade com uma gama de sistemas operacionais (Windows, Linux, Mac OS). Apesar de se tratar de uma ferramenta gratuita, o R é capaz de fazer cálculos poderosos e possui uma boa capacidade de programação, além de contar com um conjunto vasto de packages (pacote de funcionalidades) que acrescentam bastantes potencialidades à versão base (TORGO, 2006). 4.2 Instalação do R Para a instalação do R é preciso possuir computador com conexão com a internet e acessar o site: http://www.r-project.org/. Após acessado o site deverá ser acessado o menu à esquerda com o nome CRAN, em seguida, escolher entre os vários locais espalhados pelo mundo para o download. Logo em seguida, escolher o que corresponde ao seu sistema operacional utilizado no computador e proceder o download. Com o arquivo no computador deverá proceder a instalação do R, bastando clicar duas vezes (executar) no executável do programa baixado e aguardar a instalação. Assim que terminado o processo vai ser criado um ícone do R na área de trabalho do computador para acesso do programa. 4.3 Começar a usar o R Com o R devidamente instalado no computador, para executá-lo bastar acessar o ícone disponível na aérea de trabalho. Conforme a Figura 7, será aberta a tela inicial. 31 Figura 7 – Tela inicial do R Nota-se que é apresentado a janela do prompt do R (> ), com o cursor a sua frente. É nesta linha onde serão inseridos os comandos para que o R execute. Por exemplo, pode-se saber a versão do R de forma mais detalhada através do comando R.version seguido da tecla Enter (Figura 8). Figura 8 – Tela versão do R 32 4.4 Ajuda sobre o R O R possui um sistema de ajuda bastante completo para os usuários, que permite saber muito mais sobre a linguagem. Na versão do Windows, a ajuda pode ser acessada de forma simples através no menu ajuda disponível na janela da aplicação. (Figura 9). Figura 9 – Menu Ajuda No entanto, caso precise saber especificamente sobre determinada função do R, a forma mais simples é utilizar a função help(). Por exemplo, se pretende saber mais sobre a função version, pode-se inserir o comando help(version) e teclar Enter que ele vai te direcionar a documentação sobre a função, que vai da simples descrição dos seus argumentos até exemplos de utilização. (Figura 10). Figura 10 – Exemplo de utilização do comando help() 33 4.5 “Packages” do R Na instalação padrão do R já contém alguns “packages” ou pacotes instalados. Esses pacotes são novas funcionalidades desenvolvidas por algum membro da comunidade e disponibilizado para todos. Para instalar um novo pacote pode-se usar a função install.packages(), que leva como argumento o nome do pacote a instalar. Depois de indicado um repositório de onde fazer o download do pacote o R encarrega-se de todo o processo, inclusive a instalação no computador. Para carregar um pacote que já está instalado no sistema para a sua utilização basta usar a função library(), como no exemplo da Figura 11. Figura 11 – Exemplo de carregamento de pacote “rpart” O pacote utilizado para realização da análise de agrupamento foi o cluster, que já vem na versão nativa do software R e não precisa ser baixado, basta utilizar o comando: library(cluster) para ter acesso as suas funcionalidades. Com a utilização deste comando a partir de agora passa a estar disponíveis todos os objetos (funções, dados e etc.) definidos no pacote. Cada pacote possui uma ajuda específica que pode ser obtida no sistema R, como descrito na seção 4.4. 4.6 Objetos O R é uma linguagem baseada em objetos, isso quer dizer que tudo que é utilizado na linguagem é guardada na memória do computador como objeto. Todos os objetos no R têm um nome associado e podem armazenar diferentes tipos de coisas (números, textos, vetores, matrizes, funções, etc.). Para armazenar algo em um objeto usamos o operador de atribuição. Este operador consiste num sinal < seguido por um sinal -, como se vê na Figura 12, onde foi guardadi o valor 60 no objeto que foi atribuído o nome de taxa.de.desistencia: 34 Figura 12 – Exemplo de um Objeto Para ver o conteúdo do objeto basta digitar o seu nome atribuído, nota-se na Figura 12 que ao digitar o nome taxa.de.desistencia ele retorna o valor que foi atribuído na linha anterior. O número [1] que aparece antes do valor representa o primeiro valor do objeto, ou seja, o elemento de número 1. Em objetos como vetores, pode-se se ter n elementos dentro de um mesmo objeto, e esse número identifica qual a posição do elemento em questão. 4.7 Operadores Um software de estatística não poderia deixar de ser capaz de fazer operações matemáticas e lógicas. A Tabela 4, apresenta os principais operadores matemáticos e lógicos usados no R. Tabela 4 – Operações Lógicas do R 4.8 Tipos de Variáveis Quando se trabalha com banco de dados pode-se encontrar nele vários tipos de variáveis, a seguir serão abordados os principais tipos de variáveis. 35 Numérica: No R as variáveis numéricas são referidas através do nome numeric, este tipo de variável é utilizado para números inteiros ou reais, como quantidade, idade e quantidade de habitantes. Data: Utilizada para campos de data é referida pelo nome date. Categóricas: São variáveis qualitativas, ou seja, irá armazenar valores não numéricos como sexo, religião, estado civil e condições de uso de um objeto, esse tipo de variável usa a referência factor. Categóricas Ordenáveis: Dados como o grau de escolaridade são representados neste tipo de variável onde temos categorias com ordem hierarquizáveis. Representado por ordered. Texto: Representado por character armazena texto. Booleanas armazenam valores verdadeiros ou falsos por TRUE ou FALSE; logical. 4.9 Vetores Vetores são um conjunto de vários elementos do mesmo tipo agrupados, partindo do princípio que já se conhece a definição de objeto, o vetor é um objeto com n elementos dentro dele. Uma das formas de criar um vetor é pelo uso da função vector(). A função recebe como argumentos mode (modo) e length (comprimento). O primeiro argumento é uma variável do tipo character informando o tipo de vetor a ser criado o qual pode ser entre outros, logical (logico), numeric (numérico) e character (caractere). Para a criação de um vetor utiliza-se a função c() para indicar que o vetor possui mais de um elemento e coloca-los entre vírgulas. O tamanho do vetor pode ser obtido pela função length().Veja a figura 13. Figura 13 – Exemplo de um Vetor 36 4.10 Carregar base de dados Arquivos do tipo .csv são bastante utilizados, devido a sua visualização em editores de texto simples porque não contém qualquer formatação especial como negrito, itálico, cores, espaçamento entre linhas etc. Arquivos .csv podem ser lidos através da função read.csv(“caminho”, “caractere separador”) que precisa do caminho da planilha passado como parâmetro. Do mesmo modo write.csv(“objeto”,"caminho-e-nome"), é usado para gravar o objeto passado no primeiro parâmetro no arquivo passado no segundo parâmetro. Veja a figura 14. Figura 14 – Carregar e Salvar base de dados Nota-se que ao ler a base de dados o software R não exibe nenhuma mensagem, apenas leva o cursor para a linha de baixo. Pode ser visualizar o título das variáveis através do comando names(). Observe a figura 15. Figura 15 – Exemplo do Comando names() 4.11 Gráficos O software R tem um alto potencial na geração de gráficos, e durante a pesquisa foram gerados alguns para a melhor análise dos dados. 4.11.1 Dendograma O principal gráfico gerado na pesquisa é o dendograma, é através dele que consegue-se visualizar os níveis de agrupamento. O comando hclust() é usado para gerar o 37 dendograma, deve ser passada a matriz de distância como parâmetro do comando, que na figura 15 corresponde por may. O comando rect.hclust() deverá receber um objeto com um cluster e irá desenhar retângulos no dendograma com destaques aos grupos correspondentes. Além do dendograma passado deverão ser passados via parâmetro a quantidade de clusters a serem destacados e a cor das boras dos retângulos. Veja a figura 16. Figura 16 – Comando de geração do Dendograma 4.11.2 BoxPlot O boxplot ou “box and whiskers plot” (chamado em português de desenho esquemático, desenho da caixa, ou desenho de caixa e bigode). No boxplot, a linha grossa do meio representa a mediana, a caixa representa o 1° e 3°quartil, e os “bigodes” podem representar ou os valores máximos e mínimos, ou 1.5 vezes o valor dos quartis (aproximadamente 2 desvios padrões) é desenhado o que for menor. Observe na figura 17 o seu comando e o resultado. Figura 17 – Comando e Gráfico de geração do Boxplot 38 4.11.3 BarPlot O barplot, ou gráfico de barras, mostra cada ponto da variável especificada como uma barra. Na sua forma mais simples, são apresentados apenas os valores brutos e não há informação alguma quanto à dispersão dos dados. Veja na figura 18, que foram acrescentados os comandos col para mudar a cor da barra e main para adicionar um título. Figura 18 – Comando e Gráfico de geração do Barplot 39 CAPÍTULO 5 – ESTUDO DE CASO 5.1 Introdução O questionário foi aplicado a um total de 36 alunos, sendo que no mesmo havia 21 variáveis: 13 qualitativas e 8 quantitativas. Devido a uma análise da qualidade dos grupos, foi decidido que o agrupamento seria realizado com base em quatro variáveis: idade, tipo de escola onde estudou (pública ou privada), trabalho e a quantidade de horas de estudo que o aluno possui fora da faculdade. 5.2 Análise descritiva dos dados Para melhor conhecimento sobre a base dados foi realizada uma análise descritiva de todas as variáveis pesquisadas no questionário. Buscando uma melhor visualização foram aplicados alguns comandos básicos do software R, como o summary e table. Para a variável idade, como observado na figura 19, o conjunto de alunos possui idade mínima de 17 anos e máxima de 37, apresentando uma média geral de 21.19 e com mediana em 18.50. Figura 19 – Saída do comando Summary() para a variável idade Como observado na figura 20, o conjunto de alunos possui 3 referentes ao sexo feminino e a sua grande maioria do masculino, 33. 40 Figura 20 – Saída do comando Table() para a variável sexo Observa-se na figura 21, no quesito que foi perguntado sobre o tipo de escola que frequentaram a maior parte do ensino médio, temos 7 alunos que estudaram em escola privada e os outros 29 em escola pública. Figura 21 – Saída do comando Table() para a variável escola Observa-se na figura 22, que a maior parte dos alunos estudaram o ensino médio no período matutino que corresponde a 25 alunos, o período noturno vem em segundo lugar com 9 alunos e por último somente 2 alunos no período vespertino. 41 Figura 22 – Saída do comando Table() para a variável período Observa-se na figura 23, que a maior parte dos alunos terminaram o ensino médio no ano anterior ao de início do curso, 2013. Porém, existem alunos que terminaram o ensino médio a partir de 1999 e outros alunos no meio tempo entre 1999 e 2013. É notável que a maior parte dos alunos estão concentrados entre 2011 e 2013. Figura 23 – Saída do comando Summary e Table() para ano de conclusão do ensino médio Observa-se na figura 24, que a maioria dos alunos ingressaram no curso através do vestibular, uma minoria pelo SAS (Sistema de Avaliação Seriado), devido a uma quantidade de vagas limitadas e um aluno portador de diploma. 42 Figura 24 – Saída do comando Table() para a forma de ingresso no curso Observa-se na figura 25, que a média da nota de ingresso dos alunos foi de 115, tendo com nota mínima 70 e nota máxima 186. Figura 25 – Saída do comando Summary() para a nota de ingresso Devido ao histórico do alto índice de reprovação foi levantada a questão para saber quais são os alunos repetentes da disciplina. Observe na figura 26, que apenas 5 alunos são repetentes da matéria, sendo assim conclui-se que a maioria dos reprovados no ano anterior ou estão cursando a matéria em outro período ou abandonaram o curso. 43 Figura 26 – Saída do comando Table() para listar os alunos repetentes A fim de conhecer melhor sobre o perfil dos acadêmicos, foi perguntado através do questionário se já tinham iniciado outro curso superior ou se era o primeiro. Observa-se na figura 27, que para 75% dos acadêmicos esse é o primeiro curso superior que iniciam. Figura 27 – Saída do comando Table() para listar quantos já iniciaram outro curso superior Quando perguntado se vivem com cônjuge a maioria dos acadêmicos responderam que não. Percebe-se uma relação com a média de idade dos acadêmicos que é de 21.19 anos. Observe a figura 28. 44 Figura 28 – Saída do comando Table() para listar quantos vivem com cônjuge É comum alunos residirem em uma cidade e estudarem em outra, porém esse deslocamento contínuo se torna um desgaste a mais para o aluno. Como observado na figura 29, dos alunos pesquisados apenas 1 (um) reside em outra cidade. Figura 29 – Saída do comando Table() para listar quantos residem em outra cidade 45 Uma das variáveis mais importantes da pesquisa é a respeito de trabalho, é importante saber se o trabalho influência no desempenho dos acadêmicos durante o curso. Observa-se na figura 30, que a base de dados é bem variada nesse quesito. Figura 30 – Saída do comando Table() para o quesito trabalho ]] Como observado na figura 31, os acadêmicos possuem uma média de atividade física de 4 horas por semana. Figura 31 – Saída do comando Summary() para o quesito de prática de atividade física Como observado na figura 32, os acadêmicos possuem média de aproximadamente 12 horas de lazer durante a semana. Figura 32 – Saída do comando Summary() para o quesito de lazer 46 Fica evidente na figura 33, que a maioria dos acadêmicos possuem pais com o nível de escolaridade de ensino médio, porém vale ressaltar que os outros níveis como fundamental, graduação e pós-graduação possuem valores significantes. Figura 33 – Saída do comando Table() para a escolaridade dos pais A figura 34, representa a quantidade de alunos que moram com os pais e os que moram em outra residência. A grande maioria, 75% (setenta e cinco por cento) moram com os pais. Figura 34 – Saída do comando Table() para o quesito se moram com os pais 47 Na figura 35, contém a quantidade de alunos que possuem os pais que vivem juntos e os que não possuem. Figura 35 – Saída do comando Table() para o quesito se os pais vivem juntos Outra questão importante a ser analisada é a renda familiar do acadêmico, que se trata de uma variável econômica que pode ter influência com o desempenho do aluno. Na figura 36, nota-se que a renda familiar de maior parte dos acadêmicos está em até 3 (três) salários mínimos e entre 3 (três) e 5 (cinco) salários mínimos. 48 Figura 36 – Saída do comando Table() para a renda familiar É importante saber quantas horas fora da universidade o acadêmico possui para estudar e melhorar seu desempenho. Como observado na figura 37, a turma apresentou média de aproximadamente 7 horas por semana de estudo fora da universidade. Figura 37 – Saída do comando Summary() para horas de estudo fora da universidade No questionário foi perguntado ao acadêmico qual era o seu entendimento do curso, incluindo todas as matérias, até o momento. Ele devia avaliar de 0 a 10 o seu entendimento, sendo 0 para nenhum e 10 para ótimo. Como observado na figura 38, a turma obteve uma média de aproximadamente 6 (seis). Figura 38 – Saída do comando Summary() para o entendimento do curso 49 No questionário, foi perguntado ao acadêmico qual era o seu entendimento especificamente da matéria de cálculo até o momento. Ele devia avaliar de 0 a 10 o seu entendimento, sendo 0 para nenhum e 10 para ótimo. Como observado na figura 39, a turma obteve uma média de aproximadamente 5 (cinco), observe que foi abaixo que a do curso como um todo. Figura 39 – Saída do comando Summary() para o entendimento da matéria de cálculo 5.3 Dendograma Utilizando o método de Gower para gerar a similaridade entre os elementos foi obtido o seguinte dendograma com a utilização do software R, observe a figura 40 que será explicada na seção 5.4. Figura 40 – Dendograma gerado pelo software R 50 5.4 Descrição dos Grupos Com base no dendograma gerado pelo software R fica evidente a formação de 4 (quatro) grupos, que estão devidamente tracejados pela linha vermelha (Figura 40). O grupo 1 (um) é composto por 8 (oito) integrantes. Possui média de idade de 24 anos, a maior entre os grupos. Todos os alunos que compõem o grupo estudaram de escola pública e trabalham na área de atuação do curso de Sistemas de Informação. O grupo possui uma média de tempo de estudo fora da faculdade de aproximadamente 4 horas por semana. O grupo 2 (dois) é composto por 7 (sete) integrantes. Possui média de idade de 18 anos. Todos os alunos que compõem o grupo estudaram de escola particular e a sua maioria absoluta não trabalha, com exceção de 1 (um). O grupo possui uma média de tempo de estudo fora da faculdade de aproximadamente 5 horas por semana. O grupo 3 (três) é composto por 7 (sete) integrantes. Possui média de idade de 18 anos. Todos os alunos que compõem o grupo estudaram de escola pública e não trabalham. O grupo possui maior média de tempo de estudo fora da faculdade, que é de aproximadamente 16 horas por semana. O grupo 4 (quatro) é maior grupo, composto por 14 (quatorze) integrantes. Possui média de idade de 22 anos. Todos os alunos que compõem o grupo estudaram de escola pública e trabalham em outra área que não a de atuação do curso de Sistemas de Informação. O grupo possui uma média de tempo de estudo fora da faculdade de aproximadamente 5 horas por semana. Com as informações descritas nos parágrafos anteriores foi montado o quadro 2, que pode ser observado logo abaixo. Quadro 2 – Descrição dos Grupos Identificados Grupos Grupo 1 – 8 Integrantes Média de Idade 24 anos Todos estudaram em escola Pública Todos trabalham na área do curso Tempo Médio de Estudo 4 hrs/semana Grupo 2 – 7 Integrantes Média de Idade 18 anos Todos estudaram em escola Particular A sua maioria absoluta não trabalha Tempo Médio de Estudo 5 hrs/semana Grupo 3 – 7 Integrantes Média de Idade 18 anos Todos estudaram em escola Pública Todos não trabalham Tempo Médio de Estudo 16 hrs/semana Grupo 4 – 14 Integrantes Média de Idade 22 anos Todos estudaram em escola Pública Todos trabalham em outra área Tempo Médio de Estudo 5 hrs/semana Fonte: O autor 51 5.5 Avaliação do Agrupamento O agrupamento realizado foi avaliado por 2 (dois) métodos diferentes. O coeficiente Aglomerativo, tendo como resultado 0.83 e o Coeficiente Cofenético, tendo como resultado 0.94. Observe na figura 41, o resultado para ambos os métodos. Figura 41 – Resultados dos coeficientes gerados pelo software R 5.6 Grupos x Desempenho Com base nos grupos formados foi comparado o desempenho dos grupos nas V.As (Verificações Avaliativas). Assim, pode ser observado nas figuras 42, 43, 44 e na tabela 5. Figura 42 – Desempenho dos grupos na 1º VA 52 Fazendo uma análise do gráfico obtido pelo software R é possível visualizar o melhor desempenho do grupo 2 na primeira V.A. Vale ressaltar que o desempenho geral dos grupos na primeira V.A foi relativamente bom. Figura 43 – Desempenho dos grupos na 2º VA Na segunda V.A. o grupo 3 obteve o melhor desempenho, seguido do grupo 2. Os grupos 1 e 4 tiveram uma queda na média geral das notas. Observe a Figura 43. 53 Figura 44 – Desempenho dos grupos na 3º VA Na terceira V.A todos os grupos apresentaram uma notável queda no desempenho, porém o grupo 3 apresentou menor queda entre todos, os demais tiveram notas similares. Observe a Figura 44. Tabela 5 – Média geral dos grupos nas V.A. Grupos Grupo 1 Grupo 2 Grupo 3 Grupo 4 1ª V.A. 5.75 7.21 5.4 5.4 2ª V.A. 3.6 6 6 4.2 3ª V.A. 1.75 2.2 4.21 2.6 Na tabela 6, são apresentadas as médias das notas dos grupos durante o ano. Até o momento pesquisado haviam sido aplicadas 3 V.As. 54 5.7 Grupos x Evasão Nota-se, através da figura 45, que o número de alunos evadidos tem bastante relação com o desempenho. Os grupos 1 e 4 que ao longo do estudo sempre apresentaram pior desempenho em relação aos grupos 2 e 3, apresentaram o maior número de evadidos. O grupo 1, apresentou 3 evadidos de um total de 8 integrantes, o grupo 4 apresentou 4 evadidos de um total de 14 integrantes, o grupo 3 com 1 evadido de um total de 7 integrantes e o grupo 2 não apresentou nenhum evadido. Figura 45 – Número de alunos evadidos por grupo 55 CONCLUSÃO Através do agrupamento e o acompanhamento das notas dos alunos durante o curso de cálculo foi possível notar que os alunos que estudaram em escola particular e/ou possuem mais tempo para estudo fora da faculdade possuem melhor desempenho na matéria. O estudo só confirma ainda mais o baixo nível do ensino das escolas públicas em relação com as privadas. Devido a isso os alunos que estudaram em escola pública e que não possuem tempo para estudo fora da faculdade, na maioria devido à possuir algum tipo de trabalho, tendem a ter mais dificuldades durante o curso. Sendo assim foi identificado que essas duas variáveis, tempo de estudo fora da faculdade e tipo de escola que o acadêmico frequentou, estão correlacionadas com o desempenho do acadêmico e evasão. Também fica evidenciado que o desempenho dos alunos durante o curso tem influência com a evasão, ou seja, os grupos que apresentaram os piores desempenhos são os que possuem maior número de evadidos. Uma sugestão para a coordenação do curso é fazer uma pesquisa em relação a essas duas variáveis com os próximos alunos ingressantes e partir disso obter um grupo de risco de alunos com baixo desempenho e evasão. Com o grupo identificado, pode-se tomar iniciativas direcionadas e obter melhor resultado que será refletido na taxa final de aprovação dos alunos, que é o objetivo principal. A pesquisa contribuiu bastante para minha formação agregando um conhecimento sobre o tema que está em bastante uso no mercado de trabalho nos dias atuais, posteriormente pode ser decisivo na realização de um trabalho. 56 REFERÊNCIAS A Brief History R: Past and Future History, Ross Ihaka, Statistics Department, The University of Auckland, Auckland, New Zealand. Disponível em <http://www.rproject.org/contributors.html/> Acesso em: 04 de Dez/2014. AMO, Sandra A. de. Curso de Data Mining. Uberlândia: Editora UFU, 2003. THURAISINGHAM, Bhavani M. (1999). Data Mining: Technologies, Techiniques, Tools and Trends. Boca Raton: CRC Press. BRANDÃO, M. F. R., RAMOS, C. R. S., TRÓCCOLI, B. T. Análise de agrupamento de escolas e Núcleos de Tecnologia Educacional: mineração na base de dados de avaliação do Programa Nacional de Informática na Educação. Brasília, 2006. Disponível em: <http://www.nce.ufrj.br/sbie2003/publicacoes/paper39.pdf> Acessado em: 15 de Jan/2015. CHAVES NETO, A. Notas de Aula - Análise Multivariada II. Curitiba: [s.n.], 2007. EUCLIDES. Os Elementos. Tradução de Irineu Bicudo. 1ª edição. São Paulo: Ed. UNESP, 2009. FAYYAD, Usama, PIATETSKY-SHAPIRO, Gregory e SMYTH, Padhraic. From Data Mining to Knowlegde discovery. American Association for Artificial Intelligence. 1996. FERREIRA, D.F. Análise Multivariada. Lavras. Ed. UFLA, 1996. GOWER, J. C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 77, 623-637. JOHNSON, R. A.; WICHERN, D. W. Aplied multivariate statistical analysis. 4th, ed. Prentice-Hall, New Jersey, 1999. MANHÃES, L. M. B., CRUZ, S. M. S., COSTA, R. J. M., ZAVANETA, J., ZIMBRÃO, G., Previsão de Estudantes com risco de Evasão Utilizando Técnicas de Mineração de Dados. Aracajú, 2011. Disponível em: <http://www.br-ie.org/pub/index.php/sbie/article/view/1585> acesso em: 15 de Jan/2015. MAXIMILIANO, Adriano Schon, CORDEIRO, Marcos Tadeu Andrade. Partição de Grupos e Análise de agrupamento para Equipamentos de Fiscalização Eletrônica de Trânsito. Coritiba, 2008. p. Monografia – Curso de Estatística, UFPR, Universidade Federal do Paraná. MINGOTI, Sueli Aparecida. Análise de dados através de métodos de estatística multivariada. Belo Horizonte: Editora UFMG, 2005. PIMENTEL, E.P., OMAR, N. Descobrindo Conhecimentos em Dados de Avaliação Aprendizagem com Técnicas de Mineração de Dado. Workshop sobre Informática na Escola. Anais do Congresso da Sociedade Brasileira de Computação, 147-155, 2006 57 QUINTAL, M. C. C., 2006. Análise de Clusters Aplica ao Sucesso/Insucesso em Matemática. Dissertação de Mestrado. Universidade de Madeira Departamento de Matemática e Engenharias. Funchal. Portugal. SANTOS, Francis D’stephanne Pereira. Análise de Agrupamentos (Clusters) com apoio computacional do software R. Anápolis, 2013. p. Monografia – Curso de Sistemas de Informação, UnUCET, Universidade Estadual de Goiás. SETZER, V. W, Dado, Informação, Conhecimento e Competência. 1999. WEIS, Sholom., INDURKHYA, Nitim. Predict Data Mining. Morgan Kaufmann Publishers, Inc, 1999. TAN, Pang-Ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao Data Mining – Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna Ltda., 2009. VARELLA, Carlos Alberto Alves. Análise de Agrupamento. Atualizado em 18/06/2013. Disponível em <http://www.ufrrj.br/institutos/it/deng/varella/> Acesso em: 04 de Dez/2014. 58 APÊNDICES Apêndice A – Cronograma N.º Cronograma de execução do Trabalho de Curso. ATIVIDADE ABR MAI JUN JUL AGO SET OUT NOV 2014 01 02 03 04 05 06 07 08 09 10 11 12 Desenvolvi mento do termo de aceite 1º Reunião do TC. Entrega do termo de aceite. 2º Reunião do TC. Entrega do Projeto do TC. 3º Reunião do TC. Elaboração e Aplicação do questionário Entrega dos produtos desenvolvid os para avaliação parcial Banca de avaliação parcial 4º Reunião do TC. Postagem do arquivo da comunicaçã o cientficia. Entrega da comunicaçã o científica impressa. DEZ JAN FEV 2015 X X X X X X X X X X X X 59 13 14 15 16 17 18 19 Exposição e comunicaçã o científica Entrega do trabalho para avaliação e indicação para a banca. 5º reunião TC entrega do TC para avaliação final Apresentaçã o do TC Entrega das correções ao orientador Entrega das mídias com TC X X X X X X X 60 Apêndice B – Questionário UNIVERSIDADE ESTADUAL DE GOIÁS SISTEMAS DE INFORMAÇÃO Os dados fornecidos através deste questionário serão utilizados para uso exclusivo do desenvolvimento do TCC. Nome: Idade: Sexo: a- ( ) Masculino 1) Você frequentou a maior parte do ensino médio em que tipo de escola: a- ( ) Pública b- ( ) Privada 3) Em que ano você concluiu o ensino médio: b- ( ) Feminino 2) Em qual período você frequentou maior parte do ensino médio: a- ( ) Matutino b- ( )Vespertino b- ( ) Noturno 4) Qual a sua forma de ingresso na UEG: a- ( )Vestibular b- ( ) SAS c- ( ) Transferência Nota Obtida: 5) Você já cursou Cálculo – Diferencial e Integral: 6) Você já iniciou outro curso superior: a- ( ) Sim a- ( ) Sim b- ( ) Não 7) Atualmente você vive junto com o companheiro(a): a- ( ) Sim b- ( ) Não c- ( ) Não se aplica. 9) Você trabalha: a- ( ) Na área de informática b- ( ) Em outra área c- ( ) Não trabalho b- ( ) Não 8) Onde atualmente você reside: a- ( ) Anápolis b- ( ) Outra cidade 10) Quantas horas semanais você dedica à atividade física regular: 12) Qual a maior escolaridade entre seus pais: 11) Quantas horas semanais você dedica à lazer: a- ( ) Não alfabetizado(a) Fundamental c- ( ) Ensino médio Graduação e- ( ) Pós-Graduação b- ( ) d- ( ) 61 13) Você mora com seus pais: a- ( ) Sim b- ( ) Não 14) Os seus pais vivem juntos: a- ( ) Sim b- ( ) Não c- ( ) Não se aplica 15) Marque a opção em que se enquadra sua da 16) Quantas horas semanais você consegue renda familiar: estudar, fora o período da faculdade: a- ( ) Até 3 salário mínimo b- ( ) Entre 3 e 5 salários mínimos c- ( ) Mais que 5 salários mínimos 17) Avalie de 0 à 10 até o presente momento o 18) Da mesma forma, de 0 à 10 avalie até o seu entendimento do conteúdo aplicado no presente momento seu entendimento do curso em geral: conteúdo aplicado no curso de Cálculo: 62 Apêndice C – Comandos Utilizados no Software R ### Leitura dos Dados ### x<-read.csv("D:/Paulo_2014/BTESTE2.csv", header = TRUE, sep = ";", quote = "\"") nv<-dim(x) # Dimensão dos Dados # str(x) # resumo das variáveis # names(x) # Lista as variáveis # ### Carregar pacote de Agrupamento ### require(cluster) ### Criação da Matriz de Dissimilaridade Utilizando o Método de Gower ### matriz.dissim <- daisy(x[,c(3,5,14,21)], metric = "gower", stand = FALSE) ### Dendograma ### par(cex=0.7) plot(may,hang = -1,xlab="Grupos",ylab="Dissimilaridade", main="Dendograma",labels=x$Nome) abline(h=0.4,col=4) g=4 rect.hclust(may, k=g, border="red") ### Avaliação de Agrupamento ### co1<-cophenetic(may) cor(matriz.dissim,co1) coef(may) 63 Apêndice D – Pôster Comunicação Científica