IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 8, AUG. 2016 3755 A Comparative Study between Clustering Methods in Educational Data Mining J. L. C. Ramos, R. E. D. Silva, R. L. Rodrigues, J. C. S. Silva and A. S. Gomes Abstract— This paper aims to describe the analysis of data from the Moodle's database of a beginner class in Distance Education of a Federal University using distinct educational data mining clustering methods. We carried out clustering using hierarchical and non-hierarchical methods in different groups of students, according to their interaction and performance characteristics. In the analysis, it was possible to perceive the groups obtained, a similarity between the results of each method used, confirming the acquired knowledge from the clustering and demonstrating that the choice of method in this study had little influence on the knowledge obtained from interactions and students performance on the course. Keywords— Educational Data Mining, EDM, Clustering Hierarchical method, Clustering Non-hierarchical method. A I. INTRODUÇÃO CONSOLIDAÇÃO e alcance da Web no cenário mundial tem permitido à Educação a Distância (EaD) assumir um importante papel nos modelos de acesso à educação. Ela oferece possibilidade de estudo para o cidadão, sem os moldes e exigências de ambientes escolares presenciais, em horário flexível, de acordo com a disponibilidade do estudante, com maior alcance geográfico e menos custo à formação. Em EaD, são utilizados os Ambientes Virtuais de Aprendizagem (AVA), que possibilitam a interação e disponibilizam diversos recursos de comunicação. Esses ambientes armazenam as interações dos usuários, gerando um grande volume de dados comportamentais. Esse volume de dados tem possibilitado a descoberta de conhecimento a partir da aplicação de técnicas de Mineração de Dados Educacionais (EDM - do inglês Educational Data Mining). A EDM é definida como a área responsável pelo desenvolvimento de métodos de extração de conhecimento a partir de bases de dados de ambientes educacionais [1]. Busca-se encontrar e apresentar novos métodos, técnicas e procedimentos que aperfeiçoem essa relação, facilitem a aprendizagem, permitam um melhor planejamento e gestão de cursos e ofereçam alternativas para superar desafios e dificuldades em estruturas educacionais diversas [2]. O objetivo deste estudo foi realizar um processo de descoberta de conhecimento, utilizando dois métodos da técnica de análise de agrupamento (clustering): hierárquico e R. E. D. Silva, Universidade Federal do Vale do São Francisco (UNIVASF), Juazeiro, Bahia, Brasil, [email protected] J. L. C. Ramos, Universidade Federal do Vale do São Francisco (UNIVASF), Juazeiro, Bahia, Brasil, [email protected] J. C. S. Silva, Universidade Federal do Vale do São Francisco (UNIVASF), Juazeiro, Bahia, Brasil, [email protected] R. L. Rodrigues, Universidade Federal Rural de Pernambuco (UFRPE), Departamento de Educação, Recife, Brasil, [email protected] A. S. Gomes, Universidade Federal de Pernambuco (UFPE), Centro de Informática, Recife, Brasil, [email protected] não hierárquico. Os resultados obtidos foram comparados em suas capacidades de descrever a formação de grupos e destacar as suas respectivas semelhanças. Este artigo está dividido em outras quatro seções: seção II contém a fundamentação teórica e alguns trabalhos relacionados para subsidiar as análises e discussões apresentadas. Na seção III, é apresentado o método de análise de dados (procedimentos, coleta e tratamento dos dados). Na seção IV, são apresentadas as análises dos agrupamentos e os resultados obtidos a partir do estudo e as respectivas discussões. Por fim, são apresentadas as considerações finais e sugestões para trabalhos futuros. II. FUNDAMENTAÇÃO TEÓRICA Para Heredia et al. [6], as instituições de ensino superior utilizam sistemas de informação acadêmicas que registram, entre outras coisas, dados pessoais, socioeconômicos e acadêmicos dos alunos durante a sua permanência na instituição. Para tornar esses dados inteligíveis, em geral, os educadores necessitam de mecanismos inteligentes de tratamento, análises e apoio à interpretação de dados. Nas seções a seguir apresentamos os fundamentos da análise de dados e as técnicas de agrupamento de dados que serão aplicadas e comparadas neste trabalho. A. Processo de Descoberta de Conhecimento por EDM O processo de descoberta de conhecimento em banco de dados (KDD, do inglês Knowledge Discovery in Databases), é definido por Fayyad et al. [3], como "o processo, não trivial, interativo e iterativo, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados". O KDD inclui atividades contínuas que são compostas por cinco etapas: seleção dos dados, pré-processamento, formatação, mineração e interpretação dos resultados [3]. Na mineração de dados, diversas técnicas foram desenvolvidas ao longo dos anos para atender às especificidades dos fenômenos de aprendizagem em ambiente de ensino online e pesquisa informações relevantes em dados educacionais usando a EDM. Um processo semelhante ao KDD sendo aplicado à EDM foi proposto por Garcia et al. [7] e é mostrado na Fig. 1. Este processo começa com a coleta ou escolha da base para o estudo do ambiente educacional. Os dados brutos obtidos necessitam de limpeza e pré-processamento (fusão de dados heterogêneos, tratamento de dados faltosos e incorretos, conversão de dados, seleção de recursos, etc.). Esta fase requer a utilização de técnicas clássicas da mineração. Alguns pesquisadores desenvolvem ferramentas para facilitar a 3756 extração, transformação e limpeza dos dados provindos especificamente de plataformas educacionais [4]. Figura 1. Etapas do processo de KDD em ambientes educacionais[7]. Uma vez que a fase de pré-processamento termina, iniciase a fase de aplicação das técnicas de EDM que envolve, por exemplo, a classificação, regressão, agrupamento, entre outros. O processo de EDM converte os dados brutos de sistemas educacionais em informação útil que pode ser usado por desenvolvedores de softwares educacionais, professores, pesquisadores, entre outros. Este processo não difere muito de outras áreas da mineração de dados, porque se baseia nos mesmos passos do processo de mineração de dados em geral [7]. O último passo é a interpretação e a avaliação dos resultados obtidos, por meio do qual o conhecimento é evidenciado e relatado. O conhecimento obtido a partir da EDM sobre os dados gerados pelos alunos e instrutores em ambientes de e-learning pode fornecer novas compreensões acerca do desempenho, da motivação e do nível de participação dos alunos no curso. Este conhecimento pode sugerir mudanças no curso, intervenções na metodologia ou mesmo um contato individual com alunos desmotivados ou com baixa interação [8]. Algumas vezes é preciso retornar ao passo inicial do processo para promover ajustes ou novas buscas na base de dados a fim de se complementar algo relevante que foi descoberto em um ciclo do processo [5]. B. Análise de Clusters Análise de clusters (agrupamentos) é uma das tarefas de mineração de dados que tem com o objetivo agrupar dados de tal forma que as características do grupo (denominado cluster) são mais semelhantes entre si do que com outros grupos [9]. O objetivo principal é encontrar padrões que se agrupam e permitem classificar os dados em diferentes grupos ou categorias inicialmente desconhecidas. Através de técnicas de agrupamento, esses padrões são automaticamente identificados através da manipulação das características dos dados [13]. A principal dificuldade da análise de agrupamentos é como definir um cluster. Não há uma definição universal e precisa de cluster. Intuitivamente, significa um agrupamento de pontos de dados, em que os pontos de um grupo são semelhantes ou próximos uns dos outros, mas diferente ou distante de pontos nos outros grupos [14]. Normalmente, algum tipo de medida de distância é usado para decidir quão semelhantes são as instâncias. Uma vez que um conjunto de aglomerados foi determinada, os novos casos podem ser classificados por meio da determinação do cluster mais próximo. IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 8, AUG. 2016 A técnica de agrupamento pode ser usada para formar grupos com conteúdo de curso semelhantes ou grupos de alunos com base em seus padrões de aprendizagem e de interação [10]. Os métodos de agrupamento podem ser classificados como hierárquicos e não hierárquicos, também conhecidos como particionais. Os métodos hierárquicos consistem em uma série de sucessivos agrupamentos ou sucessivas divisões de elementos, nas quais os elementos são agregados ou desagregados visando construir uma hierarquia de clusters [11]. O resultado do agrupamento hierárquico é representado através de uma árvore de clusters, também chamada de Dendograma, mostrada na Fig. 2. Figura 2. Dendograma para representação de agrupamento hierárquico. Conforme a formação dos clusters, o dendograma pode ser construído utilizando uma estratégia top-down, partindo da raiz para as folhas, utilizando o método divisivo; ou ser construído por uma estratégia bottom-up, partindo das folhas em direção as raízes, utilizando o método aglomerativo. Existem diferentes métodos aglomerativos, mas todos seguem a mesma ideia: para n dados, a primeira partição é formada por n clusters, nos quais cada cluster possui um único do conjunto de dados até a última partição, e possui um único cluster composto pelos n dados. A diferença entre os métodos está na escolha da medida de similaridade utilizada, já que a cada passo, os dois clusters mais similares encontrados são unidos [10]. Os métodos não hierárquicos dividem o conjunto de objetos de uma base de dados em um número pré-definido de subconjuntos disjuntos e procuram iterativamente o melhor particionamento até atingir uma condição de parada (Fig. 3). Figura 3. Representação de agrupamento não hierárquico. O uso de agrupamento não hierárquico é apropriado quando existe uma lógica teórica ou empírica para estabelecer o número de grupos ou quando o conjunto de dados é muito LUIS CAVALCANTI RAMOS et al.: A COMPARATIVE 3757 grande (centenas ou milhares de casos). O k-means é o algoritmo não hierárquico mais usado [16]. Esses métodos exigem que o número de clusters seja estabelecido pelo usuário antes do processo. Dado um conjunto D de dados com n registros e k o número de clusters desejados, os algoritmos de particionamento organizam os objetos em k clusters, tal que k ≤ n. Quando comparado com o método hierárquico, esse método é mais rápido porque não é necessário calcular e armazenar, durante o processamento, a matriz de similaridade, que guarda as distâncias calculadas entre objetos a cada iteração e é mais vantajoso nas aplicações que envolvam um grande número de conjuntos, pois não há a necessidade do dendograma [11]. C. Medidas de similaridade e algoritmos de agrupamento O aspecto mais importante de métodos de agrupamento é o critério para formar os grupos. Enquanto os aspectos representacionais descrevem quais são os possíveis tipos de modelos de agrupamento, o critério define qual o modelo se ajusta melhor aos dados. Normalmente, o critério de agrupamento é definido nos termos de uma medida de similaridade, o que diz o quão perto ou similar são dois pontos ou dois grupos. Dada uma medida de similaridade, também é possível definir similaridade entre clusters e expressar um critério de agrupamento que tenta maximizar a similaridade intra-cluster e/ou minimizar similaridade inter-cluster [14]. A escolha de uma medida de distância apropriada entre os dados irá influenciar a formação dos clusters. Assim, alguns elementos podem estar próximos um do outro de acordo com uma medida de distância, ou mais longe de acordo com outra medida adotada [12]. Para medir a similaridade entre atributos utiliza-se o cálculo da distância entre eles. A seguir, são apresentadas as medidas de similaridade mais comumente utilizadas. Para uma visão abrangente de diferentes medidas é recomendado o trabalho de Gan et al. [15]. As principais medidas de distância usadas no agrupamento hierárquico são as Distâncias de Minkowski, calculada pela equação abaixo, onde d é o número de atributos dos dados e p é a ordem da equação: , = ∑ (| − |) , ≥1 (1) A distância entre dois dados xi e xj é denotada por d(xi,xj). A variação da ordem p define distâncias diferentes. Uma variação bastante comum dessa distância é chamada de Distância Euclidiana, quando p=2 na Eq. (1). É a métrica mais popular e baseia-se na distância reta entre os dois pontos: , = ∑ ( − ) (2) Após a definição da medida de distância, diferentes algoritmos de agrupamentos podem ser usados para realizar a tarefa. Algoritmos hierárquicos como o Método da Mínima Variância de Ward [17] são úteis para o trabalho exploratório, quando não se tem uma ideia inicial do número provável de clusters no conjunto de dados. Outros métodos usados são o Single Linkage, AverageLinkage e o Two-step [16]. Em alguns casos, ambos tipos de agrupamento podem ser usados sucessivamente. Por exemplo, um método hierárquico pode ser utilizado com uma pequena amostra dos dados para se ter uma noção do possível número de clusters e como eles se fundem a cada iteração. Em seguida, o conjunto de dados pode ser analisado por um método não hierárquico mais eficiente com um número pré-determinado de aglomerados [16]. III. TRABALHOS RELACIONADOS O uso da análise de clusters em contextos educacionais tem sido evidenciado na literatura em razão da necessidade dos pesquisadores em descobrir características peculiares e comuns a grupos distintos de estudantes. O problema é que existem vários algoritmos de agrupamento e poucas diretrizes gerais sobre qual método escolher. A escolha ideal é dependente da natureza dos dados e raramente podem ser encontrados diretamente sem um comparativo entre a diversidade de métodos. Ainda assim, os efeitos do agrupamento de estudantes e as características típicas de dados educacionais tornam determinados métodos de agrupamento mais adequados ou atraentes. Em Hämäläinen et al. [14], os autores avaliaram os principais métodos de agrupamento partir dessa perspectiva. Com base na análise, eles sugerem os métodos mais promissores para diferentes situações. O trabalho de Lopez et al. [18] projetou uma classificação a partir do uso de agrupamento para prever as notas finais de estudantes universitários iniciantes. O artigo analisou se a participação dos alunos no fórum do curso pode ser um bom preditor de nota final, e se a classificação proposta através de agrupamento pode obter a nota com exatidão similar aos algoritmos de classificação tradicionais. Diversos algoritmos de clusters usando a abordagem proposta foram comparados com algoritmos de classificação tradicionais para prever se os alunos passam ou reprovam no curso, com base nos seus dados de uso do fórum no Moodle. Em Dominguez et al. [19], os autores apresentaram uma proposta de ferramenta que gera dicas para os estudantes que estão concluindo exercícios de programação. Essas dicas podem ser links para tópicos que são relevantes para o problema detectado e pode incluir dicas preventivas para evitar futuros erros. A partir de dados de anos anteriores, foram usadas as tarefas de agrupamento e classificação, além de análise numérica para geração das dicas. O sistema analisa grupos de padrões que afetam o desempenho dos alunos durante a sua interação com o sistema e os clusters formam a base para fornecer dicas para os alunos em tempo real. O trabalho de França e Amaral [20] focou no desempenho dos estudantes e apresentou o uso de técnicas de agrupamento, visando a formação de grupos similares de estudantes com dificuldades de aprendizagem em Programação Orientada a Objetos. Os resultados mostraram grupos com alunos com dificuldades para entender e aplicar alguns conceitos, que no final foram reprovados na disciplina. 3758 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 8, AUG. 2016 Peckham e McCalla [21] realizaram um experimento em um ambiente de aprendizagem concebido para simular cursos hipermídia com o objetivo de identificar padrões de comportamento dos alunos em uma tarefa de compreensão de leitura. Eles utilizaram o algoritmo de agrupamento k-means para essa identificação. Embora existam estudos comparativos dos principais métodos de agrupamento como em Hämäläinen et al. [14], é perceptível a carência de trabalhos que relatem aplicações práticas que descrevam características de comparação entre uma método hierárquico e um não-hierárquico. IV. DESCRIÇÃO DO EXPERIMENTO A coleta de dados foi realizada com dados do Curso de Bacharelado em Administração Pública na modalidade a distância, ofertado pela Universidade Federal do Vale do São Francisco - Brasil (UNIVASF). O curso possui 200 alunos matriculados, distribuídos em 06 polos em cidades da região. Foram coletadas e analisadas as diversas informações contidas no banco de dados da disciplina "Introdução à Educação a Distância". A disciplina foi toda ofertada por meio do ambiente Moodle, sendo dividida em quatro tópicos distribuídos ao longo das quatro semanas de duração. A estratégia de ensino foi baseada em vídeo-aulas, apostilas, fóruns de discussão, chats e troca de mensagens pelo ambiente. Ao longo de cada semana do curso, o material didático era disponibilizado, assim como um fórum específico para tratar do conteúdo foi criado para proporcionar interações entre professor, alunos e tutores. A. Coleta e tratamento de dados A coleta e o tratamento de dados foram realizados utilizando a metodologia proposta por Garcia et al. [7], sendo dividida em três etapas principais: preparação dos dados, extração de padrões (mineração de dados) e o pósprocessamento. A etapa de preparação dos dados foi composta de três fases: seleção, pré-processamento e transformação dos dados. Na fase de seleção, os dados das interações dos alunos foram coletados a partir de consultas SQL na base de dados. Na fase de pré-processamento, foi realizada a limpeza dos dados selecionados, a fim de garantir que sua qualidade e acurácia. A limpeza dos dados se resume em filtrar ou atestar a presença de outliers, agregar e preencher os valores ausentes (missing values), na tabela de dados. A transformação dos dados finaliza esta etapa, adequando ou normalizando os dados aos algoritmos selecionados, de acordo com a aplicação que será utilizada para a mineração de dados. A segunda etapa é onde ocorre a extração dos padrões nos dados preparados na etapa anterior, com o uso da técnica de mineração de dados e dos algoritmos escolhidos. Neste trabalho optou-se pela utilização das técnicas de análise de clusters, a partir do agrupamento hierárquico usando o método de Ward e distância euclidiana, escolhidos por serem bastante usados nesse tipo de análise, e o não hierárquico, utilizando o algoritmo k-means, com os dados sendo divididos em 4 grupos em ambos os métodos. Figura 4. Dendograma gerado pelo agrupamento hierárquico dos dados, usando o método de Ward e a distância Euclidiana. A escolha por quatro grupos foi balizada pela visualização do dendograma do agrupamento hierárquico (Fig. 04), no qual o corte para 4 grupos se mostrou adequado em razão da formação desses grupos pelo algoritmo. A terceira etapa é a de pós-processamento. Ela ocorre após a mineração de dados e é responsável pela avaliação, interpretação e utilização do conhecimento extraído, e caso se faça necessário, o retorno às etapas anteriores para as devidas adequações a fim de se obter uma mineração mais correta. Conforme Ham et al. [9], o pós-processamento consiste da fase de validação das descobertas efetuadas pela etapa de processamento e da visualização dos resultados encontrados. VI. RESULTADOS E DISCUSSÕES Os resultados deste experimento foram obtidos utilizando o pacote estatístico R (Disponível em http://www.r-project.org) para o agrupamento hierárquico e a ferramenta Rapid Miner (Disponível em http://www.rapidminer.com) para a agrupamento não hierárquica. Os atributos dos alunos na disciplina, registrados no ambiente Moodle, que foram coletados e suas respectivas descrições encontram-se na Tabela I, assim como suas respectivas quantidades mínimas, máximas e médias encontradas. TABELA I ATRIBUTOS DOS ALUNOS Atributo Nota Chat Download Forum Msg_rec_do_professo r Msg_env_ao_professo r Msg_rec__alunos Msg_env_para_alunos msg_rec_dos_tutores Msg_env_aos_tutores Descrição Nota na avaliação final do curso Qtd. postagens em Chats Qtd. downloads realizados Qtd. postagens em fóruns Mín 0 0 0 0 Máx 100 46 24 50 Qtd. Msg, recebidas do professor 0 13 2,11 Qtd. Qtd. Qtd. Qtd. Qtd. 0 0 0 0 0 12 20 51 70 97 0,67 1,57 1,62 29,39 13,67 Msg, enviadas para professor Msg, recebidas de alunos Msg, enviadas para alunos Msg, recebidas dos tutores Msg, enviadas para tutores Média 71,26 6,61 4,50 4,06 Percebe-se que média da nota da turma ficou acima da média para aprovação (70,0). Merece destaque também a quantidade média de mensagens trocadas entre alunos e tutores, indicando uma boa interação entre esses atores, bem acima da média das interações professor-aluno. A partir dos dados normalizados, com 10 atributos e para os 169 alunos observados, foram realizados dois agrupamentos distintos, um hierárquico e outro nãohierárquico, para formação dos grupos de alunos conforme as características dos dados coletados. Após o processo, os grupos obtidos tiveram os seguintes tamanhos (Tabela II): LUIS CAVALCANTI RAMOS et al.: A COMPARATIVE 3759 TABELA II TAMANHO DOS CLUSTERS EM CADA AGRUPAMENTO seguinte aponta as características dos estudantes que prevaleceram em cada par de grupos semelhantes. B. Análise dos agrupamentos formados Nº de Instâncias (Alunos) Grupo 01 H NH 9 41 Grupo 02 H NH 96 11 Grupo 03 H NH 26 9 Grupo 04 H NH 38 108 H – Agrupamento Hierárquico NH – Agrupamento Não Hierárquico Em cada método, observou-se a formação um grupo pequeno, com 9 instâncias em ambos, e outro bem maior, com 96 (hierárquico) e 108 (não hierárquico) instâncias. Isso pode indicar que os dados possuíam uma similaridade relevante, em função da formação de desses grupos maiores. A. Comparações entre os agrupamentos A partir dos resultados dos agrupamentos, foi construída uma matriz de semelhanças com o objetivo de determinar como os estudantes estavam dispostos nos grupos formados, verificando se os alunos de determinado grupo hierárquico estavam presentes em algum grupo não hierárquico e viceversa. O número de instâncias coincidentes por cada grupo é mostrado na Tabela III. TABELA III AGRUPAMENTO HIERÁRQUICO (H) AGRUPAMENTO NÃOHIERÁRQUICO (NH) GRUPOS (H) Grupo 1 Grupo 2 Grupo 3 Grupo 4 Total Instâncias (NH) Grupo 01 TABELA IV MÉDIA DAS VARIÁVEIS EM CADA AGRUPAMENTO Variáveis SEMELHANÇA ENTRE OS GRUPOS GRUPOS (NH) A partir das similaridades entre os grupos apresentada na seção anterior, buscou-se então um aprofundamento das caraterísticas representativas dessas semelhanças e seus possíveis impactos no processo de ensino-aprendizagem na disciplina. Em cada par de grupos com a maior taxa de semelhança, a média de seus atributos foi analisada e então extraídos conhecimentos relevantes acerca de cada um deles. Com os grupos formados, foi realizada uma sumarização dos dados por grupo com a respectiva média de cada atributo nos grupos, apresentada na Tabela IV. Nos grupos 3 (Hierárquico) e 2 (Não hierárquico), as variáveis de maior destaque foram a alta média de downloads de material didático, uma alta interação via fórum de discussões e também na interação dos alunos com os professores (Msg_rec_do_professor, Msg_env_ao_professor). Grupo 02 Grupo 03 9 26 15 11 41 11 9 Total Grupo Instâncias 04 (H) 9 70 96 26 38 38 108 169 Partindo dos resultados obtidos na matriz, foi possível observar um certo nível de semelhança entre os grupos, em razão de igualdade entre os dois grupos formados por cada tipo de agrupamento ou da presença de boa parte dos mesmos estudantes em grupos distintos de cada um dos agrupamentos. A lista abaixo sintetiza essas semelhanças: • Grupo 1 Hierárquico - 100 % dos alunos são os mesmos do Grupo 03 Não Hierárquico. • Grupo 2 Hierárquico - 73% dos alunos são os mesmos do Grupo 04 Não Hierárquico. • Grupo 3 Hierárquico - 58% dos alunos são os mesmos do Grupo 01 Não Hierárquico e 42% estão no Grupo 02. • Grupo 4 Hierárquico - 100% dos alunos estão no Grupo 04 Não Hierárquico. • Grupo 1 Não Hierárquico - 63% dos alunos são os mesmos do Grupo 2 Hierárquico. • Grupo 2 Não Hierárquico - 100% dos alunos estão no Grupo 3 Hierárquico. • Grupo 3 Não Hierárquico - 100% dos alunos são os mesmos do Grupo 1 Hierárquico. • Grupo 4 Não Hierárquico - 65% dos alunos são os mesmos do Grupo 2 Hierárquico. Dada a semelhança encontrada entre os grupos formados pelos agrupamentos em relação à distribuição dos alunos nos quatro grupos, é possível concluir que a adoção de qualquer dos métodos de agrupamento nos dados coletados nesse experimento, poderia produzir resultados e conhecimentos similares sobre as interações dos alunos estudados. A análise Grupo 01 H Chat 6,67 Download 2,56 Forum 4,10 Msg_rec_do_professor 2,33 Msg_env_ao_professor 1,00 Msg_rec_de_alunos 11,67 Msg_env_para_alunos 15,78 Msg_rec_dos_tutores 42,89 Msg_env_aos_tutores 13,56 Nota 71,81 Grupo 02 Grupo 03 NH H NH H 17,59 4,43 12,18 22,69 7,22 4,89 8,18 6,50 6,39 3,74 10,82 9,04 1,66 1,69 5,27 3,23 0,34 0,32 5,27 2,62 1,54 0,91 2,45 2,35 1,05 0,67 3,64 2,35 29,97 27,22 43,09 37,31 17,13 11,99 40,64 27,62 78,72 77,70 73,07 78,75 Grupo 04 NH H NH 6,67 1,08 1,87 2,56 2,60 3,26 4,11 1,45 2,48 2,33 2,36 1,94 1,00 0,16 0,31 11,67 0,34 0,66 15,78 0,16 0,44 42,89 26,26 26,65 13,56 8,42 9,63 71,81 49,74 68,19 Através destes resultados exploratórios, podemos afirmar que existem indícios de que estas variáveis tiveram uma forte influência sobre o desempenho dos alunos desses grupos, que obtiveram notas satisfatórias na disciplina. A alta interação, tanto em fórum de discussão quanto a interação entre aluno e professor, são as variáveis mais relevantes para estes grupos, cujos alunos obtiveram notas satisfatórias na disciplina. Em relação aos grupos 1 (Hierárquico) e 3 (Não hierárquico), as variáveis que tiveram maior relevância em ambos foram: o baixo número de downloads e uma alta interação entre os alunos (Msg_rec_de_alunos, Msg_env_de_alunos). Estes grupos destacam-se pelo fato de serem alunos com alta comunicação entre eles através de mensagens trocadas na plataforma, mesmo esses grupos tendo uma baixa quantidade de material didático baixado. As notas dos alunos em ambos os grupos alcançaram médias também satisfatórias. Nos grupos 4 (Hierárquico) e 4 (Não hierárquico), as variáveis que se destacaram foram: baixa interação via chat, baixa interação via fórum de discussão e uma baixa interação entre os alunos através da troca de mensagens privadas. Podemos verificar que a baixa interação aluno X aluno e a participação nos fóruns tiveram indícios de influência na diminuição do desempenho dos alunos, já que em ambos os grupos, as notas na disciplina foram, em média, mais baixas em relação aos demais grupos. 3760 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 8, AUG. 2016 VII. CONCLUSÃO Como resultado principal dos agrupamentos realizados, verificou-se que ambos os métodos apresentaram resultados semelhantes, formando grupos de tamanhos, dados e características similares. Com isso, é possível afirmar que o resultado obtido por qualquer um dos métodos de agrupamento, para esta natureza de dados, poderia ser usado para extração de conhecimentos sobre dados de comportamento dos alunos nessa disciplina no ambiente Moodle. Na formação dos grupos, percebeu-se que algumas características se sobressaíam em cada par de grupo similar, como por exemplo a interação aluno-professor, a participação em fóruns de discussão e quantidade de material didático baixado nos grupos 3 (hierárquico) e 2 (não hierárquico). Nesses grupos, os alunos obtiveram bom desempenho, possivelmente influenciados por esses indicadores de interação satisfatórios. De uma maneira geral, cada grupo formado pode oferecer alguma particularidade para que a coordenação do curso ou o professor possam promover ajustes no curso, como por exemplo, promovendo tarefas em equipe que estimulem o trabalho colaborativo e por consequência, eleve ainda mais o nível de interação entre os alunos. Os padrões de baixo desempenho, como os alunos do grupo 4 nos dois métodos, podem ser melhor estudados suas causas e relações. A partir disso, medidas podem ser tomadas no sentido de melhorar esse desempenho. Planeja-se em trabalhos futuros resolver alguns desafios que surgem a partir desta análise inicial, com a aplicação das técnicas de agrupamento na mesma turma, agora em estágio mais avançado no curso, a fim de averiguar se os atributos estudados nesse trabalho passaram a influenciar mais no desempenho e nas interações. A aplicação do processo em outras turmas e a aplicação de outras tarefas de EDM podem ser feitos a fim de descobrir novos comportamentos ou predizer comportamentos futuros dos alunos. AGRADECIMENTOS Esta pesquisa é apoiada pela FACEPE-APQ No. 0525-1.03/14 e BCT 0016-1.03/15. Os autores também agradecem ao apoio da PRPPGI/UNIVASF (Edital 18/2013) e à SEAD/UNIVASF por colaborar e oferecer o ambiente para a pesquisa. Alex Sandro Gomes é bolsista DT Nível 2/CNPq, processos nº 310466/2012-1 e nº 475634/2013-6. REFERÊNCIAS [1] [2] [3] [4] Baker, R., Isotani, S., and Carvalho, A. (2011). Mineração de dados educacionais: Oportunidades para o Brasil. Revista Brasileira de Informática na Educação, 19(02). Rodrigues, R. L., Ramos, J. L. C., Silva, J. C. S., Gomes, A. S. (2014). A literatura brasileira sobre mineração de dados educacionais. In Anais do Workshop de Mineração de Dados em Ambientes Virtuais do Ensino/Aprendizagem - (3º Congresso Brasileiro de Informática na Educação - CBIE 2014, pg 621-630). Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3), 37. Krüger, A., Merceron, A., and Wolf, B. (2010). A data model to ease analysis and mining of educational data. In Proceedings of 3rd International Conference on Educational Data Mining, pg 131–140. [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] Romero, C., Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1):12–27. Heredia, D., Amaya, Y., & Barrientos, E. (2015). Student Dropout Predictive Model Using Data Mining Techniques. Latin America Transactions, IEEE (Revista IEEE America Latina), 13(9), 3127-3134. Garcia, E., Romero, C., Ventura, S., and de Castro, C. (2011). A collaborative educational association rule mining tool. The Internet and Higher Education, 14(2). Romero, C., Ventura, S., Espejo, P. G., &Hervás, C. (2008). Data mining algorithms to classify students. In Proceedings of Educational Data Mining Conference 2008. Han, J.; Kamber, M.; Pei, J. (2011) Data mining: concepts and techniques: concepts and techniques. Elsevier. Vellido, A.; Castro, F.; Nebot, A. (2010) Clustering educational data. Handbook of educational data mining, p. 75-92. Maimon, O., Rokach, L. (2010). Data Mining and Knowledge Discovery Handbook. 2nd. Springer. Han, J.; Kamber, M.; Pei, J. (2011), Data mining: concepts and techniques: concepts and techniques. Elsevier. ISBN 0123814804. Jain, A. K.; Dubes, R. C. (1988). Algorithms for clustering data. Prentice-Hall.ISBN 013022278X. Hämäläinen, W., Kumpulainen, V., & Mozgovoy, M. (2015). Evaluation of Clustering Methods for Adaptive Learning Systems. In Artificial Intelligence Applications in Distance Education. UtkuKose and DurmusKoc, editors. IGI Global Book series Advances in Mobile and Distance Learning (AMDL). Gan, G., Ma, C., & Wu, J. (2007). Data Clustering: Theory, Algorithms, and Applications. ASA-SIAM Series on Statistics and Applied Probability. SIAM. Antonenko, P. D., Toy, S., & Niederhauser, D. S. (2012). Using cluster analysis for data mining in educational technology research. Educational Technology Research and Development, 60(3), 383-398. Ward, J. H. (1963). Hierarchical grouping to optimize an objective function. Journal of American Statistical Association, 58(301), 236–244. Lopez, M. I., Luna, J. M., Romero, C., & Ventura, S. (2012). Classification via Clustering for Predicting Final Marks Based on Student Participation in Forums. Proceedings of the 5th International Conference on Educational Data Mining. Dominguez, A. K., Yacef, K., & Curran, J. R. (2010, June). Data mining for individualised hints in e-learning. In Proceedings of the International Conference on Educational Data Mining. Pittsburgh, PA, USA: Carnegie Learning (pp. 91-100). França, R. S., & do Amaral, H. J. C. (2013) Mineração de Dados na Identificação de Grupos de Estudantes com Dificuldades de Aprendizagemno Ensino de Programação. RENOTE, 11(1). Peckham, T., McCalla, G. (2012). Mining Student Behavior Patterns in Reading Comprehension Tasks. Proceedings of5th International Conference on Educational Data Mining, pp. 87–94. Jorge Luis Cavalcanti Ramos possui mestrado em Ciência da Computação pelo CIn/UFPE. Atualmente é aluno de doutorado em Ciência da Computação e professor do quadro efetivo da Universidade Federal do Vale do São Francisco. É pesquisador do grupo de pesquisas em Ciências Cognitivas e Tecnologias Educacionais (CCTE) no CIn/UFPE. Áreas do conhecimento: Technology Enhanced Learning (TEL) e Educational Data Mining (EDM). Rodrigo Lins Rodrigues possui mestrado em Ciência da Computação pelo Cin/UFPE, graduação em Computação e em Estatística. Atualmente é aluno de doutorado em Ciência da Computação e professor do quadro efetivo da Universidade Federal Rural de Pernambuco. Pesquisador em dois grupos de pesquisa vinculados ao CNPq: CCTE e TDAC. Áreas do conhecimento em Computação: Data Science, Educational Data Mining (EDM) e Technology Enhanced Learning (TEL). Áreas do conhecimento em Estatística: Modelos de Regressão, Testes Paramétricos, Modelagem estatística computacional. João Carlos Sedraz Silva, possui graduação em Engenharia Mecânica, especialização em Educação a Distância e mestrado em Ciência da Computação. É docente da Universidade Federal do Vale do São Francisco, onde coordenou a implantação dos cursos de graduação e pósgraduação na modalidade a distância. Atualmente, é aluno de doutorado no Centro de Informática da Universidade Federal de Pernambuco, LUIS CAVALCANTI RAMOS et al.: A COMPARATIVE com pesquisa concentrada na concepção e modelagem de ambientes virtuais de aprendizagem. Alex Sandro Gomes é Engenheiro Eletrônico (UFPE, 1992), Mestre em Psicologia Cognitiva (UFPE, 1995) e concluiu o doutorado em Ciências da Educação pela Université de Paris v (René Descartes) em 1999. Atualmente é Professor no Centro de Informática da UFPE. Atua com a concepção de ambientes colaborativos de aprendizagem. Atuou como coordenador dos eventos SBIE e IHC. Atuou como membro das comissões especiais de Interação Humano Computador e Informática Educativa da SBC. É líder do grupo de pesquisa Ciências Cognitivas e Tecnologia Educacional. É Coordenador das comunidades de software livre Amadeus e Openredu. Ricardo Euller Dantas e Silva é Engenheiro da Computação formado pela Universidade Federal do Vale do São Francisco – UNIVASF e Pós-graduando no curso de Engenharia de Segurança contra Incêndio e Pânico. 3761