A Comparative Study between Clustering Methods in Educational

Propaganda
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 8, AUG. 2016
3755
A Comparative Study between Clustering
Methods in Educational Data Mining
J. L. C. Ramos, R. E. D. Silva, R. L. Rodrigues, J. C. S. Silva and A. S. Gomes
Abstract— This paper aims to describe the analysis of data
from the Moodle's database of a beginner class in Distance
Education of a Federal University using distinct educational data
mining clustering methods. We carried out clustering using
hierarchical and non-hierarchical methods in different groups of
students, according to their interaction and performance
characteristics. In the analysis, it was possible to perceive the
groups obtained, a similarity between the results of each method
used, confirming the acquired knowledge from the clustering and
demonstrating that the choice of method in this study had little
influence on the knowledge obtained from interactions and
students performance on the course.
Keywords— Educational Data Mining, EDM, Clustering
Hierarchical method, Clustering Non-hierarchical method.
A
I. INTRODUÇÃO
CONSOLIDAÇÃO e alcance da Web no cenário mundial
tem permitido à Educação a Distância (EaD) assumir um
importante papel nos modelos de acesso à educação. Ela
oferece possibilidade de estudo para o cidadão, sem os moldes
e exigências de ambientes escolares presenciais, em horário
flexível, de acordo com a disponibilidade do estudante, com
maior alcance geográfico e menos custo à formação.
Em EaD, são utilizados os Ambientes Virtuais de
Aprendizagem (AVA), que possibilitam a interação e
disponibilizam diversos recursos de comunicação. Esses
ambientes armazenam as interações dos usuários, gerando um
grande volume de dados comportamentais.
Esse volume de dados tem possibilitado a descoberta de
conhecimento a partir da aplicação de técnicas de Mineração
de Dados Educacionais (EDM - do inglês Educational Data
Mining). A EDM é definida como a área responsável pelo
desenvolvimento de métodos de extração de conhecimento a
partir de bases de dados de ambientes educacionais [1].
Busca-se encontrar e apresentar novos métodos, técnicas e
procedimentos que aperfeiçoem essa relação, facilitem a
aprendizagem, permitam um melhor planejamento e gestão de
cursos e ofereçam alternativas para superar desafios e
dificuldades em estruturas educacionais diversas [2].
O objetivo deste estudo foi realizar um processo de
descoberta de conhecimento, utilizando dois métodos da
técnica de análise de agrupamento (clustering): hierárquico e
R. E. D. Silva, Universidade Federal do Vale do São Francisco
(UNIVASF), Juazeiro, Bahia, Brasil, [email protected]
J. L. C. Ramos, Universidade Federal do Vale do São Francisco
(UNIVASF), Juazeiro, Bahia, Brasil, [email protected]
J. C. S. Silva, Universidade Federal do Vale do São Francisco
(UNIVASF), Juazeiro, Bahia, Brasil, [email protected]
R. L. Rodrigues, Universidade Federal Rural de Pernambuco (UFRPE),
Departamento de Educação, Recife, Brasil, [email protected]
A. S. Gomes, Universidade Federal de Pernambuco (UFPE), Centro de
Informática, Recife, Brasil, [email protected]
não hierárquico. Os resultados obtidos foram comparados em
suas capacidades de descrever a formação de grupos e
destacar as suas respectivas semelhanças.
Este artigo está dividido em outras quatro seções: seção II
contém a fundamentação teórica e alguns trabalhos
relacionados para subsidiar as análises e discussões
apresentadas. Na seção III, é apresentado o método de análise
de dados (procedimentos, coleta e tratamento dos dados). Na
seção IV, são apresentadas as análises dos agrupamentos e os
resultados obtidos a partir do estudo e as respectivas
discussões. Por fim, são apresentadas as considerações finais e
sugestões para trabalhos futuros.
II. FUNDAMENTAÇÃO TEÓRICA
Para Heredia et al. [6], as instituições de ensino superior
utilizam sistemas de informação acadêmicas que registram,
entre outras coisas, dados pessoais, socioeconômicos e
acadêmicos dos alunos durante a sua permanência na
instituição. Para tornar esses dados inteligíveis, em geral, os
educadores necessitam de mecanismos inteligentes de
tratamento, análises e apoio à interpretação de dados. Nas
seções a seguir apresentamos os fundamentos da análise de
dados e as técnicas de agrupamento de dados que serão
aplicadas e comparadas neste trabalho.
A. Processo de Descoberta de Conhecimento por EDM
O processo de descoberta de conhecimento em banco de
dados (KDD, do inglês Knowledge Discovery in Databases), é
definido por Fayyad et al. [3], como "o processo, não trivial,
interativo e iterativo, de extração de informações implícitas,
previamente desconhecidas e potencialmente úteis, a partir
dos dados armazenados em um banco de dados".
O KDD inclui atividades contínuas que são compostas por
cinco etapas: seleção dos dados, pré-processamento,
formatação, mineração e interpretação dos resultados [3].
Na mineração de dados, diversas técnicas foram
desenvolvidas ao longo dos anos para atender às
especificidades dos fenômenos de aprendizagem em ambiente
de ensino online e pesquisa informações relevantes em dados
educacionais usando a EDM.
Um processo semelhante ao KDD sendo aplicado à EDM
foi proposto por Garcia et al. [7] e é mostrado na Fig. 1.
Este processo começa com a coleta ou escolha da base para
o estudo do ambiente educacional. Os dados brutos obtidos
necessitam de limpeza e pré-processamento (fusão de dados
heterogêneos, tratamento de dados faltosos e incorretos,
conversão de dados, seleção de recursos, etc.). Esta fase
requer a utilização de técnicas clássicas da mineração. Alguns
pesquisadores desenvolvem ferramentas para facilitar a
3756
extração, transformação e limpeza dos dados provindos
especificamente de plataformas educacionais [4].
Figura 1. Etapas do processo de KDD em ambientes educacionais[7].
Uma vez que a fase de pré-processamento termina, iniciase a fase de aplicação das técnicas de EDM que envolve, por
exemplo, a classificação, regressão, agrupamento, entre
outros. O processo de EDM converte os dados brutos de
sistemas educacionais em informação útil que pode ser usado
por desenvolvedores de softwares educacionais, professores,
pesquisadores, entre outros. Este processo não difere muito de
outras áreas da mineração de dados, porque se baseia nos
mesmos passos do processo de mineração de dados em geral
[7]. O último passo é a interpretação e a avaliação dos
resultados obtidos, por meio do qual o conhecimento é
evidenciado e relatado.
O conhecimento obtido a partir da EDM sobre os dados
gerados pelos alunos e instrutores em ambientes de e-learning
pode fornecer novas compreensões acerca do desempenho, da
motivação e do nível de participação dos alunos no curso. Este
conhecimento pode sugerir mudanças no curso, intervenções
na metodologia ou mesmo um contato individual com alunos
desmotivados ou com baixa interação [8].
Algumas vezes é preciso retornar ao passo inicial do
processo para promover ajustes ou novas buscas na base de
dados a fim de se complementar algo relevante que foi
descoberto em um ciclo do processo [5].
B. Análise de Clusters
Análise de clusters (agrupamentos) é uma das tarefas de
mineração de dados que tem com o objetivo agrupar dados de
tal forma que as características do grupo (denominado cluster)
são mais semelhantes entre si do que com outros grupos [9].
O objetivo principal é encontrar padrões que se agrupam e
permitem classificar os dados em diferentes grupos ou
categorias inicialmente desconhecidas. Através de técnicas de
agrupamento,
esses
padrões
são
automaticamente
identificados através da manipulação das características dos
dados [13].
A principal dificuldade da análise de agrupamentos é como
definir um cluster. Não há uma definição universal e precisa
de cluster. Intuitivamente, significa um agrupamento de
pontos de dados, em que os pontos de um grupo são
semelhantes ou próximos uns dos outros, mas diferente ou
distante de pontos nos outros grupos [14].
Normalmente, algum tipo de medida de distância é usado
para decidir quão semelhantes são as instâncias. Uma vez que
um conjunto de aglomerados foi determinada, os novos casos
podem ser classificados por meio da determinação do cluster
mais próximo.
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 8, AUG. 2016
A técnica de agrupamento pode ser usada para formar
grupos com conteúdo de curso semelhantes ou grupos de
alunos com base em seus padrões de aprendizagem e de
interação [10].
Os métodos de agrupamento podem ser classificados como
hierárquicos e não hierárquicos, também conhecidos como
particionais. Os métodos hierárquicos consistem em uma série
de sucessivos agrupamentos ou sucessivas divisões de
elementos, nas quais os elementos são agregados ou
desagregados visando construir uma hierarquia de clusters
[11]. O resultado do agrupamento hierárquico é representado
através de uma árvore de clusters, também chamada de
Dendograma, mostrada na Fig. 2.
Figura 2. Dendograma para representação de agrupamento hierárquico.
Conforme a formação dos clusters, o dendograma pode ser
construído utilizando uma estratégia top-down, partindo da
raiz para as folhas, utilizando o método divisivo; ou ser
construído por uma estratégia bottom-up, partindo das folhas
em direção as raízes, utilizando o método aglomerativo.
Existem diferentes métodos aglomerativos, mas todos
seguem a mesma ideia: para n dados, a primeira partição é
formada por n clusters, nos quais cada cluster possui um único
do conjunto de dados até a última partição, e possui um único
cluster composto pelos n dados. A diferença entre os métodos
está na escolha da medida de similaridade utilizada, já que a
cada passo, os dois clusters mais similares encontrados são
unidos [10].
Os métodos não hierárquicos dividem o conjunto de
objetos de uma base de dados em um número pré-definido de
subconjuntos disjuntos e procuram iterativamente o melhor
particionamento até atingir uma condição de parada (Fig. 3).
Figura 3. Representação de agrupamento não hierárquico.
O uso de agrupamento não hierárquico é apropriado
quando existe uma lógica teórica ou empírica para estabelecer
o número de grupos ou quando o conjunto de dados é muito
LUIS CAVALCANTI RAMOS et al.: A COMPARATIVE
3757
grande (centenas ou milhares de casos). O k-means é o
algoritmo não hierárquico mais usado [16]. Esses métodos
exigem que o número de clusters seja estabelecido pelo
usuário antes do processo. Dado um conjunto D de dados com
n registros e k o número de clusters desejados, os algoritmos
de particionamento organizam os objetos em k clusters, tal que
k ≤ n.
Quando comparado com o método hierárquico, esse
método é mais rápido porque não é necessário calcular e
armazenar, durante o processamento, a matriz de similaridade,
que guarda as distâncias calculadas entre objetos a cada
iteração e é mais vantajoso nas aplicações que envolvam um
grande número de conjuntos, pois não há a necessidade do
dendograma [11].
C. Medidas de similaridade e algoritmos de agrupamento
O aspecto mais importante de métodos de agrupamento é o
critério para formar os grupos. Enquanto os aspectos
representacionais descrevem quais são os possíveis tipos de
modelos de agrupamento, o critério define qual o modelo se
ajusta melhor aos dados.
Normalmente, o critério de agrupamento é definido nos
termos de uma medida de similaridade, o que diz o quão perto
ou similar são dois pontos ou dois grupos. Dada uma medida
de similaridade, também é possível definir similaridade entre
clusters e expressar um critério de agrupamento que tenta
maximizar a similaridade intra-cluster e/ou minimizar
similaridade inter-cluster [14].
A escolha de uma medida de distância apropriada entre os
dados irá influenciar a formação dos clusters. Assim, alguns
elementos podem estar próximos um do outro de acordo com
uma medida de distância, ou mais longe de acordo com outra
medida adotada [12]. Para medir a similaridade entre atributos
utiliza-se o cálculo da distância entre eles.
A seguir, são apresentadas as medidas de similaridade mais
comumente utilizadas. Para uma visão abrangente de
diferentes medidas é recomendado o trabalho de Gan et al.
[15].
As principais medidas de distância usadas no agrupamento
hierárquico são as Distâncias de Minkowski, calculada pela
equação abaixo, onde d é o número de atributos dos dados e p
é a ordem da equação:
,
=
∑
(|
−
|) ,
≥1
(1)
A distância entre dois dados xi e xj é denotada por d(xi,xj). A
variação da ordem p define distâncias diferentes.
Uma variação bastante comum dessa distância é chamada
de Distância Euclidiana, quando p=2 na Eq. (1). É a métrica
mais popular e baseia-se na distância reta entre os dois pontos:
,
=
∑
(
−
)
(2)
Após a definição da medida de distância, diferentes
algoritmos de agrupamentos podem ser usados para realizar a
tarefa. Algoritmos hierárquicos como o Método da Mínima
Variância de Ward [17] são úteis para o trabalho exploratório,
quando não se tem uma ideia inicial do número provável de
clusters no conjunto de dados. Outros métodos usados são o
Single Linkage, AverageLinkage e o Two-step [16].
Em alguns casos, ambos tipos de agrupamento podem ser
usados sucessivamente. Por exemplo, um método hierárquico
pode ser utilizado com uma pequena amostra dos dados para
se ter uma noção do possível número de clusters e como eles
se fundem a cada iteração. Em seguida, o conjunto de dados
pode ser analisado por um método não hierárquico mais
eficiente com um número pré-determinado de aglomerados
[16].
III. TRABALHOS RELACIONADOS
O uso da análise de clusters em contextos educacionais tem
sido evidenciado na literatura em razão da necessidade dos
pesquisadores em descobrir características peculiares e
comuns a grupos distintos de estudantes.
O problema é que existem vários algoritmos de
agrupamento e poucas diretrizes gerais sobre qual método
escolher. A escolha ideal é dependente da natureza dos dados
e raramente podem ser encontrados diretamente sem um
comparativo entre a diversidade de métodos. Ainda assim, os
efeitos do agrupamento de estudantes e as características
típicas de dados educacionais tornam determinados métodos
de agrupamento mais adequados ou atraentes. Em Hämäläinen
et al. [14], os autores avaliaram os principais métodos de
agrupamento partir dessa perspectiva. Com base na análise,
eles sugerem os métodos mais promissores para diferentes
situações.
O trabalho de Lopez et al. [18] projetou uma classificação a
partir do uso de agrupamento para prever as notas finais de
estudantes universitários iniciantes. O artigo analisou se a
participação dos alunos no fórum do curso pode ser um bom
preditor de nota final, e se a classificação proposta através de
agrupamento pode obter a nota com exatidão similar aos
algoritmos de classificação tradicionais.
Diversos algoritmos de clusters usando a abordagem
proposta foram comparados com algoritmos de classificação
tradicionais para prever se os alunos passam ou reprovam no
curso, com base nos seus dados de uso do fórum no Moodle.
Em Dominguez et al. [19], os autores apresentaram uma
proposta de ferramenta que gera dicas para os estudantes que
estão concluindo exercícios de programação. Essas dicas
podem ser links para tópicos que são relevantes para o
problema detectado e pode incluir dicas preventivas para
evitar futuros erros. A partir de dados de anos anteriores,
foram usadas as tarefas de agrupamento e classificação, além
de análise numérica para geração das dicas. O sistema analisa
grupos de padrões que afetam o desempenho dos alunos
durante a sua interação com o sistema e os clusters formam a
base para fornecer dicas para os alunos em tempo real.
O trabalho de França e Amaral [20] focou no desempenho
dos estudantes e apresentou o uso de técnicas de agrupamento,
visando a formação de grupos similares de estudantes com
dificuldades de aprendizagem em Programação Orientada a
Objetos. Os resultados mostraram grupos com alunos com
dificuldades para entender e aplicar alguns conceitos, que no
final foram reprovados na disciplina.
3758
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 8, AUG. 2016
Peckham e McCalla [21] realizaram um experimento em
um ambiente de aprendizagem concebido para simular cursos
hipermídia com o objetivo de identificar padrões de
comportamento dos alunos em uma tarefa de compreensão de
leitura. Eles utilizaram o algoritmo de agrupamento k-means
para essa identificação.
Embora existam estudos comparativos dos principais
métodos de agrupamento como em Hämäläinen et al. [14], é
perceptível a carência de trabalhos que relatem aplicações
práticas que descrevam características de comparação entre
uma método hierárquico e um não-hierárquico.
IV. DESCRIÇÃO DO EXPERIMENTO
A coleta de dados foi realizada com dados do Curso de
Bacharelado em Administração Pública na modalidade a
distância, ofertado pela Universidade Federal do Vale do São
Francisco - Brasil (UNIVASF). O curso possui 200 alunos
matriculados, distribuídos em 06 polos em cidades da região.
Foram coletadas e analisadas as diversas informações contidas
no banco de dados da disciplina "Introdução à Educação a
Distância". A disciplina foi toda ofertada por meio do
ambiente Moodle, sendo dividida em quatro tópicos
distribuídos ao longo das quatro semanas de duração. A
estratégia de ensino foi baseada em vídeo-aulas, apostilas,
fóruns de discussão, chats e troca de mensagens pelo
ambiente. Ao longo de cada semana do curso, o material
didático era disponibilizado, assim como um fórum específico
para tratar do conteúdo foi criado para proporcionar interações
entre professor, alunos e tutores.
A. Coleta e tratamento de dados
A coleta e o tratamento de dados foram realizados
utilizando a metodologia proposta por Garcia et al. [7], sendo
dividida em três etapas principais: preparação dos dados,
extração de padrões (mineração de dados) e o pósprocessamento.
A etapa de preparação dos dados foi composta de três
fases: seleção, pré-processamento e transformação dos dados.
Na fase de seleção, os dados das interações dos alunos foram
coletados a partir de consultas SQL na base de dados. Na fase
de pré-processamento, foi realizada a limpeza dos dados
selecionados, a fim de garantir que sua qualidade e acurácia. A
limpeza dos dados se resume em filtrar ou atestar a presença
de outliers, agregar e preencher os valores ausentes (missing
values), na tabela de dados. A transformação dos dados
finaliza esta etapa, adequando ou normalizando os dados aos
algoritmos selecionados, de acordo com a aplicação que será
utilizada para a mineração de dados.
A segunda etapa é onde ocorre a extração dos padrões nos
dados preparados na etapa anterior, com o uso da técnica de
mineração de dados e dos algoritmos escolhidos. Neste
trabalho optou-se pela utilização das técnicas de análise de
clusters, a partir do agrupamento hierárquico usando o método
de Ward e distância euclidiana, escolhidos por serem bastante
usados nesse tipo de análise, e o não hierárquico, utilizando o
algoritmo k-means, com os dados sendo divididos em 4
grupos em ambos os métodos.
Figura 4. Dendograma gerado pelo agrupamento hierárquico dos dados,
usando o método de Ward e a distância Euclidiana.
A escolha por quatro grupos foi balizada pela visualização
do dendograma do agrupamento hierárquico (Fig. 04), no qual
o corte para 4 grupos se mostrou adequado em razão da
formação desses grupos pelo algoritmo.
A terceira etapa é a de pós-processamento. Ela ocorre após
a mineração de dados e é responsável pela avaliação,
interpretação e utilização do conhecimento extraído, e caso se
faça necessário, o retorno às etapas anteriores para as devidas
adequações a fim de se obter uma mineração mais correta.
Conforme Ham et al. [9], o pós-processamento consiste da
fase de validação das descobertas efetuadas pela etapa de
processamento e da visualização dos resultados encontrados.
VI. RESULTADOS E DISCUSSÕES
Os resultados deste experimento foram obtidos utilizando o
pacote estatístico R (Disponível em http://www.r-project.org) para o
agrupamento hierárquico e a ferramenta Rapid Miner
(Disponível em http://www.rapidminer.com) para a
agrupamento não hierárquica.
Os atributos dos alunos na disciplina, registrados no
ambiente Moodle, que foram coletados e suas respectivas
descrições encontram-se na Tabela I, assim como suas
respectivas quantidades mínimas, máximas e médias
encontradas.
TABELA I
ATRIBUTOS DOS ALUNOS
Atributo
Nota
Chat
Download
Forum
Msg_rec_do_professo
r
Msg_env_ao_professo
r
Msg_rec__alunos
Msg_env_para_alunos
msg_rec_dos_tutores
Msg_env_aos_tutores
Descrição
Nota na avaliação final do curso
Qtd. postagens em Chats
Qtd. downloads realizados
Qtd. postagens em fóruns
Mín
0
0
0
0
Máx
100
46
24
50
Qtd. Msg, recebidas do professor
0
13
2,11
Qtd.
Qtd.
Qtd.
Qtd.
Qtd.
0
0
0
0
0
12
20
51
70
97
0,67
1,57
1,62
29,39
13,67
Msg, enviadas para professor
Msg, recebidas de alunos
Msg, enviadas para alunos
Msg, recebidas dos tutores
Msg, enviadas para tutores
Média
71,26
6,61
4,50
4,06
Percebe-se que média da nota da turma ficou acima da
média para aprovação (70,0). Merece destaque também a
quantidade média de mensagens trocadas entre alunos e
tutores, indicando uma boa interação entre esses atores, bem
acima da média das interações professor-aluno.
A partir dos dados normalizados, com 10 atributos e para
os 169 alunos observados, foram realizados dois
agrupamentos distintos, um hierárquico e outro nãohierárquico, para formação dos grupos de alunos conforme as
características dos dados coletados.
Após o processo, os grupos obtidos tiveram os seguintes
tamanhos (Tabela II):
LUIS CAVALCANTI RAMOS et al.: A COMPARATIVE
3759
TABELA II
TAMANHO DOS CLUSTERS EM CADA AGRUPAMENTO
seguinte aponta as características dos estudantes que
prevaleceram em cada par de grupos semelhantes.
B. Análise dos agrupamentos formados
Nº de Instâncias
(Alunos)
Grupo 01
H NH
9
41
Grupo 02
H
NH
96
11
Grupo 03
H
NH
26
9
Grupo 04
H
NH
38 108
H – Agrupamento Hierárquico NH – Agrupamento Não Hierárquico
Em cada método, observou-se a formação um grupo
pequeno, com 9 instâncias em ambos, e outro bem maior, com
96 (hierárquico) e 108 (não hierárquico) instâncias. Isso pode
indicar que os dados possuíam uma similaridade relevante, em
função da formação de desses grupos maiores.
A. Comparações entre os agrupamentos
A partir dos resultados dos agrupamentos, foi construída
uma matriz de semelhanças com o objetivo de determinar
como os estudantes estavam dispostos nos grupos formados,
verificando se os alunos de determinado grupo hierárquico
estavam presentes em algum grupo não hierárquico e viceversa. O número de instâncias coincidentes por cada grupo é
mostrado na Tabela III.
TABELA III
AGRUPAMENTO
HIERÁRQUICO (H)
AGRUPAMENTO NÃOHIERÁRQUICO (NH)
GRUPOS (H)
Grupo 1
Grupo 2
Grupo 3
Grupo 4
Total Instâncias (NH)
Grupo
01
TABELA IV
MÉDIA DAS VARIÁVEIS EM CADA AGRUPAMENTO
Variáveis
SEMELHANÇA ENTRE OS GRUPOS
GRUPOS (NH)
A partir das similaridades entre os grupos apresentada na
seção anterior, buscou-se então um aprofundamento das
caraterísticas representativas dessas semelhanças e seus
possíveis impactos no processo de ensino-aprendizagem na
disciplina. Em cada par de grupos com a maior taxa de
semelhança, a média de seus atributos foi analisada e então
extraídos conhecimentos relevantes acerca de cada um deles.
Com os grupos formados, foi realizada uma sumarização
dos dados por grupo com a respectiva média de cada atributo
nos grupos, apresentada na Tabela IV.
Nos grupos 3 (Hierárquico) e 2 (Não hierárquico), as
variáveis de maior destaque foram a alta média de downloads
de material didático, uma alta interação via fórum de
discussões e também na interação dos alunos com os
professores (Msg_rec_do_professor, Msg_env_ao_professor).
Grupo
02
Grupo
03
9
26
15
11
41
11
9
Total
Grupo
Instâncias
04
(H)
9
70
96
26
38
38
108
169
Partindo dos resultados obtidos na matriz, foi possível
observar um certo nível de semelhança entre os grupos, em
razão de igualdade entre os dois grupos formados por cada
tipo de agrupamento ou da presença de boa parte dos mesmos
estudantes em grupos distintos de cada um dos agrupamentos.
A lista abaixo sintetiza essas semelhanças:
• Grupo 1 Hierárquico - 100 % dos alunos são os mesmos do
Grupo 03 Não Hierárquico.
• Grupo 2 Hierárquico - 73% dos alunos são os mesmos do
Grupo 04 Não Hierárquico.
• Grupo 3 Hierárquico - 58% dos alunos são os mesmos do
Grupo 01 Não Hierárquico e 42% estão no Grupo 02.
• Grupo 4 Hierárquico - 100% dos alunos estão no Grupo 04
Não Hierárquico.
• Grupo 1 Não Hierárquico - 63% dos alunos são os mesmos
do Grupo 2 Hierárquico.
• Grupo 2 Não Hierárquico - 100% dos alunos estão no Grupo
3 Hierárquico.
• Grupo 3 Não Hierárquico - 100% dos alunos são os mesmos
do Grupo 1 Hierárquico.
• Grupo 4 Não Hierárquico - 65% dos alunos são os mesmos
do Grupo 2 Hierárquico.
Dada a semelhança encontrada entre os grupos formados
pelos agrupamentos em relação à distribuição dos alunos nos
quatro grupos, é possível concluir que a adoção de qualquer
dos métodos de agrupamento nos dados coletados nesse
experimento, poderia produzir resultados e conhecimentos
similares sobre as interações dos alunos estudados. A análise
Grupo 01
H
Chat
6,67
Download
2,56
Forum
4,10
Msg_rec_do_professor 2,33
Msg_env_ao_professor 1,00
Msg_rec_de_alunos
11,67
Msg_env_para_alunos 15,78
Msg_rec_dos_tutores 42,89
Msg_env_aos_tutores 13,56
Nota
71,81
Grupo 02
Grupo 03
NH
H
NH
H
17,59 4,43 12,18 22,69
7,22 4,89 8,18 6,50
6,39 3,74 10,82 9,04
1,66 1,69 5,27 3,23
0,34 0,32 5,27 2,62
1,54 0,91 2,45 2,35
1,05 0,67 3,64 2,35
29,97 27,22 43,09 37,31
17,13 11,99 40,64 27,62
78,72 77,70 73,07 78,75
Grupo 04
NH
H
NH
6,67 1,08 1,87
2,56 2,60 3,26
4,11 1,45 2,48
2,33 2,36 1,94
1,00 0,16 0,31
11,67 0,34 0,66
15,78 0,16 0,44
42,89 26,26 26,65
13,56 8,42 9,63
71,81 49,74 68,19
Através destes resultados exploratórios, podemos afirmar
que existem indícios de que estas variáveis tiveram uma forte
influência sobre o desempenho dos alunos desses grupos, que
obtiveram notas satisfatórias na disciplina. A alta interação,
tanto em fórum de discussão quanto a interação entre aluno e
professor, são as variáveis mais relevantes para estes grupos,
cujos alunos obtiveram notas satisfatórias na disciplina.
Em relação aos grupos 1 (Hierárquico) e 3 (Não
hierárquico), as variáveis que tiveram maior relevância em
ambos foram: o baixo número de downloads e uma alta
interação
entre
os
alunos
(Msg_rec_de_alunos,
Msg_env_de_alunos). Estes grupos destacam-se pelo fato de
serem alunos com alta comunicação entre eles através de
mensagens trocadas na plataforma, mesmo esses grupos tendo
uma baixa quantidade de material didático baixado. As notas
dos alunos em ambos os grupos alcançaram médias também
satisfatórias.
Nos grupos 4 (Hierárquico) e 4 (Não hierárquico), as
variáveis que se destacaram foram: baixa interação via chat,
baixa interação via fórum de discussão e uma baixa interação
entre os alunos através da troca de mensagens privadas.
Podemos verificar que a baixa interação aluno X aluno e a
participação nos fóruns tiveram indícios de influência na
diminuição do desempenho dos alunos, já que em ambos os
grupos, as notas na disciplina foram, em média, mais baixas
em relação aos demais grupos.
3760
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 8, AUG. 2016
VII. CONCLUSÃO
Como resultado principal dos agrupamentos realizados,
verificou-se que ambos os métodos apresentaram resultados
semelhantes, formando grupos de tamanhos, dados e
características similares. Com isso, é possível afirmar que o
resultado obtido por qualquer um dos métodos de
agrupamento, para esta natureza de dados, poderia ser usado
para extração de conhecimentos sobre dados de
comportamento dos alunos nessa disciplina no ambiente
Moodle.
Na formação dos grupos, percebeu-se que algumas
características se sobressaíam em cada par de grupo similar,
como por exemplo a interação aluno-professor, a participação
em fóruns de discussão e quantidade de material didático
baixado nos grupos 3 (hierárquico) e 2 (não hierárquico).
Nesses grupos, os alunos obtiveram bom desempenho,
possivelmente influenciados por esses indicadores de
interação satisfatórios.
De uma maneira geral, cada grupo formado pode oferecer
alguma particularidade para que a coordenação do curso ou o
professor possam promover ajustes no curso, como por
exemplo, promovendo tarefas em equipe que estimulem o
trabalho colaborativo e por consequência, eleve ainda mais o
nível de interação entre os alunos.
Os padrões de baixo desempenho, como os alunos do grupo
4 nos dois métodos, podem ser melhor estudados suas causas e
relações. A partir disso, medidas podem ser tomadas no
sentido de melhorar esse desempenho.
Planeja-se em trabalhos futuros resolver alguns desafios
que surgem a partir desta análise inicial, com a aplicação das
técnicas de agrupamento na mesma turma, agora em estágio
mais avançado no curso, a fim de averiguar se os atributos
estudados nesse trabalho passaram a influenciar mais no
desempenho e nas interações. A aplicação do processo em
outras turmas e a aplicação de outras tarefas de EDM podem
ser feitos a fim de descobrir novos comportamentos ou
predizer comportamentos futuros dos alunos.
AGRADECIMENTOS
Esta pesquisa é apoiada pela FACEPE-APQ No. 0525-1.03/14
e BCT 0016-1.03/15. Os autores também agradecem ao apoio
da PRPPGI/UNIVASF (Edital 18/2013) e à SEAD/UNIVASF
por colaborar e oferecer o ambiente para a pesquisa. Alex
Sandro Gomes é bolsista DT Nível 2/CNPq, processos nº
310466/2012-1 e nº 475634/2013-6.
REFERÊNCIAS
[1]
[2]
[3]
[4]
Baker, R., Isotani, S., and Carvalho, A. (2011). Mineração de dados
educacionais: Oportunidades para o Brasil. Revista Brasileira de
Informática na Educação, 19(02).
Rodrigues, R. L., Ramos, J. L. C., Silva, J. C. S., Gomes, A. S. (2014).
A literatura brasileira sobre mineração de dados educacionais. In Anais
do Workshop de Mineração de Dados em Ambientes Virtuais do
Ensino/Aprendizagem - (3º Congresso Brasileiro de Informática na
Educação - CBIE 2014, pg 621-630).
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data
mining to knowledge discovery in databases. AI magazine, 17(3), 37.
Krüger, A., Merceron, A., and Wolf, B. (2010). A data model to ease
analysis and mining of educational data. In Proceedings of 3rd
International Conference on Educational Data Mining, pg 131–140.
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
Romero, C., Ventura, S. (2013). Data mining in education. Wiley
Interdisciplinary Reviews: Data Mining and Knowledge Discovery,
3(1):12–27.
Heredia, D., Amaya, Y., & Barrientos, E. (2015). Student Dropout
Predictive Model Using Data Mining Techniques. Latin America
Transactions, IEEE (Revista IEEE America Latina), 13(9), 3127-3134.
Garcia, E., Romero, C., Ventura, S., and de Castro, C. (2011). A
collaborative educational association rule mining tool. The Internet and
Higher Education, 14(2).
Romero, C., Ventura, S., Espejo, P. G., &Hervás, C. (2008). Data
mining algorithms to classify students. In Proceedings of Educational
Data Mining Conference 2008.
Han, J.; Kamber, M.; Pei, J. (2011) Data mining: concepts and
techniques: concepts and techniques. Elsevier.
Vellido, A.; Castro, F.; Nebot, A. (2010) Clustering educational data.
Handbook of educational data mining, p. 75-92.
Maimon, O., Rokach, L. (2010). Data Mining and Knowledge Discovery
Handbook. 2nd. Springer.
Han, J.; Kamber, M.; Pei, J. (2011), Data mining: concepts and
techniques: concepts and techniques. Elsevier. ISBN 0123814804.
Jain, A. K.; Dubes, R. C. (1988). Algorithms for clustering data.
Prentice-Hall.ISBN 013022278X.
Hämäläinen, W., Kumpulainen, V., & Mozgovoy, M. (2015). Evaluation
of Clustering Methods for Adaptive Learning Systems. In Artificial
Intelligence Applications in Distance Education. UtkuKose and
DurmusKoc, editors. IGI Global Book series Advances in Mobile and
Distance Learning (AMDL).
Gan, G., Ma, C., & Wu, J. (2007). Data Clustering: Theory, Algorithms,
and Applications. ASA-SIAM Series on Statistics and Applied
Probability. SIAM.
Antonenko, P. D., Toy, S., & Niederhauser, D. S. (2012). Using cluster
analysis for data mining in educational technology research. Educational
Technology Research and Development, 60(3), 383-398.
Ward, J. H. (1963). Hierarchical grouping to optimize an objective
function. Journal of American Statistical Association, 58(301), 236–244.
Lopez, M. I., Luna, J. M., Romero, C., & Ventura, S. (2012).
Classification via Clustering for Predicting Final Marks Based on
Student Participation in Forums. Proceedings of the 5th International
Conference on Educational Data Mining.
Dominguez, A. K., Yacef, K., & Curran, J. R. (2010, June). Data mining
for individualised hints in e-learning. In Proceedings of the International
Conference on Educational Data Mining. Pittsburgh, PA, USA:
Carnegie Learning (pp. 91-100).
França, R. S., & do Amaral, H. J. C. (2013) Mineração de Dados na
Identificação de Grupos de Estudantes com Dificuldades de
Aprendizagemno Ensino de Programação. RENOTE, 11(1).
Peckham, T., McCalla, G. (2012). Mining Student Behavior Patterns in
Reading Comprehension Tasks. Proceedings of5th International
Conference on Educational Data Mining, pp. 87–94.
Jorge Luis Cavalcanti Ramos possui mestrado em Ciência
da Computação pelo CIn/UFPE. Atualmente é aluno de
doutorado em Ciência da Computação e professor do quadro
efetivo da Universidade Federal do Vale do São Francisco. É
pesquisador do grupo de pesquisas em Ciências Cognitivas e
Tecnologias Educacionais (CCTE) no CIn/UFPE. Áreas do conhecimento:
Technology Enhanced Learning (TEL) e Educational Data Mining (EDM).
Rodrigo Lins Rodrigues possui mestrado em Ciência da
Computação pelo Cin/UFPE, graduação em Computação e em
Estatística. Atualmente é aluno de doutorado em Ciência da
Computação e professor do quadro efetivo da Universidade
Federal Rural de Pernambuco. Pesquisador em dois grupos de
pesquisa vinculados ao CNPq: CCTE e TDAC. Áreas do
conhecimento em Computação: Data Science, Educational
Data Mining (EDM) e Technology Enhanced Learning (TEL). Áreas do
conhecimento em Estatística: Modelos de Regressão, Testes Paramétricos,
Modelagem estatística computacional.
João Carlos Sedraz Silva, possui graduação em Engenharia
Mecânica, especialização em Educação a Distância e
mestrado em Ciência da Computação. É docente da
Universidade Federal do Vale do São Francisco, onde
coordenou a implantação dos cursos de graduação e pósgraduação na modalidade a distância. Atualmente, é aluno de
doutorado no Centro de Informática da Universidade Federal de Pernambuco,
LUIS CAVALCANTI RAMOS et al.: A COMPARATIVE
com pesquisa concentrada na concepção e modelagem de ambientes virtuais
de aprendizagem.
Alex Sandro Gomes é Engenheiro Eletrônico (UFPE, 1992),
Mestre em Psicologia Cognitiva (UFPE, 1995) e concluiu o
doutorado em Ciências da Educação pela Université de Paris
v (René Descartes) em 1999. Atualmente é Professor no
Centro de Informática da UFPE. Atua com a concepção de
ambientes colaborativos de aprendizagem. Atuou como coordenador dos
eventos SBIE e IHC. Atuou como membro das comissões especiais de
Interação Humano Computador e Informática Educativa da SBC. É líder do
grupo de pesquisa Ciências Cognitivas e Tecnologia Educacional. É
Coordenador das comunidades de software livre Amadeus e Openredu.
Ricardo Euller Dantas e Silva é Engenheiro da Computação
formado pela Universidade Federal do Vale do São Francisco
– UNIVASF e Pós-graduando no curso de Engenharia de
Segurança contra Incêndio e Pânico.
3761
Download