Uso do Algoritmo APriori para Descoberta de Padrões de Evasão

Uso do Algoritmo APriori para Descoberta de Padrões de
Evasão de Usuários em Cursos Online
Francisco Araujo de Almeida Neto1, Alberto Nogueira de Castro Jr1
Instituto de Computação – Universidade Federal do Amazonas (UFAM)
CEP 69.077-000 – Manaus – AM – Brasil
1
[email protected], [email protected]
Resumo. Neste trabalho é investigado a utilização do algoritmo APriori para
a obtenção de Regras de Associação em um Base de Dados Educacionais com
o objetivo prever a ocorrência de evasão de alunos em cursos online. Os
melhores resultados foram obtidos ao se utilizar o Predictive APriori em
relação ao APriori sem alterações juntamente com a escolha e utilizar apenas
as Regras e Associação que indicam evasão.
1. Introdução
Assim como os cursos presenciais os cursos de Educação a Distância (EaD) também
sofrem com a evasão escolar dos seus alunos. As pesquisas de [Martins 2013] e
[Moreira 2013] demonstram uma preocupação em estudar os motivos da evasão escolar
em Ambientes Virtuais de Aprendizagem (AVA) com o objetivo de evitar tal evasão.
Por outro lado, a utilização de técnicas de mineração de dados vem sendo
utilizadas para a descoberta de padrões e regras de associação. Podemos citar como
exemplo a pesquisa relatada por [Ahmed 2009] aonde conseguiu-se Regras de
Associação (RA) para o trabalho de associar estudantes a empresas para a realização de
estágios ou trabalho prático pela Universidade Utara Malaysia (UUM) .
Assim, este trabalho pretende utilizar de mineração de dados para encontrar
regras de associação úteis para a prevenção da evasão escolar em em ambientes de
cursos online tais como os AVAs. Tais regras poderiam então ser aplicadas em cursos a
distância, tais como os oferecidos pela Universidade Aberta do Brasil (UAB) 1, com
potencial para aumentar a quantidade de pessoas concluindo com sucesso os cursos. Os
resultados diretos de tal melhoria seriam uma economia de recursos humanos e
materiais desses cursos, podendo então serem utilizados para aumentar ainda mais a
quantidade de alunos atendidos por esses cursos atualmente.
2. Trabalhos Relacionados
Segundo [Baker et al 2011] a área de Mineração de Dados Educacionais é uma área
1 http://uab.capes.gov.br
multidisciplinar recente cujos trabalhos permeiam várias subáreas da Ciência da
Computação, sendo o seu desenvolvimento no Brasil bastante recente.
No entanto, o uso de técnicas de mineração de dados de cursos online com o
objetivo de conseguir melhorias para o processo de ensino-aprendizagem já é explorado
em vários trabalhos de pesquisa dentre os quais podemos citar os trabalhos de [Baruke
et al 2007], [Baker 2010], [Gottardo et al 2012] e [Kovacic 2010] aonde foi possível
obter ganhos sensíveis para a área.
Um trabalho parecido com o deste estudo é de [Dekker et al 2009] aonde
também se procura prever quais estudantes vão evadir um curso online, no entanto no
trabalho dele apesar de serem utilizadas diferentes técnicas de mineração de dados o
algoritmo APriori não é utilizado.
3. Metodologia
Para a análise e estudo do Apriori para a geração de RA para evasão de alunos em um
curso online foi seguida a metodologia abaixo:
1. Estudo e escolha de uma base de dados educacionais a serem utilizados nos
experimentos; e
2. Escolha das variáveis a serem utilizadas nas RA; e
3. Realização de um pré-processamento na base de dados para melhor
entendimento do domínio do problema e realização de limpeza nos dados; e
4. Transformação das bases para um formato sumarizado a ser utilizado como
entrada para o algoritmo Apriori; e
5. Extração de RA com a utilização do Apriori; e
6. Teste e avaliação das RA em uma base de de dados não utilizada durante a
geração das RA; e
7. Interpretação e avaliação dos resultados
Na seção seguinte é iniciada a descrição dos experimentos deste trabalho.
4. Seleção e Tratamento dos Dados
Para a realização deste trabalho foi utilizado o PSLC DataShop2 [Koedinger et al. 2010],
de onde foram adquiridos os seguintes datasets:
•
Dataset 1: IWT Self-Explanation Study 0 (pilot) (Fall 2008)(raw data)
•
Dataset 2: IWT Self-Explanation Study 1 (Spring 2009) (raw data)
•
Dataset 3: IWT Self-Explanation Study 2 (Fall 2009) (raw data)
2 https://pslcdatashop.web.cmu.edu/
•
Dataset 4: IWT Self-Explanation Study 3 (Spring 2010) (raw data)
A escolha pelo PSLC DataShop se deu por ser uma base de dados Internacional
publicamente disponível e por ter um tratamento padronizado dos seus dados.
Além disso os datasets do “IWT Self-Explanation Study” tem os dados da
interação dos alunos com um Sistema Tutor Inteligente (STI) do projeto “Wylie Intelligent Writing Tutor”3 do LearnLab4. No curso aonde esse STI é utilizado os alunos
devem resolver problemas proposto pelo curso no ambiente online e ao final do curso
devem resolver o último problema do curso (sempre chamado de “survey”).
Da lista dos datasets escolhidos os três primeiros foram utilizados para a
descoberta das RA e o último foi utilizado para validar o funcionamento das RA
encontradas.
Tabela 1: Variáveis para o experimento
Variável
Descrição
total_problema_usuario Quantidade de problemas que o usuário resolveu.
qtd_problema_correto
Quantidade de problemas que o usuário resolveu corretamente
qtd_dica
Quantidade de dicas que o usuários solicitou ao ambiente/sistema
qtd_tentativa_incorreta
Quantidade de tentativas incorretas de resolução de uma questão
qtd_tentativa_correta
Quantidade de tentativas corretas de resolução de uma questão
total_tempo_problema
Somatório do tempo de resolução de todos os problemas
qtd_acesso
Quantidade de acessos ao ambiente
tempo_total_acesso
Tempo total de acesso ao ambiente
qtd_media_dica
Média de dicas solicitadas por problema
qtd_media_erro
Média de erros por problema
qtd_media_tentativa
Média de tentativas de resolução por problema
tempo_medio_problema Tempo médio utilizado em cada problema
tempo_medio_acesso
Tempo médio utilizado em cada acesso ao ambiente
evasao
Informa se houve evasão ou não do usuário no decorrer do curso
Para a seleção das variáveis para comporem o conjunto de dados dos
experimentos foram estudados os trabalhos de [Gottardo 2012], [Romero 2008], [Feng
2006], [Baker 2010] e [Dekker 2009]. Nos entanto, não foi possível utilizar todas as
variáveis citadas nesses estudos pois os datasets do PSLC DataShop não contém todas
elas, portanto após um cruzamento das informações disponíveis nos datasets e as
utilizadas nos artigos foram escolhidas as seguintes variáveis para representarem o
usuário no experimento conforme a Tabela 1.
A variável “evasao” é calculada verificando se o aluno acessou o problema
3 http://www.learnlab.org/research/wiki/index.php/Wylie_-_Intelligent_Writing_Tutor
4 http://www.learnlab.org/
“survey” pois ele é sempre apresentado ao final de cada curso do “IWT Self-Explanation
Study”.
Para poder utilizar o algoritmo APriore para a mineração de RA é necessário
transformar o valor das variáveis em valores discretos. Para tanto, para cada variável da
Tabela 1 com exceção da variável “evasão” foi feito o seguinte procedimento:
1. A variável recebe o valor de “POUCO” caso o seu valor esteja dentro do 1º
Quartil da distribuição daquela variável na turma
2. Caso contrário, se o seu valor for estiver contido dentro do 2º ou 3º Quartil da
distribuição daquela variável na turma ele recebe o valor de “MEDIO”
3. Caso contrário, ela recebe o valor de “ALTO”
A escolha dessa divisão foi para tentar avaliar cada aluno em relação ao
desempenho dos outros alunos da mesma turma.
Para a próxima fase do experimentos foram então construídos dois conjuntos de
dados para a criação das RA e posterior análise e validação delas:
•
O primeiro conjunto foi feito considerando todos os dados dos datasets 1 ao 3
incluindo a interação do aluno com o problema final “survey”.
•
O segundo conjunto também considera os datasets 1 ao 3, porém antes de gerar o
conjunto são apagados dos datasets todas as informações referentes ao problema
final “survey”.
Ou seja, vai ser utilizado o segundo conjunto para saber se as RA geradas para
prever um evento sem os dados gerados pelo próprio evento melhoram ou não a
qualidade das RA geradas, tal preocupação foi expressada nos trabalhos de [Dekker
2009] e [Ahmed 2009]. Tanto a geração como os experimentos de verificação das regras
do segundo grupo foram feitos com os dados até o momento imediatamente anterior a
aplicação do “survey”, com exceção do dado de evasão pois para obter este precisamos
saber quem acessou o “survey”.
5. Experimentos Realizados
Para a execução do experimento foi utilizado o software Weka5 [Mark Hall 2009] por ser
um software livre e ter implementado vários algoritmos de data mining incluindo o
APriori.
O APriori do Weka foi executado com os parâmetros configurados conforme a
Tabela 2 para os dois conjuntos de dados. As RA encontradas após a execução do Weka
estão sumarizadas na Tabela 3.
5 http://www.cs.waikato.ac.nz/ml/weka/index.html
Tabela 2:
Tabela
Principais
3: Regras
parâmetros
de Associação
configurados
encontradas
no APriori
com odoAPriori
Weka
Num
Regra
Com Dados do “Survey”
Condição
Parâmetro
carConfiança
Sem Dados
Valor do “Survey”
Condição
True
Confiança
total_problema_usuario=MEDIO classIndex
1.0
qtd_acesso=MEDIO
tempo_medio_problema=POUCOdelta
total_problema_usuario=MEDIO
-1
qtd_acesso=MEDIO
0.05
tempo_medio_problema=POUCO
1.0
1
0.1
qtd_problema_correto=MEDIO lowerBoundMinSupport
1.0
qtd_problema_correto=MEDIO
qtd_acesso=MEDIO
qtd_acesso=MEDIO
metricType tempo_medio_problema=POUCO
Confidence
tempo_medio_problema=POUCO
1.0
2
1.0
3
10
total_problema_usuario=MEDIO numRules
1.0
total_problema_usuario=MEDIO
qtd_problema_correto=MEDIO SignificanteLevel
qtd_problema_correto=MEDIO
-1.0
qtd_acesso=MEDIO
qtd_acesso=MEDIO
1.0
tempo_medio_problema=POUCOupperBoundMinSupport
tempo_medio_problema=POUCO
qtd_acesso=MEDIO
tempo_medio_problema=POUCO
0.97
4
5
6
7
8
0.97
total_problema_usuario=MEDIO
qtd_tentativa_incorreta=MEDIO
tempo_medio_problema=POUCO
0.96
total_problema_usuario=MEDIO
qtd_media_erro=MEDIO
tempo_medio_problema=POUCO
0.96
qtd_problema_correto=MEDIO
qtd_tentativa_incorreta=MEDIO
tempo_medio_problema=POUCO
0.96
qtd_problema_correto=MEDIO
qtd_media_erro=MEDIO
tempo_medio_problema=POUCO
total_problema_usuario=MEDIO
qtd_problema_correto=MEDIO
qtd_acesso=MEDIO
total_problema_usuario=MEDIO
qtd_acesso=MEDIO
Suporte Evasão
0.15
NAO
0.15
NAO
0.15
NAO
0.15
NAO
0.97
0.15
NAO
0.97
0.15
NAO
0.97
0.15
NAO
0.97
0.15
NAO
0.97
0.15
NAO
0.97
0.15
NAO
tempo_total_acesso=POUCO
qtd_problema_correto=MEDIO
qtd_tentativa_correta=POUCO
qtd_acesso=MEDIO
qtd_problema_correto=MEDIO
qtd_acesso=MEDIO
tempo_total_acesso=POUCO
0.96
total_problema_usuario=MEDIO
qtd_problema_correto=MEDIO
qtd_tentativa_correta=POUCO
qtd_acesso=MEDIO
9
10
total_problema_usuario=MEDIO
qtd_problema_correto=MEDIO
qtd_tentativa_incorreta=MEDIO
tempo_medio_problema=POUCO
total_problema_usuario=MEDIO
qtd_problema_correto=MEDIO
qtd_media_erro=MEDIO
tempo_medio_problema=POUCO
0.96
total_problema_usuario=MEDIO
qtd_problema_correto=MEDIO
qtd_acesso=MEDIO
tempo_total_acesso=POUCO
total_problema_usuario=MEDIO
0.96
qtd_tentativa_correta=POUCO
qtd_acesso=MEDIO
tempo_total_acesso=POUCO
Conforme podemos observar na Tabela 3, todas as regras encontradas foram para
o caso de o aluno não evadir. No entanto, tais regras não são desejáveis conforme os
argumentos apresentados por [Dekker 2009] para esses tipos de previsões e suas
consequências quando da ocorrência de falsos positivos ou falsos negativos. Para
exemplificar, podemos descrever o caso aonde uma dessas regras gere um falso negativo
(prever que o aluno não vai evadir quando na verdade ele vai) gerando um impacto para
os moderadores do curso online maior do que um falso positivo (prever o aluno vai
evadir quando na verdade ele não vai).
Para exemplificar o ponto, ao serem aplicados essas RA no Dataset 4 temos para
a utilização dos dados do “survey” uma previsão de 23 estudantes sem evasão, no
entanto em apenas 19 foram confirmadas as previsões, resultando em 4 estudantes que
estariam fora do acompanhamento do ambiente quando esses 4 deveriam estar sendo
monitorados de perto. Para o teste sem a utilização dos dados do “survey” este evento
não aconteceu (foram previstos e acertados 36 alunos sem evasão), no entanto com o
experimento aqui executado não se tem como afirmar se essa taxa de acerto de 100% vai
se repetir para outros cursos.
Portanto, suspeitou-se da possibilidade de obter resultados mais satisfatórios se
fossem encontradas RA para o caso de prever alunos com previsão de evasão e não o
contrário. No entanto, utilizando o algoritmo APriori implementado no Weka mostrouse difícil encontrar boas regras mesmo aumentando a quantidade de regras retornadas
pelo Weka. Assim, optou-se por utilizar o algoritmo Predictive APriori de [Scheffer
2001] que também se encontra implementado no Weka pois este algoritmo encontra as
RA enquanto balanceia o suporte e a confiança durante a sua execução.
Assim foi executado o algoritmo Predictive APriori no Weka para encontrar as
50 melhores regras e dessas 50 retirar as regras a respeito da previsão de ocorrência de
evasão. As regras encontradas para os dois conjuntos de dados se encontram descritas na
Tabela 4.
Tabela 4: Regras de Associação encontradas com o Predictive APriori
Com Dados do “Survey”
Num
Regra
Condição
Sem Dados do “Survey”
Acurácia
Calculada
Condição
Acurácia Evasão
Calculada
1
qtd_acesso=POUCO
0.99476
qtd_acesso=POUCO
0.99479
SIM
2
total_problema_usuario=POUCO
0.99430
total_problema_usuario=POUCO
0.99438
SIM
3
qtd_problema_correto=POUCO
0.99430
qtd_problema_correto=POUCO
0.99438
SIM
4
qtd_dica=POUCO
total_tempo_problema=POUCO
0.99352
qtd_dica=POUCO
total_tempo_problema=POUCO
0.99377
SIM
5
qtd_tentativa_correta=MEDIO
qtd_media_tentativa=ALTO
0.99352
SIM
6
qtd_dica=MEDIO qtd_media_dica=ALTO
0.99155
SIM
7
qtd_dica=POUCO
qtd_media_dica=MEDIO
0.99103
SIM
8
total_tempo_problema=POUCO
tempo_medio_problema=ALTO
0.99103
SIM
9
total_tempo_problema=MEDIO
tempo_medio_problema=ALTO
0.99040
SIM
Realizando a validação dessas regras no Dataset 4 foi observado os seguintes
resultados: Para o conjunto 1 (com dados do “survey”) foram previstos 22 alunos dos
quais 4 realmente evadiram, para o conjunto 2 (sem dados do “survey”) foram previstos
6 alunos dos quais 4 realmente evadiram.
6. Análise dos Resultados
O Dataset 4 tem dados de um total de 103 alunos sendo que 96 acessaram o problema
“survey” e 7 não acessaram. Estes últimos foram considerados neste trabalho como
evasão.
Foi observado que a geração e validação das RA sem os dados do problema
“survey” gerou resultados melhores do que com a utilização dos dados do problema
“survey”. Aponta-se a seguir os fatores que levam a essa conclusão:
•
As RA geraram menos falsos negativos e menos falsos positivos para os dados
utilizados neste experimento; e
•
Houve um aumento da média dos índices de confiança e acurácia para as RA que
foram encontradas neste experimento pelos algoritmos APriori e Predictive
APriori; e
•
Para as RA de previsão evasão houve uma menor quantidade de regras geradas.
Analisando o resultado do APriori e do Predictive APriori.
Portanto pode-se concluir que para a geração de RA que auxiliem os
administradores de um AVA na prevenção de evasões é melhor utilizar o Predictive
APriori procurando pelas que apontem os alunos que estão com risco de evasão.
7. Conclusões
A diminuição das taxas de evasão em cursos em um AVA é um objetivo que merece ser
seguido pois significa um melhor aproveitamento dos recursos envolvidos para a
operação e manutenção desses cursos, maior ainda a preocupação se o forem utilizadas
verbas publicas para a criação e manutenção desses cursos. Neste sentido, este trabalho
demonstra a possibilidade de utilizar o algorimo Predictive APriori para encontrar
Regras de Associação que forneçam aos administradores de um Sistema Tutor
Inteligente um meio de detectar possíveis evasões de alunos e assim possibilitar uma
intervenção com o objetivo de evitar as evasões antes delas acontecerem.
No entanto, este estudo levanta outra questão. Foi verificado que minerar as
Regras de Associação retirando-se os dados do último evento do curso, possibilitou um
ganho na qualidade das mesmas. Assim, a pergunta natural que surge é: até que ponto a
retirada em ordem cronológica invertida dos eventos pode melhorar a qualidade das
Regras de Associação? Esta questão será melhor investigada em trabalhos futuros.
Referências
Martins, Ronei Ximenes. Santos , Telsuita Laudomira Pereira. Et al. Por que eles
desistem? Estudo sobre a Evasão em Cursos de Licenciatura a Distância. ESUD
2013 – X Congresso Brasileiro de Ensino Superior a Distância Belém/PA, 11 – 13 de
junho de 2013 – UNIREDE
Moreira, Priscila Rezende. Glória, Laíssa Generoso Lott. Et al. Evasão Escolar nos
Cursos de Graduação a Distância. ESUD 2013 – X Congresso Brasileiro de Ensino
Superior a Distância Belém/PA, 11 – 13 de junho de 2013 – UNIREDE
Ahmed, Almahdi Mohamme. Norwawi , Norita Md. Et al. Identifying Student and
Organization Matching Pattern Using Apriori Algorithm for Practicum Placement.
2009 International Conference on Electrical Engineering and Informatics 5-7 August
2009, Selangor, Malaysia
Koedinger, K.R., Baker, R.S.J.d., Cunningham, K., Skogsholm, A., Leber, B.,
Stamper, J. (2010) A Data Repository for the EDM community: The PSLC
DataShop. . In Romero, C., Ventura, S., Pechenizkiy, M., Baker, R.S.J.d. (Eds.)
Handbook of Educational Data Mining. Boca Raton, FL: CRC Press.
Gottardo, E., Kaestner, C., & Noronha, R. (2012). Previsão de Desempenho de
Estudantes em Cursos EAD Utilizando Mineração de Dados: uma Estratégia
Baseada em Séries Temporais. In Simpósio Brasileiro de Informática na Educação
(pp. 26–30). Rio de Janeiro, RJ: SBIE. Retrieved from http://www.brie.org/pub/index.php/sbie/article/view/1758
Romero, C., Ventura, S., & García, E. (2008). Data mining in course management
systems: Moodle case study and tutorial. Computers & Education, 51(1), 368–384.
doi:10.1016/j.compedu.2007.05.016
Feng, M., Heffernan, N. T., & Koedinger, K. R. (2006). Addressing the testing
challenge with a web-based e-assessment system that tutors as it assesses.
Proceedings of the 15th International Conference on World Wide Web - WWW ’06,
307. doi:10.1145/1135777.1135825
Baker, R. d, Goldstein, A., & Heffernan, N. (2010). Detecting the Moment of
Learning. Intelligent Tutoring Systems, 25–34. doi:http://dx.doi.org/10.1007/978-3642-13388-6_7
Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann,
Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD
Explorations, Volume 11, Issue 1.
Dekker, G., Pechenizkiy, M., & Vleeshouwers, J. (2009). Predicting Students Drop
Out:
A
Case
Study.
EDM,
(9),
41–50.
Retrieved
from
http://www.win.tue.nl/~mpechen/projects/edm/internshipreport_090409.pdf
Scheffer, Tobias. 2001. Finding Association Rules That Trade Support Optimally
against Confidence. In: 5th European Conference on Principles of Data Mining and
Knowledge Discovery, 424-435, 2001.
Baruque, C. B., Amaral, M. A., Barcellos, A., Freitas, J. C. da S., & Longo, C. J.
(2007). Analysing Users’ Access Logs in Moodle to Improve e Learning. In Euro
American Conference On Telematics and Information Systems (pp. 1–4). Faro,
Portugal: ACM. doi:http://dx.doi.org/10.1145/1352694.1352767
Kovacic, Z. (2010). Early Prediction of Student Success: Mining Students’ Enrolment
Data. In Informing Science & IT Education Conference (InSITE) (pp. 647–665).
Retrieved from http://repository.openpolytechnic.ac.nz/handle/11072/646
Baker, R., Isotani, S., & Carvalho, A. (2011). Mineração de Dados Educacionais:
Oportunidades para o Brasil. Revista Brasileira de Informática Na Educação, 19(02),
3–13. doi:10.5753/RBIE.2011.19.02.03