Uso do Algoritmo APriori para Descoberta de Padrões de Evasão de Usuários em Cursos Online Francisco Araujo de Almeida Neto1, Alberto Nogueira de Castro Jr1 Instituto de Computação – Universidade Federal do Amazonas (UFAM) CEP 69.077-000 – Manaus – AM – Brasil 1 [email protected], [email protected] Resumo. Neste trabalho é investigado a utilização do algoritmo APriori para a obtenção de Regras de Associação em um Base de Dados Educacionais com o objetivo prever a ocorrência de evasão de alunos em cursos online. Os melhores resultados foram obtidos ao se utilizar o Predictive APriori em relação ao APriori sem alterações juntamente com a escolha e utilizar apenas as Regras e Associação que indicam evasão. 1. Introdução Assim como os cursos presenciais os cursos de Educação a Distância (EaD) também sofrem com a evasão escolar dos seus alunos. As pesquisas de [Martins 2013] e [Moreira 2013] demonstram uma preocupação em estudar os motivos da evasão escolar em Ambientes Virtuais de Aprendizagem (AVA) com o objetivo de evitar tal evasão. Por outro lado, a utilização de técnicas de mineração de dados vem sendo utilizadas para a descoberta de padrões e regras de associação. Podemos citar como exemplo a pesquisa relatada por [Ahmed 2009] aonde conseguiu-se Regras de Associação (RA) para o trabalho de associar estudantes a empresas para a realização de estágios ou trabalho prático pela Universidade Utara Malaysia (UUM) . Assim, este trabalho pretende utilizar de mineração de dados para encontrar regras de associação úteis para a prevenção da evasão escolar em em ambientes de cursos online tais como os AVAs. Tais regras poderiam então ser aplicadas em cursos a distância, tais como os oferecidos pela Universidade Aberta do Brasil (UAB) 1, com potencial para aumentar a quantidade de pessoas concluindo com sucesso os cursos. Os resultados diretos de tal melhoria seriam uma economia de recursos humanos e materiais desses cursos, podendo então serem utilizados para aumentar ainda mais a quantidade de alunos atendidos por esses cursos atualmente. 2. Trabalhos Relacionados Segundo [Baker et al 2011] a área de Mineração de Dados Educacionais é uma área 1 http://uab.capes.gov.br multidisciplinar recente cujos trabalhos permeiam várias subáreas da Ciência da Computação, sendo o seu desenvolvimento no Brasil bastante recente. No entanto, o uso de técnicas de mineração de dados de cursos online com o objetivo de conseguir melhorias para o processo de ensino-aprendizagem já é explorado em vários trabalhos de pesquisa dentre os quais podemos citar os trabalhos de [Baruke et al 2007], [Baker 2010], [Gottardo et al 2012] e [Kovacic 2010] aonde foi possível obter ganhos sensíveis para a área. Um trabalho parecido com o deste estudo é de [Dekker et al 2009] aonde também se procura prever quais estudantes vão evadir um curso online, no entanto no trabalho dele apesar de serem utilizadas diferentes técnicas de mineração de dados o algoritmo APriori não é utilizado. 3. Metodologia Para a análise e estudo do Apriori para a geração de RA para evasão de alunos em um curso online foi seguida a metodologia abaixo: 1. Estudo e escolha de uma base de dados educacionais a serem utilizados nos experimentos; e 2. Escolha das variáveis a serem utilizadas nas RA; e 3. Realização de um pré-processamento na base de dados para melhor entendimento do domínio do problema e realização de limpeza nos dados; e 4. Transformação das bases para um formato sumarizado a ser utilizado como entrada para o algoritmo Apriori; e 5. Extração de RA com a utilização do Apriori; e 6. Teste e avaliação das RA em uma base de de dados não utilizada durante a geração das RA; e 7. Interpretação e avaliação dos resultados Na seção seguinte é iniciada a descrição dos experimentos deste trabalho. 4. Seleção e Tratamento dos Dados Para a realização deste trabalho foi utilizado o PSLC DataShop2 [Koedinger et al. 2010], de onde foram adquiridos os seguintes datasets: • Dataset 1: IWT Self-Explanation Study 0 (pilot) (Fall 2008)(raw data) • Dataset 2: IWT Self-Explanation Study 1 (Spring 2009) (raw data) • Dataset 3: IWT Self-Explanation Study 2 (Fall 2009) (raw data) 2 https://pslcdatashop.web.cmu.edu/ • Dataset 4: IWT Self-Explanation Study 3 (Spring 2010) (raw data) A escolha pelo PSLC DataShop se deu por ser uma base de dados Internacional publicamente disponível e por ter um tratamento padronizado dos seus dados. Além disso os datasets do “IWT Self-Explanation Study” tem os dados da interação dos alunos com um Sistema Tutor Inteligente (STI) do projeto “Wylie Intelligent Writing Tutor”3 do LearnLab4. No curso aonde esse STI é utilizado os alunos devem resolver problemas proposto pelo curso no ambiente online e ao final do curso devem resolver o último problema do curso (sempre chamado de “survey”). Da lista dos datasets escolhidos os três primeiros foram utilizados para a descoberta das RA e o último foi utilizado para validar o funcionamento das RA encontradas. Tabela 1: Variáveis para o experimento Variável Descrição total_problema_usuario Quantidade de problemas que o usuário resolveu. qtd_problema_correto Quantidade de problemas que o usuário resolveu corretamente qtd_dica Quantidade de dicas que o usuários solicitou ao ambiente/sistema qtd_tentativa_incorreta Quantidade de tentativas incorretas de resolução de uma questão qtd_tentativa_correta Quantidade de tentativas corretas de resolução de uma questão total_tempo_problema Somatório do tempo de resolução de todos os problemas qtd_acesso Quantidade de acessos ao ambiente tempo_total_acesso Tempo total de acesso ao ambiente qtd_media_dica Média de dicas solicitadas por problema qtd_media_erro Média de erros por problema qtd_media_tentativa Média de tentativas de resolução por problema tempo_medio_problema Tempo médio utilizado em cada problema tempo_medio_acesso Tempo médio utilizado em cada acesso ao ambiente evasao Informa se houve evasão ou não do usuário no decorrer do curso Para a seleção das variáveis para comporem o conjunto de dados dos experimentos foram estudados os trabalhos de [Gottardo 2012], [Romero 2008], [Feng 2006], [Baker 2010] e [Dekker 2009]. Nos entanto, não foi possível utilizar todas as variáveis citadas nesses estudos pois os datasets do PSLC DataShop não contém todas elas, portanto após um cruzamento das informações disponíveis nos datasets e as utilizadas nos artigos foram escolhidas as seguintes variáveis para representarem o usuário no experimento conforme a Tabela 1. A variável “evasao” é calculada verificando se o aluno acessou o problema 3 http://www.learnlab.org/research/wiki/index.php/Wylie_-_Intelligent_Writing_Tutor 4 http://www.learnlab.org/ “survey” pois ele é sempre apresentado ao final de cada curso do “IWT Self-Explanation Study”. Para poder utilizar o algoritmo APriore para a mineração de RA é necessário transformar o valor das variáveis em valores discretos. Para tanto, para cada variável da Tabela 1 com exceção da variável “evasão” foi feito o seguinte procedimento: 1. A variável recebe o valor de “POUCO” caso o seu valor esteja dentro do 1º Quartil da distribuição daquela variável na turma 2. Caso contrário, se o seu valor for estiver contido dentro do 2º ou 3º Quartil da distribuição daquela variável na turma ele recebe o valor de “MEDIO” 3. Caso contrário, ela recebe o valor de “ALTO” A escolha dessa divisão foi para tentar avaliar cada aluno em relação ao desempenho dos outros alunos da mesma turma. Para a próxima fase do experimentos foram então construídos dois conjuntos de dados para a criação das RA e posterior análise e validação delas: • O primeiro conjunto foi feito considerando todos os dados dos datasets 1 ao 3 incluindo a interação do aluno com o problema final “survey”. • O segundo conjunto também considera os datasets 1 ao 3, porém antes de gerar o conjunto são apagados dos datasets todas as informações referentes ao problema final “survey”. Ou seja, vai ser utilizado o segundo conjunto para saber se as RA geradas para prever um evento sem os dados gerados pelo próprio evento melhoram ou não a qualidade das RA geradas, tal preocupação foi expressada nos trabalhos de [Dekker 2009] e [Ahmed 2009]. Tanto a geração como os experimentos de verificação das regras do segundo grupo foram feitos com os dados até o momento imediatamente anterior a aplicação do “survey”, com exceção do dado de evasão pois para obter este precisamos saber quem acessou o “survey”. 5. Experimentos Realizados Para a execução do experimento foi utilizado o software Weka5 [Mark Hall 2009] por ser um software livre e ter implementado vários algoritmos de data mining incluindo o APriori. O APriori do Weka foi executado com os parâmetros configurados conforme a Tabela 2 para os dois conjuntos de dados. As RA encontradas após a execução do Weka estão sumarizadas na Tabela 3. 5 http://www.cs.waikato.ac.nz/ml/weka/index.html Tabela 2: Tabela Principais 3: Regras parâmetros de Associação configurados encontradas no APriori com odoAPriori Weka Num Regra Com Dados do “Survey” Condição Parâmetro carConfiança Sem Dados Valor do “Survey” Condição True Confiança total_problema_usuario=MEDIO classIndex 1.0 qtd_acesso=MEDIO tempo_medio_problema=POUCOdelta total_problema_usuario=MEDIO -1 qtd_acesso=MEDIO 0.05 tempo_medio_problema=POUCO 1.0 1 0.1 qtd_problema_correto=MEDIO lowerBoundMinSupport 1.0 qtd_problema_correto=MEDIO qtd_acesso=MEDIO qtd_acesso=MEDIO metricType tempo_medio_problema=POUCO Confidence tempo_medio_problema=POUCO 1.0 2 1.0 3 10 total_problema_usuario=MEDIO numRules 1.0 total_problema_usuario=MEDIO qtd_problema_correto=MEDIO SignificanteLevel qtd_problema_correto=MEDIO -1.0 qtd_acesso=MEDIO qtd_acesso=MEDIO 1.0 tempo_medio_problema=POUCOupperBoundMinSupport tempo_medio_problema=POUCO qtd_acesso=MEDIO tempo_medio_problema=POUCO 0.97 4 5 6 7 8 0.97 total_problema_usuario=MEDIO qtd_tentativa_incorreta=MEDIO tempo_medio_problema=POUCO 0.96 total_problema_usuario=MEDIO qtd_media_erro=MEDIO tempo_medio_problema=POUCO 0.96 qtd_problema_correto=MEDIO qtd_tentativa_incorreta=MEDIO tempo_medio_problema=POUCO 0.96 qtd_problema_correto=MEDIO qtd_media_erro=MEDIO tempo_medio_problema=POUCO total_problema_usuario=MEDIO qtd_problema_correto=MEDIO qtd_acesso=MEDIO total_problema_usuario=MEDIO qtd_acesso=MEDIO Suporte Evasão 0.15 NAO 0.15 NAO 0.15 NAO 0.15 NAO 0.97 0.15 NAO 0.97 0.15 NAO 0.97 0.15 NAO 0.97 0.15 NAO 0.97 0.15 NAO 0.97 0.15 NAO tempo_total_acesso=POUCO qtd_problema_correto=MEDIO qtd_tentativa_correta=POUCO qtd_acesso=MEDIO qtd_problema_correto=MEDIO qtd_acesso=MEDIO tempo_total_acesso=POUCO 0.96 total_problema_usuario=MEDIO qtd_problema_correto=MEDIO qtd_tentativa_correta=POUCO qtd_acesso=MEDIO 9 10 total_problema_usuario=MEDIO qtd_problema_correto=MEDIO qtd_tentativa_incorreta=MEDIO tempo_medio_problema=POUCO total_problema_usuario=MEDIO qtd_problema_correto=MEDIO qtd_media_erro=MEDIO tempo_medio_problema=POUCO 0.96 total_problema_usuario=MEDIO qtd_problema_correto=MEDIO qtd_acesso=MEDIO tempo_total_acesso=POUCO total_problema_usuario=MEDIO 0.96 qtd_tentativa_correta=POUCO qtd_acesso=MEDIO tempo_total_acesso=POUCO Conforme podemos observar na Tabela 3, todas as regras encontradas foram para o caso de o aluno não evadir. No entanto, tais regras não são desejáveis conforme os argumentos apresentados por [Dekker 2009] para esses tipos de previsões e suas consequências quando da ocorrência de falsos positivos ou falsos negativos. Para exemplificar, podemos descrever o caso aonde uma dessas regras gere um falso negativo (prever que o aluno não vai evadir quando na verdade ele vai) gerando um impacto para os moderadores do curso online maior do que um falso positivo (prever o aluno vai evadir quando na verdade ele não vai). Para exemplificar o ponto, ao serem aplicados essas RA no Dataset 4 temos para a utilização dos dados do “survey” uma previsão de 23 estudantes sem evasão, no entanto em apenas 19 foram confirmadas as previsões, resultando em 4 estudantes que estariam fora do acompanhamento do ambiente quando esses 4 deveriam estar sendo monitorados de perto. Para o teste sem a utilização dos dados do “survey” este evento não aconteceu (foram previstos e acertados 36 alunos sem evasão), no entanto com o experimento aqui executado não se tem como afirmar se essa taxa de acerto de 100% vai se repetir para outros cursos. Portanto, suspeitou-se da possibilidade de obter resultados mais satisfatórios se fossem encontradas RA para o caso de prever alunos com previsão de evasão e não o contrário. No entanto, utilizando o algoritmo APriori implementado no Weka mostrouse difícil encontrar boas regras mesmo aumentando a quantidade de regras retornadas pelo Weka. Assim, optou-se por utilizar o algoritmo Predictive APriori de [Scheffer 2001] que também se encontra implementado no Weka pois este algoritmo encontra as RA enquanto balanceia o suporte e a confiança durante a sua execução. Assim foi executado o algoritmo Predictive APriori no Weka para encontrar as 50 melhores regras e dessas 50 retirar as regras a respeito da previsão de ocorrência de evasão. As regras encontradas para os dois conjuntos de dados se encontram descritas na Tabela 4. Tabela 4: Regras de Associação encontradas com o Predictive APriori Com Dados do “Survey” Num Regra Condição Sem Dados do “Survey” Acurácia Calculada Condição Acurácia Evasão Calculada 1 qtd_acesso=POUCO 0.99476 qtd_acesso=POUCO 0.99479 SIM 2 total_problema_usuario=POUCO 0.99430 total_problema_usuario=POUCO 0.99438 SIM 3 qtd_problema_correto=POUCO 0.99430 qtd_problema_correto=POUCO 0.99438 SIM 4 qtd_dica=POUCO total_tempo_problema=POUCO 0.99352 qtd_dica=POUCO total_tempo_problema=POUCO 0.99377 SIM 5 qtd_tentativa_correta=MEDIO qtd_media_tentativa=ALTO 0.99352 SIM 6 qtd_dica=MEDIO qtd_media_dica=ALTO 0.99155 SIM 7 qtd_dica=POUCO qtd_media_dica=MEDIO 0.99103 SIM 8 total_tempo_problema=POUCO tempo_medio_problema=ALTO 0.99103 SIM 9 total_tempo_problema=MEDIO tempo_medio_problema=ALTO 0.99040 SIM Realizando a validação dessas regras no Dataset 4 foi observado os seguintes resultados: Para o conjunto 1 (com dados do “survey”) foram previstos 22 alunos dos quais 4 realmente evadiram, para o conjunto 2 (sem dados do “survey”) foram previstos 6 alunos dos quais 4 realmente evadiram. 6. Análise dos Resultados O Dataset 4 tem dados de um total de 103 alunos sendo que 96 acessaram o problema “survey” e 7 não acessaram. Estes últimos foram considerados neste trabalho como evasão. Foi observado que a geração e validação das RA sem os dados do problema “survey” gerou resultados melhores do que com a utilização dos dados do problema “survey”. Aponta-se a seguir os fatores que levam a essa conclusão: • As RA geraram menos falsos negativos e menos falsos positivos para os dados utilizados neste experimento; e • Houve um aumento da média dos índices de confiança e acurácia para as RA que foram encontradas neste experimento pelos algoritmos APriori e Predictive APriori; e • Para as RA de previsão evasão houve uma menor quantidade de regras geradas. Analisando o resultado do APriori e do Predictive APriori. Portanto pode-se concluir que para a geração de RA que auxiliem os administradores de um AVA na prevenção de evasões é melhor utilizar o Predictive APriori procurando pelas que apontem os alunos que estão com risco de evasão. 7. Conclusões A diminuição das taxas de evasão em cursos em um AVA é um objetivo que merece ser seguido pois significa um melhor aproveitamento dos recursos envolvidos para a operação e manutenção desses cursos, maior ainda a preocupação se o forem utilizadas verbas publicas para a criação e manutenção desses cursos. Neste sentido, este trabalho demonstra a possibilidade de utilizar o algorimo Predictive APriori para encontrar Regras de Associação que forneçam aos administradores de um Sistema Tutor Inteligente um meio de detectar possíveis evasões de alunos e assim possibilitar uma intervenção com o objetivo de evitar as evasões antes delas acontecerem. No entanto, este estudo levanta outra questão. Foi verificado que minerar as Regras de Associação retirando-se os dados do último evento do curso, possibilitou um ganho na qualidade das mesmas. Assim, a pergunta natural que surge é: até que ponto a retirada em ordem cronológica invertida dos eventos pode melhorar a qualidade das Regras de Associação? Esta questão será melhor investigada em trabalhos futuros. Referências Martins, Ronei Ximenes. Santos , Telsuita Laudomira Pereira. Et al. Por que eles desistem? Estudo sobre a Evasão em Cursos de Licenciatura a Distância. ESUD 2013 – X Congresso Brasileiro de Ensino Superior a Distância Belém/PA, 11 – 13 de junho de 2013 – UNIREDE Moreira, Priscila Rezende. Glória, Laíssa Generoso Lott. Et al. Evasão Escolar nos Cursos de Graduação a Distância. ESUD 2013 – X Congresso Brasileiro de Ensino Superior a Distância Belém/PA, 11 – 13 de junho de 2013 – UNIREDE Ahmed, Almahdi Mohamme. Norwawi , Norita Md. Et al. Identifying Student and Organization Matching Pattern Using Apriori Algorithm for Practicum Placement. 2009 International Conference on Electrical Engineering and Informatics 5-7 August 2009, Selangor, Malaysia Koedinger, K.R., Baker, R.S.J.d., Cunningham, K., Skogsholm, A., Leber, B., Stamper, J. (2010) A Data Repository for the EDM community: The PSLC DataShop. . In Romero, C., Ventura, S., Pechenizkiy, M., Baker, R.S.J.d. (Eds.) Handbook of Educational Data Mining. Boca Raton, FL: CRC Press. Gottardo, E., Kaestner, C., & Noronha, R. (2012). Previsão de Desempenho de Estudantes em Cursos EAD Utilizando Mineração de Dados: uma Estratégia Baseada em Séries Temporais. In Simpósio Brasileiro de Informática na Educação (pp. 26–30). Rio de Janeiro, RJ: SBIE. Retrieved from http://www.brie.org/pub/index.php/sbie/article/view/1758 Romero, C., Ventura, S., & García, E. (2008). Data mining in course management systems: Moodle case study and tutorial. Computers & Education, 51(1), 368–384. doi:10.1016/j.compedu.2007.05.016 Feng, M., Heffernan, N. T., & Koedinger, K. R. (2006). Addressing the testing challenge with a web-based e-assessment system that tutors as it assesses. Proceedings of the 15th International Conference on World Wide Web - WWW ’06, 307. doi:10.1145/1135777.1135825 Baker, R. d, Goldstein, A., & Heffernan, N. (2010). Detecting the Moment of Learning. Intelligent Tutoring Systems, 25–34. doi:http://dx.doi.org/10.1007/978-3642-13388-6_7 Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1. Dekker, G., Pechenizkiy, M., & Vleeshouwers, J. (2009). Predicting Students Drop Out: A Case Study. EDM, (9), 41–50. Retrieved from http://www.win.tue.nl/~mpechen/projects/edm/internshipreport_090409.pdf Scheffer, Tobias. 2001. Finding Association Rules That Trade Support Optimally against Confidence. In: 5th European Conference on Principles of Data Mining and Knowledge Discovery, 424-435, 2001. Baruque, C. B., Amaral, M. A., Barcellos, A., Freitas, J. C. da S., & Longo, C. J. (2007). Analysing Users’ Access Logs in Moodle to Improve e Learning. In Euro American Conference On Telematics and Information Systems (pp. 1–4). Faro, Portugal: ACM. doi:http://dx.doi.org/10.1145/1352694.1352767 Kovacic, Z. (2010). Early Prediction of Student Success: Mining Students’ Enrolment Data. In Informing Science & IT Education Conference (InSITE) (pp. 647–665). Retrieved from http://repository.openpolytechnic.ac.nz/handle/11072/646 Baker, R., Isotani, S., & Carvalho, A. (2011). Mineração de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informática Na Educação, 19(02), 3–13. doi:10.5753/RBIE.2011.19.02.03