TÉCNICAS DE MINERAÇÃO DE TEXTO EM DADOS EDUCACIONAIS PARA CLASSIFICAÇÃO DE DOCUMENTOS NA ABORDAGEM CCS TEXT MINING TECHNIQUES IN EDUCATIONAL DATA FOR DOCUMENTS CLASSIFICATION ON CCS APPROACH Klaus Schlünzen Junior1, Rodrigo Yoshio Tamae2 Departamento de Estatística, Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista –UNESP [email protected] 2 Doutorando pelo PPGE (Programa de Pós-graduação em Educação), Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista –UNESP [email protected] 1 Eixo Temático 2 – Educação a Distância Resumo: Uma enorme quantidade de dados educacionais em formato digital está em produção em ambientes virtuais de aprendizagem. A maior parte destes dados, estruturados ou não, não são utilizados para promover melhorias no processo de ensino e aprendizagem. Assim, emerge a área de mineração de dados educacionais (EDM), com a qual pretende-se melhor compreender o comportamento dos estudantes e como eles aprendem. Neste cenário, a ferramenta EDMXP (Educational Data Mining eXPeriment), destinada à professores, gera uma importante contribuição ao implementar as técnicas de EDM para executar a mineração de textos. O objetivo consiste em analisar e encontrar indícios da abordagem construcionista, contextualizada e significativa (CCS) em conteúdos textuais publicados nos recursos de mensagens doambiente virtual de aprendizagem (AVA). Palavras-chave: Mineração de dados educacionais. Abordagem CCS. Ferramenta EDMXP. Abstract: A huge amount of educational data in digital format is under production in virtual learning environments. The majority of these data, structured or not, are not used to increase improvements in the teaching and learning process. Thus, there is the educational data mining area (EDM), with which it is intended to better understand the behavior of students and how they learn. In this scenario, the EDMXP (Educational Data Mining eXPeriment) tool, designed for teachers, generates a significant contribution to implement the techniques of EDM to perform the text mining. The purpose is analyze and find evidences of constructionist, contextualised and significative (CCS) approach in textual content published in the messaging resources of virtual learning environment(VLE). Keywords: Educational data mining. CCS Approach. EDMXP tool. 1-Introdução O grande avanço das TDIC (Tecnologias Digitais da Informação e da Comunicação) possibilitaram o surgimento de uma infraestrutura com características inovadoras, viabilizando a Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected] existência de uma base coletiva de produção de conhecimento capaz de transpor limites sociais, geográficos, cronológicos, culturais, técnicos e científicos. Como consequência, inúmeras áreas da ciência têm passado por mudanças significativas e a educação, em especial, tem sido influenciada pela tendência de modernização e globalização dos mercados. Os horizontes de atuação na educação se ampliaram, com destaque para o Blended Learning, uma modalidade de educação onde as atividades são realizadas parcialmente a distância. Pesquisas recentes indicam que associada a uma abordagem moderna e dinâmica como a Construcionista, Contextualizada e Significativa (CCS) é possível potencializar esta modalidade (SCHLÜNZEN, 2015). A abordagem CCS faz uso de diversos recursos pedagógicos e tecnológicos para viabilizar a construção do conhecimento ao possibilitar que o estudante seja o ator principal no seu processo de aprendizagem, passando a construir seus conhecimentos com uso de metodologias ativas e apoio tecnológico. Pode-se imaginar a enorme quantidade de dados em formato digital que são gerados em escala crescente nestes ambientes. No entanto, tais registros não são utilizados para incrementar os processos de ensino e aprendizagem, como por exemplo, verificar como ocorrem as relações e a construção de produtos em AVA a partir de uma abordagem CCS. Uma tarefa difícil, mas é onde emerge a área da mineração de dados educacionais (EDM, no original em inglês Educational Data Mining). Não é um erro afirmar que faltam ferramentas genéricas de mineração de dados (DM, no original em inglês Data Mining) para a Educação; há, sim, aquelas desenvolvidas para resolver problemas com escopo bem definido (ROMERO e VENTURA, 2013). A EDM faz uso, na maior parte dos casos, dos algoritmos já existentes da DM tradicional, o que não implica deduzir que trata-se de uma tarefa trivial e são poucos os professores que possuem algum conhecimento capaz de ir além do uso de ferramentas básicas de microinformática (como o Microsoft Windows e Office). A questão é: Os professores precisam aprender DM para poder tirar proveito da EDM? Acreditamos não e a melhor contribuição seria encapsular e abstrair toda a complexidade do processo de EDM em uma ferramenta de software, capaz de ofertar ao professor recursos para usar suas competências no processo de análise. Por esta razão, este artigo apresenta resultados iniciais parciais obtidos com a implementação de um software capaz de suprir parte desta demanda, denominado EDMXP (Educational Data Mining eXPeriment). O cenário selecionado foi baseado em situações expostas na tese de Livre-Docência de Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected] Schlünzen (2015, p.130-132) onde a autora descreve como foi realizada a análise de um conjunto de depoimentos segundo a abordagem CCS. 2-Aspectos conceituais relevantes A DM situa-se no cerne de um campo emergente da ciência denominado Descoberta de Conhecimento em Banco de Dados (KDD, no original em inglês Knowledge Discovery in Databases), que pode ser definido como "o processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados" (FAYAD, PIATETSKY-SHAPIRO e SMYTH, 1996, p.1). Trata-se de gerar uma abstração, pois o campo da KDD diz respeito ao desenvolvimento de métodos e técnicas para fazer com que os dados tenham sentido. Ao considerar que os dados são, normalmente, volumosos e difíceis de entender, com KDD é possível gerar uma abstração aproximada ou modelo do processo (que gerou tais dados). Para Zaki e Meira Jr (2014) a DM é um campo interdisciplinar para descoberta de conhecimento que compreende os principais algoritmos que permitem compreensão fundamental e conhecimento em grandes volumes de dados. Consiste, portanto, em uma forma de explorar e analisar bancos de dados, na busca por identificar regras, padrões ou desvios nas informações. Para o IEDMS (2016), a EDM emerge com a preocupação de desenvolver métodos capazes de explorar dados digitais gerados em contextos educacionais para melhor compreender o comportamento dos estudantes e em quais condições eles aprendem em um ambiente virtual de aprendizagem (AVA), ao combinar conhecimentos oriundos da Ciência da computação, Estatística e Educação. Trata-se da adaptação de algoritmos de DM para solucionar problemas educacionais. De mesmo modo, a mineração de texto (TM, no original em inglês Text Mining) busca padrões em textos. É o processo de analisar textos e extrair informação que possa ser útil em um contexto particular, como a Educação. No entanto, em termos de DM, o que os difere em TM refere-se a não existência de uma estrutura e formato previamente definidos, o que representa uma grande dificuldade de se trabalhar com eles. Por se tratar do principal veículo de informação da era atual, é uma tarefa que gera muita motivação, mas não se pode esquecer que o sucesso será apenas parcial (WITTEN, FRANK e HALL, 2011, p. 386). De maneira geral, o processo de DM é associado a Aprendizagem de Máquina. De acordo com Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected] Alpaydin (2010), o termo Aprendizagem de Máquina (ML, no original em inglês Machine Learning) refere-se a sistemas computacionais com a capacidade de aprender e modificar o seu comportamento de acordo com a variação de parâmetros externos ou por meio de registros gerados no seu período de operação. Neste contexto, ML possibilita a construção de um modelo de TM, ou seja, uma fórmula criada a partir da indução gerada com base em dados fornecidos pelo operador ou por meio do conjunto de dados históricos disponíveis. O modelo é o componente-chave que possibilita o processo de predição sobre novos dados textuais submetidos ao algoritmo de classificação. A Figura 1 – Arquitetura funcional de mineração de textos ilustra a dinâmica simplificada utilizada em todo processo. Figura 1 – Arquitetura funcional da mineração de textos Fonte: Adaptado de FELDMAN e SANGER, 2007. Uma das técnicas para implementação de ML é denominado Pacote de Palavras (no original em inglês Bag of Words), uma forma de representação simplificada utilizada no Processamento de Linguagem Natural (PNL) - que é uma área derivada da Ciência da Computação, Inteligência Artificial e Linguística - destinada a estudar os mecanismos da linguagem humana, de tal forma que seja compreensível aos sistemas computacionais (FELDMAN e SANGER, 2007). No Pacote de Palavras, um texto é representado por um conjunto de palavras onde são ignoradas a gramática e a ordem, mas é mantida a multiplicidade. Isso porque um dos grandes desafios da TM é que os objetos a serem minerados não são estruturados, pois são formados por cadeias de caracteres em fluxo contínuo e indeterminado, não seguindo nenhum padrão de construção, como ocorre por exemplo, com uma tabela Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected] de banco de dados ou mesmo dados organizados em uma planilha. Por isso, é necessário que um conjunto de processos destinado a transformações sejam executadas a fim de estruturar o documento. Por exemplo, imagine que o conteúdo hipotético de um documento seja “No campo da Educação a mineração de dados em AVA utiliza TDIC para descobrir padrões”. O procedimento de TM irá eliminar palavras sem valor semântico, as chamadas stopwords (palavras como: o, a, os, as, de, do, um, também, em, para, entre outras). Em seguida, irá transformar cada palavra do documento em um atributo (similar as colunas em uma planilha). Desta forma, o documento ficaria de acordo com a Tabela 1 – Modelo de Pacote de Palavras. No caso do exemplo, o valor “1” da coluna “N.DOCUM.”, na primeira linha da tabela identifica o documento do citado exemplo já transformado. Este processo de transformação percorreu todo o documento, eliminou palavras desnecessárias e converteu cada palavras do texto em uma coluna. Em seguida, todo documento é percorrido novamente e para cada palavra significativa encontrada, um valor numérico é atribuído ao final: 1-Se satisfaz o contexto e 0-Se não satisfaz. De acordo com a quantidade de palavras que satisfazem ou não o contexto, um valor (peso) para a coluna “CLASSE” é determinado. Tabela 1 – Modelo de Pacote de Palavras Fonte: Os Autores, 2017. A execução de todos estes processos que compõe a TM possibilitam, portanto, que ao final, seja possível tratar os resultados de diversas formas, como por exemplo, gerando os chamados Dashboard ou Quadro de Indicadores, um conjunto de elementos gráficos que facilitam o processo de análise visual a partir de indicadores. Baseado neste fundamento, está em desenvolvimento um módulo experimental que implementa EDM sobre dados educacionais de um AVA Moodle. A seguir, apresentamos os primeiros resultados obtidos a partir desta implementação do módulo de TM da ferramenta de EDM destinada a professores, o EDMXP. 3-Implementação do protótipo de TM em dados educacionais (EDMXP) O protótipo inicial do módulo de TM da ferramenta EDMXP foi desenvolvido para classificar Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected] documentos que tenham características CCS de acordo com os procedimentos descritos por Schlünzen (2015) em sua tese de Livre-Docência. Segundo Schlünzen (2015), uma das ações adotadas para verificar como os cursistas têm observado os aspectos da formação para benefício de sua prática ou como estão relacionando os conteúdos pedagógicos com o contexto é reunir no AVA de equipe os depoimentos dos cursistas no decorrer das disciplinas, de tal forma que a coordenação e as demais equipes possam ter acesso e acompanhar o retorno dos cursistas, refletir e atuar continuamente para a melhoria constante dos cursos, novamente em um processo de espiral da aprendizagem. Percebe-se, portanto, claramente as intenção estratégica da autora, bem como, os aspectos táticos utilizados. A partir dos depoimentos, procura-se observar aspectos da abordagem CCS como: atribuição de significado aos conteúdos; uso de recursos de TDIC e acessibilidade para a resolução de problemas da prática; depuração e abstração reflexionante; construção de uma cultura inclusiva e aplicação dos conceitos em um contexto e ampliação dos aspectos da prática. No entanto, o processo de coleta dos relatos é feito por meio manual, o que acreditamos, ao longo do tempo acabará por inviabilizar o procedimento, fazendo com que seja feito apenas por amostragem sintética e não analítica. Ao refletir sobre a complexidade do modelo de implementação, optamos por atentar a recomendação de Romero e Ventura (2013), uma vez que a área de EDM ainda encontra-se em uma fase de maturação, eles ressaltam que deve-se utilizar as técnicas mais tradicionais de DM para o desenvolvimento de soluções práticas orientada aos professores. Por isso, foram utilizados os algoritmos tradicionais de DM disponíveis na API da plataforma Weka (WITTEN, FRANK e HALL, 2011), bem como, um conjunto de ferramentas da plataforma Java, por possibilitar acesso a um amplo leque de tecnologias capazes de interoperar com o AVA Moodle. No protótipo de TM do EDMXP, a estratégia adotada foi baseado na ML e levamos em consideração que não é necessário que o professor conheça o complexo processo de DM. Precisa saber apenas que é necessário (1) indicar um conjunto de textos válidos e outro conjunto de textos inválidos (para o aprendizado de máquina), (2) criar um modelo com o qual irá executar futuros processos de mineração que estejam no contexto de classificação desejado; e, (3) aplicar o modelo em situação real. A utilização do módulo de TM do EDMXP começa quando o usuário cria um modelo de TM. Isso é feito na opção “Criar base para aprendizagem de máquina”, onde o EDMXP aprende o padrão de classificação desejado a partir de um conjunto de dados fornecidos. Para isso, deve dar entrada em Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected] conteúdos capazes de representar o contexto desejado para avaliar os documentos ou fontes no dados futuros. É importante que tais conteúdos indiquem os discursos esperados pela abordagem CCS e outros que não são esperados. O usuário pode criar modelos para diferentes contextos, por isso deve indicar um nome para o arquivo do modelo. A Figura 2 – Interface para criar base para aprendizagem de máquina ilustra um exemplo de como o usuário pode executar estes passos. A Figura 2 – Interface para criar base para aprendizagem de máquina Fonte: Os Autores, 2017. O EDMXP utiliza o modelo de Pacote de Palavras e o arquivo que armazena os dados de ML, fica de acordo com o exemplo proposto na Figura 2, fica da forma como é representado no Listagem 1 – Arquivo ARFF da base de treinamento. Pode-se observar que existem dois elementos anotados como “@attribute”, um chamado “texto” (corresponde a frase/conteúdo que foi informada pelo usuário) e outro “class” (corresponde a classificação da frase no contexto; “1” para indicar a presença de aspectos da abordagem CCS e “0” para indicar que não há presença da abordagem CCS). Observe que a última frase se inicia com, praticamente, o mesmo conteúdo da frase inicial fornecida, exceto pela inserção do termo “não” no início dela. De mesmo modo, a segunda e terceira frase indicam de forma mais objetiva conteúdos fora do contexto. O objetivo é tornar o modelo mais preciso possível. @relation TESTE01 @attribute texto string @attribute class {0, 1} @data 'Penso que estou aprendendo muito através de orientações de especialistas nesta área da DA/Surdez e que muitos dos meus conceitos mudaram, reconheci que o estudante surdo tem através da Libras sua própria voz, e não apenas para um Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected] circulo restrito de amigos, parentes e sim uma língua nacional para comunicar-se, portanto entendo que nosso papel como especialista será de apresentar estas possibilidades aos pais e ao estudante DA/Surdo como também aos ouvintes a oportunidade de ouvir e falar com um colega surdo.', 1 'Eu não sei o que estou fazendo aqui. Vou escrever qualquer abobrinha para ficar registrado que eu penso e estou refletindo. Melhor seria comprar um bicicleta', 0 'Acho que fiz a escolha errada. Melhor seria comprar um carro novo', 0 'Penso que não estou aprendendo muito através de orientações de especialistas nesta área da DA/Surdez e que muitos dos meus conceitos não mudaram, reconheci que o estudante surdo deveria comprar um carro ao invés de aprender Libras, e não apenas para transporte, mas para parecer legal para os amigos, parentes e comunidade. Esta é a forma para comunicar-se em uma sociedade cheia de normoses e representa a oportunidade para um colega surdo.', 0 Listagem 1 – Arquivo ARFF da base de treinamento Fonte: Os Autores, 2017. O próximo passo consiste em verificar se o conjunto de dados fornecidos para treinamento do EDMXP foram capazes de gerar o ML eficiente. A Figura 3 – Validação do modelo ilustra como o usuário poderá realizar esta tarefa. A caixa de diálogo indica que o EDMXP foi capaz de aprender a partir o modelo de classificação indicado. Isso pode ser obervado em “Correctly Classified Instances 10 100%” e “Incorrectly Classified Instances 0 0%”, ou seja, o comportamento de todos os 10 registros informados puderam ser aprendidos pelo EDMXP. Outro indicador importante é referido como “Kappa statistic 1”, onde o valor “1” representa cem por cento de acerto (em destaque na figura). Figura 3 – Validação do modelo Fonte: Os Autores, 2017. Uma vez que o professor tenha avaliado o modelo de classificação positivamente, ele está pronto para ser utilizado em situações reais de TM. A Figura 4 - TM sobre os recursos de troca de mensagens no AVA Moodle ilustra um exemplo onde o modelo de classificação foi utilizado sobre uma base de dados real do AVA Moodle. Um determinado aluno foi selecionado e com base em suas trocas de mensagens, envio e recebimento de e-mails internos, participação em chat e fórum, o conteúdo Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected] textual destes documentos foram analisados segundo o modelo criado. Convém ressaltar que, apesar do modelo ter indicado cem por cento de acertos, não se pode afirmar que os conteúdos atendem precisamente o contexto desejado. O EDMXP tem por objetivo indicar se há indícios (ou não) e cabe ao usuário, neste caso o professor, efetuar a análise final. Figura 4 – TM sobre os recursos de troca de mensagens no AVA Moodle Fonte: Os Autores, 2017. Outros recursos disponíveis de TM não puderam ser expostos neste artigo, mas convém citar que há a possibilidade de efetuar a mesma análise comparando todos os textos postados por todos estudantes de um determinado curso, comparar as datas e horário de postagens com os acessos efetuados pelos estudantes no AVA e gerar Tagclouds de cada tipo de recurso. Um outro recurso que está em desenvolvimento, prevê a comparação do conteúdo de documentos postados em diferentes formatos (.doc/docx, .xls/xlsx, .ppt/pptx, .pdf, entre outros) e brevemente será disponibilizado. 4-Considerações finais No contexto da EDM, a TM pode ser utilizada para atender vários propósitos, como por exemplo, para analisar sentimentos, classificar documentos (ou conteúdo de troca de mensagens), verificar o engajamento do cursista, entre outros. A EDM é uma prática recente e convém salientar que o professor que irá trabalhar com a EDM está sendo concebido a partir de uma conjugação de fatores ou necessidades e não apenas porque há grande crescimento e proliferação das TDIC. Isso porque mesmo professores qualificados para atividades docentes, muitas vezes, não são fluentes o suficiente Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected] no uso das TDIC, tão necessárias para conduzir o monitoramento e a intervenção nas atividades em AVA. Os recursos iniciais de TM do EDMXP possibilitam ao professor fazer uso das técnicas de EDM sem se preocupar com as técnicas de EDM, apenas com a análise dos resultados, possibilitando a ele concentrar-se mais em suas competências docentes. A EDM pode ser um fator transformador em educação a partir do momento em que habilita o professor a tomar decisão com base em dados, em fatos ocorridos, e não apenas de forma intuitiva ou com base em experiências ou poucas informações contextuais. Por isso, pode representar uma nova oportunidade de transformar a forma de pensar e fazer a educação. Referências ALPAYDIN, E. Introduction to Machine Learning. MIT Press, 2a Edição, 2010. ISBN-10: 0-26201243-X FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: An overview. In: Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press, England, 1996, p.1-34. FELDMAN, R.; SANGER, J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press, 2007. IEDMS. International Educational Data Mining Society. Site oficial. Disponível em: < http://www.educationaldatamining.org/>. Acesso em: 20 abr 2016. ROMERO, C.; VENTURA, S. Data mining in education. WIREs Data Mining Knowl Discov, 3: 12– 27. 2013. DOI:10.1002/widm.1075 SCHLÜNZEN, E. T. M. Abordagem Construcionista, Contextualizada e Significativa: formação, extensão e pesquisa em uma perspectiva inclusiva. Tese (Livre-Docência) - Unesp - Presidente Prudente-SP. 2015. WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Tools and Techniques. Elsevier, 2011. ZAKI, M.J.; MEIRA JR, W. Data Mining and Analysis - Fundamental Concepts and Algorithms. Cambridge University Press. 2014. Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP E-mail para contato: [email protected]