3-Implementação do protótipo de TM em dados - SIGEVE

TÉCNICAS DE MINERAÇÃO DE TEXTO EM DADOS EDUCACIONAIS PARA
CLASSIFICAÇÃO DE DOCUMENTOS NA ABORDAGEM CCS
TEXT MINING TECHNIQUES IN EDUCATIONAL DATA FOR DOCUMENTS
CLASSIFICATION ON CCS APPROACH
Klaus Schlünzen Junior1, Rodrigo Yoshio Tamae2
Departamento de Estatística, Faculdade de Ciências e Tecnologia, Universidade Estadual Paulista –UNESP
[email protected]
2
Doutorando pelo PPGE (Programa de Pós-graduação em Educação), Faculdade de Ciências e Tecnologia, Universidade
Estadual Paulista –UNESP
[email protected]
1
Eixo Temático 2 – Educação a Distância
Resumo: Uma enorme quantidade de dados educacionais em formato digital está em produção em
ambientes virtuais de aprendizagem. A maior parte destes dados, estruturados ou não, não são
utilizados para promover melhorias no processo de ensino e aprendizagem. Assim, emerge a área
de mineração de dados educacionais (EDM), com a qual pretende-se melhor compreender o
comportamento dos estudantes e como eles aprendem. Neste cenário, a ferramenta EDMXP
(Educational Data Mining eXPeriment), destinada à professores, gera uma importante contribuição
ao implementar as técnicas de EDM para executar a mineração de textos. O objetivo consiste em
analisar e encontrar indícios da abordagem construcionista, contextualizada e significativa (CCS)
em conteúdos textuais publicados nos recursos de mensagens doambiente virtual de aprendizagem
(AVA).
Palavras-chave: Mineração de dados educacionais. Abordagem CCS. Ferramenta EDMXP.
Abstract: A huge amount of educational data in digital format is under production in virtual
learning environments. The majority of these data, structured or not, are not used to increase
improvements in the teaching and learning process. Thus, there is the educational data mining area
(EDM), with which it is intended to better understand the behavior of students and how they learn.
In this scenario, the EDMXP (Educational Data Mining eXPeriment) tool, designed for teachers,
generates a significant contribution to implement the techniques of EDM to perform the text mining.
The purpose is analyze and find evidences of constructionist, contextualised and significative (CCS)
approach in textual content published in the messaging resources of virtual learning
environment(VLE).
Keywords: Educational data mining. CCS Approach. EDMXP tool.
1-Introdução
O grande avanço das TDIC (Tecnologias Digitais da Informação e da Comunicação)
possibilitaram o surgimento de uma infraestrutura com características inovadoras, viabilizando a
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]
existência de uma base coletiva de produção de conhecimento capaz de transpor limites sociais,
geográficos, cronológicos, culturais, técnicos e científicos. Como consequência, inúmeras áreas da
ciência têm passado por mudanças significativas e a educação, em especial, tem sido influenciada pela
tendência de modernização e globalização dos mercados.
Os horizontes de atuação na educação se ampliaram, com destaque para o Blended Learning,
uma modalidade de educação onde as atividades são realizadas parcialmente a distância. Pesquisas
recentes indicam que associada a uma abordagem moderna e dinâmica como a Construcionista,
Contextualizada e Significativa (CCS) é possível potencializar esta modalidade (SCHLÜNZEN, 2015).
A abordagem CCS faz uso de diversos recursos pedagógicos e tecnológicos para viabilizar a construção
do conhecimento ao possibilitar que o estudante seja o ator principal no seu processo de aprendizagem,
passando a construir seus conhecimentos com uso de metodologias ativas e apoio tecnológico.
Pode-se imaginar a enorme quantidade de dados em formato digital que são gerados em escala
crescente nestes ambientes. No entanto, tais registros não são utilizados para incrementar os processos
de ensino e aprendizagem, como por exemplo, verificar como ocorrem as relações e a construção de
produtos em AVA a partir de uma abordagem CCS. Uma tarefa difícil, mas é onde emerge a área da
mineração de dados educacionais (EDM, no original em inglês Educational Data Mining).
Não é um erro afirmar que faltam ferramentas genéricas de mineração de dados (DM, no
original em inglês Data Mining) para a Educação; há, sim, aquelas desenvolvidas para resolver
problemas com escopo bem definido (ROMERO e VENTURA, 2013). A EDM faz uso, na maior parte
dos casos, dos algoritmos já existentes da DM tradicional, o que não implica deduzir que trata-se de
uma tarefa trivial e são poucos os professores que possuem algum conhecimento capaz de ir além do
uso de ferramentas básicas de microinformática (como o Microsoft Windows e Office).
A questão é: Os professores precisam aprender DM para poder tirar proveito da EDM?
Acreditamos não e a melhor contribuição seria encapsular e abstrair toda a complexidade do processo
de EDM em uma ferramenta de software, capaz de ofertar ao professor recursos para usar suas
competências no processo de análise.
Por esta razão, este artigo apresenta resultados iniciais parciais obtidos com a implementação de
um software capaz de suprir parte desta demanda, denominado EDMXP (Educational Data Mining
eXPeriment). O cenário selecionado foi baseado em situações expostas na tese de Livre-Docência de
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]
Schlünzen (2015, p.130-132) onde a autora descreve como foi realizada a análise de um conjunto de
depoimentos segundo a abordagem CCS.
2-Aspectos conceituais relevantes
A DM situa-se no cerne de um campo emergente da ciência denominado Descoberta de
Conhecimento em Banco de Dados (KDD, no original em inglês Knowledge Discovery in Databases),
que pode ser definido como "o processo, não trivial, de extração de informações implícitas,
previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de
dados" (FAYAD, PIATETSKY-SHAPIRO e SMYTH, 1996, p.1). Trata-se de gerar uma abstração, pois
o campo da KDD diz respeito ao desenvolvimento de métodos e técnicas para fazer com que os dados
tenham sentido. Ao considerar que os dados são, normalmente, volumosos e difíceis de entender, com
KDD é possível gerar uma abstração aproximada ou modelo do processo (que gerou tais dados).
Para Zaki e Meira Jr (2014) a DM é um campo interdisciplinar para descoberta de
conhecimento que compreende os principais algoritmos que permitem compreensão fundamental e
conhecimento em grandes volumes de dados. Consiste, portanto, em uma forma de explorar e analisar
bancos de dados, na busca por identificar regras, padrões ou desvios nas informações.
Para o IEDMS (2016), a EDM emerge com a preocupação de desenvolver métodos capazes de
explorar dados digitais gerados em contextos educacionais para melhor compreender o comportamento
dos estudantes e em quais condições eles aprendem em um ambiente virtual de aprendizagem (AVA),
ao combinar conhecimentos oriundos da Ciência da computação, Estatística e Educação. Trata-se da
adaptação de algoritmos de DM para solucionar problemas educacionais.
De mesmo modo, a mineração de texto (TM, no original em inglês Text Mining) busca padrões
em textos. É o processo de analisar textos e extrair informação que possa ser útil em um contexto
particular, como a Educação. No entanto, em termos de DM, o que os difere em TM refere-se a não
existência de uma estrutura e formato previamente definidos, o que representa uma grande dificuldade
de se trabalhar com eles. Por se tratar do principal veículo de informação da era atual, é uma tarefa que
gera muita motivação, mas não se pode esquecer que o sucesso será apenas parcial (WITTEN, FRANK
e HALL, 2011, p. 386).
De maneira geral, o processo de DM é associado a Aprendizagem de Máquina. De acordo com
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]
Alpaydin (2010), o termo Aprendizagem de Máquina (ML, no original em inglês Machine Learning)
refere-se a sistemas computacionais com a capacidade de aprender e modificar o seu comportamento de
acordo com a variação de parâmetros externos ou por meio de registros gerados no seu período de
operação. Neste contexto, ML possibilita a construção de um modelo de TM, ou seja, uma fórmula
criada a partir da indução gerada com base em dados fornecidos pelo operador ou por meio do conjunto
de dados históricos disponíveis. O modelo é o componente-chave que possibilita o processo de
predição sobre novos dados textuais submetidos ao algoritmo de classificação. A Figura 1 – Arquitetura
funcional de mineração de textos ilustra a dinâmica simplificada utilizada em todo processo.
Figura 1 – Arquitetura funcional da mineração de textos
Fonte: Adaptado de FELDMAN e SANGER, 2007.
Uma das técnicas para implementação de ML é denominado Pacote de Palavras (no original em
inglês Bag of Words), uma forma de representação simplificada utilizada no Processamento de
Linguagem Natural (PNL) - que é uma área derivada da Ciência da Computação, Inteligência Artificial
e Linguística - destinada a estudar os mecanismos da linguagem humana, de tal forma que seja
compreensível aos sistemas computacionais (FELDMAN e SANGER, 2007). No Pacote de Palavras,
um texto é representado por um conjunto de palavras onde são ignoradas a gramática e a ordem, mas é
mantida a multiplicidade. Isso porque um dos grandes desafios da TM é que os objetos a serem
minerados não são estruturados, pois são formados por cadeias de caracteres em fluxo contínuo e
indeterminado, não seguindo nenhum padrão de construção, como ocorre por exemplo, com uma tabela
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]
de banco de dados ou mesmo dados organizados em uma planilha. Por isso, é necessário que um
conjunto de processos destinado a transformações sejam executadas a fim de estruturar o documento.
Por exemplo, imagine que o conteúdo hipotético de um documento seja “No campo da
Educação a mineração de dados em AVA utiliza TDIC para descobrir padrões”. O procedimento de TM
irá eliminar palavras sem valor semântico, as chamadas stopwords (palavras como: o, a, os, as, de, do,
um, também, em, para, entre outras). Em seguida, irá transformar cada palavra do documento em um
atributo (similar as colunas em uma planilha). Desta forma, o documento ficaria de acordo com a
Tabela 1 – Modelo de Pacote de Palavras. No caso do exemplo, o valor “1” da coluna “N.DOCUM.”,
na primeira linha da tabela identifica o documento do citado exemplo já transformado. Este processo de
transformação percorreu todo o documento, eliminou palavras desnecessárias e converteu cada palavras
do texto em uma coluna. Em seguida, todo documento é percorrido novamente e para cada palavra
significativa encontrada, um valor numérico é atribuído ao final: 1-Se satisfaz o contexto e 0-Se não
satisfaz. De acordo com a quantidade de palavras que satisfazem ou não o contexto, um valor (peso)
para a coluna “CLASSE” é determinado.
Tabela 1 – Modelo de Pacote de Palavras
Fonte: Os Autores, 2017.
A execução de todos estes processos que compõe a TM possibilitam, portanto, que ao final, seja
possível tratar os resultados de diversas formas, como por exemplo, gerando os chamados Dashboard
ou Quadro de Indicadores, um conjunto de elementos gráficos que facilitam o processo de análise
visual a partir de indicadores. Baseado neste fundamento, está em desenvolvimento um módulo
experimental que implementa EDM sobre dados educacionais de um AVA Moodle. A seguir,
apresentamos os primeiros resultados obtidos a partir desta implementação do módulo de TM da
ferramenta de EDM destinada a professores, o EDMXP.
3-Implementação do protótipo de TM em dados educacionais (EDMXP)
O protótipo inicial do módulo de TM da ferramenta EDMXP foi desenvolvido para classificar
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]
documentos que tenham características CCS de acordo com os procedimentos descritos por Schlünzen
(2015) em sua tese de Livre-Docência. Segundo Schlünzen (2015), uma das ações adotadas para
verificar como os cursistas têm observado os aspectos da formação para benefício de sua prática ou
como estão relacionando os conteúdos pedagógicos com o contexto é reunir no AVA de equipe os
depoimentos dos cursistas no decorrer das disciplinas, de tal forma que a coordenação e as demais
equipes possam ter acesso e acompanhar o retorno dos cursistas, refletir e atuar continuamente para a
melhoria constante dos cursos, novamente em um processo de espiral da aprendizagem. Percebe-se,
portanto, claramente as intenção estratégica da autora, bem como, os aspectos táticos utilizados. A
partir dos depoimentos, procura-se observar aspectos da abordagem CCS como: atribuição de
significado aos conteúdos; uso de recursos de TDIC e acessibilidade para a resolução de problemas da
prática; depuração e abstração reflexionante; construção de uma cultura inclusiva e aplicação dos
conceitos em um contexto e ampliação dos aspectos da prática.
No entanto, o processo de coleta dos relatos é feito por meio manual, o que acreditamos, ao
longo do tempo acabará por inviabilizar o procedimento, fazendo com que seja feito apenas por
amostragem sintética e não analítica. Ao refletir sobre a complexidade do modelo de implementação,
optamos por atentar a recomendação de Romero e Ventura (2013), uma vez que a área de EDM ainda
encontra-se em uma fase de maturação, eles ressaltam que deve-se utilizar as técnicas mais tradicionais
de DM para o desenvolvimento de soluções práticas orientada aos professores.
Por isso, foram utilizados os algoritmos tradicionais de DM disponíveis na API da plataforma
Weka (WITTEN, FRANK e HALL, 2011), bem como, um conjunto de ferramentas da plataforma Java,
por possibilitar acesso a um amplo leque de tecnologias capazes de interoperar com o AVA Moodle. No
protótipo de TM do EDMXP, a estratégia adotada foi baseado na ML e levamos em consideração que
não é necessário que o professor conheça o complexo processo de DM. Precisa saber apenas que é
necessário (1) indicar um conjunto de textos válidos e outro conjunto de textos inválidos (para o
aprendizado de máquina), (2) criar um modelo com o qual irá executar futuros processos de mineração
que estejam no contexto de classificação desejado; e, (3) aplicar o modelo em situação real.
A utilização do módulo de TM do EDMXP começa quando o usuário cria um modelo de TM.
Isso é feito na opção “Criar base para aprendizagem de máquina”, onde o EDMXP aprende o padrão de
classificação desejado a partir de um conjunto de dados fornecidos. Para isso, deve dar entrada em
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]
conteúdos capazes de representar o contexto desejado para avaliar os documentos ou fontes no dados
futuros. É importante que tais conteúdos indiquem os discursos esperados pela abordagem CCS e
outros que não são esperados. O usuário pode criar modelos para diferentes contextos, por isso deve
indicar um nome para o arquivo do modelo. A Figura 2 – Interface para criar base para aprendizagem
de máquina ilustra um exemplo de como o usuário pode executar estes passos.
A Figura 2 – Interface para criar base para aprendizagem de máquina
Fonte: Os Autores, 2017.
O EDMXP utiliza o modelo de Pacote de Palavras e o arquivo que armazena os dados de ML,
fica de acordo com o exemplo proposto na Figura 2, fica da forma como é representado no Listagem 1
– Arquivo ARFF da base de treinamento. Pode-se observar que existem dois elementos anotados como
“@attribute”, um chamado “texto” (corresponde a frase/conteúdo que foi informada pelo usuário) e
outro “class” (corresponde a classificação da frase no contexto; “1” para indicar a presença de aspectos
da abordagem CCS e “0” para indicar que não há presença da abordagem CCS). Observe que a última
frase se inicia com, praticamente, o mesmo conteúdo da frase inicial fornecida, exceto pela inserção do
termo “não” no início dela. De mesmo modo, a segunda e terceira frase indicam de forma mais objetiva
conteúdos fora do contexto. O objetivo é tornar o modelo mais preciso possível.
@relation TESTE01
@attribute texto string
@attribute class {0, 1}
@data
'Penso que estou aprendendo muito através de orientações de especialistas nesta
área da DA/Surdez e que muitos dos meus conceitos mudaram, reconheci que o
estudante surdo tem através da Libras sua própria voz, e não apenas para um
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]
circulo restrito de amigos, parentes e sim uma língua nacional para comunicar-se,
portanto entendo que nosso papel como especialista será de apresentar estas
possibilidades aos pais e ao estudante DA/Surdo como também aos ouvintes a
oportunidade de ouvir e falar com um colega surdo.', 1
'Eu não sei o que estou fazendo aqui. Vou escrever qualquer abobrinha para ficar
registrado que eu penso e estou refletindo. Melhor seria comprar um bicicleta', 0
'Acho que fiz a escolha errada. Melhor seria comprar um carro novo', 0
'Penso que não estou aprendendo muito através de orientações de especialistas
nesta área da DA/Surdez e que muitos dos meus conceitos não mudaram, reconheci
que o estudante surdo deveria comprar um carro ao invés de aprender Libras, e não
apenas para transporte, mas para parecer legal para os amigos, parentes e
comunidade. Esta é a forma para comunicar-se em uma sociedade cheia de normoses e
representa a oportunidade para um colega surdo.', 0
Listagem 1 – Arquivo ARFF da base de treinamento
Fonte: Os Autores, 2017.
O próximo passo consiste em verificar se o conjunto de dados fornecidos para treinamento do
EDMXP foram capazes de gerar o ML eficiente. A Figura 3 – Validação do modelo ilustra como o
usuário poderá realizar esta tarefa. A caixa de diálogo indica que o EDMXP foi capaz de aprender a
partir o modelo de classificação indicado. Isso pode ser obervado em “Correctly Classified Instances
10 100%” e “Incorrectly Classified Instances 0 0%”, ou seja, o comportamento de todos os 10 registros
informados puderam ser aprendidos pelo EDMXP. Outro indicador importante é referido como “Kappa
statistic 1”, onde o valor “1” representa cem por cento de acerto (em destaque na figura).
Figura 3 – Validação do modelo
Fonte: Os Autores, 2017.
Uma vez que o professor tenha avaliado o modelo de classificação positivamente, ele está
pronto para ser utilizado em situações reais de TM. A Figura 4 - TM sobre os recursos de troca de
mensagens no AVA Moodle ilustra um exemplo onde o modelo de classificação foi utilizado sobre uma
base de dados real do AVA Moodle. Um determinado aluno foi selecionado e com base em suas trocas
de mensagens, envio e recebimento de e-mails internos, participação em chat e fórum, o conteúdo
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]
textual destes documentos foram analisados segundo o modelo criado. Convém ressaltar que, apesar do
modelo ter indicado cem por cento de acertos, não se pode afirmar que os conteúdos atendem
precisamente o contexto desejado. O EDMXP tem por objetivo indicar se há indícios (ou não) e cabe
ao usuário, neste caso o professor, efetuar a análise final.
Figura 4 – TM sobre os recursos de troca de mensagens no AVA Moodle
Fonte: Os Autores, 2017.
Outros recursos disponíveis de TM não puderam ser expostos neste artigo, mas convém citar
que há a possibilidade de efetuar a mesma análise comparando todos os textos postados por todos
estudantes de um determinado curso, comparar as datas e horário de postagens com os acessos
efetuados pelos estudantes no AVA e gerar Tagclouds de cada tipo de recurso. Um outro recurso que
está em desenvolvimento, prevê a comparação do conteúdo de documentos postados em diferentes
formatos (.doc/docx, .xls/xlsx, .ppt/pptx, .pdf, entre outros) e brevemente será disponibilizado.
4-Considerações finais
No contexto da EDM, a TM pode ser utilizada para atender vários propósitos, como por
exemplo, para analisar sentimentos, classificar documentos (ou conteúdo de troca de mensagens),
verificar o engajamento do cursista, entre outros. A EDM é uma prática recente e convém salientar que
o professor que irá trabalhar com a EDM está sendo concebido a partir de uma conjugação de fatores
ou necessidades e não apenas porque há grande crescimento e proliferação das TDIC. Isso porque
mesmo professores qualificados para atividades docentes, muitas vezes, não são fluentes o suficiente
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]
no uso das TDIC, tão necessárias para conduzir o monitoramento e a intervenção nas atividades em
AVA.
Os recursos iniciais de TM do EDMXP possibilitam ao professor fazer uso das técnicas de
EDM sem se preocupar com as técnicas de EDM, apenas com a análise dos resultados, possibilitando a
ele concentrar-se mais em suas competências docentes. A EDM pode ser um fator transformador em
educação a partir do momento em que habilita o professor a tomar decisão com base em dados, em
fatos ocorridos, e não apenas de forma intuitiva ou com base em experiências ou poucas informações
contextuais. Por isso, pode representar uma nova oportunidade de transformar a forma de pensar e fazer
a educação.
Referências
ALPAYDIN, E. Introduction to Machine Learning. MIT Press, 2a Edição, 2010. ISBN-10: 0-26201243-X
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery:
An overview. In: Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press,
England, 1996, p.1-34.
FELDMAN, R.; SANGER, J. The Text Mining Handbook: Advanced Approaches in Analyzing
Unstructured Data. New York: Cambridge University Press, 2007.
IEDMS. International Educational Data Mining Society. Site oficial. Disponível em: <
http://www.educationaldatamining.org/>. Acesso em: 20 abr 2016.
ROMERO, C.; VENTURA, S. Data mining in education. WIREs Data Mining Knowl Discov, 3: 12–
27. 2013. DOI:10.1002/widm.1075
SCHLÜNZEN, E. T. M. Abordagem Construcionista, Contextualizada e Significativa: formação,
extensão e pesquisa em uma perspectiva inclusiva. Tese (Livre-Docência) - Unesp - Presidente
Prudente-SP. 2015.
WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Tools and
Techniques. Elsevier, 2011.
ZAKI, M.J.; MEIRA JR, W. Data Mining and Analysis - Fundamental Concepts and Algorithms.
Cambridge University Press. 2014.
Centro de Promoção para Inclusão Digital, Escolar e Social – FCT/UNESP
Rua Roberto Simonsen, 305 CEP 19060-900 Presidente Prudente SP
E-mail para contato: [email protected]