INSTITUCIONAL/IFSP PROJETO DE PESQUISA TÍTULO DO PROJETO: A CONTRIBUIÇÃO DA MINERAÇÃO DE TEXTOS NA AVALIAÇÃO DE ATIVIDADES PEDAGÓGICAS PROPOSTAS POR MEIO DE AMBIENTES VIRTUAIS DE APRENDIZAGEM. Área do Conhecimento (Tabela do CNPq): 7 . 0 8 . 0 4 . 0 4 1. RESUMO O aumento da aprendizagem mediada por tecnologias fez crescer a utilização de ambientes virtuais em propósitos educacionais. Muitos desses espaços, como as mídias sociais, apesar de não serem concebidos para condução de atividades pedagógicas, são ricos em ferramentas interacionais e comunicacionais que possibilitam uma aprendizagem mais colaborativa e estimulante, e por este motivo, passam a serem consideradas mais frequentemente no processo de ensino e aprendizagem. No entanto, há para estes espaços socializantes, uma ausência de mecanismos que possam apoiar a gestão do acompanhamento da aprendizagem, dificultando a avaliação dos estudantes em atividades pedagógicas que porventura venham a ser oferecidas por meio dessas mídias, agravada pela enorme quantidade de informações que são geradas nestes meios. A avaliação dessas atividades essencialmente considera a quantidade de postagens, “curtidas” e comentários que os estudantes publicam ao debateram determinado tema. Contabilizar essas ações acaba por limitar o estudo à uma análise quantitativa. Este trabalho busca apresentar uma discussão sobre como, a incorporação de técnicas de mineração de dados (data mining), em especial, a mineração de textos (text mining) para extrair conhecimento a partir de textos não estruturados, publicadas no âmbito de Ambientes Virtuais de Aprendizagem (AVAs) e/ou mídias sociais por meio de grupos criados com fins pedagógicos, pode propiciar uma avaliação mais qualitativa. O estudo prevê levantar o estado da arte sobre o tema, comparar as principais técnicas de mineração de textos e aplicar uma ferramenta pronta em um caso prático real. 2. FUNDAMENTAÇÃO TEÓRICA Com o advento da internet e o aumento da utilização de ambientes virtuais de aprendizagem, como as redes sociais educativas, o volume de dados disponíveis sobre os alunos e suas atividades nesses ambientes aumentou consideravelmente nos últimos anos. Sistemas educacionais essencialmente são sistemas complexos. Diferentes agentes interagem e colaboram entre si. Cada estudante aprende de um modo diferente e cada professor tem o seu método de ensino. Além disso em cada família o estudante terá contato com culturas e experiências diferentes dos seus pares que o transforme em um ser único com paradigma mental também único. O conhecimento emerge das interações que ocorrem entre esses agentes que se encontram imersos em ambientes reais e virtuais, formais e informais. Dentro deste contexto, as metodologias que permitam modelar o processo de ensino e aprendizagem podem fornecer uma melhor compreensão das dinâmicas criadas a partir dos ambientes virtuais de aprendizagem. A imensa disponibilidade de dados sobre os estudantes nesses espaços de certa forma torna inviável uma avaliação qualitativa. Entender a complexidade dos sistemas educacionais pode ser a maneira de se encontrar soluções simples (Berlow et al., 2009), sem no entanto, que esta redução propiciada - 4 pelo uso de técnicas de fragmentação, divisão e redução gerem um cenário pedagógico descontextualizado da realidade. Busca-se com esta pesquisa discutir como a incorporação de técnicas de mineração de dados pode auxiliar a tomada de decisões e a busca por informações mais precisas e exatas sobre as ações e o comportamento dos estudantes nesses ambientes, contribuindo dessa forma, para uma avaliação mais ágil e precisa além de fornecer subsídios para a recomendação de conteúdos específicos de acordo com o perfil de cada grupo de estudantes. A “Mineração de Dados Educacionais” é definida por Baker e Yacef (2009) como “uma disciplina emergente, preocupada com o desenvolvimento de métodos para exploração dos tipos de dados únicos provenientes dos ambientes educacionais e, utilizar esses métodos para entender melhor os alunos e as características de como eles aprendem”. Os dados gerados por meio de atividades pedagógicas propostas em ambientes virtuais de aprendizagem podem ser tratados a partir de técnicas como classificação, regressão e agrupamento de dados (Romero e Ventura, 2010; Baker et al., 2011). No ensino de diversos assuntos, especialmente aqueles complexos e não triviais, é sempre bem-vinda a recomendação de materiais complementares oriundos de diferentes fontes, além dos já apresentados pelos professores, para correta compreensão dos mesmos. Os ambientes virtuais de aprendizagem, se utilizados da forma correta, podem fomentar a colaboração e cooperação entre os alunos, tirando o foco do professor como única fonte de conhecimento e fornecedor do melhor material instrucional a ser seguido em dada disciplina. Deste modo, os alunos passam a poder participar desse processo, compartilhando conteúdos, sugestões, opiniões e críticas sobre os assuntos abordados, enriquecendo a construção e fixação do conhecimento, fazendo com que todos se envolvam e tenham suas expectativas atendidas. Nesse sentido, este estudo justifica-se, pois, abre a discussão sobre como a incorporação de ferramentas e recursos que apoiem a gestão do acompanhamento da aprendizagem em um ambiente virtual de aprendizagem pode melhorar o processo de avaliação e de personalização da aprendizagem ao indicar materiais de apoio apropriados a cada perfil de estudante. A mineração de dados é uma subárea da Ciência da Computação que tem ganhado destaque em função do aumento de informações geradas principalmente por meio dos serviços acessíveis a partir da internet. Os ambientes virtuais de aprendizagem podem conter diversos registros indicando ações executadas pelos estudantes e identificando por exemplo, comportamentos comuns a determinado grupo de alunos. Quando estes padrões são determinados pode-se a partir dai, estabelecer estratégias que facilitem a tomada de decisões por parte do professor permitindo que se avalie sistematicamente e de uma forma mais dinâmica este grupo com características comuns agilizando o processo de avaliação. A mineração de textos, por meio das suas diferentes técnicas e algoritmos propicia esta descoberta de padrões. De acordo com Usama Fayyad (1996), mineração de dados é "...o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis". Apesar de descobrir padrões em grandes volumes de dados, a tomada de decisão final sempre recairá sobre o analista humano, no caso, o professor, que analisará os resultados obtidos e com sua experiência fará inferências definitivas sobre a avaliação dos estudantes. Mineração de textos ou a mineração de dados textuais ou descoberta de conhecimento de bases de dados textuais é uma área interdisciplinar que envolve conhecimentos como Informática, Estatística e Linguística. Está relacionada ao processo de se extrair informações ou descobrir conhecimento em documentos de texto nãoestruturados. É uma ramificação da mineração de dados ou da descoberta de conhecimento em bases de dados estruturadas. Acredita-se que a mineração de dados, em especial a mineração de textos possa contribuir enormemente com a avaliação de estudantes que participem de ambientes virtuais de aprendizagem, tendo em vista que a maior parte das informações nesses espaços estão armazenadas em formato textual. A mineração de textos consiste em extrair regularidades, padrões ou tendências de grandes volumes de textos não estruturados, de forma automática, como por exemplo, documentos oriundos de emails, resultados de pesquisas, arquivos criados em editores de textos, páginas da Web, campos textuais em bancos de dados, etc. (Zanasi, 1997) 3. OBJETIVOS Este trabalho tem por objetivo geral avaliar como, a0 se incorporar técnicas de mineração de dados na extração de conhecimento de textos não estruturados escritos a partir de atividades pedagógicas propostas em ambientes virtuais de aprendizagem, poder-se-á haver uma melhora no processo de avaliação e na recomendação de materiais de apoio. Para alcançar esse objetivo geral, os seguintes objetivos específicos foram estabelecidos: Conceituar e caracterizar mineração de textos a partir de referências científicas levantadas nos principais repositórios de documentos científicos do Brasil e do Mundo; Comparar as principais técnicas de mineração de textos; Selecionar ferramentas prontas no mercado de mineração de textos, aplicar uma dessa ferramentas em um cenário real e a partir deste experimento, extrair a sua eficácia, seus pontos fortes e fragilidades; Criar um protótipo baseado em uma técnica escolhida que sirva de modelo para o desenvolvimento de um software a ser integrado em uma mídia social que permita avaliar textos não estruturados produzidos no âmbito deste espaço. 4. MATERIAIS E MÉTODOS Esta pesquisa será desenvolvida no laboratório destinado a este fim no Campus Cubatão e eventualmente poderá ser desenvolvido remotamente pelo estudante. Basicamente necessitará de um computador com acesso à Internet e aos repositórios de pesquisa, uma impressora e esporadicamente um scanner. Inicialmente, será feito um levantamento nos principais repositórios a fim de se conhecer os estudos mais atuais sobre o tema. Durante esse processo, os documentos mais importantes e atuais serão separados para uma futura análise. Passada a primeira fase, todos os artigos selecionados anteriormente serão estudados para a concepção de uma base sólida para elaboração dos futuros artigos. Passada essa fase, os artigos começarão a serem escritos com base nos documentos científicos mais relevantes selecionados. Alguns trechos selecionados (citações) serão incluídos nos textos para que se eleve a relevância do texto, e para comprovar a veracidade dos fatos expostos na pesquisa. Durante essa fase, também serão feitos resumos à serem encaminhados para os principais congressos de iniciação científica. Será feito um levantamento dos principais congressos de Iniciação Científica que acontecerão no decorrer do ano de 2016. O modelo de resumo de cada congresso será baixado e adaptado de acordo com a pesquisa para posterior submissão. Esta pesquisa possui uma grande relevância para Instituição na medida em que trata de um tema que converge para uma tendência e necessidade mundial em se analisar grandes volumes de informação de tal forma que se possam extrair padrões de comportamento que permitam rapidamente traçar perfis e recomendar conteúdos de forma eficiente e eficaz. Em sua essência este projeto possui características interdisciplinares, na medida em que envolve áreas como ciência da computação, linguística computacional, estatística, entre outras, se inserindo no campo da Computação Social. Embora este trabalho não faça parte de projetos relacionados a pesquisas realizadas em programas Latu-sensu e Stricto-sensu do IFSP, se insere na linha de pesquisa do grupo Intera, grupo este homologado no CNPq. Os resultados obtidos a partir desta pesquisa podem posteriormente serem usados como insumo para que se desenvolva uma ferramenta que incorpore técnicas de mineração de texto e que se permita produzir dessa forma um aplicativo a ser aplicado em um cenário real prático, que por sua vez, deve permitir a coleta dos resultados para uma análise crítica e conclusões. Poderão ocorrer visitas a Fatec – Unidade de Praia Grande ou à UFABC no intuito de realizar um intercâmbio de informações entre os agentes desta pesquisa com professores doutores e/ou especialistas em algumas das subáreas que compõem o projeto, para afinar o conhecimento. 5. PLANO DE TRABALHO Tabela 5.1 Metas estabelecidas para a pesquisa. METAS DESCRIÇÃO 1 Planejamento do Projeto de Pesquisa. 2 Levantamento do referencial teórico e fichamento. 3 Elaboração do 1º Artigo. Seleção dos documentos científicos mais relevantes, leitura e produção de um artigo que aborde o “estado da arte” em mineração de textos. 4 Elaboração do 2º Artigo. Seleção dos documentos científicos mais relevantes, leitura e produção de um artigo que aborde um estudo comparativo entre as principais técnicas de mineração de textos. 5 Inscrição dos resumos dos artigos 1 e 2 nos principais Congressos de Iniciação Científica. 6 Elaboração do 3º Artigo. Seleção dos documentos científicos mais relevantes, leitura e produção de um artigo que aborde os resultados obtidos na aplicação de uma ferramenta pronta de mineração de textos em um experimento real. 7 Inscrição do artigo 3 no CBIE/SBIE. 8 Relatório Parcial entregue- até 15/07/15 9 Elaboração de um protótipo de uma ferramenta que utilize técnicas de mineração de textos a ser incorporada em um ambiente virtual de aprendizagem para apoiar o processo de avaliação de textos não estruturados. 10 Relatório Final entregue– até 30/11/2015 Tabela 5.2 Cronograma proposta para cumprimento das metas. MESES METAS MAR ABR MAI JUN JUL AGO SET OUT NOV 1 2 3 4 5 6 7 8 9 10 6. VIABILIDADE DE EXECUÇÃO Esta pesquisa será desenvolvida no laboratório destinado a este fim no Campus Cubatão e eventualmente poderá ser desenvolvido remotamente pelo estudante. Basicamente necessitará de um computador com acesso à Internet e aos repositórios de pesquisa, uma impressora e esporadicamente um scanner. Ocorrerão reuniões semanais/quinzenais/mensais nos gabinetes de pesquisa disponíveis no Campus Cubatão. Exceto a bolsa do programa nenhuma outra fonte de recurso financeiro será necessária. Eventualmente será solicitado apoio financeiro para deslocamento e estadia para participação em Congressos. 7. RESULTADOS ESPERADOS E DISSEMINAÇÃO Busca-se com esta pesquisa a produção de três artigos científicos sendo dois deles submetidos à Congressos de Iniciação Científica e outro submetido a um Congresso Brasileiro de Educação. Espera-se ainda a criação do protótipo de uma ferramenta que utilize técnicas de mineração de textos a ser incorporada em um ambiente virtual de aprendizagem para apoiar o processo de avaliação de textos não estruturados. REFERÊNCIAS BIBLIOGRÁFICAS BAKER, Ryan SJD; YACEF, Kalina. The state of educational data mining in 2009: A review and future visions. JEDM-Journal of Educational Data Mining, v. 1, n. 1, p. 3-17, 2009. BAKER, Ryan; ISOTANI, Seiji; CARVALHO, Adriana. Mineração de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informática na Educação, v. 19, n. 02, p. 03, 2011. BERLOW, E. L. et al. Simple prediction of interaction strengths in complex food webs. Proceedings of the National Academy of Sciences, v. 106, n. 1, p. 187-191, 2009. Supplement (news summary) . 28 Rio de Janeiro, julho de 2015 Fayyad, Usama; Piatetski-Shapiro, Gregory; Smyth, Padhraic (1996) The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, pp.2734, Nov.1996. ROMERO, Cristóbal; VENTURA, Sebastián. Educational data mining: a review of the state of the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, v. 40, n. 6, p. 601-618, 2010. ZANASI, A. Discovering Data Mining. Prentice Hall, 1997 Referências bibliográficas relevantes a serem consultadas Alessandra Morita Sakowski, P.; Haddad Tóvolli, M. Perspectivas Da Complexidade Para A Educação No Brasil. Texto para discussão. Instituto de Pesquisa Econômica Aplicada - IPEA., Rio de Janeiro, 2015 Aranha, C.; Passos, E. A Tecnologia de Mineração de Textos. RESI-Revista Elerônica de Sistemas de Informação, n. 2, 2006. Coutinho G. Coelho, V.; C. Lustosa da Costa, J. P.; Da Cunha R. de Sousa, D.; Dias Canedo, E. Mineração de Dados Educacionais para Identificação de Barreiras na Utilização da Educação a Distância. Disponível em http://www.researchgate.net/publication/276090604_MINERAO_DE_DADOS_EDUCACIONA IS_PARA_IDENTIFICAO_DE_BARREIRAS_NA_UTILIZAO_DA_EAD. Último acesso em 06/12/2015 Goldschmidt, R.; Bezerra, E. Data mining: conceitos, técnicas, algoritmos, orientações e aplicações. 2ª Ed., Rio de Janeiro, Ed. Elsevier, 2015. P. dos Santos, R. Big Data Na Educação Matemática. Revista SBEM RS. v.1, n. 16, 2015.