A contribuição da mineração de textos na - Campus Cubatão

Propaganda
INSTITUCIONAL/IFSP
PROJETO DE PESQUISA
TÍTULO DO PROJETO:
A CONTRIBUIÇÃO DA MINERAÇÃO DE TEXTOS NA AVALIAÇÃO DE ATIVIDADES PEDAGÓGICAS
PROPOSTAS POR MEIO DE AMBIENTES VIRTUAIS DE APRENDIZAGEM.
Área do Conhecimento (Tabela do CNPq):
7
.
0
8
.
0
4
.
0
4
1. RESUMO
O aumento da aprendizagem mediada por tecnologias fez crescer a utilização de
ambientes virtuais em propósitos educacionais. Muitos desses espaços, como as mídias
sociais, apesar de não serem concebidos para condução de atividades pedagógicas, são ricos
em ferramentas interacionais e comunicacionais que possibilitam uma aprendizagem mais
colaborativa e estimulante, e por este motivo, passam a serem consideradas mais
frequentemente no processo de ensino e aprendizagem.
No entanto, há para estes espaços socializantes, uma ausência de mecanismos que
possam apoiar a gestão do acompanhamento da aprendizagem, dificultando a avaliação dos
estudantes em atividades pedagógicas que porventura venham a ser oferecidas por meio
dessas mídias, agravada pela enorme quantidade de informações que são geradas nestes
meios. A avaliação dessas atividades essencialmente considera a quantidade de postagens,
“curtidas” e comentários que os estudantes publicam ao debateram determinado tema.
Contabilizar essas ações acaba por limitar o estudo à uma análise quantitativa.
Este trabalho busca apresentar uma discussão sobre como, a incorporação de técnicas
de mineração de dados (data mining), em especial, a mineração de textos (text mining) para
extrair conhecimento a partir de textos não estruturados, publicadas no âmbito de Ambientes
Virtuais de Aprendizagem (AVAs) e/ou mídias sociais por meio de grupos criados com fins
pedagógicos, pode propiciar uma avaliação mais qualitativa.
O estudo prevê levantar o estado da arte sobre o tema, comparar as principais
técnicas de mineração de textos e aplicar uma ferramenta pronta em um caso prático real.
2. FUNDAMENTAÇÃO TEÓRICA
Com o advento da internet e o aumento da utilização de ambientes virtuais de
aprendizagem, como as redes sociais educativas, o volume de dados disponíveis sobre os
alunos e suas atividades nesses ambientes aumentou consideravelmente nos últimos anos.
Sistemas educacionais essencialmente são sistemas complexos. Diferentes agentes
interagem e colaboram entre si. Cada estudante aprende de um modo diferente e cada
professor tem o seu método de ensino. Além disso em cada família o estudante terá contato
com culturas e experiências diferentes dos seus pares que o transforme em um ser único com
paradigma mental também único. O conhecimento emerge das interações que ocorrem entre
esses agentes que se encontram imersos em ambientes reais e virtuais, formais e informais.
Dentro deste contexto, as metodologias que permitam modelar o processo de ensino
e aprendizagem podem fornecer uma melhor compreensão das dinâmicas criadas a partir dos
ambientes virtuais de aprendizagem. A imensa disponibilidade de dados sobre os estudantes
nesses espaços de certa forma torna inviável uma avaliação qualitativa.
Entender a complexidade dos sistemas educacionais pode ser a maneira de se
encontrar soluções simples (Berlow et al., 2009), sem no entanto, que esta redução propiciada
-
4
pelo uso de técnicas de fragmentação, divisão e redução gerem um cenário pedagógico
descontextualizado da realidade.
Busca-se com esta pesquisa discutir como a incorporação de técnicas de mineração de
dados pode auxiliar a tomada de decisões e a busca por informações mais precisas e exatas
sobre as ações e o comportamento dos estudantes nesses ambientes, contribuindo dessa
forma, para uma avaliação mais ágil e precisa além de fornecer subsídios para a
recomendação de conteúdos específicos de acordo com o perfil de cada grupo de estudantes.
A “Mineração de Dados Educacionais” é definida por Baker e Yacef (2009) como “uma
disciplina emergente, preocupada com o desenvolvimento de métodos para exploração dos
tipos de dados únicos provenientes dos ambientes educacionais e, utilizar esses métodos para
entender melhor os alunos e as características de como eles aprendem”.
Os dados gerados por meio de atividades pedagógicas propostas em ambientes
virtuais de aprendizagem podem ser tratados a partir de técnicas como classificação,
regressão e agrupamento de dados (Romero e Ventura, 2010; Baker et al., 2011). No ensino de
diversos assuntos, especialmente aqueles complexos e não triviais, é sempre bem-vinda a
recomendação de materiais complementares oriundos de diferentes fontes, além dos já
apresentados pelos professores, para correta compreensão dos mesmos.
Os ambientes virtuais de aprendizagem, se utilizados da forma correta, podem
fomentar a colaboração e cooperação entre os alunos, tirando o foco do professor como única
fonte de conhecimento e fornecedor do melhor material instrucional a ser seguido em dada
disciplina. Deste modo, os alunos passam a poder participar desse processo, compartilhando
conteúdos, sugestões, opiniões e críticas sobre os assuntos abordados, enriquecendo a
construção e fixação do conhecimento, fazendo com que todos se envolvam e tenham suas
expectativas atendidas.
Nesse sentido, este estudo justifica-se, pois, abre a discussão sobre como a
incorporação de ferramentas e recursos que apoiem a gestão do acompanhamento da
aprendizagem em um ambiente virtual de aprendizagem pode melhorar o processo de
avaliação e de personalização da aprendizagem ao indicar materiais de apoio apropriados a
cada perfil de estudante.
A mineração de dados é uma subárea da Ciência da Computação que tem ganhado
destaque em função do aumento de informações geradas principalmente por meio dos
serviços acessíveis a partir da internet. Os ambientes virtuais de aprendizagem podem conter
diversos registros indicando ações executadas pelos estudantes e identificando por exemplo,
comportamentos comuns a determinado grupo de alunos.
Quando estes padrões são determinados pode-se a partir dai, estabelecer estratégias
que facilitem a tomada de decisões por parte do professor permitindo que se avalie
sistematicamente e de uma forma mais dinâmica este grupo com características comuns
agilizando o processo de avaliação.
A mineração de textos, por meio das suas diferentes técnicas e algoritmos propicia
esta descoberta de padrões. De acordo com Usama Fayyad (1996), mineração de dados é "...o
processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e
ultimamente compreensíveis". Apesar de descobrir padrões em grandes volumes de dados, a
tomada de decisão final sempre recairá sobre o analista humano, no caso, o professor, que
analisará os resultados obtidos e com sua experiência fará inferências definitivas sobre a
avaliação dos estudantes.
Mineração de textos ou a mineração de dados textuais ou descoberta de
conhecimento de bases de dados textuais é uma área interdisciplinar que envolve
conhecimentos como Informática, Estatística e Linguística. Está relacionada ao processo de
se extrair informações ou descobrir conhecimento em documentos de texto nãoestruturados. É uma ramificação da mineração de dados ou da descoberta de conhecimento
em bases de dados estruturadas.
Acredita-se que a mineração de dados, em especial a mineração de textos possa
contribuir enormemente com a avaliação de estudantes que participem de ambientes virtuais
de aprendizagem, tendo em vista que a maior parte das informações nesses espaços estão
armazenadas em formato textual.
A mineração de textos consiste em extrair regularidades, padrões ou tendências de
grandes volumes de textos não estruturados, de forma automática, como por exemplo,
documentos oriundos de emails, resultados de pesquisas, arquivos criados em editores de
textos, páginas da Web, campos textuais em bancos de dados, etc. (Zanasi, 1997)
3. OBJETIVOS
Este trabalho tem por objetivo geral avaliar como, a0 se incorporar técnicas de
mineração de dados na extração de conhecimento de textos não estruturados escritos a partir
de atividades pedagógicas propostas em ambientes virtuais de aprendizagem, poder-se-á
haver uma melhora no processo de avaliação e na recomendação de materiais de apoio.
Para alcançar esse objetivo geral, os seguintes objetivos específicos foram estabelecidos:
 Conceituar e caracterizar mineração de textos a partir de referências científicas
levantadas nos principais repositórios de documentos científicos do Brasil e do
Mundo;
 Comparar as principais técnicas de mineração de textos;
 Selecionar ferramentas prontas no mercado de mineração de textos, aplicar uma
dessa ferramentas em um cenário real e a partir deste experimento, extrair a sua
eficácia, seus pontos fortes e fragilidades;
 Criar um protótipo baseado em uma técnica escolhida que sirva de modelo para o
desenvolvimento de um software a ser integrado em uma mídia social que permita
avaliar textos não estruturados produzidos no âmbito deste espaço.
4. MATERIAIS E MÉTODOS
Esta pesquisa será desenvolvida no laboratório destinado a este fim no Campus
Cubatão e eventualmente poderá ser desenvolvido remotamente pelo estudante.
Basicamente necessitará de um computador com acesso à Internet e aos repositórios de
pesquisa, uma impressora e esporadicamente um scanner.
Inicialmente, será feito um levantamento nos principais repositórios a fim de se
conhecer os estudos mais atuais sobre o tema. Durante esse processo, os documentos mais
importantes e atuais serão separados para uma futura análise. Passada a primeira fase, todos
os artigos selecionados anteriormente serão estudados para a concepção de uma base sólida
para elaboração dos futuros artigos.
Passada essa fase, os artigos começarão a serem escritos com base nos documentos
científicos mais relevantes selecionados. Alguns trechos selecionados (citações) serão
incluídos nos textos para que se eleve a relevância do texto, e para comprovar a veracidade
dos fatos expostos na pesquisa.
Durante essa fase, também serão feitos resumos à serem encaminhados para os
principais congressos de iniciação científica. Será feito um levantamento dos principais
congressos de Iniciação Científica que acontecerão no decorrer do ano de 2016. O modelo de
resumo de cada congresso será baixado e adaptado de acordo com a pesquisa para posterior
submissão.
Esta pesquisa possui uma grande relevância para Instituição na medida em que trata
de um tema que converge para uma tendência e necessidade mundial em se analisar grandes
volumes de informação de tal forma que se possam extrair padrões de comportamento que
permitam rapidamente traçar perfis e recomendar conteúdos de forma eficiente e eficaz.
Em sua essência este projeto possui características interdisciplinares, na medida em
que envolve áreas como ciência da computação, linguística computacional, estatística, entre
outras, se inserindo no campo da Computação Social.
Embora este trabalho não faça parte de projetos relacionados a pesquisas realizadas
em programas Latu-sensu e Stricto-sensu do IFSP, se insere na linha de pesquisa do grupo
Intera, grupo este homologado no CNPq.
Os resultados obtidos a partir desta pesquisa podem posteriormente serem usados
como insumo para que se desenvolva uma ferramenta que incorpore técnicas de mineração
de texto e que se permita produzir dessa forma um aplicativo a ser aplicado em um cenário
real prático, que por sua vez, deve permitir a coleta dos resultados para uma análise crítica e
conclusões.
Poderão ocorrer visitas a Fatec – Unidade de Praia Grande ou à UFABC no intuito de
realizar um intercâmbio de informações entre os agentes desta pesquisa com professores
doutores e/ou especialistas em algumas das subáreas que compõem o projeto, para afinar o
conhecimento.
5. PLANO DE TRABALHO
Tabela 5.1 Metas estabelecidas para a pesquisa.
METAS
DESCRIÇÃO
1
Planejamento do Projeto de Pesquisa.
2
Levantamento do referencial teórico e fichamento.
3
Elaboração do 1º Artigo.
Seleção dos documentos científicos mais relevantes, leitura e produção de um
artigo que aborde o “estado da arte” em mineração de textos.
4
Elaboração do 2º Artigo.
Seleção dos documentos científicos mais relevantes, leitura e produção de um
artigo que aborde um estudo comparativo entre as principais técnicas de
mineração de textos.
5
Inscrição dos resumos dos artigos 1 e 2 nos principais Congressos de Iniciação
Científica.
6
Elaboração do 3º Artigo.
Seleção dos documentos científicos mais relevantes, leitura e produção de um
artigo que aborde os resultados obtidos na aplicação de uma ferramenta pronta
de mineração de textos em um experimento real.
7
Inscrição do artigo 3 no CBIE/SBIE.
8
Relatório Parcial entregue- até 15/07/15
9
Elaboração de um protótipo de uma ferramenta que utilize técnicas de mineração
de textos a ser incorporada em um ambiente virtual de aprendizagem para apoiar
o processo de avaliação de textos não estruturados.
10
Relatório Final entregue– até 30/11/2015
Tabela 5.2 Cronograma proposta para cumprimento das metas.
MESES
METAS
MAR
ABR
MAI
JUN
JUL
AGO
SET
OUT
NOV
1
2
3
4
5
6
7
8
9
10
6. VIABILIDADE DE EXECUÇÃO
Esta pesquisa será desenvolvida no laboratório destinado a este fim no Campus
Cubatão e eventualmente poderá ser desenvolvido remotamente pelo estudante.
Basicamente necessitará de um computador com acesso à Internet e aos repositórios de
pesquisa, uma impressora e esporadicamente um scanner. Ocorrerão reuniões
semanais/quinzenais/mensais nos gabinetes de pesquisa disponíveis no Campus Cubatão.
Exceto a bolsa do programa nenhuma outra fonte de recurso financeiro será
necessária. Eventualmente será solicitado apoio financeiro para deslocamento e estadia para
participação em Congressos.
7. RESULTADOS ESPERADOS E DISSEMINAÇÃO
Busca-se com esta pesquisa a produção de três artigos científicos sendo dois deles
submetidos à Congressos de Iniciação Científica e outro submetido a um Congresso Brasileiro
de Educação.
Espera-se ainda a criação do protótipo de uma ferramenta que utilize técnicas de
mineração de textos a ser incorporada em um ambiente virtual de aprendizagem para apoiar
o processo de avaliação de textos não estruturados.
REFERÊNCIAS BIBLIOGRÁFICAS
BAKER, Ryan SJD; YACEF, Kalina. The state of educational data mining in 2009: A review and
future visions. JEDM-Journal of Educational Data Mining, v. 1, n. 1, p. 3-17, 2009.
BAKER, Ryan; ISOTANI, Seiji; CARVALHO, Adriana. Mineração de Dados Educacionais:
Oportunidades para o Brasil. Revista Brasileira de Informática na Educação, v. 19, n. 02, p. 03,
2011.
BERLOW, E. L. et al. Simple prediction of interaction strengths in complex food webs.
Proceedings of the National Academy of Sciences, v. 106, n. 1, p. 187-191, 2009. Supplement
(news summary) . 28 Rio de Janeiro, julho de 2015
Fayyad, Usama; Piatetski-Shapiro, Gregory; Smyth, Padhraic (1996) The KDD Process for
Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, pp.2734, Nov.1996.
ROMERO, Cristóbal; VENTURA, Sebastián. Educational data mining: a review of the state of
the art. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions
on, v. 40, n. 6, p. 601-618, 2010.
ZANASI, A. Discovering Data Mining. Prentice Hall, 1997
Referências bibliográficas relevantes a serem consultadas
Alessandra Morita Sakowski, P.; Haddad Tóvolli, M. Perspectivas Da Complexidade Para A
Educação No Brasil. Texto para discussão. Instituto de Pesquisa Econômica Aplicada - IPEA.,
Rio de Janeiro, 2015
Aranha, C.; Passos, E. A Tecnologia de Mineração de Textos. RESI-Revista Elerônica de
Sistemas de Informação, n. 2, 2006.
Coutinho G. Coelho, V.; C. Lustosa da Costa, J. P.; Da Cunha R. de Sousa, D.; Dias Canedo, E.
Mineração de Dados Educacionais para Identificação de Barreiras na Utilização da
Educação
a
Distância.
Disponível
em
http://www.researchgate.net/publication/276090604_MINERAO_DE_DADOS_EDUCACIONA
IS_PARA_IDENTIFICAO_DE_BARREIRAS_NA_UTILIZAO_DA_EAD. Último acesso em
06/12/2015
Goldschmidt, R.; Bezerra, E. Data mining: conceitos, técnicas, algoritmos, orientações e
aplicações. 2ª Ed., Rio de Janeiro, Ed. Elsevier, 2015.
P. dos Santos, R. Big Data Na Educação Matemática. Revista SBEM RS. v.1, n. 16, 2015.
Download