MINERAÇÃO DE TEXTO PARA ANÁLISE DE INTERAÇÕES EM

Propaganda
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA FLUMINENSE
CÂMPUS CAMPOS-CENTRO
CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM
ANÁLISE E GESTÃO DE SISTEMAS DE INFORMAÇÃO
RONALD GONÇALVES DAS NEVES
THIAGO CHAGAS ZACCARO
MINERAÇÃO DE TEXTO PARA ANÁLISE DE INTERAÇÕES EM REDES SOCIAIS
ACADÊMICAS
CAMPOS DOS GOYTACAZES/RJ
2016
RONALD GONÇALVES DAS NEVES
THIAGO CHAGAS ZACCARO
MINERAÇÃO DE TEXTO PARA ANÁLISE DE INTERAÇÕES EM REDES SOCIAIS
ACADÊMICAS
Projeto de Pesquisa apresentado ao Instituto
Federal de Educação, Ciência e Tecnologia
Fluminense, Câmpus Campos-Centro, como
requisito parcial para conclusão do Curso de Pósgraduação Lato Sensu em Análise e Gestão de
Sistemas de Informação.
Orientador: Dr. Breno Fabrício Terra Azevedo
CAMPOS DOS GOYTACAZES/RJ
2016
Dados Internacionais de Catalogação na Publicação (CIP)
Biblioteca. Setor de Processos Técnicos (IFF)
R768m
Ronald Gonçalves das Neves
Mineração de texto para análise de interações em redes sociais
acadêmicas / Ronald Gonçalves das Neves, Thiago Chagas Zaccaro –
2016.
57 f.: il. color.
Orientador: Breno Fabrício Terra Azevedo
Monografia (Pósgraduação Lato Sensu em Análise e Gestão de
Sistemas de Informação). Instituto Federal de Educação, Ciência e
Tecnologia Fluminense. Campus Campos Centro. Campos dos
Goytacazes (RJ), 2016.
Referências: p. 44-47.
1.
2.
3.
1. Mineração de dados (Computação). 2. Banco de dados. I.
Zaccaro, Thiago Chagas. II. Azevedo, Breno Fabrício Terra, orient.
III.Título.
CDD – 005.74
RONALD GONÇALVES DAS NEVES
THIAGO CHAGAS ZACCARO
MINERAÇÃO DE TEXTO PARA ANÁLISE DE INTERAÇÕES EM REDES SOCIAIS
ACADÊMICAS
Monografia apresentada ao Instituto Federal de
Educação, Ciência e Tecnologia Fluminense,
Câmpus Campos-Centro, como requisito parcial
para conclusão do Curso de Pós-graduação Lato
Sensu em Análise e Gestão de Sistemas de
Informação.
Aprovada em 08 de abril de 2016.
Banca Avaliadora:
.......................................................................................................................................................
Profº Breno Fabrício Terra Azevedo (Orientador)
Doutor em Informática na Educação/UFRGS
Instituto Federal de Educação, Ciência e Tecnologia Fluminense
.......................................................................................................................................................
Profº Fernando Luiz de Carvalho e Silva
Mestre em Engenharia de Produção/UENF
Instituto Federal de Educação, Ciência e Tecnologia Fluminense
.......................................................................................................................................................
Profº Eduardo Francisco da Silva Freire
Mestre em Economia Empresarial/UCAM
Instituto Federal de Educação, Ciência e Tecnologia Fluminense
Dedicamos este trabalho às nossas famílias, que
muito nos apoiaram e incentivaram a realizá-lo.
AGRADECIMENTOS
Agradecemos, primeiramente, a Deus, por nos dar força, inteligência, saúde e tudo o
que precisamos para que conseguíssemos alcançar mais esta vitória.
Às nossas famílias, as quais sempre nos apoiaram em todos os momentos, dando-nos a
educação adequada, carinho e estímulo nas horas de cansaço e desânimo.
Aos nossos amigos, colegas de trabalho e de classe.
Aos professores que nos acompanharam ao longo do curso, dando-nos as condições
necessárias para chegarmos ao fim desta jornada.
Ao nosso orientador por dispensar seu tempo e conhecimento para nos auxiliar na
construção deste trabalho e conclusão deste curso.
RESUMO
Mineração de textos, que também é conhecida como mineração de dados textuais, é
um campo multidisciplinar que integra conhecimentos de diversas áreas como, Informática,
Linguística, Ciência Cognitiva e Estatística. A técnica de mineração de textos consiste em
extrair regularidades, padrões ou tendências de grandes volumes de textos em linguagem
natural. A mineração de textos é capaz de explorar um conjunto de dados textuais, extraindo
ou ajudando a evidenciar padrões e auxiliando na descoberta de conhecimento. As redes
sociais acadêmicas atualmente vêm sendo utilizadas cada vez mais pelos acadêmicos por
abranger várias mídias e também por ter a capacidade de atingir um grande público em pouco
tempo, facilitando o relacionamento entre eles. As redes sociais tornaram-se ferramentas de
interação para auxiliar professores e alunos. Com o fácil contato virtual com os alunos que as
redes sociais proporcionam, a mesma auxilia os professores a conhecer melhor os seus alunos,
facilitando o preparo de suas aulas e focando nos assuntos que serão ministrados. A proposta
deste trabalho é apresentar um novo recurso dentro da rede social acadêmica da UCAM,
utilizando um filtro implementado na aplicação MineraFórum, que tem como objetivo
analisar as interações entre professores e alunos dentro da rede social acadêmica.
Palavras-chave: Mineração de Textos, Rede Social.
ABSTRACT
Mining of texts, which is also known as mining of textual data, is a multidisciplinary
field that integrates knowledge of various areas such as informatics, linguistic, Cognitive
Science and statistics. The technique of text mining consists of removing regularities, patterns
or trends of large volumes of texts in natural language. The text mining is able to exploit a set
of textual data, extracting or helping to reveal patterns and aiding in the discovery of
knowledge. Social networks currently academic have been used increasingly by academics to
cover various media and also by having the ability to achieve a large audience in little time, as
it leaves the users more available, facilitating the relationship between them. Social networks
have become interaction tools to help teachers and students. With easy virtual contact with
students that social networks provide the same help teachers to know better their pupils,
facilitating the preparation of their classes and focusing on matters that will be administered.
The proposal of this paper is to present a new feature within the academic social network
UCAM using a filter implemented in MineraFórum application, which aims to analyze the
interactions between teachers and students within the academic social network.
Keywords: Text Mining, Social Network.
LISTA DE FIGURAS
Figura 1 – Linhas cronológica das etapas de um processo de Mineração............................ 17
Figura 2 – Árvore de Porfírio................................................................................................ 27
Figura 3 – Fluxograma de comunicação entre o MineraFórum e o Fórum Acadêmico....... 31
Figura 4 – Lista de Fórum de um período letivo................................................................... 31
Figura 5 – Lista de Postagem de um Fórum......................................................................... 32
Figura 6 – Modelo de dados do Fórum Acadêmica da UCAM............................................ 33
Figura 7 – Caso de Uso (Professor)...................................................................................... 35
Figura 8 – Filtros de informação do modelo proposto.......................................................... 36
Figura 9 – Filtro de período letivo......................................................................................
37
Figura 10 – Filtro de disciplina............................................................................................. 38
Figura 11 – Filtro de tópicos................................................................................................. 39
Figura 12 – Representação do arquivo mensagem................................................................ 40
Figura 13 – Descrição dos marcadores................................................................................. 40
Figura 14 – Arquivo “mensagem.txt”................................................................................... 41
Figura 15 – Fluxograma da criação do Arquivo “mensagem.txt”......................................... 42
Figura 16 – Tela principal com o menu “Arquivo” selecionado........................................... 50
Figura 17 – Tela do menu “Configurações”.......................................................................... 51
Figura 18 – Tela aba “Texto de Referência”......................................................................... 52
Figura 19 – Configuração da freqüência mínima de uma palavra........................................ 53
Figura 20 – Tela aba “Base de Conceitos”............................................................................ 54
Figura 21 – Aba Minerar Fórum com a ação do botão “Minerar fórum”............................. 55
Figura 22 – Aba Minerar Fórum com a ação do botão “Grafo do fórum”............................ 56
Figura 23 – Aba Minerar Fórum com a ação do botão “Exibir Gráfico”.............................. 56
SIGLAS E ABREVIATURAS
SVM - Support Vector Machine
UCAM - Univerdidade Candido Mendes
BBS - Bulletin Board System
I-Bee - Bulletin board Enrollee Envisioner
FOAF - Friend-of-a-Friend
10
SUMÁRIO
1 INTRODUÇÃO................................................................................................................. 12
1.1 Motivação........................................................................................................................ 12
1.2 Objetivo do Trabalho...................................................................................................... 13
1.3 Justificativa..................................................................................................................... 14
1.4 Organização da Monografia............................................................................................ 14
2 MINERAÇÃO DE TEXTO............................................................................................... 15
2.1 Etapas da Mineração de Texto........................................................................................ 16
2.2 Áreas de Aplicação.......................................................................................................... 17
2.3 Aplicação na área de educação........................................................................................ 18
2.4 Tarefas de mineração de texto......................................................................................... 21
2.4.1 Classificação de Texto.................................................................................................. 21
2.4.2 Agrupamento de Documentos (Clustering).................................................................. 21
2.4.3 Extração da Informação............................................................................................... 21
2.4.4 Descoberta de Associações.......................................................................................... 22
2.4.5 Analise de Sentimentos (Sentiment Analysis)............................................................. 22
2.4.6 Casamento de Esquemas (Schema Matching)............................................................. 22
2.4.7 Recuperação da Informação......................................................................................... 23
3 REDES SOCIAIS.............................................................................................................. 24
3.1 Redes Sociais Acadêmicas.............................................................................................. 24
3.2 Fórum de discussão......................................................................................................... 25
4 ONTOLOGIA.................................................................................................................... 27
4.1 Usos, Benefícios e Problemas relacionados às Ontologias............................................. 28
5 MODELO DE BUSCA DE DADOS NO FÓRUM ACADEMICO.................................. 30
5.1 Comunicação entre o Fórum Acadêmico e o MineraFórum........................................... 30
5.2 Fórum Acadêmico da UCAM......................................................................................... 31
5.3 Estrutura da Base de Dados do Fórum da UCAM.......................................................... 32
5.4 Modelo para busca de informações no banco de dados do fórum da UCAM................ 34
5.5 Gerando o arquivo de mensagens de forma automática................................................. 39
6 CONCLUSÃO................................................................................................................... 43
6.1 Considerações Finais....................................................................................................... 43
11
6.2 Trabalhos Futuros............................................................................................................ 43
REFERÊNCIAS.................................................................................................................... 44
APÊNDICE A....................................................................................................................... 48
12
INTRODUÇÃO
1.1 Motivação
Uma Rede Social é conceituada genericamente como o software que articula as
interações interpessoais. Ela vem sendo utilizada pelos acadêmicos por abranger várias mídias
(áudio, vídeo e escrita), além de ter capacidade de atingir grande público em pouco tempo
(MONTEIRO, 2011). Uma Rede Social facilita a interação entre os usuários. Este meio de
comunicação é de fácil acesso e entendimento. Com ela, as escolas e universidades podem
montar grupos para tirar dúvidas sobre um determinado assunto ou conteúdo específico,
podem também incentivar os discentes a discutir sobre um tema específico. Desta forma, as
redes sociais se tornam ferramentas de interação valiosas para auxiliar os alunos. O contato
com os estudantes na internet ajuda o professor a conhecê-los melhor e, assim, saber quais são
os interesses dos jovens, facilitando o preparo das aulas, focando os assuntos a serem
apresentados e tornando as aulas mais interessantes, auxiliando na aprendizagem.
A Mineração de Textos é um campo multidisciplinar que inclui conhecimentos de
áreas como Informática, Linguística, Ciência Cognitiva e Estatística. A Mineração de Textos
consiste em extrair regularidades, padrões ou tendências de grandes volumes de textos em
linguagem natural. A mineração de textos pretende extrair conhecimentos úteis de dados não
estruturados ou semi-estruturados, extraindo ou ajudando a evidenciar padrões nestes dados e
auxiliando na descoberta de conhecimento. Esse conhecimento pode ser apresentado por
ferramentas de diversas formas: agrupamentos, hipóteses, regras, árvores de decisão e grafos
(SILVA; BARROS; PRUDÊNCIO, 2015, p. 504-505).
A Informática é formada pelo conjunto das Ciências da Informação, que integra a
teoria da informação, o processo de cálculo, a análise numérica, os métodos teóricos da
representação dos conhecimentos e modelagem dos problemas (INFORMATIVO.PT, 2013).
A Estatística é uma ciência que usa teorias probabilísticas para explicação de eventos,
estudos e experimentos. Tem por intuito obter, organizar e analisar dados, indicar as
correlações que apresentem, tirando delas seus resultados para descrição e explicação do que
passou e previsão e organização do futuro (ARANHA; PASSOS, 2006, p. 1-2).
A Lingüística é o estudo científico da linguagem humana. Os lingüistas dividem o
estudo da linguagem em áreas que são estudadas de forma separada. As divisões mais comuns
são: fonética, fonologia, morfologia, sintaxe, pragmática, dentre outras. A preocupação em
adequar os modelos à realidade da computação consolidou a Linguística Computacional
13
(ARANHA; PASSOS, 2006, p. 1-2).
A Ciência Cognitiva é definida como o estudo científico da mente ou da inteligência.
Toda a introdução à Ciência Cognitiva enfatiza sua alta interdisciplinaridade. Ela é
normalmente definida como tomando parte ou colaborando com as disciplinas de Psicologia
especialmente através da Psicologia Cognitiva, Linguística, Neurociência, Inteligência
Artificial e Filosofia (CARRILHO, 2007, p. 16).
A partir do conhecimento baseado nestas ciências, a Mineração de Textos define
técnicas de extração de padrões ou tendências de grandes volumes de textos em linguagem
natural.
Apesar da grande potencialidade oferecida pela Mineração de Textos, alguns fatores
podem prejudicar as técnicas de mineração. Os atributos precisam ser muito bem definidos,
caso contrário os resultados podem ser mal interpretados. Uma interpretação falha pode
disfarçar os dados. Utilizar um grande número de variáveis pode tornar a análise inviável e
gerar conclusões erradas.
A proposta deste trabalho é apresentar um novo recurso dentro da rede social
acadêmica da UCAM, localizado no portal do professor, utilizando um filtro implementado na
aplicação MineraFórum, que tem como objetivo analisar as interações entre professores e
alunos dentro da rede social acadêmica.
1.2 Objetivo do Trabalho
O objetivo principal deste trabalho é analisar as interações entre professores e alunos
dentro da rede social acadêmica da UCAM, utilizando técnicas de mineração de textos para
extrair padrões importantes nos textos redigidos nas interações entre docentes e discentes.
Os objetivos secundários deste projeto são:
1. Criar um modelo de um filtro na aplicação MineraFórum para interagir dentro do
portal do professor da rede social acadêmica da UCAM.
2. Realizar a interpretação e avaliação dos padrões gerados em redes sociais
acadêmicas, buscando, assim, informações que possam ajudar o professor a
identificar qual foi o assunto mais discutido, quem falou mais sobre um
determinado assunto e também verificar se os alunos possuem opinião favorável
ou não ao tema discutido.
14
1.3 Justificativa
A mineração de textos é uma tecnologia proveniente das técnicas de recuperação de
informações e da descoberta de informações estruturadas, através de procedimentos
estatísticos e do uso de banco de dados. A mineração de textos se resume em métodos
utilizados para organizar, achar, navegar e descobrir informações em bases textuais. O uso
desta tecnologia possibilita a extração de dados, recuperar informações, descobrir padrões,
associações e regras, resumir documentos e fazer análises quantitativas ou qualitativas em
documentos de texto.
Uma rede social é uma ferramenta constituída por pessoas conectadas por um ou
vários tipos de relações. As redes sociais acadêmicas têm o objetivo de facilitar a
disponibilização dos conteúdos utilizados pelos alunos. Elas também facilitam a comunicação
entre os professores e alunos no decorrer de um curso.
A concretização deste trabalho se justifica por obter conhecimentos e informações
úteis através da análise de fóruns de discussão da rede social acadêmica da UCAM utilizando
a tecnologia de mineração de textos, possibilitando o aproveitamento destes elementos pelos
professores, melhorando o processo de ensino-aprendizagem.
Com esta análise busca-se fundamentar a idéia de que o emprego desse tipo de
ferramenta no meio acadêmico proporciona inúmeros benefícios, principalmente para os
professores, facilitando a busca de informações inseridas na rede social acadêmica.
1.4 Organização da Monografia
Esse trabalho é uma pesquisa do tipo bibliográfica descritiva de caráter qualitativo,
estruturado em 6 (seis) capítulos, sendo este o primeiro capítulo. Os demais estão organizados
de acordo com a estrutura descrita abaixo.
O capítulo 2 apresenta histórico, definições e características da mineração de textos. O
capítulo 3 apresenta definições relacionadas com rede social. O capítulo 4 apresenta
conceitos, uso, benefícios e problemas sobre ontologia. O capítulo 5 apresenta definições e
características do modelo proposto para mineração de um fórum acadêmico. Este capítulo
apresenta as funcionalidades e o modelo proposto para realizar a captura e padronização
automática das informações que alimentam o MineraFórum.
O capítulo 6 apresenta as considerações finais a respeito dos resultados obtidos pela
pesquisa realizada e os trabalhos futuros.
15
2 MINERAÇÃO DE TEXTO
A mineração de textos é uma subárea da mineração de dados interessada no
desenvolvimento de técnicas e processos para a descoberta automática de conhecimento a
partir de coleções de documentos texto. É uma tecnologia proveniente das técnicas de
recuperação de informações e da descoberta tradicional de informações estruturadas, através
do uso de procedimentos estatísticos e de bancos de dados. É um processo que usa algoritmos
capazes de analisar coleções de documentos texto, como páginas Web, arquivos PDF,
documentos XML e campos CLOB ou VARCHAR de tabelas relacionais, com a finalidade de
extrair conhecimento.
A mineração de textos é um grupo de métodos utilizados para organizar, navegar e
descobrir informações em bases textuais. Também é conhecida como mineração de dados
textuais, trata-se de um processo para obter informações de textos, utilizando algoritmos que
foram desenvolvimentos para fazer análises de documentos. Pode ser considerada como uma
parte da área de Data Mining, focalizada na análise de textos. O trecho abaixo conceitua
mineração de texto:
A mineração de textos pode ser definida como uma aplicação de sistemas de
computação que envolve hardware e software dedicados à análise textual de
documentos, com o objetivo de: extrair informação e/ou conhecimento a partir
daqueles documentos; descobrir tendências que aqueles documentos possam expor;
obter uma melhor visão sobre as pessoas, lugares e coisas fundamentado no que
aqueles documentos podem revelar; classificar, organizar e/ou categorizar os
documentos ou a informação/conhecimento que eles contêm; e sumarizar um
documento em uma forma mais compacta através da condensação (MATTISON;
MATTISON, 1999 apud MORETTO; RAPKIEWICZ, 2013, p. 4).
De acordo com Gupta e Lehal, “mineração de textos é uma área da Ciência da
Computação cujo objetivo é identificar informações novas, ou desconhecidas, através da
extração automática das mesmas a partir de documentos escritos” (GUPTA; LEHAL, 2009).
Segundo Tan, “a mineração de textos trata do processo de extrair padrões interessantes
e não-triviais de conhecimento a partir de textos” (TAN, 1999).
Dentre os conceitos apresentados, Feldman e Sanger reportam:
A mineração de textos pode ser definida como um processo intensivo de
conhecimento no qual um usuário interage com uma grande quantidade de
documentos utilizando ferramentas para análise dos mesmos. O objetivo é extrair
informações úteis a partir de coleções de documentos. Estas informações são
identificadas em padrões interessantes nos dados textuais não estruturados
(FELDMAN; SANGER, 2007).
16
2.1 Etapas da Mineração de Texto
A mineração de textos pode ser utilizada para extrair conhecimento a partir de texto
livre ou semiestruturado. A seguir apresenta-se os conceitos dos dois diferentes formatos para
melhor entendimento:
1. Texto Livre: trata-se de texto escrito em alguma linguagem natural que contém pouca
ou nenhuma marca de estruturação. Alguns exemplos: artigos de revista, capítulos de
livro, texto do corpo de um e-mail, arquivos PDF, entre outros. Nesta categoria
também podem ser incluídos os campos descritivos de tabelas de bancos de dados
relacionais, como CLOB, Memo e VARCHAR, já que eles são criados com o intuito
de armazenar texto livre. Em muitos sistemas reais os textos armazenados nestes
campos são consideravelmente longos e complexos (ex: um campo CLOB utilizado
para armazenar a descrição de um atendimento em um sistema de help desk).
2. Texto Semiestruturado: documentos que, mesmo sem possuir um esquema rígido
para validar seus dados, contêm alguma estrutura. Os dois principais exemplos são os
documentos XML, onde as informações encontram-se demarcadas entre tags, e os
arquivos JSON, que são compostos por pares atributo/valor.
A mineração de texto pode ser empregada para fazer várias tarefas, como por exemplo,
a classificação automática de textos. O processo de Mineração de Textos é constituído por
cinco etapas: coleta de documentos, pré-processamento, indexação, mineração e análise. Na
figura 01 são apresentadas as sequências das etapas e as principais atividades executadas em
cada uma delas.
17
Figura 1 - Linhas cronológica das etapas de um processo de Mineração
Fonte: Aranha e Passos (2006)
A primeira etapa a ser executada é a de Coleta. Ela possui o objetivo de formar a
coleção de documentos, que é o básico do processo de Mineração de Textos.
Logo em seguida, começa a etapa de Pré-processamento. Neste momento, os
documentos que foram coletados na etapa anterior são sujeitos a várias operações para obter
uma forma de representá-los estruturadamente.
Após o Pré-Processamento, começa a fase de Indexação, esse processo é responsável
por criar estruturas auxiliares que garantem rapidez e agilidade na recuperação dos
documentos e seus termos. Após a indexação, os documentos e termos são analisados por
algoritmos para que seja feita a extração de conhecimento, que tem o objetivo de descobrir
padrões úteis e desconhecidos nos documentos.
O processo de mineração de texto finaliza com a etapa de Análise. Nesta etapa é
realizada a avaliação e interpretação de todo o conhecimento alcançado pelo processo.
2.2 Áreas de Aplicação
As técnicas de mineração de textos podem ser usadas em várias áreas do
conhecimento. Esta seção retrata algumas delas.
De acordo com Feldman e Sanger, algumas das áreas nas quais a mineração de textos é
utilizada são: pesquisa de patentes, finanças corporativas e ciências da vida. O objetivo na
área pesquisa de patentes é investigar as estratégias de desenvolvimento de patentes e
encontrar formas para conseguir localizar ativos de patentes corporativas que existem. Nas
18
áreas finanças corporativas a mineração de textos tem como objetivo filtrar dados textuais
para conseguir criar formas de utilização de business intelligence, anotando tendências,
identificação de correlações, e pesquisando referências a operações específicas, pessoas
jurídicas ou físicas. Já nas ciências da vida, alguns pesquisadores estão explorando grandes
coleções de relatos de pesquisa biométrica para localizar padrões complexos de interatividade
entre proteínas (FELDMAN; SANGER, 2007).
Segundo Qi, a mineração de texto também pode ser utilizada na área Bioinformática.
Muitos documentos da literatura de estudo da Biologia estão guardados como modelos semiestruturados e não estruturados, a mineração pode ajudar a localizar as informações e os
relacionamentos dos dados biológicos (QI, 2009)
Segundo Dreweke et al, a mineração de texto pode ser utilizada em código de
programação, para localizar trechos duplicados em projetos de software. Desta forma, os
software ficam compreensíveis e ajudam a evitar erros em caso de ser realizada uma
reengenharia dos programas (DREWEKE et al., 2009).
Segundo Xu e Luo, a mineração de textos também é uma ferramenta muito importante
na área dos sistemas de segurança da informação. Existem várias aplicações tecnológicas
empregadas na área de segurança. As técnicas são categorizadas de acordo com o tipo de
conhecimento a ser encontrado e os formatos de texto a serem explorados (XU; LUO, 2009).
O artigo de Yoo et al, mostra uma análise de redes sociais pessoais para capturar
grupos e obter características importantes que representam o perfil de um usuário. Os autores
desenvolveram um algoritmo de aprendizagem semi-supervisionado que aumenta rótulos de
importância para testar exemplos de mensagens e nós de usuários em uma rede de e-mail
pessoal. Foi usada uma representação de vetor para cada mensagem de e-mail. Cada vetor
possui os dados da mensagem e as características sociais do emitente e do destinatário. Esta
representação foi utilizada como a entrada de classificadores SVM (Support Vector Machine)
para prever o nível de importância de cada mensagem (YOO et al., 2009).
2.3 Aplicação na área de educação
As técnicas de mineração de textos também podem ajudar e auxiliar na área de
educação. A seguir, apresentam-se algumas pesquisas realizadas.
Chen N. et al., mostram uma pesquisa para mapas conceituais usando técnicas de
mineração de textos. Para isso, foi realizada uma análise de vários artigos acadêmicos
relacionados a um domínio específico. As palavras-chaves listadas nos documentos foram
19
inseridas nos nós, representando os conceitos. As ligações entre os conceitos foram obtidas a
partir de uma medida de distância entre as palavras-chaves nos textos (CHEN N. et al., 2008).
Romero e Ventura verificaram diversos trabalhos que aplicaram técnicas de mineração
de dados e textos em cursos baseados na web, sistemas de gestão de conteúdos de
aprendizagem, e sistemas educacionais inteligentes e adaptativos baseados na web. Algumas
pesquisas citadas pelos autores são (ROMERO; VENTURA, 2007).
Ueno usou técnicas de mineração de textos para efetuar uma análise de
correspondência expandida em fóruns de discussão. Os alunos selecionam a categoria que
representa sua mensagem e o sistema fornece avaliações para os comentários do aluno entre
os colegas (UENO, 2004).
Chen et al., propõem a criação automática de um livro eletrônico através de mineração
de conteúdo web. Eles aplicaram uma estratégia de classificação para avaliar a adequação de
páginas web, estabeleceram hierarquias de conceitos, e extraíram características (CHEN et al.,
2005).
Tane et al., apresentam uma ferramenta baseada em ontologia para aproveitar recursos
disponíveis na web. Eles usaram técnicas de mineração de textos para criar ontologias a partir
de conjuntos de documentos (TANE et al., 2004).
Tang et al., construíram um tutor web personalizado, através da mineração do contexto
e estrutura de um curso. Eles utilizaram um algoritmo de mineração de textos direcionado a
palavras-chaves, que seleciona artigos para alunos de educação a distância (TANG et al.,
2000).
Mochizuki et al., descrevem um método de autoavaliação para os alunos em uma
discussão colaborativa. Os autores propõem uma forma para visualizar a discussão dos
discentes em um BBS (Bulletin Board System), que utiliza uma técnica de mineração de
textos para avaliar a conversação. O método extrai palavras-chaves da discussão e usa análise
de correspondência para visualizar a relação delas com o assunto tratado. O procedimento
também produz um mapeamento que indica se o aluno fez referência a cada palavra-chave em
suas mensagens. No trabalho, os autores desenvolveram um software chamado i-Bee (Bulletin
board Enrollee Envisioner) (MOCHIZUKI et al., 2005).
Dalmolin et al., demonstram uma ferramenta para auxiliar no processo de criação de
mapas conceituais. A ferramenta foi elaborada para organizar conteúdos a partir dos módulos
temáticos de um curso. Na ferramenta, os professores podem construir seus próprios mapas
baseados em documentos textuais. Os docentes também podem utilizar um editor visual para
criar mapas e vincular objetos de aprendizagem a conceitos. Os alunos podem acessar objetos
20
de aprendizagem e fazer anotações em seus mapas, melhorando o processo de ensinoaprendizagem. O extrator de mapa conceitual é um algoritmo baseado em técnicas de
mineração de texto, que extrai os termos relevantes considerados conceitos ou links
(DALMOLIN et al., 2009).
Ferreira et al., mostram uma pesquisa sobre sumarização de textos provenientes de
repositórios de arquivos textuais e blogs. De acordo com os autores, os sumários auxiliam as
pessoas a identificar mais rápido, se o conteúdo do texto original é útil aos seus interesses. O
trabalho cita que a sumarização de textos é uma alternativa viável a ser incorporada em
Ambientes Educacionais na Web, pois pode ajudar alunos e professores a diagnosticar, com
maior velocidade, textos que podem atender as suas necessidades (FERREIRA et al., 2009).
Ravi e Kim, apresentam um trabalho para identificar automaticamente perfis de
interações de alunos em fóruns de discussões. Foram utilizados recursos de sequência de
palavras e algoritmos SVM (Support Vector Machine), para desenvolver classificadores de
“ato de discurso” que identificam os papéis das mensagens individuais, como: pergunta,
resposta, elaboração, correção. Os classificadores foram utilizados na busca de mensagens
que contêm perguntas ou respostas. Foi usado um conjunto de regras para análise dos tópicos
para descobrir aqueles que poderiam ter perguntas sem resposta e necessitar da atenção do
professor (RAVI; KIM, 2007).
Kim et al., mostraram em seu artigo um agente inteligente, que foi implementado
dentro de um fórum de discussão para fornecer respostas às perguntas dos alunos. O trabalho
apresenta como os tópicos do debate foram modelados utilizando atos de discurso. Cada
postagem foi classificada de acordo com categorias, como: pergunta, resposta, elaboração e
correção. Ao classificar as contribuições da discussão, os autores foram capazes de interpretar
os papéis dos alunos e do professor nas discussões. Os autores desenvolveram um conjunto de
padrões para analisar as interações dos discentes nas discussões. Alguns destes padrões foram
usados para descobrir mensagens nas quais os alunos poderiam ter perguntas não respondidas.
O agente inteligente utiliza técnicas de mineração de texto para extrair palavras e suas
frequências da pergunta do aluno, dos documentos do curso, e das discussões anteriores. Os
pesos das palavras são calculados pela fórmula TF-IDF. A medida de similaridade cosseno é
utilizada para descobrir quais desses documentos e/ou discussões passadas possuem
semelhança com o texto envolvido na pergunta do aluno (KIM et al., 2007).
21
2.4 Tarefas de mineração de texto
As tarefas de mineração de texto podem ser consideradas como as diferentes
categorias de problemas que podem ser resolvidos através de processos de mineração de
texto. Esta seção introduz as mais importantes através de uma abordagem simples.
2.4.1 Classificação de Texto
Esta é a tarefa de mineração de texto mais conhecida e utilizada. O objetivo é realizar
a associação automática de documentos de texto a uma determinada classe, pertencente a um
conjunto pré-definido de classes. Um exemplo de classificador de texto que é bastante
conhecido, está nos programas para filtragem de spam. A partir da análise do assunto e do
texto de uma mensagem, o programa usa um algoritmo classificador de texto para identificar
se esta mensagem deve ser classificada como “normal” ou “spam”
2.4.2 Agrupamento de Documentos (Clustering)
Esta tarefa consiste em dividir uma coleção de documentos texto em grupos (clusters)
de acordo com algum relacionamento de similaridade entre os mesmos. A organização dos
documentos em cada cluster deve ser feita de forma que haja:
•
Alta similaridade entre os documentos pertencentes a um mesmo cluster.
•
Baixa similaridade entre elementos que pertencem a clusters diferentes.
Esta tarefa possui a mineração de documentos XML como uma de suas principais
aplicações práticas. É possível realizar tanto a mineração da estrutura, como a mineração do
conteúdo de um documento.
2.4.3 Extração da Informação
Consiste na tarefa de preencher templates a partir de documentos de textos. Os
sistemas de extração da informação utilizam técnicas para interpretar a informação que
contém em textos e, assim, extrair as partes relevantes para uma necessidade específica. As
informações extraídas são geralmente inseridas em tabelas de bancos de dados para que
possam ser analisadas através das planilhas, SQL ou até mesmo da mineração de dados
tradicional.
Para preencher os templates o sistema necessita identificar os objetos do mundo real
22
dentro dos textos: substantivos (nomes de pessoas, locais, empresas, coisas, etc.), datas,
verbos, endereços, abreviações, URL’s, etc. Certos tipos de objetos podem ser reconhecidos
com o uso de técnicas simples, como as expressões regulares, úteis para a identificação de
números de telefone, datas, preços, CEPs, etc. Alguns tipos de substantivos, como nomes
próprios e nomes de países, são identificados com o uso de dicionários. Para melhorar a
eficiência, o sistema pode também utilizar regras de identificação de padrões.
Grande parte dos sistemas de extração de informação se baseia no uso de ontologias
para viabilizar a identificação dos objetos. De maneira simples, uma ontologia pode ser
definida como uma estrutura que representa as relações entre conceitos de um determinado
domínio e os temos associados a cada conceito (vocabulário).
2.4.4 Descoberta de Associações
Tem o objetivo de descobrir combinações de palavras que ocorram com freqüência em
uma coleção de documentos texto e realizar a análise da associação/correlação entre essas
palavras. Os resultados obtidos são expressos na forma de regras de associação.
Considere, por exemplo, um corpus formado por textos sobre futebol. Um algoritmo
para mineração de regras de associação poderia analisar esta coleção de textos e revelar os
padrões
2.4.5 Análise de Sentimentos (Sentiment Analysis)
Uma grande quantidade de textos encontrados na Internet - redes sociais, blogs, etc. –
refletem a opinião de pessoas a respeito de algum programa de TV, jogo de futebol, produto,
serviço, filme, discurso político, etc. A análise de sentimentos é uma nova tarefa de mineração
de textos que tem por objetivo identificar a emoção, opinião e sentimento das pessoas sobre
um determinado tema, a partir da análise de textos.
Tipicamente, o objetivo final é classificar a opinião das pessoas em um dos seguintes
rótulos: “positiva”, “negativa” ou “neutra” (neste caso, podemos entender a análise de
sentimentos como uma aplicação da tarefa de classificação).
2.4.6 Casamento de Esquemas (Schema Matching)
Tarefa que equivale na identificação das correspondências semânticas existentes entre
elementos de dois esquemas. O objetivo é mapear automaticamente os elementos que
23
representem a mesma informação em ambos os esquemas. Os algoritmos para casamento de
esquemas são muito utilizados na prática, já que estão adaptados nos principais softwares para
ETL. Neste tipo de aplicação, o objetivo é auxiliar os analistas de sistemas no cansativo
trabalho de integrar dados armazenados em diferentes fontes.
• Casamento de Dados
Além do casamento de esquemas, existe também outra tarefa de integração semântica,
é o casamento de dados. Neste caso, o objetivo não é casar elementos de esquemas (campos),
mas sim casar registros (conteúdo dos campos). Alguns exemplos:
- Decidir se duas tuplas de uma tabela possuem o mesmo valor.
- Decidir se os conteúdos de dois campos VARCHAR de duas diferentes tabelas de um banco
de dados possuem conteúdo similar.
2.4.7 Recuperação da Informação
A tarefa recuperação da informação (information retrieval – IR), tem o objetivo de
localizar e ranquear documentos relevantes em uma coleção, de acordo com as palavraschaves digitadas em uma consulta feita por usuário, ou seja,trabalho realizado pelos sites de
busca da Internet. A seguir, apresentam-se dois conceitos importantes relacionados à tarefa de
recuperação de informações: indexação e relevância.
Um mecanismo eficiente de indexação de informações forma o núcleo de qualquer
sistema de recuperação de informações. Existem muitas técnicas para indexação de texto.
Uma das mais simples consiste na construção de índices invertidos.
Já o conceito de relevância dos resultados apresenta uma lista ordenada por relevância
em resposta a uma consulta de usuário. A ideia básica consiste em verificar as palavras-chaves
digitadas na consulta do usuário com as palavras presentes em cada documento do corpus. O
algoritmo atribui uma pontuação para cada documento, baseado em quão bem ele se
assemelha com a consulta do usuário. Essa pontuação é tipicamente computada em função da
frequência das palavras do documento e da coleção como um todo.
24
3 REDES SOCIAIS
Rede é conceituada como uma estrutura sem fronteiras. A rede social procede desse
conceito, representando um conjunto de participantes, que possuem interligação de idéias e
recursos, que giram em torno de valores e interesses compartilhados.
Redes Sociais são fundamentadas na importância dos relacionamentos entre unidades
de interação. As unidades de interação das Redes Sociais são denominadas como atores e os
relacionamentos entre eles de vínculos relacionais.
As redes sociais ajudam a planejar as preferências, as visões do mundo e os projetos,
além de deixarem o acesso diferenciado a recursos de diversos tipos, na qual incontáveis
casos são espalhados pelas redes, como prestígio e status. Nesse sentido, redes sociais são
estruturas grandes de atores sociais e políticos importantes em cada situação concreta.
A análise de redes sociais vem sendo usada em vários tipos de aplicações. No início da
década de 1980, as pesquisas eram feitas analisando pequenos grupos e os dados eram
adquiridos por questionários ou entrevistas. A partir dessa década, vários registros fizeram
parte da análise de redes sociais formadas por milhões de pessoas e, e cada vez mais com o
auxílio computacional.
O método mais comum para a representação computacional de redes sociais é usando
grafos. Com os mesmos, cada indivíduo da rede social é interpretado como um nó e a relação
entre os indivíduos são como uma aresta.
De acordo com Recuero, as redes sociais na internet funcionam como base para que
haja a percepção da rede e a apreensão de suas informações. Porém, é necessário dominar o
conceito de ator social na Internet e como suas conexões entre os atores online são
consideradas (RECUERO, 2009).
3.1 Redes Sociais Acadêmicas
As redes sociais acadêmicas possuem o objetivo de facilitar a disponibilização dos
conteúdos utilizados pelos alunos e professores. Também facilitam a comunicação entre as
pessoas no decorrer de um curso. O trecho abaixo define o conceito de redes sociais
acadêmicas:
Essas redes sociais acadêmicas têm como diferencial, ferramentas que permitem o
compartilhamento de arquivos, como textos da bibliografia pedida pelos professores,
listas de exercícios ou avaliações. Depois de selecionar no site a graduação e as
25
disciplinas cursadas, os alunos encontram outros colegas na mesma situação e, além
de ganhar acesso ao material compartilhado, podem trocar mensagens tirando
dúvidas e debatendo assuntos de determinada matéria. Apesar de às vezes até
contarem com a participação de professores, as plataformas são totalmente
gerenciadas pelos alunos e independentes das instituições de ensino (REDE..., 2015,
s.p.).
3.2 Fórum de discussão
O fórum de discussão é um recurso importante em redes sociais acadêmicas, pois é
através do mesmo que os alunos, tutores e professores podem comunicar-se. Além disso,
permite que os participantes debatam assuntos e troquem conhecimentos, auxiliando também
no esclarecimento de dúvidas sobre assuntos debatidos. Esta seção apresenta conceitos,
características e exemplos de fóruns de discussão.
De acordo com Sánchez, os fóruns para objetivos educacionais em uma ferramenta
online são denominados como um espaço de comunicação constituído por quadros de
diálogos, cujas mensagens inseridas podem ser classificadas tematicamente. Nos espaços, os
alunos possuem a possibilidade de realizar contribuições de conhecimento e esclarecer
dúvidas. A comunicação é efetuada de forma assíncrona e as mensagens digitadas
permanecem à disposição dos participantes (SÁNCHEZ, 2005).
Segundo Dornelles, fórum de discussão possibilita ao grupo de pessoas de interesse
comum, compartilhar e debater dúvidas, opiniões e informações (DORNELLES, 2001).
Antes de participar de um determinado debate primeiro o aluno tem que realizar um
estudo e pesquisas sobre o determinado assunto a ser tratado. De acordo com a autora Oliveira
(2005), fórum é um ambiente de reflexões e discussões.
No contexto dos cursos virtuais, a participação no espaço criado pelo fórum pede
preparo, geralmente provido por leituras adequadas, pesquisas, resgates ao
background próprio a cada participante, entre outras formas de busca. Trata-se de
organizar o pensamento , enriquecendo-o com pertinentes referências, permitindo o
uso do espaço de discussões e reflexões proporcionado pelo fórum para gerar
colaborações, para agregar idéias (OLIVEIRA, 2005, p. 5).
Como o fórum de discussão é uma ferramenta assíncrona, o mesmo possibilita que o
debate se estenda e possibilite a participação em momentos diferentes, cada um no seu tempo.
A ferramenta pode ser acessada para postar uma mensagem de acordo com uma questão
inserida pelo mediador do debate ou para responder a uma mensagem postada por outro
integrante. No diálogo, cada participante do fórum pode postar suas opiniões, argumentar,
contestar, etc.
26
Os pontos positivos da ferramenta são:
•
Permitir a reflexão e a pesquisa antes da postagem das mensagens;
•
Permitir a organização do conteúdo e da forma do texto a ser postado;
•
Permite o aprofundamento de idéias e conceitos;
•
Permitir a edição das mensagens já postadas;
•
Facilita a prática consciente de diferentes funções cognitivas, como por exemplo,
observar, identificar, relacionar, comparar, analisar, inferir, sintetizar, divergir etc;
•
Possibilita a mediação mais direcionada por parte do mediador.
•
Possibilita o registro do processo de construção do conhecimento.
As dificuldades mais comuns que o integrante possui ao participar de um fórum de
discussão são:
•
Silêncio virtual;
•
Timidez;
•
Falta de fluência tecnológica para lidar com a ferramenta e ou Internet;
•
Medo da exposição;
•
Falta de preparo para discussão (leituras e pesquisas).
•
Falta de disciplina, dedicação de tempo, comprometimento.
27
4 ONTOLOGIA
Ontologia é uma palavra que vem do grego ontos (ser) + logos (palavras). Filósofos
alemães introduziram a ontologia na filosofia no século 19, com o objetivo de fazer uma
diferenciação entre o estudo do ser e do estudo dos vários tipos de seres vivos existentes.
Segundo Guarino (1998), como disciplina da área de filosofia, a ontologia foca no
fornecimento de sistemas de categorização para a organização da realidade (GUARINO,
1998).
Aristóteles propôs a primeira estrutura de classificação. No século III, o filósofo grego
Porfírio comentou a estrutura e desenvolveu a primeira estrutura arborescente, conhecida
como árvore de Porfírio, mostrada na Figura 2, que ilustra as categorias abaixo de substância.
Figura 2 - Árvore de Porfírio
Fonte: Gandon (2002)
De acordo com Fensel (2001), as ontologias na ciência da computação foram criadas
em inteligência artificial, com o objetivo de ajudar o compartilhamento e reutilização de
informação (FENSEL, 2001). Atualmente as ontologias estão sendo utilizadas nas áreas de
28
sistemas de informação cooperativos, comércio eletrônico, integração de sistemas inteligentes
e software baseado em agentes.
Diferentes classificações para ontologias já foram propostas em algumas literaturas. O
autor Guarino (1998), propôs um sistema de classificação que usa a generalização da
ontologia para a classificação (GUARINO, 1998). No sistema o autor verifica:
• Ontologias de domínio - descrevem o vocabulário relativo a um domínio específico
através da especialização de conceitos presentes na ontologia de alto nível.
• Ontologias de nível superior - descrevem conceitos muito genéricos, tais como
eventos, espaço e tempo. Estas seriam independentes de domínio e poderiam ser
reutilizados na criação de novas ontologias.
• Ontologias de aplicação - são as ontologias mais específicas. Conceitos em ontologias
de aplicação correspondem, a papéis desempenhados por entidades do domínio em
alguma tarefa.
• Ontologias de tarefas - descrevem o vocabulário relativo a uma tarefa genérica ou
atividade através da especialização de conceitos presentes na ontologia de alto nível.
Em Ciência da Computação o termo ontologia possui várias definições. De acordo
com Borst (1997), uma ontologia é definida como uma especificação formal e explícita de
uma conceitualização compartilhada, onde especificação formal significa algo que é legível
para os computadores. “Explícita” são as propriedades, conceitos, funções, restrições e
relações explicitamente definidos. “Conceitualização” representa um modelo abstrato de
algum fenômeno do mundo real e compartilhada significa conhecimento consensual (BORST,
1997).
4.1 Usos, Benefícios e Problemas relacionados às Ontologias
As ontologias podem ser utilizadas em várias áreas da Ciência da Computação, dentre
elas:
•
Recuperação de informações na Internet;
•
Processamento de linguagem natural;
•
Gestão do conhecimento;
•
Web-semântica;
•
Educação.
29
Além de serem utilizadas em várias áreas, a utilização de ontologias possui diversas
vantagens. Segundo Guizzardi, os benefícios pela utilização de ontologias são (GUIZZARDI,
2000):
• Comunicação.
As ontologias possibilitam a comunicação entre pessoas acerca de determinado
conhecimento, pois permitem raciocínio e entendimento sobre um domínio.
• Formalização.
A formalização está relacionada à especificação, que permite eliminar contradições e
inconsistências na representação de conhecimento.
• Representação de conhecimentos e reutilização.
As ontologias formam um vocabulário de consenso que permite representar
conhecimento de um domínio em seu nível mais alto de abstração, possuindo, desta
forma, potencial de reutilização.
De acordo com Morais e Ambrósio, as ontologias possuem vários usos e benefícios,
mas ainda apresentam alguns problemas, dentre eles (MORAIS; AMBRÓSIO, 2007, p. 4-5):
• Escolha das ontologias.
A escolha de uma ontologia pode ser difícil, pois uma ontologia pode não ser
totalmente adequada a todos os indivíduos relacionados a algum domínio específico.
• Criação e evolução das ontologias.
Ontologias devem ser criadas e evoluídas.
• Metodologia de desenvolvimento.
É o principal problema relacionado à ontologias devido a falta de trabalhos
apresentando metodologias para seu desenvolvimento, se tornando mais difícil a sua
criação pela falta de conhecimento.
• Bibliotecas de ontologias.
Está ligada à independência entre elas. A interface entre estas ontologia é considerada
como um problema, pois cada uma delas pode ser desenvolvida em um contexto
diferente.
30
5 MODELO DE BUSCA DE DADOS NO FÓRUM ACADÊMICO
Neste capítulo será apresentado um modelo para ser utilizado na busca de informações
em um fórum de discussão acadêmico e fazer com que este modelo possa utilizar as
funcionalidades já existentes na ferramenta de mineração de textos denominada
MineraFórum. No MineraFórum o usuário precisa ter o arquivo “mensagens” configurado
com as informações do fórum que será minerado. A ferramenta MineraFórum não alimenta
essas informações de forma automática. A ideia proposta será um modelo de coleta de
informação que possa, de forma automática, buscar as mensagens em uma base de dados de
um fórum acadêmico e preencher o arquivo “mensagens” que o MineraFórum precisa para
buscar as informações a serem mineradas. Este modelo será criado com o intuito de ser
utilizado por docentes como uma ferramenta de auxílio no aprendizado de seus alunos, onde
eles possam escolher um fórum e fazer a utilização do MineraFórum na busca de informações
para o auxílio no ensino. O fórum acadêmico utilizado como exemplo será o fórum acadêmico
da UCAM.
5.1 Comunicação entre o Fórum Acadêmico e o MineraFórum
Este tópico apresenta a comunicação entre o Fórum Acadêmico e o MineraFórum. Na
figura 3 pode-se observar que o MineraFórum busca informações em um arquivo chamado
“mensagens”, onde este arquivo possui três informações: nomeforum, aluno e mensagem. O
arquivo “mensagens” contem os dados do fórum acadêmico que será minerado e precisa estar
preenchido com esta informação respeitando um padrão de dados, para que o MineraFórum
possa buscar corretamente as informações. Para gerar o arquivo de “mensagens”, o fórum
acadêmico precisa disponibilizar para o docente uma ferramenta onde ele possa informar qual
fórum será minerado. Nesta ferramenta, o professor vai escolher o fórum e o software irá
gerar o arquivo “mensagens” de forma que o MineraFórum possa ler as informações.
31
Figura 3 - Fluxograma de comunicação entre o MineraFórum e o Fórum Acadêmico
5.2 Fórum Acadêmico da UCAM
Este tópico apresenta o fórum de discussão da UCAM que está em funcionamento
hoje. Visando facilitar a aproximação entre discentes e docentes, a UCAM disponibiliza esta
funcionalidade com foco na comunicação e troca de informações. A funcionalidade é utilizada
para aproximar os alunos e fornecer meios de divulgação de informações de maneira rápida.
A cada semestre que o discente cursa dentro da instituição é disponibilizado um fórum
para cada disciplina. Dentro destes fóruns, os professores e alunos podem criar tópicos,
responder tópicos e visualizar discussões anteriores.
No menu do terminal do aluno e do professor existe uma funcionalidade chamada
“Fórum”, onde é possível selecionar o período letivo para visualizar os fóruns disponíveis
(figura 4).
Figura 4 - Lista de Fórum de um período letivo
32
Na figura 4 são exibidos todos os fóruns do período letivo de 2014/1. Para a disciplina
“Tecnologia Mecânica” existe um tópico com duas mensagens. Pode-se visualizar também, o
autor do tópico, a data de criação e na coluna “Última Mensagem”, a data e pessoa que postou
a última mensagem no fórum. Para visualizar o histórico de conversações do tópico, basta
clicar no nome do tópico. Neste momento será visualizada uma tela semelhante a que está
apresentada na figura 5.
Figura 5 - Lista de Postagem de um Fórum
A figura 5 mostra o histórico de postagem do fórum selecionado. Para responder a um
tópico deve-se pressionar o botão “Responder”. Após pressionar este botão, o aluno
visualizará um editor com a possibilidade de inserção de texto, imagens, links, entre outras
informações. Caso deseje citar uma resposta deve-se selecionar o ícone do lado direito. O
resultado de uma citação será a resposta do discente precedida do texto, conforme pode ser
visualizado na última resposta da figura 5.
5.3 Estrutura da Base de Dados do Fórum da UCAM
Para buscar as informações na base de dados da UCAM é preciso conhecer a sua
estrutura e seus relacionamentos.
33
A Figura 6 apresenta o modelo de dados do fórum acadêmico da UCAM, que será
utilizado na busca das informações necessárias para os filtros.
Figura 6 – Modelo de dados do Fórum Acadêmico da UCAM
De acordo com o diagrama da figura 6 existem onze tabelas que são envolvidas na
busca de informações do fórum acadêmico, são elas:
•
“Periodoletivo”: nesta tabela encontram-se os campos chave primaria “oid”,
“ano” e “semestre”;
•
“Professor”: nesta tabela encontram-se os campos chave primaria “oid” e
“matricula”;
•
“Aluno”: nesta tabela encontram-se os campos chave primaria “oid”,
“matricula” e “turno”;
•
“Pessoa”: nesta tabela encontram-se os campos chave primaria “oid”
e
“nome”;
•
“Papelpessoa”: nesta tabela encontram-se os campos chave primaria “oid”,
chave estrangeira “oidpessoa” e “tipo”;
•
“Disciplina”: nesta tabela encontram-se os campos chave primaria “oid”,
“nome” e “sigla”;
•
“Disciplinaoferecida”: nesta tabela encontram-se os campos chave primaria
“oid”, chave estrangeira “oidperiodoletivo”, chave estrangeira “oidprofessor”,
chave estrangeira “oiddisciplina” e turno;
34
•
“Disciplinamatriz”: nesta tabela encontram-se os campos chave primaria “oid”
e chave estrangeira “oiddisciplinadamatriz”;
•
“Forum”: nesta tabela encontram-se os campos chave primaria “oid”, chave
estrangeira “oiddisciplinaoferecida”, “titulo” e “descrição”;
•
Topico: nesta tabela encontram-se os campos chave primaria “oid”, chave
estrangeira “oidforum”, chave estrangeira “oidpapelpessoa“, “titulo” e “data”;
•
Post: nesta tabela encontram-se os campos chave primaria “oid”, chave
estrangeira “oidpessoa”, chave estrangeira “oidtopico”, “assunto”, “texto” e
“data”.
Na base de dados as informações são associadas a um período letivo. A cada período
letivo os alunos são matriculados em disciplinas que são oferecidas. Esta informação fica
armazenada na tabela “disciplinaoferecida” que tem a informação do aluno matriculado e as
disciplinas escolhidas pelo discente em um determinado período letivo. Cada disciplina
oferecida tem um relacionamento com o fórum e o sistema cria este relacionamento
automaticamente, de modo que o professor e aluno podem acessar o fórum e criar seus
tópicos de discussão. O fórum pode ter vários tópicos que podem ser criados tanto pelos
professores como pelos alunos. As mensagens relacionadas a cada tópico ficam armazenadas
na tabela “post”.
5.4 Modelo para busca de informações no banco de dados do fórum da UCAM
Para que o docente possa escolher o fórum é preciso que ele tenha a opção de
selecionar o período letivo, a disciplina e o tópico do fórum. Desta forma, o docente poderá
escolher o que será minerado pelo MineraFórum.
Desta forma, foi criado um modelo de filtros de informação que atenda o objetivo
proposto e que qualquer docente possa utilizar de forma fácil e eficiente.
Utilizou-se um diagrama de casos de uso para definir as interações do professor com o
sistema. A figura 7 ilustra o ator professor e suas ações para definir o tópico do fórum.
35
Figura 7 - Caso de Uso (Professor)
O caso de uso da figura 7 apresenta as quatro ações que o professor vai executar para
escolher o tópico do fórum que será minerado. Abaixo apresenta-se a descrição destas ações:
• Escolher o Período Letivo: escolher o período letivo que será minerado;
• Escolher Disciplina: escolher a disciplina do período letivo selecionado;
• Escolher Criador do Tópico do Fórum: escolher se quer filtrar tópicos criados
pelo próprio professor ou tópicos criados pelos alunos;
• Escolher o Tópico do Fórum: escolher o tópico do fórum que deseja minerar.
O sistema de filtro possui o objetivo de buscar os dados de acordo com a escolha do
professor e gerar um arquivo chamado “mensagens”.
O modelo proposto permitirá as seguintes escolhas: o período letivo, a disciplina, a
pessoa que criou o tópico do fórum, seja ele o próprio professor ou os alunos da turma, e a
escolha do tópico do fórum. Estes filtros serão apresentados para o docente de acordo com a
figura 8.
36
Figura 8 – Filtros de informação do modelo proposto
A escolha dos filtros é essencial para geração do arquivo “mensagens”, que é utilizado
pelo MineraFórum. Para fazer a busca da informação no filtro “período letivo”, basta
selecionar as informações da tabela “periodoletivo”. Serão apresentados na tela os campos
ano e semestre de acordo com a figura 9.
37
Figura 9 – Filtro de periodo letivo
Esta consulta no banco de dados para o filtro período letivo ficará semelhante à
seguinte: (Select ano, semestre From periodoletivo).
O filtro “disciplina” precisa apresentar as disciplinas oferecidas no período letivo
escolhido no filtro anterior. O filtro terá também o parâmetro “professor”, pois devem
aparecer somente as disciplinas que o docente está ministrando. Para este filtro, de acordo
com o modelo de dados do fórum, será preciso fazer o relacionamento entre as tabelas:
“disciplinaoferecida”, ”disciplinamatriz”, “disciplina”, “periodoletivo” e “professor”. Esta
consulta vai receber como parâmetro o código do professor e o código do período letivo
escolhido. A consulta vai apresentar apenas a disciplina oferecida que o docente conectado no
terminal virtual esteja associado. A tela apresentará o campo “descrição” da tabela
“disciplina”, como mostrado na figura 10.
38
Figura 10 – Filtro de disciplina
A consulta do filtro disciplina ficará semelhante a esta: (Select c.descricao From
disciplinaoferecida a, disciplinamatriz b, disciplina c, periodoletivo d, professor e where
a.oiddisciplinamatriz = b.oid and b.oiddisciplinadamatriz = c.oid and a.oidperiodoletivo =
d.oid and a.oidprofessor = e.oid and d.oid = “paramentroperiodoletivo” and e.oid =
“parametroprofessorlogado”).
No filtro criador do tópico, o docente terá que marcar se vai buscar informação nos
tópicos criados por ele mesmo, marcando a opção professor, ou irá buscar informação dos
tópicos criados pelos seus alunos.
O filtro tópico terá que apresentar na tela o campo “título” da tabela “tópico”. Neste
filtro terá o relacionamento das tabelas “disciplina”, “disciplinamatriz”, “disciplinaoferecida”,
“forum”, “topico”, “papelpessoa” e “periodoletivo”. Esta consulta irá receber como parâmetro
o código do período letivo escolhido, o código da disciplina escolhida e o criador, conforme
apresentado na figura 11.
39
Figura 11 – Filtro de tópicos
A consulta do filtro tópico ficará semelhante a: (Select c.descricao From
disciplinaoferecida a, disciplinamatriz b, disciplina c, periodoletivo d, fórum e, tópico f,
papelpessoa g where a.oiddisciplinamatriz = b.oid and b.oiddisciplinadamatriz = c.oid and
a.oidperiodoletivo = d.oid and a.oid = e.oiddisciplinaoferecida and e.oid = f.oidforum and
f.oidpapelpessoa = g.oid where
d.oid = “parametroperiodoletivo” and c.oid =
“parametrodisciplina” and g.tipo = “paramentotipo”) .
Após todos estes filtros buscarem as informações na base de dados do fórum
acadêmico da UCAM, falta somente gerar o arquivo “mensagens”, que será descrito no
próximo tópico.
5.5 Gerando o arquivo de mensagens de forma automática
O modelo proposto vai disponibilizar os filtros para que o docente possa escolher o
tópico do fórum que deseja minerar. Para o MineraFórum conseguir minerar as informações, o
modelo criará o arquivo de nome e extensão “mensagens.txt”.
O arquivo “mensagens” possui três marcadores de texto chamados #NomeForum#,
40
#Aluno# e #Mensagem# como mostra a figura 12.
Figura 12 - Representação do arquivo mensagem
Em forma ontológica a figura 13 descreve o que são estes marcadores que constituem
o arquivo “mensagens”.
Figura 13 - Descrição dos marcadores
Com este arquivo criado e os três marcadores definidos é possível utilizar as
funcionalidades do MineraFórum. Após a criação do arquivo, as informações do fórum devem
41
ficar semelhantes ao arquivo “mensagens” apresentado na figura 14.
Figura 14 - Arquivo ”mensagens.txt”
A geração automática deste arquivo vai ocorrer no momento que o usuário clicar no
botão “gerar arquivo”. O sistema vai buscar o nome do tópico do fórum, os nomes dos alunos
e as mensagens redigidas por eles. O nome do tópico do fórum vai ser encontrado na tabela
“topico” no campo “titulo”, o nome do aluno será encontrado na tabela “pessoa” no campo
“nome” e por fim a mensagem redigida pelo aluno será encontra na tabela “post” no campo
“texto”.
Para buscar esta informação devem-se relacionar as seguintes tabelas: “tópico”,
“post”, “papelpessoa” e “pessoa”. Esta consulta vai receber como parâmetro o código do
tópico selecionado pelo docente no filtro tópico. A consulta também precisa ordenar os posts
pela data, para que as mensagens sejam selecionadas de acordo com a sua data de criação
sendo da mais antiga para a mais recente.
A consulta vai ficar semelhante à seguinte: (Select c.descricao, d.nome, b.texto From
topico a, post b, papelpessoa c, pessoa d where a.oid = b.oidtopico and b.oidpapelpessoa =
c.oid and c.oidpessoa = d.oid and a.oid = “paramentrotopico” order by b.data);
A figura 15 apresenta o fluxo de criação do arquivo “mensagens.txt”.
42
Figura 15 - Fluxograma da criação do arquivo "mensagens.txt"
Desta forma, obtêm-se todas as informações para gerar o arquivo “mensagens.txt” de
forma automática. Com este arquivo, o MineraFórum pode ser utilizado para minerar as
informações do fórum selecionado.
Com esta funcionalidade o MineraFórum pode ser utilizado por qualquer docente,
sendo possível escolher o tópico do fórum que será minerado.
43
6 CONCLUSÃO
6.1 Considerações Finais
Através do estudo realizado nesse trabalho, foi possível conhecer o potencial da
ferramenta MineraFórum e utilizar as suas funcionalidades para ajudar os professores em
fóruns acadêmicos de discussão. O MineraFórum é uma ferramenta que realiza a análise
qualitativa das mensagens postadas pelos alunos em um fórum de discussão. Esta ferramenta
é capaz de apresentar ao docente uma visão sobre as contribuições escritas pelos discentes,
organizando e agrupando as mensagens de cada aluno. Entende-se que, a partir dos resultados
apresentados pelo MineraFórum, o professor pode direcionar seu apoio aos alunos que
colocaram poucas contribuições relevantes ao tema do fórum.
O docente também pode motivar a interação entre os alunos que mais registraram
textos relevantes com os que redigiram poucos. Destaca-se que o tempo para que o
MineraFórum apresente o relatório da mineração é influenciado pela quantidade de palavras
do texto de referência, a quantidade de mensagens postadas e o quantitativo de palavras de
cada contribuição textual. O tempo de processamento do software é diretamente proporcional
ao valor destes fatores.
Com o modelo proposto foi possível existir uma comunicação direta entre o banco de
dados do fórum a ser minerado com a ferramenta MineraFórum. Com isso, o docente pode
apenas escolher o período letivo, o professor e o fórum desejado. Assim será possível obter o
conteúdo do fórum e adequá-lo ao padrão que o MineraFórum utiliza para obter as
informações.
6.2 Trabalhos Futuros
Como trabalhos futuros desta pesquisa, pretende-se implementar o modelo proposto
para fazer com que a ferramenta possa ajudar os professores na busca por informações nas
redes sociais acadêmicas.
Este trabalho contribui para a viabilização de um modelo que seja capaz de interagir
com o MineraFórum, facilitando a comunicação entre a base de dados de um fórum
acadêmico com a ferramenta de mineração, tornando o MineraFórum uma ferramenta
acessível por qualquer docente.
44
REFERÊNCIAS
ARANHA, Christian; PASSOS, Emmanuel. Revista Elerônica de Sistemas de Informação: A
Tecnologia
de
Mineração
de
Textos.
Disponível
em:
<www.spell.org.br/documentos/download/26518>. Acesso em: 27 set. 2015, 23h22min.
AZEVEDO, Breno Fabrício Terra. MineraFórum: Um recurso de apoio para análise
qualitativa em fóruns de discussão. 2011. 204f. Tese (Doutorado em Informática na
Educação) - Programa de Pós-graduação em Informática na Educação do Centro
Interdisciplinar de Novas Tecnologias na Educação da Universidade Federal do Rio Grande
do Sul, Porto Alegre, 2011.
AZEVEDO, Breno Fabrício Terra; BEHAR, Patricia Alejandra; REATIGUI, Eliseo
Berni. Aplicação da mineração de textos na área de Educação. In: CARVALHO, Adelson et
al. (Org.). Educação e Tecnologia. Campos dos Goytacazes: Essentia Editora, 2011. p. 59-74.
AZEVEDO, Breno Fabrício Terra; BEHAR, Patricia Alejandra; REATEGUI, Eliseo Berni.
Análise das mensagens de fóruns de discussão através de um software para mineração de
textos. Anais do SBIE. Disponível em: <http://www.br-ie.org/pub/index.phpsbie/article/
view/1572/1337>. Acesso em: 21 nov. 2015, 09h30min.
BORST, W. Construction of Engineering Ontologies for Knowledge Sharing and Reuse. PhD
thesis, University of Twente, P.O. Box 217 - 7500 AE Enschede - The Netherlands, 1997.
CARRILHO, João Ribeiro. Desenvolvimento de uma Metodologia para Mineração de Textos.
Disponível
em:
<http://www2.dbd.puc-rio.br/pergamum/tesesabertas/
0521350_07_
pretextual.pdf>. Acesso em: 23 ago. 2015, 20h 33min.
CHEN, J.; LI, Q.; WANG, L.; JIA, W. Automatically generating an e-textbook on the web.
World Wide Web, v. 8, n. 4, p. 377-394, 2005.
CHEN, N.; KINSHUK; WEI, C.; CHEN, H. Mining e-Learning domain concept map from
academic articles. Computers & Education, v. 50, p. 1009-1021, 2008.
DALMOLIN, L. C. D.; NASSAR, S. M.; BASTOS, R. C.; MATEUS, G. P. A Concept Map
Extractor Tool for Teaching and Learning. In: IEEE INTERNATIONAL CONFERENCE ON
ADVANCED LEARNING TECHNOLOGIES, 9., 2009, Riga. Proceedings… IEEE
Computer Society, 2009. p. 18-20.
DIGIAMPIETRI, Luciano Antonio. Análise da Rede Social Acadêmica Brasileira. Disponível
em:<http://www.each.usp.br/digiampietri/AnaliseDaRedeSocialAcademicaBrasileira_LivreD
ocencia.pdf>. Acesso em: 03 abr. 2016, 10h 22min.
DORNELLES, R. J. A utilização de tecnologias de Internet na educação a distância: o caso de
uma disciplina de graduação da Escola de Administração da Universidade Federal do Rio
Grande do Sul. 2001. Dissertação (Mestrado em Administração), UFRGS, Porto Alegre,
2001.
Disponível
em:
45
<http://www.ea.ufrgs.br/professores/hfreitas/files/orientacao/mestrado/defesa/pdf/28_disserta
cao_dornelles.pdf>. Acesso em: 09 abr. 2016, 12h 34min.
DREWERE, A.; FISCHER, I.; WERTH, T.; WORLEIN, M. Text Mining in Program Code.
In: SONG, M.; WU, Y. (Org.). Handbook of research on text and web mining technologies.
Hershey: Information Science Reference, 2009. p. 626-645.
FELDMAN, R.; SANGER, J. The Text Mining Handbook: Advanced Approaches in
Analyzing Unstructured Data. Cambridge, MA: Cambridge University Press, 2007.
Fensel, D. – Ontologie: a silver bullet for knowledge management and electronic commerce –
Springer, 2001
FERREIRA, F. J. de M. et al. Sumarização de Texto em Ambientes Educacionais na Web. In:
SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO, 20., 2009, Florianópolis.
Anais... Florianópolis: SBIE, 2009.
FILHO, José Adail Carvalho . Mineração de textos: Análise de sentimento utilizando tweets
referentes
à
copa
do
mundo
2014.
Disponível
em:
<http://www.repositoriobib.ufc.br/000017/0000179f.pdf>. Acesso em: 01 abr. 2016, 21h
22min.
Gandon, F. _ Ontology Engineering: a sinthesis – Project Acacia – INRIA Technical Report
4396 – March 2002 – 181 pages
Guarino, N. – Formal Ontology and information systems – In Proceedings of the FOIS’98 –
Formal Ontology in Information Systems, Trento – 1998.
GUIZZARDI, G. Desenvolvimento para e com reuso: Um estudo de caso no domínio de vídeo
sob demanda. Master’s thesis, Universidade Federal do Espírito Santo, 2000.
GUPTA, V.; LEHAL, G. S. A Survey of Text Mining Techniques and Applications. Journal
of Emerging Technologies in Web Intelligence, v. 1, n. 1, 2009.
HAN, Jiaweu; KAMBER, Micheline; PEI, Jian. Data Mining: Concepts and Techniques, 3rd
ed. Morgan Kaufmann, 2011.
INFORMATIVO.PT, Disponível em: <http://www.informatico.pt/15863/o-que-e-a-informatic
a/> Acesso em: 23 ago. 2015, 22h 52min.
SPOLSKY, Joel. The Absolute Minimum Every Software Developer Absolutely, Positively
Must Know About Unicode and Character Sets (No Excuses!). Disponível em:
<http://www.joelonsoftware.com/articles/Unicode.html>. Acesso em: 26 mar. 2016, 11h
02min.
KLEMANN, Miriam; REATEGUI, Eliseo; RAPKIEWICZ, Clevi. Análise de ferramentas de
mineração de textos para apoio à produção textual. Anais do SBIE. Disponível em:
<http://www.br-ie.org/pub/index.php/sbie/article/view/1866/1632>. Acesso em: 22 nov. 2015,
08h 45min.
46
LOPES, Giseli Rabello. Avaliação e Recomendação de Colaborações em Redes Sociais
Acadêmicas. Disponível em: <https://www.lume.ufrgs.br/bitstream/handle/10183/54886/
000854154.pdf?sequence=1>. Acesso em: 03 abr. 2016, 12h 47min.
MORAIS, Edison Andrade Martins; AMBRÓSIO, Ana Paula L. Ontologias: conceitos, usos,
tipos,
metodologias,
ferramentas
e
linguagens.
Disponível
em:
<
http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-07.pdf>.
Aceso em: 24 abr. 2016, 16h20min.
MORETTO, Margot Zeni; RAPKIEWICZ, Clevi Elena. Usando mineração de textos como
suporte ao desenvolvimento de resumos no ensino médio. Revista Renote Novas Tecnologias
na Educação v. 11, n. 3, 2013. Disponível em: <http://seer.ufrgs.br/index.php/renote/article
/view/44473/28470 >. Acesso em: 22 nov. 2015, 10h49min.
MONTEIRO, Bruna. Redes sociais são utilizadas para fins acadêmicos. Disponível em:
<https://www.ufpe.br/agencia/index.php?option=com_content&view=article&id=40333:redes
-sociais-sao-utilizadas-para-fins-academicos&catid=5&Itemid=78>. Acesso em: 5 out. 2015,
21h15min.
MOCHIZUKI, T. et al. Promotion of self-assessment for learners in online discussion using
the visualization software. In: CONFERENCE ON COMPUTER SUPPORT FOR
COLLABORATIVE LEARNING, 2005, Taipei. Proceedings… 2005. p. 440-449.
OLIVEIRA, G. P. O forum em um ambiente virtual de aprendizado colaborativo. São Paulo.
PUC-SP. Revista Digital de Tecnologia Educacional e Educação a Distância, v. 2, n. 1, 2005.
QI, Y. Text Mining in Bioinformatics: Research and Application. In: SONG, M.; WU, Y.
(Org.). Handbook of research on text and web mining technologies. Hershey: Information
Science Reference, 2009. p. 748-757.
RAJARAMAN, Anand; ULLMAN, Jeff. Mining of Massive Datasets. Disponível em:
<http://i.stanford.edu/~ullman/mmds.html>. Acesso em: 04 mar. 2016, 21h 53min.
RANGEL, Jéssica Ribeiro; MIRANDA, Gilberto José. Desempenho Acadêmico e o Uso de
Redes Sociais. Disponível em:
<http://www.congressousp.fipecafi.org/web/artigos152015/68.pdf>. Acesso em: 02 abr. 2016,
20h 04min.
RAVI, S.; KIM, J. Profiling Student Interactions in Threaded Discussions with Speech Act
Classifiers. In: AI IN EDUCATION CONFERENCE (AIED), 2007, Los Angeles.
Proceedings… 2007.
Recuero, R. (2009). Redes sociais na Internet. Porto Alegre: Sulina. (Coleção Cibercultura).
REDE Social estimula o compartilhamento de materiais acadêmicos. Canal do ensino.
Disponível em: <http://canaldoensino.com.br/blog/rede-social-estimula-o-compartilhamentode-materiais-academicos>. Acesso em: 10 nov. 2015.
ROMERO, C.; VENTURA, S. Educational data mining: A survey from 1995 to 2005. Expert
Systems with Applications, v. 33, p. 135-146, 2007.
47
SÁNCHES, L. P. El foro virtual como espacio educativo: propuestas didácticas para su uso.
Verista Quaderns Digitals Net, n. 40, p. 1-18, 2005. Disponívl em:
<HTTP://www.quadernsdigital.net/dados_web/hemeroteca/r_1/nr_662/a_8878/8878.html>.
Acesso em: 10 abr. 2016, 14h 08min.
SILVA, Eduardo; BARROS, Flávia; PRUDÊNCIO, Ricardo. Uma Abordagem de
Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados.
Disponível em: <http://www.cin.ufpe.br/~rbcp/papers/ENIA05.pdf> . Acesso em : 20 ago
2015, 19h.
TAN, A. Text Mining: The State of the Art and the Challenges. In: WORKSHOP ON
KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES, 1999, Beijing.
Proceedings… 1999. p. 71-76.
TANE, J.; SCHMITZ, C.; STUMME, G. Semantic resource management for the web: An elearning application. In: WWW CONFERENCE, 2004, New York. Proceedings… 2004. p. 110.
TANG, C.; YIN, H.; LI, T.; LAU, R.; LI, Q.; KILIS, D. Personalized courseware construction
based on web data mining. In: INTERNATIONAL CONFERENCE ON WEB
INFORMATION SYSTEMS ENGINEERING, 1., 2000, Washington-DC. Proceedings…
2000. p. 204-211.
TSOUMAKAS, Grigorios; KATAKIS, Ioannis; VLAHAVAS, Ioannis. “Mining Multi-Label
Data,” in Data Mining and Knowledge Discovery Handbook, 2nd ed., Springer, 2010, pp.
667–685
UENO, M. Data mining and text mining technologies for collaborative learning in an ILMS
‘‘Samurai’’. In: IEEE INTERNATIONAL CONFERENCE ON ADVANCED LEARNING
TECHNOLOGIES, 2004, Joensuu. Proceedings… IEEE Computer Society, 2004.
XU, S.; LUO, X. Current Issues and Future Analysis in Text Mining for Information Security
Applications. In: SONG, M.; WU, Y. (Org.). Handbook of research on text and web mining
technologies. Hershey: Information Science Reference, 2009. p. 694-707.
YOO, S. et al. Mining Social Networks for Personalized Email Prioritization. In: ACM
SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, 15.,
2009, Paris. Proceedings… ACM, 2009. p. 967-975.
48
APÊNDICE A – Ferramenta de mineração de textos MineraFórum
Nesta seção será apresentada a definição, características, funcionalidades e estrutura
da ferramenta de mineração de textos denominada MineraFórum (AZEVEDO, 2011).
Descrição do MineraFórum
O MineraFórum é uma ferramenta desenvolvida por Azevedo (2011), que tem como
objetivo extrair informações relevantes em fóruns de discussão. Ele consiste em analisar os
textos digitados pelos alunos dentro de um fórum de discussão e apresentar as seguintes
informações: relevância temática de cada mensagem, quantidade total de mensagens postadas
por aluno, quantidade de contribuições relevantes e não relevantes feitas por cada aluno e
conceitos utilizados nas postagens relevantes.
O MineraFórum permite a leitura de um texto de referência indicado pelo professor. O
professor pode informar ao MineraFórum um texto de referência sobre o assunto, a partir do
qual serão extraídos os conceitos relevantes. O texto pode ser digitado, ou lido de um arquivo
nos formatos “txt”, “doc”, ou “pdf”. Além do texto, o professor pode digitar os conceitos
relevantes de um tema, informando ao MineraFórum quais são os conceitos importantes
sobre o tópico do fóruns de discussão.
Os conceitos relevantes extraídos do texto de referência podem ser gravados em um
arquivo de texto e reutilizados posteriormente.
O MineraFórum permite a visualização de um grafo gerado a partir dos conceitos
relevantes encontrados na mineração do texto de referencia, ou dos conceitos digitados pelo
professor.
No texto de referência, as palavras podem aparecer de diversas formas: plural,
gerúndio, com sufixo, entre outras. Por esse motivo, é importante o processo de stemming,
que consiste em remover as variações das palavras e possibilita reduzir a quantidade de
palavras a serem analisadas.
O MineraFórum utiliza uma lista de stopwords definida internamente no sistema
durante a processo de mineração. Porém, o professor pode informar um arquivo contendo uma
lista de stopwords.
A equivalência semântica é importante quando o software compara os conceitos
redigidos pelo aluno na sua mensagem com os conceitos relevantes do texto de referência.
49
Caso uma palavra possua equivalência semântica, ela será considerada como relevante ao
tema. O docente pode indicar ao MineraFórum quais são as palavras que possuem
equivalência semântica.
Assim como ocorre na equivalência semântica, o mesmo acontece com os sinônimos.
Caso o aluno digite uma palavra que seja sinônima de um conceito relevante, ela será
considerada. Neste caso, o professor pode indicar um thesaurus a ser utilizado pelo
MineraFórum. Caso o docente não indique, será utilizado o thesaurus interno do sistema.
O MineraFórum informa a quantidade total de mensagens digitadas por cada aluno,
para permitir que o professor saiba quantas vezes o discente realizou interações no fórum e
calcula quantidade de contribuições relevantes colocadas por cada aluno no fórum a partir da
quantidade total.
O MineraFórum gera um relatório visual para o professor, contendo informações sobre
as mensagens postadas pelos alunos no fórum de discussão, tais como: o nome do discente, a
quantidade total de mensagens postadas, a quantidade de mensagens relevantes ao tema da
discussão, a quantidade de mensagens que não envolveram conceitos sobre o tópico do
debate, e os conceitos utilizados nas contribuições relevantes
O MineraFórum executa cinco etapas no processo de mineração em um fórum de
discussão:
• Extração das mensagens do fórum: para obter todas as mensagens do fórum
escolhido pelo docente.
• Mineração do texto de referência.
• Cálculo da relevância das mensagens.
• Geração do relatório da mineração: para apresentar os resultados da
mineração das postagens do fórum de discussão.
Geração do relatório da mineração: para apresentar os resultados da mineração das
postagens do fórum de discussão.
Interfaces do MineraFórum
Este tópico descreve os recursos existentes no MineraFórum. Primeiramente será
apresentada a interface principal que contém um menu com os elementos principais:
“Arquivo”, “Configuração”, “Ajuda” e “Idioma/Language”.
O elemento do menu “Arquivo” (figura 16) permite acesso aos seguintes itens do
50
menu:
•
“Importar texto de referência”: esta área oferece a opção de importar um texto de
referência que será usado para extrair conceito para a mineração. Esta importação
pode ser feita nas seguintes extensões: “txt”, “doc” ou “pdf”.
•
“Salvar base de Conceitos”: tem como objetivo salvar a lista da base de conceitos
para que possa ser usada posteriormente. Esta base irá alimentar a área onde se
encontra a base de conceitos no MineraFórum (figura 20). Este arquivo é salvo
com a extensão “txt”.
•
“Carregar base de Conceitos”: tem como objetivo carregar uma base de conceitos
já pré-definida que foi salva em um arquivo “txt”.
•
“Limpar base de conceitos”: esta opção remove os conceitos da base.
•
“Carregar equivalentes semânticos”: nesta área é possível carregar um arquivo
com equivalentes semânticos pré-definidos.
•
“Carregar stopwords”: selecionando este submenu irá aparecer uma tela com a
opção de carregar uma lista de stopwords existente.
•
“Carregar thesaurus”: esta opção permite carregar um arquivo que contenha um
thesaurus.
Figura 16 - Tela principal com o menu “Arquivo” selecionado
51
O elemento do menu “Configurações” permite configurar o nível de análise das
mensagens como na figura 17. O valor pode variar de 1.0 (rigor mínimo) a 5.0 (rigor
máximo).
Figura 17 – Tela do menu “Configurações”
O menu “Ajuda” mostra um tutorial sobre a utilização e funcionamento do sistema e
por fim o menu “Idioma/Language” disponibiliza duas línguas para se trabalhar com o
sistema, são elas portuguesa e inglesa. Escolhendo uma delas, automaticamente o sistema
traduz todo o conteúdo para a linguagem escolhida.
Nesta tela principal do MineraFórum existem três abas com as seguintes descrições:
“Texto de Referência”, “Base de Conceitos” e “MineraFórum”.
Na aba “Texto de Referência”, que será apresentada na figura 18, encontra-se uma área
branca onde é possível digitar o texto de referência sobre o tema do fórum de discussão que
será minerado. Nesta aba existe também o botão “limpar texto” que tem a função de limpar o
texto de referencia e o botão “Extrair conceitos“ que realiza a mineração no texto de
52
referência informado pelo usuário.
Figura 18 – Tela aba “Texto de Referência”
Nesta aba se encontra também a opção “Configurações para mineração do texto de
referência”, que possibilita ao usuário indicar a quantidade mínima de ocorrências que uma
palavra deve ter no texto de referência, para ser considerada como um conceito relevante no
processo de mineração. Existem duas opções para configuração, a primeira seria “Selecionar
frequência mínima automática”. Neste caso, o valor da frequência será definido por um valor
padrão “2” ou “Selecionar frequência mínima manualmente”, onde o usuário pode definir um
valor a sua escolha. Esta tela é apresentada na figura 19.
53
Figura 19 - Configuração da frequência mínima de uma palavra
Na aba “Base de Conceitos” (figura 20) há uma coluna com todos os conceitos
extraídos do texto de referência chamada coluna “Conceitos”. Nesta aba pode-se apagar um
conceito selecionando o conceito que deseja apagar e pressionar a tecla “Delete” do teclado
ou pode adicionar um conceito que o usuário julgue importante. Para adicionar um conceito
basta digitá-lo no campo de nome “Nome Conceito” e pressionar o botão “Enviar”.
A coluna cujo nome “Conceitos Relacionados” apresenta os conceitos relacionados
aos citados na coluna “Conceitos”. A coluna “Conceitos Não Relacionados” apresenta os
conceitos que não estão relacionados aos mencionados na coluna “Conceitos”. Caso seja
necessário relacionar um conceito, ou retirar o relacionamento, basta selecionar o conceito
desejado e pressionar o botão “Adicionar conceito relacionado”, que irá adicionar o conceito
que foi selecionado, ou pressionar o botão “Remover conceito relacionado” que irá remover o
conceito selecionado.
Nesta segunda aba, existe um botão chamado “Grafos da base de conceitos” que
apresenta o grafo de toda a base de conceitos e seus relacionamentos.
54
Figura 20- Tela aba “Base de Conceitos”
A aba “Minerar Fórum” (figura 21) apresenta o botão “Minerar Fórum”, que realiza a
mineração das mensagens redigidas pelos alunos no fórum de discussão. O resultado é
apresentado na área branca, onde aparecerão as informações sobre cada aluno: o nome do
discente, o total de mensagens com separação de mensagens relevantes e não relevantes, a
média de mensagens relevantes ao tema da discussão e as mensagens postadas com o seu grau
de relevância.
55
Figura 21 - Aba Minerar Fórum com a ação do botão “Minerar fórum”
Nesta aba encontra-se também o botão “Exibir conceitos” que lista na área branca a
quantidade e os conceitos relevantes citados por cada aluno.
A botão “Grafo do fórum” gera um grafo com os conceitos relevantes encontrados no
fórum e seus relacionamentos (figura 22).
56
Figura 22 - Aba Minerar Fórum com a ação do botão “Grafo do fórum”
O botão “Exibir gráficos” apresenta um gráfico com as médias das relevâncias das
mensagens de cada aluno (figura 23).
Figura 23 - Aba Minerar Fórum com a ação do botão “Exibir Gráfico”
O botão “Similaridade” apresenta as mensagens similares dos alunos quando forem
57
encontradas. Por fim, o botão “Salvar Resultados” grava os resultados encontrados na
mineração do fórum de discussão.
Estrutura de Arquivos do MineraFórum
Esta ferramenta de mineração foi criada na linguagem de programação Java e seus
arquivos de configuração ficam localizados na pasta “mineraforum”.
Nesta pasta existem 6 arquivos descritos abaixo:
•
“mensagens”: este é o arquivo onde ficam as mensagem do fórum acadêmico
no qual o MineraFórum irá buscar as informações para mineração.
• “texto_apresentacao_mineraforum”: este é um texto de apresentação sobre o
MineraFórum.
• “tutorial_mineraforum_ingles”: este arquivo apresenta um manual da
ferramenta na língua inglesa.
•
“tutorial_mineraforum_portugues”: este arquivo apresenta um manual da
ferramenta na língua portuguesa.
• “S_TextMing”: esta aqruivo é um .jar desenvolvido em java que contém toda a
ferramenta de mineração.
“index”: este arquivo html abre uma janela popup com o texto de apresentação e um applet
com o “S_TextMing”.
Download