INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA FLUMINENSE CÂMPUS CAMPOS-CENTRO CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM ANÁLISE E GESTÃO DE SISTEMAS DE INFORMAÇÃO RONALD GONÇALVES DAS NEVES THIAGO CHAGAS ZACCARO MINERAÇÃO DE TEXTO PARA ANÁLISE DE INTERAÇÕES EM REDES SOCIAIS ACADÊMICAS CAMPOS DOS GOYTACAZES/RJ 2016 RONALD GONÇALVES DAS NEVES THIAGO CHAGAS ZACCARO MINERAÇÃO DE TEXTO PARA ANÁLISE DE INTERAÇÕES EM REDES SOCIAIS ACADÊMICAS Projeto de Pesquisa apresentado ao Instituto Federal de Educação, Ciência e Tecnologia Fluminense, Câmpus Campos-Centro, como requisito parcial para conclusão do Curso de Pósgraduação Lato Sensu em Análise e Gestão de Sistemas de Informação. Orientador: Dr. Breno Fabrício Terra Azevedo CAMPOS DOS GOYTACAZES/RJ 2016 Dados Internacionais de Catalogação na Publicação (CIP) Biblioteca. Setor de Processos Técnicos (IFF) R768m Ronald Gonçalves das Neves Mineração de texto para análise de interações em redes sociais acadêmicas / Ronald Gonçalves das Neves, Thiago Chagas Zaccaro – 2016. 57 f.: il. color. Orientador: Breno Fabrício Terra Azevedo Monografia (Pósgraduação Lato Sensu em Análise e Gestão de Sistemas de Informação). Instituto Federal de Educação, Ciência e Tecnologia Fluminense. Campus Campos Centro. Campos dos Goytacazes (RJ), 2016. Referências: p. 44-47. 1. 2. 3. 1. Mineração de dados (Computação). 2. Banco de dados. I. Zaccaro, Thiago Chagas. II. Azevedo, Breno Fabrício Terra, orient. III.Título. CDD – 005.74 RONALD GONÇALVES DAS NEVES THIAGO CHAGAS ZACCARO MINERAÇÃO DE TEXTO PARA ANÁLISE DE INTERAÇÕES EM REDES SOCIAIS ACADÊMICAS Monografia apresentada ao Instituto Federal de Educação, Ciência e Tecnologia Fluminense, Câmpus Campos-Centro, como requisito parcial para conclusão do Curso de Pós-graduação Lato Sensu em Análise e Gestão de Sistemas de Informação. Aprovada em 08 de abril de 2016. Banca Avaliadora: ....................................................................................................................................................... Profº Breno Fabrício Terra Azevedo (Orientador) Doutor em Informática na Educação/UFRGS Instituto Federal de Educação, Ciência e Tecnologia Fluminense ....................................................................................................................................................... Profº Fernando Luiz de Carvalho e Silva Mestre em Engenharia de Produção/UENF Instituto Federal de Educação, Ciência e Tecnologia Fluminense ....................................................................................................................................................... Profº Eduardo Francisco da Silva Freire Mestre em Economia Empresarial/UCAM Instituto Federal de Educação, Ciência e Tecnologia Fluminense Dedicamos este trabalho às nossas famílias, que muito nos apoiaram e incentivaram a realizá-lo. AGRADECIMENTOS Agradecemos, primeiramente, a Deus, por nos dar força, inteligência, saúde e tudo o que precisamos para que conseguíssemos alcançar mais esta vitória. Às nossas famílias, as quais sempre nos apoiaram em todos os momentos, dando-nos a educação adequada, carinho e estímulo nas horas de cansaço e desânimo. Aos nossos amigos, colegas de trabalho e de classe. Aos professores que nos acompanharam ao longo do curso, dando-nos as condições necessárias para chegarmos ao fim desta jornada. Ao nosso orientador por dispensar seu tempo e conhecimento para nos auxiliar na construção deste trabalho e conclusão deste curso. RESUMO Mineração de textos, que também é conhecida como mineração de dados textuais, é um campo multidisciplinar que integra conhecimentos de diversas áreas como, Informática, Linguística, Ciência Cognitiva e Estatística. A técnica de mineração de textos consiste em extrair regularidades, padrões ou tendências de grandes volumes de textos em linguagem natural. A mineração de textos é capaz de explorar um conjunto de dados textuais, extraindo ou ajudando a evidenciar padrões e auxiliando na descoberta de conhecimento. As redes sociais acadêmicas atualmente vêm sendo utilizadas cada vez mais pelos acadêmicos por abranger várias mídias e também por ter a capacidade de atingir um grande público em pouco tempo, facilitando o relacionamento entre eles. As redes sociais tornaram-se ferramentas de interação para auxiliar professores e alunos. Com o fácil contato virtual com os alunos que as redes sociais proporcionam, a mesma auxilia os professores a conhecer melhor os seus alunos, facilitando o preparo de suas aulas e focando nos assuntos que serão ministrados. A proposta deste trabalho é apresentar um novo recurso dentro da rede social acadêmica da UCAM, utilizando um filtro implementado na aplicação MineraFórum, que tem como objetivo analisar as interações entre professores e alunos dentro da rede social acadêmica. Palavras-chave: Mineração de Textos, Rede Social. ABSTRACT Mining of texts, which is also known as mining of textual data, is a multidisciplinary field that integrates knowledge of various areas such as informatics, linguistic, Cognitive Science and statistics. The technique of text mining consists of removing regularities, patterns or trends of large volumes of texts in natural language. The text mining is able to exploit a set of textual data, extracting or helping to reveal patterns and aiding in the discovery of knowledge. Social networks currently academic have been used increasingly by academics to cover various media and also by having the ability to achieve a large audience in little time, as it leaves the users more available, facilitating the relationship between them. Social networks have become interaction tools to help teachers and students. With easy virtual contact with students that social networks provide the same help teachers to know better their pupils, facilitating the preparation of their classes and focusing on matters that will be administered. The proposal of this paper is to present a new feature within the academic social network UCAM using a filter implemented in MineraFórum application, which aims to analyze the interactions between teachers and students within the academic social network. Keywords: Text Mining, Social Network. LISTA DE FIGURAS Figura 1 – Linhas cronológica das etapas de um processo de Mineração............................ 17 Figura 2 – Árvore de Porfírio................................................................................................ 27 Figura 3 – Fluxograma de comunicação entre o MineraFórum e o Fórum Acadêmico....... 31 Figura 4 – Lista de Fórum de um período letivo................................................................... 31 Figura 5 – Lista de Postagem de um Fórum......................................................................... 32 Figura 6 – Modelo de dados do Fórum Acadêmica da UCAM............................................ 33 Figura 7 – Caso de Uso (Professor)...................................................................................... 35 Figura 8 – Filtros de informação do modelo proposto.......................................................... 36 Figura 9 – Filtro de período letivo...................................................................................... 37 Figura 10 – Filtro de disciplina............................................................................................. 38 Figura 11 – Filtro de tópicos................................................................................................. 39 Figura 12 – Representação do arquivo mensagem................................................................ 40 Figura 13 – Descrição dos marcadores................................................................................. 40 Figura 14 – Arquivo “mensagem.txt”................................................................................... 41 Figura 15 – Fluxograma da criação do Arquivo “mensagem.txt”......................................... 42 Figura 16 – Tela principal com o menu “Arquivo” selecionado........................................... 50 Figura 17 – Tela do menu “Configurações”.......................................................................... 51 Figura 18 – Tela aba “Texto de Referência”......................................................................... 52 Figura 19 – Configuração da freqüência mínima de uma palavra........................................ 53 Figura 20 – Tela aba “Base de Conceitos”............................................................................ 54 Figura 21 – Aba Minerar Fórum com a ação do botão “Minerar fórum”............................. 55 Figura 22 – Aba Minerar Fórum com a ação do botão “Grafo do fórum”............................ 56 Figura 23 – Aba Minerar Fórum com a ação do botão “Exibir Gráfico”.............................. 56 SIGLAS E ABREVIATURAS SVM - Support Vector Machine UCAM - Univerdidade Candido Mendes BBS - Bulletin Board System I-Bee - Bulletin board Enrollee Envisioner FOAF - Friend-of-a-Friend 10 SUMÁRIO 1 INTRODUÇÃO................................................................................................................. 12 1.1 Motivação........................................................................................................................ 12 1.2 Objetivo do Trabalho...................................................................................................... 13 1.3 Justificativa..................................................................................................................... 14 1.4 Organização da Monografia............................................................................................ 14 2 MINERAÇÃO DE TEXTO............................................................................................... 15 2.1 Etapas da Mineração de Texto........................................................................................ 16 2.2 Áreas de Aplicação.......................................................................................................... 17 2.3 Aplicação na área de educação........................................................................................ 18 2.4 Tarefas de mineração de texto......................................................................................... 21 2.4.1 Classificação de Texto.................................................................................................. 21 2.4.2 Agrupamento de Documentos (Clustering).................................................................. 21 2.4.3 Extração da Informação............................................................................................... 21 2.4.4 Descoberta de Associações.......................................................................................... 22 2.4.5 Analise de Sentimentos (Sentiment Analysis)............................................................. 22 2.4.6 Casamento de Esquemas (Schema Matching)............................................................. 22 2.4.7 Recuperação da Informação......................................................................................... 23 3 REDES SOCIAIS.............................................................................................................. 24 3.1 Redes Sociais Acadêmicas.............................................................................................. 24 3.2 Fórum de discussão......................................................................................................... 25 4 ONTOLOGIA.................................................................................................................... 27 4.1 Usos, Benefícios e Problemas relacionados às Ontologias............................................. 28 5 MODELO DE BUSCA DE DADOS NO FÓRUM ACADEMICO.................................. 30 5.1 Comunicação entre o Fórum Acadêmico e o MineraFórum........................................... 30 5.2 Fórum Acadêmico da UCAM......................................................................................... 31 5.3 Estrutura da Base de Dados do Fórum da UCAM.......................................................... 32 5.4 Modelo para busca de informações no banco de dados do fórum da UCAM................ 34 5.5 Gerando o arquivo de mensagens de forma automática................................................. 39 6 CONCLUSÃO................................................................................................................... 43 6.1 Considerações Finais....................................................................................................... 43 11 6.2 Trabalhos Futuros............................................................................................................ 43 REFERÊNCIAS.................................................................................................................... 44 APÊNDICE A....................................................................................................................... 48 12 INTRODUÇÃO 1.1 Motivação Uma Rede Social é conceituada genericamente como o software que articula as interações interpessoais. Ela vem sendo utilizada pelos acadêmicos por abranger várias mídias (áudio, vídeo e escrita), além de ter capacidade de atingir grande público em pouco tempo (MONTEIRO, 2011). Uma Rede Social facilita a interação entre os usuários. Este meio de comunicação é de fácil acesso e entendimento. Com ela, as escolas e universidades podem montar grupos para tirar dúvidas sobre um determinado assunto ou conteúdo específico, podem também incentivar os discentes a discutir sobre um tema específico. Desta forma, as redes sociais se tornam ferramentas de interação valiosas para auxiliar os alunos. O contato com os estudantes na internet ajuda o professor a conhecê-los melhor e, assim, saber quais são os interesses dos jovens, facilitando o preparo das aulas, focando os assuntos a serem apresentados e tornando as aulas mais interessantes, auxiliando na aprendizagem. A Mineração de Textos é um campo multidisciplinar que inclui conhecimentos de áreas como Informática, Linguística, Ciência Cognitiva e Estatística. A Mineração de Textos consiste em extrair regularidades, padrões ou tendências de grandes volumes de textos em linguagem natural. A mineração de textos pretende extrair conhecimentos úteis de dados não estruturados ou semi-estruturados, extraindo ou ajudando a evidenciar padrões nestes dados e auxiliando na descoberta de conhecimento. Esse conhecimento pode ser apresentado por ferramentas de diversas formas: agrupamentos, hipóteses, regras, árvores de decisão e grafos (SILVA; BARROS; PRUDÊNCIO, 2015, p. 504-505). A Informática é formada pelo conjunto das Ciências da Informação, que integra a teoria da informação, o processo de cálculo, a análise numérica, os métodos teóricos da representação dos conhecimentos e modelagem dos problemas (INFORMATIVO.PT, 2013). A Estatística é uma ciência que usa teorias probabilísticas para explicação de eventos, estudos e experimentos. Tem por intuito obter, organizar e analisar dados, indicar as correlações que apresentem, tirando delas seus resultados para descrição e explicação do que passou e previsão e organização do futuro (ARANHA; PASSOS, 2006, p. 1-2). A Lingüística é o estudo científico da linguagem humana. Os lingüistas dividem o estudo da linguagem em áreas que são estudadas de forma separada. As divisões mais comuns são: fonética, fonologia, morfologia, sintaxe, pragmática, dentre outras. A preocupação em adequar os modelos à realidade da computação consolidou a Linguística Computacional 13 (ARANHA; PASSOS, 2006, p. 1-2). A Ciência Cognitiva é definida como o estudo científico da mente ou da inteligência. Toda a introdução à Ciência Cognitiva enfatiza sua alta interdisciplinaridade. Ela é normalmente definida como tomando parte ou colaborando com as disciplinas de Psicologia especialmente através da Psicologia Cognitiva, Linguística, Neurociência, Inteligência Artificial e Filosofia (CARRILHO, 2007, p. 16). A partir do conhecimento baseado nestas ciências, a Mineração de Textos define técnicas de extração de padrões ou tendências de grandes volumes de textos em linguagem natural. Apesar da grande potencialidade oferecida pela Mineração de Textos, alguns fatores podem prejudicar as técnicas de mineração. Os atributos precisam ser muito bem definidos, caso contrário os resultados podem ser mal interpretados. Uma interpretação falha pode disfarçar os dados. Utilizar um grande número de variáveis pode tornar a análise inviável e gerar conclusões erradas. A proposta deste trabalho é apresentar um novo recurso dentro da rede social acadêmica da UCAM, localizado no portal do professor, utilizando um filtro implementado na aplicação MineraFórum, que tem como objetivo analisar as interações entre professores e alunos dentro da rede social acadêmica. 1.2 Objetivo do Trabalho O objetivo principal deste trabalho é analisar as interações entre professores e alunos dentro da rede social acadêmica da UCAM, utilizando técnicas de mineração de textos para extrair padrões importantes nos textos redigidos nas interações entre docentes e discentes. Os objetivos secundários deste projeto são: 1. Criar um modelo de um filtro na aplicação MineraFórum para interagir dentro do portal do professor da rede social acadêmica da UCAM. 2. Realizar a interpretação e avaliação dos padrões gerados em redes sociais acadêmicas, buscando, assim, informações que possam ajudar o professor a identificar qual foi o assunto mais discutido, quem falou mais sobre um determinado assunto e também verificar se os alunos possuem opinião favorável ou não ao tema discutido. 14 1.3 Justificativa A mineração de textos é uma tecnologia proveniente das técnicas de recuperação de informações e da descoberta de informações estruturadas, através de procedimentos estatísticos e do uso de banco de dados. A mineração de textos se resume em métodos utilizados para organizar, achar, navegar e descobrir informações em bases textuais. O uso desta tecnologia possibilita a extração de dados, recuperar informações, descobrir padrões, associações e regras, resumir documentos e fazer análises quantitativas ou qualitativas em documentos de texto. Uma rede social é uma ferramenta constituída por pessoas conectadas por um ou vários tipos de relações. As redes sociais acadêmicas têm o objetivo de facilitar a disponibilização dos conteúdos utilizados pelos alunos. Elas também facilitam a comunicação entre os professores e alunos no decorrer de um curso. A concretização deste trabalho se justifica por obter conhecimentos e informações úteis através da análise de fóruns de discussão da rede social acadêmica da UCAM utilizando a tecnologia de mineração de textos, possibilitando o aproveitamento destes elementos pelos professores, melhorando o processo de ensino-aprendizagem. Com esta análise busca-se fundamentar a idéia de que o emprego desse tipo de ferramenta no meio acadêmico proporciona inúmeros benefícios, principalmente para os professores, facilitando a busca de informações inseridas na rede social acadêmica. 1.4 Organização da Monografia Esse trabalho é uma pesquisa do tipo bibliográfica descritiva de caráter qualitativo, estruturado em 6 (seis) capítulos, sendo este o primeiro capítulo. Os demais estão organizados de acordo com a estrutura descrita abaixo. O capítulo 2 apresenta histórico, definições e características da mineração de textos. O capítulo 3 apresenta definições relacionadas com rede social. O capítulo 4 apresenta conceitos, uso, benefícios e problemas sobre ontologia. O capítulo 5 apresenta definições e características do modelo proposto para mineração de um fórum acadêmico. Este capítulo apresenta as funcionalidades e o modelo proposto para realizar a captura e padronização automática das informações que alimentam o MineraFórum. O capítulo 6 apresenta as considerações finais a respeito dos resultados obtidos pela pesquisa realizada e os trabalhos futuros. 15 2 MINERAÇÃO DE TEXTO A mineração de textos é uma subárea da mineração de dados interessada no desenvolvimento de técnicas e processos para a descoberta automática de conhecimento a partir de coleções de documentos texto. É uma tecnologia proveniente das técnicas de recuperação de informações e da descoberta tradicional de informações estruturadas, através do uso de procedimentos estatísticos e de bancos de dados. É um processo que usa algoritmos capazes de analisar coleções de documentos texto, como páginas Web, arquivos PDF, documentos XML e campos CLOB ou VARCHAR de tabelas relacionais, com a finalidade de extrair conhecimento. A mineração de textos é um grupo de métodos utilizados para organizar, navegar e descobrir informações em bases textuais. Também é conhecida como mineração de dados textuais, trata-se de um processo para obter informações de textos, utilizando algoritmos que foram desenvolvimentos para fazer análises de documentos. Pode ser considerada como uma parte da área de Data Mining, focalizada na análise de textos. O trecho abaixo conceitua mineração de texto: A mineração de textos pode ser definida como uma aplicação de sistemas de computação que envolve hardware e software dedicados à análise textual de documentos, com o objetivo de: extrair informação e/ou conhecimento a partir daqueles documentos; descobrir tendências que aqueles documentos possam expor; obter uma melhor visão sobre as pessoas, lugares e coisas fundamentado no que aqueles documentos podem revelar; classificar, organizar e/ou categorizar os documentos ou a informação/conhecimento que eles contêm; e sumarizar um documento em uma forma mais compacta através da condensação (MATTISON; MATTISON, 1999 apud MORETTO; RAPKIEWICZ, 2013, p. 4). De acordo com Gupta e Lehal, “mineração de textos é uma área da Ciência da Computação cujo objetivo é identificar informações novas, ou desconhecidas, através da extração automática das mesmas a partir de documentos escritos” (GUPTA; LEHAL, 2009). Segundo Tan, “a mineração de textos trata do processo de extrair padrões interessantes e não-triviais de conhecimento a partir de textos” (TAN, 1999). Dentre os conceitos apresentados, Feldman e Sanger reportam: A mineração de textos pode ser definida como um processo intensivo de conhecimento no qual um usuário interage com uma grande quantidade de documentos utilizando ferramentas para análise dos mesmos. O objetivo é extrair informações úteis a partir de coleções de documentos. Estas informações são identificadas em padrões interessantes nos dados textuais não estruturados (FELDMAN; SANGER, 2007). 16 2.1 Etapas da Mineração de Texto A mineração de textos pode ser utilizada para extrair conhecimento a partir de texto livre ou semiestruturado. A seguir apresenta-se os conceitos dos dois diferentes formatos para melhor entendimento: 1. Texto Livre: trata-se de texto escrito em alguma linguagem natural que contém pouca ou nenhuma marca de estruturação. Alguns exemplos: artigos de revista, capítulos de livro, texto do corpo de um e-mail, arquivos PDF, entre outros. Nesta categoria também podem ser incluídos os campos descritivos de tabelas de bancos de dados relacionais, como CLOB, Memo e VARCHAR, já que eles são criados com o intuito de armazenar texto livre. Em muitos sistemas reais os textos armazenados nestes campos são consideravelmente longos e complexos (ex: um campo CLOB utilizado para armazenar a descrição de um atendimento em um sistema de help desk). 2. Texto Semiestruturado: documentos que, mesmo sem possuir um esquema rígido para validar seus dados, contêm alguma estrutura. Os dois principais exemplos são os documentos XML, onde as informações encontram-se demarcadas entre tags, e os arquivos JSON, que são compostos por pares atributo/valor. A mineração de texto pode ser empregada para fazer várias tarefas, como por exemplo, a classificação automática de textos. O processo de Mineração de Textos é constituído por cinco etapas: coleta de documentos, pré-processamento, indexação, mineração e análise. Na figura 01 são apresentadas as sequências das etapas e as principais atividades executadas em cada uma delas. 17 Figura 1 - Linhas cronológica das etapas de um processo de Mineração Fonte: Aranha e Passos (2006) A primeira etapa a ser executada é a de Coleta. Ela possui o objetivo de formar a coleção de documentos, que é o básico do processo de Mineração de Textos. Logo em seguida, começa a etapa de Pré-processamento. Neste momento, os documentos que foram coletados na etapa anterior são sujeitos a várias operações para obter uma forma de representá-los estruturadamente. Após o Pré-Processamento, começa a fase de Indexação, esse processo é responsável por criar estruturas auxiliares que garantem rapidez e agilidade na recuperação dos documentos e seus termos. Após a indexação, os documentos e termos são analisados por algoritmos para que seja feita a extração de conhecimento, que tem o objetivo de descobrir padrões úteis e desconhecidos nos documentos. O processo de mineração de texto finaliza com a etapa de Análise. Nesta etapa é realizada a avaliação e interpretação de todo o conhecimento alcançado pelo processo. 2.2 Áreas de Aplicação As técnicas de mineração de textos podem ser usadas em várias áreas do conhecimento. Esta seção retrata algumas delas. De acordo com Feldman e Sanger, algumas das áreas nas quais a mineração de textos é utilizada são: pesquisa de patentes, finanças corporativas e ciências da vida. O objetivo na área pesquisa de patentes é investigar as estratégias de desenvolvimento de patentes e encontrar formas para conseguir localizar ativos de patentes corporativas que existem. Nas 18 áreas finanças corporativas a mineração de textos tem como objetivo filtrar dados textuais para conseguir criar formas de utilização de business intelligence, anotando tendências, identificação de correlações, e pesquisando referências a operações específicas, pessoas jurídicas ou físicas. Já nas ciências da vida, alguns pesquisadores estão explorando grandes coleções de relatos de pesquisa biométrica para localizar padrões complexos de interatividade entre proteínas (FELDMAN; SANGER, 2007). Segundo Qi, a mineração de texto também pode ser utilizada na área Bioinformática. Muitos documentos da literatura de estudo da Biologia estão guardados como modelos semiestruturados e não estruturados, a mineração pode ajudar a localizar as informações e os relacionamentos dos dados biológicos (QI, 2009) Segundo Dreweke et al, a mineração de texto pode ser utilizada em código de programação, para localizar trechos duplicados em projetos de software. Desta forma, os software ficam compreensíveis e ajudam a evitar erros em caso de ser realizada uma reengenharia dos programas (DREWEKE et al., 2009). Segundo Xu e Luo, a mineração de textos também é uma ferramenta muito importante na área dos sistemas de segurança da informação. Existem várias aplicações tecnológicas empregadas na área de segurança. As técnicas são categorizadas de acordo com o tipo de conhecimento a ser encontrado e os formatos de texto a serem explorados (XU; LUO, 2009). O artigo de Yoo et al, mostra uma análise de redes sociais pessoais para capturar grupos e obter características importantes que representam o perfil de um usuário. Os autores desenvolveram um algoritmo de aprendizagem semi-supervisionado que aumenta rótulos de importância para testar exemplos de mensagens e nós de usuários em uma rede de e-mail pessoal. Foi usada uma representação de vetor para cada mensagem de e-mail. Cada vetor possui os dados da mensagem e as características sociais do emitente e do destinatário. Esta representação foi utilizada como a entrada de classificadores SVM (Support Vector Machine) para prever o nível de importância de cada mensagem (YOO et al., 2009). 2.3 Aplicação na área de educação As técnicas de mineração de textos também podem ajudar e auxiliar na área de educação. A seguir, apresentam-se algumas pesquisas realizadas. Chen N. et al., mostram uma pesquisa para mapas conceituais usando técnicas de mineração de textos. Para isso, foi realizada uma análise de vários artigos acadêmicos relacionados a um domínio específico. As palavras-chaves listadas nos documentos foram 19 inseridas nos nós, representando os conceitos. As ligações entre os conceitos foram obtidas a partir de uma medida de distância entre as palavras-chaves nos textos (CHEN N. et al., 2008). Romero e Ventura verificaram diversos trabalhos que aplicaram técnicas de mineração de dados e textos em cursos baseados na web, sistemas de gestão de conteúdos de aprendizagem, e sistemas educacionais inteligentes e adaptativos baseados na web. Algumas pesquisas citadas pelos autores são (ROMERO; VENTURA, 2007). Ueno usou técnicas de mineração de textos para efetuar uma análise de correspondência expandida em fóruns de discussão. Os alunos selecionam a categoria que representa sua mensagem e o sistema fornece avaliações para os comentários do aluno entre os colegas (UENO, 2004). Chen et al., propõem a criação automática de um livro eletrônico através de mineração de conteúdo web. Eles aplicaram uma estratégia de classificação para avaliar a adequação de páginas web, estabeleceram hierarquias de conceitos, e extraíram características (CHEN et al., 2005). Tane et al., apresentam uma ferramenta baseada em ontologia para aproveitar recursos disponíveis na web. Eles usaram técnicas de mineração de textos para criar ontologias a partir de conjuntos de documentos (TANE et al., 2004). Tang et al., construíram um tutor web personalizado, através da mineração do contexto e estrutura de um curso. Eles utilizaram um algoritmo de mineração de textos direcionado a palavras-chaves, que seleciona artigos para alunos de educação a distância (TANG et al., 2000). Mochizuki et al., descrevem um método de autoavaliação para os alunos em uma discussão colaborativa. Os autores propõem uma forma para visualizar a discussão dos discentes em um BBS (Bulletin Board System), que utiliza uma técnica de mineração de textos para avaliar a conversação. O método extrai palavras-chaves da discussão e usa análise de correspondência para visualizar a relação delas com o assunto tratado. O procedimento também produz um mapeamento que indica se o aluno fez referência a cada palavra-chave em suas mensagens. No trabalho, os autores desenvolveram um software chamado i-Bee (Bulletin board Enrollee Envisioner) (MOCHIZUKI et al., 2005). Dalmolin et al., demonstram uma ferramenta para auxiliar no processo de criação de mapas conceituais. A ferramenta foi elaborada para organizar conteúdos a partir dos módulos temáticos de um curso. Na ferramenta, os professores podem construir seus próprios mapas baseados em documentos textuais. Os docentes também podem utilizar um editor visual para criar mapas e vincular objetos de aprendizagem a conceitos. Os alunos podem acessar objetos 20 de aprendizagem e fazer anotações em seus mapas, melhorando o processo de ensinoaprendizagem. O extrator de mapa conceitual é um algoritmo baseado em técnicas de mineração de texto, que extrai os termos relevantes considerados conceitos ou links (DALMOLIN et al., 2009). Ferreira et al., mostram uma pesquisa sobre sumarização de textos provenientes de repositórios de arquivos textuais e blogs. De acordo com os autores, os sumários auxiliam as pessoas a identificar mais rápido, se o conteúdo do texto original é útil aos seus interesses. O trabalho cita que a sumarização de textos é uma alternativa viável a ser incorporada em Ambientes Educacionais na Web, pois pode ajudar alunos e professores a diagnosticar, com maior velocidade, textos que podem atender as suas necessidades (FERREIRA et al., 2009). Ravi e Kim, apresentam um trabalho para identificar automaticamente perfis de interações de alunos em fóruns de discussões. Foram utilizados recursos de sequência de palavras e algoritmos SVM (Support Vector Machine), para desenvolver classificadores de “ato de discurso” que identificam os papéis das mensagens individuais, como: pergunta, resposta, elaboração, correção. Os classificadores foram utilizados na busca de mensagens que contêm perguntas ou respostas. Foi usado um conjunto de regras para análise dos tópicos para descobrir aqueles que poderiam ter perguntas sem resposta e necessitar da atenção do professor (RAVI; KIM, 2007). Kim et al., mostraram em seu artigo um agente inteligente, que foi implementado dentro de um fórum de discussão para fornecer respostas às perguntas dos alunos. O trabalho apresenta como os tópicos do debate foram modelados utilizando atos de discurso. Cada postagem foi classificada de acordo com categorias, como: pergunta, resposta, elaboração e correção. Ao classificar as contribuições da discussão, os autores foram capazes de interpretar os papéis dos alunos e do professor nas discussões. Os autores desenvolveram um conjunto de padrões para analisar as interações dos discentes nas discussões. Alguns destes padrões foram usados para descobrir mensagens nas quais os alunos poderiam ter perguntas não respondidas. O agente inteligente utiliza técnicas de mineração de texto para extrair palavras e suas frequências da pergunta do aluno, dos documentos do curso, e das discussões anteriores. Os pesos das palavras são calculados pela fórmula TF-IDF. A medida de similaridade cosseno é utilizada para descobrir quais desses documentos e/ou discussões passadas possuem semelhança com o texto envolvido na pergunta do aluno (KIM et al., 2007). 21 2.4 Tarefas de mineração de texto As tarefas de mineração de texto podem ser consideradas como as diferentes categorias de problemas que podem ser resolvidos através de processos de mineração de texto. Esta seção introduz as mais importantes através de uma abordagem simples. 2.4.1 Classificação de Texto Esta é a tarefa de mineração de texto mais conhecida e utilizada. O objetivo é realizar a associação automática de documentos de texto a uma determinada classe, pertencente a um conjunto pré-definido de classes. Um exemplo de classificador de texto que é bastante conhecido, está nos programas para filtragem de spam. A partir da análise do assunto e do texto de uma mensagem, o programa usa um algoritmo classificador de texto para identificar se esta mensagem deve ser classificada como “normal” ou “spam” 2.4.2 Agrupamento de Documentos (Clustering) Esta tarefa consiste em dividir uma coleção de documentos texto em grupos (clusters) de acordo com algum relacionamento de similaridade entre os mesmos. A organização dos documentos em cada cluster deve ser feita de forma que haja: • Alta similaridade entre os documentos pertencentes a um mesmo cluster. • Baixa similaridade entre elementos que pertencem a clusters diferentes. Esta tarefa possui a mineração de documentos XML como uma de suas principais aplicações práticas. É possível realizar tanto a mineração da estrutura, como a mineração do conteúdo de um documento. 2.4.3 Extração da Informação Consiste na tarefa de preencher templates a partir de documentos de textos. Os sistemas de extração da informação utilizam técnicas para interpretar a informação que contém em textos e, assim, extrair as partes relevantes para uma necessidade específica. As informações extraídas são geralmente inseridas em tabelas de bancos de dados para que possam ser analisadas através das planilhas, SQL ou até mesmo da mineração de dados tradicional. Para preencher os templates o sistema necessita identificar os objetos do mundo real 22 dentro dos textos: substantivos (nomes de pessoas, locais, empresas, coisas, etc.), datas, verbos, endereços, abreviações, URL’s, etc. Certos tipos de objetos podem ser reconhecidos com o uso de técnicas simples, como as expressões regulares, úteis para a identificação de números de telefone, datas, preços, CEPs, etc. Alguns tipos de substantivos, como nomes próprios e nomes de países, são identificados com o uso de dicionários. Para melhorar a eficiência, o sistema pode também utilizar regras de identificação de padrões. Grande parte dos sistemas de extração de informação se baseia no uso de ontologias para viabilizar a identificação dos objetos. De maneira simples, uma ontologia pode ser definida como uma estrutura que representa as relações entre conceitos de um determinado domínio e os temos associados a cada conceito (vocabulário). 2.4.4 Descoberta de Associações Tem o objetivo de descobrir combinações de palavras que ocorram com freqüência em uma coleção de documentos texto e realizar a análise da associação/correlação entre essas palavras. Os resultados obtidos são expressos na forma de regras de associação. Considere, por exemplo, um corpus formado por textos sobre futebol. Um algoritmo para mineração de regras de associação poderia analisar esta coleção de textos e revelar os padrões 2.4.5 Análise de Sentimentos (Sentiment Analysis) Uma grande quantidade de textos encontrados na Internet - redes sociais, blogs, etc. – refletem a opinião de pessoas a respeito de algum programa de TV, jogo de futebol, produto, serviço, filme, discurso político, etc. A análise de sentimentos é uma nova tarefa de mineração de textos que tem por objetivo identificar a emoção, opinião e sentimento das pessoas sobre um determinado tema, a partir da análise de textos. Tipicamente, o objetivo final é classificar a opinião das pessoas em um dos seguintes rótulos: “positiva”, “negativa” ou “neutra” (neste caso, podemos entender a análise de sentimentos como uma aplicação da tarefa de classificação). 2.4.6 Casamento de Esquemas (Schema Matching) Tarefa que equivale na identificação das correspondências semânticas existentes entre elementos de dois esquemas. O objetivo é mapear automaticamente os elementos que 23 representem a mesma informação em ambos os esquemas. Os algoritmos para casamento de esquemas são muito utilizados na prática, já que estão adaptados nos principais softwares para ETL. Neste tipo de aplicação, o objetivo é auxiliar os analistas de sistemas no cansativo trabalho de integrar dados armazenados em diferentes fontes. • Casamento de Dados Além do casamento de esquemas, existe também outra tarefa de integração semântica, é o casamento de dados. Neste caso, o objetivo não é casar elementos de esquemas (campos), mas sim casar registros (conteúdo dos campos). Alguns exemplos: - Decidir se duas tuplas de uma tabela possuem o mesmo valor. - Decidir se os conteúdos de dois campos VARCHAR de duas diferentes tabelas de um banco de dados possuem conteúdo similar. 2.4.7 Recuperação da Informação A tarefa recuperação da informação (information retrieval – IR), tem o objetivo de localizar e ranquear documentos relevantes em uma coleção, de acordo com as palavraschaves digitadas em uma consulta feita por usuário, ou seja,trabalho realizado pelos sites de busca da Internet. A seguir, apresentam-se dois conceitos importantes relacionados à tarefa de recuperação de informações: indexação e relevância. Um mecanismo eficiente de indexação de informações forma o núcleo de qualquer sistema de recuperação de informações. Existem muitas técnicas para indexação de texto. Uma das mais simples consiste na construção de índices invertidos. Já o conceito de relevância dos resultados apresenta uma lista ordenada por relevância em resposta a uma consulta de usuário. A ideia básica consiste em verificar as palavras-chaves digitadas na consulta do usuário com as palavras presentes em cada documento do corpus. O algoritmo atribui uma pontuação para cada documento, baseado em quão bem ele se assemelha com a consulta do usuário. Essa pontuação é tipicamente computada em função da frequência das palavras do documento e da coleção como um todo. 24 3 REDES SOCIAIS Rede é conceituada como uma estrutura sem fronteiras. A rede social procede desse conceito, representando um conjunto de participantes, que possuem interligação de idéias e recursos, que giram em torno de valores e interesses compartilhados. Redes Sociais são fundamentadas na importância dos relacionamentos entre unidades de interação. As unidades de interação das Redes Sociais são denominadas como atores e os relacionamentos entre eles de vínculos relacionais. As redes sociais ajudam a planejar as preferências, as visões do mundo e os projetos, além de deixarem o acesso diferenciado a recursos de diversos tipos, na qual incontáveis casos são espalhados pelas redes, como prestígio e status. Nesse sentido, redes sociais são estruturas grandes de atores sociais e políticos importantes em cada situação concreta. A análise de redes sociais vem sendo usada em vários tipos de aplicações. No início da década de 1980, as pesquisas eram feitas analisando pequenos grupos e os dados eram adquiridos por questionários ou entrevistas. A partir dessa década, vários registros fizeram parte da análise de redes sociais formadas por milhões de pessoas e, e cada vez mais com o auxílio computacional. O método mais comum para a representação computacional de redes sociais é usando grafos. Com os mesmos, cada indivíduo da rede social é interpretado como um nó e a relação entre os indivíduos são como uma aresta. De acordo com Recuero, as redes sociais na internet funcionam como base para que haja a percepção da rede e a apreensão de suas informações. Porém, é necessário dominar o conceito de ator social na Internet e como suas conexões entre os atores online são consideradas (RECUERO, 2009). 3.1 Redes Sociais Acadêmicas As redes sociais acadêmicas possuem o objetivo de facilitar a disponibilização dos conteúdos utilizados pelos alunos e professores. Também facilitam a comunicação entre as pessoas no decorrer de um curso. O trecho abaixo define o conceito de redes sociais acadêmicas: Essas redes sociais acadêmicas têm como diferencial, ferramentas que permitem o compartilhamento de arquivos, como textos da bibliografia pedida pelos professores, listas de exercícios ou avaliações. Depois de selecionar no site a graduação e as 25 disciplinas cursadas, os alunos encontram outros colegas na mesma situação e, além de ganhar acesso ao material compartilhado, podem trocar mensagens tirando dúvidas e debatendo assuntos de determinada matéria. Apesar de às vezes até contarem com a participação de professores, as plataformas são totalmente gerenciadas pelos alunos e independentes das instituições de ensino (REDE..., 2015, s.p.). 3.2 Fórum de discussão O fórum de discussão é um recurso importante em redes sociais acadêmicas, pois é através do mesmo que os alunos, tutores e professores podem comunicar-se. Além disso, permite que os participantes debatam assuntos e troquem conhecimentos, auxiliando também no esclarecimento de dúvidas sobre assuntos debatidos. Esta seção apresenta conceitos, características e exemplos de fóruns de discussão. De acordo com Sánchez, os fóruns para objetivos educacionais em uma ferramenta online são denominados como um espaço de comunicação constituído por quadros de diálogos, cujas mensagens inseridas podem ser classificadas tematicamente. Nos espaços, os alunos possuem a possibilidade de realizar contribuições de conhecimento e esclarecer dúvidas. A comunicação é efetuada de forma assíncrona e as mensagens digitadas permanecem à disposição dos participantes (SÁNCHEZ, 2005). Segundo Dornelles, fórum de discussão possibilita ao grupo de pessoas de interesse comum, compartilhar e debater dúvidas, opiniões e informações (DORNELLES, 2001). Antes de participar de um determinado debate primeiro o aluno tem que realizar um estudo e pesquisas sobre o determinado assunto a ser tratado. De acordo com a autora Oliveira (2005), fórum é um ambiente de reflexões e discussões. No contexto dos cursos virtuais, a participação no espaço criado pelo fórum pede preparo, geralmente provido por leituras adequadas, pesquisas, resgates ao background próprio a cada participante, entre outras formas de busca. Trata-se de organizar o pensamento , enriquecendo-o com pertinentes referências, permitindo o uso do espaço de discussões e reflexões proporcionado pelo fórum para gerar colaborações, para agregar idéias (OLIVEIRA, 2005, p. 5). Como o fórum de discussão é uma ferramenta assíncrona, o mesmo possibilita que o debate se estenda e possibilite a participação em momentos diferentes, cada um no seu tempo. A ferramenta pode ser acessada para postar uma mensagem de acordo com uma questão inserida pelo mediador do debate ou para responder a uma mensagem postada por outro integrante. No diálogo, cada participante do fórum pode postar suas opiniões, argumentar, contestar, etc. 26 Os pontos positivos da ferramenta são: • Permitir a reflexão e a pesquisa antes da postagem das mensagens; • Permitir a organização do conteúdo e da forma do texto a ser postado; • Permite o aprofundamento de idéias e conceitos; • Permitir a edição das mensagens já postadas; • Facilita a prática consciente de diferentes funções cognitivas, como por exemplo, observar, identificar, relacionar, comparar, analisar, inferir, sintetizar, divergir etc; • Possibilita a mediação mais direcionada por parte do mediador. • Possibilita o registro do processo de construção do conhecimento. As dificuldades mais comuns que o integrante possui ao participar de um fórum de discussão são: • Silêncio virtual; • Timidez; • Falta de fluência tecnológica para lidar com a ferramenta e ou Internet; • Medo da exposição; • Falta de preparo para discussão (leituras e pesquisas). • Falta de disciplina, dedicação de tempo, comprometimento. 27 4 ONTOLOGIA Ontologia é uma palavra que vem do grego ontos (ser) + logos (palavras). Filósofos alemães introduziram a ontologia na filosofia no século 19, com o objetivo de fazer uma diferenciação entre o estudo do ser e do estudo dos vários tipos de seres vivos existentes. Segundo Guarino (1998), como disciplina da área de filosofia, a ontologia foca no fornecimento de sistemas de categorização para a organização da realidade (GUARINO, 1998). Aristóteles propôs a primeira estrutura de classificação. No século III, o filósofo grego Porfírio comentou a estrutura e desenvolveu a primeira estrutura arborescente, conhecida como árvore de Porfírio, mostrada na Figura 2, que ilustra as categorias abaixo de substância. Figura 2 - Árvore de Porfírio Fonte: Gandon (2002) De acordo com Fensel (2001), as ontologias na ciência da computação foram criadas em inteligência artificial, com o objetivo de ajudar o compartilhamento e reutilização de informação (FENSEL, 2001). Atualmente as ontologias estão sendo utilizadas nas áreas de 28 sistemas de informação cooperativos, comércio eletrônico, integração de sistemas inteligentes e software baseado em agentes. Diferentes classificações para ontologias já foram propostas em algumas literaturas. O autor Guarino (1998), propôs um sistema de classificação que usa a generalização da ontologia para a classificação (GUARINO, 1998). No sistema o autor verifica: • Ontologias de domínio - descrevem o vocabulário relativo a um domínio específico através da especialização de conceitos presentes na ontologia de alto nível. • Ontologias de nível superior - descrevem conceitos muito genéricos, tais como eventos, espaço e tempo. Estas seriam independentes de domínio e poderiam ser reutilizados na criação de novas ontologias. • Ontologias de aplicação - são as ontologias mais específicas. Conceitos em ontologias de aplicação correspondem, a papéis desempenhados por entidades do domínio em alguma tarefa. • Ontologias de tarefas - descrevem o vocabulário relativo a uma tarefa genérica ou atividade através da especialização de conceitos presentes na ontologia de alto nível. Em Ciência da Computação o termo ontologia possui várias definições. De acordo com Borst (1997), uma ontologia é definida como uma especificação formal e explícita de uma conceitualização compartilhada, onde especificação formal significa algo que é legível para os computadores. “Explícita” são as propriedades, conceitos, funções, restrições e relações explicitamente definidos. “Conceitualização” representa um modelo abstrato de algum fenômeno do mundo real e compartilhada significa conhecimento consensual (BORST, 1997). 4.1 Usos, Benefícios e Problemas relacionados às Ontologias As ontologias podem ser utilizadas em várias áreas da Ciência da Computação, dentre elas: • Recuperação de informações na Internet; • Processamento de linguagem natural; • Gestão do conhecimento; • Web-semântica; • Educação. 29 Além de serem utilizadas em várias áreas, a utilização de ontologias possui diversas vantagens. Segundo Guizzardi, os benefícios pela utilização de ontologias são (GUIZZARDI, 2000): • Comunicação. As ontologias possibilitam a comunicação entre pessoas acerca de determinado conhecimento, pois permitem raciocínio e entendimento sobre um domínio. • Formalização. A formalização está relacionada à especificação, que permite eliminar contradições e inconsistências na representação de conhecimento. • Representação de conhecimentos e reutilização. As ontologias formam um vocabulário de consenso que permite representar conhecimento de um domínio em seu nível mais alto de abstração, possuindo, desta forma, potencial de reutilização. De acordo com Morais e Ambrósio, as ontologias possuem vários usos e benefícios, mas ainda apresentam alguns problemas, dentre eles (MORAIS; AMBRÓSIO, 2007, p. 4-5): • Escolha das ontologias. A escolha de uma ontologia pode ser difícil, pois uma ontologia pode não ser totalmente adequada a todos os indivíduos relacionados a algum domínio específico. • Criação e evolução das ontologias. Ontologias devem ser criadas e evoluídas. • Metodologia de desenvolvimento. É o principal problema relacionado à ontologias devido a falta de trabalhos apresentando metodologias para seu desenvolvimento, se tornando mais difícil a sua criação pela falta de conhecimento. • Bibliotecas de ontologias. Está ligada à independência entre elas. A interface entre estas ontologia é considerada como um problema, pois cada uma delas pode ser desenvolvida em um contexto diferente. 30 5 MODELO DE BUSCA DE DADOS NO FÓRUM ACADÊMICO Neste capítulo será apresentado um modelo para ser utilizado na busca de informações em um fórum de discussão acadêmico e fazer com que este modelo possa utilizar as funcionalidades já existentes na ferramenta de mineração de textos denominada MineraFórum. No MineraFórum o usuário precisa ter o arquivo “mensagens” configurado com as informações do fórum que será minerado. A ferramenta MineraFórum não alimenta essas informações de forma automática. A ideia proposta será um modelo de coleta de informação que possa, de forma automática, buscar as mensagens em uma base de dados de um fórum acadêmico e preencher o arquivo “mensagens” que o MineraFórum precisa para buscar as informações a serem mineradas. Este modelo será criado com o intuito de ser utilizado por docentes como uma ferramenta de auxílio no aprendizado de seus alunos, onde eles possam escolher um fórum e fazer a utilização do MineraFórum na busca de informações para o auxílio no ensino. O fórum acadêmico utilizado como exemplo será o fórum acadêmico da UCAM. 5.1 Comunicação entre o Fórum Acadêmico e o MineraFórum Este tópico apresenta a comunicação entre o Fórum Acadêmico e o MineraFórum. Na figura 3 pode-se observar que o MineraFórum busca informações em um arquivo chamado “mensagens”, onde este arquivo possui três informações: nomeforum, aluno e mensagem. O arquivo “mensagens” contem os dados do fórum acadêmico que será minerado e precisa estar preenchido com esta informação respeitando um padrão de dados, para que o MineraFórum possa buscar corretamente as informações. Para gerar o arquivo de “mensagens”, o fórum acadêmico precisa disponibilizar para o docente uma ferramenta onde ele possa informar qual fórum será minerado. Nesta ferramenta, o professor vai escolher o fórum e o software irá gerar o arquivo “mensagens” de forma que o MineraFórum possa ler as informações. 31 Figura 3 - Fluxograma de comunicação entre o MineraFórum e o Fórum Acadêmico 5.2 Fórum Acadêmico da UCAM Este tópico apresenta o fórum de discussão da UCAM que está em funcionamento hoje. Visando facilitar a aproximação entre discentes e docentes, a UCAM disponibiliza esta funcionalidade com foco na comunicação e troca de informações. A funcionalidade é utilizada para aproximar os alunos e fornecer meios de divulgação de informações de maneira rápida. A cada semestre que o discente cursa dentro da instituição é disponibilizado um fórum para cada disciplina. Dentro destes fóruns, os professores e alunos podem criar tópicos, responder tópicos e visualizar discussões anteriores. No menu do terminal do aluno e do professor existe uma funcionalidade chamada “Fórum”, onde é possível selecionar o período letivo para visualizar os fóruns disponíveis (figura 4). Figura 4 - Lista de Fórum de um período letivo 32 Na figura 4 são exibidos todos os fóruns do período letivo de 2014/1. Para a disciplina “Tecnologia Mecânica” existe um tópico com duas mensagens. Pode-se visualizar também, o autor do tópico, a data de criação e na coluna “Última Mensagem”, a data e pessoa que postou a última mensagem no fórum. Para visualizar o histórico de conversações do tópico, basta clicar no nome do tópico. Neste momento será visualizada uma tela semelhante a que está apresentada na figura 5. Figura 5 - Lista de Postagem de um Fórum A figura 5 mostra o histórico de postagem do fórum selecionado. Para responder a um tópico deve-se pressionar o botão “Responder”. Após pressionar este botão, o aluno visualizará um editor com a possibilidade de inserção de texto, imagens, links, entre outras informações. Caso deseje citar uma resposta deve-se selecionar o ícone do lado direito. O resultado de uma citação será a resposta do discente precedida do texto, conforme pode ser visualizado na última resposta da figura 5. 5.3 Estrutura da Base de Dados do Fórum da UCAM Para buscar as informações na base de dados da UCAM é preciso conhecer a sua estrutura e seus relacionamentos. 33 A Figura 6 apresenta o modelo de dados do fórum acadêmico da UCAM, que será utilizado na busca das informações necessárias para os filtros. Figura 6 – Modelo de dados do Fórum Acadêmico da UCAM De acordo com o diagrama da figura 6 existem onze tabelas que são envolvidas na busca de informações do fórum acadêmico, são elas: • “Periodoletivo”: nesta tabela encontram-se os campos chave primaria “oid”, “ano” e “semestre”; • “Professor”: nesta tabela encontram-se os campos chave primaria “oid” e “matricula”; • “Aluno”: nesta tabela encontram-se os campos chave primaria “oid”, “matricula” e “turno”; • “Pessoa”: nesta tabela encontram-se os campos chave primaria “oid” e “nome”; • “Papelpessoa”: nesta tabela encontram-se os campos chave primaria “oid”, chave estrangeira “oidpessoa” e “tipo”; • “Disciplina”: nesta tabela encontram-se os campos chave primaria “oid”, “nome” e “sigla”; • “Disciplinaoferecida”: nesta tabela encontram-se os campos chave primaria “oid”, chave estrangeira “oidperiodoletivo”, chave estrangeira “oidprofessor”, chave estrangeira “oiddisciplina” e turno; 34 • “Disciplinamatriz”: nesta tabela encontram-se os campos chave primaria “oid” e chave estrangeira “oiddisciplinadamatriz”; • “Forum”: nesta tabela encontram-se os campos chave primaria “oid”, chave estrangeira “oiddisciplinaoferecida”, “titulo” e “descrição”; • Topico: nesta tabela encontram-se os campos chave primaria “oid”, chave estrangeira “oidforum”, chave estrangeira “oidpapelpessoa“, “titulo” e “data”; • Post: nesta tabela encontram-se os campos chave primaria “oid”, chave estrangeira “oidpessoa”, chave estrangeira “oidtopico”, “assunto”, “texto” e “data”. Na base de dados as informações são associadas a um período letivo. A cada período letivo os alunos são matriculados em disciplinas que são oferecidas. Esta informação fica armazenada na tabela “disciplinaoferecida” que tem a informação do aluno matriculado e as disciplinas escolhidas pelo discente em um determinado período letivo. Cada disciplina oferecida tem um relacionamento com o fórum e o sistema cria este relacionamento automaticamente, de modo que o professor e aluno podem acessar o fórum e criar seus tópicos de discussão. O fórum pode ter vários tópicos que podem ser criados tanto pelos professores como pelos alunos. As mensagens relacionadas a cada tópico ficam armazenadas na tabela “post”. 5.4 Modelo para busca de informações no banco de dados do fórum da UCAM Para que o docente possa escolher o fórum é preciso que ele tenha a opção de selecionar o período letivo, a disciplina e o tópico do fórum. Desta forma, o docente poderá escolher o que será minerado pelo MineraFórum. Desta forma, foi criado um modelo de filtros de informação que atenda o objetivo proposto e que qualquer docente possa utilizar de forma fácil e eficiente. Utilizou-se um diagrama de casos de uso para definir as interações do professor com o sistema. A figura 7 ilustra o ator professor e suas ações para definir o tópico do fórum. 35 Figura 7 - Caso de Uso (Professor) O caso de uso da figura 7 apresenta as quatro ações que o professor vai executar para escolher o tópico do fórum que será minerado. Abaixo apresenta-se a descrição destas ações: • Escolher o Período Letivo: escolher o período letivo que será minerado; • Escolher Disciplina: escolher a disciplina do período letivo selecionado; • Escolher Criador do Tópico do Fórum: escolher se quer filtrar tópicos criados pelo próprio professor ou tópicos criados pelos alunos; • Escolher o Tópico do Fórum: escolher o tópico do fórum que deseja minerar. O sistema de filtro possui o objetivo de buscar os dados de acordo com a escolha do professor e gerar um arquivo chamado “mensagens”. O modelo proposto permitirá as seguintes escolhas: o período letivo, a disciplina, a pessoa que criou o tópico do fórum, seja ele o próprio professor ou os alunos da turma, e a escolha do tópico do fórum. Estes filtros serão apresentados para o docente de acordo com a figura 8. 36 Figura 8 – Filtros de informação do modelo proposto A escolha dos filtros é essencial para geração do arquivo “mensagens”, que é utilizado pelo MineraFórum. Para fazer a busca da informação no filtro “período letivo”, basta selecionar as informações da tabela “periodoletivo”. Serão apresentados na tela os campos ano e semestre de acordo com a figura 9. 37 Figura 9 – Filtro de periodo letivo Esta consulta no banco de dados para o filtro período letivo ficará semelhante à seguinte: (Select ano, semestre From periodoletivo). O filtro “disciplina” precisa apresentar as disciplinas oferecidas no período letivo escolhido no filtro anterior. O filtro terá também o parâmetro “professor”, pois devem aparecer somente as disciplinas que o docente está ministrando. Para este filtro, de acordo com o modelo de dados do fórum, será preciso fazer o relacionamento entre as tabelas: “disciplinaoferecida”, ”disciplinamatriz”, “disciplina”, “periodoletivo” e “professor”. Esta consulta vai receber como parâmetro o código do professor e o código do período letivo escolhido. A consulta vai apresentar apenas a disciplina oferecida que o docente conectado no terminal virtual esteja associado. A tela apresentará o campo “descrição” da tabela “disciplina”, como mostrado na figura 10. 38 Figura 10 – Filtro de disciplina A consulta do filtro disciplina ficará semelhante a esta: (Select c.descricao From disciplinaoferecida a, disciplinamatriz b, disciplina c, periodoletivo d, professor e where a.oiddisciplinamatriz = b.oid and b.oiddisciplinadamatriz = c.oid and a.oidperiodoletivo = d.oid and a.oidprofessor = e.oid and d.oid = “paramentroperiodoletivo” and e.oid = “parametroprofessorlogado”). No filtro criador do tópico, o docente terá que marcar se vai buscar informação nos tópicos criados por ele mesmo, marcando a opção professor, ou irá buscar informação dos tópicos criados pelos seus alunos. O filtro tópico terá que apresentar na tela o campo “título” da tabela “tópico”. Neste filtro terá o relacionamento das tabelas “disciplina”, “disciplinamatriz”, “disciplinaoferecida”, “forum”, “topico”, “papelpessoa” e “periodoletivo”. Esta consulta irá receber como parâmetro o código do período letivo escolhido, o código da disciplina escolhida e o criador, conforme apresentado na figura 11. 39 Figura 11 – Filtro de tópicos A consulta do filtro tópico ficará semelhante a: (Select c.descricao From disciplinaoferecida a, disciplinamatriz b, disciplina c, periodoletivo d, fórum e, tópico f, papelpessoa g where a.oiddisciplinamatriz = b.oid and b.oiddisciplinadamatriz = c.oid and a.oidperiodoletivo = d.oid and a.oid = e.oiddisciplinaoferecida and e.oid = f.oidforum and f.oidpapelpessoa = g.oid where d.oid = “parametroperiodoletivo” and c.oid = “parametrodisciplina” and g.tipo = “paramentotipo”) . Após todos estes filtros buscarem as informações na base de dados do fórum acadêmico da UCAM, falta somente gerar o arquivo “mensagens”, que será descrito no próximo tópico. 5.5 Gerando o arquivo de mensagens de forma automática O modelo proposto vai disponibilizar os filtros para que o docente possa escolher o tópico do fórum que deseja minerar. Para o MineraFórum conseguir minerar as informações, o modelo criará o arquivo de nome e extensão “mensagens.txt”. O arquivo “mensagens” possui três marcadores de texto chamados #NomeForum#, 40 #Aluno# e #Mensagem# como mostra a figura 12. Figura 12 - Representação do arquivo mensagem Em forma ontológica a figura 13 descreve o que são estes marcadores que constituem o arquivo “mensagens”. Figura 13 - Descrição dos marcadores Com este arquivo criado e os três marcadores definidos é possível utilizar as funcionalidades do MineraFórum. Após a criação do arquivo, as informações do fórum devem 41 ficar semelhantes ao arquivo “mensagens” apresentado na figura 14. Figura 14 - Arquivo ”mensagens.txt” A geração automática deste arquivo vai ocorrer no momento que o usuário clicar no botão “gerar arquivo”. O sistema vai buscar o nome do tópico do fórum, os nomes dos alunos e as mensagens redigidas por eles. O nome do tópico do fórum vai ser encontrado na tabela “topico” no campo “titulo”, o nome do aluno será encontrado na tabela “pessoa” no campo “nome” e por fim a mensagem redigida pelo aluno será encontra na tabela “post” no campo “texto”. Para buscar esta informação devem-se relacionar as seguintes tabelas: “tópico”, “post”, “papelpessoa” e “pessoa”. Esta consulta vai receber como parâmetro o código do tópico selecionado pelo docente no filtro tópico. A consulta também precisa ordenar os posts pela data, para que as mensagens sejam selecionadas de acordo com a sua data de criação sendo da mais antiga para a mais recente. A consulta vai ficar semelhante à seguinte: (Select c.descricao, d.nome, b.texto From topico a, post b, papelpessoa c, pessoa d where a.oid = b.oidtopico and b.oidpapelpessoa = c.oid and c.oidpessoa = d.oid and a.oid = “paramentrotopico” order by b.data); A figura 15 apresenta o fluxo de criação do arquivo “mensagens.txt”. 42 Figura 15 - Fluxograma da criação do arquivo "mensagens.txt" Desta forma, obtêm-se todas as informações para gerar o arquivo “mensagens.txt” de forma automática. Com este arquivo, o MineraFórum pode ser utilizado para minerar as informações do fórum selecionado. Com esta funcionalidade o MineraFórum pode ser utilizado por qualquer docente, sendo possível escolher o tópico do fórum que será minerado. 43 6 CONCLUSÃO 6.1 Considerações Finais Através do estudo realizado nesse trabalho, foi possível conhecer o potencial da ferramenta MineraFórum e utilizar as suas funcionalidades para ajudar os professores em fóruns acadêmicos de discussão. O MineraFórum é uma ferramenta que realiza a análise qualitativa das mensagens postadas pelos alunos em um fórum de discussão. Esta ferramenta é capaz de apresentar ao docente uma visão sobre as contribuições escritas pelos discentes, organizando e agrupando as mensagens de cada aluno. Entende-se que, a partir dos resultados apresentados pelo MineraFórum, o professor pode direcionar seu apoio aos alunos que colocaram poucas contribuições relevantes ao tema do fórum. O docente também pode motivar a interação entre os alunos que mais registraram textos relevantes com os que redigiram poucos. Destaca-se que o tempo para que o MineraFórum apresente o relatório da mineração é influenciado pela quantidade de palavras do texto de referência, a quantidade de mensagens postadas e o quantitativo de palavras de cada contribuição textual. O tempo de processamento do software é diretamente proporcional ao valor destes fatores. Com o modelo proposto foi possível existir uma comunicação direta entre o banco de dados do fórum a ser minerado com a ferramenta MineraFórum. Com isso, o docente pode apenas escolher o período letivo, o professor e o fórum desejado. Assim será possível obter o conteúdo do fórum e adequá-lo ao padrão que o MineraFórum utiliza para obter as informações. 6.2 Trabalhos Futuros Como trabalhos futuros desta pesquisa, pretende-se implementar o modelo proposto para fazer com que a ferramenta possa ajudar os professores na busca por informações nas redes sociais acadêmicas. Este trabalho contribui para a viabilização de um modelo que seja capaz de interagir com o MineraFórum, facilitando a comunicação entre a base de dados de um fórum acadêmico com a ferramenta de mineração, tornando o MineraFórum uma ferramenta acessível por qualquer docente. 44 REFERÊNCIAS ARANHA, Christian; PASSOS, Emmanuel. Revista Elerônica de Sistemas de Informação: A Tecnologia de Mineração de Textos. Disponível em: <www.spell.org.br/documentos/download/26518>. Acesso em: 27 set. 2015, 23h22min. AZEVEDO, Breno Fabrício Terra. MineraFórum: Um recurso de apoio para análise qualitativa em fóruns de discussão. 2011. 204f. Tese (Doutorado em Informática na Educação) - Programa de Pós-graduação em Informática na Educação do Centro Interdisciplinar de Novas Tecnologias na Educação da Universidade Federal do Rio Grande do Sul, Porto Alegre, 2011. AZEVEDO, Breno Fabrício Terra; BEHAR, Patricia Alejandra; REATIGUI, Eliseo Berni. Aplicação da mineração de textos na área de Educação. In: CARVALHO, Adelson et al. (Org.). Educação e Tecnologia. Campos dos Goytacazes: Essentia Editora, 2011. p. 59-74. AZEVEDO, Breno Fabrício Terra; BEHAR, Patricia Alejandra; REATEGUI, Eliseo Berni. Análise das mensagens de fóruns de discussão através de um software para mineração de textos. Anais do SBIE. Disponível em: <http://www.br-ie.org/pub/index.phpsbie/article/ view/1572/1337>. Acesso em: 21 nov. 2015, 09h30min. BORST, W. Construction of Engineering Ontologies for Knowledge Sharing and Reuse. PhD thesis, University of Twente, P.O. Box 217 - 7500 AE Enschede - The Netherlands, 1997. CARRILHO, João Ribeiro. Desenvolvimento de uma Metodologia para Mineração de Textos. Disponível em: <http://www2.dbd.puc-rio.br/pergamum/tesesabertas/ 0521350_07_ pretextual.pdf>. Acesso em: 23 ago. 2015, 20h 33min. CHEN, J.; LI, Q.; WANG, L.; JIA, W. Automatically generating an e-textbook on the web. World Wide Web, v. 8, n. 4, p. 377-394, 2005. CHEN, N.; KINSHUK; WEI, C.; CHEN, H. Mining e-Learning domain concept map from academic articles. Computers & Education, v. 50, p. 1009-1021, 2008. DALMOLIN, L. C. D.; NASSAR, S. M.; BASTOS, R. C.; MATEUS, G. P. A Concept Map Extractor Tool for Teaching and Learning. In: IEEE INTERNATIONAL CONFERENCE ON ADVANCED LEARNING TECHNOLOGIES, 9., 2009, Riga. Proceedings… IEEE Computer Society, 2009. p. 18-20. DIGIAMPIETRI, Luciano Antonio. Análise da Rede Social Acadêmica Brasileira. Disponível em:<http://www.each.usp.br/digiampietri/AnaliseDaRedeSocialAcademicaBrasileira_LivreD ocencia.pdf>. Acesso em: 03 abr. 2016, 10h 22min. DORNELLES, R. J. A utilização de tecnologias de Internet na educação a distância: o caso de uma disciplina de graduação da Escola de Administração da Universidade Federal do Rio Grande do Sul. 2001. Dissertação (Mestrado em Administração), UFRGS, Porto Alegre, 2001. Disponível em: 45 <http://www.ea.ufrgs.br/professores/hfreitas/files/orientacao/mestrado/defesa/pdf/28_disserta cao_dornelles.pdf>. Acesso em: 09 abr. 2016, 12h 34min. DREWERE, A.; FISCHER, I.; WERTH, T.; WORLEIN, M. Text Mining in Program Code. In: SONG, M.; WU, Y. (Org.). Handbook of research on text and web mining technologies. Hershey: Information Science Reference, 2009. p. 626-645. FELDMAN, R.; SANGER, J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge, MA: Cambridge University Press, 2007. Fensel, D. – Ontologie: a silver bullet for knowledge management and electronic commerce – Springer, 2001 FERREIRA, F. J. de M. et al. Sumarização de Texto em Ambientes Educacionais na Web. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO, 20., 2009, Florianópolis. Anais... Florianópolis: SBIE, 2009. FILHO, José Adail Carvalho . Mineração de textos: Análise de sentimento utilizando tweets referentes à copa do mundo 2014. Disponível em: <http://www.repositoriobib.ufc.br/000017/0000179f.pdf>. Acesso em: 01 abr. 2016, 21h 22min. Gandon, F. _ Ontology Engineering: a sinthesis – Project Acacia – INRIA Technical Report 4396 – March 2002 – 181 pages Guarino, N. – Formal Ontology and information systems – In Proceedings of the FOIS’98 – Formal Ontology in Information Systems, Trento – 1998. GUIZZARDI, G. Desenvolvimento para e com reuso: Um estudo de caso no domínio de vídeo sob demanda. Master’s thesis, Universidade Federal do Espírito Santo, 2000. GUPTA, V.; LEHAL, G. S. A Survey of Text Mining Techniques and Applications. Journal of Emerging Technologies in Web Intelligence, v. 1, n. 1, 2009. HAN, Jiaweu; KAMBER, Micheline; PEI, Jian. Data Mining: Concepts and Techniques, 3rd ed. Morgan Kaufmann, 2011. INFORMATIVO.PT, Disponível em: <http://www.informatico.pt/15863/o-que-e-a-informatic a/> Acesso em: 23 ago. 2015, 22h 52min. SPOLSKY, Joel. The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!). Disponível em: <http://www.joelonsoftware.com/articles/Unicode.html>. Acesso em: 26 mar. 2016, 11h 02min. KLEMANN, Miriam; REATEGUI, Eliseo; RAPKIEWICZ, Clevi. Análise de ferramentas de mineração de textos para apoio à produção textual. Anais do SBIE. Disponível em: <http://www.br-ie.org/pub/index.php/sbie/article/view/1866/1632>. Acesso em: 22 nov. 2015, 08h 45min. 46 LOPES, Giseli Rabello. Avaliação e Recomendação de Colaborações em Redes Sociais Acadêmicas. Disponível em: <https://www.lume.ufrgs.br/bitstream/handle/10183/54886/ 000854154.pdf?sequence=1>. Acesso em: 03 abr. 2016, 12h 47min. MORAIS, Edison Andrade Martins; AMBRÓSIO, Ana Paula L. Ontologias: conceitos, usos, tipos, metodologias, ferramentas e linguagens. Disponível em: < http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-07.pdf>. Aceso em: 24 abr. 2016, 16h20min. MORETTO, Margot Zeni; RAPKIEWICZ, Clevi Elena. Usando mineração de textos como suporte ao desenvolvimento de resumos no ensino médio. Revista Renote Novas Tecnologias na Educação v. 11, n. 3, 2013. Disponível em: <http://seer.ufrgs.br/index.php/renote/article /view/44473/28470 >. Acesso em: 22 nov. 2015, 10h49min. MONTEIRO, Bruna. Redes sociais são utilizadas para fins acadêmicos. Disponível em: <https://www.ufpe.br/agencia/index.php?option=com_content&view=article&id=40333:redes -sociais-sao-utilizadas-para-fins-academicos&catid=5&Itemid=78>. Acesso em: 5 out. 2015, 21h15min. MOCHIZUKI, T. et al. Promotion of self-assessment for learners in online discussion using the visualization software. In: CONFERENCE ON COMPUTER SUPPORT FOR COLLABORATIVE LEARNING, 2005, Taipei. Proceedings… 2005. p. 440-449. OLIVEIRA, G. P. O forum em um ambiente virtual de aprendizado colaborativo. São Paulo. PUC-SP. Revista Digital de Tecnologia Educacional e Educação a Distância, v. 2, n. 1, 2005. QI, Y. Text Mining in Bioinformatics: Research and Application. In: SONG, M.; WU, Y. (Org.). Handbook of research on text and web mining technologies. Hershey: Information Science Reference, 2009. p. 748-757. RAJARAMAN, Anand; ULLMAN, Jeff. Mining of Massive Datasets. Disponível em: <http://i.stanford.edu/~ullman/mmds.html>. Acesso em: 04 mar. 2016, 21h 53min. RANGEL, Jéssica Ribeiro; MIRANDA, Gilberto José. Desempenho Acadêmico e o Uso de Redes Sociais. Disponível em: <http://www.congressousp.fipecafi.org/web/artigos152015/68.pdf>. Acesso em: 02 abr. 2016, 20h 04min. RAVI, S.; KIM, J. Profiling Student Interactions in Threaded Discussions with Speech Act Classifiers. In: AI IN EDUCATION CONFERENCE (AIED), 2007, Los Angeles. Proceedings… 2007. Recuero, R. (2009). Redes sociais na Internet. Porto Alegre: Sulina. (Coleção Cibercultura). REDE Social estimula o compartilhamento de materiais acadêmicos. Canal do ensino. Disponível em: <http://canaldoensino.com.br/blog/rede-social-estimula-o-compartilhamentode-materiais-academicos>. Acesso em: 10 nov. 2015. ROMERO, C.; VENTURA, S. Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, v. 33, p. 135-146, 2007. 47 SÁNCHES, L. P. El foro virtual como espacio educativo: propuestas didácticas para su uso. Verista Quaderns Digitals Net, n. 40, p. 1-18, 2005. Disponívl em: <HTTP://www.quadernsdigital.net/dados_web/hemeroteca/r_1/nr_662/a_8878/8878.html>. Acesso em: 10 abr. 2016, 14h 08min. SILVA, Eduardo; BARROS, Flávia; PRUDÊNCIO, Ricardo. Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados. Disponível em: <http://www.cin.ufpe.br/~rbcp/papers/ENIA05.pdf> . Acesso em : 20 ago 2015, 19h. TAN, A. Text Mining: The State of the Art and the Challenges. In: WORKSHOP ON KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES, 1999, Beijing. Proceedings… 1999. p. 71-76. TANE, J.; SCHMITZ, C.; STUMME, G. Semantic resource management for the web: An elearning application. In: WWW CONFERENCE, 2004, New York. Proceedings… 2004. p. 110. TANG, C.; YIN, H.; LI, T.; LAU, R.; LI, Q.; KILIS, D. Personalized courseware construction based on web data mining. In: INTERNATIONAL CONFERENCE ON WEB INFORMATION SYSTEMS ENGINEERING, 1., 2000, Washington-DC. Proceedings… 2000. p. 204-211. TSOUMAKAS, Grigorios; KATAKIS, Ioannis; VLAHAVAS, Ioannis. “Mining Multi-Label Data,” in Data Mining and Knowledge Discovery Handbook, 2nd ed., Springer, 2010, pp. 667–685 UENO, M. Data mining and text mining technologies for collaborative learning in an ILMS ‘‘Samurai’’. In: IEEE INTERNATIONAL CONFERENCE ON ADVANCED LEARNING TECHNOLOGIES, 2004, Joensuu. Proceedings… IEEE Computer Society, 2004. XU, S.; LUO, X. Current Issues and Future Analysis in Text Mining for Information Security Applications. In: SONG, M.; WU, Y. (Org.). Handbook of research on text and web mining technologies. Hershey: Information Science Reference, 2009. p. 694-707. YOO, S. et al. Mining Social Networks for Personalized Email Prioritization. In: ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, 15., 2009, Paris. Proceedings… ACM, 2009. p. 967-975. 48 APÊNDICE A – Ferramenta de mineração de textos MineraFórum Nesta seção será apresentada a definição, características, funcionalidades e estrutura da ferramenta de mineração de textos denominada MineraFórum (AZEVEDO, 2011). Descrição do MineraFórum O MineraFórum é uma ferramenta desenvolvida por Azevedo (2011), que tem como objetivo extrair informações relevantes em fóruns de discussão. Ele consiste em analisar os textos digitados pelos alunos dentro de um fórum de discussão e apresentar as seguintes informações: relevância temática de cada mensagem, quantidade total de mensagens postadas por aluno, quantidade de contribuições relevantes e não relevantes feitas por cada aluno e conceitos utilizados nas postagens relevantes. O MineraFórum permite a leitura de um texto de referência indicado pelo professor. O professor pode informar ao MineraFórum um texto de referência sobre o assunto, a partir do qual serão extraídos os conceitos relevantes. O texto pode ser digitado, ou lido de um arquivo nos formatos “txt”, “doc”, ou “pdf”. Além do texto, o professor pode digitar os conceitos relevantes de um tema, informando ao MineraFórum quais são os conceitos importantes sobre o tópico do fóruns de discussão. Os conceitos relevantes extraídos do texto de referência podem ser gravados em um arquivo de texto e reutilizados posteriormente. O MineraFórum permite a visualização de um grafo gerado a partir dos conceitos relevantes encontrados na mineração do texto de referencia, ou dos conceitos digitados pelo professor. No texto de referência, as palavras podem aparecer de diversas formas: plural, gerúndio, com sufixo, entre outras. Por esse motivo, é importante o processo de stemming, que consiste em remover as variações das palavras e possibilita reduzir a quantidade de palavras a serem analisadas. O MineraFórum utiliza uma lista de stopwords definida internamente no sistema durante a processo de mineração. Porém, o professor pode informar um arquivo contendo uma lista de stopwords. A equivalência semântica é importante quando o software compara os conceitos redigidos pelo aluno na sua mensagem com os conceitos relevantes do texto de referência. 49 Caso uma palavra possua equivalência semântica, ela será considerada como relevante ao tema. O docente pode indicar ao MineraFórum quais são as palavras que possuem equivalência semântica. Assim como ocorre na equivalência semântica, o mesmo acontece com os sinônimos. Caso o aluno digite uma palavra que seja sinônima de um conceito relevante, ela será considerada. Neste caso, o professor pode indicar um thesaurus a ser utilizado pelo MineraFórum. Caso o docente não indique, será utilizado o thesaurus interno do sistema. O MineraFórum informa a quantidade total de mensagens digitadas por cada aluno, para permitir que o professor saiba quantas vezes o discente realizou interações no fórum e calcula quantidade de contribuições relevantes colocadas por cada aluno no fórum a partir da quantidade total. O MineraFórum gera um relatório visual para o professor, contendo informações sobre as mensagens postadas pelos alunos no fórum de discussão, tais como: o nome do discente, a quantidade total de mensagens postadas, a quantidade de mensagens relevantes ao tema da discussão, a quantidade de mensagens que não envolveram conceitos sobre o tópico do debate, e os conceitos utilizados nas contribuições relevantes O MineraFórum executa cinco etapas no processo de mineração em um fórum de discussão: • Extração das mensagens do fórum: para obter todas as mensagens do fórum escolhido pelo docente. • Mineração do texto de referência. • Cálculo da relevância das mensagens. • Geração do relatório da mineração: para apresentar os resultados da mineração das postagens do fórum de discussão. Geração do relatório da mineração: para apresentar os resultados da mineração das postagens do fórum de discussão. Interfaces do MineraFórum Este tópico descreve os recursos existentes no MineraFórum. Primeiramente será apresentada a interface principal que contém um menu com os elementos principais: “Arquivo”, “Configuração”, “Ajuda” e “Idioma/Language”. O elemento do menu “Arquivo” (figura 16) permite acesso aos seguintes itens do 50 menu: • “Importar texto de referência”: esta área oferece a opção de importar um texto de referência que será usado para extrair conceito para a mineração. Esta importação pode ser feita nas seguintes extensões: “txt”, “doc” ou “pdf”. • “Salvar base de Conceitos”: tem como objetivo salvar a lista da base de conceitos para que possa ser usada posteriormente. Esta base irá alimentar a área onde se encontra a base de conceitos no MineraFórum (figura 20). Este arquivo é salvo com a extensão “txt”. • “Carregar base de Conceitos”: tem como objetivo carregar uma base de conceitos já pré-definida que foi salva em um arquivo “txt”. • “Limpar base de conceitos”: esta opção remove os conceitos da base. • “Carregar equivalentes semânticos”: nesta área é possível carregar um arquivo com equivalentes semânticos pré-definidos. • “Carregar stopwords”: selecionando este submenu irá aparecer uma tela com a opção de carregar uma lista de stopwords existente. • “Carregar thesaurus”: esta opção permite carregar um arquivo que contenha um thesaurus. Figura 16 - Tela principal com o menu “Arquivo” selecionado 51 O elemento do menu “Configurações” permite configurar o nível de análise das mensagens como na figura 17. O valor pode variar de 1.0 (rigor mínimo) a 5.0 (rigor máximo). Figura 17 – Tela do menu “Configurações” O menu “Ajuda” mostra um tutorial sobre a utilização e funcionamento do sistema e por fim o menu “Idioma/Language” disponibiliza duas línguas para se trabalhar com o sistema, são elas portuguesa e inglesa. Escolhendo uma delas, automaticamente o sistema traduz todo o conteúdo para a linguagem escolhida. Nesta tela principal do MineraFórum existem três abas com as seguintes descrições: “Texto de Referência”, “Base de Conceitos” e “MineraFórum”. Na aba “Texto de Referência”, que será apresentada na figura 18, encontra-se uma área branca onde é possível digitar o texto de referência sobre o tema do fórum de discussão que será minerado. Nesta aba existe também o botão “limpar texto” que tem a função de limpar o texto de referencia e o botão “Extrair conceitos“ que realiza a mineração no texto de 52 referência informado pelo usuário. Figura 18 – Tela aba “Texto de Referência” Nesta aba se encontra também a opção “Configurações para mineração do texto de referência”, que possibilita ao usuário indicar a quantidade mínima de ocorrências que uma palavra deve ter no texto de referência, para ser considerada como um conceito relevante no processo de mineração. Existem duas opções para configuração, a primeira seria “Selecionar frequência mínima automática”. Neste caso, o valor da frequência será definido por um valor padrão “2” ou “Selecionar frequência mínima manualmente”, onde o usuário pode definir um valor a sua escolha. Esta tela é apresentada na figura 19. 53 Figura 19 - Configuração da frequência mínima de uma palavra Na aba “Base de Conceitos” (figura 20) há uma coluna com todos os conceitos extraídos do texto de referência chamada coluna “Conceitos”. Nesta aba pode-se apagar um conceito selecionando o conceito que deseja apagar e pressionar a tecla “Delete” do teclado ou pode adicionar um conceito que o usuário julgue importante. Para adicionar um conceito basta digitá-lo no campo de nome “Nome Conceito” e pressionar o botão “Enviar”. A coluna cujo nome “Conceitos Relacionados” apresenta os conceitos relacionados aos citados na coluna “Conceitos”. A coluna “Conceitos Não Relacionados” apresenta os conceitos que não estão relacionados aos mencionados na coluna “Conceitos”. Caso seja necessário relacionar um conceito, ou retirar o relacionamento, basta selecionar o conceito desejado e pressionar o botão “Adicionar conceito relacionado”, que irá adicionar o conceito que foi selecionado, ou pressionar o botão “Remover conceito relacionado” que irá remover o conceito selecionado. Nesta segunda aba, existe um botão chamado “Grafos da base de conceitos” que apresenta o grafo de toda a base de conceitos e seus relacionamentos. 54 Figura 20- Tela aba “Base de Conceitos” A aba “Minerar Fórum” (figura 21) apresenta o botão “Minerar Fórum”, que realiza a mineração das mensagens redigidas pelos alunos no fórum de discussão. O resultado é apresentado na área branca, onde aparecerão as informações sobre cada aluno: o nome do discente, o total de mensagens com separação de mensagens relevantes e não relevantes, a média de mensagens relevantes ao tema da discussão e as mensagens postadas com o seu grau de relevância. 55 Figura 21 - Aba Minerar Fórum com a ação do botão “Minerar fórum” Nesta aba encontra-se também o botão “Exibir conceitos” que lista na área branca a quantidade e os conceitos relevantes citados por cada aluno. A botão “Grafo do fórum” gera um grafo com os conceitos relevantes encontrados no fórum e seus relacionamentos (figura 22). 56 Figura 22 - Aba Minerar Fórum com a ação do botão “Grafo do fórum” O botão “Exibir gráficos” apresenta um gráfico com as médias das relevâncias das mensagens de cada aluno (figura 23). Figura 23 - Aba Minerar Fórum com a ação do botão “Exibir Gráfico” O botão “Similaridade” apresenta as mensagens similares dos alunos quando forem 57 encontradas. Por fim, o botão “Salvar Resultados” grava os resultados encontrados na mineração do fórum de discussão. Estrutura de Arquivos do MineraFórum Esta ferramenta de mineração foi criada na linguagem de programação Java e seus arquivos de configuração ficam localizados na pasta “mineraforum”. Nesta pasta existem 6 arquivos descritos abaixo: • “mensagens”: este é o arquivo onde ficam as mensagem do fórum acadêmico no qual o MineraFórum irá buscar as informações para mineração. • “texto_apresentacao_mineraforum”: este é um texto de apresentação sobre o MineraFórum. • “tutorial_mineraforum_ingles”: este arquivo apresenta um manual da ferramenta na língua inglesa. • “tutorial_mineraforum_portugues”: este arquivo apresenta um manual da ferramenta na língua portuguesa. • “S_TextMing”: esta aqruivo é um .jar desenvolvido em java que contém toda a ferramenta de mineração. “index”: este arquivo html abre uma janela popup com o texto de apresentação e um applet com o “S_TextMing”.