2009 Text Mining Sistemas de Informação e Gestão Emanuel Gama DSAS – Nº 1805 08-10-2009 Introdução Text Mining, geralmente é definido como um processo que utiliza métodos para navegar, organizar, encontrar e descobrir informação escrita na linguagem natural. Com o text mining é possível manipular mais facilmente as informações não estruturadas como notícias, textos em websites, blogs etc. (documentos em geral). Factualmente a importância do text mining veio ganhar impulso a partir da década de 90, com o crescimento do armazenamento digital, e da Internet (web mining). Com tudo, analistas começaram a detectar ausência de ferramentas de text mining para lidar com o ambiente de informações desestruturadas. Parte importante do processo de text mining é a preparação textual, cujo objectivo é armazenar um texto não estruturado numa base de dados estruturada. Essa é uma operação necessária para que um algoritmo computacional possa ser aplicado. O desafio do desenvolvimento de tecnologias de text mining vem da necessidade de se deter conhecimentos específicos sobre áreas distintas como estatística, ciência da computação, linguística e ciência cognitiva. O segredo para uma possível solução de text mining completa, é combinar técnicas de Engenharia de Software, Machine Learning, Information Retrieval e Data Mining. O que é o Text Mining? A Prospecção de texto, também conhecido como mineração de dados do texto, refere-se, geralmente, ao processo de extracção de informação de documentos de texto não estruturados, podendo até mesmo ser visto como uma extensão da Mineração de Dados (do inglês Data Mining). Ganhou importância com o crescimento da Internet e dos mecanismos de busca. Com prospecção de texto pode-se extrair informação relevante de uma grande base de textos, sem precisar lê-los previamente. Área impulsionada por: “80% Das informações de uma companhia estão contidas em documentos textuais” Sobrecarga de informações (Information overload) Impossibilidade de tratar as informações de forma manual, por causa da quantidade Resumo Text mining, basicamente é o processo utilizado para converter texto natural (documentos entre outros) em informação digital, e extrai informação de textos digitais retirando a informação relevante sem que para isso o tenhamos que ler (não necessita da intervenção humana). Este tema esta relacionado directamente com Sistemas de Informação e Gestão pois é devido a ele que a pesquisa em base de dados e em textos é facilitada retirando somente aquilo que interessa ao utilizador.