Text Mining

Propaganda
2009
Text Mining
Sistemas de Informação e Gestão
Emanuel Gama
DSAS – Nº 1805
08-10-2009
Introdução
Text Mining, geralmente é definido como um processo que utiliza métodos para
navegar, organizar, encontrar e descobrir informação escrita na linguagem natural. Com o text
mining é possível manipular mais facilmente as informações não estruturadas como notícias,
textos em websites, blogs etc. (documentos em geral).
Factualmente a importância do text mining veio ganhar impulso a partir da década de 90, com
o crescimento do armazenamento digital, e da Internet (web mining). Com tudo, analistas
começaram a detectar ausência de ferramentas de text mining para lidar com o ambiente de
informações desestruturadas.
Parte importante do processo de text mining é a preparação textual, cujo objectivo é
armazenar um texto não estruturado numa base de dados estruturada. Essa é uma operação
necessária para que um algoritmo computacional possa ser aplicado.
O desafio do desenvolvimento de tecnologias de text mining vem da necessidade de se deter
conhecimentos específicos sobre áreas distintas como estatística, ciência da computação,
linguística e ciência cognitiva.
O segredo para uma possível solução de text mining completa, é combinar técnicas de
Engenharia de Software, Machine Learning, Information Retrieval e Data Mining.
O que é o Text Mining?
A Prospecção de texto, também conhecido como mineração de dados do texto, refere-se,
geralmente, ao processo de extracção de informação de documentos de texto não
estruturados, podendo até mesmo ser visto como uma extensão da Mineração de Dados (do
inglês Data Mining).
Ganhou importância com o crescimento da Internet e dos mecanismos de busca. Com
prospecção de texto pode-se extrair informação relevante de uma grande base de textos, sem
precisar lê-los previamente.
Área impulsionada por:
 “80% Das informações de uma companhia estão contidas em documentos textuais”
 Sobrecarga de informações (Information overload)
 Impossibilidade de tratar as informações de forma manual, por causa da quantidade
Resumo
Text mining, basicamente é o processo utilizado para converter texto natural (documentos
entre outros) em informação digital, e extrai informação de textos digitais retirando a
informação relevante sem que para isso o tenhamos que ler (não necessita da intervenção
humana).
Este tema esta relacionado directamente com Sistemas de Informação e Gestão pois é devido
a ele que a pesquisa em base de dados e em textos é facilitada retirando somente aquilo que
interessa ao utilizador.
Download