Descoberta de conhecimento em textos Análise semântica ● ● ● ● Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução ● Diversidade de textos não padronizados; ● Emails, artigos, documentos digitalizados poderiam ser perdidos na ausência de uma análise criteriosa; ● Expor as técnicas de KDT. Visão Geral KDT ● Descoberta de Conhecimento em Textos; ● KDT (Knowledge Discovered in Texts); ● Feldman e Dagan em 1995; ● Evolução da técnica de recuperação de informações; ● Mecanismo de busca X Mineração de texto; ● Extrair dados, encontrar padrões. Etapas do Processo de Descoberta. 1 - Definição de objetivos. 2 - Seleção dos dados. 3 - Limpeza dos dados. 4 - Redução ou projeção dos dados. 5 - Escolha da técnica, método ou tarefa de mineração. 6 - Mineração. Etapas do Processo de Descoberta. (cont.) 7 - Interpretação dos resultados. 8 - Consolidação do conhecimento descoberto. Técnicas de KDT ● Desafio ○ Processamento de Linguagens Naturais ● Abordagens de Aprendizado ○ Supervisionado ○ Não Supervisionado Técnicas de KDT (cont.) ● Extração de Informação ● Rastreamento de Tópicos (Topic Tracking) ● Sumarização ● Categorização ou Classificação ● Agrupamento (Clustering) ● Acoplamento de Conceitos (Concept Linkage) ● Visualização de Informação ● Respondendo a Perguntas (Question Answering) ● Associação Extração de Informação ● Produzir uma saída estruturada a partir de documentos de texto não estruturados ● Baseado na identificação de frases-chave a partir de sequências pré-definidas ● Normalmente associado a uma etapa de préprocessamento de dados Topic Tracking ● Encontrar documentos relacionados com determinados tópicos ● Aplicações que buscam documentos baseados no perfil dos usuários (Yahoo! Alerts) ● Baseado em identificação de palavras-chave nos textos e comparação com tópicos desejados ● Maior parte dos métodos de identificação de palavraschave utilizam a quantidade de aparições dos termos no texto como métrica Sumarização ● Criar um resumo ou sumário de um documento automaticamente ● Busca por palavras ou frases com grande importância no texto ● Redução do conteúdo sem perda de significado geral ● Especialmente interessante para documentos muito extensos Categorização ● Determinar a classe ou categoria a qual pertence um documento ● Bastante similar a técnica utilizada em Data Mining ● Capacidade de reconhecimento associada ao conjunto de testes ● Utilizada para indexação de documentos Clustering ● Documentos agrupados de acordo com suas semelhanças e co-relacionamentos ● Bastante similar a técnica utilizada em Data Mining ● Necessita de avaliação de um especialista do domínio ● Performance melhorada quando considera a semântica do texto Concept Linkage ● Identificação de conexões entre documentos ● Baseado na identificação de conceitos compartilhados entre os documentos ● Exemplo: Documento 1 relaciona os tópicos X com Y Documento 2 relaciona os tópicos Y com Z Concept Linkage identifica relacionamento entre X e Z Visualização de Informação ● Apresentação de fontes textuais em uma hierarquia ou mapa ● Implementações oferecem recursos de navegação e busca ● Preparação dos dados, análise e extração dos dados, construção da apresentação ● Utiliza outras técnicas nas etapas de preparação, análise e extração dos dados Question Answering ● Capacidade de responder perguntas feitas em linguagem natural ● Utiliza outras técnicas para determinar o assunto da questão ● Solução para interfaces de entrada de sistemas especialistas Associação ● Encontrar regras de associação entre tópicos ou conceitos em um conjunto de documentos ● Determinações do tipo: Se um conceito X existe no documento, então um conceito Y também existe. ● Bastante similar a técnica utilizada em Data Mining Ferramentas de mineração de conhecimento em textos SAS Text Miner ● Empresa líder de mercado em soluções de inteligência analítica. ● Permite análises avançadas, tornando possível compreender as tendências futuras e atuar em novas oportunidades, mais precisamente e com menos risco. ● Inclui recursos avançados de linguística da solução de mineração de dados núcleo da SAS ® Enterprise Miner. Ferramentas de mineração de conhecimento em textos SAS Text Miner Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite ● Classificação: para identificação de assuntos, temas; ● Clustering de textos: separação automática de textos em grupos sem a necessidade prévia de determinação do número de grupos; ● Recuperação de textos por similaridade: a partir de um texto de entrada a ferramenta retorna uma lista de textos similares ordenado por nível de similaridade; ● Possui um módulo Wizard. Basta responder a algumas perguntas do assistente para receber o resultado da análise. Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite Ferramentas de mineração de conhecimento em textos IBM TAKMI – Text Mining System ● Uma das várias ferramentas de Data Mining e BI, que trabalham com Text Mining da IBM; ● Destaca-se pela especialização em mineração de texto para a análise de logs de call centers, mas pode ser aplicável a qualquer tipo de dados de texto grandes em geral; ● Há também uma versão especializada para a análise de publicações médicas chamada de MedTAKMI. Ferramentas de mineração de conhecimento em textos NetOwl TextMiner Permite encontrar, organizar, analisar e extrair um grande volume de informações não estruturadas. ● ● ● ● ● ● ● ● Pesquisa semântica avançada; Integrado Análise Geoespacial; Link de Análise Integrada; Análise biográfica; Reduz o tempo de análise e decisão; Revela riscos e oportunidades; Melhora o serviço ao cliente; Aumenta a introspecção de negócio e tendências. Ferramentas de mineração de conhecimento em textos NetOwl TextMiner Ferramentas de mineração de conhecimento em textos Sobek ● Desenvolvido por alunos de pós-graduação em educação da Universidade Federal do Rio Grande do Sul (UFRGS). ● Procura e registra ocorrências de palavras repetidas ou sinônimas no documento, fazendo relações e criando grafos de interação entre elas, expondo os principais termos/conceitos do texto em mineração. ● Cria um banco de conceitos e possíveis relações associativas para ajudar na procura de palavras-chave, encontrando um maior número de ligações entre os conceitos. Ferramentas de mineração de conhecimento em textos Referral Web ● Capaz de descobrir quais são as pessoas mais experientes em determinado assunto ou área, além de analisar co-relacionamentos entre pessoas. ● Princípio de que as pessoas mais experientes são aquelas mais citadas ou requisitadas na rede informal. ● Utiliza qualquer rede informal on-line (e-mail, foruns, página WEB, sites de busca) como fonte de informação. Site de teste para análise de opinião ● School of Computer Science, The University of Manchester, UK ● Somente em Inglês ● http://www.nactem.ac.uk/opminpackage/opinion_analysis Conclusão Com a grande disponibilidade de textos na internet, uma pesquisa comum não nos fornece todas as informações de uma forma padronizada e estruturada. De acordo com o que foi exposto neste trabalho, o KDT possui técnicas como topic tracking, sumarização, categorização que nos permite selecionar, de forma inteligente, a informação mais útil e relevante. Referências Gupta, V., & Lehal, G. S. (2009). A Survey of Text Mining Techniques and Applications. Journal of Emerging Technologies in Web Intelligence, 1(1), 60–76. Ferramenta SAS Text Miner, disponível em http://www.sas.com/text-analytics/text-miner/index.html Ferramenta Text Mining Suite, disponível em http://www.intext.com.br/ Ferramenta SOBEK, disponível em http://sobek.ufrgs.br Ferramenta IBM TAKMI, disponível em http://www.research.ibm.com/trl/projects/textmining/takmi/takmi_e.htm Ferramenta NetOwl TextMiner, disponível em http://www.netowl.com/textminer/ Ferramenta Referral Web, disponível em http://dl.acm.org/citation.cfm?id=245123