Descoberta de conhecimento em textos

Propaganda
Descoberta de conhecimento em textos Análise semântica
●
●
●
●
Diogo Cardoso
Eduardo Camilo Inácio
Eduardo Monteiro Dellandréa
Guilherme Gomes
Introdução
●
Diversidade de textos não padronizados;
●
Emails, artigos, documentos digitalizados poderiam ser
perdidos na ausência de uma análise criteriosa;
●
Expor as técnicas de KDT.
Visão Geral KDT
●
Descoberta de Conhecimento em Textos;
●
KDT (Knowledge Discovered in Texts);
●
Feldman e Dagan em 1995;
●
Evolução da técnica de recuperação de informações;
●
Mecanismo de busca X Mineração de texto;
●
Extrair dados, encontrar padrões.
Etapas do Processo de
Descoberta.
1 - Definição de objetivos.
2 - Seleção dos dados.
3 - Limpeza dos dados.
4 - Redução ou projeção dos dados.
5 - Escolha da técnica, método ou tarefa de mineração.
6 - Mineração.
Etapas do Processo de
Descoberta. (cont.)
7 - Interpretação dos resultados.
8 - Consolidação do conhecimento descoberto.
Técnicas de KDT
● Desafio
○ Processamento de Linguagens Naturais
● Abordagens de Aprendizado
○ Supervisionado
○ Não Supervisionado
Técnicas de KDT (cont.)
● Extração de Informação
● Rastreamento de Tópicos (Topic Tracking)
● Sumarização
● Categorização ou Classificação
● Agrupamento (Clustering)
● Acoplamento de Conceitos (Concept Linkage)
● Visualização de Informação
● Respondendo a Perguntas (Question Answering)
● Associação
Extração de Informação
● Produzir uma saída estruturada a partir de
documentos de texto não estruturados
● Baseado na identificação de frases-chave a partir de
sequências pré-definidas
● Normalmente associado a uma etapa de préprocessamento de dados
Topic Tracking
● Encontrar documentos relacionados com
determinados tópicos
● Aplicações que buscam documentos baseados no
perfil dos usuários (Yahoo! Alerts)
● Baseado em identificação de palavras-chave nos
textos e comparação com tópicos desejados
● Maior parte dos métodos de identificação de palavraschave utilizam a quantidade de aparições dos termos
no texto como métrica
Sumarização
● Criar um resumo ou sumário de um documento
automaticamente
● Busca por palavras ou frases com grande
importância no texto
● Redução do conteúdo sem perda de significado geral
● Especialmente interessante para documentos muito
extensos
Categorização
● Determinar a classe ou categoria a qual pertence
um documento
● Bastante similar a técnica utilizada em Data Mining
● Capacidade de reconhecimento associada ao conjunto
de testes
● Utilizada para indexação de documentos
Clustering
● Documentos agrupados de acordo com suas
semelhanças e co-relacionamentos
● Bastante similar a técnica utilizada em Data Mining
● Necessita de avaliação de um especialista do domínio
● Performance melhorada quando considera a
semântica do texto
Concept Linkage
● Identificação de conexões entre documentos
● Baseado na identificação de conceitos
compartilhados entre os documentos
● Exemplo:
Documento 1 relaciona os tópicos X com Y
Documento 2 relaciona os tópicos Y com Z
Concept Linkage identifica relacionamento entre X e Z
Visualização de Informação
● Apresentação de fontes textuais em uma hierarquia
ou mapa
● Implementações oferecem recursos de navegação e
busca
● Preparação dos dados, análise e extração dos dados,
construção da apresentação
● Utiliza outras técnicas nas etapas de preparação,
análise e extração dos dados
Question Answering
● Capacidade de responder perguntas feitas em
linguagem natural
● Utiliza outras técnicas para determinar o assunto da
questão
● Solução para interfaces de entrada de sistemas
especialistas
Associação
● Encontrar regras de associação entre tópicos ou
conceitos em um conjunto de documentos
● Determinações do tipo:
Se um conceito X existe no documento, então um
conceito Y também existe.
● Bastante similar a técnica utilizada em Data Mining
Ferramentas de mineração de
conhecimento em textos
SAS Text Miner
●
Empresa líder de mercado em soluções de inteligência
analítica.
●
Permite análises avançadas, tornando possível
compreender as tendências futuras e atuar em novas
oportunidades, mais precisamente e com menos risco.
●
Inclui recursos avançados de linguística da solução de
mineração de dados núcleo da SAS ® Enterprise Miner.
Ferramentas de mineração de
conhecimento em textos
SAS Text Miner
Ferramentas de mineração de
conhecimento em textos
Intext Mining - Text Mining Suite
● Classificação: para identificação de assuntos, temas;
● Clustering de textos: separação automática de textos
em grupos sem a necessidade prévia de determinação
do número de grupos;
● Recuperação de textos por similaridade: a partir de um
texto de entrada a ferramenta retorna uma lista de
textos similares ordenado por nível de similaridade;
● Possui um módulo Wizard. Basta responder a algumas
perguntas do assistente para receber o resultado da
análise.
Ferramentas de mineração de
conhecimento em textos
Intext Mining - Text Mining Suite
Ferramentas de mineração de
conhecimento em textos
IBM TAKMI – Text Mining System
● Uma das várias ferramentas de Data Mining e BI, que
trabalham com Text Mining da IBM;
● Destaca-se pela especialização em mineração de texto
para a análise de logs de call centers, mas pode ser
aplicável a qualquer tipo de dados de texto grandes em
geral;
● Há também uma versão
especializada para a análise
de publicações médicas chamada
de MedTAKMI.
Ferramentas de mineração de
conhecimento em textos
NetOwl TextMiner
Permite encontrar, organizar, analisar e extrair um
grande volume de informações não estruturadas.
●
●
●
●
●
●
●
●
Pesquisa semântica avançada;
Integrado Análise Geoespacial;
Link de Análise Integrada;
Análise biográfica;
Reduz o tempo de análise e decisão;
Revela riscos e oportunidades;
Melhora o serviço ao cliente;
Aumenta a introspecção de negócio e tendências.
Ferramentas de mineração de
conhecimento em textos
NetOwl TextMiner
Ferramentas de mineração de
conhecimento em textos
Sobek
● Desenvolvido por alunos de pós-graduação em
educação da Universidade Federal do Rio Grande do
Sul (UFRGS).
● Procura e registra ocorrências de palavras repetidas ou
sinônimas no documento, fazendo relações e criando
grafos de interação entre elas, expondo os principais
termos/conceitos do texto em mineração.
● Cria um banco de conceitos e possíveis relações
associativas para ajudar na procura de palavras-chave,
encontrando um maior número de ligações entre os
conceitos.
Ferramentas de mineração de
conhecimento em textos
Referral Web
● Capaz de descobrir quais são as pessoas mais experientes em
determinado assunto ou área, além de analisar co-relacionamentos
entre pessoas.
● Princípio de que as pessoas mais experientes são aquelas mais
citadas ou requisitadas na rede informal.
● Utiliza qualquer rede informal on-line (e-mail, foruns, página WEB,
sites de busca) como fonte de informação.
Site de teste para análise de opinião
● School of Computer Science, The University of Manchester, UK
● Somente em Inglês
● http://www.nactem.ac.uk/opminpackage/opinion_analysis
Conclusão
Com a grande disponibilidade de textos na
internet, uma pesquisa comum não nos fornece todas
as informações de uma forma padronizada e
estruturada.
De acordo com o que foi exposto neste trabalho, o
KDT possui técnicas como topic tracking,
sumarização, categorização que nos permite
selecionar, de forma inteligente, a informação mais
útil e relevante.
Referências
Gupta, V., & Lehal, G. S. (2009). A Survey of Text Mining Techniques and Applications. Journal of Emerging
Technologies in Web Intelligence, 1(1), 60–76.
Ferramenta SAS Text Miner, disponível em http://www.sas.com/text-analytics/text-miner/index.html
Ferramenta Text Mining Suite, disponível em http://www.intext.com.br/
Ferramenta SOBEK, disponível em http://sobek.ufrgs.br
Ferramenta IBM TAKMI, disponível em http://www.research.ibm.com/trl/projects/textmining/takmi/takmi_e.htm
Ferramenta NetOwl TextMiner, disponível em http://www.netowl.com/textminer/
Ferramenta Referral Web, disponível em http://dl.acm.org/citation.cfm?id=245123
Download