UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS Wladmir Cardoso Brandão Fernando Silva Parreiras GT8 - INFORMAÇÃO E TECNOLOGIA XI ENANCIB - 2010 quarta-feira, 27 de outubro de 2010 AGENDA • Problema • Base Conceitual • Abordagem • Experimentos • Conclusão quarta-feira, 27 de outubro de 2010 PROBLEMA quarta-feira, 27 de outubro de 2010 PROBLEMA • Obtenção de esquemas de pesagem de termos (palavras) em documentos • Proposição de esquemas de pesagem baseados em métricas de redes complexas • Experimentação dos esquemas propostos para estimativa de similaridade entre documentos e consultas em sistemas de recuperação de informação quarta-feira, 27 de outubro de 2010 BASE CONCEITUAL quarta-feira, 27 de outubro de 2010 REPRESENTAÇÕES DE DOCUMENTOS • Conjunto de Palavras (Bag of Words) • Utilizado por modelos clássicos de recuperação de informação. No modelo vetorial por exemplo, documentos são representados como vetores de palavras • Rede de Palavras (Word Networks) • Documentos são representados como redes complexas de palavras onde as palavras (nós) se relacionam entre si através de padrões de co-ocorrência nos documentos quarta-feira, 27 de outubro de 2010 REPRESENTAÇÕES DE DOCUMENTOS • Conjunto quarta-feira, 27 de outubro de 2010 de Palavras (Bag od Words) REPRESENTAÇÕES DE DOCUMENTOS • Rede de Palavras (Word Networks) quarta-feira, 27 de outubro de 2010 IMPORTÂNCIA DE TERMOS • Independentemente da forma de representação dos documentos, os modelos tentam estimar a importância dos termos para os documentos e para a coleção • Nos modelos clássicos, existem diversas propostas. A mais conhecida é baseada na frequência dos termos (TF-IDF) • Nos modelos baseados em redes de palavras, existem propostas mas não há consenso •A forma como cada modelo considera a importância dos termos define um esquema de pesagem para termos em documentos quarta-feira, 27 de outubro de 2010 O ESQUEMA TF-IDF • TF (Term Frequency) • Frequência do termo no documento como estimador da importância do termo para o documento • IDF (Inverted Document Frequency): • Frequência dos documentos nos quais o termo ocorre como estimador da importância do termo para a coleção quarta-feira, 27 de outubro de 2010 O ESQUEMA TF-IDF (TF-IDF)i,j = TFi,j x IDFi TFi,j = fi,j/|dj| fi,j = ocorrências de i em j |dj| = tamanho de j quarta-feira, 27 de outubro de 2010 IDFi = log(N/ni) N = tamanho da coleção ni = # documentos onde i ocorre ABORDAGEM quarta-feira, 27 de outubro de 2010 ESQUEMAS BASEADOS EM MÉTRICAS DE REDE •A idéia é substituir um dos componentes (TF) do esquema de pesagem baseado em frequência por métricas extraídas da representação do documento como rede complexa de palavras • TF-IDF x NDCE-IDF • TF-IDF x NBCE-IDF • TF-IDF x NCCE-IDF • TF-IDF x NCC1-IDF quarta-feira, 27 de outubro de 2010 ESQUEMAS BASEADOS EM MÉTRICAS DE REDE • NDCE (Normalized Degree Centrality): número de conexões de cada nó • NBCE (Normalized Betweenness Centrality): número de caminhos mínimos que passam por cada nó • NCCE (Normalized Closeness Centrality): inverso da soma das distâncias geodésicas de cada nó em relação aos demais • NCC1 (Normalized Clustering Coefficient): probabilidade de conexão entre vizinhos de cada nó quarta-feira, 27 de outubro de 2010 ESQUEMAS BASEADOS EM MÉTRICAS DE REDE Fórmula de Cálculo Centralidade Intermediação Proximidade Transitividade quarta-feira, 27 de outubro de 2010 Normalização EXPERIMENTOS quarta-feira, 27 de outubro de 2010 EXPERIMENTOS • Coleção: Communications • 3.204 documentos • 1958 a 1979 • 52 consultas / 15 resultados relevantes • Métricas • Rede of ACM Journal de avaliação: precisão e revocação de palavras: distância d = 2 quarta-feira, 27 de outubro de 2010 EXPERIMENTOS • Similaridade entre documentos e consultas wi,j = [TF-IDF v NDCE-IDF v NBCE-IDF v NCCE-IDF v NCC1-IDF] quarta-feira, 27 de outubro de 2010 RESULTADOS quarta-feira, 27 de outubro de 2010 CONCLUSÃO quarta-feira, 27 de outubro de 2010 CONCLUSÃO • Métricas de redes isoladamente apresentaram desempenho comparável ao esquema TF-IDF • Indícios de que composição de métricas de redes oferecem resultados superiores à esquemas tradicionais de pesagem • IDF inapropriado para combinação com métricas de rede quarta-feira, 27 de outubro de 2010 TRABALHOS FUTUROS • Investigação de padrões de relacionamento entre termos • Variações de distâncias máximas utilizadas para o estabelecimento de relações sintáticas entre termos • Formalização de um modelo de recuperação baseado em grafos e métricas extraídas de grafos quarta-feira, 27 de outubro de 2010 FIM OBRIGADO [email protected] [email protected] quarta-feira, 27 de outubro de 2010