SLD - Wladmir Cardoso Brandão

Propaganda
UMA ABORDAGEM BASEADA EM MÉTRICAS
DE REDES COMPLEXAS PARA O
ESTABELECIMENTO DO GRAU DE
INFLUÊNCIA DE TERMOS EM DOCUMENTOS
Wladmir Cardoso Brandão
Fernando Silva Parreiras
GT8 - INFORMAÇÃO E TECNOLOGIA
XI ENANCIB - 2010
quarta-feira, 27 de outubro de 2010
AGENDA
• Problema
• Base
Conceitual
• Abordagem
• Experimentos
• Conclusão
quarta-feira, 27 de outubro de 2010
PROBLEMA
quarta-feira, 27 de outubro de 2010
PROBLEMA
• Obtenção
de esquemas de pesagem de termos (palavras) em
documentos
• Proposição
de esquemas de pesagem baseados em
métricas de redes complexas
• Experimentação
dos esquemas propostos para estimativa
de similaridade entre documentos e consultas em sistemas
de recuperação de informação
quarta-feira, 27 de outubro de 2010
BASE CONCEITUAL
quarta-feira, 27 de outubro de 2010
REPRESENTAÇÕES DE
DOCUMENTOS
• Conjunto
de Palavras (Bag of Words)
• Utilizado
por modelos clássicos de recuperação de
informação. No modelo vetorial por exemplo,
documentos são representados como vetores de palavras
• Rede
de Palavras (Word Networks)
• Documentos
são representados como redes complexas
de palavras onde as palavras (nós) se relacionam entre si
através de padrões de co-ocorrência nos documentos
quarta-feira, 27 de outubro de 2010
REPRESENTAÇÕES DE
DOCUMENTOS
• Conjunto
quarta-feira, 27 de outubro de 2010
de Palavras (Bag od Words)
REPRESENTAÇÕES DE
DOCUMENTOS
• Rede
de Palavras (Word Networks)
quarta-feira, 27 de outubro de 2010
IMPORTÂNCIA DE TERMOS
• Independentemente
da forma de representação dos
documentos, os modelos tentam estimar a importância dos
termos para os documentos e para a coleção
• Nos
modelos clássicos, existem diversas propostas. A mais
conhecida é baseada na frequência dos termos (TF-IDF)
• Nos
modelos baseados em redes de palavras, existem
propostas mas não há consenso
•A
forma como cada modelo considera a importância dos
termos define um esquema de pesagem para termos em
documentos
quarta-feira, 27 de outubro de 2010
O ESQUEMA TF-IDF
• TF
(Term Frequency)
• Frequência
do termo no documento como estimador da
importância do termo para o documento
• IDF
(Inverted Document Frequency):
• Frequência
dos documentos nos quais o termo ocorre
como estimador da importância do termo para a coleção
quarta-feira, 27 de outubro de 2010
O ESQUEMA TF-IDF
(TF-IDF)i,j = TFi,j x IDFi
TFi,j = fi,j/|dj|
fi,j = ocorrências de i em j
|dj| = tamanho de j
quarta-feira, 27 de outubro de 2010
IDFi = log(N/ni)
N = tamanho da coleção
ni = # documentos onde i ocorre
ABORDAGEM
quarta-feira, 27 de outubro de 2010
ESQUEMAS BASEADOS EM
MÉTRICAS DE REDE
•A
idéia é substituir um dos componentes (TF) do esquema de
pesagem baseado em frequência por métricas extraídas da
representação do documento como rede complexa de
palavras
• TF-IDF
x NDCE-IDF
• TF-IDF
x NBCE-IDF
• TF-IDF
x NCCE-IDF
• TF-IDF
x NCC1-IDF
quarta-feira, 27 de outubro de 2010
ESQUEMAS BASEADOS EM
MÉTRICAS DE REDE
• NDCE
(Normalized Degree Centrality): número de conexões
de cada nó
• NBCE
(Normalized Betweenness Centrality): número de
caminhos mínimos que passam por cada nó
• NCCE
(Normalized Closeness Centrality): inverso da soma das
distâncias geodésicas de cada nó em relação aos demais
• NCC1
(Normalized Clustering Coefficient): probabilidade de
conexão entre vizinhos de cada nó
quarta-feira, 27 de outubro de 2010
ESQUEMAS BASEADOS EM
MÉTRICAS DE REDE
Fórmula de Cálculo
Centralidade
Intermediação
Proximidade
Transitividade
quarta-feira, 27 de outubro de 2010
Normalização
EXPERIMENTOS
quarta-feira, 27 de outubro de 2010
EXPERIMENTOS
• Coleção: Communications
• 3.204
documentos
• 1958
a 1979
• 52
consultas / 15 resultados relevantes
• Métricas
• Rede
of ACM Journal
de avaliação: precisão e revocação
de palavras: distância d = 2
quarta-feira, 27 de outubro de 2010
EXPERIMENTOS
• Similaridade
entre documentos e consultas
wi,j = [TF-IDF v NDCE-IDF v NBCE-IDF v NCCE-IDF v NCC1-IDF]
quarta-feira, 27 de outubro de 2010
RESULTADOS
quarta-feira, 27 de outubro de 2010
CONCLUSÃO
quarta-feira, 27 de outubro de 2010
CONCLUSÃO
• Métricas
de redes isoladamente apresentaram desempenho
comparável ao esquema TF-IDF
• Indícios
de que composição de métricas de redes oferecem
resultados superiores à esquemas tradicionais de pesagem
• IDF
inapropriado para combinação com métricas de rede
quarta-feira, 27 de outubro de 2010
TRABALHOS FUTUROS
• Investigação
de padrões de relacionamento entre termos
• Variações
de distâncias máximas utilizadas para o
estabelecimento de relações sintáticas entre termos
• Formalização
de um modelo de recuperação baseado em
grafos e métricas extraídas de grafos
quarta-feira, 27 de outubro de 2010
FIM
OBRIGADO
[email protected]
[email protected]
quarta-feira, 27 de outubro de 2010
Download