Análise de Sentimento em Citações Científicas para Definição de

Análise de Sentimento em Citações Científicas para
Definição de Fatores de Impacto Positivo
Diana C. Cavalcanti1, Ricardo B. C. Prudêncio1, Shreyasee S. Pradhan2, Jatin Y.
Shah2, e Ricardo S. Pietrobon2
1
Universidade Federal de Pernambuco, UFPE, Recife, Brasil
{dcc2, rbcp}@cin.ufpe.br
2
Department of Surgery, Duke University, Durham, USA
{sp133, jys4, rpietro}@duke.edu
Abstract. O impacto de uma publicação é muitas vezes medido pelo número de
citações que recebeu, sendo considerado atualmente um fator determinante para
a relevância do trabalho publicado. No entanto, um índice alto de citações não
significa necessariamente que uma publicação teve uma avaliação ou retorno
positivo dos autores que a citaram, pois uma citação pode representar uma crítica negativa. A fim de superar essa limitação, utilizamos análise de sentimento
para classificar citações como positivas ou negativas, e assim, propor índices de
impacto que considerem avaliação subjetiva por parte dos autores citantes. Inicialmente, adjetivos, advérbios, verbos e substantivos são extraídos das citações
com o auxílio de uma ferramenta de pos-tagger. Em seguida, o léxico SentiWordNet é utilizado para identificar o grau de positividade e negatividade para
cada termo extraído da citação. Graus de sentimento são computados para classificar citações de acordo com o sentimento expresso no texto correspondente a
cada citação. Experimentos foram realizados em uma base de citações da área
médica, visando ordenar os artigos científicos conforme o número de citações
classificadas como positivas. Resultados revelaram que a ordenação gerada com
as classificações do SentiWordNet foram mais correlacionadas com o impacto
positivo real medido para os artigos considerados nos experimentos.
Keywords: Fator de Impacto, Análise de Sentimento, SentiWordNet.
1
Introdução
O uso de fatores de impacto é parte integrante do processo de tomada de decisão institucional, bem como das políticas governamentais de pesquisa [1]. Esses índices refletem a frequência com que artigos são citados na literatura cientifica. O fator
de impacto ganhou aceitação como uma medida quantitativa da qualidade do periódico ou de um artigo, tendo sido utilizado para avaliar revistas e publicações há décadas. Autores e instituições são frequentemente julgados e financiados baseados simplesmente em publicações em revistas de alto impacto [1]. O fator de impacto também é utilizado por bibliotecários na seleção de periódicos para suas coleções.
Apesar de ser amplamente utilizado como um indicador de qualidade, o fator de
impacto é frequentemente criticado por apresentar um alto grau de incerteza [2]. Por
exemplo, um número de citações mais elevado não é garantia de uma resposta positiva dos autores que citam um dado artigo [3]. Dois artigos podem ter o mesmo número
de citações, mas possuir considerações completamente opostas em relação a sua qualidade. Visando minimizar essa limitação, investigamos anteriormente o uso de análise de sentimentos para diferenciar automaticamente citações positivas e negativas em
relação a um artigo citado [7]. A análise de sentimentos explora o estudo de opiniões,
sentimentos e emoções expressos em texto [4]. O objetivo principal é descobrir sentimento expressos em documentos e classificá-los como positivo, neutro ou negativo.
Análise de sentimento tem sido amplamente utilizada em sistemas de monitoramento
de mídias sociais para processar opiniões sobre pessoas, serviços e empresas em vários domínios [5] incluindo marketing político, varejo, dentre outros [6].
O uso de Análise de Sentimento no contexto de fator de impacto e análise de citações ainda é pouco explorado na literatura. Em [7], foram realizados experimentos
onde o grau de positividade de adjetivos extraídos das citações científicas foi computado com o auxílio do léxico SentiWordNet. Os experimentos apontaram que é possível identificar o fator de impacto positivo de um dado artigo a partir da classificação
automática de sentimentos das citações para o artigo. Em [8], foi realizado trabalho
similar para a identificação automática da polaridade (positiva ou negativa) de artigos
científicos. Para o experimento, utilizaram um corpus de 8736 citações de 310 artigos
e exploraram o uso de n-gramas, características léxicas, relações de dependência,
divisão de sentenças e características de negação.
No presente artigo, estendemos os experimentos realizados em [7], considerando
nos experimentos outras classes gramaticais, além de adjetivo. Inicialmente, foi construído um classificador usando o léxico SentiWordNet para classificar sentimentos em
citações de artigos científicos. A construção do classificador foi dividida em três etapas: (1) seleção e extração de termos pertencentes às classes gramaticais adjetivo,
advérbio, verbo e substantivo, (2) associação de uma pontuação positiva e negativa
para cada termo extraído a partir de informações de positividade ou negatividade do
SentiWordNet, e (3) classificação da polaridade da citação a partir da média das pontuações positivas e negativas para os termos extraídos. Os artigos foram ordenados
conforme o número de citações consideradas positivas pelo processo de classificação.
Experimentos foram realizados com uma base de artigos e citações pertencentes
ao British Medical Journal (BMJ) entre os anos de 2003 e 2004. Os resultados apontam que a classe gramatical adjetivo de fato apresentou isoladamente melhor desempenho comparado as outras classes gramaticais, o que reforça os experimentos realizados em [7]. A análise de sentimento relacionada a métricas de citação se mostrou
viável para a definição de fatores de impacto positivo.
O restante deste trabalho está organizado da seguinte forma. A Seção 2 fornece
uma breve introdução ao SentiWordNet e apresenta como a análise de sentimento foi
aplicada em nosso trabalho. A Seção 3 descreve o corpus de artigos usados nos experimentos e apresenta os resultados de nossos experimentos. Finalmente, a Seção 4
conclui o artigo com uma discussão de nossos resultados, juntamente com recomendações para trabalhos futuros.
2
2
Análise de Sentimento
A análise de sentimento explora o estudo computacional de opiniões expressas em
fontes não estruturadas como textos [4]. O objetivo não é determinar sobre qual tópico ou tema o documento trata (como realizado em técnicas convencionais de classificação de texto), mas sim em descobrir qual a opinião expressa no documento e, classificar a sua polaridade [5, 9]. A análise de sentimento tem sido aplicada principalmente no meio empresarial, como exemplo na perspectiva de clientes que buscam
comentários positivos ou negativos sobre produtos.
No presente trabalho, realizamos uma aplicação inovadora de análise de sentimentos no contexto de avaliação de impacto científico. Em artigos científicos, um artigo
pode-se citar outro artigo de uma forma positiva, negativa ou neutra. O impacto de
citações positivas ou negativas sobre um dado artigo pode refletir na aceitação dos
experimentos, dados, afirmações, métodos e resultados discutidos no artigo. Pode
também ser usado para avaliar a qualidade da publicação e também avaliar quem
publica estes documentos.
2.1
SentiWordNet
Adotamos para nosso experimento o recurso léxico SentiWordNet, versão 3.0, desenvolvido por Esuli and Sebastiani [11]. Esse léxivo possui 117.374 entradas resultante
de anotações automatizadas em todos os synsets do WordNet 3.0 com scores de sentimentos. Um synset no WordNet contém um conjunto de sinônimos representando
um conceito, uma classe gramatical e um comentário. No SentiWordNet, cada synset
foi associado a três valores numéricos, Pos (s), Neg (s) e Obj (s) que indicam o quanto
é positivo, negativo ou objetivo (neutro) o termo contido no synset. Cada um dos três
valores varia no intervalo [0.0, 1.0] e a soma deles é 1.0 para cada synset, logo Obj(s)
+ Pos(s) + Neg(s) = 1.
A Figura 1 ilustra um exemplo de synset no SentiWordNet. Neste exemplo, o synset s = {WICKED, TERRIBLE, SEVERE} tem definição associada "intensely or
extremely bad or unpleasant in degree or quality", e é associado à classe gramatical
adjetivo. Os três scores de sentimento associado a este synset são Pos (s) = 0, Neg (s)
= 0.875 e Obj (s) = 0.125, indicando que este específico synset expressa um sentimento predominantemente negativo.
Fig. 1. Exemplo de synset no SentiWordNet (figura adaptada a partir da interface do SentiWordNet em http://sentiwordnet.isti.cnr.it/)
3
2.2
Calculando a polaridade usando o SentiWordNet
Em nosso trabalho, cada entrada de texto a ser analisado é uma sentença de artigo
contendo uma citação, que será automaticamente associada a um score indicando se a
citação é positiva ou negativa em relação ao artigo que está sendo citado. O score foi
computado seguindo as três etapas descritas abaixo:
(1) Extração de termos referentes às classes gramaticais verbo, adjetivo, advérbio, e
substantivo usando ferramenta Stanford POS-tagger [12];
(2) Recuperação de todos os synsets do SentiWordNet associados aos termos extraídos. Para cada termo extraído, de acordo com a classe gramatical, pesquisamos se
o termo existe no SentiWordNet. Caso exista, retornam-se os valores referentes à
positividade e negatividade;
(3) Agregação dos scores dos termos, a fim de calcular a polaridade final associada
ao texto de entrada. Inicialmente, para cada termo extraído do texto de entrada é
calculado um score final dado pela média da polaridade negativa e positiva de todos os sentidos retornados do SentiWordNet considerando a classe gramatical do
termo, usando as equações (1) e (2).
score(termi)  posScore  negScore
ScoreFinal(term) 
1
n
(1)
n
score(term )
i
(2)
i 1
Por exemplo, a palavra “terrível” é um adjetivo. No SentiWordNet, esta palavra
possui n=4 sentidos, com o seus respectivos valores positivos e negativos [0.0, 0.625],
[0.0, 0.875], [0.0, 0.875], [0.125, 0.25]. Para cada termo e classe gramatical correspondente, foi subtraído o score positivo do score negativo de cada sentido (Equação
1). Logo, obtemos: terrible1 = (0.0 - 0.625) = -0.625, terrible2 = (0.0 - 0.875) = -0.875,
terrible3 = (0.0 - 0.875) = - 0.875 e terrible4 = (0.125 - 0.25) = -0.125. O score final
para o termo será a média aritmética ((- 0.625) + (- 0.875) + (- 0.875) + (- 0.125) / 4),
que é igual a -0.625. Nesse caso, a palavra “terrível”, na classe gramatical adjetivo,
tem uma orientação negativa igual a - 0.625.
O grau de sentimento é dado finalmente pela média do score final de todos os termos extraídos do texto de entrada. A Tabela 1 apresenta um exemplo de um artigo pai
sendo citado (parent article), um artigo filho que o cita (citing article) e o texto do
artigo citante que contém a citação ao artigo citado (quote about parent). Na quarta
coluna temos a polaridade da citação (nesse caso positiva). Considerando a classe
gramatical adjetivo, foram extraídos os termos “similar” e “beneficial”. O score resultante usando o procedimento acima foi 0.275 para a palavra “similar” e 0.625 para a
palavra “beneficial”. O grau de sentimento da citação é dado então pela média desses
dois valores (0.45).
4
Table 1. Exemplo de citação com respectivo sentimento classificado
Parent Article
Impact of supplementing
newborn infants with
vitamin A on early infant
mortality: community
based randomised trial in
southern India
3
Citing Article
Effect of 50 000 IU
vitamin A given with
BCG vaccine on
mortality in infants in
Guinea-Bissau:
randomised placebo
controlled trial
Quote about parent
When we started our trial,
two similar trials from Asia
had reported beneficial
effects of vitamin A
supplementation at birth.
Sentiment
Good
Experimentos
Nesta seção, apresentamos os dados utilizados (Seção 3.1) e resultados obtidos nos
experimentos que avaliaram a qualidade dos graus de polaridade fornecidos através
do SentiWordNet (Seção 3.2), assim como a utilidade dessas respostas para ordenar
artigos conforme grau de impacto positivo (Seção 3.3).
3.1
Corpus de Experimentos
No nosso trabalho foi utilizada uma base de artigos citados (parent) com os respectivos artigos que os citam (citing article ou child). Para cada child foram extraídos os
textos onde os pais são citados (quote about parent) e feitos uma etiquetagem manual
de seus respectivos sentimentos (good, bad ou neutral). Os artigos parent foram coletados da British Medical Journal (BMJ), uma revista internacional, eletrônica, que
mantém publicações relacionadas à medicina. A BMJ foi selecionada uma vez que
suas publicações são de alto impacto referenciado por um grande número de praticantes da medicina clínica; tendo também um grande número de artigos disponíveis publicamente em formato de texto completo (http://www.bmj.com/content/by/year).
Para criar um conjunto de validação, inicialmente foram coletados artigos da BMJ
publicados durante os anos de 2003 e 2004, em um total de 48 artigos. Em seguida,
buscamos por todos os artigos child que citam estes 48 artigos usando o Google Scholar (scholar.google.com/, último acesso agosto de 2011). Dos 48 artigos coletados
inicialmente, 31 obtiveram citações no Google Scholar, com um total de 140 citações
selecionadas. Cada texto do artigo child foi etiquetado por dois pesquisadores de forma independente em três classes diferentes: sentimento positivo, negativo e neutro.
Uma citação foi etiquetada positiva quando referenciava termos tais como “remarkable”, “first adequately powered”. Por exemplo: “Despite some adverse effects, this
study was the first adequately powered randomized controlled trial that supported the
use of an opioid for the symptomatic relief of dyspnea”. A citação foi etiquetada negativa quando houve critica ou destaque das limitações do artigo pai. Por exemplo:
“Their findings were conflicting, showing either no reduction in incidence of colorectal or all cancers”. A citação foi identificada como neutra quando não apresentava
sentimento. Por exemplo: “Two other trials have also published data on supplementation of these nutrients and the incidence of all cancers, but in both studies the assessment of cancer outcomes was a secondary objective”. Caso as etiquetas dos dois avaliadores divergissem, então a etiquetagem era resolvida por meio de discussão e con5
senso mútuo. Do total de 140 citações, 24 foram classificados com sentimento positivo, 8 com sentimento negativo, e 108 com sentimento neutro.
3.2
Ordenando citações pelo grau de sentimento
Nesse experimento inicial, ordenamos as citações conforme o grau de sentimento
computado pelo processo apresentado na Seção 2.2, com as citações mais positivas no
topo do ranking. Em seguida, considerando as etiquetas de cada citação, calculamos
as curvas de precisão, cobertura e f-measure. A curva de precisão na posição n no
ranking é definida como o número de citações reais positivas observadas até posição n
dividida por n. A precisão neste contexto mede a capacidade de identificar nas posições iniciais do ranking citações verdadeiramente positivas.
Na figura 2, apresentamos a curva de precisão computada a partir de intervalos de
10 citações. Tal como esperado, as taxas mais elevadas de precisão são observadas
nos pontos iniciais da curva (com exceção da classe substantivo). Este resultado indica que as citações com maior pontuação foram, de fato, são as que expressavam opinião positiva. O melhor resultado apresentado foi para a classe gramatical adjetivo,
onde a medida de precisão inicia com 70% para n = 10 e diminui progressivamente
como o aumento do número de citações ordenadas. O segundo melhor resultado é
para classe gramatical advérbio. As classes gramaticais verbo e substantivo apresentaram resultados menos significativos. Ressaltamos aqui que para essas classes há uma
predominância maior de termos neutros conforme os scores do SentiWordNet, o que
dificulta distinguir as citações positivas das restantes. Verificamos ainda a classificação unindo todas as classes gramaticais apresentou melhor resultado que as classes
verbo, substantivo e advérbio, porém não superou os resultados comparados a classe
gramatical adjetivo.
Na figura 3, apresentamos a curva de cobertura para cada classe gramatical. Essa
curva na posição n é medida como o número de citações reais positivas observadas
até a posição n no ranking dividido pelo número total de citações positivas no corpus
de experimentos. Cobertura mede a quantidade de itens relevantes já recuperados em
relação à quantidade total de itens relevantes disponíveis. Como esperado, os valores
de cobertura aumentam à medida que o número de citações inspecionadas aumenta. O
comportamento estável crescente de cobertura é também uma consequência de que as
verdadeiras citações positivas são ordenadas em geral nas primeiras posições, considerando o grau de sentimento.
Nos resultados acima, observa-se o conflito comum existente entre precisão e cobertura. Em geral, a fim de alcançar um maior nível de cobertura, a precisão é reduzida. Para analisar ambas as medidas, foi adotada a métrica f-measure, representando a
média harmônica entre precisão e cobertura. A Figura 4 apresenta a curva de fmeasure observada em nossos experimentos. O maior valor para f-measure foi observado para n = 50 para a classe gramatical adjetivo, indicando que os níveis mais elevados de cobertura alcançados nesta posição compensaram a diminuição na precisão
observada. A partir dessa posição, o f-measure diminui continuamente com o aumento
do número de citações.
6
Fig. 2. Curva de precisão para as citações ordenadas por grau de sentimento
Fig. 3. Curva de cobertura para as citações ordenadas por grau de sentimento
7
Fig. 4. Curva de f-measure para as citações as citações ordenadas por grau de sentimento
3.3
Ordenando artigos citados pelo número de citações positivas
Na seção anterior, avaliamos se a pontuação de sentimento pode fornecer informações úteis para identificar citações positivas sobre artigos. Uma vez que as citações
positivas são distribuídas seguindo o ranking gerado pela score de sentimento, é possível atribuir a cada artigo citado um fator de impacto positivo. Este fator pode ser
definido como o número de citações positivas que o artigo obteve. Nesta seção, avaliamos a utilidade desse fator de impacto. A fim de gerar um ranking de artigos adotamos os seguintes procedimentos: (1) dado o ranking de citações ordenadas pelo grau
de sentimento, para cada artigo contamos o número de citações classificadas como
positiva atribuídas na etapa anterior; (2) por fim, os artigos citados foram ordenados
pelo número de citações positivas associadas.
A fim de avaliar a qualidade dos resultados comparamos o ranking gerado com o
ranking ideal definido através do número real de citações positivas recebidas pelos
artigos (considerando as etiquetas definidas manualmente). A comparação entre o
ranking gerado e o ranking ideal é feita com o uso do Spearman Ranking Correlation
(SRC), definido pela equação:
K
6*
SRC  1

 rr  ir 

K 1
K3  K
k
2
(3)
8
Na equação (3), rrk e irk são, respectivamente, o ranking gerado e ranking ideal do
artigo k e K é o número de artigos citados. SRC assume valores entre -1 e 1. Valores
próximo a 1 indicam que os dois rankings têm posições em acordo e valores próximo
a -1 indicam desacordo entre os rankings.
Table 2. Valores SRC calculado usando o ranking real de artigos como base para comparação
Number Citations /SRC
Adjective
10
20
30
40
50
60
70
80
0,6232
0,6446
0,6942
0,7923
0,7531
0,7635
0,8051
0,8051
Adverb
0,6569
0,6158
0,6158
0,6158
0,6158
0,6158
0,6158
0,6158
Verb
0,5858
0,3039
0,4982
0,4252
0,4252
0,4252
Noun
0,2714
0,1998
0,1042
0,2531
0,3891
0,3946
0,4252
0,3946
0,4252
0,3946
All class
0,5778
0,6863
0,538
0,7218
0,6875
0,6930
0,6994
0,6994
Podemos observar na Tabela 2 que a classe gramatical adjetivo obteve maior valor
SRC variando o número de citações comparado às outras classes gramaticais. Estes
resultados afirmam estatísticas fornecidas em [10], onde apresentam os adjetivos como resultado de maior nível de pontuações não objetivas. A interpretação é que quanto maior o número de citações que um artigo tem, maior é o número de citações positivas, o que significa que é possível inferir um fator de impacto positivo de um artigo
apenas considerando o número de citações positivas. No entanto, a relação entre citações reais e citações classificadas positivas não é linear. Na verdade, ao inspecionar o
conjunto de dados de experimentos, observamos, por exemplo, que o artigo com o
maior número de citações positivas (10 citações positivas) não era o artigo mais citado no corpus utilizado. De fato, o valor de SRC comparando o ranking ideal e um
ranking gerado simplesmente ordenando os artigos por número de citações (independente do grau de sentimento) foi de 0.67 que é menor que os valores de SRC em geral
observados quando se adota a classe gramatical de adjetivo. Por isso, argumentamos
que estes dois critérios, isto é, número de citações reais e o número de citações positivas, oferecem diferentes tipos de informação que podem ser usados para avaliar o
impacto científico.
4
Conclusão
A nossa análise revela que citações com alta pontuação de relevância foram, em geral,
as que expressaram opinião positiva sobre o artigo citado. Nos experimentos realizados, a classe gramatical adjetivo isoladamente obteve melhor desempenho comparado
às outras classes gramaticais. Verificamos ainda uma correlação positiva entre os
rankings de artigos gerados pelo método proposto com o SentiWordNet, com o uso da
classe adjetivo e o ranking ideal de artigos citados. O método proposto pode potencialmente diminuir limitações apresentadas pelas métricas tradicionais de fator de impacto. De importância, validamos empiricamente o método para poder fornecer estimativas confiáveis de sentimento em relação a citações.
9
Apesar de uma contribuição significativa para a literatura, nosso estudo tem limitações. Em primeiro lugar, nossos experimentos foram restritos aos artigos da BMJ.
Embora não tenhamos razões para acreditar que autores que citam artigos publicados
no BMJ expressem suas opiniões de forma distinta das demais revistas, variações
podem ocorrer dependendo do país de origem, especialidade clínica e período de tempo. Finalmente, apesar de nossos resultados demonstrarem boa confiabilidade, várias
de nossas métricas podem ser potencialmente melhoradas com algoritmos alternativos
que não foram testados neste projeto, incluindo, por exemplo, o uso métodos de
aprendizagem de máquina supervisionada. Futuras investigações devem tentar aplicar
o método proposto em uma ampla base de artigos com diferentes métodos de análise
de sentimentos.
5
Referências
1. Opthof, T.: Sense and nonsense about the impact factor. Cardiovascular Research, vol. 33,
pp. 1-7 (1997)
2. Weale, A. R., Bailey, M., Lear, P. A.: The level of non-citation of articles within a journal
as a measure of quality: A comparison to the impact factor. BMC Med Res Methodol, vol. 4,
pp. 4-14 (2004)
3. Garfield, E.: Is citation analysis a legitimate evaluation tool?. Scientometrics, vol. 1, pp.
359-37 (1979)
4. Boiy, E., Moens, M.-F.: A machine learning approach to sentiment analysis in multilingual
Web texts. Information Retrieval, vol.12, pp. 526-558 (2008)
5. Pang, B., Lee, L.: Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval, Vol. 2, pp 1-135 (2008)
6. Wanner, F., Rohrdantz, C., Mansmann, F., Oelke, D., Keim, D. A.: Visual Sentiment Analysis of RSS News Feeds Featuring the US Presidential Election in 2008. In: Proceedings of
the IUI'09 Workshop on Visual Interfaces to the Social and the Semantic Web (2009)
7. Cavalcanti, D. C., Prud ncio, R.B.C., Pradhan, S. S., Shah, J. Y., Pietrobon, R. S.: Good to
be Bad? Distinguishing between Positive and Negative Citations in Scientific Impact. In:
IEEE 23rd International Conference on Tools with Artificial Intelligence (ICTAI), pp. 156162, Boca Raton, Florida (2011)
8. Athar, A.: Sentiment analysis of citations using sentence structure-based features. In: Proceedings of the ACL 2011 Student Session, pp. 81-87 (2011)
9. Veloso, A., Meira, W.: Efficient on-demand Opinion Mining. Brazilian Symposium on Databases, pp. 332-346 (2007)
10. Jindal, N., Liu, B.: Review spam detection. In: Proceedings of the 16th International Conference on the World Wide Web (WWW 07), pp. 1189-1190 (2007)
11. SentiWordNet, http://sentiwordnet.isti.cnr.it/.
12. STANFORD, http://nlp.stanford.edu/software/tagger.shtml.
13. Esuli, A., Sebastiani, F.: SENTIWORDNET: A Publicly Available Lexical Resource for
Opinion Mining. In: 5th Conference on Language Resources and Evaluation, pp. 417-422
(2006)
10