Análise de Sentimento em Citações Científicas para Definição de Fatores de Impacto Positivo Diana C. Cavalcanti1, Ricardo B. C. Prudêncio1, Shreyasee S. Pradhan2, Jatin Y. Shah2, e Ricardo S. Pietrobon2 1 Universidade Federal de Pernambuco, UFPE, Recife, Brasil {dcc2, rbcp}@cin.ufpe.br 2 Department of Surgery, Duke University, Durham, USA {sp133, jys4, rpietro}@duke.edu Abstract. O impacto de uma publicação é muitas vezes medido pelo número de citações que recebeu, sendo considerado atualmente um fator determinante para a relevância do trabalho publicado. No entanto, um índice alto de citações não significa necessariamente que uma publicação teve uma avaliação ou retorno positivo dos autores que a citaram, pois uma citação pode representar uma crítica negativa. A fim de superar essa limitação, utilizamos análise de sentimento para classificar citações como positivas ou negativas, e assim, propor índices de impacto que considerem avaliação subjetiva por parte dos autores citantes. Inicialmente, adjetivos, advérbios, verbos e substantivos são extraídos das citações com o auxílio de uma ferramenta de pos-tagger. Em seguida, o léxico SentiWordNet é utilizado para identificar o grau de positividade e negatividade para cada termo extraído da citação. Graus de sentimento são computados para classificar citações de acordo com o sentimento expresso no texto correspondente a cada citação. Experimentos foram realizados em uma base de citações da área médica, visando ordenar os artigos científicos conforme o número de citações classificadas como positivas. Resultados revelaram que a ordenação gerada com as classificações do SentiWordNet foram mais correlacionadas com o impacto positivo real medido para os artigos considerados nos experimentos. Keywords: Fator de Impacto, Análise de Sentimento, SentiWordNet. 1 Introdução O uso de fatores de impacto é parte integrante do processo de tomada de decisão institucional, bem como das políticas governamentais de pesquisa [1]. Esses índices refletem a frequência com que artigos são citados na literatura cientifica. O fator de impacto ganhou aceitação como uma medida quantitativa da qualidade do periódico ou de um artigo, tendo sido utilizado para avaliar revistas e publicações há décadas. Autores e instituições são frequentemente julgados e financiados baseados simplesmente em publicações em revistas de alto impacto [1]. O fator de impacto também é utilizado por bibliotecários na seleção de periódicos para suas coleções. Apesar de ser amplamente utilizado como um indicador de qualidade, o fator de impacto é frequentemente criticado por apresentar um alto grau de incerteza [2]. Por exemplo, um número de citações mais elevado não é garantia de uma resposta positiva dos autores que citam um dado artigo [3]. Dois artigos podem ter o mesmo número de citações, mas possuir considerações completamente opostas em relação a sua qualidade. Visando minimizar essa limitação, investigamos anteriormente o uso de análise de sentimentos para diferenciar automaticamente citações positivas e negativas em relação a um artigo citado [7]. A análise de sentimentos explora o estudo de opiniões, sentimentos e emoções expressos em texto [4]. O objetivo principal é descobrir sentimento expressos em documentos e classificá-los como positivo, neutro ou negativo. Análise de sentimento tem sido amplamente utilizada em sistemas de monitoramento de mídias sociais para processar opiniões sobre pessoas, serviços e empresas em vários domínios [5] incluindo marketing político, varejo, dentre outros [6]. O uso de Análise de Sentimento no contexto de fator de impacto e análise de citações ainda é pouco explorado na literatura. Em [7], foram realizados experimentos onde o grau de positividade de adjetivos extraídos das citações científicas foi computado com o auxílio do léxico SentiWordNet. Os experimentos apontaram que é possível identificar o fator de impacto positivo de um dado artigo a partir da classificação automática de sentimentos das citações para o artigo. Em [8], foi realizado trabalho similar para a identificação automática da polaridade (positiva ou negativa) de artigos científicos. Para o experimento, utilizaram um corpus de 8736 citações de 310 artigos e exploraram o uso de n-gramas, características léxicas, relações de dependência, divisão de sentenças e características de negação. No presente artigo, estendemos os experimentos realizados em [7], considerando nos experimentos outras classes gramaticais, além de adjetivo. Inicialmente, foi construído um classificador usando o léxico SentiWordNet para classificar sentimentos em citações de artigos científicos. A construção do classificador foi dividida em três etapas: (1) seleção e extração de termos pertencentes às classes gramaticais adjetivo, advérbio, verbo e substantivo, (2) associação de uma pontuação positiva e negativa para cada termo extraído a partir de informações de positividade ou negatividade do SentiWordNet, e (3) classificação da polaridade da citação a partir da média das pontuações positivas e negativas para os termos extraídos. Os artigos foram ordenados conforme o número de citações consideradas positivas pelo processo de classificação. Experimentos foram realizados com uma base de artigos e citações pertencentes ao British Medical Journal (BMJ) entre os anos de 2003 e 2004. Os resultados apontam que a classe gramatical adjetivo de fato apresentou isoladamente melhor desempenho comparado as outras classes gramaticais, o que reforça os experimentos realizados em [7]. A análise de sentimento relacionada a métricas de citação se mostrou viável para a definição de fatores de impacto positivo. O restante deste trabalho está organizado da seguinte forma. A Seção 2 fornece uma breve introdução ao SentiWordNet e apresenta como a análise de sentimento foi aplicada em nosso trabalho. A Seção 3 descreve o corpus de artigos usados nos experimentos e apresenta os resultados de nossos experimentos. Finalmente, a Seção 4 conclui o artigo com uma discussão de nossos resultados, juntamente com recomendações para trabalhos futuros. 2 2 Análise de Sentimento A análise de sentimento explora o estudo computacional de opiniões expressas em fontes não estruturadas como textos [4]. O objetivo não é determinar sobre qual tópico ou tema o documento trata (como realizado em técnicas convencionais de classificação de texto), mas sim em descobrir qual a opinião expressa no documento e, classificar a sua polaridade [5, 9]. A análise de sentimento tem sido aplicada principalmente no meio empresarial, como exemplo na perspectiva de clientes que buscam comentários positivos ou negativos sobre produtos. No presente trabalho, realizamos uma aplicação inovadora de análise de sentimentos no contexto de avaliação de impacto científico. Em artigos científicos, um artigo pode-se citar outro artigo de uma forma positiva, negativa ou neutra. O impacto de citações positivas ou negativas sobre um dado artigo pode refletir na aceitação dos experimentos, dados, afirmações, métodos e resultados discutidos no artigo. Pode também ser usado para avaliar a qualidade da publicação e também avaliar quem publica estes documentos. 2.1 SentiWordNet Adotamos para nosso experimento o recurso léxico SentiWordNet, versão 3.0, desenvolvido por Esuli and Sebastiani [11]. Esse léxivo possui 117.374 entradas resultante de anotações automatizadas em todos os synsets do WordNet 3.0 com scores de sentimentos. Um synset no WordNet contém um conjunto de sinônimos representando um conceito, uma classe gramatical e um comentário. No SentiWordNet, cada synset foi associado a três valores numéricos, Pos (s), Neg (s) e Obj (s) que indicam o quanto é positivo, negativo ou objetivo (neutro) o termo contido no synset. Cada um dos três valores varia no intervalo [0.0, 1.0] e a soma deles é 1.0 para cada synset, logo Obj(s) + Pos(s) + Neg(s) = 1. A Figura 1 ilustra um exemplo de synset no SentiWordNet. Neste exemplo, o synset s = {WICKED, TERRIBLE, SEVERE} tem definição associada "intensely or extremely bad or unpleasant in degree or quality", e é associado à classe gramatical adjetivo. Os três scores de sentimento associado a este synset são Pos (s) = 0, Neg (s) = 0.875 e Obj (s) = 0.125, indicando que este específico synset expressa um sentimento predominantemente negativo. Fig. 1. Exemplo de synset no SentiWordNet (figura adaptada a partir da interface do SentiWordNet em http://sentiwordnet.isti.cnr.it/) 3 2.2 Calculando a polaridade usando o SentiWordNet Em nosso trabalho, cada entrada de texto a ser analisado é uma sentença de artigo contendo uma citação, que será automaticamente associada a um score indicando se a citação é positiva ou negativa em relação ao artigo que está sendo citado. O score foi computado seguindo as três etapas descritas abaixo: (1) Extração de termos referentes às classes gramaticais verbo, adjetivo, advérbio, e substantivo usando ferramenta Stanford POS-tagger [12]; (2) Recuperação de todos os synsets do SentiWordNet associados aos termos extraídos. Para cada termo extraído, de acordo com a classe gramatical, pesquisamos se o termo existe no SentiWordNet. Caso exista, retornam-se os valores referentes à positividade e negatividade; (3) Agregação dos scores dos termos, a fim de calcular a polaridade final associada ao texto de entrada. Inicialmente, para cada termo extraído do texto de entrada é calculado um score final dado pela média da polaridade negativa e positiva de todos os sentidos retornados do SentiWordNet considerando a classe gramatical do termo, usando as equações (1) e (2). score(termi) posScore negScore ScoreFinal(term) 1 n (1) n score(term ) i (2) i 1 Por exemplo, a palavra “terrível” é um adjetivo. No SentiWordNet, esta palavra possui n=4 sentidos, com o seus respectivos valores positivos e negativos [0.0, 0.625], [0.0, 0.875], [0.0, 0.875], [0.125, 0.25]. Para cada termo e classe gramatical correspondente, foi subtraído o score positivo do score negativo de cada sentido (Equação 1). Logo, obtemos: terrible1 = (0.0 - 0.625) = -0.625, terrible2 = (0.0 - 0.875) = -0.875, terrible3 = (0.0 - 0.875) = - 0.875 e terrible4 = (0.125 - 0.25) = -0.125. O score final para o termo será a média aritmética ((- 0.625) + (- 0.875) + (- 0.875) + (- 0.125) / 4), que é igual a -0.625. Nesse caso, a palavra “terrível”, na classe gramatical adjetivo, tem uma orientação negativa igual a - 0.625. O grau de sentimento é dado finalmente pela média do score final de todos os termos extraídos do texto de entrada. A Tabela 1 apresenta um exemplo de um artigo pai sendo citado (parent article), um artigo filho que o cita (citing article) e o texto do artigo citante que contém a citação ao artigo citado (quote about parent). Na quarta coluna temos a polaridade da citação (nesse caso positiva). Considerando a classe gramatical adjetivo, foram extraídos os termos “similar” e “beneficial”. O score resultante usando o procedimento acima foi 0.275 para a palavra “similar” e 0.625 para a palavra “beneficial”. O grau de sentimento da citação é dado então pela média desses dois valores (0.45). 4 Table 1. Exemplo de citação com respectivo sentimento classificado Parent Article Impact of supplementing newborn infants with vitamin A on early infant mortality: community based randomised trial in southern India 3 Citing Article Effect of 50 000 IU vitamin A given with BCG vaccine on mortality in infants in Guinea-Bissau: randomised placebo controlled trial Quote about parent When we started our trial, two similar trials from Asia had reported beneficial effects of vitamin A supplementation at birth. Sentiment Good Experimentos Nesta seção, apresentamos os dados utilizados (Seção 3.1) e resultados obtidos nos experimentos que avaliaram a qualidade dos graus de polaridade fornecidos através do SentiWordNet (Seção 3.2), assim como a utilidade dessas respostas para ordenar artigos conforme grau de impacto positivo (Seção 3.3). 3.1 Corpus de Experimentos No nosso trabalho foi utilizada uma base de artigos citados (parent) com os respectivos artigos que os citam (citing article ou child). Para cada child foram extraídos os textos onde os pais são citados (quote about parent) e feitos uma etiquetagem manual de seus respectivos sentimentos (good, bad ou neutral). Os artigos parent foram coletados da British Medical Journal (BMJ), uma revista internacional, eletrônica, que mantém publicações relacionadas à medicina. A BMJ foi selecionada uma vez que suas publicações são de alto impacto referenciado por um grande número de praticantes da medicina clínica; tendo também um grande número de artigos disponíveis publicamente em formato de texto completo (http://www.bmj.com/content/by/year). Para criar um conjunto de validação, inicialmente foram coletados artigos da BMJ publicados durante os anos de 2003 e 2004, em um total de 48 artigos. Em seguida, buscamos por todos os artigos child que citam estes 48 artigos usando o Google Scholar (scholar.google.com/, último acesso agosto de 2011). Dos 48 artigos coletados inicialmente, 31 obtiveram citações no Google Scholar, com um total de 140 citações selecionadas. Cada texto do artigo child foi etiquetado por dois pesquisadores de forma independente em três classes diferentes: sentimento positivo, negativo e neutro. Uma citação foi etiquetada positiva quando referenciava termos tais como “remarkable”, “first adequately powered”. Por exemplo: “Despite some adverse effects, this study was the first adequately powered randomized controlled trial that supported the use of an opioid for the symptomatic relief of dyspnea”. A citação foi etiquetada negativa quando houve critica ou destaque das limitações do artigo pai. Por exemplo: “Their findings were conflicting, showing either no reduction in incidence of colorectal or all cancers”. A citação foi identificada como neutra quando não apresentava sentimento. Por exemplo: “Two other trials have also published data on supplementation of these nutrients and the incidence of all cancers, but in both studies the assessment of cancer outcomes was a secondary objective”. Caso as etiquetas dos dois avaliadores divergissem, então a etiquetagem era resolvida por meio de discussão e con5 senso mútuo. Do total de 140 citações, 24 foram classificados com sentimento positivo, 8 com sentimento negativo, e 108 com sentimento neutro. 3.2 Ordenando citações pelo grau de sentimento Nesse experimento inicial, ordenamos as citações conforme o grau de sentimento computado pelo processo apresentado na Seção 2.2, com as citações mais positivas no topo do ranking. Em seguida, considerando as etiquetas de cada citação, calculamos as curvas de precisão, cobertura e f-measure. A curva de precisão na posição n no ranking é definida como o número de citações reais positivas observadas até posição n dividida por n. A precisão neste contexto mede a capacidade de identificar nas posições iniciais do ranking citações verdadeiramente positivas. Na figura 2, apresentamos a curva de precisão computada a partir de intervalos de 10 citações. Tal como esperado, as taxas mais elevadas de precisão são observadas nos pontos iniciais da curva (com exceção da classe substantivo). Este resultado indica que as citações com maior pontuação foram, de fato, são as que expressavam opinião positiva. O melhor resultado apresentado foi para a classe gramatical adjetivo, onde a medida de precisão inicia com 70% para n = 10 e diminui progressivamente como o aumento do número de citações ordenadas. O segundo melhor resultado é para classe gramatical advérbio. As classes gramaticais verbo e substantivo apresentaram resultados menos significativos. Ressaltamos aqui que para essas classes há uma predominância maior de termos neutros conforme os scores do SentiWordNet, o que dificulta distinguir as citações positivas das restantes. Verificamos ainda a classificação unindo todas as classes gramaticais apresentou melhor resultado que as classes verbo, substantivo e advérbio, porém não superou os resultados comparados a classe gramatical adjetivo. Na figura 3, apresentamos a curva de cobertura para cada classe gramatical. Essa curva na posição n é medida como o número de citações reais positivas observadas até a posição n no ranking dividido pelo número total de citações positivas no corpus de experimentos. Cobertura mede a quantidade de itens relevantes já recuperados em relação à quantidade total de itens relevantes disponíveis. Como esperado, os valores de cobertura aumentam à medida que o número de citações inspecionadas aumenta. O comportamento estável crescente de cobertura é também uma consequência de que as verdadeiras citações positivas são ordenadas em geral nas primeiras posições, considerando o grau de sentimento. Nos resultados acima, observa-se o conflito comum existente entre precisão e cobertura. Em geral, a fim de alcançar um maior nível de cobertura, a precisão é reduzida. Para analisar ambas as medidas, foi adotada a métrica f-measure, representando a média harmônica entre precisão e cobertura. A Figura 4 apresenta a curva de fmeasure observada em nossos experimentos. O maior valor para f-measure foi observado para n = 50 para a classe gramatical adjetivo, indicando que os níveis mais elevados de cobertura alcançados nesta posição compensaram a diminuição na precisão observada. A partir dessa posição, o f-measure diminui continuamente com o aumento do número de citações. 6 Fig. 2. Curva de precisão para as citações ordenadas por grau de sentimento Fig. 3. Curva de cobertura para as citações ordenadas por grau de sentimento 7 Fig. 4. Curva de f-measure para as citações as citações ordenadas por grau de sentimento 3.3 Ordenando artigos citados pelo número de citações positivas Na seção anterior, avaliamos se a pontuação de sentimento pode fornecer informações úteis para identificar citações positivas sobre artigos. Uma vez que as citações positivas são distribuídas seguindo o ranking gerado pela score de sentimento, é possível atribuir a cada artigo citado um fator de impacto positivo. Este fator pode ser definido como o número de citações positivas que o artigo obteve. Nesta seção, avaliamos a utilidade desse fator de impacto. A fim de gerar um ranking de artigos adotamos os seguintes procedimentos: (1) dado o ranking de citações ordenadas pelo grau de sentimento, para cada artigo contamos o número de citações classificadas como positiva atribuídas na etapa anterior; (2) por fim, os artigos citados foram ordenados pelo número de citações positivas associadas. A fim de avaliar a qualidade dos resultados comparamos o ranking gerado com o ranking ideal definido através do número real de citações positivas recebidas pelos artigos (considerando as etiquetas definidas manualmente). A comparação entre o ranking gerado e o ranking ideal é feita com o uso do Spearman Ranking Correlation (SRC), definido pela equação: K 6* SRC 1 rr ir K 1 K3 K k 2 (3) 8 Na equação (3), rrk e irk são, respectivamente, o ranking gerado e ranking ideal do artigo k e K é o número de artigos citados. SRC assume valores entre -1 e 1. Valores próximo a 1 indicam que os dois rankings têm posições em acordo e valores próximo a -1 indicam desacordo entre os rankings. Table 2. Valores SRC calculado usando o ranking real de artigos como base para comparação Number Citations /SRC Adjective 10 20 30 40 50 60 70 80 0,6232 0,6446 0,6942 0,7923 0,7531 0,7635 0,8051 0,8051 Adverb 0,6569 0,6158 0,6158 0,6158 0,6158 0,6158 0,6158 0,6158 Verb 0,5858 0,3039 0,4982 0,4252 0,4252 0,4252 Noun 0,2714 0,1998 0,1042 0,2531 0,3891 0,3946 0,4252 0,3946 0,4252 0,3946 All class 0,5778 0,6863 0,538 0,7218 0,6875 0,6930 0,6994 0,6994 Podemos observar na Tabela 2 que a classe gramatical adjetivo obteve maior valor SRC variando o número de citações comparado às outras classes gramaticais. Estes resultados afirmam estatísticas fornecidas em [10], onde apresentam os adjetivos como resultado de maior nível de pontuações não objetivas. A interpretação é que quanto maior o número de citações que um artigo tem, maior é o número de citações positivas, o que significa que é possível inferir um fator de impacto positivo de um artigo apenas considerando o número de citações positivas. No entanto, a relação entre citações reais e citações classificadas positivas não é linear. Na verdade, ao inspecionar o conjunto de dados de experimentos, observamos, por exemplo, que o artigo com o maior número de citações positivas (10 citações positivas) não era o artigo mais citado no corpus utilizado. De fato, o valor de SRC comparando o ranking ideal e um ranking gerado simplesmente ordenando os artigos por número de citações (independente do grau de sentimento) foi de 0.67 que é menor que os valores de SRC em geral observados quando se adota a classe gramatical de adjetivo. Por isso, argumentamos que estes dois critérios, isto é, número de citações reais e o número de citações positivas, oferecem diferentes tipos de informação que podem ser usados para avaliar o impacto científico. 4 Conclusão A nossa análise revela que citações com alta pontuação de relevância foram, em geral, as que expressaram opinião positiva sobre o artigo citado. Nos experimentos realizados, a classe gramatical adjetivo isoladamente obteve melhor desempenho comparado às outras classes gramaticais. Verificamos ainda uma correlação positiva entre os rankings de artigos gerados pelo método proposto com o SentiWordNet, com o uso da classe adjetivo e o ranking ideal de artigos citados. O método proposto pode potencialmente diminuir limitações apresentadas pelas métricas tradicionais de fator de impacto. De importância, validamos empiricamente o método para poder fornecer estimativas confiáveis de sentimento em relação a citações. 9 Apesar de uma contribuição significativa para a literatura, nosso estudo tem limitações. Em primeiro lugar, nossos experimentos foram restritos aos artigos da BMJ. Embora não tenhamos razões para acreditar que autores que citam artigos publicados no BMJ expressem suas opiniões de forma distinta das demais revistas, variações podem ocorrer dependendo do país de origem, especialidade clínica e período de tempo. Finalmente, apesar de nossos resultados demonstrarem boa confiabilidade, várias de nossas métricas podem ser potencialmente melhoradas com algoritmos alternativos que não foram testados neste projeto, incluindo, por exemplo, o uso métodos de aprendizagem de máquina supervisionada. Futuras investigações devem tentar aplicar o método proposto em uma ampla base de artigos com diferentes métodos de análise de sentimentos. 5 Referências 1. Opthof, T.: Sense and nonsense about the impact factor. Cardiovascular Research, vol. 33, pp. 1-7 (1997) 2. Weale, A. R., Bailey, M., Lear, P. A.: The level of non-citation of articles within a journal as a measure of quality: A comparison to the impact factor. BMC Med Res Methodol, vol. 4, pp. 4-14 (2004) 3. Garfield, E.: Is citation analysis a legitimate evaluation tool?. Scientometrics, vol. 1, pp. 359-37 (1979) 4. Boiy, E., Moens, M.-F.: A machine learning approach to sentiment analysis in multilingual Web texts. Information Retrieval, vol.12, pp. 526-558 (2008) 5. Pang, B., Lee, L.: Opinion Mining and Sentiment Analysis. Foundations and Trends in Information Retrieval, Vol. 2, pp 1-135 (2008) 6. Wanner, F., Rohrdantz, C., Mansmann, F., Oelke, D., Keim, D. A.: Visual Sentiment Analysis of RSS News Feeds Featuring the US Presidential Election in 2008. In: Proceedings of the IUI'09 Workshop on Visual Interfaces to the Social and the Semantic Web (2009) 7. Cavalcanti, D. C., Prud ncio, R.B.C., Pradhan, S. S., Shah, J. Y., Pietrobon, R. S.: Good to be Bad? Distinguishing between Positive and Negative Citations in Scientific Impact. In: IEEE 23rd International Conference on Tools with Artificial Intelligence (ICTAI), pp. 156162, Boca Raton, Florida (2011) 8. Athar, A.: Sentiment analysis of citations using sentence structure-based features. In: Proceedings of the ACL 2011 Student Session, pp. 81-87 (2011) 9. Veloso, A., Meira, W.: Efficient on-demand Opinion Mining. Brazilian Symposium on Databases, pp. 332-346 (2007) 10. Jindal, N., Liu, B.: Review spam detection. In: Proceedings of the 16th International Conference on the World Wide Web (WWW 07), pp. 1189-1190 (2007) 11. SentiWordNet, http://sentiwordnet.isti.cnr.it/. 12. STANFORD, http://nlp.stanford.edu/software/tagger.shtml. 13. Esuli, A., Sebastiani, F.: SENTIWORDNET: A Publicly Available Lexical Resource for Opinion Mining. In: 5th Conference on Language Resources and Evaluation, pp. 417-422 (2006) 10