Compreendendo Mecanismos de Influência em Redes

Universidade Federal do ABC – UFABC
Curso de Pós-Graduação em Engenharia da Informação
Dissertação de Mestrado
Davi Brandão Zanotto
Compreendendo Mecanismos de Influência em Redes
Sociais Online através do Comportamento dos Usuários
Santo André
2015
Curso de Pós-Graduação em Engenharia da Informação
Dissertação de Mestrado
Davi Brandão Zanotto
Compreendendo Mecanismos de Influência em Redes
Sociais Online através do Comportamento dos Usuários
Trabalho apresentado como requisito parcial
para obtenção do título de Mestre em Engenharia da Informação, sob orientação do Professor
Doutor Carlos Alberto Kamienski.
Santo André
2015
À minha esposa, Waleska, e nosso primeiro filho, Bruno.
Agradecimentos
O primeiro agradecimento não poderia ser para outra pessoa senão meu orientador,
Carlos Kamienski. Agradeço, sem saber como recompensá-lo, por tudo que me proporcionou
durante esses anos de pesquisa em que trabalhamos juntos. Sua dedicação, seriedade,
comprometimento e cobrança foram essenciais para me motivar e me manter focado neste
trabalho. Espero que continue sempre assim para que outros alunos possam desfrutar desse
sentimento que pude conhecer.
Não foi fácil seguir os caminhos do mundo acadêmico. Diferentes oportunidades,
que poderiam proporcionar melhores condições financeiras e até sociais surgiram durante
esse período. No entanto, visando o futuro, é preciso tomar decisões difíceis e que nos
fazem viver um presente mais complicado, em alguns termos. Tudo isso se transforma em
uma missão bem mais fácil quando se tem o amor da sua vida ao seu lado, apoiando e
refrescando em sua memória que algo maior está acontecendo. Waleska, agradeço por todo
amor e dedicação, como esposa, e por tudo que você me proporciona desde os tempos de
faculdade, me fazendo sentir-se maior do que realmente sou.
Agradeço à minha família, que me apoiou quando decidi sair de Maceió e ir morar
em São Paulo. Agradeço, em especial, a minha mãe que me direcionou para tomar a
decisão de qual curso eu deveria escolher na faculdade e me orientou a estudar no Instituto
Federal, o início de todo esse caminho.
Agradeço também aos meus amigos, professores e colegas de mestrado e professores
e colegas da faculdade que, de tantas formas diferente, puderam me proporcionar o
sentimento que tenho ao escrever este texto.
Muito obrigado!
Resumo
O presente trabalho apresenta uma abordagem de análise da rede social Twitter a fim de
entender como os usuários se tornam influentes, através das suas características pessoais e
das características dos seus tuítes. As redes sociais online vêm sendo utilizadas, cada vez
mais, para análises de diferentes áreas de pesquisa que se propõem a entender como as
relações humanas ocorrem e como são estruturadas. Este projeto se propõe a entender como
os conteúdos são difundidos no Twitter, quais as características dos usuários denominados
influentes, por serem formadores de opinião, e as características das mensagens que se
tornaram virais. Entender como as pessoas se comportam em um grupo é um grande
desafio. Com este objetivo, foi criado um coletor de dados para capturar tuítes criados
em sete temas diferentes e servir como entrada de dados para as análises de influência
através de diferentes técnicas, como: contagem de retuítes e menções, entendimento de
quais características costumam apresentar os tuítes que alcançam maior disseminação,
criação de grafos relacionando usuários, seus seguidores, tuítes e retuítes para aplicar
técnicas de redes complexas e análise com mineração de dados utilizando árvore de decisão.
A estratégia utilizada foi aplicar diferentes técnicas para comparar os resultados e chegar
em um modelo que possa prever quando um conteúdo ou usuário será influente. Ao todo,
foram coletados mais de 62 milhões de tuítes entre os anos de 2014 e 2015. Apesar da
grande quantidade de dados, não foi possível desenvolver um padrão exato de como um
usuário ou conteúdo se torna influente, porém foi possível entender diversas características
que estão presentes nesses usuários e que podem ser utilizadas para aumentar o potencial
de disseminação de um conteúdo específico.
Palavras-chaves: Redes sociais online, mineração de dados, marketing viral, marketing
em redes sociais, redes complexas, tunkrank, big-data.
Abstract
This paper presents an analitical approach of the social network Twitter in order to
understand how its users become influential through their personal characteristics and
the characteristics of their tweets. Online social networks have been increasingly used for
analysis of different areas of research that intend to understand how human relationships
occur and how they are structured. This project aims at understanding how content
is spread on Twitter, what the characteristics of users called influential are, for being
opinion leaders, and characteristics of messages that have gone viral. Understanding how
people behave in a group is a great challenge. For this purpose, a data collector has
been created to capture tweets created in seven different themes as well as to serve as
input for the analyzes of influence through different techniques, such as, counting retweets
and mentions, understanding of what features usually present tweets that reach further
spread, creating graphs relating users, followers, tweets and retweets to apply techniques
of complex networks and analysis with data mining using decision tree. The strategy used
was to apply different techniques to compare results and get a model that can predict
when content or user is influential. In all, we collected more than 62 million tweets between
the years 2014 and 2015. Despite the large amount of data, it was not possible to develop
an accurate standard for how a user or content becomes influential, but it was possible
to understand several characteristics that these users are presenting and can be used to
increase the potential for dissemination of specific content.
Keywords: Online social network, data mining, viral marketing, marketing on social
networks, complex networks, tunkrank, big-data.
Lista de ilustrações
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
1
2
3
4
5
6
7
8
9
–
–
–
–
–
–
–
–
–
Figura 10 –
Figura 11 –
Figura 12 –
Figura 13 –
Figura 14 –
Figura 15 –
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
Figura
16
17
18
19
20
21
22
23
24
25
26
27
28
–
–
–
–
–
–
–
–
–
–
–
–
–
Figura 29 –
Exemplo de rede no formato de grafo . . . . . . . . . . . . . . . . . . .
Exemplo de Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . .
Informações do aplicativo criado no Twitter . . . . . . . . . . . . . . .
Exemplo de requisição de dados utilizando Twitter Explorer . . . . . .
Arquitetura para descoberta dos usuários influentes . . . . . . . . . . .
Volume de dados no Neo4J . . . . . . . . . . . . . . . . . . . . . . . .
Pequena amostra do grafo criado . . . . . . . . . . . . . . . . . . . . .
Workflow de Árvore de Decisão no KNIME . . . . . . . . . . . . . . .
Ranking dos 20 usuários mais retuitados e sua audiência referente ao
tema Fórmula 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comparativo dos retuítes para o tema Fórmula 1 . . . . . . . . . . . .
Ranking dos 20 usuários mais mencionados e sua audiência referente ao
tema Fórmula 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comparativo das menções para o tema Fórmula 1 . . . . . . . . . . . .
Ranking dos 20 usuários mais retuitados e sua audiência referente ao
tema Black Friday . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comparativo dos retuítes para o tema Black Friday . . . . . . . . . . .
Ranking dos 20 usuários mais mencionados e sua audiência referente ao
tema Black Friday . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comparativo das menções para o tema Black Friday . . . . . . . . . .
Distribuição Empírica Acumulada de Retuítes (Fórmula 1) . . . . . . .
Distribuição Empírica Acumulada de Retuítes (Black Friday) . . . . .
Distribuição Empírica Acumulada de Menções (Fórmula 1) . . . . . . .
Distribuição Empírica Acumulada de Menções (Black Friday) . . . . .
Comparativo dos retuítes e menções por Distribuições Empíricas Acumuladas entre os temas . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantidade de retuítes por dia da semana . . . . . . . . . . . . . . . .
Quantidade de retuítes por horário . . . . . . . . . . . . . . . . . . . .
Quantidade de retuítes por quantidade de hashtags em um tuíte . . . .
Quantidade de retuítes por quantidade de imagens em um tuíte . . . .
Quantidade de retuítes por quantidade de URLs em um tuíte . . . . .
Quantidade de retuítes por usuários que são verificados pelo Twitter . .
Quantidade de retuítes por quantidade de seguidores que o usuário que
escreveu o tuíte possui . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantidade de retuítes por quantidade de amigos do usuário que escreveu o tuíte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
23
28
28
30
35
35
41
44
44
45
46
47
47
48
49
50
50
50
51
53
55
56
57
57
58
59
60
61
Figura
Figura
Figura
Figura
30
31
32
33
–
–
–
–
Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário
Gráfico de Limiar do tema Copa do Mundo e FIFA . . . . . . . . . . .
Gráfico de Limiar do tema Big Brother Brasil . . . . . . . . . . . . . .
Árvore de decisão gerada no KNIME para predição de tuítes influentes,
por tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 34 – Gráfico de correlação entre as variáveis utilizadas para gerar o modelo
de árvore de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
63
64
65
68
Lista de tabelas
Tabela 1 – Tabela com os temas das coletas, período e quantidade de tuítes coletados
Tabela 2 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema
Copa do Mundo e FIFA . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 3 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema
Big Brother Brasil . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 4 – Tabela com o resultado obtido da aplicação da árvore de decisão nos
temas coletados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
64
65
67
Sumário
1
INTRODUÇÃO
2
2.1
2.2
2.3
2.4
2.5
ESTADO DA ARTE . . . . . . . . . . . . . . . . . . . . . . .
Marketing Viral . . . . . . . . . . . . . . . . . . . . . . . . . . .
Redes Sociais Online . . . . . . . . . . . . . . . . . . . . . . . .
Redes Complexas . . . . . . . . . . . . . . . . . . . . . . . . . .
Análise de Influência em Redes Sociais Online . . . . . . . . .
Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
16
16
17
18
21
23
3
3.1
3.2
3.3
METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Passo 1: Extração de dados do Twitter . . . . . . . . . . . . . . . . .
Passo 2: Análise de influência por contagem de Retuítes e Menções
Passo 3: Análise de influência por métricas de Redes Complexas e
algoritmo TunkRank . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Passo 4: Identificação das características presentes em conteúdos
virais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Passo 5: Análise de comportamentos por algoritmos de mineração
de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
27
29
3.4
3.5
4
4.1
4.2
4.2.1
4.2.2
4.2.3
4.3
4.3.1
4.3.2
4.3.3
4.3.4
4.3.5
4.3.6
4.3.7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Passo 1: Extração de dados do Twitter . . . . . . . . . . . . . . . . .
Passo 2: Análise de influência por contagem de Retuítes e Menções
Análise sobre a Fórmula 1 . . . . . . . . . . . . . . . . . . . . . . . . . .
Análise sobre o Black Friday . . . . . . . . . . . . . . . . . . . . . . . . .
Comparativo dos resultados entre os dois assuntos . . . . . . . . . . . . .
Passo 4: Identificação das características presentes em conteúdos
virais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantidade de retuítes por dia da semana . . . . . . . . . . . . . . . . . .
Quantidade de retuítes por horário . . . . . . . . . . . . . . . . . . . . . .
Quantidade de retuítes por quantidade de hashtags em um tuíte . . . . . .
Quantidade de retuítes por quantidade de imagens em um tuíte . . . . . .
Quantidade de retuítes por quantidade de URLs em um tuíte . . . . . . . .
Quantidade de retuítes por usuários que são verificados pelo Twitter (usuários
oficiais) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantidade de retuítes por quantidade de seguidores que o usuário que
escreveu o tuíte possui . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
35
37
42
42
43
43
46
49
54
54
55
56
56
57
58
59
4.3.8
4.4.2
Quantidade de retuítes por quantidade de amigos do usuário que escreveu o
tuíte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário
Passo 5: Análise de comportamentos por algoritmos de mineração
de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Momento 1: base de dados preliminar . . . . . . . . . . . . . . . . . . .
Copa do Mundo e FIFA . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Big Brother Brasil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Momento 2: base de dados completa . . . . . . . . . . . . . . . . . . . .
5
5.1
5.2
5.3
CONCLUSÕES . . .
Principais resultados
Contribuições . . . .
Trabalhos Futuros .
4.3.9
4.4
4.4.1
4.4.1.1
4.4.1.2
REFERÊNCIAS
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
. 59
. 60
. 61
. 62
. 62
. 64
. 66
.
.
.
.
70
70
71
72
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
13
1 Introdução
As primeiras iniciativas de marketing digital tiveram início no fim da década de 80
com a veiculação de banners nos primeiros serviços de assinatura de internet nos EUA,
denominados banner ad. O Marketing Digital teve seu crescimento na mesma época em
que ocorreu o surgimento de grandes portais da internet e mecanismos de pesquisa, como
AOL1 , Yahoo!2 e MSN3 . Foi quando surgiu o e-mail marketing que, dentro das estratégias
de marketing digital, tem a finalidade de estabelecer ou melhorar o relacionamento com
os clientes, além de estar ligado à chamada consciência de marca. Outra grande inovação
veio em 1998 com a criação de um modelo diferente, dando início à veiculação de anúncios
de texto junto aos resultados naturais de pesquisa.
Atualmente, campanhas de marketing digital são veiculadas por e-mails, mensagens
de texto, mensagens de voz, blogs e redes sociais online, como Facebook4 e Twitter5 . A
estratégia é criar artificialmente uma propaganda boca-a-boca entre os clientes potenciais
(ARTHUR et al., 2009), fazendo com que a marca seja divulgada de forma exponencial a
partir de uma pessoa influente e de confiança, proporcionando aumento de credibilidade
dessa propaganda. Tal estratégia é conhecida por marketing viral.
O investimento realizado em marketing para a disseminação e consistência da
marca é expressivo. Com o surgimento das redes sociais, o marketing digital está cada
vez mais explorando esse meio por ser uma estratégia viável e concentrar um público
notório. Entretanto, é necessário montar uma campanha focada nesse público, com uma
estratégia bem definida, para conseguir a disseminação da mensagem que a marca quer
passar de forma viral. Faz parte dessa estratégia conseguir montar uma campanha que
chame atenção dos usuários formadores de opinião e repliquem-na como um boca-a-boca
online.
Apesar do termo “marketing viral” estar diretamente relacionado à área de Marketing, onde surgiu, o foco desta estratégia não é somente em vendas mas, principalmente,
na difusão de informações e conteúdos de forma exponencial.
Existem várias ferramentas de rede social online sendo utilizadas ao redor do mundo.
As mais utilizadas são Facebook e Twitter. O Facebook é, disparado, a rede social mais
utilizada no mundo e informações da empresa referentes ao primeiro quadrimestre de
20136 apontam que atualmente existem mais de 1 bilhão de usuários em todo o mundo
1
2
3
4
5
6
http://www.aol.com/
http://br.yahoo.com/?p=us
http://www.msn.com/?st=1
http://www.facebook.com/
https://twitter.com/
http://investor.fb.com/releasedetail.cfm?ReleaseID=761090 acessado em 07 de dezembro de 2013.
Capítulo 1. Introdução
14
e mais de 665 milhões de mensagens são trocadas diariamente. Os números apontam
ainda que existem 150 bilhões de conexões entre usuários e houve mais de 1 trilhão de
postagens recomendadas. Em segundo lugar, vem o Twitter, com 904 milhões de usuários
cadastrados7 .
Sendo assim, este projeto busca responder a seguinte pergunta: é possível criar
uma mensagem que atraia o interesse de usuários formadores de opinião em divulgá-la e
provocar um comportamento viral?
Para responder essa questão, este trabalho se propõe a estudar, primeiramente,
a rede social online Twitter, entender como as informações são distribuídas entre os
usuários e identificar quais são os principais responsáveis pela disseminação de conteúdo
em determinados assuntos, baseado nas funcionalidades desta rede social que têm o objetivo
de espalhar informações. São elas: Seguidores, Retuítes e Menções, as quais serão melhor
explicadas na seção Metodologia.
De forma específica, os itens abaixo precisam ser realizados para o cumprimento
do objetivo:
1. Desenvolver um algoritmo que colete informações públicas dos usuários e armazene-as
em um banco de dados.
2. Identificar os usuários mais influentes, ou seja, formadores de opinião.
3. Analisar a amostra para identificação dos padrões de difusão das informações e
entender o comportamento dos usuários mais influentes na rede social.
4. Realizar experimentos para indução de comportamento viral em conteúdos criados
na rede social online.
A coleta das mensagens no Twitter se dá através de requisições HTTP8 , utilizandose do método GET ou POST, e o resultado é obtido no formato JSON9 . Todas as mensagens
possuem: um identificador único (ID), o usuário remetente, indica se é uma replicação ou
uma mensagem original, indica quais outros usuários estão sendo mencionados, dentre
outros metadados.
A conexão criada entre o coletor de dados e o servidor do Twitter fica ativa e as
mensagens (tuítes) são coletadas assim que são enviadas por qualquer usuário que tenha
configurações de privacidade definidas como pública. Para enviar a requisição HTTP e
obter informações é necessário informar o que está sendo pesquisado, através de palavraschave que deverão estar contidas no texto. Neste método de coleta, chamado Streaming,
7
8
9
http://blog.peerreach.com/2013/11/4-ways-how-twitter-can-keep-growing/ acessado em 07 de dezembro de 2013.
Hypertext Transfer Protocol. Documentação disponível em http://www.w3.org/Protocols/
http://www.json.org/
Capítulo 1. Introdução
15
as mensagens enviadas antes de estabelecer a conexão não são coletadas, como pode ser
consultado na documentação da API10 do Twitter. Mais detalhes serão explicados na seção
Metodologia.
O algoritmo de coleta dos dados foi desenvolvido na linguagem Python11 , compilado
e executado em um servidor Linux Ubuntu 12.04. Sua implementação é realizada através da
biblioteca Python-Twitter12 . Esta biblioteca foi escolhida após inúmeros testes com outras
bibliotecas que não se mostraram sólidas, principalmente pela falta de documentação.
Após o período de coleta, esses dados serão tratados e dois rankings serão criados:
1. Quantidade de retuítes por usuário; e
2. Quantidade de menções por usuário.
Com esses rankings em mãos, será possível analisar como as informações são
espalhadas na rede e quais são os principais usuários responsáveis por tal espalhamento/disseminação.
A contagem de Retuítes e Menções é uma das formas de medir quem são os usuários
mais influentes da amostra. Também existem outras métricas para inferir que um usuário
é influente, as quais serão melhor descritas na próxima seção.
Este projeto, além dessa introdução, está dividido em quatro seções onde serão
abordados os objetivos de forma específica e detalhada, são elas: estado da arte, metodologia,
resultados, plano de trabalho e conclusões.
10
11
12
https://dev.twitter.com/docs
http://www.python.org/
https://code.google.com/p/python-twitter/
16
2 Estado da Arte
2.1 Marketing Viral
Com a crescente rejeição dos consumidores às formas tradicionais de anúncios de
publicidade como TV, outdoors, e jornais, os profissionais de marketing vêm cada vez
mais alternando as estratégias de propagandas, incluindo as estratégias de marketing viral
(LESKOVEC; ADAMIC; HUBERMAN, 2007).
Uma das primeiras definições de marketing viral surgiu no boletim informativo do
Nestcape, em 1997, como “rede boca-a-boca aprimorada”. Segundo (JURVETSON, 2000),
a inspiração para o termo “marketing viral” surgiu originalmente a partir do padrão de
anúncio adotado pelo Hotmail1 que conseguiu aumentar sua rede de usuários de forma
exponencial. A estratégia adotada não tem relação com vírus maliciosos tradicionais da
internet. O Hotmail incluiu um campo promocional com um link (URL clicável) em cada
mensagem de e-mail enviada por um usuário de sua rede. Assim, cada cliente torna-se um
vendedor involuntário simplesmente usando o produto. Fazendo uma analogia à medicina,
o objetivo desta técnica é semelhante ao comportamento epidêmico que um vírus possui,
fazendo com que a informação divulgada alcance o maior número de pessoas contidas em
uma rede.
(HILL; PROVOST; VOLINSKY, 2006) define que o termo marketing viral está
relacionado a qualquer estratégia que encoraja indivíduos a transmitir uma mensagem
de marketing para outros, criando o potencial de crescimento exponencial da exposição e
influência da mensagem.
O marketing viral é mais poderoso do que a publicidade de terceiros porque
transmite uma aprovação implícita de um amigo, mesmo sendo claramente delimitado
como um anúncio. Os destinatários de uma mensagem de e-mail do Hotmail aprendem
não só que o produto funciona, mas também que seu amigo é um usuário. Como afirma
(JURVETSON, 2000), um elemento-chave da marca do consumidor é a filiação de uso: eu
quero ser um membro do grupo – composto por meus amigos – que usa este produto?
Recentemente, o marketing viral está sendo vastamente explorado em redes sociais
online, por conta da concentração de usuários e distinção de vários nichos de mercado e
interesses contidos nessas redes.
1
http://www.live.com/
Capítulo 2. Estado da Arte
17
2.2 Redes Sociais Online
Dentre as definições de sites de redes sociais, (ELLISON et al., 2007) define que
são serviços baseados na web que permitem aos indivíduos construir um perfil público ou
semi-público dentro de um sistema limitado; articular uma lista de outros usuários com
quem eles compartilham uma conexão; e ver e percorrer a sua lista de conexões e aquelas
feitas por outros dentro do sistema. A natureza e nomenclatura dessas conexões podem
variar de site para site. Ainda segundo o autor, o que torna uma rede social única não é
o fato de permitir que usuários conheçam estranhos, mas sim o fato de permitir que os
usuários possam se pronunciar e tornar visíveis em suas redes. E isso faz com que usuários
conheçam outros a partir da troca de interesses em comum.
Apesar dos diferentes sites de redes sociais desenvolverem uma grande variedade
de recursos técnicos para aumentar a interatividade na ferramenta, todos os SNSs (Social
Network Sites) tem o princípio de perfis de usuários e sua lista de amigos (conexões) que
são também usuários deste sistema. Perfis são páginas únicas onde o usuário insere uma
introdução / apresentação sobre a sua pessoa.
Para participar de uma SNS, é solicitado ao indivíduo que preencha diversos campos
com informações pessoais e algumas perguntas. O perfil é gerado a partir das respostas a
essas questões e informações pessoais, que normalmente são sua idade, onde vive, interesses
e sua apresentação para os outros usuários. Alguns sites também permitem que se carregue
uma foto pessoal, conteúdos multimídia e a personalização do seu perfil, como a imagem
de plano de fundo. Outros sites, como o Facebook, permitem que os usuários adicionem
módulos (aplicações e jogos) aos seus perfis.
Após estar participando de uma SNS, o usuário deve identificar outros usuários da
rede social os quais possui um relacionamento. A nomenclatura desses relacionamentos
variam de site para site, podendo ser “Amigos”, “Contatos”, “Fãs” e “Seguidores”. A
maioria das SNSs exigem uma confirmação bidirecional para criação do relacionamento de
amizade, entretanto outras não fazem essa exigência. A nomenclatura das conexões criadas
de forma unidirecional são comumente “Fãs” ou “Seguidores”, mas não é uma regra. O
termo “amigos” pode ser enganoso, porque a conexão não significa necessariamente uma
amizade, no termo literal, afinal as razões pelas quais as pessoas se conectam à outras
pessoas são variadas (BOYD, 2006).
Por concentrar quantidade expressiva de informações, existem vários estudos de
mineração de dados em redes sociais online. Tradicionalmente, os modelos construídos
para análise dessas redes são descritivos e não preditivos. Porém, um trabalho muito
relevante pode ser feito para prever o comportamento futuro da rede. Tipicamente, essas
redes possuem dezenas de milhões de nós (usuários), e muitas vezes contêm quantidades
substanciais de informação ao nível dos nós individuais, suficientes para construir modelos
Capítulo 2. Estado da Arte
18
de predição desses indivíduos, conforme (DOMINGOS, 2005).
Neste projeto, a rede social online escolhida para coleta de informações e estudo
dos comportamentos dos usuários foi o Twitter. Informações divulgadas pela empresa,
referente aos dados de outubro de 2013, apontam que atualmente existem mais de 904
milhões de usuários cadastrados, porém apenas 232 milhões são usuários ativos, e um
número em torno de 500 milhões de mensagens são enviadas diariamente na rede2 . Ainda,
24% do total de usuários do Twitter são usuários Norte-Americano e o Brasil ocupa a
quinta colocação com 4,3% deste total, o que corresponde a aproximadamente 10 milhões
de usuários.
No twitter, usuários podem enviar mensagens de até 140 caracteres. São mensagens
curtas e objetivas, muitas vezes com link para o conteúdo citado de forma completa,
principalmente quando o usuário é uma empresa ou agência de notícias. É muito eficiente
para a difusão de informações visto que as mensagens, chamadas tuítes, são exibidas
para todos os seguidores do usuário remetente. A funcionalidade seguir é utilizada por
um usuário A quando este deseja ser informado dos tuítes enviados por um usuário B e
também pode ser utilizada como uma forma de expressar amizade entre duas pessoas.
Outras funcionalidades importantes do Twitter são: retuíte e menção. Quando um
usuário lê um tuíte o qual ele se interessa e deseja que seus seguidores também o vejam, ele
pode retuítar o tuíte de interesse e fazer com que essa mensagem seja espalhada na rede dos
seus seguidores. A menção, por sua vez, é representa pelo comando @usuario_mencionado
e é utilizada quando um usuário A deseja citar um usuário B em seu tuíte. Essas duas
funcionalidades são essenciais para a difusão de informações nesta rede social e serão
analisadas neste trabalho.
É importante mencionar que existe uma política de privacidade no Twitter. O
usuário pode configurá-la para que seus tuítes sejam privados e somente pessoas autorizadas
possam visualizá-los. Outra opção de configuração é a busca através do e-mail do usuário
que pode ser desabilitada. Neste trabalho, somente os tuítes públicos foram coletados para
pesquisa.
2.3 Redes Complexas
Para o claro entendimento da arquitetura de uma rede social online, é necessário
conhecer o que são as redes complexas. (NEWMAN, 2003) afirma que os sistemas no
formato de rede são muito comuns na natureza, por exemplo, a Internet, a World Wide
Web, rede de colaboração de atores em bancos de dados de filmes, sistemas biológicos
como redes neurais ou redes de proteína (STROGATZ, 2001). Portanto, a área de Redes
2
http://www.mediabistro.com/alltwitter/twitter-ipo-filing_b50130 acessado em 09 de dezembro de
2013.
Capítulo 2. Estado da Arte
19
Complexas que analisa redes da natureza é multidisciplinar, podendo estar relacionada à
áreas com foco em gerar conhecimentos qualitativos, ao explicar determinados fenômenos,
ou à áreas que se propõem a fornecer ferramentas quantitativas para o estudo das redes,
oferecendo suporte à validação das conclusões de teorias qualitativas.
A principal ferramenta de estudo das redes complexas é a Teoria dos Grafos, oriunda
da área da Matemática Discreta. (NEWMAN, 2003) define redes como sendo um conjunto
de objetos, que podem ser chamados de vértices e/ou nós, os quais possuem conexões
entre eles, chamadas arestas e estão representadas na figura 1. Do ponto de vista da
arquitetura de uma rede social online, é claramente identificável uma topologia de grafos,
onde os usuários são vértices e as conexões de amizades, compartilhamento de conteúdo e
recomendações são as arestas.
Figura 1 – Exemplo de rede no formato de grafo
A teoria dos grafos surgiu em 1736, na antiga Prússia, hoje Rússia, quando Euler
solucionou o problema das pontes de Königsberg. O problema consistia em sete pontes e
os moradores desta cidade discutiam a possibilidade de atravessar todas elas sem nenhuma
repetição. Euler provou a impossibilidade da teoria através de um grafo (BOCCALETTI
et al., 2006). Ao longo dos anos, a Teoria dos Grafos continuou a ser utilizada para resolver
problemas pequenos, com poucos nós e vértices.
O primeiro modelo de redes complexas surgiu com a proposta dos pesquisadores
Erdös e Rényi, em 1959, baseado em grafos aleatórios. Essa proposta afirmava que as
conexões entre os nós eram estabelecidas de forma aleatória. Este foi o primeiro e muito
importante passo no estudo de modelos de redes complexas. No entanto, essa teoria não se
aplica à realidade das redes reais da natureza conforme foi comprovado por (BARABÁSI;
ALBERT, 1999).
Com o crescimento da Internet e a evolução computacional, foi possível analisar
enormes redes reais e, consequentemente, suas características passaram a ser conhecidas.
Assim, novos modelos de redes complexas surgiram, como o de Rede de Mundo Pequeno,
proposto por (WATTS; STROGATZ, 1998), e o de Redes Sem Escala, proposto por
Barabási e Albert(BARABÁSI; ALBERT, 1999).
Capítulo 2. Estado da Arte
20
As redes sociais são distribuídas de acordo com a lei de potência das redes semescala, que prediz que poucos vértices são altamente conectados, enquanto outros possuem
proporcionalmente um número muito pequeno de arestas. Os vértices altamente conectados,
isto é, nós com mais ligações do que a média, são chamados de “Hubs”. Os hubs representam
um importante papel dentro do estudo da propagação de informação, visto que uma de
suas características é diminuir a distância entre pares de vértices e conectando sub-redes.
As redes que possuem essa característica são denominadas redes sem escala.
A fim de possibilitar a interpretação das leis de potência em redes e grafos que serão
utilizadas neste trabalho, são apresentadas a seguir algumas métricas de redes complexas.
Para um entendimento mais profundo, é recomendado a leitura do trabalho de (NEWMAN,
2003).
• Grau dos Vértices: É a quantidade de relacionamentos (arestas) de um nó (vértice).
Esses relacionamentos podem ser bidirecionados ou direcionados: grau de saída e
grau de entrada.
• Coeficiente de agrupamento (CA): O coeficiente de agrupamento de um vértice
é uma medida que caracteriza agrupamento e possui destaque especial na teoria
das redes complexas. Ele é dado através da probabilidade de se encontrar uma
triangulação em uma tripla de vértices. Isto é, dado que o vértice a está conectado
ao vértice b e c, o CA é a probabilidade de que b esteja conectado a c. O cálculo é
aplicado a todos os vértices adjacentes e o resultado é um valor entre 0 e 1. O CA
de um grafo é a média entre o CA de seus vértices.
• Assortatividade: De acordo com (NEWMAN, 2002), assortatividade é uma medida
típica de redes sociais. Uma rede exibe propriedades assortativas quando vértices com
muitas conexões tendem a se conectar a outros vértices com muitas conexões. Para
caracterizar a assortatividade de uma rede, medimos o grau médio de todos os vizinhos
dos vértices com grau k, dado por knn(k). A assortatividade ou disassortatividade
de uma rede é geralmente estimada avaliando os valores de knn(k) em função de k.
Valores crescentes indicam assortatividade, isto é, vértices com graus maiores tendem
a se conectar a vértices com um número maior de conexões. Valores decrescentes
indicam uma rede disassortativa.
• Betweenness: É uma medida relacionada à centralidade dos vértices ou de arestas
na rede. O betweenness B(e) de uma aresta e é definido como o número de caminhos
mínimos entre todos os pares de vértices em um grafo que passam por e. Se existem
múltiplos caminhos mínimos entre um par de nós, cada caminho recebe um peso de
forma que a soma dos pesos de todos os caminhos seja 1.
Capítulo 2. Estado da Arte
21
2.4 Análise de Influência em Redes Sociais Online
(SUN; TANG, 2013) afirmam que a influência social é a mudança de comportamento
de uma pessoa por causa da relação percebida com outras pessoas, organizações e sociedade
em geral.
Conforme (NEWMAN, 2003), as redes também têm sido estudadas extensivamente
nas ciências sociais. Na década de 1930, sociólogos perceberam a importância dos padrões
de conexão entre as pessoas para compreender como funciona a sociedade humana. Estudos
de redes típicos da sociologia envolvem a circulação de questionários, perguntando aos
entrevistados para detalhar suas interações com os outros. Pode-se então usar as respostas
para reconstruir uma rede na qual os vértices representam os indivíduos e as arestas
representam as interações entre eles. Questões típicas que buscam ser respondidas em
redes sociais são relacionadas à centralidade (quais indivíduos são mais ligados a outros
ou tem mais influência) e conectividade (como os indivíduos estão ligados uns aos outros
através da rede).
O trabalho de (LIU et al., 2012) desenvolveu um modelo para identificação da
topologia da rede formada a partir da amostra coletada no Facebook, modelo este que
parte de duas hipóteses:
1. Usuários com interesses similares possuem forte influência uns sobre os outros.
2. Usuários os quais as ações frequentemente se correlacionam também possuem forte
influência uns sobre os outros.
(LIU et al., 2012) observam que a influência do usuário existe quando tem relações
de similaridade. Em redes reais, a semelhança pode ser calculada com base no conteúdo de
informação associada a cada usuário. Por exemplo, na rede de citação, se o conteúdo do
documento D1 é muito semelhante ao documento D2, podemos considerar que D1 “copia”
várias ideias de D2, assim D1 é muito influenciado por D2.
Ainda, a frequência de recorrência entre usuários é comumente usada para indicar
a força de correlação entre os dois nós, que é indicado pelos pesos das arestas em redes.
Assim, a força de influência entre dois nós seria ampliada por meio da frequente recorrência
entre eles. Por exemplo, se um autor A cita uma série de artigos do autor B, então A deve
ser fortemente influenciado por B. No Twitter, por exemplo, se o usuário A “retuíta” ou
menciona muitas mensagens postadas pelo usuário B, então é muito provável que B tem
uma forte influência sobre A. Com base nestas considerações, (LIU et al., 2012) propõe um
modelo probabilístico gerador capaz de aprender conjuntamente os interesses dos usuários
e a força que existe na influência direta entre os usuários, de forma quantitativa, através
de técnicas de mineração de dados.
Capítulo 2. Estado da Arte
22
(HAND; MANNILA; SMYTH, 2001) descreve o conceito de mineração de dados
(em inglês, data mining) como sendo a análise de um conjunto de dados, frequentemente
um grande conjunto de dados, a fim de identificar relações inesperadas e organizar os dados
de um novo modo, um novo ponto de vista, para que possa ser entendível e utilizável.
O interesse em extrair informações valiosas e não previstas em grandes bases de
dados é crescente. A evolução em tecnologias de armazenamento de dados e na obtenção
de dados digitais resultou em um grande crescimento de bases de dados robustas. Dados de
transações de supermercado, registros de cartões de crédito, detalhes de ligações telefônicas,
estatísticas governamentais, base de dados de moléculas, registros medicinais e base de
dados de redes sociais, são alguns exemplos de áreas que possuem um vasto volume de
dados digitais armazenados.
Muitas técnicas de análise estatísticas utilizam dados que são coletados através de
estratégias eficientes para responder questões específicas. Diferentemente da análise de
mineração de dados que, segundo (HAND; MANNILA; SMYTH, 2001), tem como objetivo
encontrar conexões entre dados em uma coleção de dados independente da estratégia
de como esses dados foram obtidos. Por esta razão, o termo “mineração de dados” é
frequentemente utilizado como uma análise de dados secundária.
Para a análise em um pequeno conjunto de dados, seria necessário apenas discutir
os conceitos clássicos de exploração de dados, já praticados pelos estatísticos. Quando o
analista se depara com um enorme conjunto de dados surgem novos problemas. Alguns
desses problemas estão relacionados a como armazenar os dados e mantê-los acessíveis,
porém outros se referem à questões fundamentais: como determinar a representatividade
dos dados, como analisar os dados em um prazo razoável e como decidir quando uma relação
aparente é meramente uma ocorrência casual e que não reflete a realidade. Normalmente,
a análise dos dados se baseiam na generalização de uma amostra da população. Essas
análises são realizadas, por exemplo, para prever o comportamento futuro de consumidores
ou determinar as propriedades de estruturas de proteínas que ainda não foram descobertas.
Porém, como afirmam (HAND; MANNILA; SMYTH, 2001), muitas informações não
são possíveis de serem identificadas através de abordagens padrões de estatística porque
muitas vezes os dados não são amostras aleatórias, mas sim amostras de conveniência ou
de oportunidade. Muitas vezes os dados são generalizados para facilitar a compreensão do
resultado, por exemplo a análise do censo completo de um país específico ou uma base de
dados com milhões de registros de transações financeiras, porém nem sempre o resultado
obtido da generalização se aplica à toda a base.
As seguintes etapas devem ser realizadas durante o processo de análise de bancos
de dados volumosos: seleção dos dados necessários, pre-processamento dos dados, transformação (se necessário), executar algoritmos de mineração de dados para extrair padrões e
relacionamentos e, em seguida, interpretar e avaliar as estruturas descobertas.
Capítulo 2. Estado da Arte
23
Existem alguns tipos de categorias de análise na mineração que são utilizadas
para extrair informações dos dados selecionados, por exemplo: análise exploratória de
dados (EDA, em inglês), modelo descritivo, modelo de predição: classificação e regressão,
associação, recuperação de conteúdo - comumente utilizada para análise de textos e imagens
(HAND; MANNILA; SMYTH, 2001).
Modelos preditivos tem como objetivo permitir que o analista preveja um valor
desconhecido de uma variável de interesse, a partir dos valores conhecidos e outras variáveis.
Um exemplo pode ser o diagnóstico médico de um paciente a partir dos resultados de uma
série de testes. Outro exemplo é estimar a probabilidade em que um consumidor comprará
o produto A a partir de uma lista de vários produtos que ele já comprou.
Este trabalho está utilizando o modelo de árvore de decisão para classificar e prever
quais tuítes tem tendência a serem influentes. Este método funciona como um fluxograma
em forma de árvore, onde cada nó (não folha) indica um teste feito sobre um valor (por
exemplo, quantidade_de_caracteres > 20). As ligações entre os nós representam os valores
possíveis do teste do nó superior, e as folhas indicam a classe (categoria) a qual o registro
pertence. Dessa forma, uma vez que se tem o modelo definido, basta aplicar novos tuítes
neste fluxo da árvore (mediante os testes nos nós não-folhas) começando no nó raiz até
chegar a uma folha. No entanto, é necessário analisar detalhadamente os dados que serão
colocados como entrada do algoritmo para garantir bons resultados. A figura 2 exemplifica
uma árvore de decisão como um modelo para saber quais clientes são propensos a comprar
um determinado produto (na maior parte das vezes homens entre 20 e 30 anos).
Figura 2 – Exemplo de Árvore de Decisão
2.5 Trabalhos Relacionados
A pesquisa aqui desenvolvida envolve o estudo de diferentes áreas. Foram estudados
trabalhos em redes sociais, marketing, mineração de dados, redes complexas e redes de
recomendações. Essas áreas trabalham com conceitos ou possuem estruturas que permitem
a análise de influência entre usuários, objetivo geral deste trabalho.
Capítulo 2. Estado da Arte
24
Aplicando técnicas de mineração de dados em redes sociais, (DOMINGOS, 2005)
desenvolveu um modelo que permite medir o valor da rede de um cliente. Para cada cliente,
o modelo identifica qual a probabilidade de um cliente comprar algum produto, em função
das propriedades intrínsecas entre o cliente e o produto e da influência de vizinhos do
cliente na rede social. Seu principal interesse é a relação entre o cliente e produtos ao invés
de a propagação da informação por um cliente. (ARTHUR et al., 2009) gerou modelos
estatísticos com o objetivo de elaborar estratégias de vendas e aumentar a probabilidade
de receita de uma empresa. Sua estratégia baseia-se na exploração e influência em redes
sociais cruzando informações de geração de receita a partir de cada usuário da rede. Seu
modelo oferta um produto gratuitamente e analisa a influência gerada a partir desta venda
gratuita posteriormente no processo. Não é analisado o comportamento dos usuários, mas
sim, a relação de receita de um produto antes e depois de informações obtidas na rede.
(NEWMAN, 2005) e (BORGATTI; EVERETT, 2006) analisaram redes complexas
baseada em sua centralidade. (BORGATTI; EVERETT, 2006) desenvolveu um framework
para medir centralidade durante análises de redes sociais. (NEWMAN, 2005) utilizou a
métrica de intermediação (betweenness) e afirma que que esta métrica é, de certa forma,
uma medida de influência que um nó possui sobre a disseminação de informações através
da rede. A variação do método proposto por este autor é que seu algoritmo não considera
somente os caminhos mais curtos, mas sim todos os caminhos que envolvem os vértices e
seus relacionamentos. Na presente pesquisa, somente algumas métricas de redes complexas
serão utilizadas, não explorando o assunto como um todo.
Além de estudar métricas de redes complexas, também se fez necessário o estudo
de trabalhos em redes de recomendação para conhecer as técnicas utilizadas. (TOGNERI,
2013) estudou a importância das localidades geográficas na difusão online de informação,
fornecendo, dentre as principais contribuições, uma metodologia para análise de recomendações através da localidade das pessoas. (MINHANO, 2010) teve como objetivo e
principais contribuições a caracterização do comportamento dos usuários de uma rede
de recomendações, a demonstração da sobreposição de perfis dos usuários nas redes de
recomendações e social online e a demonstração empírica das relações sociais que são
invisíveis aos profissionais de marketing no momento de criação de suas campanhas em
uma base de dados com, aproximadamente, 21 milhões de usuários e 80 milhões de relações
entre eles.
Utilizando técnicas de mineração de dados, o estudo de (JUNIOR, 2014) analisou
redes de computadores e Redes Definidas por Software, a fim de prever os fluxos de
pacotes e instalar, com antecipação, esses fluxos nos switches para minimizar as consultas
enviadas por um switch ao controlador, autorizando a comunicação antes da chegada do
primeiro pacote e aumentando a eficiência nessa comunicação. Essas técnicas podem ser
manipuladas e aproveitadas na pesquisa por redes de influência.
Capítulo 2. Estado da Arte
25
Para estudos de influência em redes sociais, (KIMURA et al., 2010) pesquisou
uma solução para otimizar a busca combinatória por usuários influentes em redes sociais
de larga escala, dado que essa análise necessita grandes processamentos computacionais.
Utilizando-se de redes reais de larga escala, como redes de blogs, aplicou seu método e
obteve melhor performance do que métodos convencionais. Diferentemente da presente
pesquisa, o autor não faz coleta em redes sociais online.
(KWAK et al., 2010) estudaram influência na rede social Twitter. Compararam
três diferentes medidas de influência - número de seguidores, o ranking de mensagens da
página dos usuários (page-rank), e número de retuítes - descobrindo que o ranking dos
usuários mais influentes é diferente dependendo da métrica utilizada. (WENG et al., 2010)
comparou o número de seguidores e o page-rank com uma medida de page-rank modificada
que representaram os tópicos, e também descobriu que a classificação depende da medida
de influência utilizada.
(CHA et al., 2010) tem como objetivo analisar a rede social Twitter como meio de
difusão de notícias e estudou os tipos e graus de influência na rede. Para tal analise, criou
ranking de usuários mais influentes a partir das métricas de retuíte e menções e comparou
a força de associação entre as métricas utilizando a teoria de “Spearman’s rank correlation
coefficient”. O presente trabalho se diferencia deste porque não fez cruzamentos entre os
tópicos para encontrar usuários em comum e analisar sua influência desta forma e também
não se limitou à análise de informações por somente notícias. Já o artigo de (BAKSHY et
al., 2011), se diferencia do trabalho de (CHA et al., 2010) e deste trabalho principalmente
por fazer análise de influência somente dos tuítes que continham links (URL). Seu objetivo
não era identificar a influência dos usuários, mas sim o espalhamento de links externos
pela rede do Twitter.
(GABIELKOV; RAO; LEGOUT, 2014) afirma ter coletado todo o grafo social do
Twitter, somando 505 milhões de usuários conectados através de 23 bilhões relacionamentos.
Os autores também afirmam que esta é a maior e mais completa coleta realizada no Twitter.
Segundo (GABIELKOV; RAO; LEGOUT, 2014), a propagação da informação é uma
combinação de dois fenômenos. O primeiro fenômeno é que o conteúdo da mensagem
enviada na rede social irá determinar sua probabilidade de ser retransmitida. O segundo,
é que a estrutura do grafo social irá restringir a propagação das mensagens. O artigo foca
no segundo fenômeno, ou seja, como a estrutura do grafo social do Twitter restringe a
propagação de informações.
A pesquisa de (GABIELKOV; RAO; LEGOUT, 2014) se difere desta pesquisa
porque se baseia em identificar grupos de usuários que não estão mais utilizando a rede,
grupos de usuários que fazem spam e grupos de usuários regulares. Identificou também que
os registros do Twitter no ano de 2009 não representam mais a atual estrutura do grafo e
exploram a evolução temporal para entender as diferenças de utilização do Twitter desde sua
Capítulo 2. Estado da Arte
26
criação. (MEEDER et al., 2011) examinou um grafo formado por, aproximadamente, 1.800
celebridades do Twitter e 862 milhões de relacionamentos e concluiu que a representação
da estrutura do grafo e seu crescimento sofre influência direta de eventos do mundo real e
mudanças na interface do Twitter para recomendação de usuários.
(BRODER et al., 2000), por sua vez, faz um estudo analisando a Web como
uma rede de grafo. Os vértices desse grafo são as páginas estáticas e os relacionamentos
são os links que cada página faz referenciando outra página Web. Dentre as análises
realizadas faz parte a visão da estrutura macroscópica que serviu de base para o trabalho
de (GABIELKOV; RAO; LEGOUT, 2014). Suas principais contribuições foram: elaboração
de estratégias para coletar dados na web, entender o comportamento da criação de conteúdo
web, predição da evolução das estruturas Web. Este trabalho se assemelha a esta pesquisa
por tratar os dados coletados como grafos, no entanto seu objetivo não é analisar influência
de usuários e sua base de dados é composta por páginas Web e não pela rede social Twitter.
Baseado em dados coletados do Twitter, (SHARMA et al., 2012) focou, em seu
estudo, na análise semântica de metadados coletados, como nome e descrição dos usuários.
Seu objetivo foi fornecer uma base para construção de melhores serviços de busca e
recomendação no Twitter. Utilizou a métrica da quantidade de seguidores do usuário para
criar um ranking dos usuários mais influentes e especialistas em um determinado tema.
Relacionado a este trabalho, (WENG et al., 2010) e (PAL; COUNTS, 2011) utilizaram
características extraídas do grafo do Twitter e dos tuítes postados pelos usuários para
identificar se um usuário está relacionado a um determinado tópico.
As pesquisas citadas nesta seção serviram de base para os estudos de influência em
redes sociais online. Diferentes áreas pesquisando em torno do mesmo tema permite uma
análise macro do problema. Sendo assim, este trabalho pôde aproveitar algumas técnicas
de cada área específica.
27
3 Metodologia
Para o cumprimento do objetivo deste trabalho, a metodologia desenvolvida compreende os seguintes passos:
1. Extração de dados do Twitter
2. Análise de influência por contagem de Retuítes e Menções
3. Análise de influência por métricas de Redes Complexas e algoritmo TunkRank
4. Identificação das características presentes em conteúdos virais
5. Análise de comportamentos por algoritmos de mineração de dados
3.1 Passo 1: Extração de dados do Twitter
O primeiro passo é a extração de dados do Twitter. A extração será feita através
do protocolo HTTP, o qual fará requisições de dados ao servidor do Twitter e terá como
resultado um conjunto de dados no formato JSON.
Entretanto, o Twitter exige que seja enviado na requisição uma chave de acesso e
uma chave secreta. Para obtenção dessas duas chaves, é necessário o registro de um novo
aplicativo por seu usuário da rede social1 . A figura 3 exibe as informações do aplicativo
criado.
O Twitter disponibiliza uma ferramenta própria para desenvolvedores executarem
requisições HTTP e analisarem a estrutura de dados retornada, denominada Twitter
Explorer2 , e é nesta ferramenta também que é possível gerar a chave de acesso para
requisições próprias. Os usuários do Twitter definem as permissões de visibilidade dos seus
dados pessoais, informa se o aplicativo pode ler os tuítes da sua linha do tempo, informa
se o aplicativo pode visualizar seus seguidores e a quem você segue, atualizações do seu
perfil e tuítes postados pelo usuário. Os níveis de visibilidade de uma informação pode
ser: público, somente pessoas autorizadas pelo usuário ou privadas. Se a permissão for
pública, significa que qualquer usuário do Twitter pode visualizá-la. Sabendo disso, apenas
os tuítes definidos como públicos serão coletados nesse trabalho para análise. A figura 4
demonstra o resultado de uma requisição de dados da linha do tempo do usuário “Davi
Zanotto” utilizando o Twitter Explorer. Note que a coluna “Request” exibe a requisição
HTTP dos dados e a coluna “Response” exibe os dados retornados, no formato JSON:
1
2
https://dev.twitter.com/apps/new
https://dev.twitter.com/console
Capítulo 3. Metodologia
28
Figura 3 – Informações do aplicativo criado no Twitter
Figura 4 – Exemplo de requisição de dados utilizando Twitter Explorer
Entretanto, esta ferramenta é muito limitada no sentido de consultar e extrair
dados, pois é necessário a intervenção do analista para informar o ID de usuário que se
deseja consultar e as informações retornadas precisam ser analisadas manualmente.
Por esta razão, foi desenvolvido um algoritmo que faz as requisições HTTP e
armazena os dados em arquivos. Este algoritmo, desenvolvido na linguagem Python, utiliza
Capítulo 3. Metodologia
29
a biblioteca Python-Twitter que é responsável por encapsular os métodos HTTP da API
do Twitter. Utilizando esta biblioteca, não é necessário que o programador desenvolva
requisições GET ou POST, ao invés disso, o programador utilizará métodos já existentes
dessa biblioteca para consultar os dados. Por exemplo, o programador não precisará enviar
a requisição HTTP da forma como no exemplo da figura 4. A requisição será realizada
apenas com a chamada do método pythonT witter.userT imeline().
Para coleta de dados no Twitter, existem duas APIs com diferentes objetivos:
1. REST API: tem como objetivo consultar dados de histórico dos usuários, como
tuítes enviados, dados pessoais, seguidores, dentre outras informações de histórico
dos usuários.
2. Streaming API: seu objetivo é criar uma conexão ativa com o servidor do Twitter
e, utilizando um filtro de palavras-chave, coletar todos os tuítes enviados desde a
criação dessa conexão que contenham essas palavras. Nesse caso, apenas os tuítes
enviados a partir da hora em que foi estabelecida a conexão serão coletados.
Para o cumprimento do objetivo deste trabalho, a Streaming API é a mais indicada
porque será possível fazer coleta em tempo real de assuntos específicos, dados as palavraschave.
3.2 Passo 2: Análise de influência por contagem de Retuítes e Menções
Uma vez que já é possível coletar os dados na rede, em tempo real, é necessário
definir métricas para avaliar a influência dos usuários. Baseado no trabalho de (CHA et
al., 2010), os seguintes dados serão utilizadas:
• Quantidade de seguidores;
• Quantidade de retuítes;
• Quantidade de menções.
(CHA et al., 2010) e (BAKSHY et al., 2011) afirmam que a quantidade de seguidores
representam a audiência de determinado usuário. Isto porque, no Twitter, quando um
usuário envia um tuíte, todos os seus seguidores irão receber essa mensagem. Então,
teoricamente, quanto maior a quantidade de seguidores de um usuário, maior será o
espalhamento de determinado conteúdo.
Capítulo 3. Metodologia
30
A segunda métrica definida, quantidade de retuítes, segundo (CHA et al., 2010),
representa o valor do conteúdo de um tuíte. Quando um usuário lê um tuíte e se identifica
com este conteúdo, ele tende a retuíta-lo para que os seus seguidores também vejam este
mesmo tuíte. Esta funcionalidade é muito poderosa porque é a responsável pela difusão
exponencial de conteúdos na rede. É importante citar que esta funcionalidade tem mais
poder de difusão de conteúdo do que simplesmente a funcionalidade de seguidores. Ou
seja, se um tuíte é enviado por um usuário que possui 100 seguidores, 100 pessoas poderão
ver este tuíte; entretanto, se esse tuíte for retuitado por 1 pessoa que tem 1.000 seguidores,
mais mil pessoas poderão ver este tuíte.
A quantidade de menções representa o valor de nome de determinado usuário(CHA
et al., 2010), ou seja, o poder de engajamento de determinado usuário perante os outros.
Pessoas públicas e celebridades costumam ser muito mais mencionados do que pessoas
comuns.
Baseado nesses estudos, a figura 5 exibe a arquitetura construída neste trabalho
para coleta, tratamento e análise dos dados:
Figura 5 – Arquitetura para descoberta dos usuários influentes
Esta arquitetura identifica as etapas necessárias para o identificação dos usuários
mais influentes. Entretanto, ela pode ser dividida em dois momentos:
1. Coleta dos dados
2. Tratamento e análise
Para a coleta dos dados, será utilizada a Streaming API do Twitter, descrita
anteriormente. Todos os tuítes que forem coletados deverão ser armazenados em um
arquivo de saída do algoritmo desenvolvido neste projeto. Apesar de todos os campos
recebidos do Twitter serem armazenados, os campos utilizados nessa metodologia serão:
identificador único do tuíte, data e hora de criação, mensagem, usuário que criou o tuíte,
Capítulo 3. Metodologia
31
usuários retuitados (se houver), usuários mencionados (se houver) para cada tuíte coletado.
Dessa forma, foi possível diminuir o tamanho do arquivo em 10 vezes comparado ao
tamanho total de cada JSON do tuíte. Esse processo de coleta pode durar horas, dias,
meses, dependendo apenas da estratégia definida pelo analista.
O segundo momento é o tratamento e análise dos dados. Uma vez que milhares de
tuítes foram coletados e armazenados em arquivo, é necessário a criação de um algoritmo
para tratamento desses dados. Esse tratamento deverá ler os dados e organizá-los em
rankings de quantidade de retuítes por usuários e quantidade de menções por usuário.
A audiência de um usuário (seguidores) será realizada manualmente em um processo
externo. Para isso, um algoritmo foi desenvolvido, também em Python, com este objetivo.
Os rankings de retuítes e menções foram gravados em arquivos diferentes e os dados no
formato CSV, em que as colunas são separadas por ponto-e-vírgula. Isto porque facilita a
análise em um editor de planilhas, como o OpenCalc ou Excel.
No entanto, a contagem de retuítes e menções são métricas que indicam somente
quais usuários são influentes na amostra coletada. Se utilizando somente dessas métricas,
não é possível saber o porquê que este usuário é influente e, ainda, se ele realmente é
influente ou se algum outro usuário, o verdadeiro formador de opinião, foi o responsável
por difundir seu conteúdo através de retuítes.
Sendo assim, outras duas métricas deverão ser utilizadas para validar a métrica de
contagem, são elas:
1. Métricas de Redes Complexas
2. Fórmula de Tunk Rank
3.3 Passo 3: Análise de influência por métricas de Redes Complexas
e algoritmo TunkRank
As métricas de centralidade de redes complexas serão implementada para auxiliar
o entendimento de influência dos usuários no Twitter. O objetivo é ranquear os usuários de
acordo com a centralidade destes, onde serão analisadas: centralidade de grau, betweenness,
closeness e autovetor (semelhante ao PageRank).
Para aplicar as métricas citadas, a amostra coletada do Twitter será inserida em
um banco de dados de grafos, que faz parte da malha de bancos de dados NoSQL (Not
Only SQL) que vêm sendo vastamente utilizada recentemente em projetos de Big Data
(CHANG et al., 2008). Existem outros tipos de bancos de dados, além de grafos, como
por exemplo: bancos de dados chave/valor e bancos de dados orientados a documentos.
Por conta da estrutura das redes sociais online, o banco de dados de grafos faz a melhor
Capítulo 3. Metodologia
32
representação dos dados, onde cada usuário é um vértice e seus relacionamentos são as
arestas, conforme já foi explicado anteriormente.
A grande vantagem de implantar um banco de dados de grafos nesse projeto ocorre
porque ele já possui, em sua biblioteca nativa, vários algoritmos de redes complexas
implementados. Sendo assim, basta usar a API e chamar seus métodos de betweenness,
closeness, menor caminho, dentre outros.
Outra opção existente para validar a influência de um usuário é a implementação de
um algoritmo recursivo chamado Tunk Rank. Esta função matemática pode ser representada
por:
Inf luence(X) =
(1 + p ∗ Inf luence(Y ))
||F ollowing(Y )||
Y ∈F ollowers(X)
X
(3.1)
(3.2)
Onde:
• Inf luence(X) é o número esperado de usuários que irão ler um tuíte escrito e
postado pelo usuário X, incluindo os retuítes. Para simplificar, o autor assumiu que
se uma pessoa ler a mesma mensagem mais de uma vez (por causa dos retuítes),
ambas as leituras serão contadas.
• Se X é seguidor de Y , então existe uma probabilidade de 1/||F ollowing(X)|| de que
X lerá o tuíte postado por Y , onde F ollowing(X) é o conjunto de pessoas que X
segue no Twitter. Isso porque todos os tuítes postados por cada um dos usuários
que X segue, aparece em sua timeline.
• Se X leu o tuíte de Y , então existe uma probabilidade constante p de que X irá
retuítar esta mensagem.
Claramente, esta fórmula matemática é simplista em suas hipóteses, porém é
possível se obter bons resultados quanto à influência de cada usuário. Sua recursividade
termina quando o usuário Y não segue outro usuário, retornando 0.
Se fez necessário adaptar a fórmula sugerida por Daniel Tunkelang para utilização
neste trabalho, porque ela exige que se tenha toda a rede de usuários e seus seguidores
até o fim, o que não é viável porque o Twitter não disponibiliza esses dados em tempo
hábil. Dessa forma, decidiu-se inserir no banco de dados de grafos todos os usuários
que escreveram tuítes coletados via Streaming API, seus seguidores e os seguidores dos
seguidores. Ou seja, serão inseridos três níveis na hierarquia de seguidores de um usuário.
Essa coleta dos seguidores se dará por largura e não por profundidade.
Capítulo 3. Metodologia
33
Outra adaptação necessária é a realização de experimentos para o valor de p da
fórmula, visto que a probabilidade de que um usuário retuíte um tuíte não é fixa. Sendo
assim, é sugerido que p seja:
1. Igual para todos os usuários, calculado a partir da média de retuítes na amostra
(somando todos os retuítes);
2. Individual para cada usuário X, calculado a partir da média de retuítes desse usuário
na amostra;
3. Para cada dupla de usuários X e Y, calculado a partir da probabilidade de um
usuário Y retuitar um usuário X baseado na amostra.
Para validação da influência de um usuário, tanto com algoritmos de redes complexas
quanto com o algoritmo recursivo TunkRank, será necessário a inserção dos seguidores
de cada usuário da amostra. Para tal, será necessário utilizar a REST API do Twitter se
utilizando do método user_lookup.
O banco de dados de grafos escolhido para este trabalho foi o Neo4J, por ser o
mais consolidado do mercado atualmente. Será utilizada a versão Community, visto que
também existe a versão Enterprise que é paga, executando na versão 2.0.1 em um servidor
simples, com processador QuadCore, 8GB de memória RAM e 1TB de disco rígido.
Em comum entre as técnicas de redes complexas e do algoritmo TunkRank, é
necessário a inserção dos seguidores de cada usuário coletado. Contudo, a inserção de
seguidores é muito custosa, visto que é necessário enviar uma requisição ao Twitter,
utilizando a REST API, a cada 20 seguidores de 1 usuário da amostra. Por dia, é possível
inserir, em média, 10 milhões de seguidores no banco. Alguns usuários, por si só, possuem
mais que 10 milhões de seguidores.
Então, para criação do grafo no Neo4J foi escolhida a seguinte estratégia:
• De toda a amostra coletada, escolher um tema e extrair somente 1 milhão de tuítes;
• Inserir no Neo4J os 1 milhão de tuítes e os usuários que escreveram e retuitaram cada
tuíte, que também tem na amostra, com o relacionamento “Wrote” e “Retweeted”;
• Capturar para cada um dos usuários inseridos no Neo4J, seus seguidores via REST
API junto ao Twitter;
• Inserir os seguidores no Neo4J com o relacionamento “Followed”;
• Após algumas semanas de inserção, notou-se a inviabilidade da inserção dos seguidores
de todos os usuários. Sendo assim, a estratégia foi alterada para inserir 2 níveis de
seguidores dos 30 usuários que tiveram maior contagem de retuítes.
Capítulo 3. Metodologia
34
Foi construído então um grafo direcionado e muito volumoso. A figura 6 exibe
a tela de administração do Neo4J e seu volume. Este BD possui aproximadamente 33
milhões de vértices e 42 milhões de arestas. Já a figura 7 exibe uma pequena amostra real
da estrutura do grafo gerado neste projeto. A estrutura do grafo possui dois tipos de nós
(vértices):
• User
• Tweet
e três tipos de relacionamentos (arestas):
• Wrote: usuário que escreveu o tuíte;
• Retweeted: usuários que retuitaram um tuíte;
• Followed: usuários que seguem outros usuários no Twitter.
Dentre as propriedades de cada usuário que é armazenado no Neo4J, as seguintes
propriedades estão sendo inseridas:
• id: identificador único de cada usuário, gerado pelo Twitter;
• name: nome do usuário exibido em seu perfil;
• screen_name: nome único, que também serve de identificador de um usuário;
• created_at: data e hora de criação do perfil;
• location: local onde vive o usuário;
• friends_count: quantidade total de usuários que este perfil segue;
• followers_count: quantidade total de usuários que seguem este perfil;
• statuses_count: quantidade total de tuítes criados por este usuário;
• listed_count: quantidade total de listas que o usuário está inserido, listas estas
criadas por outros usuários
• favourites_count: quantidade total de usuários que “favoritaram” este perfil
• verified: indicador para saber se é um perfil real, muito útil quando o perfil é de
uma celebridade, visto que é possível criar perfis falsos de pessoas famosas.
Capítulo 3. Metodologia
35
Figura 6 – Volume de dados no Neo4J
Figura 7 – Pequena amostra do grafo criado
Não foi possível realizar os experimentos com medidas de redes complexas e com o
algoritmo TunkRank porque a inserção de usuários e seus seguidores dentro do grafo não
foi finalizada. A reconstrução da rede social Twitter é muito custosa e lenta, então estes
testes passaram a fazer parte da estratégia de trabalhos futuros.
3.4 Passo 4: Identificação das características presentes em conteúdos virais
Durante pesquisas sobre as características existentes em conteúdos virais, foi possível
observar que existem estudos apontando qual o melhor dia para escrever um tuíte, qual o
melhor horário, quantos caracteres o tuíte deve possuir, dentre outras características. O
pesquisador Dan Zarella publicou um infográfico em seu blog3 analisando as características
3
http://danzarrella.com/infographic-how-to-get-more-clicks-on-twitter.html
Capítulo 3. Metodologia
36
de influência em relação à taxa de cliques (CTR - em inglês) que os usuários realizam em
URLs dentro dos tuítes. A métrica da taxa de cliques é utilizada para descobrir a proporção
da frequência com que as pessoas que visualizam um anúncio clicam nele. Algumas das
características exibidas no infográfico, são:
• Os tuítes que possuem entre 120 e 130 caracteres são os que possuem maior CTR;
• Os tuítes postados entre a sexta-feira e domingo possuem maior CTR do que tuítes
postados no resto da semana;
• Os tuítes postados durante o final da tarde de um dia possuem maior CTR do que
tuítes postados pela manhã ou madrugada.
Seguindo esse raciocínio, este passo da metodologia tem o objetivo de identificar as
características que podem ser utilizadas para compreender o comportamento dos usuários
e dos tuítes na amostra coletada neste trabalho. Através de histogramas será possível
entender em quais ocasiões as interações entre os usuários ocorrem. Sabendo-se que as
interações entre os usuários são realizadas através de tuítes, retuítes, menções, hashtags,
dentre outras funcionalidades fornecidas pelo Twitter, estudar o momento em que estas
mais ocorrem pode fornecer uma visão macro (estatística) da amostra, o que irá auxiliar a
elaboração de estratégias para criar mensagens mais atrativas a um determinado público.
Por exemplo, se neste passo for possível perceber que os tuítes escritos em uma quinta-feira,
entre as 20 horas e 23 horas, são relativamente mais retuitados que os tuítes criados nos
outros dias e outros horários, provavelmente será uma melhor estratégia criar o conteúdo
neste período quando se tem o objetivo de alcançar o maior número de usuários neste
tema.
Vários cenários podem ser analisados através dos histogramas. A princípio, foram
definidos os seguintes cenários:
1. Quantidade de retuítes por dia da semana;
2. Quantidade de retuítes por horário;
3. Quantidade de retuítes por quantidade de hashtags em um tuíte;
4. Quantidade de retuítes por quantidade de imagens em um tuíte;
5. Quantidade de retuítes por quantidade de URLs em um tuíte;
6. Quantidade de retuítes por usuários que são verificados pelo Twitter (usuários
oficiais);
7. Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu o
tuíte possui;
Capítulo 3. Metodologia
37
8. Quantidade de retuítes por quantidade de amigos do usuário que escreveu o tuíte;
9. Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário;
Para gerar os gráficos dos cenários acima, será utilizada a mesma base de dados
descrita com mais detalhes no passo 5, a seguir. O objetivo dessa base de dados é registrar
os tuítes de forma sumarizada, ou seja, é feito um levantamento dos tuítes coletados em
JSON, seus metadados são agrupados e sumarizados de acordo com os retuítes de um
tuíte origem e, por fim, são inseridos no banco de dados. Dessa forma, é possível fazer o
cruzamento das variáveis necessárias para os cenários citados anteriormente.
Uma vez realizada a consulta SQL à base de dados e obtendo os resultados exigido
no cenário, por exemplo: para o cenário 1 é necessário agrupar os tuítes escritos em cada
dia da semana (segunda-feira, terça-feira, etc, até domingo) e somar a quantidade de
retuítes recebidos, o resultado é exportado em um arquivo CSV que pode ser visualizado
em softwares de planilha eletrônica para manipulação e criação dos gráficos, de acordo
com a necessidade.
Através da análise desses gráficos, acredita-se que é possível entender melhor a
amostra de tuítes coletada e elaborar estratégias mais embasadas quando se desejar criar
conteúdo que gere impacto de difusão na rede.
3.5 Passo 5: Análise de comportamentos por algoritmos de mineração de dados
Uma outra forma de conhecer os usuários mais influentes da amostra é conhecer o
comportamento dos usuários no Twitter e das mensagens que estes costumam propagar
na rede. Estes comportamentos envolvem: quais tipos de mensagens e temas costumam
escrever, quantos caracteres costumam utilizar, qual horário o usuário costuma estar ativo
na rede, utiliza-se de imagens e/ou links em suas mensagens, dentre outras características.
O passo anterior dessa metodologia realiza o levantamento de algumas informações
deste tipo através de histogramas e permite a análise empírica da distribuição dos retuítes.
O grande diferencial deste passo é que, através de algumas técnicas de mineração de
dados, um modelo é gerado baseado em todas as variáveis que forem elencadas para serem
analisadas, ou seja, é possível analisar uma quantidade maior de cenários, a correlação
entre as variáveis e a quantidade de retuítes e o tempo exigido para esse esforço é
consideravelmente menor do que a análise via histogramas. O processador do servidor é o
responsável pela análise e não o pesquisador de forma empírica.
Como já foi citado, é essencial o entendimento desse comportamentos, mesmo que de
forma qualitativa, para que seja possível provocar o comportamento viral de um conteúdo,
Capítulo 3. Metodologia
38
que é o objetivo principal deste trabalho, como foi citado na introdução. Isto porque,
se existir uma fórmula com bom percentual de acerto e baixo valor de falsos-positivo é
essencial que o tuíte criado neste trabalho seja aprovado pelo modelo de previsão de tuíte
influente.
Milhões de dados serão analisados para cada tema escolhido. Desta forma, a técnica
de mineração de dados chamada árvore de decisão será aplicada em um banco de dados
relacional modelado somente para este fim. Para modelagem e execução dos algoritmos,
será utilizada a ferramenta KNIME4 .
Pretende-se, então, descobrir quais são as variáveis e valores relevantes para elaboração de um conteúdo com comportamento viral e descobrir como atingir os usuários
influentes, visto que estes serão os responsáveis pela disseminação do conteúdo em largaescala e, ainda, descobrir quais são as características dos tuítes que foram influentes.
Deverão ser realizados diversos experimentos, variando temas, tipos de escrita e textos,
horários, dentre outras variáveis.
O software KNIME Analytics Platform é gratuito e disponível para fins de pesquisa,
ou seja, sem foco comercial. Neste trabalho, denomina-se modelo o fato de ler dados de
determinado repositório, tratá-los e aplicar técnicas de mineração de dados, a fim de
gerar uma espécie de “fórmula” que prevê o resultado da variável resposta selecionada
pelo usuário. Nesta metodologia, a variável resposta será os tuítes considerados influentes,
definidos a partir da quantidade de retuítes recebido. Ou seja, quanto maior a quantidade
de retuítes que um tuíte receber, mais influente este é e, consequentemente, mais influente
é o usuário que o escreveu.
Ou seja, o objetivo deste passo é: gerar um modelo que preveja quando um tuíte
será influente baseado nas suas características / comportamento.
Para criação de um modelo no KNIME, o usuário deve criar um workflow, ou seja,
um fluxo que deverá ser seguido na execução do modelo. Para criação deste fluxo, o usuário
arrasta componentes para sua área de trabalho. Existem dezenas de componentes com
diferentes funções que são aplicadas desde a leitura de um repositório (arquivo, base de
dados, conexão HTTP), tratamento dos dados, aplicação de algoritmos de mineração de
dados (como a árvore de decisão que será utilizada neste trabalho) até a gravação da saída
do resultado e do modelo gerado.
Sabendo-se que o primeiro passo para criação do modelo é a leitura de um repositório
com os dados que serão utilizados para treino da árvore de decisão e para predição dos
dados, foi criado uma tabela no banco de dados MySQL 5. Esta tabela possui somente
os campos que possuem potencial para serem processados na mineração dos dados, a fim
de ganhar performance neste processamento. Logo, a tabela foi criada com a seguinte
4
http://www.knime.org/
Capítulo 3. Metodologia
39
estrutura:
CREATE TABLE ‘msc_analise_tuíte‘ (
‘id‘ int(11) NOT NULL AUTO_INCREMENT,
‘id_str‘ varchar(255) DEFAULT NULL,
‘total_rw‘ int(11) DEFAULT NULL,
‘text‘ varchar(200) DEFAULT NULL,
‘text_count‘ int(11) DEFAULT NULL,
‘source‘ varchar(200) DEFAULT NULL,
‘qtde_hashtags‘ int(11) DEFAULT NULL,
‘qtde_urls‘ int(11) DEFAULT NULL,
‘qtde_photo‘ int(11) DEFAULT NULL,
‘qtde_mentions‘ int(11) DEFAULT NULL,
‘created_at‘ varchar(80) DEFAULT NULL,
‘dia_created_at‘ int(11) DEFAULT NULL,
‘mes_created_at‘ int(11) DEFAULT NULL,
‘ano_created_at‘ int(11) DEFAULT NULL,
‘horario‘ varchar(50) DEFAULT NULL,
‘dia_semana‘ varchar(50) DEFAULT NULL,
‘user_created_at‘ varchar(50) DEFAULT NULL,
‘user_dia_created_at‘ int(11) DEFAULT NULL,
‘user_mes_created_at‘ int(11) DEFAULT NULL,
‘user_ano_created_at‘ int(11) DEFAULT NULL,
‘user_qtde_seguidores‘ int(11) DEFAULT NULL,
‘user_qtde_seguindo‘ int(11) DEFAULT NULL,
‘user_qtde_tuítes‘ int(11) DEFAULT NULL,
‘user_qtde_screen_name‘ int(11) DEFAULT NULL,
‘user_qtde_desc‘ int(11) DEFAULT NULL,
‘user_tem_desc‘ varchar(50) DEFAULT NULL,
‘user_tem_url‘ varchar(50) DEFAULT NULL,
‘user_tem_verified‘ varchar(50) DEFAULT NULL,
PRIMARY KEY (‘id‘),
UNIQUE KEY ‘id_str‘ (‘id_str‘)
Como pode-se verificar, as colunas da tabela já são de valores sumarizados, para
não ter que realizar a sumarização no momento de execução da criação do modelo de
predição. A variável resposta é a total_rw que é a quantidade total de vezes que este tuíte
(identificado por id_str) foi retuitado. A abreviação ‘qtde’ refere-se ao termo ‘quantidade’;
‘desc’ refere-se à ‘descrição’; ‘user’ refere-se às variáveis relacionadas ao usuário que escreveu
o tuíte.
Capítulo 3. Metodologia
40
Para criar o modelo de árvore de decisão é necessário realizar algumas etapas:
1. Entrada de dados: A entrada de dados deve ser realizada a partir de um algoritmo
em Python que irá ler os tuítes coletados em JSON e gravar os valores sumarizados
por tuíte na base de dados exibida acima.
2. Seleção das colunas / variáveis (comportamentos do tuíte) que serão utilizadas
para predição do resultado da variável resposta (total de retuítes): As variáveis
utilizadas são as colunas da tabela. Sendo assim, não fizeram parte do modelo de predição as seguintes variáveis: id, id_str, text, created_at, horario, user_created_at
e user_tem_verif ied. Com exceção da variável user_tem_verif ied, obviamente
essas variáveis foram retiradas do processo do modelo porque não servem para
tomada de decisão alguma, visto que são variáveis do tipo texto e com muita variação de valores. A variável de data de criação foi utilizada de forma separada em
dias, meses e ano (colunas específicas para cada uma). A variável horário não foi
dividida em hora e minuto e por isso não serve para este momento. Porém, a variável
user_tem_verif ied indica se o usuário é aquele personagem na vida real. É muito
utilizado para validar se pessoas públicas ou famosas são elas na vida real ou se
alguém criou um perfil fake (fantasma). Afinal, qualquer pessoa pode criar uma
conta no Twitter dizendo ser o Bill Gates, por exemplo. No entanto, o verdadeiro Bill
Gates com certeza é aquele único usuário que possui a variável user_tem_verif ied
como verdadeira.
Intuitivamente, a variável user_tem_verif ied aparentava ter muita relação com
a influência de um usuário, visto que parte do princípio que este já é uma pessoa
muito conhecida no mundo real. No entanto, constatou-se que ela fazia com que o
modelo errasse muito. Isso significa que esta variável não tem forte relação com a
influência de um tuíte. Um usuário que não é reconhecido no mundo real, não é uma
pessoa pública, consegue sim escrever um tuíte viral. Por esta razão, essa variável foi
retirada do modelo.
3. Definir o Limiar: Neste caso, o valor de corte é uma quantidade de retuítes que
indique que os tuítes alcançaram a característica viral, ou seja, influente. Para
definição de um valor de corte que indicará se um tuíte é ou não influente, baseado
na quantidade total de retuítes, é necessário identificar qual o valor que corresponde
ao início de uma curva com aumento exponencial de retuítes na amostra. Esta valor
será o separador dos tuítes que tem quantidade de retuítes comumente encontrada
na amostra (abaixo do limiar), dos tuítes que estão sendo excessivamente retuitados
(igual ou acima do limiar). Assim, cria-se a variável resposta com valores 0, quando
o tuíte não é influente, ou 1, quando o tuíte é influente.
Capítulo 3. Metodologia
41
4. Equalização da amostra: Neste caso, como a variável resposta varia entre 0 (nãoinfluente) e 1 (influente), é necessário que a amostra utilizada para treinamento do
modelo de árvore de decisão seja composto por 50% de cada tipo. Caso contrário, o
modelo será treinando de forma tendenciosa, podendo gerar uma predição ineficaz e
inconsistente;
5. Deve-se definir uma parte da amostra já equalizada para treinamento do modelo. A
outra parte será a aplicação para testar a assertividade do modelo criado. Por exemplo,
70% da base para treinamento do modelo e criação da árvore de decisão e os outros
30% para aplicação deste modelo. Ao término da execução, será gerada a matriz de
confusão informando a assertividade do modelo e exibindo também a quantidade de
falsos-positivos, falsos-negativos, verdadeiros-positivos e verdadeiros-negativos.
O workflow da figura 8 trata todos os passos citados acima e deverá ser utilizado
para cada um dos cinco temas coletados, retratados na tabela 1.
Figura 8 – Workflow de Árvore de Decisão no KNIME
Por fim, uma vez criada a árvore de decisão, ou seja, o modelo final, este deve ser
exportado para aplicação nos novos tuítes recém coletados para predição de influência.
Isto porque o modelo já foi treinado. O workflow na figura 8 possui dois componentes
de “Decision Tree Predictor”. O que está mais acima da imagem está sendo usado para o
treinamento e exportação do modelo. Já o componente da parte de baixo, está usando o
modelo exportado anteriormente, não passando mais por treino.
Assim, será possível aplicar o modelo em novos tuítes que estão sendo coletados e
prever se estes serão influentes. Se o modelo afirmar que o tuíte possui os comportamentos
comuns aos tuítes influentes, estes devem ser acompanhados dia-a-dia para validar se está
obtendo muitos retuítes e se irá ultrapassar o valor definido como Limiar.
42
4 Resultados
Neste capítulo são descritos os resultados obtidos de acordo com os passos explanados na metodologia elaborada para esta pesquisa.
4.1 Passo 1: Extração de dados do Twitter
Baseado na metodologia apresentada na seção anterior, o primeiro passo a ser
executado é a coleta dos dados na rede social Twitter. Como citado na seção Metodologia,
para realizar a coleta de dados no Twitter utilizando a Streaming API, é necessário
determinar palavras-chave que devem estar contidas nos tuítes. Caso estejam contidas,
esses tuítes serão coletados. Diferente de outras atividades, a coleta dos dados pode ocorrer
de forma paralela, ou seja, por ser um robô que fica coletando os dados, a coleta não
precisa parar. A fim de testar o algoritmo de coleta de dados, desenvolvido em Python,
primeiramente foram realizadas coletas experimentais de dois temas distintos, por nove
dias. Em seguida, o algoritmo passou a fazer coletas que continuam executando até o
presente momento e irá continuar até o fim deste projeto.
Sendo assim, o primeiro experimento coletou dados sobre o tema “Fórmula 1”,
uma corrida automobilística que tem grande audiência ao redor do mundo, e o segundo
tema escolhido foi o “Black Friday”, um evento que ocorre poucas vezes ao ano e que é
caracterizado por grandes descontos em produtos. Também tem um alcance mundial, visto
que vários países, incluindo o Brasil, aderiram a este evento. Ao todo, aproximadamente 3
milhões de tuítes foram coletados durante os nove dias, ocorridos entre os dias 22/11/2013
e 01/12/2013. Mais adiante será explicado o resultado da análise dessas duas coletas.
Dado o sucesso da coleta experimental, a coleta de tuítes de outros cinco temas
ocorreram entre os dias 03/02/2014 e 13/01/2015. Como pode ser visto na tabela 1 de
forma detalhada, foram coletados ao todo aproximadamente 62.140.000 tuítes.
Tabela 1 – Tabela com os temas das coletas, período e quantidade de tuítes coletados
Tema
Início da coleta
Fórmula 1
22/11/2013
Black Friday
29/11/2013
Copa do Mundo e FIFA
03/02/2014
Dilma Rousseff
03/02/2014
SuperBowl
03/02/2014
Big Brother Brasil
11/02/2014
Eleições
10/03/2014
Término da coleta
26/11/2013
01/12/2013
13/01/2015
13/01/2015
13/01/2015
13/01/2015
13/01/2015
Total coletado
204.041
2.639.109
41.070.000
4.940.000
3.940.000
10.350.000
1.840.000
Capítulo 4. Resultados
43
O próximo passo é a análise de influência dos usuários cujo tuítes foram coletados,
baseado em sua audiência, na contagem dos retuítes e na contagem das menções.
4.2 Passo 2: Análise de influência por contagem de Retuítes e Menções
Para facilitar a exibição dos resultados obtidos, esta seção abordará os assuntos na
seguinte ordem: análise sobre a Fórmula 1, análise sobre o Black Friday, um comparativo
dos resultados entre os dois assuntos e uma discussão sobre os resultados dos cinco temas
presentes na tabela 1.
4.2.1 Análise sobre a Fórmula 1
O tema “Fórmula 1” foi escolhido porque, na época da coleta, era uma corrida
especial: marcou a última corrida da temporada atual, foi a última corrida de um dos
grandes pilotos (Mark Webber) que se aposentou e foi a corrida de despedida do brasileiro
Felipe Massa da equipe Ferrari.
A coleta ocorreu entre os dias 22/11/2013 e 26/11/2013 e 204.041 tuítes foram
coletados, utilizando as seguintes palavras-chave como entrada da Streaming API:
0
f ormula10 ,0 interlagos0 ,0 #F 10 ,0 #BrazilianGrandP rix0 ,0 #F ormulaOne0
Seguindo a metodologia, esses tuítes foram separadas em dois outros arquivos, com
o ranking de retuítes por usuário e menções por usuário.
A primeira análise consistiu em observar os 20 usuários mais retuitados (top 20)
da amostra. Percebeu-se que os primeiros usuários são responsáveis por grande parte dos
conteúdos mais retuitados, como mostra o gráfico 9. Este gráfico também evidencia que a
audiência do usuário que envia o tuíte não tem relação direta com a propagação deste. É
possível verificar usuários com grande audiência e menos retuítes do que outros.
Um fator curioso é a diferença de retuítes entre o usuário mais retuitado (top 1) e
o 20o usuário, o usuário a3formula1 possui aproximadamente 4.000 retuítes e o usuário
andyhone possui pouco menos de 1.000 retuítes. E essa quantidade tende a ser linear no
gráfico para o restante dos usuários.
Por outra perspectiva, é possível verificar, nas figuras 10a e 10b, a utilização da
funcionalidade retuíte e o impacto que o TOP 20 usuários mais retuitados tem perante
os outros. É possível observar que, de todos os tuítes coletados nessa amostra, 42% são
retuítes. Isso indica que a rede social Twitter é significativamente importante para a difusão
de conteúdo, visto que muitos usuários fazem questão de enviar para seus seguidores um
Capítulo 4. Resultados
44
Figura 9 – Ranking dos 20 usuários mais retuitados e sua audiência referente ao tema
Fórmula 1
(a) Participação de retuítes na
amostra total de tuítes
(b) Representação dos 20 usuários mais
retuitados em comparação com os
tuítes de todos os outros usuários
da amostra
Figura 10 – Comparativo dos retuítes para o tema Fórmula 1
conteúdo que eles acharam interessante, um conteúdo de valor. Os outros 58% são tuítes
originais e não repetidos. Também é possível observar que a soma da quantidade de
retuítes dos 20 usuários mais retuitados representa 31% de todos os retuítes da amostra,
que contém 9.653 usuários.
Dessa forma, foi possível identificar os usuários que são responsáveis pela maior
parte da difusão de conteúdo na rede, representada pela métrica quantidade de Retuíte.
Analisando a métrica Menções, os mesmos gráficos foram gerados para facilitar a
comparação entre as duas funcionalidades (retuítes e menções).
Como pode ser analisado na figura 11, a hipótese de (CHA et al., 2010) com
relação às menções – que são mais utilizadas para usuários que causam engajamento,
como celebridades – também é verdadeira neste trabalho. Os três primeiros usuários mais
mencionados são, respectivamente: Mark Webber, Fernando Alonso e Felipe Massa, três
Capítulo 4. Resultados
45
pilotos que disputavam esta corrida. Mark Webber foi o usuário mais mencionado da
amostra, apesar de não ter a maior audiência (representada em logaritmo de 10 na figura
11) indicando, novamente, que a audiência quando analisada de forma isolada, não tem
grande significado neste projeto.
Figura 11 – Ranking dos 20 usuários mais mencionados e sua audiência referente ao tema
Fórmula 1
Assim como o gráfico do TOP 20 usuários mais retuitados, este gráfico de menções
também tem uma tendência linear após o vigésimo usuário, em que a quantidade de
menções vai reduzindo pouco a pouco.
Está métrica não representa a difusão do conteúdo na rede, entretanto, identifica
os usuários que causam engajamento sobre determinado assunto e isso pode ser utilizado
estrategicamente para este objetivo. Do ponto de vista de marketing, por exemplo, é
possível comprovar que é mais valioso patrocinar o piloto Mark Webber do que o Grojean,
pois o Mark Webber é o centro das atenções. Porém, para validar esse exemplo, é importante
também analisar o conteúdo da mensagem que estão mencionando este piloto para saber
se são mensagens positivas ou negativas, o que foge do escopo deste projeto.
Novamente, analisando por outra perspectiva, é possível verificar o comportamento
da funcionalidade de menções no Twitter. A figura 12a mostra que de todos os tuítes
coletados, apenas 25% contém menção. A grande maioria dos tuítes não fazem menção
à outro usuário, um comportamento diferente comparado à funcionalidade retuíte que
representa quase a metade da amostra.
A figura 12b exibe a participação dos 20 usuários mais mencionados perante todos
os outros usuários mencionados e é possível observar que quase metade das menções
realizadas nessa amostra (43%) foram para estes usuários. Os outros 57% das menções
que ocorreram estão divididas para 9.600 usuários.
Com esses dados, foi possível identificar os usuários mais importantes do processo
Capítulo 4. Resultados
(a) Participação de menções na
amostra total de tuítes
46
(b) Representação dos 20 usuários mais
mencionados em comparação com
a quantidade de menções de todos
os outros usuários da amostra
Figura 12 – Comparativo das menções para o tema Fórmula 1
de difusão de conteúdo relacionado ao tema Fórmula 1. Foi possível verificar que poucos
usuários são responsáveis por grande espalhamento das informações e que a audiência dos
usuários não é uma métrica que deve ser analisada de forma isolada, pois não revela muita
coisa. Também foi possível identificar quais usuários causam maior engajamento na rede,
através do ranking de menções por usuário.
4.2.2 Análise sobre o Black Friday
Assim como na análise do tema Fórmula 1, os mesmos gráficos foram gerados
para análise do tema Black Friday. Sobre este tema, o período de coleta se deu entre os
dias 29/11/2013 e 01/12/2013. O dia 29 foi exatamente a sexta-feira das promoções por
vários países do mundo, o que caracterizou este tema como algum dos principais assuntos
tuíteados no dia, denominado trend topics.
Dessa forma, foram coletados 2.639.109 tuítes neste pequeno intervalo, utilizando
as palavras-chave:
0
blackf riday 0 ;0 blackf riday 0 ;0 blackf raude0 ;0 blackf ridaybrasil0 ;0 blackf raude0
O ponto de partida da análise se deu, novamente, em analisar a quantidade de
retuítes por usuário. A figura 13 exibe um gráfico com as métricas quantidade de retuítes e
quantidade de seguidores (audiência). Assim como na análise do tema Fórmula 1, é possível
perceber que os primeiros usuários são responsáveis por grande parte dos conteúdos mais
retuitados e a audiência do usuário não tem relação direta com a quantidade de retuítes.
O gráfico exibe a audência dos usuários em milhões.
Capítulo 4. Resultados
47
Figura 13 – Ranking dos 20 usuários mais retuitados e sua audiência referente ao tema
Black Friday
(a) Participação de retuítes na
amostra total de tuítes
(b) Representação dos 20 usuários
mais retuitados em comparação com os tuítes de todos os
outros usuários da amostra
Figura 14 – Comparativo dos retuítes para o tema Black Friday
Constatou-se também que a maioria dos usuários mais retuitados são blogs de
notícias, comédias e usuários comuns. Provando novamente que nesta funcionalidade, o
valor está no conteúdo enviado na rede e não em quem está enviando.
A quantidade de retuítes dessa amostra representa 46% dos dados coletados, ou seja,
apenas 54% dos tuítes coletados são únicos. Um valor muito parecido com a amostra do
tema Fórmula 1 e é exibido num gráfico de pizza da figura 14a. Entretanto, no tema Black
Friday os 20 usuários mais retuitados possuem menos participação quando comparado com
todos os outros 261.089 usuários que também tiveram pelo menos um retuíte, representando
13% do total, como é exibido na figura 14b.
Dessa forma, foi possível identificar os usuários que são responsáveis pela maior
parte da difusão de conteúdo sobre Black Friday na rede, representada pela métrica
Capítulo 4. Resultados
48
quantidade de Retuíte.
Analisando a métrica Menções, os mesmo gráficos foram gerados para facilitar a
comparação entre as duas funcionalidades (retuítes e menções) e também com o tema
Fórmula 1.
O gráfico dos 20 usuários mais mencionados é um pouco diferente deste mesmo
gráfico quando o tema é Fórmula 1. É possível verificar na figura 15 que a distribuição
das menções é mais equilibrada, não deixando que o primeiro usuário seja muito mais
mencionado que o segundo usuário e assim sucessivamente. Entretanto a diferença da
quantidade de menções do usuários mencionado comparado ao vigésimo usuário é alta,
mais de 80%.
Figura 15 – Ranking dos 20 usuários mais mencionados e sua audiência referente ao tema
Black Friday
Novamente, os usuários mais mencionados são pessoas públicas e celebridades. Neste
caso, este trabalho está tratando perfis de marcas de empresas como pessoas públicas, por
conta do tema escolhido, como é o caso das empresas Etsy, Walmart, Amazon, Ebay. Isto
porque como este assunto está diretamente ligado à descontos, as empresas que oferecem
os descontos são as grandes responsáveis pelo engajamento deste tema.
A audiência dos usuários está exibida em logaritmo de base 10 e é possível notar
que, novamente, não há relação direta entre a quantidade de menções de um usuário com
sua audiência.
Analisando a perspectiva de participação das menções em tuítes e das 20 pessoas
mais mencionadas perante os outros usuários mencionados, a figura 16 é exibida.
A figura 16a comprova que novamente a quantidade de menções realizadas nos
tuítes são baixas. Apenas 13% dos tuítes contêm menções a outros usuários. Dentre esses
13%, a quantidade de menções dos 20 usuários mais mencionados representam 22% de
todas menções, como é exibido na figura 14b. Os outros 78% das menções realizadas estão
Capítulo 4. Resultados
(a) Participação de menções na amostra
total de tuítes
49
(b) Representação dos 20 usuários
mais mencionados em comparação com a quantidade de
menções de todos os outros
usuários da amostra
Figura 16 – Comparativo das menções para o tema Black Friday
divididas entre 57.614 usuários.
Com esses dados, foi possível identificar os usuários mais importantes do processo
de difusão de conteúdo relacionado ao tema Black Friday. Assim como no tema Fórmula 1,
observou-se que poucos usuários são responsáveis por grande espalhamento das informações
e que a audiência dos usuários não é uma métrica que deve ser analisada de forma isolada.
Também foi possível identificar quais usuários causam maior engajamento na rede, através
do ranking de menções por usuário e esses usuários, em maioria, são empresas e marcas de
vendas e e-commerce, comum para este tema que trata de descontos e vendas.
4.2.3 Comparativo dos resultados entre os dois assuntos
A fim de comparar a relação dos retuítes e menções entre os dois temas, foram
gerados gráficos de distribuição empírica acumulada. Esse gráfico revelou a relação custobenefício no que se trata lidar com poucos usuários e gerar grande espalhamento de
conteúdo na rede. Como pode ser observado na figura 17 e na figura 18, 10% de todos os
usuários da amostra são responsáveis por mais de 80% da quantidade de retuítes no tema
fórmula 1. Já no tema Black Friday, para alcançar os mesmo 80% de retuítes total da
amostra, é necessário analisar 20% dos usuários mais retuitados. Essa diferença indica que
o tema fórmula 1 é mais restrito do que o tema black friday, ou seja, proporcionalmente
mais usuários gerando conteúdo de valor no tema black friday do que no tema fórmula 1.
Essa relação também pode ser verificada quando analisado às menções nos dois
temas, nas figuras 19 e 20. Apesar de 5% dos usuários mais mencionados representarem um
pouco mais de todos os retuítes da Fórmula 1 comparado ao Black Friday, essa diferença
equaliza quando analisados 10% dos usuários em ambos os temas. Ou seja, a funcionalidade
Capítulo 4. Resultados
50
de menções tem comportamento parecido em ambos os temas.
Figura 17 – Distribuição Empírica Acumulada de Retuítes (Fórmula 1)
Figura 18 – Distribuição Empírica Acumulada de Retuítes (Black Friday)
Figura 19 – Distribuição Empírica Acumulada de Menções (Fórmula 1)
Visto que é comum que as redes sociais reais possuam a característica de distribuição
em leis de potência, onde o grau dos vértices é muito desigual, o resultado obtido não é de
se surpreender, mas sim, uma comprovação da distribuição de conteúdo no Twitter.
Capítulo 4. Resultados
51
Figura 20 – Distribuição Empírica Acumulada de Menções (Black Friday)
Baseado neste princípio, aplicamos o mesmo experimento em mais cinco temas
coletados, durante o período de junho de 2014: Copa do Mundo e FIFA, Dilma Rouseff,
SuperBowl, Big Brother Brasil e Eleições. Novamente, os resultados são semelhantes.
Do ponto de vista da coleta dos dados, como citado anteriormente, é necessário
definir palavras-chave que representem o assunto escolhido. Para isto, foram realizadas
análises de várias hashtags e palavras-chave específicas, de forma empírica, observando o
quê e como os usuários do Twitter se relacionam sobre determinado tema. Segue abaixo
uma lista das palavras-chave e hashtags definidas para cada tema:
• Copa do Mundo e FIFA: ’WorldCup’, ’Fifa’, ’Copa do mundo’ , ’Copa2014’, ’CopaDoMundo’, ’Brazil2014’, ’Brasil2014’
• Dilma Rouseff: ’Dilma’, ’Rousseff’
• SuperBowl: ’#SuperBowl’, ’Super Bowl’
• Big Brother Brasil: ’bbb’, ’bbb14’, ’bbb 14’, ’ficaAline’, ’ficaAlisson’, ’ficaAmanda’,
’ficaAngela’, ’ficaBella’, ’ficaCassio’, ’ficaClara’, ’ficaDiego’, ’ficaFranciele’, ’ficaFran’, ’ficaJunior’, ’ficaLeticia’, ’ficaMarcelo’, ’ficaPrincy’, ’ficaRodrigo’, ’ficaRoni’,
’ficaTatiele’, ’ficaPoly’, ’ficaVagner’, ’ficaValter’, ’ficaSlim’, ’ficaVanessa’, ’foraAline’, ’foraAlisson’, ’foraAmanda’, ’foraAngela’, ’foraBella’, ’foraCassio’, ’foraClara’,
’foraDiego’, ’foraFranciele’, ’foraFran’, ’foraJunior’, ’foraLeticia’, ’foraMarcelo’, ’foraPrincy’, ’foraRodrigo’, ’foraRoni’, ’foraTatiele’, ’foraPoly’, ’foraVagner’, ’foraValter’,
’foraSlim’, ’foraVanessa’, ’clanessa’, ’#FranGo’, ’AlineExpulsa’, ’ancelo’
• Eleições: ’Eleicoes’, ’Eleições’, ’Eleições2014’, ’Eleicoes2014’
Como pode-se observar, existem muito mais palavras-chave para o tema Big Brother
Brasil do que para os outros temas. Isso ocorreu porque este tema está relacionado a
uma espécie de jogo, um Reality Show, que é transmitido na TV, onde o público deve
Capítulo 4. Resultados
52
escolher qual participante irá sair do jogo e, quando tiver somente três participantes,
o público deverá escolher o vencedor. Isso através de votos no site da Globo1 . Durante
a observação dos relacionamentos sobre este tema, observou-se a criação de times no
Twitter, torcendo para cada participante do Reality Show e esses times criaram as hashtags
“ficaPARTICIPANTE” e “foraPARTICIPANTE”, onde PARTICIPANTE representa uma
pessoa no Reality Show.
Contudo, do ponto de vista de espalhamento de conteúdo por tema, não há novidade.
Alguns temas são mais concentrados em poucos usuários do que outros. As figuras 21a até
21j exibem a Distribuição Empírica Acumulada (DEA) de como ocorre a concentração de
retuítes e menções sobre cada um dos temas.
Como se pode observar nos gráficos de Distribuição de Frequência Acumulada dos
cinco temas, é possível observar que a ação de retuítes está mais concentradas em menos
pessoas do que se for verificadas as menções. Ou seja, é mais difícil ser um usuário muito
retuitado do que um usuário muito mencionado. Uma hipótese é a de que a quantidade de
usuários que geram conteúdo de relevância dentro da rede social Twitter, consequentemente
são mais retuitados, é muito limitada. Primeiro, é preciso ser um pensador; segundo, é
necessário estar sempre atualizado; terceiro, é necessário estar gerando conteúdo com alta
frequência no Twitter. Enquanto que as menções são distribuídas às celebridades e pessoas
famosas que estão relacionadas a cada tema, uma quantidade bem maior visto que essa
fama e respeito são obtidos através de outros esforços e não da interatividade dentro do
Twitter. Normalmente estes esforços estão relacionados às profissões dos usuários.
Também é possível observar que o tema Big Brother Brasil possui a maior concentração de menções do que os outros temas, onde 10% dos usuários mencionados já
representam, aproximadamente, 90% do total de menções da amostra, seguido dos temas:
Dilma Rousseff, Copa do Mundo e FIFA, SuperBowl e Eleições.
O tema Eleições é o tema onde as menções de retuítes estão mais espalhados. No
entanto, menos de 200.000 tuítes haviam sido coletados deste tema até junho de 2014, o
que significa que ainda são poucos dados coletados para criar-se qualquer hipótese.
Do ponto de vista de retuítes, os temas mais com difusão de conteúdo mais
concentrados em poucos usuários, em ordem, foram: Big Brother Brasil, Copa do Mundo
e FIFA, Dilma Rousseff, SuperBowl e Eleições. Como citado, houve uma troca de posições
entre o tema Dilma Rousseff e Copa do Mundo e FIFA ao comparar menções e retuítes.
Isso significa que, existem mais celebridades relacionadas ao tema Dilma Rousseff do que
ao tema Copa do Mundo e FIFA no Twitter. No entanto, a concentração de usuários
gerando conteúdos relevantes é maior no tema Copa do Mundo e FIFA.
Esses dados são muito importantes para tomar decisões a respeito de como lidar
1
http://www.globo.com/
Capítulo 4. Resultados
53
(a) DEA das menções (Copa do Mundo e FIFA) (b) DEA dos retuítes (Copa do Mundo e FIFA)
(c) DEA das menções (Dilma Rousseff)
(d) DEA dos retuítes (Dilma Rousseff)
(e) DEA das menções (Superbowl)
(f) DEA dos retuítes (Superbowl)
(g) DEA das menções (Big Brother Brasil)
(h) DEA dos retuítes (Big Brother Brasil)
(i) DEA das menções (Eleições)
(j) DEA dos retuítes (Eleições)
Figura 21 – Comparativo dos retuítes e menções por Distribuições Empíricas Acumuladas
entre os temas
Capítulo 4. Resultados
54
com cada tema que será utilizado no experimento de viralização proposital de conteúdo.
Fica evidente que cada tema deve ser estudado antes de ser realizado um experimento,
visto que possuem características e quantidade de usuários relevantes diferentes.
Com esse estudo de contagem, foi possível conhecer os usuários que possuíram maior
destaque na amostra, seja por retuíte ou por menção. Entretanto, não é possível afirmar
com certeza que estes são usuários influentes na rede porque é possível que o verdadeiro
usuário influente tenha retuitado um usuário comum, fazendo com que o conteúdo se
tornasse viral. Para responder essa e outras dúvidas, se faz necessário a utilização das
métricas de redes complexas e do algoritmo TunkRank.
4.3 Passo 4: Identificação das características presentes em conteúdos virais
Os gráficos gerados para análise do comportamento da amostra foram realizados
com duas visões. A primeira visão é com valores absolutos, ou seja, independente da
quantidade de tuítes escritos, foram somados todos os retuítes da amostra e distribuído os
percentuais de participação de cada grupo. Já a segunda visão, é demonstrada de forma
relativa, ou seja, o maior ponto no gráfico considera a quantidade de retuítes dividido pela
quantidade de tuítes existentes em seu grupo. Com essas duas visões é possível entender
melhor a amostra e tomar decisões mais embasadas.
Os dados foram extraídos de uma base de dados que contempla o tema “Fifa e
Copa do Mundo”, no período de março à junho de 2014. A estrutura da base de dados é
a mesma descrita no Passo 5 da metodologia, visto que a base foi utilizada tanto para
gerar os histogramas, quanto para o estudo de mineração de dados. Esta amostra possui
exatamente 1.623.882 tuítes e a soma de todos os retuítes recebidos equivale a 11.396.006
ao todo.
Após analisar todos os histogramas, percebeu-se que não é possível tomar decisões
baseado apenas na informação gerada pelos gráficos, porém é um bom começo para
investigar os cenários que uma amostra possui. A junção de várias informações desse tipo
é que pode gerar estratégias mais embasadas para entender como ocorre a difusão das
informações de um determinado tema.
Sendo assim, seguem os resultados obtidos de cada cenário descrito na metodologia
do passo 4.
4.3.1 Quantidade de retuítes por dia da semana
A figura 22 exibe um gráfico em que foi analisado a quantidade de retuítes por dia
da semana. Verificando o eixo de percentual absoluto dos retuítes, é possível perceber que
Capítulo 4. Resultados
55
os dias em que ocorreram mais retuítes, comparando toda a amostra, foram a quarta e
quinta-feira com mais de 18% de todos os retuítes em cada dia.
Essa visão nos permite assumir que muitos retuítes ocorrem nesses dias, no entanto
não analisamos quantos tuítes são escritos. Para comprar a quantidade de tuítes escritos e
a quantidade de retuítes que ocorreram, deve-se analisar o eixo do percentual relativo.
De acordo com o percentual relativo de retuítes, verifica-se que a quinta-feira
e a segunda-feira são os dias em que mais ocorrem retuítes por tuíte. Analisando a
segunda-feira, especificamente, pode-se perceber que não e um dia em que ocorrem muitos
retuítes ao todo (percentual absoluto), porém, apesar de ocorrer menos retuítes nesse dia,
os conteúdos criados na segunda-feira são mais retuitados do que os tuítes criados na
quarta-feira.
Finalmente, podemos afirmar que os tuítes criados na quinta e segunda-feira tendem
a ser mais retuitados, no entanto, a maioria dos retuítes ocorrem entre quarta e quinta-feira.
Figura 22 – Quantidade de retuítes por dia da semana
4.3.2 Quantidade de retuítes por horário
Analisando o gráfico da figura 23, é possível perceber que a maioria dos retuítes
desta amostra ocorrem durante o período noturno. No entanto, os tuítes criados durante
o período da tarde são os mais retuitados, de acordo com o eixo de percentual relativo.
Nota-se também que, apesar de ocorrer poucos retuítes durante a manhã, os tuítes criados
nesse horário são muito retuitados. O horário da madrugada, por sua vez, indica que os
tuítes criados neste período tem menos chance de ser retuitados.
Capítulo 4. Resultados
56
Figura 23 – Quantidade de retuítes por horário
4.3.3 Quantidade de retuítes por quantidade de hashtags em um tuíte
O gráfico desta seção compara a quantidade de retuítes com a quantidade de
hashtags utilizada na mensagem. Como já foi explicado anteriormente, as hashtags são
muito utilizadas categorizar as mensagens e não tem limite de quantidade em um tuíte. O
limite é o do próprio tuíte (255 caracteres).
A figura 24 exibe um gráfico separando os tuítes com nenhuma até cinco hashtags
ou mais do que seis.
Os tuítes escritos sem a utilização de hashtags (valor 0) concentra a maior parte
de retuítes de toda a amostra. Contudo, o curioso é o pico do percentual relativo ocorre
quando um tuíte possui 4 hashtags, indicando que os tuítes que possuem 4 hashtags em
sua mensagem são os tuítes mais retuitados de toda a amostra. Ou seja, é possível assumir
que, para este tema, é mais interessante criar um conteúdo e colocar 4 hashtags quando o
objetivo for disseminar este conteúdo.
Um estudo mais concentrado em hashtags se faz necessário para melhor definir
a estratégia de disseminação, visto que o fato de descobrir que 4 hashtags e o melhor
número não significa puramente que será alcançado maior espalhamento da informação. É
necessário descobrir quais são essas hashtags que geraram este resultado.
4.3.4 Quantidade de retuítes por quantidade de imagens em um tuíte
Ao comparar a distribuição de retuítes por quantidade de imagens inseridas em um
tuíte, percebe-se que aproximadamente 60% ocorrem em tuítes que não possuem imagens
anexadas, como pode ser visto na figura 25. No entanto, analisando a curva do percentual
Capítulo 4. Resultados
57
Figura 24 – Quantidade de retuítes por quantidade de hashtags em um tuíte
relativo, percebe-se que os tuítes criados com 1 imagem anexada possui mais chances de
ser retuitados do que os que não possuem imagens. Os tuítes que possuem 2 imagens
anexadas possuem também ótimas chances de serem retuitados, obtendo 1400% de retuítes
comparado a quantidade de tuítes escritos desta forma.
Figura 25 – Quantidade de retuítes por quantidade de imagens em um tuíte
4.3.5 Quantidade de retuítes por quantidade de URLs em um tuíte
O gráfico exibido na figura 26, exibe que, semelhante à comparação de retuítes por
hashtags, os tuítes criados sem utilização de URLs (links) são os mais retuitados da amostra
coletada. Contudo, para criar uma estratégia de disseminação de conteúdo, o gráfico indica
que os tuítes que possuem 4 URLs tendem a ser mais retuitados. É interessante perceber
Capítulo 4. Resultados
58
que a quantidade de 4 URLs é um pico da quantidade de retuítes, já os tuítes que possuem
5 URLs anexadas são os que tendem a ser menos retuitados do que qualquer outro.
É importante relatar que não existe um limite de URLs que pode ser utilizadas em
um tuíte, assim como o caso explicado das hashtags. Porém, é incomum a utilização de
mais do que 5 URLs, por isso estas foram ignoradas da análise.
Figura 26 – Quantidade de retuítes por quantidade de URLs em um tuíte
4.3.6 Quantidade de retuítes por usuários que são verificados pelo Twitter
(usuários oficiais)
O objetivo deste gráfico é comparar a quantidade de retuítes com a classificação
de verified que o Twitter possui. Como já foi explicado anteriormente, essa classificação
existe para garantir que uma pessoa ou personagem é o perfil verdadeiro desta mesma
pessoal / personagem do mundo real, visto que é comum a criação de perfis falsos para
atrair pessoas com diferentes objetivos.
Desta forma, foi classificado como “Não” os perfis que não possuem verificação
do Twitter e como “Sim” os perfis que possuem a verificação e garantia de serem perfis
verdadeiros.
Pode-se afirmar, de acordo com o gráfico da figura 27, que os tuítes criados por
perfis verificados tendem a ser mais retuitados do que os perfis que não foram verificados.
A diferença percebida é muito significante, os perfis que não possuem verificação somam
aproximadamente 500% de retuítes, enquanto que os perfis validados somam pouco mais
de 3.500% retuítes.
Apesar disso, a maioria dos retuítes existentes na amostra são provenientes de
tuítes criados por perfis que não possuem validação do Twitter. Isso se explica porque este
Capítulo 4. Resultados
59
tipo de perfil representa a grande maioria do Twitter e produzem mais conteúdo.
Figura 27 – Quantidade de retuítes por usuários que são verificados pelo Twitter
4.3.7 Quantidade de retuítes por quantidade de seguidores que o usuário que
escreveu o tuíte possui
O gráfico representado pela figura 28 foi gerado com o objetivo de identificar qual
é uma boa quantidade de seguidores que o usuário que escreve um tuíte deve ter para
alcançar bom espalhamento de conteúdo pela rede social. No entanto, os grupos que
podem ser criados para identificar essa quantidade podem ser infinito. Dessa forma, foram
categorizados os tuítes criados por usuários que possuem até 1.000 seguidores, de 1.001 até
5.000 seguidores foram separados a cada 1.000, em seguida de 10.000 a 20.000 seguidores,
30.000 a 50.000 seguidores e o grupo dos usuários que possuem mais de 50.000 seguidores.
Não foi possível chegar em número ideal de seguidores que o usuário deve possuir
para ter mais chances de ser retuitado, porém, pode-se perceber que a tendência de ser
mais retuitado é de quanto maior o número de seguidores. É interessante distribuir a
amostra em números mais equalizados e em grupos menores para descobrir este valor. De
acordo com o gráfico, os usuários que possuem entre 30.001 a 50.000 seguidores tendem a
ser mais retuitados do que os outros, ignorando o grupo de mais de 50.000 seguidores por
ser muito genérico.
4.3.8 Quantidade de retuítes por quantidade de amigos do usuário que escreveu
o tuíte
Este outro gráfico, por sua vez, faz a comparação da distribuição dos retuítes de
acordo com a quantidade de amigos que o usuário escritor possui. A relação “amigo” é
Capítulo 4. Resultados
60
Figura 28 – Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu
o tuíte possui
designada aos usuários que são seguidos pelo escritor do tuíte.
Diferente da figura 28, a maioria dos retuítes ocorrem para os usuários que seguem
até 1.000 perfis, ou seja, possui no máximo 1.000 amigos na rede social, como pode ser
visto na figura 29. Também é possível assumir que os usuários que possuem entre 20.000 e
30.000 amigos ou mais que 50.000 amigos tendem a ser mais retuitados do que os outros.
4.3.9 Quantidade de retuítes por quantidade total de tuítes escritos pelo
usuário
O último histograma analisado compara a distribuição dos retuítes da amostra de
acordo com a quantidade de tuítes que o usuário já escreveu em toda sua história dentro
da rede social Twitter.
De acordo com a figura 30, a maioria dos retuítes estão distribuídos entre os usuários
que possuem entre 10.001 e 20.000 tuítes escritos ou mais que 50.000 tuítes. No entanto,
de acordo com a curva do percentual relativo, é possível perceber que os tuítes criados
por usuários que possuem entre 3.001 a 4.000 tuítes criados foram os mais retuitados da
amostra, podendo significar uma tendência.
Capítulo 4. Resultados
61
Figura 29 – Quantidade de retuítes por quantidade de amigos do usuário que escreveu o
tuíte
Figura 30 – Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário
4.4 Passo 5: Análise de comportamentos por algoritmos de mineração de dados
Conforme descrito na metodologia, esse passo tem o objetivo de descobrir quais são
as características dos tuítes e dos usuários que tornam uma mensagem viral na rede, baseado
Capítulo 4. Resultados
62
no comportamento dessas duas entidades (tuítes e usuários). O termo “comportamento”,
neste trabalho, refere-se, por exemplo, à quantidade de caracteres escritos, qual o horário
que o tuíte foi enviado, quantos seguidores o usuário que escreveu possui, desde quando o
usuário faz parte do Twitter, dentre diversas outras variáveis que serão descritas a seguir.
Essa metodologia foi aplicada em dois diferentes momentos: base de dados preliminar
e base de dados completa. A diferença entre os dois momentos é a quantidade de dados
utilizados para os testes. Na base de dados preliminar, o modelo foi gerado a partir de
uma quantidade menor de tuítes em comparação. Isso resultou em uma grande distorção
dos resultados obtidos nos dois momentos.
4.4.1 Momento 1: base de dados preliminar
A princípio, o workflow definido na metodologia foi aplicado para dois dos cinco
temas: “Copa do Mundo e FIFA” e “Big Brother Brasil”. Estes temas foram escolhidos por
serem os temas com maior quantidade de tuítes coletados no momento de realização deste
teste, que ocorreu em junho de 2014. Os resultados são divulgados a seguir, separados em
três cenários:
1. Criação do modelo de árvore de decisão com a amostra equalizada em 50% de tuítes
influentes e não-influentes;
2. Aplicação do modelo gerado no cenário 1 em 100% da amostra;
3. Aplicação do modelo de outro tema em 100% da amostra para verificar se o modelo
de um tema pode ser utilizado em diferentes temas.
4.4.1.1 Copa do Mundo e FIFA
O processo de leitura da coleta dos tuítes e transformação em dados inseridos na
tabela, que será utilizada na mineração de dados, resultou em 5.016.353 registros. Esses
registros são todos os tuítes que tiverem pelo menos um retuíte. Os outros tuítes foram
desprezados e não serão considerados no modelo. As colunas / variáveis selecionadas foram
as citadas na metodologia.
Para definição do limiar, utilizou-se a visualização de gráfico em linha, ordenando
os tuítes pelo mais retuitado ao menos retuitado. O objetivo é ver onde a curva de tuítes
influentes se inicia e, em seguida, se transforma em exponencial. O valor escolhido para
quantidade de retuítes foi de 390. Isso significa que todo tuíte com mais de 390 retuítes
devem ser considerados influentes e o algoritmo de árvore de decisão deverá encontrar os
padrões de comportamento comuns a estes tuítes. A figura 31 exibe a curva de retuítes
dessa amostra. O círculo marcado no gráfico informa o ponto em que a quantidade de
retuítes é igual a 390, marcando a divisão da amostra em influente e não-influente.
Capítulo 4. Resultados
63
Figura 31 – Gráfico de Limiar do tema Copa do Mundo e FIFA
Com a definição do limiar, somente 1.206 registros foram caracterizados como
influentes, dos 5.016.353 anteriores. Sendo assim, para criação do modelo da árvore de
decisão, foi necessário reduzir a amostra dos tuítes não influentes em 1.206 registros para
que a amostra fique definida em 50% influente e 50% não-influentes e o modelo possa ser
criado sem ser enviesado. Ainda, a escolha dos 50% não-influentes tem que ser feita de
forma aleatória.
É necessário definir quantos registros serão utilizados para treinar o modelo e
quantos serão utilizados para validar o modelo criado. O número escolhido foi de 70% da
base para treino e os outros 30% para verificar quantos tuítes o modelo acertou como
influente ou não-influente.
Neste primeiro cenário, o resultado da validação do modelo foi de 86,4%, sendo 44
tuítes falsos-positivos, ou seja, o modelo informou que o tuíte era influente, porém na base
real eles não são influentes.
Foi testado um segundo cenário, exportando o modelo treinado no primeiro cenário
e aplicado a todos os registros da base. Nesse caso, com mais de 5 milhões de tuítes,
o modelo teve assertividade de 87%, acertando 1.135 tuítes como influentes e 68 como
falsos-positivo.
Um terceiro cenário foi realizado, aplicando o modelo gerado no tema Big Brother
Brasil - que será explicado na próxima subseção - em toda a base, assim como o cenário 2,
e obteve assertividade de 76%, com 1.033 acertos de tuítes influentes e 158 falsos-positivo.
Este resultado é importante para notar a necessidade de criar um modelo para cada tema,
comprovando que os comportamentos dos tuítes mais retuitados são diferentes entre temas.
A tabela 2 retrata de forma compacta os resultados dos 3 cenários.
Capítulo 4. Resultados
64
Tabela 2 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Copa
do Mundo e FIFA
Cenário
1
2
3
Assertividade
86,4%
87,2%
76,0%
Acerto
308
1135
1033
Falso-positivo
44
68
158
4.4.1.2 Big Brother Brasil
Seguindo o mesmo modelo utilizado no tema anterior, o processo de leitura da coleta
dos tuítes e transformação em dados inseridos na tabela, que será utilizada na mineração
de dados, resultou em 3.989.067 registros. Esses registros são todos os tuítes que tiverem
pelo menos um retuíte. Os outros tuítes foram desprezados e não serão considerados no
modelo. As colunas / variáveis selecionadas foram as citadas na metodologia.
Para definição do limiar, utilizou-se a visualização de gráfico em linha, ordenando
os tuítes pelo mais retuitado ao menos retuitado. O objetivo é ver onde a curva de tuítes
influentes se inicia e, em seguida, se transforma em exponencial. O valor escolhido para
quantidade de retuítes foi de 190. A figura 32 exibe a curva de retuítes dessa amostra e o
círculo marcado no gráfico informa o ponto em que a quantidade de retuítes é igual a 190,
marcando a divisão da amostra em influente e não-influente.
Figura 32 – Gráfico de Limiar do tema Big Brother Brasil
Com a definição do limiar, somente 1.025 registros foram caracterizados como
influentes, dos 3.989.067 anteriores.
Foram aplicados os três cenários citados acima e já descritos no tema da Copa do
Mundo e FIFA, e os resultados são sumarizados na tabela 3.
É importante frisar que o percentual da assertividade considera também os acertos
Capítulo 4. Resultados
65
Tabela 3 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Big
Brother Brasil
Cenário
1
2
3
Assertividade
84,2%
86,1%
91,7%
Acerto
270
965
624
Falso-positivo
40
60
394
de tuítes não-influentes e os falsos-negativos, que não estão demonstrados na tabela.
Com esses resultados preliminares, foi possível observar que aparentemente não é
eficiente utilizar o modelo de um tema em temas diferentes, comprovando que o comportamento dos usuários e dos tuítes variam entre os temas. Apesar da assertividade de 91% no
3o cenário, o percentual de falsos-positivo é muito alto, mais de 50%. O acerto está alto
porque o modelo está definindo a grande maioria dos tuítes como não-influentes, porém
este resultado é enviesado.
A figura 33 exibe o modelo (árvore de decisão) criado para cada um dos temas,
informando quais variáveis são analisadas para predizer se um tuíte é influente ou não.
(a) Copa do Mundo e FIFA
(b) Big Brother Brasil
Figura 33 – Árvore de decisão gerada no KNIME para predição de tuítes influentes, por
tema
Capítulo 4. Resultados
66
4.4.2 Momento 2: base de dados completa
Apesar do bom resultado obtido, os testes realizados no momento 1 deste passo
possui duas características que inviabilizam sua utilização em grande escala e de forma
automatizada, são elas:
1. A definição do limiar se dá de forma empírica, uma vez que o pesquisador precisa
gerar um gráfico com a quantidade de retuítes ordenada decrescente e identificar um
bom valor;
2. A quantidade de dados utilizada para treinar o modelo não prevê a maioria dos
cenários que foram identificados ao aplicar em uma base de dados muito maior.
Neste segundo momento, foram criadas novas estratégias para definir uma metodologia melhor e que possa ser automatizada.
Para corrigir o problema da definição do limiar, diversos testes foram realizados
definindo um percentil que possa separar automaticamente a amostra em tuítes influentes
e não-influentes. Por exemplo, se escolhido o valor de percentil 95, significa que os 5% dos
tuítes mais retuitados são influentes e o resto não são influentes.
Vários testes foram realizados alterando o valor do percentil a fim de se obter um
valor que resultasse em uma boa taxa de acerto para os cinco temas coletados (tabela 1).
Porém, os resultados não agradaram. Apesar de ter sido obtido boa taxa de acerto em
vários temas, o valor de falso-positivo foi muito alto em todos os testes. Ou seja, quando
for aplicar o modelo para prever os tuítes influentes, haverá muito falso-positivo, fazendo
com que o acerto do modelo seja baixo. A taxa de acerto encontrada nos testes como boa
ocorre porque 95% da amostra é de não-influentes.
A fim de obter grande quantidade de tuítes para análise de predição, a estratégia
adotada foi a seguinte:
1. Escolher um tema;
2. Separar um período para aplicação do modelo;
3. Aplicar a técnica de árvore de decisão em toda a base de dados deste tema, com
exceção do período definido no passo anterior;
4. Validar se a predição obteve bom acerto.
O tema selecionado foi “Copa do Mundo e FIFA”, por ser o tema que possui maior
quantidade de dados no momento da execução destes testes.
Capítulo 4. Resultados
67
O período selecionado para aplicação do modelo que será gerado foi o mês de
setembro de 2014 (por completo). Ou seja, todos os tuítes escritos no mês de setembro
serão os dados de entrada do modelo que será gerado a seguir. O limiar do mês de setembro,
definido como o percentil 95, foi o valor 69. Ou seja, os tuítes de setembro que tiveram
mais de 69 retuítes foram considerados influentes.
Logo, o modelo foi gerado baseado nos dados dos meses de março de 2014 à junho
de 2014. Por conta de alguns problemas na coleta dos dados, o mês de julho foi descartado.
É importante salientar que no mês de junho se iniciou o evento Copa do Mundo Fifa 2014
no Brasil, o que resultou em muitos tuítes criados e retuitados nesse período.
Na tabela 4 a seguir são apresentados os valores obtidos durante os testes em que
o limiar foi definido como percentil 95, criando a variável resposta de forma automatizada
no Knime. A coluna “Modelo” identifica o mês que foi utilizado como entrada para a
criação do modelo de predição; A coluna “Influência” e “Predição” fazem o cruzamento
dos tuítes identificados como influentes (Bin1) e não-influentes (Bin0). No cruzamento
Bin0 versus Bin0, encontram-se os verdadeiros-positivos; no cruzamento Bin0 versus Bin1
encontram-se os falsos-negativos (o modelo afirma que são tuítes não-influentes, quando
na verdade estes tuítes deveriam ser classificados como influentes). O mesmo se aplica
para as colunas Bin1.
Tabela 4 – Tabela com o resultado obtido da aplicação da árvore de decisão nos temas
coletados
Modelo
Valor limiar
Março
58 retuítes
Abril
64 retuítes
Maio
67 retuítes
Junho
123 retuítes
Influência
Bin0
Bin1
Acerto:
Bin0
Bin1
Acerto:
Bin0
Bin1
Acerto:
Bin0
Bin1
Acerto:
Predição
Bin0
Bin1
266.411 48.129
1.206
2.014
84,47%
265.644 48.896
832
2.388
84,35%
239.805 74.735
827
2.393
76,22%
253.496 61.044
1.152
2.068
80,42%
Analisando os resultados obtidos ao gerar modelos de diferentes períodos, de um
mesmo tema, no período de setembro, é possível perceber que não foram satisfatórios. A
taxa de acerto do modelo não se aplica ao objetivo desta etapa da metodologia porque
considera os acertos dos tuítes não-influentes também, que corresponde à 95% dos dados.
Os valores que são importantes para este passo são os tuítes classificados como influentes.
Capítulo 4. Resultados
68
Quando analisado por este ponto de vista, a taxa de acerto cai para 50% em média, o que
não gera confiança no modelo.
Uma análise de correlação entre as variáveis utilizadas no modelo foi realizada a fim
de entender o porquê desse resultado insatisfatório e essa análise explica, de certa forma,
o que houve. Todas as variáveis do modelo foram confrontadas uma a uma e, como pode
ser visualizado na figura 34, elas possuem pouca correlação com a quantidade de retuítes.
Sem boas correlações, o modelo não consegue obter melhores resultados. O curioso é que
este resultado contradiz, em alguns casos, os histogramas criados para algumas dessas
variáveis, o que indica a necessidade de maior análise tanto dos histogramas quanto da
estratégia adotada na mineração de dados. Talvez a técnica de árvore de decisão não seja
a mais adequada para este caso.
Figura 34 – Gráfico de correlação entre as variáveis utilizadas para gerar o modelo de
árvore de decisão
Apesar de que a figura 34 lista o cruzamento de todas variáveis uma a uma, exibindo
uma matriz com todas as correlações possíveis, o que importa para o modelo gerado neste
Capítulo 4. Resultados
69
trabalho é o cruzamento de cada variável com a variável total_rw que representa a
quantidade total de retuítes de cada tuíte. Quanto mais azul for a marcação de correlação,
significa que se aproxima de +1 (alta correlação de quanto maior uma variável, maior
também é a outra). Por outro lado, quanto mais vermelha for a marcação de correlação,
significa que se aproxima de -1 (correlação inversa). Já a cor branca indica nenhuma
correlação (0) e o X indica que não foi possível verificar a correlação porque as variáveis
são de tipos diferentes (inteiro versus texto).
70
5 Conclusões
O presente trabalho coletou dados da rede social online Twitter e utilizou, principalmente, três medidas para analisar quais são os usuários mais influentes sobre determinado
tema e quais são os usuários que causam maior engajamento. Foram elas: Seguidores,
Retuítes e Menções.
5.1 Principais resultados
Foi possível constatar que a medida “Seguidores” não tem relação direta com a
quantidade de retuítes ou menções dos usuários. Esta constatação derruba a hipótese
inicial deste projeto de que quanto maior a audiência de determinado usuário, maior será
sua relação com sua capacidade de espalhar conteúdo pela rede social Twitter.
Isto ocorre porque independente da audiência do usuário que criou o conteúdo,
outros usuários que se interessarem por este conteúdo e retuitarem, esse conteúdo será
enviado para seus respectivos seguidores, gerando um espalhamento exponencial pela
rede. Assim, foi possível comprovar a hipótese de (CHA et al., 2010) que afirma que os
retuítes equivalem ao valor de conteúdo de determinada mensagem e que os usuários mais
retuitados são blogueiros e usuários comuns.
Também foi possível constatar a hipótese de que os usuários mais mencionados são
pessoas públicas e celebridades, como afirma (CHA et al., 2010). Nos dois experimentos
realizados neste trabalho, a hipótese foi verdadeira.
As menções não tem relação direta com a difusão de informações, porém identifica
quais usuários são responsáveis por causarem engajamento na rede e este dado pode ser
útil de forma estratégica na difusão de conteúdo.
Com relação à distribuição das informações, um resultado interessante é que a
distribuição de retuítes para diferentes assuntos são similares. Aproximadamente 50% da
amostra trata-se de retuítes e a outra metade trata-se de tuítes originais e únicos, fazendo
com que o Twitter apareça com um grande papel no meio digital: compartilhar e difundir
informações.
De forma generalizada, foi possível constatar o Princípio de Pareto, em que aproximadamente 20% dos usuários mais influentes correspondem a mais de 80% de toda
audiência de determinado assunto. Essa constatação é importante para definir a estratégia
de quais usuários devem ser abordados quando se quer criar um comportamento viral de
determinado conteúdo.
Capítulo 5. Conclusões
71
Mais de 62 milhões de tuítes foram coletados de diferentes temas. Uma pequena
amostra (de 1 milhão de tuítes) foi utilizada para criação do grafo no Neo4J. Desses
1 milhão de tuítes foi construído um grafo com os escritores dessas mensagens e seus
seguidores a fim de aplicar métricas de redes complexas, porém não foi possível completar
a rede de forma íntegra porque essa construção é muito custosa e precisou ser congelada a
fim de evoluir com outras análises.
Partiu-se então para a identificação das características presentes em conteúdos virais,
avaliando vários cenários e diferentes variáveis para melhor entender o comportamento
da amostra. Percebeu-se a diferença entre os momentos em que ocorrem mais retuítes
versus momentos que cada conteúdo é mais retuitado. A identificação dessas características
podem guiar a pesquisa dos comportamentos de cada tema porém, como já era sabido, não
explicam a amostra por completo. Cada histograma criado gera a necessidade de análise
mais aprofundada para entender os motivos que circundam cada resultado.
Para entendimento do comportamento de tuítes influentes em massa, utilizou-se a
técnica de árvore de decisão existente na mineração de dados. Dois temas foram testados,
de forma preliminar, e a assertividade dos modelos criados foi boa (acima de 80%), porém
a massa de dados utilizada para gerar o modelo era pequena e não previa a maioria
dos cenários quando aplicada em uma massa de dados de vários meses de coleta, o que
inviabilizou o modelo. Então, novos modelos foram testados com massa de dados cada vez
maiores como entrada e aplicadas para treinamento e predição. O tema mais testado foi
“Copa do Mundo e Fifa” por ter mais dados que os outros. Apesar do indicativo de acerto
ter sido alto (novamente acima de 80%) não indicava a realidade. Quando os valores de
falsos-positivos foram analisados percebeu-se que esse acerto cairia para algo em torno de
50%. Esta taxa não garante predição alguma.
Apesar deste resultado, isso não significa que a mineração de dados deva ser
descartada da estratégia para alcançar o objetivo deste trabalho. O que deve ser feito é
trabalhar mais, testar novas técnicas, novas combinações de variáveis, novos pensamentos.
Não foi possível testar a criação de um conteúdo adequado aos modelos criados,
conforme foi definido na metodologia, porque não foi possível descobrir uma “fórmula”
para gerar influência na rede social Twitter.
5.2 Contribuições
As principais contribuições deste trabalho, são:
• Desenvolvimento de um coletor de dados do Twitter que funciona 24 horas por dia,
7 dias por semana, coletando todos os tuítes que sejam criados ou retuitados que
possuam as palavras-chave especificadas pelo programador;
Capítulo 5. Conclusões
72
• Coleta de mais de 62 milhões de tuítes com todos os metadados fornecidos pelo
Twitter, composto por dados do próprio tuíte como também dados atuais do usuário
que escreveu o tuíte e do usuário que retuitou, possibilitando, assim, que outro
pesquisador já possua grande massa de dados para realização de estudos;
• Identificação preliminar dos usuários mais influentes por dois ângulos diferentes:
conteúdo relevante e pessoa pública. A identificação ocorre através da contagem de
retuítes e menções de cada tema;
• Estudo de diferentes técnicas aplicadas com o mesmo objetivo: identificar quais os
usuários influentes e a razão. As diferentes técnicas aplicadas não foram conclusivas
e devem ser melhoradas para se alcançar o objetivo final.
5.3 Trabalhos Futuros
Com os resultados obtidos nessa pesquisa, foi possível compreender melhor como
os usuários se comportam na rede social Twitter. Entretanto, o desejo de alcançar um
modelo que possa prever quando um conteúdo será influente não foi alcançado, tampouco
provocar a viralização de um conteúdo próprio. Como trabalhos futuros, pretende-se:
• Aplicar diferentes métricas de redes complexas a fim de comparar se os resultados
dessas técnicas são compatíveis com o resultado de influência baseado na contagem
de retuítes e menções;
• Aplicar novas técnicas de mineração de dados, como redes neurais, a fim de reduzir
a taxa de falsos-positivos e poder ter em mãos um modelo que faça a predição de
conteúdos que se tornarão influentes, baseado nas variáveis que são coletadas dos
tuítes;
• Entender melhor a relação entre usuários intermediários que fazem com que um
conteúdo se torne viral, visto que foi constatado que nem sempre o usuário que criou
um conteúdo viral foi o responsável por essa viralização;
• Comparar esses novos resultados obtidos nos diferentes temas que foram coletados
para entender se há diferença entre eles ou se são compatíveis, ou seja, saber se é
possível criar um padrão único que aborde todos os temas ou se cada tema deve ser
estudado separadamente;
• Acompanhar vídeos postados no YouTube que possuem poucas visualizações e
solicitar a alguns usuários que compartilhem este vídeo. Esses usuários devem se
encaixar em um perfil de usuários influentes que deverá ser descoberto com as técnicas
citadas acima. Dessa forma, saberemos em qual momento específico e qual postagem
Capítulo 5. Conclusões
73
foi a principal responsável pela viralização do vídeo e aumento de visualizações no
YouTube;
• Semelhante à visualização de vídeos no YouTube, acompanhar URLs específicas
para identificar se, em algum momento, elas serão muito visitadas graças a alguma
postagem no Twitter;
• Construir um padrão que identifique que um tuíte será viral;
• Induzir o comportamento viral de um conteúdo próprio que se adeque aos padrões
de usuário influente e conteúdo viral descobertos anteriormente;
• Aplicar este estudo em outras redes sociais, como o Facebook, Pinterest e Instagram,
a fim de validar se as descobertas a partir do Twitter se aplicam em diferentes redes
sociais online, adaptando-se às diferentes funcionalidades que cada uma possui.
74
Referências
ARTHUR, D. et al. Pricing strategies for viral marketing on social networks. In: Internet
and Network Economics. [S.l.]: Springer, 2009. p. 101–112.
BAKSHY, E. et al. Everyone’s an influencer: quantifying influence on twitter. In: ACM.
Proceedings of the fourth ACM international conference on Web search and data mining.
[S.l.], 2011. p. 65–74.
BARABÁSI, A.-L.; ALBERT, R. Emergence of scaling in random networks. science,
American Association for the Advancement of Science, v. 286, n. 5439, p. 509–512, 1999.
BOCCALETTI, S. et al. Complex networks: Structure and dynamics. Physics Reports,
v. 424, n. 4-5, p. 175–308, 2006.
BORGATTI, S. P.; EVERETT, M. G. A graph-theoretic perspective on centrality. Social
networks, Elsevier, v. 28, n. 4, p. 466–484, 2006.
BOYD, D. Friends, friendsters, and myspace top 8: Writing community into being on
social network sites. Citeseer, 2006.
BRODER, A. et al. Graph structure in the web. Computer networks, Elsevier, v. 33, n. 1,
p. 309–320, 2000.
CHA, M. et al. Measuring user influence in twitter: The million follower fallacy. ICWSM,
v. 10, p. 10–17, 2010.
CHANG, F. et al. Bigtable: A distributed storage system for structured data. ACM
Transactions on Computer Systems (TOCS), ACM, v. 26, n. 2, p. 4, 2008.
DOMINGOS, P. Mining social networks for viral marketing. IEEE Intelligent Systems,
v. 20, n. 1, p. 80–82, 2005.
ELLISON, N. B. et al. Social network sites: Definition, history, and scholarship. Journal of
Computer-Mediated Communication, Wiley Online Library, v. 13, n. 1, p. 210–230, 2007.
GABIELKOV, M.; RAO, A.; LEGOUT, A. Studying social networks at scale: macroscopic
anatomy of the twitter social graph. In: ACM. The 2014 ACM international conference
on Measurement and modeling of computer systems. [S.l.], 2014. p. 277–288.
HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of data mining. [S.l.]: MIT press,
2001.
HILL, S.; PROVOST, F.; VOLINSKY, C. Network-based marketing: Identifying likely
adopters via consumer networks. Statistical Science, JSTOR, p. 256–276, 2006.
JUNIOR, O. d. S. Investigação de Predição de Fluxos em Redes de Computadores.
Dissertação (Mestrado) — UFABC, 2014.
JURVETSON, S. What exactly is viral marketing? 2000.
Referências
75
KIMURA, M. et al. Extracting influential nodes on a social network for information
diffusion. Data Mining and Knowledge Discovery, Springer, v. 20, n. 1, p. 70–97, 2010.
KWAK, H. et al. What is twitter, a social network or a news media? In: ACM. Proceedings
of the 19th international conference on World wide web. [S.l.], 2010. p. 591–600.
LESKOVEC, J.; ADAMIC, L. A.; HUBERMAN, B. A. The dynamics of viral marketing.
ACM Transactions on the Web (TWEB), ACM, v. 1, n. 1, p. 5, 2007.
LIU, L. et al. Learning influence from heterogeneous social networks. Data Mining and
Knowledge Discovery, v. 25, n. 3, p. 511–544, 2012.
MEEDER, B. et al. We know who you followed last summer: inferring social link creation
times in twitter. In: ACM. Proceedings of the 20th international conference on World wide
web. [S.l.], 2011. p. 517–526.
MINHANO, R. Descoberta de Conexões Ocultas em Redes de Recomendações Usando
Redes Sociais Online. Dissertação (Mestrado) — UFABC, 2010.
NEWMAN, M. E. Assortative mixing in networks. Physical review letters, APS, v. 89,
n. 20, p. 208701, 2002.
NEWMAN, M. E. A measure of betweenness centrality based on random walks. Social
networks, Elsevier, v. 27, n. 1, p. 39–54, 2005.
NEWMAN, M. E. J. The structure and function of complex networks. SIAM Review,
v. 45, n. 2, p. 167–256, 2003.
PAL, A.; COUNTS, S. Identifying topical authorities in microblogs. In: ACM. Proceedings
of the fourth ACM international conference on Web search and data mining. [S.l.], 2011. p.
45–54.
SHARMA, N. K. et al. Inferring who-is-who in the twitter social network. ACM
SIGCOMM Computer Communication Review, ACM, v. 42, n. 4, p. 533–538, 2012.
STROGATZ, S. H. Exploring complex networks. Nature, Nature Publishing Group, v. 410,
n. 6825, p. 268–276, 2001.
SUN, J.; TANG, J. Models and algorithms for social influence analysis. In: ACM.
Proceedings of the sixth ACM international conference on Web search and data mining.
[S.l.], 2013. p. 775–776.
TOGNERI, R. M. A Importância das Localidades Geográficas na Difusão Online de
Informação. Dissertação (Mestrado) — UFABC, 2013.
WATTS, D. J.; STROGATZ, S. H. Collective dynamics of ‘small-world’networks. nature,
Nature Publishing Group, v. 393, n. 6684, p. 440–442, 1998.
WENG, J. et al. Twitterrank: finding topic-sensitive influential twitterers. In: ACM.
Proceedings of the third ACM international conference on Web search and data mining.
[S.l.], 2010. p. 261–270.