Universidade Federal do ABC – UFABC Curso de Pós-Graduação em Engenharia da Informação Dissertação de Mestrado Davi Brandão Zanotto Compreendendo Mecanismos de Influência em Redes Sociais Online através do Comportamento dos Usuários Santo André 2015 Curso de Pós-Graduação em Engenharia da Informação Dissertação de Mestrado Davi Brandão Zanotto Compreendendo Mecanismos de Influência em Redes Sociais Online através do Comportamento dos Usuários Trabalho apresentado como requisito parcial para obtenção do título de Mestre em Engenharia da Informação, sob orientação do Professor Doutor Carlos Alberto Kamienski. Santo André 2015 À minha esposa, Waleska, e nosso primeiro filho, Bruno. Agradecimentos O primeiro agradecimento não poderia ser para outra pessoa senão meu orientador, Carlos Kamienski. Agradeço, sem saber como recompensá-lo, por tudo que me proporcionou durante esses anos de pesquisa em que trabalhamos juntos. Sua dedicação, seriedade, comprometimento e cobrança foram essenciais para me motivar e me manter focado neste trabalho. Espero que continue sempre assim para que outros alunos possam desfrutar desse sentimento que pude conhecer. Não foi fácil seguir os caminhos do mundo acadêmico. Diferentes oportunidades, que poderiam proporcionar melhores condições financeiras e até sociais surgiram durante esse período. No entanto, visando o futuro, é preciso tomar decisões difíceis e que nos fazem viver um presente mais complicado, em alguns termos. Tudo isso se transforma em uma missão bem mais fácil quando se tem o amor da sua vida ao seu lado, apoiando e refrescando em sua memória que algo maior está acontecendo. Waleska, agradeço por todo amor e dedicação, como esposa, e por tudo que você me proporciona desde os tempos de faculdade, me fazendo sentir-se maior do que realmente sou. Agradeço à minha família, que me apoiou quando decidi sair de Maceió e ir morar em São Paulo. Agradeço, em especial, a minha mãe que me direcionou para tomar a decisão de qual curso eu deveria escolher na faculdade e me orientou a estudar no Instituto Federal, o início de todo esse caminho. Agradeço também aos meus amigos, professores e colegas de mestrado e professores e colegas da faculdade que, de tantas formas diferente, puderam me proporcionar o sentimento que tenho ao escrever este texto. Muito obrigado! Resumo O presente trabalho apresenta uma abordagem de análise da rede social Twitter a fim de entender como os usuários se tornam influentes, através das suas características pessoais e das características dos seus tuítes. As redes sociais online vêm sendo utilizadas, cada vez mais, para análises de diferentes áreas de pesquisa que se propõem a entender como as relações humanas ocorrem e como são estruturadas. Este projeto se propõe a entender como os conteúdos são difundidos no Twitter, quais as características dos usuários denominados influentes, por serem formadores de opinião, e as características das mensagens que se tornaram virais. Entender como as pessoas se comportam em um grupo é um grande desafio. Com este objetivo, foi criado um coletor de dados para capturar tuítes criados em sete temas diferentes e servir como entrada de dados para as análises de influência através de diferentes técnicas, como: contagem de retuítes e menções, entendimento de quais características costumam apresentar os tuítes que alcançam maior disseminação, criação de grafos relacionando usuários, seus seguidores, tuítes e retuítes para aplicar técnicas de redes complexas e análise com mineração de dados utilizando árvore de decisão. A estratégia utilizada foi aplicar diferentes técnicas para comparar os resultados e chegar em um modelo que possa prever quando um conteúdo ou usuário será influente. Ao todo, foram coletados mais de 62 milhões de tuítes entre os anos de 2014 e 2015. Apesar da grande quantidade de dados, não foi possível desenvolver um padrão exato de como um usuário ou conteúdo se torna influente, porém foi possível entender diversas características que estão presentes nesses usuários e que podem ser utilizadas para aumentar o potencial de disseminação de um conteúdo específico. Palavras-chaves: Redes sociais online, mineração de dados, marketing viral, marketing em redes sociais, redes complexas, tunkrank, big-data. Abstract This paper presents an analitical approach of the social network Twitter in order to understand how its users become influential through their personal characteristics and the characteristics of their tweets. Online social networks have been increasingly used for analysis of different areas of research that intend to understand how human relationships occur and how they are structured. This project aims at understanding how content is spread on Twitter, what the characteristics of users called influential are, for being opinion leaders, and characteristics of messages that have gone viral. Understanding how people behave in a group is a great challenge. For this purpose, a data collector has been created to capture tweets created in seven different themes as well as to serve as input for the analyzes of influence through different techniques, such as, counting retweets and mentions, understanding of what features usually present tweets that reach further spread, creating graphs relating users, followers, tweets and retweets to apply techniques of complex networks and analysis with data mining using decision tree. The strategy used was to apply different techniques to compare results and get a model that can predict when content or user is influential. In all, we collected more than 62 million tweets between the years 2014 and 2015. Despite the large amount of data, it was not possible to develop an accurate standard for how a user or content becomes influential, but it was possible to understand several characteristics that these users are presenting and can be used to increase the potential for dissemination of specific content. Keywords: Online social network, data mining, viral marketing, marketing on social networks, complex networks, tunkrank, big-data. Lista de ilustrações Figura Figura Figura Figura Figura Figura Figura Figura Figura 1 2 3 4 5 6 7 8 9 – – – – – – – – – Figura 10 – Figura 11 – Figura 12 – Figura 13 – Figura 14 – Figura 15 – Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura Figura 16 17 18 19 20 21 22 23 24 25 26 27 28 – – – – – – – – – – – – – Figura 29 – Exemplo de rede no formato de grafo . . . . . . . . . . . . . . . . . . . Exemplo de Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . Informações do aplicativo criado no Twitter . . . . . . . . . . . . . . . Exemplo de requisição de dados utilizando Twitter Explorer . . . . . . Arquitetura para descoberta dos usuários influentes . . . . . . . . . . . Volume de dados no Neo4J . . . . . . . . . . . . . . . . . . . . . . . . Pequena amostra do grafo criado . . . . . . . . . . . . . . . . . . . . . Workflow de Árvore de Decisão no KNIME . . . . . . . . . . . . . . . Ranking dos 20 usuários mais retuitados e sua audiência referente ao tema Fórmula 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comparativo dos retuítes para o tema Fórmula 1 . . . . . . . . . . . . Ranking dos 20 usuários mais mencionados e sua audiência referente ao tema Fórmula 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comparativo das menções para o tema Fórmula 1 . . . . . . . . . . . . Ranking dos 20 usuários mais retuitados e sua audiência referente ao tema Black Friday . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comparativo dos retuítes para o tema Black Friday . . . . . . . . . . . Ranking dos 20 usuários mais mencionados e sua audiência referente ao tema Black Friday . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comparativo das menções para o tema Black Friday . . . . . . . . . . Distribuição Empírica Acumulada de Retuítes (Fórmula 1) . . . . . . . Distribuição Empírica Acumulada de Retuítes (Black Friday) . . . . . Distribuição Empírica Acumulada de Menções (Fórmula 1) . . . . . . . Distribuição Empírica Acumulada de Menções (Black Friday) . . . . . Comparativo dos retuítes e menções por Distribuições Empíricas Acumuladas entre os temas . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantidade de retuítes por dia da semana . . . . . . . . . . . . . . . . Quantidade de retuítes por horário . . . . . . . . . . . . . . . . . . . . Quantidade de retuítes por quantidade de hashtags em um tuíte . . . . Quantidade de retuítes por quantidade de imagens em um tuíte . . . . Quantidade de retuítes por quantidade de URLs em um tuíte . . . . . Quantidade de retuítes por usuários que são verificados pelo Twitter . . Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu o tuíte possui . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantidade de retuítes por quantidade de amigos do usuário que escreveu o tuíte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 23 28 28 30 35 35 41 44 44 45 46 47 47 48 49 50 50 50 51 53 55 56 57 57 58 59 60 61 Figura Figura Figura Figura 30 31 32 33 – – – – Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário Gráfico de Limiar do tema Copa do Mundo e FIFA . . . . . . . . . . . Gráfico de Limiar do tema Big Brother Brasil . . . . . . . . . . . . . . Árvore de decisão gerada no KNIME para predição de tuítes influentes, por tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Figura 34 – Gráfico de correlação entre as variáveis utilizadas para gerar o modelo de árvore de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 63 64 65 68 Lista de tabelas Tabela 1 – Tabela com os temas das coletas, período e quantidade de tuítes coletados Tabela 2 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Copa do Mundo e FIFA . . . . . . . . . . . . . . . . . . . . . . . . . . Tabela 3 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Big Brother Brasil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabela 4 – Tabela com o resultado obtido da aplicação da árvore de decisão nos temas coletados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 64 65 67 Sumário 1 INTRODUÇÃO 2 2.1 2.2 2.3 2.4 2.5 ESTADO DA ARTE . . . . . . . . . . . . . . . . . . . . . . . Marketing Viral . . . . . . . . . . . . . . . . . . . . . . . . . . . Redes Sociais Online . . . . . . . . . . . . . . . . . . . . . . . . Redes Complexas . . . . . . . . . . . . . . . . . . . . . . . . . . Análise de Influência em Redes Sociais Online . . . . . . . . . Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 16 17 18 21 23 3 3.1 3.2 3.3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . Passo 1: Extração de dados do Twitter . . . . . . . . . . . . . . . . . Passo 2: Análise de influência por contagem de Retuítes e Menções Passo 3: Análise de influência por métricas de Redes Complexas e algoritmo TunkRank . . . . . . . . . . . . . . . . . . . . . . . . . . . . Passo 4: Identificação das características presentes em conteúdos virais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Passo 5: Análise de comportamentos por algoritmos de mineração de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 29 3.4 3.5 4 4.1 4.2 4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.3.6 4.3.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 . . . . . . . . . . . . . . . . . . RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Passo 1: Extração de dados do Twitter . . . . . . . . . . . . . . . . . Passo 2: Análise de influência por contagem de Retuítes e Menções Análise sobre a Fórmula 1 . . . . . . . . . . . . . . . . . . . . . . . . . . Análise sobre o Black Friday . . . . . . . . . . . . . . . . . . . . . . . . . Comparativo dos resultados entre os dois assuntos . . . . . . . . . . . . . Passo 4: Identificação das características presentes em conteúdos virais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantidade de retuítes por dia da semana . . . . . . . . . . . . . . . . . . Quantidade de retuítes por horário . . . . . . . . . . . . . . . . . . . . . . Quantidade de retuítes por quantidade de hashtags em um tuíte . . . . . . Quantidade de retuítes por quantidade de imagens em um tuíte . . . . . . Quantidade de retuítes por quantidade de URLs em um tuíte . . . . . . . . Quantidade de retuítes por usuários que são verificados pelo Twitter (usuários oficiais) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu o tuíte possui . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 35 37 42 42 43 43 46 49 54 54 55 56 56 57 58 59 4.3.8 4.4.2 Quantidade de retuítes por quantidade de amigos do usuário que escreveu o tuíte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário Passo 5: Análise de comportamentos por algoritmos de mineração de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Momento 1: base de dados preliminar . . . . . . . . . . . . . . . . . . . Copa do Mundo e FIFA . . . . . . . . . . . . . . . . . . . . . . . . . . . . Big Brother Brasil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Momento 2: base de dados completa . . . . . . . . . . . . . . . . . . . . 5 5.1 5.2 5.3 CONCLUSÕES . . . Principais resultados Contribuições . . . . Trabalhos Futuros . 4.3.9 4.4 4.4.1 4.4.1.1 4.4.1.2 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 . 60 . 61 . 62 . 62 . 64 . 66 . . . . 70 70 71 72 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 13 1 Introdução As primeiras iniciativas de marketing digital tiveram início no fim da década de 80 com a veiculação de banners nos primeiros serviços de assinatura de internet nos EUA, denominados banner ad. O Marketing Digital teve seu crescimento na mesma época em que ocorreu o surgimento de grandes portais da internet e mecanismos de pesquisa, como AOL1 , Yahoo!2 e MSN3 . Foi quando surgiu o e-mail marketing que, dentro das estratégias de marketing digital, tem a finalidade de estabelecer ou melhorar o relacionamento com os clientes, além de estar ligado à chamada consciência de marca. Outra grande inovação veio em 1998 com a criação de um modelo diferente, dando início à veiculação de anúncios de texto junto aos resultados naturais de pesquisa. Atualmente, campanhas de marketing digital são veiculadas por e-mails, mensagens de texto, mensagens de voz, blogs e redes sociais online, como Facebook4 e Twitter5 . A estratégia é criar artificialmente uma propaganda boca-a-boca entre os clientes potenciais (ARTHUR et al., 2009), fazendo com que a marca seja divulgada de forma exponencial a partir de uma pessoa influente e de confiança, proporcionando aumento de credibilidade dessa propaganda. Tal estratégia é conhecida por marketing viral. O investimento realizado em marketing para a disseminação e consistência da marca é expressivo. Com o surgimento das redes sociais, o marketing digital está cada vez mais explorando esse meio por ser uma estratégia viável e concentrar um público notório. Entretanto, é necessário montar uma campanha focada nesse público, com uma estratégia bem definida, para conseguir a disseminação da mensagem que a marca quer passar de forma viral. Faz parte dessa estratégia conseguir montar uma campanha que chame atenção dos usuários formadores de opinião e repliquem-na como um boca-a-boca online. Apesar do termo “marketing viral” estar diretamente relacionado à área de Marketing, onde surgiu, o foco desta estratégia não é somente em vendas mas, principalmente, na difusão de informações e conteúdos de forma exponencial. Existem várias ferramentas de rede social online sendo utilizadas ao redor do mundo. As mais utilizadas são Facebook e Twitter. O Facebook é, disparado, a rede social mais utilizada no mundo e informações da empresa referentes ao primeiro quadrimestre de 20136 apontam que atualmente existem mais de 1 bilhão de usuários em todo o mundo 1 2 3 4 5 6 http://www.aol.com/ http://br.yahoo.com/?p=us http://www.msn.com/?st=1 http://www.facebook.com/ https://twitter.com/ http://investor.fb.com/releasedetail.cfm?ReleaseID=761090 acessado em 07 de dezembro de 2013. Capítulo 1. Introdução 14 e mais de 665 milhões de mensagens são trocadas diariamente. Os números apontam ainda que existem 150 bilhões de conexões entre usuários e houve mais de 1 trilhão de postagens recomendadas. Em segundo lugar, vem o Twitter, com 904 milhões de usuários cadastrados7 . Sendo assim, este projeto busca responder a seguinte pergunta: é possível criar uma mensagem que atraia o interesse de usuários formadores de opinião em divulgá-la e provocar um comportamento viral? Para responder essa questão, este trabalho se propõe a estudar, primeiramente, a rede social online Twitter, entender como as informações são distribuídas entre os usuários e identificar quais são os principais responsáveis pela disseminação de conteúdo em determinados assuntos, baseado nas funcionalidades desta rede social que têm o objetivo de espalhar informações. São elas: Seguidores, Retuítes e Menções, as quais serão melhor explicadas na seção Metodologia. De forma específica, os itens abaixo precisam ser realizados para o cumprimento do objetivo: 1. Desenvolver um algoritmo que colete informações públicas dos usuários e armazene-as em um banco de dados. 2. Identificar os usuários mais influentes, ou seja, formadores de opinião. 3. Analisar a amostra para identificação dos padrões de difusão das informações e entender o comportamento dos usuários mais influentes na rede social. 4. Realizar experimentos para indução de comportamento viral em conteúdos criados na rede social online. A coleta das mensagens no Twitter se dá através de requisições HTTP8 , utilizandose do método GET ou POST, e o resultado é obtido no formato JSON9 . Todas as mensagens possuem: um identificador único (ID), o usuário remetente, indica se é uma replicação ou uma mensagem original, indica quais outros usuários estão sendo mencionados, dentre outros metadados. A conexão criada entre o coletor de dados e o servidor do Twitter fica ativa e as mensagens (tuítes) são coletadas assim que são enviadas por qualquer usuário que tenha configurações de privacidade definidas como pública. Para enviar a requisição HTTP e obter informações é necessário informar o que está sendo pesquisado, através de palavraschave que deverão estar contidas no texto. Neste método de coleta, chamado Streaming, 7 8 9 http://blog.peerreach.com/2013/11/4-ways-how-twitter-can-keep-growing/ acessado em 07 de dezembro de 2013. Hypertext Transfer Protocol. Documentação disponível em http://www.w3.org/Protocols/ http://www.json.org/ Capítulo 1. Introdução 15 as mensagens enviadas antes de estabelecer a conexão não são coletadas, como pode ser consultado na documentação da API10 do Twitter. Mais detalhes serão explicados na seção Metodologia. O algoritmo de coleta dos dados foi desenvolvido na linguagem Python11 , compilado e executado em um servidor Linux Ubuntu 12.04. Sua implementação é realizada através da biblioteca Python-Twitter12 . Esta biblioteca foi escolhida após inúmeros testes com outras bibliotecas que não se mostraram sólidas, principalmente pela falta de documentação. Após o período de coleta, esses dados serão tratados e dois rankings serão criados: 1. Quantidade de retuítes por usuário; e 2. Quantidade de menções por usuário. Com esses rankings em mãos, será possível analisar como as informações são espalhadas na rede e quais são os principais usuários responsáveis por tal espalhamento/disseminação. A contagem de Retuítes e Menções é uma das formas de medir quem são os usuários mais influentes da amostra. Também existem outras métricas para inferir que um usuário é influente, as quais serão melhor descritas na próxima seção. Este projeto, além dessa introdução, está dividido em quatro seções onde serão abordados os objetivos de forma específica e detalhada, são elas: estado da arte, metodologia, resultados, plano de trabalho e conclusões. 10 11 12 https://dev.twitter.com/docs http://www.python.org/ https://code.google.com/p/python-twitter/ 16 2 Estado da Arte 2.1 Marketing Viral Com a crescente rejeição dos consumidores às formas tradicionais de anúncios de publicidade como TV, outdoors, e jornais, os profissionais de marketing vêm cada vez mais alternando as estratégias de propagandas, incluindo as estratégias de marketing viral (LESKOVEC; ADAMIC; HUBERMAN, 2007). Uma das primeiras definições de marketing viral surgiu no boletim informativo do Nestcape, em 1997, como “rede boca-a-boca aprimorada”. Segundo (JURVETSON, 2000), a inspiração para o termo “marketing viral” surgiu originalmente a partir do padrão de anúncio adotado pelo Hotmail1 que conseguiu aumentar sua rede de usuários de forma exponencial. A estratégia adotada não tem relação com vírus maliciosos tradicionais da internet. O Hotmail incluiu um campo promocional com um link (URL clicável) em cada mensagem de e-mail enviada por um usuário de sua rede. Assim, cada cliente torna-se um vendedor involuntário simplesmente usando o produto. Fazendo uma analogia à medicina, o objetivo desta técnica é semelhante ao comportamento epidêmico que um vírus possui, fazendo com que a informação divulgada alcance o maior número de pessoas contidas em uma rede. (HILL; PROVOST; VOLINSKY, 2006) define que o termo marketing viral está relacionado a qualquer estratégia que encoraja indivíduos a transmitir uma mensagem de marketing para outros, criando o potencial de crescimento exponencial da exposição e influência da mensagem. O marketing viral é mais poderoso do que a publicidade de terceiros porque transmite uma aprovação implícita de um amigo, mesmo sendo claramente delimitado como um anúncio. Os destinatários de uma mensagem de e-mail do Hotmail aprendem não só que o produto funciona, mas também que seu amigo é um usuário. Como afirma (JURVETSON, 2000), um elemento-chave da marca do consumidor é a filiação de uso: eu quero ser um membro do grupo – composto por meus amigos – que usa este produto? Recentemente, o marketing viral está sendo vastamente explorado em redes sociais online, por conta da concentração de usuários e distinção de vários nichos de mercado e interesses contidos nessas redes. 1 http://www.live.com/ Capítulo 2. Estado da Arte 17 2.2 Redes Sociais Online Dentre as definições de sites de redes sociais, (ELLISON et al., 2007) define que são serviços baseados na web que permitem aos indivíduos construir um perfil público ou semi-público dentro de um sistema limitado; articular uma lista de outros usuários com quem eles compartilham uma conexão; e ver e percorrer a sua lista de conexões e aquelas feitas por outros dentro do sistema. A natureza e nomenclatura dessas conexões podem variar de site para site. Ainda segundo o autor, o que torna uma rede social única não é o fato de permitir que usuários conheçam estranhos, mas sim o fato de permitir que os usuários possam se pronunciar e tornar visíveis em suas redes. E isso faz com que usuários conheçam outros a partir da troca de interesses em comum. Apesar dos diferentes sites de redes sociais desenvolverem uma grande variedade de recursos técnicos para aumentar a interatividade na ferramenta, todos os SNSs (Social Network Sites) tem o princípio de perfis de usuários e sua lista de amigos (conexões) que são também usuários deste sistema. Perfis são páginas únicas onde o usuário insere uma introdução / apresentação sobre a sua pessoa. Para participar de uma SNS, é solicitado ao indivíduo que preencha diversos campos com informações pessoais e algumas perguntas. O perfil é gerado a partir das respostas a essas questões e informações pessoais, que normalmente são sua idade, onde vive, interesses e sua apresentação para os outros usuários. Alguns sites também permitem que se carregue uma foto pessoal, conteúdos multimídia e a personalização do seu perfil, como a imagem de plano de fundo. Outros sites, como o Facebook, permitem que os usuários adicionem módulos (aplicações e jogos) aos seus perfis. Após estar participando de uma SNS, o usuário deve identificar outros usuários da rede social os quais possui um relacionamento. A nomenclatura desses relacionamentos variam de site para site, podendo ser “Amigos”, “Contatos”, “Fãs” e “Seguidores”. A maioria das SNSs exigem uma confirmação bidirecional para criação do relacionamento de amizade, entretanto outras não fazem essa exigência. A nomenclatura das conexões criadas de forma unidirecional são comumente “Fãs” ou “Seguidores”, mas não é uma regra. O termo “amigos” pode ser enganoso, porque a conexão não significa necessariamente uma amizade, no termo literal, afinal as razões pelas quais as pessoas se conectam à outras pessoas são variadas (BOYD, 2006). Por concentrar quantidade expressiva de informações, existem vários estudos de mineração de dados em redes sociais online. Tradicionalmente, os modelos construídos para análise dessas redes são descritivos e não preditivos. Porém, um trabalho muito relevante pode ser feito para prever o comportamento futuro da rede. Tipicamente, essas redes possuem dezenas de milhões de nós (usuários), e muitas vezes contêm quantidades substanciais de informação ao nível dos nós individuais, suficientes para construir modelos Capítulo 2. Estado da Arte 18 de predição desses indivíduos, conforme (DOMINGOS, 2005). Neste projeto, a rede social online escolhida para coleta de informações e estudo dos comportamentos dos usuários foi o Twitter. Informações divulgadas pela empresa, referente aos dados de outubro de 2013, apontam que atualmente existem mais de 904 milhões de usuários cadastrados, porém apenas 232 milhões são usuários ativos, e um número em torno de 500 milhões de mensagens são enviadas diariamente na rede2 . Ainda, 24% do total de usuários do Twitter são usuários Norte-Americano e o Brasil ocupa a quinta colocação com 4,3% deste total, o que corresponde a aproximadamente 10 milhões de usuários. No twitter, usuários podem enviar mensagens de até 140 caracteres. São mensagens curtas e objetivas, muitas vezes com link para o conteúdo citado de forma completa, principalmente quando o usuário é uma empresa ou agência de notícias. É muito eficiente para a difusão de informações visto que as mensagens, chamadas tuítes, são exibidas para todos os seguidores do usuário remetente. A funcionalidade seguir é utilizada por um usuário A quando este deseja ser informado dos tuítes enviados por um usuário B e também pode ser utilizada como uma forma de expressar amizade entre duas pessoas. Outras funcionalidades importantes do Twitter são: retuíte e menção. Quando um usuário lê um tuíte o qual ele se interessa e deseja que seus seguidores também o vejam, ele pode retuítar o tuíte de interesse e fazer com que essa mensagem seja espalhada na rede dos seus seguidores. A menção, por sua vez, é representa pelo comando @usuario_mencionado e é utilizada quando um usuário A deseja citar um usuário B em seu tuíte. Essas duas funcionalidades são essenciais para a difusão de informações nesta rede social e serão analisadas neste trabalho. É importante mencionar que existe uma política de privacidade no Twitter. O usuário pode configurá-la para que seus tuítes sejam privados e somente pessoas autorizadas possam visualizá-los. Outra opção de configuração é a busca através do e-mail do usuário que pode ser desabilitada. Neste trabalho, somente os tuítes públicos foram coletados para pesquisa. 2.3 Redes Complexas Para o claro entendimento da arquitetura de uma rede social online, é necessário conhecer o que são as redes complexas. (NEWMAN, 2003) afirma que os sistemas no formato de rede são muito comuns na natureza, por exemplo, a Internet, a World Wide Web, rede de colaboração de atores em bancos de dados de filmes, sistemas biológicos como redes neurais ou redes de proteína (STROGATZ, 2001). Portanto, a área de Redes 2 http://www.mediabistro.com/alltwitter/twitter-ipo-filing_b50130 acessado em 09 de dezembro de 2013. Capítulo 2. Estado da Arte 19 Complexas que analisa redes da natureza é multidisciplinar, podendo estar relacionada à áreas com foco em gerar conhecimentos qualitativos, ao explicar determinados fenômenos, ou à áreas que se propõem a fornecer ferramentas quantitativas para o estudo das redes, oferecendo suporte à validação das conclusões de teorias qualitativas. A principal ferramenta de estudo das redes complexas é a Teoria dos Grafos, oriunda da área da Matemática Discreta. (NEWMAN, 2003) define redes como sendo um conjunto de objetos, que podem ser chamados de vértices e/ou nós, os quais possuem conexões entre eles, chamadas arestas e estão representadas na figura 1. Do ponto de vista da arquitetura de uma rede social online, é claramente identificável uma topologia de grafos, onde os usuários são vértices e as conexões de amizades, compartilhamento de conteúdo e recomendações são as arestas. Figura 1 – Exemplo de rede no formato de grafo A teoria dos grafos surgiu em 1736, na antiga Prússia, hoje Rússia, quando Euler solucionou o problema das pontes de Königsberg. O problema consistia em sete pontes e os moradores desta cidade discutiam a possibilidade de atravessar todas elas sem nenhuma repetição. Euler provou a impossibilidade da teoria através de um grafo (BOCCALETTI et al., 2006). Ao longo dos anos, a Teoria dos Grafos continuou a ser utilizada para resolver problemas pequenos, com poucos nós e vértices. O primeiro modelo de redes complexas surgiu com a proposta dos pesquisadores Erdös e Rényi, em 1959, baseado em grafos aleatórios. Essa proposta afirmava que as conexões entre os nós eram estabelecidas de forma aleatória. Este foi o primeiro e muito importante passo no estudo de modelos de redes complexas. No entanto, essa teoria não se aplica à realidade das redes reais da natureza conforme foi comprovado por (BARABÁSI; ALBERT, 1999). Com o crescimento da Internet e a evolução computacional, foi possível analisar enormes redes reais e, consequentemente, suas características passaram a ser conhecidas. Assim, novos modelos de redes complexas surgiram, como o de Rede de Mundo Pequeno, proposto por (WATTS; STROGATZ, 1998), e o de Redes Sem Escala, proposto por Barabási e Albert(BARABÁSI; ALBERT, 1999). Capítulo 2. Estado da Arte 20 As redes sociais são distribuídas de acordo com a lei de potência das redes semescala, que prediz que poucos vértices são altamente conectados, enquanto outros possuem proporcionalmente um número muito pequeno de arestas. Os vértices altamente conectados, isto é, nós com mais ligações do que a média, são chamados de “Hubs”. Os hubs representam um importante papel dentro do estudo da propagação de informação, visto que uma de suas características é diminuir a distância entre pares de vértices e conectando sub-redes. As redes que possuem essa característica são denominadas redes sem escala. A fim de possibilitar a interpretação das leis de potência em redes e grafos que serão utilizadas neste trabalho, são apresentadas a seguir algumas métricas de redes complexas. Para um entendimento mais profundo, é recomendado a leitura do trabalho de (NEWMAN, 2003). • Grau dos Vértices: É a quantidade de relacionamentos (arestas) de um nó (vértice). Esses relacionamentos podem ser bidirecionados ou direcionados: grau de saída e grau de entrada. • Coeficiente de agrupamento (CA): O coeficiente de agrupamento de um vértice é uma medida que caracteriza agrupamento e possui destaque especial na teoria das redes complexas. Ele é dado através da probabilidade de se encontrar uma triangulação em uma tripla de vértices. Isto é, dado que o vértice a está conectado ao vértice b e c, o CA é a probabilidade de que b esteja conectado a c. O cálculo é aplicado a todos os vértices adjacentes e o resultado é um valor entre 0 e 1. O CA de um grafo é a média entre o CA de seus vértices. • Assortatividade: De acordo com (NEWMAN, 2002), assortatividade é uma medida típica de redes sociais. Uma rede exibe propriedades assortativas quando vértices com muitas conexões tendem a se conectar a outros vértices com muitas conexões. Para caracterizar a assortatividade de uma rede, medimos o grau médio de todos os vizinhos dos vértices com grau k, dado por knn(k). A assortatividade ou disassortatividade de uma rede é geralmente estimada avaliando os valores de knn(k) em função de k. Valores crescentes indicam assortatividade, isto é, vértices com graus maiores tendem a se conectar a vértices com um número maior de conexões. Valores decrescentes indicam uma rede disassortativa. • Betweenness: É uma medida relacionada à centralidade dos vértices ou de arestas na rede. O betweenness B(e) de uma aresta e é definido como o número de caminhos mínimos entre todos os pares de vértices em um grafo que passam por e. Se existem múltiplos caminhos mínimos entre um par de nós, cada caminho recebe um peso de forma que a soma dos pesos de todos os caminhos seja 1. Capítulo 2. Estado da Arte 21 2.4 Análise de Influência em Redes Sociais Online (SUN; TANG, 2013) afirmam que a influência social é a mudança de comportamento de uma pessoa por causa da relação percebida com outras pessoas, organizações e sociedade em geral. Conforme (NEWMAN, 2003), as redes também têm sido estudadas extensivamente nas ciências sociais. Na década de 1930, sociólogos perceberam a importância dos padrões de conexão entre as pessoas para compreender como funciona a sociedade humana. Estudos de redes típicos da sociologia envolvem a circulação de questionários, perguntando aos entrevistados para detalhar suas interações com os outros. Pode-se então usar as respostas para reconstruir uma rede na qual os vértices representam os indivíduos e as arestas representam as interações entre eles. Questões típicas que buscam ser respondidas em redes sociais são relacionadas à centralidade (quais indivíduos são mais ligados a outros ou tem mais influência) e conectividade (como os indivíduos estão ligados uns aos outros através da rede). O trabalho de (LIU et al., 2012) desenvolveu um modelo para identificação da topologia da rede formada a partir da amostra coletada no Facebook, modelo este que parte de duas hipóteses: 1. Usuários com interesses similares possuem forte influência uns sobre os outros. 2. Usuários os quais as ações frequentemente se correlacionam também possuem forte influência uns sobre os outros. (LIU et al., 2012) observam que a influência do usuário existe quando tem relações de similaridade. Em redes reais, a semelhança pode ser calculada com base no conteúdo de informação associada a cada usuário. Por exemplo, na rede de citação, se o conteúdo do documento D1 é muito semelhante ao documento D2, podemos considerar que D1 “copia” várias ideias de D2, assim D1 é muito influenciado por D2. Ainda, a frequência de recorrência entre usuários é comumente usada para indicar a força de correlação entre os dois nós, que é indicado pelos pesos das arestas em redes. Assim, a força de influência entre dois nós seria ampliada por meio da frequente recorrência entre eles. Por exemplo, se um autor A cita uma série de artigos do autor B, então A deve ser fortemente influenciado por B. No Twitter, por exemplo, se o usuário A “retuíta” ou menciona muitas mensagens postadas pelo usuário B, então é muito provável que B tem uma forte influência sobre A. Com base nestas considerações, (LIU et al., 2012) propõe um modelo probabilístico gerador capaz de aprender conjuntamente os interesses dos usuários e a força que existe na influência direta entre os usuários, de forma quantitativa, através de técnicas de mineração de dados. Capítulo 2. Estado da Arte 22 (HAND; MANNILA; SMYTH, 2001) descreve o conceito de mineração de dados (em inglês, data mining) como sendo a análise de um conjunto de dados, frequentemente um grande conjunto de dados, a fim de identificar relações inesperadas e organizar os dados de um novo modo, um novo ponto de vista, para que possa ser entendível e utilizável. O interesse em extrair informações valiosas e não previstas em grandes bases de dados é crescente. A evolução em tecnologias de armazenamento de dados e na obtenção de dados digitais resultou em um grande crescimento de bases de dados robustas. Dados de transações de supermercado, registros de cartões de crédito, detalhes de ligações telefônicas, estatísticas governamentais, base de dados de moléculas, registros medicinais e base de dados de redes sociais, são alguns exemplos de áreas que possuem um vasto volume de dados digitais armazenados. Muitas técnicas de análise estatísticas utilizam dados que são coletados através de estratégias eficientes para responder questões específicas. Diferentemente da análise de mineração de dados que, segundo (HAND; MANNILA; SMYTH, 2001), tem como objetivo encontrar conexões entre dados em uma coleção de dados independente da estratégia de como esses dados foram obtidos. Por esta razão, o termo “mineração de dados” é frequentemente utilizado como uma análise de dados secundária. Para a análise em um pequeno conjunto de dados, seria necessário apenas discutir os conceitos clássicos de exploração de dados, já praticados pelos estatísticos. Quando o analista se depara com um enorme conjunto de dados surgem novos problemas. Alguns desses problemas estão relacionados a como armazenar os dados e mantê-los acessíveis, porém outros se referem à questões fundamentais: como determinar a representatividade dos dados, como analisar os dados em um prazo razoável e como decidir quando uma relação aparente é meramente uma ocorrência casual e que não reflete a realidade. Normalmente, a análise dos dados se baseiam na generalização de uma amostra da população. Essas análises são realizadas, por exemplo, para prever o comportamento futuro de consumidores ou determinar as propriedades de estruturas de proteínas que ainda não foram descobertas. Porém, como afirmam (HAND; MANNILA; SMYTH, 2001), muitas informações não são possíveis de serem identificadas através de abordagens padrões de estatística porque muitas vezes os dados não são amostras aleatórias, mas sim amostras de conveniência ou de oportunidade. Muitas vezes os dados são generalizados para facilitar a compreensão do resultado, por exemplo a análise do censo completo de um país específico ou uma base de dados com milhões de registros de transações financeiras, porém nem sempre o resultado obtido da generalização se aplica à toda a base. As seguintes etapas devem ser realizadas durante o processo de análise de bancos de dados volumosos: seleção dos dados necessários, pre-processamento dos dados, transformação (se necessário), executar algoritmos de mineração de dados para extrair padrões e relacionamentos e, em seguida, interpretar e avaliar as estruturas descobertas. Capítulo 2. Estado da Arte 23 Existem alguns tipos de categorias de análise na mineração que são utilizadas para extrair informações dos dados selecionados, por exemplo: análise exploratória de dados (EDA, em inglês), modelo descritivo, modelo de predição: classificação e regressão, associação, recuperação de conteúdo - comumente utilizada para análise de textos e imagens (HAND; MANNILA; SMYTH, 2001). Modelos preditivos tem como objetivo permitir que o analista preveja um valor desconhecido de uma variável de interesse, a partir dos valores conhecidos e outras variáveis. Um exemplo pode ser o diagnóstico médico de um paciente a partir dos resultados de uma série de testes. Outro exemplo é estimar a probabilidade em que um consumidor comprará o produto A a partir de uma lista de vários produtos que ele já comprou. Este trabalho está utilizando o modelo de árvore de decisão para classificar e prever quais tuítes tem tendência a serem influentes. Este método funciona como um fluxograma em forma de árvore, onde cada nó (não folha) indica um teste feito sobre um valor (por exemplo, quantidade_de_caracteres > 20). As ligações entre os nós representam os valores possíveis do teste do nó superior, e as folhas indicam a classe (categoria) a qual o registro pertence. Dessa forma, uma vez que se tem o modelo definido, basta aplicar novos tuítes neste fluxo da árvore (mediante os testes nos nós não-folhas) começando no nó raiz até chegar a uma folha. No entanto, é necessário analisar detalhadamente os dados que serão colocados como entrada do algoritmo para garantir bons resultados. A figura 2 exemplifica uma árvore de decisão como um modelo para saber quais clientes são propensos a comprar um determinado produto (na maior parte das vezes homens entre 20 e 30 anos). Figura 2 – Exemplo de Árvore de Decisão 2.5 Trabalhos Relacionados A pesquisa aqui desenvolvida envolve o estudo de diferentes áreas. Foram estudados trabalhos em redes sociais, marketing, mineração de dados, redes complexas e redes de recomendações. Essas áreas trabalham com conceitos ou possuem estruturas que permitem a análise de influência entre usuários, objetivo geral deste trabalho. Capítulo 2. Estado da Arte 24 Aplicando técnicas de mineração de dados em redes sociais, (DOMINGOS, 2005) desenvolveu um modelo que permite medir o valor da rede de um cliente. Para cada cliente, o modelo identifica qual a probabilidade de um cliente comprar algum produto, em função das propriedades intrínsecas entre o cliente e o produto e da influência de vizinhos do cliente na rede social. Seu principal interesse é a relação entre o cliente e produtos ao invés de a propagação da informação por um cliente. (ARTHUR et al., 2009) gerou modelos estatísticos com o objetivo de elaborar estratégias de vendas e aumentar a probabilidade de receita de uma empresa. Sua estratégia baseia-se na exploração e influência em redes sociais cruzando informações de geração de receita a partir de cada usuário da rede. Seu modelo oferta um produto gratuitamente e analisa a influência gerada a partir desta venda gratuita posteriormente no processo. Não é analisado o comportamento dos usuários, mas sim, a relação de receita de um produto antes e depois de informações obtidas na rede. (NEWMAN, 2005) e (BORGATTI; EVERETT, 2006) analisaram redes complexas baseada em sua centralidade. (BORGATTI; EVERETT, 2006) desenvolveu um framework para medir centralidade durante análises de redes sociais. (NEWMAN, 2005) utilizou a métrica de intermediação (betweenness) e afirma que que esta métrica é, de certa forma, uma medida de influência que um nó possui sobre a disseminação de informações através da rede. A variação do método proposto por este autor é que seu algoritmo não considera somente os caminhos mais curtos, mas sim todos os caminhos que envolvem os vértices e seus relacionamentos. Na presente pesquisa, somente algumas métricas de redes complexas serão utilizadas, não explorando o assunto como um todo. Além de estudar métricas de redes complexas, também se fez necessário o estudo de trabalhos em redes de recomendação para conhecer as técnicas utilizadas. (TOGNERI, 2013) estudou a importância das localidades geográficas na difusão online de informação, fornecendo, dentre as principais contribuições, uma metodologia para análise de recomendações através da localidade das pessoas. (MINHANO, 2010) teve como objetivo e principais contribuições a caracterização do comportamento dos usuários de uma rede de recomendações, a demonstração da sobreposição de perfis dos usuários nas redes de recomendações e social online e a demonstração empírica das relações sociais que são invisíveis aos profissionais de marketing no momento de criação de suas campanhas em uma base de dados com, aproximadamente, 21 milhões de usuários e 80 milhões de relações entre eles. Utilizando técnicas de mineração de dados, o estudo de (JUNIOR, 2014) analisou redes de computadores e Redes Definidas por Software, a fim de prever os fluxos de pacotes e instalar, com antecipação, esses fluxos nos switches para minimizar as consultas enviadas por um switch ao controlador, autorizando a comunicação antes da chegada do primeiro pacote e aumentando a eficiência nessa comunicação. Essas técnicas podem ser manipuladas e aproveitadas na pesquisa por redes de influência. Capítulo 2. Estado da Arte 25 Para estudos de influência em redes sociais, (KIMURA et al., 2010) pesquisou uma solução para otimizar a busca combinatória por usuários influentes em redes sociais de larga escala, dado que essa análise necessita grandes processamentos computacionais. Utilizando-se de redes reais de larga escala, como redes de blogs, aplicou seu método e obteve melhor performance do que métodos convencionais. Diferentemente da presente pesquisa, o autor não faz coleta em redes sociais online. (KWAK et al., 2010) estudaram influência na rede social Twitter. Compararam três diferentes medidas de influência - número de seguidores, o ranking de mensagens da página dos usuários (page-rank), e número de retuítes - descobrindo que o ranking dos usuários mais influentes é diferente dependendo da métrica utilizada. (WENG et al., 2010) comparou o número de seguidores e o page-rank com uma medida de page-rank modificada que representaram os tópicos, e também descobriu que a classificação depende da medida de influência utilizada. (CHA et al., 2010) tem como objetivo analisar a rede social Twitter como meio de difusão de notícias e estudou os tipos e graus de influência na rede. Para tal analise, criou ranking de usuários mais influentes a partir das métricas de retuíte e menções e comparou a força de associação entre as métricas utilizando a teoria de “Spearman’s rank correlation coefficient”. O presente trabalho se diferencia deste porque não fez cruzamentos entre os tópicos para encontrar usuários em comum e analisar sua influência desta forma e também não se limitou à análise de informações por somente notícias. Já o artigo de (BAKSHY et al., 2011), se diferencia do trabalho de (CHA et al., 2010) e deste trabalho principalmente por fazer análise de influência somente dos tuítes que continham links (URL). Seu objetivo não era identificar a influência dos usuários, mas sim o espalhamento de links externos pela rede do Twitter. (GABIELKOV; RAO; LEGOUT, 2014) afirma ter coletado todo o grafo social do Twitter, somando 505 milhões de usuários conectados através de 23 bilhões relacionamentos. Os autores também afirmam que esta é a maior e mais completa coleta realizada no Twitter. Segundo (GABIELKOV; RAO; LEGOUT, 2014), a propagação da informação é uma combinação de dois fenômenos. O primeiro fenômeno é que o conteúdo da mensagem enviada na rede social irá determinar sua probabilidade de ser retransmitida. O segundo, é que a estrutura do grafo social irá restringir a propagação das mensagens. O artigo foca no segundo fenômeno, ou seja, como a estrutura do grafo social do Twitter restringe a propagação de informações. A pesquisa de (GABIELKOV; RAO; LEGOUT, 2014) se difere desta pesquisa porque se baseia em identificar grupos de usuários que não estão mais utilizando a rede, grupos de usuários que fazem spam e grupos de usuários regulares. Identificou também que os registros do Twitter no ano de 2009 não representam mais a atual estrutura do grafo e exploram a evolução temporal para entender as diferenças de utilização do Twitter desde sua Capítulo 2. Estado da Arte 26 criação. (MEEDER et al., 2011) examinou um grafo formado por, aproximadamente, 1.800 celebridades do Twitter e 862 milhões de relacionamentos e concluiu que a representação da estrutura do grafo e seu crescimento sofre influência direta de eventos do mundo real e mudanças na interface do Twitter para recomendação de usuários. (BRODER et al., 2000), por sua vez, faz um estudo analisando a Web como uma rede de grafo. Os vértices desse grafo são as páginas estáticas e os relacionamentos são os links que cada página faz referenciando outra página Web. Dentre as análises realizadas faz parte a visão da estrutura macroscópica que serviu de base para o trabalho de (GABIELKOV; RAO; LEGOUT, 2014). Suas principais contribuições foram: elaboração de estratégias para coletar dados na web, entender o comportamento da criação de conteúdo web, predição da evolução das estruturas Web. Este trabalho se assemelha a esta pesquisa por tratar os dados coletados como grafos, no entanto seu objetivo não é analisar influência de usuários e sua base de dados é composta por páginas Web e não pela rede social Twitter. Baseado em dados coletados do Twitter, (SHARMA et al., 2012) focou, em seu estudo, na análise semântica de metadados coletados, como nome e descrição dos usuários. Seu objetivo foi fornecer uma base para construção de melhores serviços de busca e recomendação no Twitter. Utilizou a métrica da quantidade de seguidores do usuário para criar um ranking dos usuários mais influentes e especialistas em um determinado tema. Relacionado a este trabalho, (WENG et al., 2010) e (PAL; COUNTS, 2011) utilizaram características extraídas do grafo do Twitter e dos tuítes postados pelos usuários para identificar se um usuário está relacionado a um determinado tópico. As pesquisas citadas nesta seção serviram de base para os estudos de influência em redes sociais online. Diferentes áreas pesquisando em torno do mesmo tema permite uma análise macro do problema. Sendo assim, este trabalho pôde aproveitar algumas técnicas de cada área específica. 27 3 Metodologia Para o cumprimento do objetivo deste trabalho, a metodologia desenvolvida compreende os seguintes passos: 1. Extração de dados do Twitter 2. Análise de influência por contagem de Retuítes e Menções 3. Análise de influência por métricas de Redes Complexas e algoritmo TunkRank 4. Identificação das características presentes em conteúdos virais 5. Análise de comportamentos por algoritmos de mineração de dados 3.1 Passo 1: Extração de dados do Twitter O primeiro passo é a extração de dados do Twitter. A extração será feita através do protocolo HTTP, o qual fará requisições de dados ao servidor do Twitter e terá como resultado um conjunto de dados no formato JSON. Entretanto, o Twitter exige que seja enviado na requisição uma chave de acesso e uma chave secreta. Para obtenção dessas duas chaves, é necessário o registro de um novo aplicativo por seu usuário da rede social1 . A figura 3 exibe as informações do aplicativo criado. O Twitter disponibiliza uma ferramenta própria para desenvolvedores executarem requisições HTTP e analisarem a estrutura de dados retornada, denominada Twitter Explorer2 , e é nesta ferramenta também que é possível gerar a chave de acesso para requisições próprias. Os usuários do Twitter definem as permissões de visibilidade dos seus dados pessoais, informa se o aplicativo pode ler os tuítes da sua linha do tempo, informa se o aplicativo pode visualizar seus seguidores e a quem você segue, atualizações do seu perfil e tuítes postados pelo usuário. Os níveis de visibilidade de uma informação pode ser: público, somente pessoas autorizadas pelo usuário ou privadas. Se a permissão for pública, significa que qualquer usuário do Twitter pode visualizá-la. Sabendo disso, apenas os tuítes definidos como públicos serão coletados nesse trabalho para análise. A figura 4 demonstra o resultado de uma requisição de dados da linha do tempo do usuário “Davi Zanotto” utilizando o Twitter Explorer. Note que a coluna “Request” exibe a requisição HTTP dos dados e a coluna “Response” exibe os dados retornados, no formato JSON: 1 2 https://dev.twitter.com/apps/new https://dev.twitter.com/console Capítulo 3. Metodologia 28 Figura 3 – Informações do aplicativo criado no Twitter Figura 4 – Exemplo de requisição de dados utilizando Twitter Explorer Entretanto, esta ferramenta é muito limitada no sentido de consultar e extrair dados, pois é necessário a intervenção do analista para informar o ID de usuário que se deseja consultar e as informações retornadas precisam ser analisadas manualmente. Por esta razão, foi desenvolvido um algoritmo que faz as requisições HTTP e armazena os dados em arquivos. Este algoritmo, desenvolvido na linguagem Python, utiliza Capítulo 3. Metodologia 29 a biblioteca Python-Twitter que é responsável por encapsular os métodos HTTP da API do Twitter. Utilizando esta biblioteca, não é necessário que o programador desenvolva requisições GET ou POST, ao invés disso, o programador utilizará métodos já existentes dessa biblioteca para consultar os dados. Por exemplo, o programador não precisará enviar a requisição HTTP da forma como no exemplo da figura 4. A requisição será realizada apenas com a chamada do método pythonT witter.userT imeline(). Para coleta de dados no Twitter, existem duas APIs com diferentes objetivos: 1. REST API: tem como objetivo consultar dados de histórico dos usuários, como tuítes enviados, dados pessoais, seguidores, dentre outras informações de histórico dos usuários. 2. Streaming API: seu objetivo é criar uma conexão ativa com o servidor do Twitter e, utilizando um filtro de palavras-chave, coletar todos os tuítes enviados desde a criação dessa conexão que contenham essas palavras. Nesse caso, apenas os tuítes enviados a partir da hora em que foi estabelecida a conexão serão coletados. Para o cumprimento do objetivo deste trabalho, a Streaming API é a mais indicada porque será possível fazer coleta em tempo real de assuntos específicos, dados as palavraschave. 3.2 Passo 2: Análise de influência por contagem de Retuítes e Menções Uma vez que já é possível coletar os dados na rede, em tempo real, é necessário definir métricas para avaliar a influência dos usuários. Baseado no trabalho de (CHA et al., 2010), os seguintes dados serão utilizadas: • Quantidade de seguidores; • Quantidade de retuítes; • Quantidade de menções. (CHA et al., 2010) e (BAKSHY et al., 2011) afirmam que a quantidade de seguidores representam a audiência de determinado usuário. Isto porque, no Twitter, quando um usuário envia um tuíte, todos os seus seguidores irão receber essa mensagem. Então, teoricamente, quanto maior a quantidade de seguidores de um usuário, maior será o espalhamento de determinado conteúdo. Capítulo 3. Metodologia 30 A segunda métrica definida, quantidade de retuítes, segundo (CHA et al., 2010), representa o valor do conteúdo de um tuíte. Quando um usuário lê um tuíte e se identifica com este conteúdo, ele tende a retuíta-lo para que os seus seguidores também vejam este mesmo tuíte. Esta funcionalidade é muito poderosa porque é a responsável pela difusão exponencial de conteúdos na rede. É importante citar que esta funcionalidade tem mais poder de difusão de conteúdo do que simplesmente a funcionalidade de seguidores. Ou seja, se um tuíte é enviado por um usuário que possui 100 seguidores, 100 pessoas poderão ver este tuíte; entretanto, se esse tuíte for retuitado por 1 pessoa que tem 1.000 seguidores, mais mil pessoas poderão ver este tuíte. A quantidade de menções representa o valor de nome de determinado usuário(CHA et al., 2010), ou seja, o poder de engajamento de determinado usuário perante os outros. Pessoas públicas e celebridades costumam ser muito mais mencionados do que pessoas comuns. Baseado nesses estudos, a figura 5 exibe a arquitetura construída neste trabalho para coleta, tratamento e análise dos dados: Figura 5 – Arquitetura para descoberta dos usuários influentes Esta arquitetura identifica as etapas necessárias para o identificação dos usuários mais influentes. Entretanto, ela pode ser dividida em dois momentos: 1. Coleta dos dados 2. Tratamento e análise Para a coleta dos dados, será utilizada a Streaming API do Twitter, descrita anteriormente. Todos os tuítes que forem coletados deverão ser armazenados em um arquivo de saída do algoritmo desenvolvido neste projeto. Apesar de todos os campos recebidos do Twitter serem armazenados, os campos utilizados nessa metodologia serão: identificador único do tuíte, data e hora de criação, mensagem, usuário que criou o tuíte, Capítulo 3. Metodologia 31 usuários retuitados (se houver), usuários mencionados (se houver) para cada tuíte coletado. Dessa forma, foi possível diminuir o tamanho do arquivo em 10 vezes comparado ao tamanho total de cada JSON do tuíte. Esse processo de coleta pode durar horas, dias, meses, dependendo apenas da estratégia definida pelo analista. O segundo momento é o tratamento e análise dos dados. Uma vez que milhares de tuítes foram coletados e armazenados em arquivo, é necessário a criação de um algoritmo para tratamento desses dados. Esse tratamento deverá ler os dados e organizá-los em rankings de quantidade de retuítes por usuários e quantidade de menções por usuário. A audiência de um usuário (seguidores) será realizada manualmente em um processo externo. Para isso, um algoritmo foi desenvolvido, também em Python, com este objetivo. Os rankings de retuítes e menções foram gravados em arquivos diferentes e os dados no formato CSV, em que as colunas são separadas por ponto-e-vírgula. Isto porque facilita a análise em um editor de planilhas, como o OpenCalc ou Excel. No entanto, a contagem de retuítes e menções são métricas que indicam somente quais usuários são influentes na amostra coletada. Se utilizando somente dessas métricas, não é possível saber o porquê que este usuário é influente e, ainda, se ele realmente é influente ou se algum outro usuário, o verdadeiro formador de opinião, foi o responsável por difundir seu conteúdo através de retuítes. Sendo assim, outras duas métricas deverão ser utilizadas para validar a métrica de contagem, são elas: 1. Métricas de Redes Complexas 2. Fórmula de Tunk Rank 3.3 Passo 3: Análise de influência por métricas de Redes Complexas e algoritmo TunkRank As métricas de centralidade de redes complexas serão implementada para auxiliar o entendimento de influência dos usuários no Twitter. O objetivo é ranquear os usuários de acordo com a centralidade destes, onde serão analisadas: centralidade de grau, betweenness, closeness e autovetor (semelhante ao PageRank). Para aplicar as métricas citadas, a amostra coletada do Twitter será inserida em um banco de dados de grafos, que faz parte da malha de bancos de dados NoSQL (Not Only SQL) que vêm sendo vastamente utilizada recentemente em projetos de Big Data (CHANG et al., 2008). Existem outros tipos de bancos de dados, além de grafos, como por exemplo: bancos de dados chave/valor e bancos de dados orientados a documentos. Por conta da estrutura das redes sociais online, o banco de dados de grafos faz a melhor Capítulo 3. Metodologia 32 representação dos dados, onde cada usuário é um vértice e seus relacionamentos são as arestas, conforme já foi explicado anteriormente. A grande vantagem de implantar um banco de dados de grafos nesse projeto ocorre porque ele já possui, em sua biblioteca nativa, vários algoritmos de redes complexas implementados. Sendo assim, basta usar a API e chamar seus métodos de betweenness, closeness, menor caminho, dentre outros. Outra opção existente para validar a influência de um usuário é a implementação de um algoritmo recursivo chamado Tunk Rank. Esta função matemática pode ser representada por: Inf luence(X) = (1 + p ∗ Inf luence(Y )) ||F ollowing(Y )|| Y ∈F ollowers(X) X (3.1) (3.2) Onde: • Inf luence(X) é o número esperado de usuários que irão ler um tuíte escrito e postado pelo usuário X, incluindo os retuítes. Para simplificar, o autor assumiu que se uma pessoa ler a mesma mensagem mais de uma vez (por causa dos retuítes), ambas as leituras serão contadas. • Se X é seguidor de Y , então existe uma probabilidade de 1/||F ollowing(X)|| de que X lerá o tuíte postado por Y , onde F ollowing(X) é o conjunto de pessoas que X segue no Twitter. Isso porque todos os tuítes postados por cada um dos usuários que X segue, aparece em sua timeline. • Se X leu o tuíte de Y , então existe uma probabilidade constante p de que X irá retuítar esta mensagem. Claramente, esta fórmula matemática é simplista em suas hipóteses, porém é possível se obter bons resultados quanto à influência de cada usuário. Sua recursividade termina quando o usuário Y não segue outro usuário, retornando 0. Se fez necessário adaptar a fórmula sugerida por Daniel Tunkelang para utilização neste trabalho, porque ela exige que se tenha toda a rede de usuários e seus seguidores até o fim, o que não é viável porque o Twitter não disponibiliza esses dados em tempo hábil. Dessa forma, decidiu-se inserir no banco de dados de grafos todos os usuários que escreveram tuítes coletados via Streaming API, seus seguidores e os seguidores dos seguidores. Ou seja, serão inseridos três níveis na hierarquia de seguidores de um usuário. Essa coleta dos seguidores se dará por largura e não por profundidade. Capítulo 3. Metodologia 33 Outra adaptação necessária é a realização de experimentos para o valor de p da fórmula, visto que a probabilidade de que um usuário retuíte um tuíte não é fixa. Sendo assim, é sugerido que p seja: 1. Igual para todos os usuários, calculado a partir da média de retuítes na amostra (somando todos os retuítes); 2. Individual para cada usuário X, calculado a partir da média de retuítes desse usuário na amostra; 3. Para cada dupla de usuários X e Y, calculado a partir da probabilidade de um usuário Y retuitar um usuário X baseado na amostra. Para validação da influência de um usuário, tanto com algoritmos de redes complexas quanto com o algoritmo recursivo TunkRank, será necessário a inserção dos seguidores de cada usuário da amostra. Para tal, será necessário utilizar a REST API do Twitter se utilizando do método user_lookup. O banco de dados de grafos escolhido para este trabalho foi o Neo4J, por ser o mais consolidado do mercado atualmente. Será utilizada a versão Community, visto que também existe a versão Enterprise que é paga, executando na versão 2.0.1 em um servidor simples, com processador QuadCore, 8GB de memória RAM e 1TB de disco rígido. Em comum entre as técnicas de redes complexas e do algoritmo TunkRank, é necessário a inserção dos seguidores de cada usuário coletado. Contudo, a inserção de seguidores é muito custosa, visto que é necessário enviar uma requisição ao Twitter, utilizando a REST API, a cada 20 seguidores de 1 usuário da amostra. Por dia, é possível inserir, em média, 10 milhões de seguidores no banco. Alguns usuários, por si só, possuem mais que 10 milhões de seguidores. Então, para criação do grafo no Neo4J foi escolhida a seguinte estratégia: • De toda a amostra coletada, escolher um tema e extrair somente 1 milhão de tuítes; • Inserir no Neo4J os 1 milhão de tuítes e os usuários que escreveram e retuitaram cada tuíte, que também tem na amostra, com o relacionamento “Wrote” e “Retweeted”; • Capturar para cada um dos usuários inseridos no Neo4J, seus seguidores via REST API junto ao Twitter; • Inserir os seguidores no Neo4J com o relacionamento “Followed”; • Após algumas semanas de inserção, notou-se a inviabilidade da inserção dos seguidores de todos os usuários. Sendo assim, a estratégia foi alterada para inserir 2 níveis de seguidores dos 30 usuários que tiveram maior contagem de retuítes. Capítulo 3. Metodologia 34 Foi construído então um grafo direcionado e muito volumoso. A figura 6 exibe a tela de administração do Neo4J e seu volume. Este BD possui aproximadamente 33 milhões de vértices e 42 milhões de arestas. Já a figura 7 exibe uma pequena amostra real da estrutura do grafo gerado neste projeto. A estrutura do grafo possui dois tipos de nós (vértices): • User • Tweet e três tipos de relacionamentos (arestas): • Wrote: usuário que escreveu o tuíte; • Retweeted: usuários que retuitaram um tuíte; • Followed: usuários que seguem outros usuários no Twitter. Dentre as propriedades de cada usuário que é armazenado no Neo4J, as seguintes propriedades estão sendo inseridas: • id: identificador único de cada usuário, gerado pelo Twitter; • name: nome do usuário exibido em seu perfil; • screen_name: nome único, que também serve de identificador de um usuário; • created_at: data e hora de criação do perfil; • location: local onde vive o usuário; • friends_count: quantidade total de usuários que este perfil segue; • followers_count: quantidade total de usuários que seguem este perfil; • statuses_count: quantidade total de tuítes criados por este usuário; • listed_count: quantidade total de listas que o usuário está inserido, listas estas criadas por outros usuários • favourites_count: quantidade total de usuários que “favoritaram” este perfil • verified: indicador para saber se é um perfil real, muito útil quando o perfil é de uma celebridade, visto que é possível criar perfis falsos de pessoas famosas. Capítulo 3. Metodologia 35 Figura 6 – Volume de dados no Neo4J Figura 7 – Pequena amostra do grafo criado Não foi possível realizar os experimentos com medidas de redes complexas e com o algoritmo TunkRank porque a inserção de usuários e seus seguidores dentro do grafo não foi finalizada. A reconstrução da rede social Twitter é muito custosa e lenta, então estes testes passaram a fazer parte da estratégia de trabalhos futuros. 3.4 Passo 4: Identificação das características presentes em conteúdos virais Durante pesquisas sobre as características existentes em conteúdos virais, foi possível observar que existem estudos apontando qual o melhor dia para escrever um tuíte, qual o melhor horário, quantos caracteres o tuíte deve possuir, dentre outras características. O pesquisador Dan Zarella publicou um infográfico em seu blog3 analisando as características 3 http://danzarrella.com/infographic-how-to-get-more-clicks-on-twitter.html Capítulo 3. Metodologia 36 de influência em relação à taxa de cliques (CTR - em inglês) que os usuários realizam em URLs dentro dos tuítes. A métrica da taxa de cliques é utilizada para descobrir a proporção da frequência com que as pessoas que visualizam um anúncio clicam nele. Algumas das características exibidas no infográfico, são: • Os tuítes que possuem entre 120 e 130 caracteres são os que possuem maior CTR; • Os tuítes postados entre a sexta-feira e domingo possuem maior CTR do que tuítes postados no resto da semana; • Os tuítes postados durante o final da tarde de um dia possuem maior CTR do que tuítes postados pela manhã ou madrugada. Seguindo esse raciocínio, este passo da metodologia tem o objetivo de identificar as características que podem ser utilizadas para compreender o comportamento dos usuários e dos tuítes na amostra coletada neste trabalho. Através de histogramas será possível entender em quais ocasiões as interações entre os usuários ocorrem. Sabendo-se que as interações entre os usuários são realizadas através de tuítes, retuítes, menções, hashtags, dentre outras funcionalidades fornecidas pelo Twitter, estudar o momento em que estas mais ocorrem pode fornecer uma visão macro (estatística) da amostra, o que irá auxiliar a elaboração de estratégias para criar mensagens mais atrativas a um determinado público. Por exemplo, se neste passo for possível perceber que os tuítes escritos em uma quinta-feira, entre as 20 horas e 23 horas, são relativamente mais retuitados que os tuítes criados nos outros dias e outros horários, provavelmente será uma melhor estratégia criar o conteúdo neste período quando se tem o objetivo de alcançar o maior número de usuários neste tema. Vários cenários podem ser analisados através dos histogramas. A princípio, foram definidos os seguintes cenários: 1. Quantidade de retuítes por dia da semana; 2. Quantidade de retuítes por horário; 3. Quantidade de retuítes por quantidade de hashtags em um tuíte; 4. Quantidade de retuítes por quantidade de imagens em um tuíte; 5. Quantidade de retuítes por quantidade de URLs em um tuíte; 6. Quantidade de retuítes por usuários que são verificados pelo Twitter (usuários oficiais); 7. Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu o tuíte possui; Capítulo 3. Metodologia 37 8. Quantidade de retuítes por quantidade de amigos do usuário que escreveu o tuíte; 9. Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário; Para gerar os gráficos dos cenários acima, será utilizada a mesma base de dados descrita com mais detalhes no passo 5, a seguir. O objetivo dessa base de dados é registrar os tuítes de forma sumarizada, ou seja, é feito um levantamento dos tuítes coletados em JSON, seus metadados são agrupados e sumarizados de acordo com os retuítes de um tuíte origem e, por fim, são inseridos no banco de dados. Dessa forma, é possível fazer o cruzamento das variáveis necessárias para os cenários citados anteriormente. Uma vez realizada a consulta SQL à base de dados e obtendo os resultados exigido no cenário, por exemplo: para o cenário 1 é necessário agrupar os tuítes escritos em cada dia da semana (segunda-feira, terça-feira, etc, até domingo) e somar a quantidade de retuítes recebidos, o resultado é exportado em um arquivo CSV que pode ser visualizado em softwares de planilha eletrônica para manipulação e criação dos gráficos, de acordo com a necessidade. Através da análise desses gráficos, acredita-se que é possível entender melhor a amostra de tuítes coletada e elaborar estratégias mais embasadas quando se desejar criar conteúdo que gere impacto de difusão na rede. 3.5 Passo 5: Análise de comportamentos por algoritmos de mineração de dados Uma outra forma de conhecer os usuários mais influentes da amostra é conhecer o comportamento dos usuários no Twitter e das mensagens que estes costumam propagar na rede. Estes comportamentos envolvem: quais tipos de mensagens e temas costumam escrever, quantos caracteres costumam utilizar, qual horário o usuário costuma estar ativo na rede, utiliza-se de imagens e/ou links em suas mensagens, dentre outras características. O passo anterior dessa metodologia realiza o levantamento de algumas informações deste tipo através de histogramas e permite a análise empírica da distribuição dos retuítes. O grande diferencial deste passo é que, através de algumas técnicas de mineração de dados, um modelo é gerado baseado em todas as variáveis que forem elencadas para serem analisadas, ou seja, é possível analisar uma quantidade maior de cenários, a correlação entre as variáveis e a quantidade de retuítes e o tempo exigido para esse esforço é consideravelmente menor do que a análise via histogramas. O processador do servidor é o responsável pela análise e não o pesquisador de forma empírica. Como já foi citado, é essencial o entendimento desse comportamentos, mesmo que de forma qualitativa, para que seja possível provocar o comportamento viral de um conteúdo, Capítulo 3. Metodologia 38 que é o objetivo principal deste trabalho, como foi citado na introdução. Isto porque, se existir uma fórmula com bom percentual de acerto e baixo valor de falsos-positivo é essencial que o tuíte criado neste trabalho seja aprovado pelo modelo de previsão de tuíte influente. Milhões de dados serão analisados para cada tema escolhido. Desta forma, a técnica de mineração de dados chamada árvore de decisão será aplicada em um banco de dados relacional modelado somente para este fim. Para modelagem e execução dos algoritmos, será utilizada a ferramenta KNIME4 . Pretende-se, então, descobrir quais são as variáveis e valores relevantes para elaboração de um conteúdo com comportamento viral e descobrir como atingir os usuários influentes, visto que estes serão os responsáveis pela disseminação do conteúdo em largaescala e, ainda, descobrir quais são as características dos tuítes que foram influentes. Deverão ser realizados diversos experimentos, variando temas, tipos de escrita e textos, horários, dentre outras variáveis. O software KNIME Analytics Platform é gratuito e disponível para fins de pesquisa, ou seja, sem foco comercial. Neste trabalho, denomina-se modelo o fato de ler dados de determinado repositório, tratá-los e aplicar técnicas de mineração de dados, a fim de gerar uma espécie de “fórmula” que prevê o resultado da variável resposta selecionada pelo usuário. Nesta metodologia, a variável resposta será os tuítes considerados influentes, definidos a partir da quantidade de retuítes recebido. Ou seja, quanto maior a quantidade de retuítes que um tuíte receber, mais influente este é e, consequentemente, mais influente é o usuário que o escreveu. Ou seja, o objetivo deste passo é: gerar um modelo que preveja quando um tuíte será influente baseado nas suas características / comportamento. Para criação de um modelo no KNIME, o usuário deve criar um workflow, ou seja, um fluxo que deverá ser seguido na execução do modelo. Para criação deste fluxo, o usuário arrasta componentes para sua área de trabalho. Existem dezenas de componentes com diferentes funções que são aplicadas desde a leitura de um repositório (arquivo, base de dados, conexão HTTP), tratamento dos dados, aplicação de algoritmos de mineração de dados (como a árvore de decisão que será utilizada neste trabalho) até a gravação da saída do resultado e do modelo gerado. Sabendo-se que o primeiro passo para criação do modelo é a leitura de um repositório com os dados que serão utilizados para treino da árvore de decisão e para predição dos dados, foi criado uma tabela no banco de dados MySQL 5. Esta tabela possui somente os campos que possuem potencial para serem processados na mineração dos dados, a fim de ganhar performance neste processamento. Logo, a tabela foi criada com a seguinte 4 http://www.knime.org/ Capítulo 3. Metodologia 39 estrutura: CREATE TABLE ‘msc_analise_tuíte‘ ( ‘id‘ int(11) NOT NULL AUTO_INCREMENT, ‘id_str‘ varchar(255) DEFAULT NULL, ‘total_rw‘ int(11) DEFAULT NULL, ‘text‘ varchar(200) DEFAULT NULL, ‘text_count‘ int(11) DEFAULT NULL, ‘source‘ varchar(200) DEFAULT NULL, ‘qtde_hashtags‘ int(11) DEFAULT NULL, ‘qtde_urls‘ int(11) DEFAULT NULL, ‘qtde_photo‘ int(11) DEFAULT NULL, ‘qtde_mentions‘ int(11) DEFAULT NULL, ‘created_at‘ varchar(80) DEFAULT NULL, ‘dia_created_at‘ int(11) DEFAULT NULL, ‘mes_created_at‘ int(11) DEFAULT NULL, ‘ano_created_at‘ int(11) DEFAULT NULL, ‘horario‘ varchar(50) DEFAULT NULL, ‘dia_semana‘ varchar(50) DEFAULT NULL, ‘user_created_at‘ varchar(50) DEFAULT NULL, ‘user_dia_created_at‘ int(11) DEFAULT NULL, ‘user_mes_created_at‘ int(11) DEFAULT NULL, ‘user_ano_created_at‘ int(11) DEFAULT NULL, ‘user_qtde_seguidores‘ int(11) DEFAULT NULL, ‘user_qtde_seguindo‘ int(11) DEFAULT NULL, ‘user_qtde_tuítes‘ int(11) DEFAULT NULL, ‘user_qtde_screen_name‘ int(11) DEFAULT NULL, ‘user_qtde_desc‘ int(11) DEFAULT NULL, ‘user_tem_desc‘ varchar(50) DEFAULT NULL, ‘user_tem_url‘ varchar(50) DEFAULT NULL, ‘user_tem_verified‘ varchar(50) DEFAULT NULL, PRIMARY KEY (‘id‘), UNIQUE KEY ‘id_str‘ (‘id_str‘) Como pode-se verificar, as colunas da tabela já são de valores sumarizados, para não ter que realizar a sumarização no momento de execução da criação do modelo de predição. A variável resposta é a total_rw que é a quantidade total de vezes que este tuíte (identificado por id_str) foi retuitado. A abreviação ‘qtde’ refere-se ao termo ‘quantidade’; ‘desc’ refere-se à ‘descrição’; ‘user’ refere-se às variáveis relacionadas ao usuário que escreveu o tuíte. Capítulo 3. Metodologia 40 Para criar o modelo de árvore de decisão é necessário realizar algumas etapas: 1. Entrada de dados: A entrada de dados deve ser realizada a partir de um algoritmo em Python que irá ler os tuítes coletados em JSON e gravar os valores sumarizados por tuíte na base de dados exibida acima. 2. Seleção das colunas / variáveis (comportamentos do tuíte) que serão utilizadas para predição do resultado da variável resposta (total de retuítes): As variáveis utilizadas são as colunas da tabela. Sendo assim, não fizeram parte do modelo de predição as seguintes variáveis: id, id_str, text, created_at, horario, user_created_at e user_tem_verif ied. Com exceção da variável user_tem_verif ied, obviamente essas variáveis foram retiradas do processo do modelo porque não servem para tomada de decisão alguma, visto que são variáveis do tipo texto e com muita variação de valores. A variável de data de criação foi utilizada de forma separada em dias, meses e ano (colunas específicas para cada uma). A variável horário não foi dividida em hora e minuto e por isso não serve para este momento. Porém, a variável user_tem_verif ied indica se o usuário é aquele personagem na vida real. É muito utilizado para validar se pessoas públicas ou famosas são elas na vida real ou se alguém criou um perfil fake (fantasma). Afinal, qualquer pessoa pode criar uma conta no Twitter dizendo ser o Bill Gates, por exemplo. No entanto, o verdadeiro Bill Gates com certeza é aquele único usuário que possui a variável user_tem_verif ied como verdadeira. Intuitivamente, a variável user_tem_verif ied aparentava ter muita relação com a influência de um usuário, visto que parte do princípio que este já é uma pessoa muito conhecida no mundo real. No entanto, constatou-se que ela fazia com que o modelo errasse muito. Isso significa que esta variável não tem forte relação com a influência de um tuíte. Um usuário que não é reconhecido no mundo real, não é uma pessoa pública, consegue sim escrever um tuíte viral. Por esta razão, essa variável foi retirada do modelo. 3. Definir o Limiar: Neste caso, o valor de corte é uma quantidade de retuítes que indique que os tuítes alcançaram a característica viral, ou seja, influente. Para definição de um valor de corte que indicará se um tuíte é ou não influente, baseado na quantidade total de retuítes, é necessário identificar qual o valor que corresponde ao início de uma curva com aumento exponencial de retuítes na amostra. Esta valor será o separador dos tuítes que tem quantidade de retuítes comumente encontrada na amostra (abaixo do limiar), dos tuítes que estão sendo excessivamente retuitados (igual ou acima do limiar). Assim, cria-se a variável resposta com valores 0, quando o tuíte não é influente, ou 1, quando o tuíte é influente. Capítulo 3. Metodologia 41 4. Equalização da amostra: Neste caso, como a variável resposta varia entre 0 (nãoinfluente) e 1 (influente), é necessário que a amostra utilizada para treinamento do modelo de árvore de decisão seja composto por 50% de cada tipo. Caso contrário, o modelo será treinando de forma tendenciosa, podendo gerar uma predição ineficaz e inconsistente; 5. Deve-se definir uma parte da amostra já equalizada para treinamento do modelo. A outra parte será a aplicação para testar a assertividade do modelo criado. Por exemplo, 70% da base para treinamento do modelo e criação da árvore de decisão e os outros 30% para aplicação deste modelo. Ao término da execução, será gerada a matriz de confusão informando a assertividade do modelo e exibindo também a quantidade de falsos-positivos, falsos-negativos, verdadeiros-positivos e verdadeiros-negativos. O workflow da figura 8 trata todos os passos citados acima e deverá ser utilizado para cada um dos cinco temas coletados, retratados na tabela 1. Figura 8 – Workflow de Árvore de Decisão no KNIME Por fim, uma vez criada a árvore de decisão, ou seja, o modelo final, este deve ser exportado para aplicação nos novos tuítes recém coletados para predição de influência. Isto porque o modelo já foi treinado. O workflow na figura 8 possui dois componentes de “Decision Tree Predictor”. O que está mais acima da imagem está sendo usado para o treinamento e exportação do modelo. Já o componente da parte de baixo, está usando o modelo exportado anteriormente, não passando mais por treino. Assim, será possível aplicar o modelo em novos tuítes que estão sendo coletados e prever se estes serão influentes. Se o modelo afirmar que o tuíte possui os comportamentos comuns aos tuítes influentes, estes devem ser acompanhados dia-a-dia para validar se está obtendo muitos retuítes e se irá ultrapassar o valor definido como Limiar. 42 4 Resultados Neste capítulo são descritos os resultados obtidos de acordo com os passos explanados na metodologia elaborada para esta pesquisa. 4.1 Passo 1: Extração de dados do Twitter Baseado na metodologia apresentada na seção anterior, o primeiro passo a ser executado é a coleta dos dados na rede social Twitter. Como citado na seção Metodologia, para realizar a coleta de dados no Twitter utilizando a Streaming API, é necessário determinar palavras-chave que devem estar contidas nos tuítes. Caso estejam contidas, esses tuítes serão coletados. Diferente de outras atividades, a coleta dos dados pode ocorrer de forma paralela, ou seja, por ser um robô que fica coletando os dados, a coleta não precisa parar. A fim de testar o algoritmo de coleta de dados, desenvolvido em Python, primeiramente foram realizadas coletas experimentais de dois temas distintos, por nove dias. Em seguida, o algoritmo passou a fazer coletas que continuam executando até o presente momento e irá continuar até o fim deste projeto. Sendo assim, o primeiro experimento coletou dados sobre o tema “Fórmula 1”, uma corrida automobilística que tem grande audiência ao redor do mundo, e o segundo tema escolhido foi o “Black Friday”, um evento que ocorre poucas vezes ao ano e que é caracterizado por grandes descontos em produtos. Também tem um alcance mundial, visto que vários países, incluindo o Brasil, aderiram a este evento. Ao todo, aproximadamente 3 milhões de tuítes foram coletados durante os nove dias, ocorridos entre os dias 22/11/2013 e 01/12/2013. Mais adiante será explicado o resultado da análise dessas duas coletas. Dado o sucesso da coleta experimental, a coleta de tuítes de outros cinco temas ocorreram entre os dias 03/02/2014 e 13/01/2015. Como pode ser visto na tabela 1 de forma detalhada, foram coletados ao todo aproximadamente 62.140.000 tuítes. Tabela 1 – Tabela com os temas das coletas, período e quantidade de tuítes coletados Tema Início da coleta Fórmula 1 22/11/2013 Black Friday 29/11/2013 Copa do Mundo e FIFA 03/02/2014 Dilma Rousseff 03/02/2014 SuperBowl 03/02/2014 Big Brother Brasil 11/02/2014 Eleições 10/03/2014 Término da coleta 26/11/2013 01/12/2013 13/01/2015 13/01/2015 13/01/2015 13/01/2015 13/01/2015 Total coletado 204.041 2.639.109 41.070.000 4.940.000 3.940.000 10.350.000 1.840.000 Capítulo 4. Resultados 43 O próximo passo é a análise de influência dos usuários cujo tuítes foram coletados, baseado em sua audiência, na contagem dos retuítes e na contagem das menções. 4.2 Passo 2: Análise de influência por contagem de Retuítes e Menções Para facilitar a exibição dos resultados obtidos, esta seção abordará os assuntos na seguinte ordem: análise sobre a Fórmula 1, análise sobre o Black Friday, um comparativo dos resultados entre os dois assuntos e uma discussão sobre os resultados dos cinco temas presentes na tabela 1. 4.2.1 Análise sobre a Fórmula 1 O tema “Fórmula 1” foi escolhido porque, na época da coleta, era uma corrida especial: marcou a última corrida da temporada atual, foi a última corrida de um dos grandes pilotos (Mark Webber) que se aposentou e foi a corrida de despedida do brasileiro Felipe Massa da equipe Ferrari. A coleta ocorreu entre os dias 22/11/2013 e 26/11/2013 e 204.041 tuítes foram coletados, utilizando as seguintes palavras-chave como entrada da Streaming API: 0 f ormula10 ,0 interlagos0 ,0 #F 10 ,0 #BrazilianGrandP rix0 ,0 #F ormulaOne0 Seguindo a metodologia, esses tuítes foram separadas em dois outros arquivos, com o ranking de retuítes por usuário e menções por usuário. A primeira análise consistiu em observar os 20 usuários mais retuitados (top 20) da amostra. Percebeu-se que os primeiros usuários são responsáveis por grande parte dos conteúdos mais retuitados, como mostra o gráfico 9. Este gráfico também evidencia que a audiência do usuário que envia o tuíte não tem relação direta com a propagação deste. É possível verificar usuários com grande audiência e menos retuítes do que outros. Um fator curioso é a diferença de retuítes entre o usuário mais retuitado (top 1) e o 20o usuário, o usuário a3formula1 possui aproximadamente 4.000 retuítes e o usuário andyhone possui pouco menos de 1.000 retuítes. E essa quantidade tende a ser linear no gráfico para o restante dos usuários. Por outra perspectiva, é possível verificar, nas figuras 10a e 10b, a utilização da funcionalidade retuíte e o impacto que o TOP 20 usuários mais retuitados tem perante os outros. É possível observar que, de todos os tuítes coletados nessa amostra, 42% são retuítes. Isso indica que a rede social Twitter é significativamente importante para a difusão de conteúdo, visto que muitos usuários fazem questão de enviar para seus seguidores um Capítulo 4. Resultados 44 Figura 9 – Ranking dos 20 usuários mais retuitados e sua audiência referente ao tema Fórmula 1 (a) Participação de retuítes na amostra total de tuítes (b) Representação dos 20 usuários mais retuitados em comparação com os tuítes de todos os outros usuários da amostra Figura 10 – Comparativo dos retuítes para o tema Fórmula 1 conteúdo que eles acharam interessante, um conteúdo de valor. Os outros 58% são tuítes originais e não repetidos. Também é possível observar que a soma da quantidade de retuítes dos 20 usuários mais retuitados representa 31% de todos os retuítes da amostra, que contém 9.653 usuários. Dessa forma, foi possível identificar os usuários que são responsáveis pela maior parte da difusão de conteúdo na rede, representada pela métrica quantidade de Retuíte. Analisando a métrica Menções, os mesmos gráficos foram gerados para facilitar a comparação entre as duas funcionalidades (retuítes e menções). Como pode ser analisado na figura 11, a hipótese de (CHA et al., 2010) com relação às menções – que são mais utilizadas para usuários que causam engajamento, como celebridades – também é verdadeira neste trabalho. Os três primeiros usuários mais mencionados são, respectivamente: Mark Webber, Fernando Alonso e Felipe Massa, três Capítulo 4. Resultados 45 pilotos que disputavam esta corrida. Mark Webber foi o usuário mais mencionado da amostra, apesar de não ter a maior audiência (representada em logaritmo de 10 na figura 11) indicando, novamente, que a audiência quando analisada de forma isolada, não tem grande significado neste projeto. Figura 11 – Ranking dos 20 usuários mais mencionados e sua audiência referente ao tema Fórmula 1 Assim como o gráfico do TOP 20 usuários mais retuitados, este gráfico de menções também tem uma tendência linear após o vigésimo usuário, em que a quantidade de menções vai reduzindo pouco a pouco. Está métrica não representa a difusão do conteúdo na rede, entretanto, identifica os usuários que causam engajamento sobre determinado assunto e isso pode ser utilizado estrategicamente para este objetivo. Do ponto de vista de marketing, por exemplo, é possível comprovar que é mais valioso patrocinar o piloto Mark Webber do que o Grojean, pois o Mark Webber é o centro das atenções. Porém, para validar esse exemplo, é importante também analisar o conteúdo da mensagem que estão mencionando este piloto para saber se são mensagens positivas ou negativas, o que foge do escopo deste projeto. Novamente, analisando por outra perspectiva, é possível verificar o comportamento da funcionalidade de menções no Twitter. A figura 12a mostra que de todos os tuítes coletados, apenas 25% contém menção. A grande maioria dos tuítes não fazem menção à outro usuário, um comportamento diferente comparado à funcionalidade retuíte que representa quase a metade da amostra. A figura 12b exibe a participação dos 20 usuários mais mencionados perante todos os outros usuários mencionados e é possível observar que quase metade das menções realizadas nessa amostra (43%) foram para estes usuários. Os outros 57% das menções que ocorreram estão divididas para 9.600 usuários. Com esses dados, foi possível identificar os usuários mais importantes do processo Capítulo 4. Resultados (a) Participação de menções na amostra total de tuítes 46 (b) Representação dos 20 usuários mais mencionados em comparação com a quantidade de menções de todos os outros usuários da amostra Figura 12 – Comparativo das menções para o tema Fórmula 1 de difusão de conteúdo relacionado ao tema Fórmula 1. Foi possível verificar que poucos usuários são responsáveis por grande espalhamento das informações e que a audiência dos usuários não é uma métrica que deve ser analisada de forma isolada, pois não revela muita coisa. Também foi possível identificar quais usuários causam maior engajamento na rede, através do ranking de menções por usuário. 4.2.2 Análise sobre o Black Friday Assim como na análise do tema Fórmula 1, os mesmos gráficos foram gerados para análise do tema Black Friday. Sobre este tema, o período de coleta se deu entre os dias 29/11/2013 e 01/12/2013. O dia 29 foi exatamente a sexta-feira das promoções por vários países do mundo, o que caracterizou este tema como algum dos principais assuntos tuíteados no dia, denominado trend topics. Dessa forma, foram coletados 2.639.109 tuítes neste pequeno intervalo, utilizando as palavras-chave: 0 blackf riday 0 ;0 blackf riday 0 ;0 blackf raude0 ;0 blackf ridaybrasil0 ;0 blackf raude0 O ponto de partida da análise se deu, novamente, em analisar a quantidade de retuítes por usuário. A figura 13 exibe um gráfico com as métricas quantidade de retuítes e quantidade de seguidores (audiência). Assim como na análise do tema Fórmula 1, é possível perceber que os primeiros usuários são responsáveis por grande parte dos conteúdos mais retuitados e a audiência do usuário não tem relação direta com a quantidade de retuítes. O gráfico exibe a audência dos usuários em milhões. Capítulo 4. Resultados 47 Figura 13 – Ranking dos 20 usuários mais retuitados e sua audiência referente ao tema Black Friday (a) Participação de retuítes na amostra total de tuítes (b) Representação dos 20 usuários mais retuitados em comparação com os tuítes de todos os outros usuários da amostra Figura 14 – Comparativo dos retuítes para o tema Black Friday Constatou-se também que a maioria dos usuários mais retuitados são blogs de notícias, comédias e usuários comuns. Provando novamente que nesta funcionalidade, o valor está no conteúdo enviado na rede e não em quem está enviando. A quantidade de retuítes dessa amostra representa 46% dos dados coletados, ou seja, apenas 54% dos tuítes coletados são únicos. Um valor muito parecido com a amostra do tema Fórmula 1 e é exibido num gráfico de pizza da figura 14a. Entretanto, no tema Black Friday os 20 usuários mais retuitados possuem menos participação quando comparado com todos os outros 261.089 usuários que também tiveram pelo menos um retuíte, representando 13% do total, como é exibido na figura 14b. Dessa forma, foi possível identificar os usuários que são responsáveis pela maior parte da difusão de conteúdo sobre Black Friday na rede, representada pela métrica Capítulo 4. Resultados 48 quantidade de Retuíte. Analisando a métrica Menções, os mesmo gráficos foram gerados para facilitar a comparação entre as duas funcionalidades (retuítes e menções) e também com o tema Fórmula 1. O gráfico dos 20 usuários mais mencionados é um pouco diferente deste mesmo gráfico quando o tema é Fórmula 1. É possível verificar na figura 15 que a distribuição das menções é mais equilibrada, não deixando que o primeiro usuário seja muito mais mencionado que o segundo usuário e assim sucessivamente. Entretanto a diferença da quantidade de menções do usuários mencionado comparado ao vigésimo usuário é alta, mais de 80%. Figura 15 – Ranking dos 20 usuários mais mencionados e sua audiência referente ao tema Black Friday Novamente, os usuários mais mencionados são pessoas públicas e celebridades. Neste caso, este trabalho está tratando perfis de marcas de empresas como pessoas públicas, por conta do tema escolhido, como é o caso das empresas Etsy, Walmart, Amazon, Ebay. Isto porque como este assunto está diretamente ligado à descontos, as empresas que oferecem os descontos são as grandes responsáveis pelo engajamento deste tema. A audiência dos usuários está exibida em logaritmo de base 10 e é possível notar que, novamente, não há relação direta entre a quantidade de menções de um usuário com sua audiência. Analisando a perspectiva de participação das menções em tuítes e das 20 pessoas mais mencionadas perante os outros usuários mencionados, a figura 16 é exibida. A figura 16a comprova que novamente a quantidade de menções realizadas nos tuítes são baixas. Apenas 13% dos tuítes contêm menções a outros usuários. Dentre esses 13%, a quantidade de menções dos 20 usuários mais mencionados representam 22% de todas menções, como é exibido na figura 14b. Os outros 78% das menções realizadas estão Capítulo 4. Resultados (a) Participação de menções na amostra total de tuítes 49 (b) Representação dos 20 usuários mais mencionados em comparação com a quantidade de menções de todos os outros usuários da amostra Figura 16 – Comparativo das menções para o tema Black Friday divididas entre 57.614 usuários. Com esses dados, foi possível identificar os usuários mais importantes do processo de difusão de conteúdo relacionado ao tema Black Friday. Assim como no tema Fórmula 1, observou-se que poucos usuários são responsáveis por grande espalhamento das informações e que a audiência dos usuários não é uma métrica que deve ser analisada de forma isolada. Também foi possível identificar quais usuários causam maior engajamento na rede, através do ranking de menções por usuário e esses usuários, em maioria, são empresas e marcas de vendas e e-commerce, comum para este tema que trata de descontos e vendas. 4.2.3 Comparativo dos resultados entre os dois assuntos A fim de comparar a relação dos retuítes e menções entre os dois temas, foram gerados gráficos de distribuição empírica acumulada. Esse gráfico revelou a relação custobenefício no que se trata lidar com poucos usuários e gerar grande espalhamento de conteúdo na rede. Como pode ser observado na figura 17 e na figura 18, 10% de todos os usuários da amostra são responsáveis por mais de 80% da quantidade de retuítes no tema fórmula 1. Já no tema Black Friday, para alcançar os mesmo 80% de retuítes total da amostra, é necessário analisar 20% dos usuários mais retuitados. Essa diferença indica que o tema fórmula 1 é mais restrito do que o tema black friday, ou seja, proporcionalmente mais usuários gerando conteúdo de valor no tema black friday do que no tema fórmula 1. Essa relação também pode ser verificada quando analisado às menções nos dois temas, nas figuras 19 e 20. Apesar de 5% dos usuários mais mencionados representarem um pouco mais de todos os retuítes da Fórmula 1 comparado ao Black Friday, essa diferença equaliza quando analisados 10% dos usuários em ambos os temas. Ou seja, a funcionalidade Capítulo 4. Resultados 50 de menções tem comportamento parecido em ambos os temas. Figura 17 – Distribuição Empírica Acumulada de Retuítes (Fórmula 1) Figura 18 – Distribuição Empírica Acumulada de Retuítes (Black Friday) Figura 19 – Distribuição Empírica Acumulada de Menções (Fórmula 1) Visto que é comum que as redes sociais reais possuam a característica de distribuição em leis de potência, onde o grau dos vértices é muito desigual, o resultado obtido não é de se surpreender, mas sim, uma comprovação da distribuição de conteúdo no Twitter. Capítulo 4. Resultados 51 Figura 20 – Distribuição Empírica Acumulada de Menções (Black Friday) Baseado neste princípio, aplicamos o mesmo experimento em mais cinco temas coletados, durante o período de junho de 2014: Copa do Mundo e FIFA, Dilma Rouseff, SuperBowl, Big Brother Brasil e Eleições. Novamente, os resultados são semelhantes. Do ponto de vista da coleta dos dados, como citado anteriormente, é necessário definir palavras-chave que representem o assunto escolhido. Para isto, foram realizadas análises de várias hashtags e palavras-chave específicas, de forma empírica, observando o quê e como os usuários do Twitter se relacionam sobre determinado tema. Segue abaixo uma lista das palavras-chave e hashtags definidas para cada tema: • Copa do Mundo e FIFA: ’WorldCup’, ’Fifa’, ’Copa do mundo’ , ’Copa2014’, ’CopaDoMundo’, ’Brazil2014’, ’Brasil2014’ • Dilma Rouseff: ’Dilma’, ’Rousseff’ • SuperBowl: ’#SuperBowl’, ’Super Bowl’ • Big Brother Brasil: ’bbb’, ’bbb14’, ’bbb 14’, ’ficaAline’, ’ficaAlisson’, ’ficaAmanda’, ’ficaAngela’, ’ficaBella’, ’ficaCassio’, ’ficaClara’, ’ficaDiego’, ’ficaFranciele’, ’ficaFran’, ’ficaJunior’, ’ficaLeticia’, ’ficaMarcelo’, ’ficaPrincy’, ’ficaRodrigo’, ’ficaRoni’, ’ficaTatiele’, ’ficaPoly’, ’ficaVagner’, ’ficaValter’, ’ficaSlim’, ’ficaVanessa’, ’foraAline’, ’foraAlisson’, ’foraAmanda’, ’foraAngela’, ’foraBella’, ’foraCassio’, ’foraClara’, ’foraDiego’, ’foraFranciele’, ’foraFran’, ’foraJunior’, ’foraLeticia’, ’foraMarcelo’, ’foraPrincy’, ’foraRodrigo’, ’foraRoni’, ’foraTatiele’, ’foraPoly’, ’foraVagner’, ’foraValter’, ’foraSlim’, ’foraVanessa’, ’clanessa’, ’#FranGo’, ’AlineExpulsa’, ’ancelo’ • Eleições: ’Eleicoes’, ’Eleições’, ’Eleições2014’, ’Eleicoes2014’ Como pode-se observar, existem muito mais palavras-chave para o tema Big Brother Brasil do que para os outros temas. Isso ocorreu porque este tema está relacionado a uma espécie de jogo, um Reality Show, que é transmitido na TV, onde o público deve Capítulo 4. Resultados 52 escolher qual participante irá sair do jogo e, quando tiver somente três participantes, o público deverá escolher o vencedor. Isso através de votos no site da Globo1 . Durante a observação dos relacionamentos sobre este tema, observou-se a criação de times no Twitter, torcendo para cada participante do Reality Show e esses times criaram as hashtags “ficaPARTICIPANTE” e “foraPARTICIPANTE”, onde PARTICIPANTE representa uma pessoa no Reality Show. Contudo, do ponto de vista de espalhamento de conteúdo por tema, não há novidade. Alguns temas são mais concentrados em poucos usuários do que outros. As figuras 21a até 21j exibem a Distribuição Empírica Acumulada (DEA) de como ocorre a concentração de retuítes e menções sobre cada um dos temas. Como se pode observar nos gráficos de Distribuição de Frequência Acumulada dos cinco temas, é possível observar que a ação de retuítes está mais concentradas em menos pessoas do que se for verificadas as menções. Ou seja, é mais difícil ser um usuário muito retuitado do que um usuário muito mencionado. Uma hipótese é a de que a quantidade de usuários que geram conteúdo de relevância dentro da rede social Twitter, consequentemente são mais retuitados, é muito limitada. Primeiro, é preciso ser um pensador; segundo, é necessário estar sempre atualizado; terceiro, é necessário estar gerando conteúdo com alta frequência no Twitter. Enquanto que as menções são distribuídas às celebridades e pessoas famosas que estão relacionadas a cada tema, uma quantidade bem maior visto que essa fama e respeito são obtidos através de outros esforços e não da interatividade dentro do Twitter. Normalmente estes esforços estão relacionados às profissões dos usuários. Também é possível observar que o tema Big Brother Brasil possui a maior concentração de menções do que os outros temas, onde 10% dos usuários mencionados já representam, aproximadamente, 90% do total de menções da amostra, seguido dos temas: Dilma Rousseff, Copa do Mundo e FIFA, SuperBowl e Eleições. O tema Eleições é o tema onde as menções de retuítes estão mais espalhados. No entanto, menos de 200.000 tuítes haviam sido coletados deste tema até junho de 2014, o que significa que ainda são poucos dados coletados para criar-se qualquer hipótese. Do ponto de vista de retuítes, os temas mais com difusão de conteúdo mais concentrados em poucos usuários, em ordem, foram: Big Brother Brasil, Copa do Mundo e FIFA, Dilma Rousseff, SuperBowl e Eleições. Como citado, houve uma troca de posições entre o tema Dilma Rousseff e Copa do Mundo e FIFA ao comparar menções e retuítes. Isso significa que, existem mais celebridades relacionadas ao tema Dilma Rousseff do que ao tema Copa do Mundo e FIFA no Twitter. No entanto, a concentração de usuários gerando conteúdos relevantes é maior no tema Copa do Mundo e FIFA. Esses dados são muito importantes para tomar decisões a respeito de como lidar 1 http://www.globo.com/ Capítulo 4. Resultados 53 (a) DEA das menções (Copa do Mundo e FIFA) (b) DEA dos retuítes (Copa do Mundo e FIFA) (c) DEA das menções (Dilma Rousseff) (d) DEA dos retuítes (Dilma Rousseff) (e) DEA das menções (Superbowl) (f) DEA dos retuítes (Superbowl) (g) DEA das menções (Big Brother Brasil) (h) DEA dos retuítes (Big Brother Brasil) (i) DEA das menções (Eleições) (j) DEA dos retuítes (Eleições) Figura 21 – Comparativo dos retuítes e menções por Distribuições Empíricas Acumuladas entre os temas Capítulo 4. Resultados 54 com cada tema que será utilizado no experimento de viralização proposital de conteúdo. Fica evidente que cada tema deve ser estudado antes de ser realizado um experimento, visto que possuem características e quantidade de usuários relevantes diferentes. Com esse estudo de contagem, foi possível conhecer os usuários que possuíram maior destaque na amostra, seja por retuíte ou por menção. Entretanto, não é possível afirmar com certeza que estes são usuários influentes na rede porque é possível que o verdadeiro usuário influente tenha retuitado um usuário comum, fazendo com que o conteúdo se tornasse viral. Para responder essa e outras dúvidas, se faz necessário a utilização das métricas de redes complexas e do algoritmo TunkRank. 4.3 Passo 4: Identificação das características presentes em conteúdos virais Os gráficos gerados para análise do comportamento da amostra foram realizados com duas visões. A primeira visão é com valores absolutos, ou seja, independente da quantidade de tuítes escritos, foram somados todos os retuítes da amostra e distribuído os percentuais de participação de cada grupo. Já a segunda visão, é demonstrada de forma relativa, ou seja, o maior ponto no gráfico considera a quantidade de retuítes dividido pela quantidade de tuítes existentes em seu grupo. Com essas duas visões é possível entender melhor a amostra e tomar decisões mais embasadas. Os dados foram extraídos de uma base de dados que contempla o tema “Fifa e Copa do Mundo”, no período de março à junho de 2014. A estrutura da base de dados é a mesma descrita no Passo 5 da metodologia, visto que a base foi utilizada tanto para gerar os histogramas, quanto para o estudo de mineração de dados. Esta amostra possui exatamente 1.623.882 tuítes e a soma de todos os retuítes recebidos equivale a 11.396.006 ao todo. Após analisar todos os histogramas, percebeu-se que não é possível tomar decisões baseado apenas na informação gerada pelos gráficos, porém é um bom começo para investigar os cenários que uma amostra possui. A junção de várias informações desse tipo é que pode gerar estratégias mais embasadas para entender como ocorre a difusão das informações de um determinado tema. Sendo assim, seguem os resultados obtidos de cada cenário descrito na metodologia do passo 4. 4.3.1 Quantidade de retuítes por dia da semana A figura 22 exibe um gráfico em que foi analisado a quantidade de retuítes por dia da semana. Verificando o eixo de percentual absoluto dos retuítes, é possível perceber que Capítulo 4. Resultados 55 os dias em que ocorreram mais retuítes, comparando toda a amostra, foram a quarta e quinta-feira com mais de 18% de todos os retuítes em cada dia. Essa visão nos permite assumir que muitos retuítes ocorrem nesses dias, no entanto não analisamos quantos tuítes são escritos. Para comprar a quantidade de tuítes escritos e a quantidade de retuítes que ocorreram, deve-se analisar o eixo do percentual relativo. De acordo com o percentual relativo de retuítes, verifica-se que a quinta-feira e a segunda-feira são os dias em que mais ocorrem retuítes por tuíte. Analisando a segunda-feira, especificamente, pode-se perceber que não e um dia em que ocorrem muitos retuítes ao todo (percentual absoluto), porém, apesar de ocorrer menos retuítes nesse dia, os conteúdos criados na segunda-feira são mais retuitados do que os tuítes criados na quarta-feira. Finalmente, podemos afirmar que os tuítes criados na quinta e segunda-feira tendem a ser mais retuitados, no entanto, a maioria dos retuítes ocorrem entre quarta e quinta-feira. Figura 22 – Quantidade de retuítes por dia da semana 4.3.2 Quantidade de retuítes por horário Analisando o gráfico da figura 23, é possível perceber que a maioria dos retuítes desta amostra ocorrem durante o período noturno. No entanto, os tuítes criados durante o período da tarde são os mais retuitados, de acordo com o eixo de percentual relativo. Nota-se também que, apesar de ocorrer poucos retuítes durante a manhã, os tuítes criados nesse horário são muito retuitados. O horário da madrugada, por sua vez, indica que os tuítes criados neste período tem menos chance de ser retuitados. Capítulo 4. Resultados 56 Figura 23 – Quantidade de retuítes por horário 4.3.3 Quantidade de retuítes por quantidade de hashtags em um tuíte O gráfico desta seção compara a quantidade de retuítes com a quantidade de hashtags utilizada na mensagem. Como já foi explicado anteriormente, as hashtags são muito utilizadas categorizar as mensagens e não tem limite de quantidade em um tuíte. O limite é o do próprio tuíte (255 caracteres). A figura 24 exibe um gráfico separando os tuítes com nenhuma até cinco hashtags ou mais do que seis. Os tuítes escritos sem a utilização de hashtags (valor 0) concentra a maior parte de retuítes de toda a amostra. Contudo, o curioso é o pico do percentual relativo ocorre quando um tuíte possui 4 hashtags, indicando que os tuítes que possuem 4 hashtags em sua mensagem são os tuítes mais retuitados de toda a amostra. Ou seja, é possível assumir que, para este tema, é mais interessante criar um conteúdo e colocar 4 hashtags quando o objetivo for disseminar este conteúdo. Um estudo mais concentrado em hashtags se faz necessário para melhor definir a estratégia de disseminação, visto que o fato de descobrir que 4 hashtags e o melhor número não significa puramente que será alcançado maior espalhamento da informação. É necessário descobrir quais são essas hashtags que geraram este resultado. 4.3.4 Quantidade de retuítes por quantidade de imagens em um tuíte Ao comparar a distribuição de retuítes por quantidade de imagens inseridas em um tuíte, percebe-se que aproximadamente 60% ocorrem em tuítes que não possuem imagens anexadas, como pode ser visto na figura 25. No entanto, analisando a curva do percentual Capítulo 4. Resultados 57 Figura 24 – Quantidade de retuítes por quantidade de hashtags em um tuíte relativo, percebe-se que os tuítes criados com 1 imagem anexada possui mais chances de ser retuitados do que os que não possuem imagens. Os tuítes que possuem 2 imagens anexadas possuem também ótimas chances de serem retuitados, obtendo 1400% de retuítes comparado a quantidade de tuítes escritos desta forma. Figura 25 – Quantidade de retuítes por quantidade de imagens em um tuíte 4.3.5 Quantidade de retuítes por quantidade de URLs em um tuíte O gráfico exibido na figura 26, exibe que, semelhante à comparação de retuítes por hashtags, os tuítes criados sem utilização de URLs (links) são os mais retuitados da amostra coletada. Contudo, para criar uma estratégia de disseminação de conteúdo, o gráfico indica que os tuítes que possuem 4 URLs tendem a ser mais retuitados. É interessante perceber Capítulo 4. Resultados 58 que a quantidade de 4 URLs é um pico da quantidade de retuítes, já os tuítes que possuem 5 URLs anexadas são os que tendem a ser menos retuitados do que qualquer outro. É importante relatar que não existe um limite de URLs que pode ser utilizadas em um tuíte, assim como o caso explicado das hashtags. Porém, é incomum a utilização de mais do que 5 URLs, por isso estas foram ignoradas da análise. Figura 26 – Quantidade de retuítes por quantidade de URLs em um tuíte 4.3.6 Quantidade de retuítes por usuários que são verificados pelo Twitter (usuários oficiais) O objetivo deste gráfico é comparar a quantidade de retuítes com a classificação de verified que o Twitter possui. Como já foi explicado anteriormente, essa classificação existe para garantir que uma pessoa ou personagem é o perfil verdadeiro desta mesma pessoal / personagem do mundo real, visto que é comum a criação de perfis falsos para atrair pessoas com diferentes objetivos. Desta forma, foi classificado como “Não” os perfis que não possuem verificação do Twitter e como “Sim” os perfis que possuem a verificação e garantia de serem perfis verdadeiros. Pode-se afirmar, de acordo com o gráfico da figura 27, que os tuítes criados por perfis verificados tendem a ser mais retuitados do que os perfis que não foram verificados. A diferença percebida é muito significante, os perfis que não possuem verificação somam aproximadamente 500% de retuítes, enquanto que os perfis validados somam pouco mais de 3.500% retuítes. Apesar disso, a maioria dos retuítes existentes na amostra são provenientes de tuítes criados por perfis que não possuem validação do Twitter. Isso se explica porque este Capítulo 4. Resultados 59 tipo de perfil representa a grande maioria do Twitter e produzem mais conteúdo. Figura 27 – Quantidade de retuítes por usuários que são verificados pelo Twitter 4.3.7 Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu o tuíte possui O gráfico representado pela figura 28 foi gerado com o objetivo de identificar qual é uma boa quantidade de seguidores que o usuário que escreve um tuíte deve ter para alcançar bom espalhamento de conteúdo pela rede social. No entanto, os grupos que podem ser criados para identificar essa quantidade podem ser infinito. Dessa forma, foram categorizados os tuítes criados por usuários que possuem até 1.000 seguidores, de 1.001 até 5.000 seguidores foram separados a cada 1.000, em seguida de 10.000 a 20.000 seguidores, 30.000 a 50.000 seguidores e o grupo dos usuários que possuem mais de 50.000 seguidores. Não foi possível chegar em número ideal de seguidores que o usuário deve possuir para ter mais chances de ser retuitado, porém, pode-se perceber que a tendência de ser mais retuitado é de quanto maior o número de seguidores. É interessante distribuir a amostra em números mais equalizados e em grupos menores para descobrir este valor. De acordo com o gráfico, os usuários que possuem entre 30.001 a 50.000 seguidores tendem a ser mais retuitados do que os outros, ignorando o grupo de mais de 50.000 seguidores por ser muito genérico. 4.3.8 Quantidade de retuítes por quantidade de amigos do usuário que escreveu o tuíte Este outro gráfico, por sua vez, faz a comparação da distribuição dos retuítes de acordo com a quantidade de amigos que o usuário escritor possui. A relação “amigo” é Capítulo 4. Resultados 60 Figura 28 – Quantidade de retuítes por quantidade de seguidores que o usuário que escreveu o tuíte possui designada aos usuários que são seguidos pelo escritor do tuíte. Diferente da figura 28, a maioria dos retuítes ocorrem para os usuários que seguem até 1.000 perfis, ou seja, possui no máximo 1.000 amigos na rede social, como pode ser visto na figura 29. Também é possível assumir que os usuários que possuem entre 20.000 e 30.000 amigos ou mais que 50.000 amigos tendem a ser mais retuitados do que os outros. 4.3.9 Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário O último histograma analisado compara a distribuição dos retuítes da amostra de acordo com a quantidade de tuítes que o usuário já escreveu em toda sua história dentro da rede social Twitter. De acordo com a figura 30, a maioria dos retuítes estão distribuídos entre os usuários que possuem entre 10.001 e 20.000 tuítes escritos ou mais que 50.000 tuítes. No entanto, de acordo com a curva do percentual relativo, é possível perceber que os tuítes criados por usuários que possuem entre 3.001 a 4.000 tuítes criados foram os mais retuitados da amostra, podendo significar uma tendência. Capítulo 4. Resultados 61 Figura 29 – Quantidade de retuítes por quantidade de amigos do usuário que escreveu o tuíte Figura 30 – Quantidade de retuítes por quantidade total de tuítes escritos pelo usuário 4.4 Passo 5: Análise de comportamentos por algoritmos de mineração de dados Conforme descrito na metodologia, esse passo tem o objetivo de descobrir quais são as características dos tuítes e dos usuários que tornam uma mensagem viral na rede, baseado Capítulo 4. Resultados 62 no comportamento dessas duas entidades (tuítes e usuários). O termo “comportamento”, neste trabalho, refere-se, por exemplo, à quantidade de caracteres escritos, qual o horário que o tuíte foi enviado, quantos seguidores o usuário que escreveu possui, desde quando o usuário faz parte do Twitter, dentre diversas outras variáveis que serão descritas a seguir. Essa metodologia foi aplicada em dois diferentes momentos: base de dados preliminar e base de dados completa. A diferença entre os dois momentos é a quantidade de dados utilizados para os testes. Na base de dados preliminar, o modelo foi gerado a partir de uma quantidade menor de tuítes em comparação. Isso resultou em uma grande distorção dos resultados obtidos nos dois momentos. 4.4.1 Momento 1: base de dados preliminar A princípio, o workflow definido na metodologia foi aplicado para dois dos cinco temas: “Copa do Mundo e FIFA” e “Big Brother Brasil”. Estes temas foram escolhidos por serem os temas com maior quantidade de tuítes coletados no momento de realização deste teste, que ocorreu em junho de 2014. Os resultados são divulgados a seguir, separados em três cenários: 1. Criação do modelo de árvore de decisão com a amostra equalizada em 50% de tuítes influentes e não-influentes; 2. Aplicação do modelo gerado no cenário 1 em 100% da amostra; 3. Aplicação do modelo de outro tema em 100% da amostra para verificar se o modelo de um tema pode ser utilizado em diferentes temas. 4.4.1.1 Copa do Mundo e FIFA O processo de leitura da coleta dos tuítes e transformação em dados inseridos na tabela, que será utilizada na mineração de dados, resultou em 5.016.353 registros. Esses registros são todos os tuítes que tiverem pelo menos um retuíte. Os outros tuítes foram desprezados e não serão considerados no modelo. As colunas / variáveis selecionadas foram as citadas na metodologia. Para definição do limiar, utilizou-se a visualização de gráfico em linha, ordenando os tuítes pelo mais retuitado ao menos retuitado. O objetivo é ver onde a curva de tuítes influentes se inicia e, em seguida, se transforma em exponencial. O valor escolhido para quantidade de retuítes foi de 390. Isso significa que todo tuíte com mais de 390 retuítes devem ser considerados influentes e o algoritmo de árvore de decisão deverá encontrar os padrões de comportamento comuns a estes tuítes. A figura 31 exibe a curva de retuítes dessa amostra. O círculo marcado no gráfico informa o ponto em que a quantidade de retuítes é igual a 390, marcando a divisão da amostra em influente e não-influente. Capítulo 4. Resultados 63 Figura 31 – Gráfico de Limiar do tema Copa do Mundo e FIFA Com a definição do limiar, somente 1.206 registros foram caracterizados como influentes, dos 5.016.353 anteriores. Sendo assim, para criação do modelo da árvore de decisão, foi necessário reduzir a amostra dos tuítes não influentes em 1.206 registros para que a amostra fique definida em 50% influente e 50% não-influentes e o modelo possa ser criado sem ser enviesado. Ainda, a escolha dos 50% não-influentes tem que ser feita de forma aleatória. É necessário definir quantos registros serão utilizados para treinar o modelo e quantos serão utilizados para validar o modelo criado. O número escolhido foi de 70% da base para treino e os outros 30% para verificar quantos tuítes o modelo acertou como influente ou não-influente. Neste primeiro cenário, o resultado da validação do modelo foi de 86,4%, sendo 44 tuítes falsos-positivos, ou seja, o modelo informou que o tuíte era influente, porém na base real eles não são influentes. Foi testado um segundo cenário, exportando o modelo treinado no primeiro cenário e aplicado a todos os registros da base. Nesse caso, com mais de 5 milhões de tuítes, o modelo teve assertividade de 87%, acertando 1.135 tuítes como influentes e 68 como falsos-positivo. Um terceiro cenário foi realizado, aplicando o modelo gerado no tema Big Brother Brasil - que será explicado na próxima subseção - em toda a base, assim como o cenário 2, e obteve assertividade de 76%, com 1.033 acertos de tuítes influentes e 158 falsos-positivo. Este resultado é importante para notar a necessidade de criar um modelo para cada tema, comprovando que os comportamentos dos tuítes mais retuitados são diferentes entre temas. A tabela 2 retrata de forma compacta os resultados dos 3 cenários. Capítulo 4. Resultados 64 Tabela 2 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Copa do Mundo e FIFA Cenário 1 2 3 Assertividade 86,4% 87,2% 76,0% Acerto 308 1135 1033 Falso-positivo 44 68 158 4.4.1.2 Big Brother Brasil Seguindo o mesmo modelo utilizado no tema anterior, o processo de leitura da coleta dos tuítes e transformação em dados inseridos na tabela, que será utilizada na mineração de dados, resultou em 3.989.067 registros. Esses registros são todos os tuítes que tiverem pelo menos um retuíte. Os outros tuítes foram desprezados e não serão considerados no modelo. As colunas / variáveis selecionadas foram as citadas na metodologia. Para definição do limiar, utilizou-se a visualização de gráfico em linha, ordenando os tuítes pelo mais retuitado ao menos retuitado. O objetivo é ver onde a curva de tuítes influentes se inicia e, em seguida, se transforma em exponencial. O valor escolhido para quantidade de retuítes foi de 190. A figura 32 exibe a curva de retuítes dessa amostra e o círculo marcado no gráfico informa o ponto em que a quantidade de retuítes é igual a 190, marcando a divisão da amostra em influente e não-influente. Figura 32 – Gráfico de Limiar do tema Big Brother Brasil Com a definição do limiar, somente 1.025 registros foram caracterizados como influentes, dos 3.989.067 anteriores. Foram aplicados os três cenários citados acima e já descritos no tema da Copa do Mundo e FIFA, e os resultados são sumarizados na tabela 3. É importante frisar que o percentual da assertividade considera também os acertos Capítulo 4. Resultados 65 Tabela 3 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Big Brother Brasil Cenário 1 2 3 Assertividade 84,2% 86,1% 91,7% Acerto 270 965 624 Falso-positivo 40 60 394 de tuítes não-influentes e os falsos-negativos, que não estão demonstrados na tabela. Com esses resultados preliminares, foi possível observar que aparentemente não é eficiente utilizar o modelo de um tema em temas diferentes, comprovando que o comportamento dos usuários e dos tuítes variam entre os temas. Apesar da assertividade de 91% no 3o cenário, o percentual de falsos-positivo é muito alto, mais de 50%. O acerto está alto porque o modelo está definindo a grande maioria dos tuítes como não-influentes, porém este resultado é enviesado. A figura 33 exibe o modelo (árvore de decisão) criado para cada um dos temas, informando quais variáveis são analisadas para predizer se um tuíte é influente ou não. (a) Copa do Mundo e FIFA (b) Big Brother Brasil Figura 33 – Árvore de decisão gerada no KNIME para predição de tuítes influentes, por tema Capítulo 4. Resultados 66 4.4.2 Momento 2: base de dados completa Apesar do bom resultado obtido, os testes realizados no momento 1 deste passo possui duas características que inviabilizam sua utilização em grande escala e de forma automatizada, são elas: 1. A definição do limiar se dá de forma empírica, uma vez que o pesquisador precisa gerar um gráfico com a quantidade de retuítes ordenada decrescente e identificar um bom valor; 2. A quantidade de dados utilizada para treinar o modelo não prevê a maioria dos cenários que foram identificados ao aplicar em uma base de dados muito maior. Neste segundo momento, foram criadas novas estratégias para definir uma metodologia melhor e que possa ser automatizada. Para corrigir o problema da definição do limiar, diversos testes foram realizados definindo um percentil que possa separar automaticamente a amostra em tuítes influentes e não-influentes. Por exemplo, se escolhido o valor de percentil 95, significa que os 5% dos tuítes mais retuitados são influentes e o resto não são influentes. Vários testes foram realizados alterando o valor do percentil a fim de se obter um valor que resultasse em uma boa taxa de acerto para os cinco temas coletados (tabela 1). Porém, os resultados não agradaram. Apesar de ter sido obtido boa taxa de acerto em vários temas, o valor de falso-positivo foi muito alto em todos os testes. Ou seja, quando for aplicar o modelo para prever os tuítes influentes, haverá muito falso-positivo, fazendo com que o acerto do modelo seja baixo. A taxa de acerto encontrada nos testes como boa ocorre porque 95% da amostra é de não-influentes. A fim de obter grande quantidade de tuítes para análise de predição, a estratégia adotada foi a seguinte: 1. Escolher um tema; 2. Separar um período para aplicação do modelo; 3. Aplicar a técnica de árvore de decisão em toda a base de dados deste tema, com exceção do período definido no passo anterior; 4. Validar se a predição obteve bom acerto. O tema selecionado foi “Copa do Mundo e FIFA”, por ser o tema que possui maior quantidade de dados no momento da execução destes testes. Capítulo 4. Resultados 67 O período selecionado para aplicação do modelo que será gerado foi o mês de setembro de 2014 (por completo). Ou seja, todos os tuítes escritos no mês de setembro serão os dados de entrada do modelo que será gerado a seguir. O limiar do mês de setembro, definido como o percentil 95, foi o valor 69. Ou seja, os tuítes de setembro que tiveram mais de 69 retuítes foram considerados influentes. Logo, o modelo foi gerado baseado nos dados dos meses de março de 2014 à junho de 2014. Por conta de alguns problemas na coleta dos dados, o mês de julho foi descartado. É importante salientar que no mês de junho se iniciou o evento Copa do Mundo Fifa 2014 no Brasil, o que resultou em muitos tuítes criados e retuitados nesse período. Na tabela 4 a seguir são apresentados os valores obtidos durante os testes em que o limiar foi definido como percentil 95, criando a variável resposta de forma automatizada no Knime. A coluna “Modelo” identifica o mês que foi utilizado como entrada para a criação do modelo de predição; A coluna “Influência” e “Predição” fazem o cruzamento dos tuítes identificados como influentes (Bin1) e não-influentes (Bin0). No cruzamento Bin0 versus Bin0, encontram-se os verdadeiros-positivos; no cruzamento Bin0 versus Bin1 encontram-se os falsos-negativos (o modelo afirma que são tuítes não-influentes, quando na verdade estes tuítes deveriam ser classificados como influentes). O mesmo se aplica para as colunas Bin1. Tabela 4 – Tabela com o resultado obtido da aplicação da árvore de decisão nos temas coletados Modelo Valor limiar Março 58 retuítes Abril 64 retuítes Maio 67 retuítes Junho 123 retuítes Influência Bin0 Bin1 Acerto: Bin0 Bin1 Acerto: Bin0 Bin1 Acerto: Bin0 Bin1 Acerto: Predição Bin0 Bin1 266.411 48.129 1.206 2.014 84,47% 265.644 48.896 832 2.388 84,35% 239.805 74.735 827 2.393 76,22% 253.496 61.044 1.152 2.068 80,42% Analisando os resultados obtidos ao gerar modelos de diferentes períodos, de um mesmo tema, no período de setembro, é possível perceber que não foram satisfatórios. A taxa de acerto do modelo não se aplica ao objetivo desta etapa da metodologia porque considera os acertos dos tuítes não-influentes também, que corresponde à 95% dos dados. Os valores que são importantes para este passo são os tuítes classificados como influentes. Capítulo 4. Resultados 68 Quando analisado por este ponto de vista, a taxa de acerto cai para 50% em média, o que não gera confiança no modelo. Uma análise de correlação entre as variáveis utilizadas no modelo foi realizada a fim de entender o porquê desse resultado insatisfatório e essa análise explica, de certa forma, o que houve. Todas as variáveis do modelo foram confrontadas uma a uma e, como pode ser visualizado na figura 34, elas possuem pouca correlação com a quantidade de retuítes. Sem boas correlações, o modelo não consegue obter melhores resultados. O curioso é que este resultado contradiz, em alguns casos, os histogramas criados para algumas dessas variáveis, o que indica a necessidade de maior análise tanto dos histogramas quanto da estratégia adotada na mineração de dados. Talvez a técnica de árvore de decisão não seja a mais adequada para este caso. Figura 34 – Gráfico de correlação entre as variáveis utilizadas para gerar o modelo de árvore de decisão Apesar de que a figura 34 lista o cruzamento de todas variáveis uma a uma, exibindo uma matriz com todas as correlações possíveis, o que importa para o modelo gerado neste Capítulo 4. Resultados 69 trabalho é o cruzamento de cada variável com a variável total_rw que representa a quantidade total de retuítes de cada tuíte. Quanto mais azul for a marcação de correlação, significa que se aproxima de +1 (alta correlação de quanto maior uma variável, maior também é a outra). Por outro lado, quanto mais vermelha for a marcação de correlação, significa que se aproxima de -1 (correlação inversa). Já a cor branca indica nenhuma correlação (0) e o X indica que não foi possível verificar a correlação porque as variáveis são de tipos diferentes (inteiro versus texto). 70 5 Conclusões O presente trabalho coletou dados da rede social online Twitter e utilizou, principalmente, três medidas para analisar quais são os usuários mais influentes sobre determinado tema e quais são os usuários que causam maior engajamento. Foram elas: Seguidores, Retuítes e Menções. 5.1 Principais resultados Foi possível constatar que a medida “Seguidores” não tem relação direta com a quantidade de retuítes ou menções dos usuários. Esta constatação derruba a hipótese inicial deste projeto de que quanto maior a audiência de determinado usuário, maior será sua relação com sua capacidade de espalhar conteúdo pela rede social Twitter. Isto ocorre porque independente da audiência do usuário que criou o conteúdo, outros usuários que se interessarem por este conteúdo e retuitarem, esse conteúdo será enviado para seus respectivos seguidores, gerando um espalhamento exponencial pela rede. Assim, foi possível comprovar a hipótese de (CHA et al., 2010) que afirma que os retuítes equivalem ao valor de conteúdo de determinada mensagem e que os usuários mais retuitados são blogueiros e usuários comuns. Também foi possível constatar a hipótese de que os usuários mais mencionados são pessoas públicas e celebridades, como afirma (CHA et al., 2010). Nos dois experimentos realizados neste trabalho, a hipótese foi verdadeira. As menções não tem relação direta com a difusão de informações, porém identifica quais usuários são responsáveis por causarem engajamento na rede e este dado pode ser útil de forma estratégica na difusão de conteúdo. Com relação à distribuição das informações, um resultado interessante é que a distribuição de retuítes para diferentes assuntos são similares. Aproximadamente 50% da amostra trata-se de retuítes e a outra metade trata-se de tuítes originais e únicos, fazendo com que o Twitter apareça com um grande papel no meio digital: compartilhar e difundir informações. De forma generalizada, foi possível constatar o Princípio de Pareto, em que aproximadamente 20% dos usuários mais influentes correspondem a mais de 80% de toda audiência de determinado assunto. Essa constatação é importante para definir a estratégia de quais usuários devem ser abordados quando se quer criar um comportamento viral de determinado conteúdo. Capítulo 5. Conclusões 71 Mais de 62 milhões de tuítes foram coletados de diferentes temas. Uma pequena amostra (de 1 milhão de tuítes) foi utilizada para criação do grafo no Neo4J. Desses 1 milhão de tuítes foi construído um grafo com os escritores dessas mensagens e seus seguidores a fim de aplicar métricas de redes complexas, porém não foi possível completar a rede de forma íntegra porque essa construção é muito custosa e precisou ser congelada a fim de evoluir com outras análises. Partiu-se então para a identificação das características presentes em conteúdos virais, avaliando vários cenários e diferentes variáveis para melhor entender o comportamento da amostra. Percebeu-se a diferença entre os momentos em que ocorrem mais retuítes versus momentos que cada conteúdo é mais retuitado. A identificação dessas características podem guiar a pesquisa dos comportamentos de cada tema porém, como já era sabido, não explicam a amostra por completo. Cada histograma criado gera a necessidade de análise mais aprofundada para entender os motivos que circundam cada resultado. Para entendimento do comportamento de tuítes influentes em massa, utilizou-se a técnica de árvore de decisão existente na mineração de dados. Dois temas foram testados, de forma preliminar, e a assertividade dos modelos criados foi boa (acima de 80%), porém a massa de dados utilizada para gerar o modelo era pequena e não previa a maioria dos cenários quando aplicada em uma massa de dados de vários meses de coleta, o que inviabilizou o modelo. Então, novos modelos foram testados com massa de dados cada vez maiores como entrada e aplicadas para treinamento e predição. O tema mais testado foi “Copa do Mundo e Fifa” por ter mais dados que os outros. Apesar do indicativo de acerto ter sido alto (novamente acima de 80%) não indicava a realidade. Quando os valores de falsos-positivos foram analisados percebeu-se que esse acerto cairia para algo em torno de 50%. Esta taxa não garante predição alguma. Apesar deste resultado, isso não significa que a mineração de dados deva ser descartada da estratégia para alcançar o objetivo deste trabalho. O que deve ser feito é trabalhar mais, testar novas técnicas, novas combinações de variáveis, novos pensamentos. Não foi possível testar a criação de um conteúdo adequado aos modelos criados, conforme foi definido na metodologia, porque não foi possível descobrir uma “fórmula” para gerar influência na rede social Twitter. 5.2 Contribuições As principais contribuições deste trabalho, são: • Desenvolvimento de um coletor de dados do Twitter que funciona 24 horas por dia, 7 dias por semana, coletando todos os tuítes que sejam criados ou retuitados que possuam as palavras-chave especificadas pelo programador; Capítulo 5. Conclusões 72 • Coleta de mais de 62 milhões de tuítes com todos os metadados fornecidos pelo Twitter, composto por dados do próprio tuíte como também dados atuais do usuário que escreveu o tuíte e do usuário que retuitou, possibilitando, assim, que outro pesquisador já possua grande massa de dados para realização de estudos; • Identificação preliminar dos usuários mais influentes por dois ângulos diferentes: conteúdo relevante e pessoa pública. A identificação ocorre através da contagem de retuítes e menções de cada tema; • Estudo de diferentes técnicas aplicadas com o mesmo objetivo: identificar quais os usuários influentes e a razão. As diferentes técnicas aplicadas não foram conclusivas e devem ser melhoradas para se alcançar o objetivo final. 5.3 Trabalhos Futuros Com os resultados obtidos nessa pesquisa, foi possível compreender melhor como os usuários se comportam na rede social Twitter. Entretanto, o desejo de alcançar um modelo que possa prever quando um conteúdo será influente não foi alcançado, tampouco provocar a viralização de um conteúdo próprio. Como trabalhos futuros, pretende-se: • Aplicar diferentes métricas de redes complexas a fim de comparar se os resultados dessas técnicas são compatíveis com o resultado de influência baseado na contagem de retuítes e menções; • Aplicar novas técnicas de mineração de dados, como redes neurais, a fim de reduzir a taxa de falsos-positivos e poder ter em mãos um modelo que faça a predição de conteúdos que se tornarão influentes, baseado nas variáveis que são coletadas dos tuítes; • Entender melhor a relação entre usuários intermediários que fazem com que um conteúdo se torne viral, visto que foi constatado que nem sempre o usuário que criou um conteúdo viral foi o responsável por essa viralização; • Comparar esses novos resultados obtidos nos diferentes temas que foram coletados para entender se há diferença entre eles ou se são compatíveis, ou seja, saber se é possível criar um padrão único que aborde todos os temas ou se cada tema deve ser estudado separadamente; • Acompanhar vídeos postados no YouTube que possuem poucas visualizações e solicitar a alguns usuários que compartilhem este vídeo. Esses usuários devem se encaixar em um perfil de usuários influentes que deverá ser descoberto com as técnicas citadas acima. Dessa forma, saberemos em qual momento específico e qual postagem Capítulo 5. Conclusões 73 foi a principal responsável pela viralização do vídeo e aumento de visualizações no YouTube; • Semelhante à visualização de vídeos no YouTube, acompanhar URLs específicas para identificar se, em algum momento, elas serão muito visitadas graças a alguma postagem no Twitter; • Construir um padrão que identifique que um tuíte será viral; • Induzir o comportamento viral de um conteúdo próprio que se adeque aos padrões de usuário influente e conteúdo viral descobertos anteriormente; • Aplicar este estudo em outras redes sociais, como o Facebook, Pinterest e Instagram, a fim de validar se as descobertas a partir do Twitter se aplicam em diferentes redes sociais online, adaptando-se às diferentes funcionalidades que cada uma possui. 74 Referências ARTHUR, D. et al. Pricing strategies for viral marketing on social networks. In: Internet and Network Economics. [S.l.]: Springer, 2009. p. 101–112. BAKSHY, E. et al. Everyone’s an influencer: quantifying influence on twitter. In: ACM. Proceedings of the fourth ACM international conference on Web search and data mining. [S.l.], 2011. p. 65–74. BARABÁSI, A.-L.; ALBERT, R. Emergence of scaling in random networks. science, American Association for the Advancement of Science, v. 286, n. 5439, p. 509–512, 1999. BOCCALETTI, S. et al. Complex networks: Structure and dynamics. Physics Reports, v. 424, n. 4-5, p. 175–308, 2006. BORGATTI, S. P.; EVERETT, M. G. A graph-theoretic perspective on centrality. Social networks, Elsevier, v. 28, n. 4, p. 466–484, 2006. BOYD, D. Friends, friendsters, and myspace top 8: Writing community into being on social network sites. Citeseer, 2006. BRODER, A. et al. Graph structure in the web. Computer networks, Elsevier, v. 33, n. 1, p. 309–320, 2000. CHA, M. et al. Measuring user influence in twitter: The million follower fallacy. ICWSM, v. 10, p. 10–17, 2010. CHANG, F. et al. Bigtable: A distributed storage system for structured data. ACM Transactions on Computer Systems (TOCS), ACM, v. 26, n. 2, p. 4, 2008. DOMINGOS, P. Mining social networks for viral marketing. IEEE Intelligent Systems, v. 20, n. 1, p. 80–82, 2005. ELLISON, N. B. et al. Social network sites: Definition, history, and scholarship. Journal of Computer-Mediated Communication, Wiley Online Library, v. 13, n. 1, p. 210–230, 2007. GABIELKOV, M.; RAO, A.; LEGOUT, A. Studying social networks at scale: macroscopic anatomy of the twitter social graph. In: ACM. The 2014 ACM international conference on Measurement and modeling of computer systems. [S.l.], 2014. p. 277–288. HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of data mining. [S.l.]: MIT press, 2001. HILL, S.; PROVOST, F.; VOLINSKY, C. Network-based marketing: Identifying likely adopters via consumer networks. Statistical Science, JSTOR, p. 256–276, 2006. JUNIOR, O. d. S. Investigação de Predição de Fluxos em Redes de Computadores. Dissertação (Mestrado) — UFABC, 2014. JURVETSON, S. What exactly is viral marketing? 2000. Referências 75 KIMURA, M. et al. Extracting influential nodes on a social network for information diffusion. Data Mining and Knowledge Discovery, Springer, v. 20, n. 1, p. 70–97, 2010. KWAK, H. et al. What is twitter, a social network or a news media? In: ACM. Proceedings of the 19th international conference on World wide web. [S.l.], 2010. p. 591–600. LESKOVEC, J.; ADAMIC, L. A.; HUBERMAN, B. A. The dynamics of viral marketing. ACM Transactions on the Web (TWEB), ACM, v. 1, n. 1, p. 5, 2007. LIU, L. et al. Learning influence from heterogeneous social networks. Data Mining and Knowledge Discovery, v. 25, n. 3, p. 511–544, 2012. MEEDER, B. et al. We know who you followed last summer: inferring social link creation times in twitter. In: ACM. Proceedings of the 20th international conference on World wide web. [S.l.], 2011. p. 517–526. MINHANO, R. Descoberta de Conexões Ocultas em Redes de Recomendações Usando Redes Sociais Online. Dissertação (Mestrado) — UFABC, 2010. NEWMAN, M. E. Assortative mixing in networks. Physical review letters, APS, v. 89, n. 20, p. 208701, 2002. NEWMAN, M. E. A measure of betweenness centrality based on random walks. Social networks, Elsevier, v. 27, n. 1, p. 39–54, 2005. NEWMAN, M. E. J. The structure and function of complex networks. SIAM Review, v. 45, n. 2, p. 167–256, 2003. PAL, A.; COUNTS, S. Identifying topical authorities in microblogs. In: ACM. Proceedings of the fourth ACM international conference on Web search and data mining. [S.l.], 2011. p. 45–54. SHARMA, N. K. et al. Inferring who-is-who in the twitter social network. ACM SIGCOMM Computer Communication Review, ACM, v. 42, n. 4, p. 533–538, 2012. STROGATZ, S. H. Exploring complex networks. Nature, Nature Publishing Group, v. 410, n. 6825, p. 268–276, 2001. SUN, J.; TANG, J. Models and algorithms for social influence analysis. In: ACM. Proceedings of the sixth ACM international conference on Web search and data mining. [S.l.], 2013. p. 775–776. TOGNERI, R. M. A Importância das Localidades Geográficas na Difusão Online de Informação. Dissertação (Mestrado) — UFABC, 2013. WATTS, D. J.; STROGATZ, S. H. Collective dynamics of ‘small-world’networks. nature, Nature Publishing Group, v. 393, n. 6684, p. 440–442, 1998. WENG, J. et al. Twitterrank: finding topic-sensitive influential twitterers. In: ACM. Proceedings of the third ACM international conference on Web search and data mining. [S.l.], 2010. p. 261–270.