big data e a indústria do entretenimento: como a mineração de

Propaganda
Universidade Federal da Paraíba
Centro de Ciências Humanas, Letras e Artes
Curso de Bacharelado Comunicação em Mídias Digitais
JÉSSICA MICHELLY SOUZA DE AZEVEDO
BIG DATA E A INDÚSTRIA DO ENTRETENIMENTO:
COMO A MINERAÇÃO DE DADOS PODE AUXILIAR
A PRODUÇÃO DE CONTEÚDO
João Pessoa - PB
2014
JÉSSICA MICHELLY SOUZA DE AZEVEDO
BIG DATA E A INDÚSTRIA DO ENTRETENIMENTO: COMO A MINERAÇÃO DE
DADOS PODE AUXILIAR A PRODUÇÃO DE CONTEÚDO
Monografia apresentada ao Curso de
Comunicação em Mídias Digitais da
Universidade Federal da Paraíba, como
obtenção do título de Bacharel em Mídias
Digitais.
Orientador: Prof. Me. Cleber Matos de Morais
João Pessoa – PB
2014
Catalogação da Publicação na Fonte.
Universidade Federal da Paraíba.
Biblioteca Setorial do Centro de Ciências Humanas, Letras e Artes (CCHLA).
Azevedo, Jéssica Michelly Souza de.
Big data e a indústria do entretenimento: como a mineração de
dados pode auxiliar a produção de conteúdo / Jéssica Michelly Souza
de Azevedo. - João Pessoa, 2014.
39f.
Monografia (Graduação em Mídias digitais) – Universidade
Federal da Paraíba - Centro de Ciências Humanas, Letras e Artes.
Orientador: Prof. Me. Cleber Matos de Morais.
1. Mineração de dados. 2. Produção de conteúdo . 3. Big data.
4. Netflix I. Título.
BSE-CCHLA
CDU 004
JÉSSICA MICHELLY SOUZA DE AZEVEDO
BIG DATA E A INDÚSTRIA DO ENTRETENIMENTO: COMO A
MINERAÇÃO DE DADOS PODE AUXILIAR A PRODUÇÃO DE
CONTEÚDO
Monografia apresentada ao Curso de
Comunicação em Mídias Digitais da
Universidade Federal da Paraíba, como
obtenção do título de Bacharel em Mídias
Digitais.
______________________________________
Orientador: Prof. Me. Cleber Matos de Morais
_____________________________________
Prof. Me. Alexandre Vieira Maschio
_____________________________________
Prof. Me Paulo Henrique S. M. Serrano
João Pessoa – PB
2014
AGRADECIMENTOS
A Deus, pois sem Ele não teria escrito uma frase sequer.
A minha família pelo apoio durante os quatro anos do curso, em especial a minha mãe pelo
incentivo nas horas mais difíceis durante a escrita deste trabalho.
Aos professores que dedicaram seu tempo na implantação do curso, principalmente Olavo
Mendes com quem aprendi a importância de organização e planejamento e Derval Golzio
pelas conversas construtivas e conselhos.
A Cléber Morais por ter aceito ser meu orientador, pelas suas correções e incentivos.
Agradeço aos amigos e colegas que fiz durante o curso, aos amigos que ganhei no UFPB em
Revista e em especial a Thales Lima que sempre me incentivou a escrever sobre o assunto
desta monografia.
“Que a gente possa criar asas.
Não há felicidade que dure na gaiola.”
Charles Bukowski
RESUMO
O presente trabalho monográfico tem como objetivo de investigar o Big Data como
ferramenta crescente capaz de auxiliar na produção de conteúdo, reverberando em estratégias
de negócio considerado como insight. O uso do Big data por empresas como Amazon e
Netflix tem mostrado como a mineração de dados pode gerar resultados surpreendentes, pois
é possível conhecer melhor a escolha dos usuários. A partir disto, é possível identificar como
as conceitualizações dadas ao Big Data permitem hoje possibilidades infinitas a partir da
mineração dos dados, e como estes têm fornecido verdadeiros insights a chamada Business
Inteligence (BI), uma economia de negócios ampliada a partir da gerência dos dados.
Palavras-chave: Big Data, mineração de dados, produção de conteúdo, Netflix, Amazon,
Business Intelligence
ABSTRACT
This monograph aims to investigate the Big Data as increasing tool to assist in the production
of content, reverberating business strategies considered insight. The use of Big date by
companies like Amazon and Netflix have shown how data mining can generate amazing
results, it is possible to better understand the choice of users. From this it is possible to
identify how the conceptualizations given to Big Data today allow endless possibilities from
data mining, and how these insights have provided true calling Business Intelligence (BI), the
economy expanded business from the management of data.
Keywords: big data, data mining, content production, Netflix, Amazon
LISTA DE ILUSTRAÇÕES
Figura 5: Grande oportunidade de Big Data do mapa de calor por indústria
16
Figura 1: Modelo de estrutura do Hadoop
22
Figura 2: Página de análises do Google URL Shortener
25
Figura 3: Página de informações do Facebook
26
Figura 4: Aparência do Google Analytics
27
Figura 6: Página de informações do Facebook
31
Figura 7: Facebook Insights Data Export
32
Figura 8: Gráficos gerados com os dados do Facebook Insights Data Export.
33
Figura 9: Página de estatísticas do Blogger
33
Figura 10: Gráficos gerados com as estatísticas fornecidas pelo Blogger
34
Figura 11: Ciclo de produção de conteúdo
36
Figura 12: Busca pelo termo Big Data nos últimos anos
38
Sumário
INTRODUÇÃO ........................................................................................................................ 11
1.1
Objetivos........................................................................................................................ 12
FUNDAMENTAÇÃO .............................................................................................................. 13
2.1 Comunicação na era dos volumes de dados .................................................................... 13
2.2 Negócios inteligentes através dos grandes dados ........................................................... 15
2.2.1 Amazon ........................................................................................................................ 16
2.2.1 Netflix .......................................................................................................................... 18
2.3 - Mineração de Dados ..................................................................................................... 19
2.3.1 Big Data e a mineração na era dos grandes volumes de Dados................................... 21
2.3.2 Ferramentas de Big Data a partir de redes sociais ....................................................... 24
2.4 Classificação Social ........................................................................................................ 28
3 .METODOLOGIA................................................................................................................. 29
4. Análise .................................................................................................................................. 29
4.1 Análises por meio de registros das redes sociais ............................................................ 30
3.3 Produzindo conteúdo a partir da analítica de dados........................................................ 35
CONSIDERAÇÕES FINAIS ................................................................................................... 37
REFERÊNCIAS ....................................................................................................................... 39
11
INTRODUÇÃO
A internet modificou não só nosso contato com o conhecimento, mas também a forma
como nos relacionamos. Está-se vivendo a sociedade em rede descrita por CASTELLS (2005)
e que mostra a sociedade como um emaranhado de informação circulante que só tende a
crescer através do mundo virtual. Essa rede de conhecimentos amplia-se através da
quantidade de informação produzida dia após dia com o avanço da tecnologia.
Ao se falar na rede pode-se remeter aos dados que compõem a sua estrutura, formando
a base de informação. Essa base informacional gerou certo pânico ao surgir o termo bug do
milênio em meados dos anos 2000: o medo de que as máquinas pudessem corromper as
informações por imprecisão devido à variação para os dois dígitos (00), provocou alvoroço
que posteriormente foi identificado como desnecessário, sendo resolvido rapidamente e não
afetando os dados arquivados. Com o passar dos anos essa estrutura informacional aumentou
junto com a popularização da rede (internet).
A partir desses avanços tecnológicos que tem acontecido durante a era da informação
dessa crescente sociedade em rede, se proporcionou uma nova visão econômica para o
mundo. A quantidade de conteúdo diário circulado através da internet aumentou chegando a
zettabytes de informações. Esse quantitativo não poderia ser desperdiçado e essa grande
quantidade de dados veio a se tornar informação de grande valor a partir da leitura feita deles.
O grande volume de dados e a possibilidade de interpretá-los deu origem ao conceito
de Big Data, capaz de capturar e analisar em tempo real dados não estruturados como log,
vídeos e imagens, tweetts, likes, e transformar em informação concisa. Devido a essa
possibilidade foram atribuídas características ao conceito como o volume, velocidade,
variedade, veracidade e valor considerados os 5V’s do Big Data, relatados pelo IBM, que
transforma a mineração de dados uma ferramenta importante nessa era da informação em
conjunto com a computação em nuvem.
No
decorrer
deste
trabalho
monográfico
pretende-se
identificar
como
as
conceitualizações dadas ao Big Data permitem hoje possibilidades infinitas a partir da
mineração dos dados, e como estes têm fornecido verdadeiros insights a chamada Business
Inteligence (BI), uma economia de negócios ampliada a partir da gerência dos dados.
A variedade e volume dessa grande quantidade de dados tem auxiliado na produção de
conteúdo midiático e a partir de sistemas de recomendação e analítica de bases de cliente.
12
Empresas como Netflix e Amazon têm obtido informações preciosas de seus clientes,
informação cedida de graça por meio dos dados coletados a partir do uso dos clientes no
sistema e que são transformados em informação que vira produto. Netflix, por exemplo,
construiu a série House of Cards (2013) a partir de dados dos assinantes. Amazon através do
Kindle executa esse trabalho de coleta de informações da mesma forma que o Netflix, tudo
baseado nos cliques dos usuários e, dessa forma, indicar quais livros serão de interesse para
cada consumidor. Estes novos produtos são totalmente direcionados para os usuários, assim
eles tem em mãos algo bem mais próximo do seu interesse.
Este estudo tem como objetivo identificar como o uso dos dados para obtenção de
informações pode e deve se tornar rotina para produtores de comunicação. Dessa forma,
propõe-se apresentar como essa coleta tem sido fundamental para a comunicação e quais
vertentes comunicacionais surgem a partir dessa era dos grandes dados, além de, como a
mineração desse grande quantitativo de dados tem contribuído na produção de conteúdo de
entretenimento. Com isso as empresas tem otimizado seu serviço de oferta dos produtos, além
de poderem criar estratégias de marketing eficazes para público específico ao qual queiram
atingir.
1.1 Objetivos

Geral
O estudo tem como objetivo identificar os fatores que tem levado o Big Data a
contribuir, através da filtragem de dados, na produção de conteúdo.
Este trabalho também se propõe a verificar se existe uma “nova” forma de fazer
comunicação através da mineração de dados e como a comunicação pode surgir a partir da
mineração por meio do ciclo infinito entre produção de conteúdo, usuário, coleta de dados e
transformação da informação obtida.

Específicos
Compreender o processo de mineração de dados e como as empresas tem utilizado
esse conhecimento para é utilizado para contribuir na criação de ideias para produção de
conteúdo.
Identificar os fatores que tem levado a essa contribuição por meio de análise de
gráficos e tabelas dispostos em redes sociais.
13
FUNDAMENTAÇÃO
2.1 Comunicação na era dos volumes de dados
Com o avanço tecnológico abrangendo cada vez mais a todos, a comunicação tem
ocorrido de forma mais ampla. Há acesso a conteúdos de todo o mundo e as restrições se dão
apenas pela falta de conhecimento da língua local. Outra contribuição para a crescente
comunicação através dessa era digital é a facilidade de aprendizado das novas tecnologias
conectadas em rede, mesmo com pouca formação ou até mesmo os analfabetos, podem
aprender rapidamente a manipular e ingressar na rede, principalmente as sociais, no Brasil o
percentual de pessoas que acessam a internet aumentou especialmente nas classes mais
baixas, passou de 3,8% em 2005 para 21,4% em 2011 segundo dados do IBGE divulgados
pelo Governo1.
A era da informação transformou a forma como nos comunicamos, a mensagem é
transmitida por entre a emaranhada rede de computadores que não modificou necessariamente
a interação face a face, pelo contrário, o avanço tecnológico adjunto a internet contribuiu para
ampliação da comunicação causada pela integração social emergente da denominada
Sociedade em Rede (CASTELLS, 2005), tornando a comunicação de massa, característica da
era industrial, em uma libertária cadeia de informação com a integralização das sociedades
por entre os nós da rede de computadores.
A sociedade em rede, em termos simples, é uma estrutura social baseada em redes
operadas por tecnologias de comunicação e informação fundamentadas na
microelectrónica e em redes digitais de computadores que geram, processam e
distribuem informação a partir de conhecimento acumulado nos nós dessas redes. A
rede é a estrutura formal (vide Monge e Contractor, 2004). É um sistema de nós
interligados. E os nós são, em linguagem formal, os pontos onde a curva se
intersecta a si própria. As redes são estruturas abertas que evoluem acrescentando ou
removendo nós de acordo com as mudanças necessárias dos programas que
conseguem atingir os objectivos de performance para a rede. (CASTELLS, 2005, p.
20)
1
Número de usuários de internet e de pessoas com celular cresceu mais de 100% no Brasil. Disponível em:
<http://www.brasil.gov.br/infraestrutura/2013/05/numero-de-usuarios-de-internet-e-de-pessoas-com-celularcresceu-mais-de-100-no-brasil>
14
O que se deixa por entre os nós dessa rede durante a navegação são mais do que
informações, são conhecimentos guardados pelas máquinas através dos dados, são milhares de
bytes arquivados diariamente. E com as inovações e melhorias dos arquivamentos, a estrutura
física passou para a nuvem, tudo pode ser acessado onde estiver e processado quando quiser.
Dessa forma, o arquivamento da informação gerada pela sociedade em rede chegou
aos meandros do Big Data, que devido ao grande volume de dados produzido, sentiu a
necessidade de transfigurar em informação concisa o conteúdo extraído da rede digital.
O conteúdo adquirido por meio da transformação dos dados em informação tem sido
utilizado atualmente por diversas empresas, em destaque especial as da área de
entretenimento e redes sociais. Através do grande volume de dados analisados por este setor
empresarial, tem sido criadas estratégias de marketing e conteúdo voltados ao interesse
pessoal de cada indivíduo da sociedade em rede.
Com o crescente uso dessas informações cedidas pelos usuários a estas empresas e a
precisão com que esses dados têm auxiliado na criação de serviços específicos a cada usuário,
Pierre Lévy (2014) propõe uma Ciberdemocracia. Com um acréscimo de mais de 35% da
população conectada, considerando dados a partir do levantamento de 1994, em que apenas
1% da população tinha acesso a internet. Para Lévy, a internet se tornou o principal meio de
comunicação e as informações que nós cedemos nessa enleada rede podem dizer muito mais
de nós do que até nós mesmos.
Para nós o ambiente é uma grande massa de dados e estamos aumentando essa
massa, organizando e classificando esse grande volume de dados. Criamos as
relações semânticas desses dados, criamos a avaliação e transformando essa grande
quantidade de dados é que nos comunicamos juntos e fazemos essa transformação
do ambiente comum de dados, através dos algorítimos. Então, o centro de tudo é o
grande volume de dados, onde nós temos todos algorítimos que nos permite
transformar e acessar esses dados, em volta desses algoritmos estão pessoas reais
que estão se comunicando através desse ambiente (algoritmos e dados). Quando
estou me referindo a uma sociedade centrada em dados, estou falando não somente
das instituições, mas também da relação entre as pessoas. ( MARANHÃO, Carla
apud Lévy, 20142)
Os algoritmos que levam a compreender e transformar em informação esse grande
volume de dados tem se tornado um mecanismo de pesquisa de opinião entre o usuário e as
empresas que fazem uso desse conteúdo para criar e segmentar as campanhas e os produtos de
acordo com a necessidade e gosto de cada usuário. A comunicação saiu dos meandros dos
2
Resumo da Palestra de Cibercultura e Inteligência Coletiva - SENAC - 17/03/2014. Disponível em
<http://carlamaranhao.blogspot.com.br/2014/03/resumo-da-palestra-de-cibercultura-e.html>
15
questionários ou pedidos de opinião para conhecimento do perfil de cada usuário através dos
clicks ou escritas, verdadeiros mapas mentais deixados por navegação e que tem gerado
insights as empresas.
2.2 Negócios inteligentes através dos grandes dados
Inteligência de Negócios ou Business Intelligence (BI) significa, resumidamente,
coletar dados de diversas fontes, organizá-los, analisá-los e compartilhá-los com os executivos
mais importantes da empresa3. Estes então transformam essas informações relevantes em
decisões importantes para o futuro da empresa.
Através da coleta, organização, análise e compartilhamento de dados de diversos
sistemas, o BI oferece informações qualitativas que permitem decisões mais seguras e ações
bem direcionadas para resultados sólidos, seja para que a empresa se mantenha competitiva
diante da concorrência, seja para que ela visualize novas oportunidades e amplie sua atuação.
Com a chegada dos grandes dados, o BI já não trilha sozinho. Aliado a ele está o
Business Analytics (BA) que, em tempo real, estará juntando a mineração de dados com
análises preditivas. Segundo Barbieri (2011, p. 4) “[...] a informática fez os dados. Depois
transformou-os em informações. Agora o objetivo é usinar conhecimentos a partir daquelas
matérias-primas”.
Dessa forma a inteligência nos negócios atualmente deve andar concomitantemente
ligada a mineração dados. Big Data se torna um grande impulsionador econômico de vários
segmentos e a Gartner, empresa de consultoria norte-americana, divulgou em 2012 as
previsões dos segmentos que mais obteriam maiores resultados por conta do grande volume
de dados como observado na figura abaixo:
3
O que é Business Intelligence? Disponível em: http://www.it4biz.com.br/novosite/comunidade/open-sourcebusiness-intelligence/o-que-e-business-intelligence/. Acesso em 13 de jul de 2014
16
.
Figura 1: Grande oportunidade de Big Data do mapa de calor por indústria
Fonte: Gartner, 2012
De acordo com a figura 5 observa-se que o setor de comunicação, mídia e serviços
tem o segundo maior potencial de oportunidade em uso de big data. Nessa perspectiva a
análise a ser feita neste projeto monográfico objetiva-se a verificar como esse potencial de
mineração do grande volume de dados tem sido utilizado na comunicação para produção de
conteúdo.
2.2.1 Amazon
A Amazon foi fundada em 1995 com a ideia de comercializar livros online e o
investimento crescia rapidamente (SCHÖNBERGER e CUKIER, 2013, pag. 35). O trabalho
de avaliação dos títulos que apareciam na sugestão era feito manualmente na época, editores e
críticos eram contratados especialmente para isso e o resultado era surpreendente, tanto que
um jornal publicou artigo considerando os mais influentes do País devido as significativas
vendas efetuadas.
O diferencial da Amazon não se deu apenas pelas boas recomendações dos críticos e
editores que trabalhavam na empresa. O CEO da empresa, Jeff começou a utilizar, de forma
17
primária, na análise dos dados de forma manual. Os resultados eram combinados e iniciou a
recomendação específica a cada usuário. Só que como era baseada em compras anteriores
acabava não sendo tão eficaz, mas já foi o início do uso de dados em correlação as práticas
usadas atualmente para o big data.
Os dados proporcionaram a Amazon grandes possibilidades e por isso o investimento
da empresa em tecnologias de informação se manteve crescendo, para isso criou-se o serviço
de computação remota denominada Amazon Web Services (AWS)4, esse sistema coleta e
armazena dados e todos se encontram disponíveis na nuvem. Entra em destaque o Amazon
S3, sistema de armazenamento em nuvem criado com uma interface simples que atenda o
arquivamento e recuperação de qualquer quantidade de dados. Nesse sistema, o serviço
implantado a Amazon é capaz de receber mais de 50 milhões de atualizações por semana
sendo que a cada trinta minutos eles são processados e retornam aos vários bancos de
armazenamento para interagirem novamente:
Tanto a Google quanto a Amazon expandem as categorias, mas as estratégias são
diferentes. Quando a Google coleta qualquer tipo de dado, visa as utilidades
secundárias. Os carros Street View, como vimos, coleta informações de GPS não
apenas para o serviço de mapas mas também para treinar carros automatizados. Por
outro lado, a Amazon está mais focada no uso primário dos dados e só os
reaproveita marginalmente. (SCHÖNBERGER e CUKIER, 2013, p.93)
O CEO da Amazon revelou em entrevista ao Instituto de Tecnologia de Massachusetts
(MIT5) que o sistema utilizado hoje pela empresa é muito mais eficaz do que o Google e o
Facebook, pois segundo ele a empresa tem uma compreensão muito mais clara das coisas que
os consumidores desejam comprar.
Os usuários do e-reader da Amazon, Kindle, assinam um acordo de permissão que
concede a empresa armazenar informações da última página lida, além de marcadores,
destaques, notas e anotações em seus servidores de dados. Com essas informações a Amazon
pode identificar quais trechos de livros são populares com os leitores, e compartilha alguns
desses dados publicamente em seu site por meio de recursos como a sua lista de "passagens
mais destacadas". Leitores também podem optar por ver as linhas comumente destacadas por
outros leitores, que leem um livro, dessa forma, a Amazon pode ver o que se destacou mais.
4
Disponível em http://aws.amazon.com/pt/
LEBER, Jessica. Amazon Woos Advertisers with What It Knows about Consumers. Disponível em
<http://www.technologyreview.com/news/509471/amazon-woos-advertisers-with-what-it-knows-aboutconsumers>
5
18
As especulações presumem que todo esse material coletado seja crucial para que os
editores identifiquem fatores que deem origem ao próximo livro de sucesso, para o porta-voz
da Amazon, Kinley Pearsall "Pensamos nisso como a inteligência coletiva de todas as pessoas
que estão lendo no Kindle", diz6.
A Amazon com todos esses atributos já é referência e seu sistema de plataforma de
análise é utilizado por empresas como Pinterest (rede social de compartilhamento de fotos) e
Netflix e dessa forma a empresa entrou no mercado dos grandes dados.
2.2.1 Netflix
A Netflix nasceu em estrutura física oferecendo venda e o aluguel de filmes “à la
carte”, em 1999, adotou o sistema de assinaturas com aluguéis ilimitados, após receber US$
30 milhões feito por um grupo de investidores. Com isto, o sistema funcionava da seguinte
maneira: o cliente escolhia o filme no site da empresa e recebia em casa via correio com
embalagem personalizada para que mandasse de volta assim que acabasse de assistir7.
Integrada a era digital, a economia da Netflix está baseada na de nicho onde é preciso apenas
saber da necessidade do cliente e oferecer o que ele deseja. Com o Big Data, a empresa foi
capaz de criar através dos sistemas de recomendação, baseado na filtragem colaborativa, era
possível fazer indicações de filmes pertinentes a escolhas anteriores de seus clientes.
As recomendações da Netflix nivelam o campo de jogo, oferecendo marketing
gratuito para filmes que, do contrário, não poderiam dar-se a esse luxo, espalhando a
demanda de maneira mais uniforme entre hits e nichos. Portanto, são importante
força democratizante num setor muito pouco democrático. (ANDERSON, 2006,
p.77)
Esse diferencial de recomendações alavancou a empresa no mercado de streaming de
vídeos, não eram só novos filmes que interessavam, e saber dessa escolha do usuário o atraia
a fazer parte da rede. Tendo em vista isso, a Netflix passou de serviços de streaming de filmes
para produtor de seu próprio conteúdo, e o uso dos dados foi o ponto culminante do sucesso
que a empresa obteve.
6
ALTER, Alexandra. Your E-Book Is Reading You. Disponível em
http://online.wsj.com/news/articles/SB10001424052702304870304577490950051438304
7
Mundo das Marcas – Netflix. Disponível em:< http://mundodasmarcas.blogspot.com.br/2007/05/netflix-bestway-to-rent-movies.html>
19
A análise de dados está fazendo com que a Netflix proporcione um serviço de melhor
qualidade, e por isso ela investiu ainda mais e utilizou as informações obtidas através dos
dados para construir a série House of Cards (2013). Diversos fatores contribuíram para
criação da série. A Netflix consegue capturar dados de seus clientes como o tempo que se
assiste, momento em que pausa, retrocede ou continua, o local (endereço) em que se assiste.
Toda essa coleta de dados é pensada com o propósito de identificar formas dos clientes não
cancelarem suas assinaturas ou deixariam de assistir determinado produto.
A partir de dados coletados, como visualização da série pelo site da Netflix que a
empresa pode identificar que a versão britânica de House of Cards, exibida durante os anos
90, fez grande sucesso e muitas pessoas comentavam como gostariam de ver novamente.
Outra informação captada com base nos dados extraídos e analisados pela Netflix foi que o
ator Kevin Spacey e o diretor David Fincher eram bem cotados pelo público assinante, pois os
mesmos que assistiam a série também viam filmes atuados e dirigidos por eles. A partir daí,
unindo esses três elementos, surgiu a fórmula de sucesso da série.
Ter essa visão custou um alto investimento, mas o chefe de comunicações da Netflix,
Jonathan Friedland, revelou em entrevista que saber o que as pessoas gostam de assistir ajuda
a entender quão grande vai ser o interesse para determinado show e que isso deu confiança de
que poderiam encontrar um público para um show como House of Cards8.
2.3 - Mineração de Dados
As bases de dados estão presentes desde o nascimento da informática, o primeiro
computador criado nos anos 40, o Eniac (LÉVY, 1993, p.62), com função de uma calculadora
gigante, era composto apenas de dados numéricos, informações que não precisavam de grande
fonte de armazenamento ou leitura, pois primordialmente se tratavam apenas de bases de dado
relacionada.
8
Retirado de trecho de entrevista concedida ao blog Kiss Metrics, com tradução livre. Disponível em:
http://blog.kissmetrics.com/how-netflix-uses-analytics/
20
Cerca de 30 anos depois, na década de 70, o diretor do Instituto de Tecnologia de
Massachussets (MIT), Seymor Pappert discursou que os dados seriam responsáveis por uma
grande revolução, e ele estava certo. Na década de 80 os dados ganharam espaço e sua
utilização como forma de informação estava em processo de formação (BARBIERI, 2011). O
Data Warehouse, que significa literalmente um armazém de dados, surgiu na época com a
possibilidade de analisar as tabelas relacionais, que são conjuntos de dados dispostos de forma
finita em número de colunas e linhas, semelhante a uma planilha eletrônica, para transformar
em informação os dados coletados e dessa forma iniciou o processo do uso de utilização dos
dados em empresas, denominando a chamada Business Intelligence, a ser descrita mais
adiante.
Com a funcionalidade do uso de banco de dados e o volume exacerbado de
informações diárias produzidas, surgiu a necessidade de um Sistema de Gerenciamento de
Banco de Dados (SGBD) para guardar as informações nos computadores e organizar de forma
relacional o conteúdo gerado. Contudo, a avalanche diária de dados trouxe a necessidade de
novas formas de compreensão e utilidade desse conteúdo que não seria apenas armazenado,
mas passar por processos de mineração.
A partir do avanço da internet e da circulação de grandes quantidades diárias de dados
circulantes, os conteúdos gerados contribuiu para a otimização de seu uso. Essa nova fonte
surgida com base nos dados fez com que se proporcionasse uma qualidade maior nos
processos de desenvolvimento de sistemas, as empresas passaram a investir em tecnologia da
informação e, a descoberta de conhecimento em bases de dados como forma de mineração
(Data mining) tem se tornado um atrativo pela sua abordagem na garimpagem desses dados.
Até o lado mais escondido dos dados já está sendo, cada vez mais, alvo de
interessantes aplicações. É o conceito de Data mining (garimpagem de dados), que
objetiva melhorar o uso desses gigantescos arsenais de informação através da
identificação de padrões de correlação normalmente invisíveis em análises
convencionais. Indicadores de produtos comprados em conjunto, ou de padrões de
fraudes praticadas, ajudarão os gerentes de empresas, no seu cotidiano [...].
(BARBIERI, 2011, p.4)
A importância da mineração de dados para uma empresa se torna uma importante
ferramenta que proporciona a potencialidade da inovação e lucratividade. Na era dos grandes
dados, a garimpagem bem executada determina quem estará a frente do mercado, na produção
de conteúdo, por exemplo, indicando qual produto é determinante e diferencial e quais as
melhores escolhas a serem feitas.
21
2.3.1 Big Data e a mineração na era dos grandes volumes de Dados
Desde o surgimento da internet, a velocidade com que os as informações circulam só
tende a aumentar, a proporção é que passe de 1,8 zettabyte, hoje, para 7,9 zettabytes em
20159, 1 zettabyte equivale a 75 bilhões de iPads de 16 GB empilhados e em notação
científica pode ser representado como 1021 bytes, ou seja, 10 elevado a 21ª potência. Esse
acréscimo também resultou na quantidade de dados diários, que antes tabulados e
armazenados no Data Warehouse, já não seriam suportados pois estavam além de bases
relacionais. Entramos então na era dos grandes volumes dados, ou como vem sendo chamada,
Big Data.
Em termos de quantidade de dados, há dez anos terabytes era algo surpreendente. Hoje
já se tem essa quantidade de armazenamento em uso doméstico. Por isso, Big Data tem
atraído atenção pela acelerada escala em que volumes de dados cada vez maiores são criados
pela sociedade. Já se passa da escala de petabytes, que equivale a cerca de 1 milhão de
gigabytes, de dados gerados cada dia, adentrando na era dos zettabytes, começando a ser uma
proporção real e não mais imaginária e futurista.
Não se pode deixar de pensar que adicionalmente a computação em nuvem é também
um impulsionador para o fenômeno que vem sendo o Big Data. A possibilidade de utilização
das nuvens públicas para suportar imensos volumes de dados e utilidade de servidores
virtuais, além das caraterísticas de elasticidade delas permitem a usabilidade apenas no
momento de tratar estes dados independentemente de onde estejamos.
O conceito de Big data também norteia pelo conjunto de soluções tecnológicas capaz
de processar grande conjunto de dados que tem sido definido com captura, gerenciamento e
análise que vão além de dados estruturados típicos (como os de Data Warehouse que podem
ser consultados por sistemas de gerenciamento de banco de dados relacional). O Big Data está
frequentemente ligado a arquivos não estruturados, não relacionais, definidos como NoSQL10,
que diferente dos bancos relacionais não usam esquemas de tabelas fixas, os registros se
encontram agrupados aprimorando a velocidade de busca. Exemplos de arquivos de dados não
estruturais são vídeo digital, imagens, twetts, postagem de facebook, arquivos de log. Na
verdade, qualquer dado não contido nos registros com campos pesquisáveis distintos. Dessa
forma, os dados não estruturados se tornam dados interessantes.
9
Como funciona o Big Data. Disponível em: http://oglobo.globo.com/infograficos/bigdata/
http://nosql-database.org/
10
22
O Big Data é sustentado por tecnologias que podem ser analisadas sob duas óticas: as
envolvidas com analytics, tendo Hadoop e MapReduce como formas principais de mineração
de dados e as tecnologias de infraestrutura, que armazenam e processam os dados.
O Hadoop recebeu esse nome por conta de um brinquedo denominado baby elephant,
é caracterizado como um gerenciador distribuído de arquivos com alto nível de escalabilidade
e passível de poucas falhas. O diferencial do Hadoop se dá pela sua biblioteca de software
disposto de um framework que permite o processamento distribuído de grandes conjuntos de
dados em clusters de computadores, sistema que relaciona computadores para que trabalhem
de maneira conjunta para execução de determinada tarefa, usando modelos de programação
simples, os dados são espalhados por entre redes identificadas como nós fazendo uso de
computadores mais simples.
Hadoop MapReduce é um framework de software para escrever facilmente aplicações
que processam grandes quantidades de dados em paralelo em grandes aglomerados (milhares
de nós) de hardware commodity de uma maneira confiável e tolerante a falhas.
O MapReduce geralmente trabalha dividindo a entrada de dados, quem vem em
conjunto,
em pedaços independentes que são processados pelas tarefas de mapeamento
(Map) de uma forma completamente paralela. O quadro classifica as saídas dos mapas, que
são, em seguida, a entrada para as tarefas de redução . Tipicamente, a entrada e a saída do
trabalho são armazenados num sistema de arquivo.
Figura 2: Modelo de estrutura do Hadoop
Fonte: Apache, 2014
A figura 2 apresenta o modelo de estrutura do Hadoop, a parte inferior representa os
nós (vários servidores que alocam os dados como uma rede distribuída), o HDFS é o sistema
de arquivos distribuídos que subdivide os dados em blocos de 64MB para leitura da
mapeamento, após segue para divisões de ordem dos conteúdos que estavam embaralhados e
23
por fim passam pela redução do conteúdo, resultando na análise e informação de leitura mais
simples.
Quando os dados não eram tão explorados por conta da pequena quantidade que era
possível processar, a maioria das análises estava limitada a relações lineares. Com o tempo
verificou-se uma não-lineridade nas variações, como curvas, eram encontradas nos gráficos e
denominado de análise correlacional. Atualmente com o avanço do processamento e
mineração de dados, as técnicas de análise tem se aperfeiçoado e ampliado fazendo com que
na era do Big Data os novos tipos de análises levem a um mar de ideias e previsões úteis:
O big data transforma a maneira como entendemos e exploramos o mundo. Na era
dos pequenos dados, éramos motivados por hipóteses sobre como o mundo
funcionava, as quais depois tentávamos validar coletando e analisando dados. No
futuro, nossa compreensão será motivada mais pela profusão de dados do que por
hipóteses.
Essas hipóteses geralmente surgem de teorias das ciências naturais ou sociais, que
por sua vez ajudam a explicar e/ou prever o mundo. À medida que passamos de um
mundo movido por hipóteses para um mundo movido por dados, talvez nos sintamos
tentados a pensar que já não precisamos de teorias. (SCHÖNBERGER e CUKIER,
2013, pag. 48)
A dependência de teorias não será de um todo descartada pelo advento do Big Data,
até porque ele vive com base em teorias, são elas que sustentam as premissas estatísticas e
matemáticas utilizadas. Porém mesmo não representando o fim da teoria, o Big Data modifica
a maneira como se entende o mundo. De forma que abre um vasto território a ser explorado
pelas empresas. Há alguns anos havia existência de pouco conhecimento, experiências e
mesmo de expertise profissional em especial na área da comunicação e que hoje propicia em
novas funções de mercado e assim surgem profissões como cientistas de dados
(SCHÖNBERGER e CUKIER).
Big Data trouxe associado a ele determinadas características considerados os 5 V’s
como relatados pelo IBM11, o primeiro é do volume tendo em vista a grande quantidades de
dados gerada, em seguida a variedade, pois como já dito anteriormente se trata de dados
relacionais como não-relacionais ou não-estruturados, velocidade pela rapidez com que os
dados nascem e da mesma forma devem ser processados e analisados e dois que foram
acrescidos posteriormente que são a veracidade, os dados coletados e minerados devem
conter autenticidade e por último o valor pois é importante que haja retorno no investimento.
11
Você realmente sabe o que é Big Data?. Disponível em:
<https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/voce_realmente_sabe_o_que_e_big_da
ta?lang=en > acesso em 17/04/1024.
24
Tendo em vista a agregação desses conceitos, Big Data é capaz de abrir novas e
inesperadas oportunidades. Os dados passaram a exercer diversas funções de importância e a
mutabilidade de informações geradas através de algoritmos de análise sofisticados, tem
gerado verdadeiras soluções e compreensão, insights, que dantes eram inimagináveis. Com
essa enorme capacidade é necessário então que os planejamentos de investimento em
capacidade de armazenamento, tanto interno ou em nuvem sejam revistos:
A quantidade de dados do nosso mundo está explodindo. Empresas capturam
trilhões de bytes de informações sobre seus clientes, fornecedores e funcionários, e
milhões de sensores conectados estão sendo inseridos no mundo físico em aparelhos
como celulares e automóveis, percebendo, criando e comunicando dados. Indivíduos
com smartphones e em sites de redes sociais continuarão incrementando crescimento
exponencial. Big data – grandes poços de dados que podem ser capturados,
comunicados, agregados, armazenados e analisados – é agora parte de cada setor e
função da economia global (MANYIKA; CHUI; BROWN et al, 2011, p. 4, tradução
livre12).
É preciso então começar a considerar os dados como valor não só momentâneo, mas
futuro e por isso o armazenamento deve ser contínuo, não se pode olhar apenas como
puramente valor transacional. Na verdade, com o conceito de Big Data os dados em si
começam a ser altamente valorizados, antes o valor era medido apenas pelas informações que
podiam ser extraídas. Big Data então tem se tornado a simples constatação prática que o
imenso volume de dados gerados a cada dia excede a capacidade das tecnologias atuais de os
tratarem adequadamente na sua totalidade.
2.3.2 Ferramentas de Big Data a partir de redes sociais
O grande volume de dados possibilitou a implementação das empresas como Google e
Facebook de disponibilizar ferramentas para seus usuários/clientes. Foram disponíveis formas
de análises que representam o pós-processamento de mapeamento e redução através do
Hadoop e MapReduce explicados anteriormente, as páginas de análise mostradas por essas
empresas se configura em dados estatísticos de informações que possam auxiliar na geração
de estratégias.
12
“The amount of data in our world has been exploding. Companies capture trillions of bytes of information
about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the
physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data.
Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential
growth. Big data—large pools of data that can be captured, communicated, aggregated, stored, and analyzed—is
now part of every sector and function of the global economy”
25
O Google apresenta ferramentas como encurtador de URL (Google URL Shortener)
que possibilita ao usuário da ferramenta saber a quantidade de cliques feitos através do link
encurtado, a origem de onde esses links foram acessados (Referrers), e consequentemente se o
link encurtado estiver disposto em várias redes (facebook, twitter, blogger, etc.) fica
registrado de qual fonte foi feito o acesso à página.
Figura 3: Página de análises do Google URL Shortener
Fonte: goo.gl
Na figura 2 acima indica as demais possibilidades a partir do encurtador de URL do
Google como as plataformas que mais são usadas para acesso do conteúdo e quais países
visitam, estes indicados por uma cor mais escura.
No Facebook a página que indica as estatísticas é chamada de ‘informações’ que se
subdivide em quatro termos de análises diferenciadas como vistas na figura 3.
Na ‘Visão Geral’ são apresentadas métricas, informações básicas dos dados da página
como alcance de publicações, das pessoas que comentam e o alcance semanal que são
explorados pelas outras guias mais profundamente como descritas a seguir.
26
Figura 4: Página de informações do Facebook
Fonte: Facebook, 2014
A figura 3 mostrada apresenta em destaque a página de fãs que corresponde a
segmentação por gêneros, quantidade de homens e mulheres que curtiram sua página, o País,
a cidade e o idioma. Há também a visão de pessoas alcançadas, ou seja, a quantidade que
visualizou, curtiu e compartilhou sua página por meio de uma busca orgânica (busca natural,
não paga, através de listagens dos motores de busca) ou paga. Pessoas envolvidas são os
seguidores assíduos, que visitam sua página numa margem de pelo menos 28 dias. O chek-in
para possibilitar o administrador saber quem fez marcação (check-in) em sua página.
Na ‘Publicação’ é possível visualizar os dados de um período recente até uma semana,
quando os fãs estiveram conectados, apresentando até mesmo dia e horário do acesso, os tipos
de publicações e a quantidades de cliques delas, a partir disso é possível promover uma
publicação, de forma paga, para que o alcance da postagem seja ainda maior.
As ‘Visitas’ são separadas por dois segmentos, as que são feitas por meio do clique
nas guias da própria fanpage e por página de referência por meio de origem de visitas por
páginas fora do Facebook.
A outra rede a ser explorada é o Blogger, hoje pertencente ao Google, apresenta uma
página de estatísticas composta por uma visão geral, postagens, origens de tráfego e público.
Na ‘Visão geral’ são apresentados dados resumidos das demais categorias de análises
existentes. No item ‘Postagens’, aparecem os números de visualizações de todas as postagens
27
do blog. Em ‘Origens do tráfego’ se vê o quantitativo de visualizações por URL de referência,
por sites de referência e por termos pesquisados coincidentes com as palavras-chave.
No item ‘Público’ são colocados três tipos de estatísticas, são elas visualizações de
página por País, por navegador e por sistema operacional.
Além das páginas de análises apresentadas acima, o Google criou uma página mais
específica chamada Analytics, capaz de identificar além da tradicional taxa de exibição,
localização geográfica do visitante, forma com a qual chegou na página, sistema
operacional, navegador, navegador e sistema operacional, navegador e a junção de navegador
e sistema operacional e suas versões, resolução de tela, verificação em períodos diários,
semanais, mensais e anuais, entre outros como pode ser identificado na figura 4 abaixo.
Figura 5: Aparência do Google Analytics
Fonte: http://goo.gl/Yk8kBL
É possível interligar todas as redes citadas ao Analytics, para isso é necessário apenas
cadastrar-se e gerar o código a ser inserido na página que deseja e todas as análises poderão se
acompanhadas pela ferramenta do Google.
Dessa forma o Google Analytics não funciona apenas como uma ferramenta de
monitoramento de tráfego, mas também como uma poderosa ferramenta para tomada de
decisões em negócios relacionados à Internet.
Na análise a ser feita no discorrer deste trabalho, serão utilizadas as ferramentas de
análise disponíveis pelo Facebook e Blogger e como os dados disponíveis por estas redes
possibilitam a criação de estratégias para produção de conteúdo.
28
2.4 Classificação Social
A mineração de dados não ocorre apenas de forma analítica, as interações
provenientes das redes sociais também geram dados, quando dispostos de forma a serem
analisados e tabulados recebem a denominação de dataficação, processo que pode se tornar
valioso quando utilizado de forma proveitosa transformando as informações recebidas em
gráfico
social
com
base
nas
características
relacionais
utilizadas
pelas
redes
(SCHÖNBERGER e CUKIER, 2013).
Os recursos da dataficação nas redes sociais são variados. O Twitter, por exemplo,
alavancou com o surgimento das marcações denominadas hashtags. Com as hashtags, as
empresas conseguem avaliar de forma instantânea o que está relacionado a ela e mudar de
estratégia caso seja necessário. As estrelas que os usuários avaliam conteúdos, o curtir ou não
como utilizados pelo Facebook e Youtube também são de utilidade nessa era dos grandes
dados.
O próximo âmbito da dataficação é mais pessoal: nossas relações, experiências e
estado de humor. A ideia de dataficação é a espinha dorsal de várias empresas de
mídias sociais. As plataformas de redes sociais não apenas nos oferecem uma
maneira de encontrar e manter contato com amigos e colegas, mas usam elementos
intangíveis do cotidiano e os transformam em dados que podem ser usados para
outros fins. (SCHÖNBERGER e CUKIER, 2013, p.63)
Essa dataficação é uma forma de filtragem: após o arquivamento é preciso apenas
sintetizar os dados para transformar em informação necessária, que sendo analisadas geram
uma base de informações valiosas mapeadas e arquivadas. Dessa forma, toda categorização de
atribuição dataficada é útil porque estarão sendo armazenadas e as definições atribuídas a elas
permitem que a mineração desses dados seja analisada e tabulada, auxiliando na leitura e
transformando em informações.
Na próxima seção, será apresentada a metodologia e em seguida o desenvolvimento
desse trabalho.
29
3 .METODOLOGIA
Como forma de compreender o processo de produção de conteúdo de entretenimento a
partir da coleta de dados fornecidos por páginas de redes sociais que fazem uso de coleta,
processamento e representação de dados, utilizou-se então páginas de conteúdo do Facebook e
do sistema de publicação Blogger. A escolha se deu devido a facilidade de acesso as
informações, pela proximidade do administrador e por se tratarem do mesmo objeto
facilitando a verificação de como o conteúdo é classificado socialmente em alguns (como os
“likes” do Facebook) e alguns dados analíticos (como acesso, pageviews, etc.). Assim,
pretende-se avaliar como diferentes fontes de dados podem ser utilizadas para construir
prospecção de conteúdos online.
A página de conteúdo de entretenimento “Tatá e sua Turma” foi utilizada para análise
no Facebook. Nos dados fornecidos pelo Facebook, é possível ter uma visão geral da página,
as curtidas, o alcance, as visitas, as publicações e as pessoas. Já na ferramenta de publicação
de conteúdo Blogger, foi feito o uso do blog de entretenimento denominado de Thales Lima
Estúdio de Desenhos, que desenvolve a página do Facebook “Tatá e sua Turma”, no Blogger
há ferramentas semelhantes as do Facebook, porém de forma mais concisa com poucas
possibilidades de análises temporais.
Dessa forma pretende-se utilizar esses dois meios e compará-los através de suas
estatísticas e como estas contribuem para criação de um conteúdo e a convergência entre as
publicações que podem auxiliar no mapeamento dos resultados analíticos e fomentar novas
produções.
O período de análise vai de 01 de junho de 2012 até 31 de dezembro de 2012, seção
temporal de maior coleta de dados em ambos os produtos comunicacionais.
4. Análise
Foram analisadas as ferramentas de comunicação descritas na seção anterior, as quais
disponibilizam ferramentas para que os usuários possam obter informações dos dados gerados
por suas páginas, a forma como esses dados aparecem e se a leitura é facilmente entendida.
Os termos utilizados por cada rede são praticamente os mesmos, e que a análise por
navegador está presente em duas delas, o que caracteriza um fator importante na hora da
produção de um site.
30
O diferencial maior foi a possibilidade que o Facebook oferece de baixar em forma de
planilha os dados da página, no arquivo consta registro de atividades com no máximo 28 dias,
a partir dele é possível identificar os fatores que levam um conteúdo a ser viral, baseado no
número de curtidas e compartilhamentos que aparecem sintetizados numa amostragem apenas
numérica.
A coleta de dados das páginas de análises das redes sociais se deu por causa da
característica do conteúdo e o fluxo de informações, os dados consistem em gênero de
seguidores, conteúdo de maior publicação, maior alcance, itens que são relevantes para
prospecção de novos conteúdos.
A escolha se deu devido a quantidade de informações disponíveis por essas redes
sociais. No Facebook e Blogger os usuários que possuem páginas tem uma gama de
informações detalhadas sobre a visão que os usuários tem, o conteúdo que mais obteve
curtidas ou visualizações, o alcance de suas publicação. São dados minerados que já passaram
pelo processo de mapeamento e redução e auxiliam na hora de criação de estratégias para
maior alcance de páginas.
Com base no discorrido até o momento apresentar como a mineração de dados ocorre
a partir do grande volume de processamento de dados, fundamental para caracterizar o Big
Data. A partir da análise de como ocorre esse tratamento analítico, pode-se então
compreender o trabalho feito após essa mineração pelas empresas de produção de conteúdo
que atualmente passam a gerir suas ações mercadológicas com base na mineração de dados.
4.1 Análises por meio de registros das redes sociais
Até o momento foi relatado como se dá a mineração de dados por meio do processo de
mapeamento e redução, mas esse tipo de análise feito por trás de sites como Google,
Facebook, Amazon, Netflix, pode aparecer de forma mais concisa, apresentado por meio de
gráficos, tabelas.
O que se pode identificar com isso é que a produção de conteúdo com base em análise
e mineração de dados pode ocorrer nas duas esferas, tanto por parte de grandes empresas que
detenham softwares como o Hadoop e MapReduce, como por pequenas empresas ou usuários
que utilizam a rede para expor seu conteúdo.
31
Como forma de análise foram utilizadas as páginas do Facebook, e o Blogger para
visualizar que após o processo de mapeamento e redução obtemos as páginas de resultados
como as que veremos a seguir.

Facebook
Na figura a página apresentada é do setor pessoas e os resultados mostram
segmentação por gênero que ainda divide e segmenta por usuários gerais e fãs. Na mesma
página é possível ainda identificar onde esses usuários estão localizados, por cidade e por
países.
As publicações informam o período em que o conteúdo recebeu maior número de
visitações, curtidas e compartilhamentos. Através do Facebook também é possível identificar
o conteúdo clicado, tudo para que o usuário possa sintetizar e utilizar essas informações como
insights para futuras publicações.
Figura 6: Página de informações do Facebook
Fonte: Facebook, 2014
O próprio Facebook disponibiliza os dados para que possam ser baixados como planilha, e
denomina como Insights Data Export, apresentando números detalhados de publicações feitas
a no máximo 28 dias. Com os dados é possível verificar o conteúdo propenso a grandes
32
compartilhamentos, informação que podem modificar a forma como postagens posteriores
serão feitas e como serão abordadas.
Pelos Insights Data Export, pode-se gerar gráficos que permitem vislumbrar o ponto
de análise que pode ser integrado para a comunicação. Os dados do Facebook apontam para
um crescimento entre os meses de junho e outubro, com picos em especial de curtidas em
junho e aumento de visibilidade em julho. Essa análise prévia serve para quantizar qual
segmento do outro objeto de comunicação deve-se dar atenção, para entender afinal como o
público interage com o conteúdo do site.
Figura 7: Facebook Insights Data Export
Fonte: Facebook, 2014
Diariamente Usuários envolvidos: O número de pessoas
que interagiram com a sua página. Interação inclui
qualquer clique ou história criada. (Usuários únicos)
150
100
50
11/2/12
10/2/12
9/2/12
8/2/12
0
7/2/12
Diariamente
Usuários
envolvidos na
página
Diariamente: O
número de
pessoas que
interagiram com a
sua página.…
6/2/12
120
100
80
60
40
20
0
Vitalício Total de curtidas Vitalício: O número
total de pessoas que curtiram sua página.
(Usuários únicos)
Vitalício Total
de curtidas
Vitalício: O
número total de
pessoas que
curtiram sua
página.
(Usuários
únicos)
33
28 dias Alcance orgânico 28 dias
6000
28 dias Alcance
orgânico 28 dias: O
número de pessoas
que visitaram sua
página ou a
visualizaram uma
das publicações da
sua página no Feed
de notícias ou na
seção Novidades.…
5000
4000
3000
2000
1000
O número de pessoas novas que curtiram sua
página. (Usuários únicos)
20
15
10
5
11/2/12
10/2/12
9/2/12
8/2/12
7/2/12
11/2/12
10/2/12
9/2/12
8/2/12
7/2/12
6/2/12
6/2/12
0
0
Diariamente
Novas curtidas
Diariamente: O
número de
pessoas novas
que curtiram
sua página.
(Usuários
únicos)
Figura 8: Gráficos gerados com os dados do Facebook Insights Data Export.

Blogger
A outra rede social utilizada para poder verificar os dados e utilizá-los como
informações é o Blogger, a rede foi comprada pelo Google e possui um sistema de estatísticas
geral e conciso, os dados não podem ser selecionados por períodos como ocorre no Facebook,
além disso não é possível baixar, dificultando um processo de análise mais específico.
Figura 9: Página de estatísticas do Blogger
Fonte: Blogger, 2014
34
A figura acima demonstra uma visão geral da página de estatísticas que traz a origem
das buscas, como URL e até mesmo o País, denominando assim as origens do tráfico que
levaram ao acesso. É possível verificar os dados apenas por tempos determinados pelo
Blogger, ele contabiliza todos os dados relacionados para cada postagem desde a data de sua
origem.
Na ferramenta de publicação de conteúdo em questão é possível verificar o conteúdo
da página que obteve maior visitação, analisando a data e o conteúdo da postagem
“vingadores...zinhos”, verificamos que coincidem com o período em que o filme “The
Avengers” (Os Vingadores, 2012) estava em cartaz, outra informação que obtemos é que no
mesmo período o País que mais visitou a página foi os Estados Unidos, resultado que se
complementa com a busca por conteúdo relacionado, as URL’s de referência, a principal fonte
de pesquisa usada foi o site de buscas do Google. Dessa forma elas também auxiliam no
conhecimento pois fazem com que se aprimore a escolha das palavras-chave a serem usadas
para identificar determinado conteúdo, como pode ser verificado no gráfico abaixo.
Visualizações de página por URL de referência
12
10
8
6
4
2
0
Visualizações por País
11
1
1
1
1
1
Visualizações
de página
40
30
20
10
0
37
28
2
1
Visualizações
por País
Postagens mais vistas
2000
1500
1000
500
0
Visualizações da
página
Figura 10: Gráficos gerados com as estatísticas fornecidas pelo Blogger
Os dados coletados destas duas redes de entretenimento apresentadas acima também
correspondem a conteúdos publicados, a postagem de maior visualização identificada pelo
35
Blogger também foi postada na página do Facebook no mês correspondente a estreia do filme
e como apresentado no gráfico proporcionou o maior número de visualizações da fanpage.
3.3 Produzindo conteúdo a partir da analítica de dados
É possível verificar então que a análise de dados pode ser feita no âmbito de grandes
empresas como Google e Facebook que através do Hadoop e MapReduce conseguem extrair
informações que geram insights, e que estas fornecem aos seus usuários modelos reduzidos
traduzidos em gráficos estatísticos que auxiliam na própria mineração e surgimento de ideias
que também podem ser geradas com base nas redes sociais.
Até o momento viu-se como Big Data tem modificado o mercado devido a quantidade
de informações variadas que se transformam em fonte de conhecimento. A partir do momento
em que se começou a minerar dados não estruturados como já foi dito, pode-se ter a
capacidade de realizar análises mais eficazes (veracidade dos dados) que contribuem para
estratégias melhoradas, principalmente em termos de produção de conteúdo. Nesse tópico
pretendemos apresentar um ciclo de produção associado ao Big data.
Com base nas análises apresentadas, foi possível identificar que o pico de maior
visualização, curtidas e compartilhamentos do Facebook e Blogger coincidem com a
postagem relacionada ao filme que estava em cartaz, verificou-se também que a escolha de
palavras-chave que facilitassem a busca fez com que os Estados Unidos fosse o País mais
visitante do Blogger. O conteúdo primeiro foi postado no blog e só posteriormente na fanpage
que consequentemente trouxe novas visitações a página “Thales Lima Estúdio de Desenhos”.
A partir dessas informações e da visualização pelos gráficos gerados é possível
identificar fatores que poderão auxiliar no alcance maior da página, em termos de visibilidade,
curtidas e postagens com maior potencial. Verificou-se então que o uso de palavras-chave
adequadas contribui para que na busca orgânica sua página possa ser encontrada com maior
frequência.
Essas informações então podem contribuir para que o proprietário da página no
Facebook e no Blogger produza conteúdo voltado a área infantil atendendo inicialmente a
personagens já conhecidos, como utilizou para os vingadores, após investir em produções de
personagens próprias continuando com a temática infantil, não esquecendo que a maior
público que acessa a fanpage é feminino, deve produzir conteúdo atrativo as mulheres,
36
criação de personagens e publicações dando ênfase a datas comemorativas, pois é comumente
lembrado por elas ou querem parecer que lembram.
Integralizar as redes e o conteúdo postado pode proporcionar o acréscimo de visitas,
publicações que começam na fanpage e podem ter um complemento no blog, para isso é
importante obter o retorno do usuário, feedback, com as alterações aplicadas e verificar o
resultado. Dessa forma é possível verificar que o processo de produção de conteúdo a partir
da mineração de dados é contínuo, a análise deve ser feita a cada feedback recebido por parte
dos usuários e, a partir daí, modificar, renovar ou produzir algo novo a ser oferecido.
A partir da mineração de dados é possível então produzir de acordo com o feedback
recebido por parte do público, e como a quantidade de informações diárias aumenta a cada
dia, saber fazer a leitura dos dados fornecidos ou ter uma estrutura de mineração como o
Hadoop, é fundamental para compreensão na hora da produção de conteúdo.
Produzir
Conteúdo
Minerar
dados
Formular
Hipóteses
Minerar
dados
Realizar
análise
Figura 11: Ciclo de produção de conteúdo
Fonte: Elaborado pela autora
Como vemos na figura 11 o ciclo de produção é infinito, não se limita apenas a um
processo de criação, na era do grande volume de dados a criatividade está associada a leitura
de dados como forma de auxiliar a produção de conteúdo que por meio das informações
obtidas pelos usuários e/ou clientes é capaz de produzir de acordo com a necessidade e
interesse geral. O conteúdo produzido não se baseia em virais da rede, mas em análises
detalhadas de fatores que atribuem carga de interesse coletivo com probabilidades de
audiência, alcance de pessoas, páginas e compartilhamentos.
37
CONSIDERAÇÕES FINAIS
O grande volume de dados circulantes pela web gerou uma nova visão por parte de
empreendedores, entre eles os pertencentes a produção de conteúdo midiático. A mineração
de dados que nos anos 80 começaram a proporcionar estratégias de negócios eficazes na
denominado Business Intelligence que por meio do Data Warehouse, ferramenta utilizada
como armazém de dados estruturados, analisavam o conteúdo e planejavam estratégias com
base no nas informações coletadas.
A importância dos dados só manteve a aumentar, ao chegarmos na era do grande
volume de dados circulantes diariamente pela rede. Surge a necessidade de analisar mais
rapidamente e não só as bases relacionais de dados estruturados como também dados não
estruturados como os encontrados em vídeos, imagens e que segmentam grande parte desse
conteúdo diário de informação dessa sociedade em rede.
O grande volume de dados se tornou o fenômeno Big Data e a partir dele vários
segmentos tem se utilizado para obter informações que gerem as melhores estratégias a serem
abordadas. Levando em consideração a necessidade dessa mineração é que foram criados
softwares capazes de analisar, mapear e reduzir em tempo real os dados coletados, tendo
como o Hadoop.
Disposto tudo isso pode-se observar como todo esse processo de mineração se torna
parte fundamental para produção de conteúdo, tendo como referência o caso da empresa
Netflix, que criou a série House of Cards (2013) por meio do Big Data, tendo como base a
análise de preferências dos usuários. A Netflix já fazia uso desses dados para recomendação
dos filmes, tornando uma comunicação invisível entre usuário e empresa, onde a empresa
sempre tem uma informação mais concisa através dos clicks e da navegação feita pelo
usuário.
Da mesma forma que a Netflix, a Amazon sabe muito bem como utilizar de forma
correta a mineração de dados, a empresa que iniciou o processo de análise de forma manual
para recomendar livros, hoje utiliza Big Data para mapear a leitura que os usuários do Kindle
estão fazendo e assim construir um produto que seja o mais atrativo possível ao usuário, além
do aprimoramento nos sistemas de recomendações habituais.
Presume-se então que aquele que é capaz de manipular, minerar e transformar os
dados em informações concisas pode gerar verdadeiros insights para as produções de
conteúdo. O ponto de partida sempre vai ser o usuário/consumidor e que ele vai gerenciar as
38
formas que o produto irá tomar ou como ele será modificado no decorrer das análises
efetuadas.
O Big Data cada vez mais tem se tornado realidade, basta observar a busca crescente
pelo termo no Google Trends, e seu uso vem sendo feito por grandes empresas que fazem seu
próprio mapeamento, como também por usuários, pois é possível extrair dos gráficos
disponíveis e já analisados, os dados de redes sociais e identificar as melhores ações a serem
tomadas para obtenção de resultados significativos.
Figura 12: Busca pelo termo Big Data nos últimos anos
Fonte: Google Trends, 2014
Dessa forma entende-se que hoje para produzir é preciso compreender os dados, e
como visto nas análises das redes sociais é fundamental explorar todas as ferramentas
estatísticas disponibilizadas com o objetivo de criar a forma mais propícia de interesse ao
público que se transforme em alcance maior de visualizações, público e até mesmo audiência.
39
REFERÊNCIAS
ANDERSON, Chris. A Cauda Longa - Do Mercado de Massa para o Mercado de Nicho. 1ª
ed. Editora Campus, 2006.
BARBIERI, Carlos. BI2- Business Intelligence: modelagem e qualidade. Rio de Janeiro:
Elsevier, 2011.
CASTELLS, Manuel. A Sociedade em rede. 6. ed. [s. L]: Paz e Terra, 2012
CUKIER, Kenneth; SCHÖNBERGER, Viktor Mayer. Big Data: como extrair volume,
variedade, velocidade e valor da avalanche de informação cotidiana. 1ª ed. Editora Campus,
2013.
LÉVY, Pierre. As tecnologias da inteligência – O futuro do pensamento na era da
informática. Trad. Carlos Irineu da Costa. 1ª ed. Editora 34, 1993. 13ª impressão
MANYIKA, James; CHUI, Michael; BROWN, Brad; et al. Big Data: The next frontier for
innovation, competition, and productivity. McKinsey Global Institute, 2011.
Webgrafia
BULYGO, Zach. How Netflix Uses Analytics To Select Movies, Create Content, and
Make
Multimillion
Dollar
Decisions.
<http://blog.kissmetrics.com/how-netflix-uses-
analytics/>
SIEWERT, Sam B. Big Data na nuvem. Disponível em:
<http://www.ibm.com/developerworks/br/library/bd-bigdatacloud/> Acesso em: 13 mai.
2014
40
LURIE, Marty. Software Big Data livre para os Impacientes, Parte 1: Tutorial de Hadoop
<http://www.ibm.com/developerworks/br/data/library/techarticle/dm-1209hadoopbigdata/>
Acesso em: 10 jun. 2014.
V
DE
valor
em
big
data:
IBM.
2013.
Disponível
em:
<http://www.ibm.com/developerworks/community/blogs/ctaurion/entry/v_de_valor_em_big_
data?lang=en>. Acesso em: 21 abr. 2014.
BI
–
Inteligência
de
Negócios.
Disponível
em:
<http://stefanini.com/br/smart-
solutions/inteligencia-de-negocios/> Acesso em: 03 de jul 2014.
COLUMBUS, Louis. Best- And Worst-Performing Cloud Computing Stocks July 14th To
July
18th
And
Year-To-Date.
Disponível
em:
<http://www.forbes.com/sites/louiscolumbus/2012/08/16/roundup-of-big-data-forecasts-andmarket-estimates-2012/> Acesso em: 10 jul. 2014.
Download