Universidade Federal da Paraíba Centro de Ciências Humanas, Letras e Artes Curso de Bacharelado Comunicação em Mídias Digitais JÉSSICA MICHELLY SOUZA DE AZEVEDO BIG DATA E A INDÚSTRIA DO ENTRETENIMENTO: COMO A MINERAÇÃO DE DADOS PODE AUXILIAR A PRODUÇÃO DE CONTEÚDO João Pessoa - PB 2014 JÉSSICA MICHELLY SOUZA DE AZEVEDO BIG DATA E A INDÚSTRIA DO ENTRETENIMENTO: COMO A MINERAÇÃO DE DADOS PODE AUXILIAR A PRODUÇÃO DE CONTEÚDO Monografia apresentada ao Curso de Comunicação em Mídias Digitais da Universidade Federal da Paraíba, como obtenção do título de Bacharel em Mídias Digitais. Orientador: Prof. Me. Cleber Matos de Morais João Pessoa – PB 2014 Catalogação da Publicação na Fonte. Universidade Federal da Paraíba. Biblioteca Setorial do Centro de Ciências Humanas, Letras e Artes (CCHLA). Azevedo, Jéssica Michelly Souza de. Big data e a indústria do entretenimento: como a mineração de dados pode auxiliar a produção de conteúdo / Jéssica Michelly Souza de Azevedo. - João Pessoa, 2014. 39f. Monografia (Graduação em Mídias digitais) – Universidade Federal da Paraíba - Centro de Ciências Humanas, Letras e Artes. Orientador: Prof. Me. Cleber Matos de Morais. 1. Mineração de dados. 2. Produção de conteúdo . 3. Big data. 4. Netflix I. Título. BSE-CCHLA CDU 004 JÉSSICA MICHELLY SOUZA DE AZEVEDO BIG DATA E A INDÚSTRIA DO ENTRETENIMENTO: COMO A MINERAÇÃO DE DADOS PODE AUXILIAR A PRODUÇÃO DE CONTEÚDO Monografia apresentada ao Curso de Comunicação em Mídias Digitais da Universidade Federal da Paraíba, como obtenção do título de Bacharel em Mídias Digitais. ______________________________________ Orientador: Prof. Me. Cleber Matos de Morais _____________________________________ Prof. Me. Alexandre Vieira Maschio _____________________________________ Prof. Me Paulo Henrique S. M. Serrano João Pessoa – PB 2014 AGRADECIMENTOS A Deus, pois sem Ele não teria escrito uma frase sequer. A minha família pelo apoio durante os quatro anos do curso, em especial a minha mãe pelo incentivo nas horas mais difíceis durante a escrita deste trabalho. Aos professores que dedicaram seu tempo na implantação do curso, principalmente Olavo Mendes com quem aprendi a importância de organização e planejamento e Derval Golzio pelas conversas construtivas e conselhos. A Cléber Morais por ter aceito ser meu orientador, pelas suas correções e incentivos. Agradeço aos amigos e colegas que fiz durante o curso, aos amigos que ganhei no UFPB em Revista e em especial a Thales Lima que sempre me incentivou a escrever sobre o assunto desta monografia. “Que a gente possa criar asas. Não há felicidade que dure na gaiola.” Charles Bukowski RESUMO O presente trabalho monográfico tem como objetivo de investigar o Big Data como ferramenta crescente capaz de auxiliar na produção de conteúdo, reverberando em estratégias de negócio considerado como insight. O uso do Big data por empresas como Amazon e Netflix tem mostrado como a mineração de dados pode gerar resultados surpreendentes, pois é possível conhecer melhor a escolha dos usuários. A partir disto, é possível identificar como as conceitualizações dadas ao Big Data permitem hoje possibilidades infinitas a partir da mineração dos dados, e como estes têm fornecido verdadeiros insights a chamada Business Inteligence (BI), uma economia de negócios ampliada a partir da gerência dos dados. Palavras-chave: Big Data, mineração de dados, produção de conteúdo, Netflix, Amazon, Business Intelligence ABSTRACT This monograph aims to investigate the Big Data as increasing tool to assist in the production of content, reverberating business strategies considered insight. The use of Big date by companies like Amazon and Netflix have shown how data mining can generate amazing results, it is possible to better understand the choice of users. From this it is possible to identify how the conceptualizations given to Big Data today allow endless possibilities from data mining, and how these insights have provided true calling Business Intelligence (BI), the economy expanded business from the management of data. Keywords: big data, data mining, content production, Netflix, Amazon LISTA DE ILUSTRAÇÕES Figura 5: Grande oportunidade de Big Data do mapa de calor por indústria 16 Figura 1: Modelo de estrutura do Hadoop 22 Figura 2: Página de análises do Google URL Shortener 25 Figura 3: Página de informações do Facebook 26 Figura 4: Aparência do Google Analytics 27 Figura 6: Página de informações do Facebook 31 Figura 7: Facebook Insights Data Export 32 Figura 8: Gráficos gerados com os dados do Facebook Insights Data Export. 33 Figura 9: Página de estatísticas do Blogger 33 Figura 10: Gráficos gerados com as estatísticas fornecidas pelo Blogger 34 Figura 11: Ciclo de produção de conteúdo 36 Figura 12: Busca pelo termo Big Data nos últimos anos 38 Sumário INTRODUÇÃO ........................................................................................................................ 11 1.1 Objetivos........................................................................................................................ 12 FUNDAMENTAÇÃO .............................................................................................................. 13 2.1 Comunicação na era dos volumes de dados .................................................................... 13 2.2 Negócios inteligentes através dos grandes dados ........................................................... 15 2.2.1 Amazon ........................................................................................................................ 16 2.2.1 Netflix .......................................................................................................................... 18 2.3 - Mineração de Dados ..................................................................................................... 19 2.3.1 Big Data e a mineração na era dos grandes volumes de Dados................................... 21 2.3.2 Ferramentas de Big Data a partir de redes sociais ....................................................... 24 2.4 Classificação Social ........................................................................................................ 28 3 .METODOLOGIA................................................................................................................. 29 4. Análise .................................................................................................................................. 29 4.1 Análises por meio de registros das redes sociais ............................................................ 30 3.3 Produzindo conteúdo a partir da analítica de dados........................................................ 35 CONSIDERAÇÕES FINAIS ................................................................................................... 37 REFERÊNCIAS ....................................................................................................................... 39 11 INTRODUÇÃO A internet modificou não só nosso contato com o conhecimento, mas também a forma como nos relacionamos. Está-se vivendo a sociedade em rede descrita por CASTELLS (2005) e que mostra a sociedade como um emaranhado de informação circulante que só tende a crescer através do mundo virtual. Essa rede de conhecimentos amplia-se através da quantidade de informação produzida dia após dia com o avanço da tecnologia. Ao se falar na rede pode-se remeter aos dados que compõem a sua estrutura, formando a base de informação. Essa base informacional gerou certo pânico ao surgir o termo bug do milênio em meados dos anos 2000: o medo de que as máquinas pudessem corromper as informações por imprecisão devido à variação para os dois dígitos (00), provocou alvoroço que posteriormente foi identificado como desnecessário, sendo resolvido rapidamente e não afetando os dados arquivados. Com o passar dos anos essa estrutura informacional aumentou junto com a popularização da rede (internet). A partir desses avanços tecnológicos que tem acontecido durante a era da informação dessa crescente sociedade em rede, se proporcionou uma nova visão econômica para o mundo. A quantidade de conteúdo diário circulado através da internet aumentou chegando a zettabytes de informações. Esse quantitativo não poderia ser desperdiçado e essa grande quantidade de dados veio a se tornar informação de grande valor a partir da leitura feita deles. O grande volume de dados e a possibilidade de interpretá-los deu origem ao conceito de Big Data, capaz de capturar e analisar em tempo real dados não estruturados como log, vídeos e imagens, tweetts, likes, e transformar em informação concisa. Devido a essa possibilidade foram atribuídas características ao conceito como o volume, velocidade, variedade, veracidade e valor considerados os 5V’s do Big Data, relatados pelo IBM, que transforma a mineração de dados uma ferramenta importante nessa era da informação em conjunto com a computação em nuvem. No decorrer deste trabalho monográfico pretende-se identificar como as conceitualizações dadas ao Big Data permitem hoje possibilidades infinitas a partir da mineração dos dados, e como estes têm fornecido verdadeiros insights a chamada Business Inteligence (BI), uma economia de negócios ampliada a partir da gerência dos dados. A variedade e volume dessa grande quantidade de dados tem auxiliado na produção de conteúdo midiático e a partir de sistemas de recomendação e analítica de bases de cliente. 12 Empresas como Netflix e Amazon têm obtido informações preciosas de seus clientes, informação cedida de graça por meio dos dados coletados a partir do uso dos clientes no sistema e que são transformados em informação que vira produto. Netflix, por exemplo, construiu a série House of Cards (2013) a partir de dados dos assinantes. Amazon através do Kindle executa esse trabalho de coleta de informações da mesma forma que o Netflix, tudo baseado nos cliques dos usuários e, dessa forma, indicar quais livros serão de interesse para cada consumidor. Estes novos produtos são totalmente direcionados para os usuários, assim eles tem em mãos algo bem mais próximo do seu interesse. Este estudo tem como objetivo identificar como o uso dos dados para obtenção de informações pode e deve se tornar rotina para produtores de comunicação. Dessa forma, propõe-se apresentar como essa coleta tem sido fundamental para a comunicação e quais vertentes comunicacionais surgem a partir dessa era dos grandes dados, além de, como a mineração desse grande quantitativo de dados tem contribuído na produção de conteúdo de entretenimento. Com isso as empresas tem otimizado seu serviço de oferta dos produtos, além de poderem criar estratégias de marketing eficazes para público específico ao qual queiram atingir. 1.1 Objetivos Geral O estudo tem como objetivo identificar os fatores que tem levado o Big Data a contribuir, através da filtragem de dados, na produção de conteúdo. Este trabalho também se propõe a verificar se existe uma “nova” forma de fazer comunicação através da mineração de dados e como a comunicação pode surgir a partir da mineração por meio do ciclo infinito entre produção de conteúdo, usuário, coleta de dados e transformação da informação obtida. Específicos Compreender o processo de mineração de dados e como as empresas tem utilizado esse conhecimento para é utilizado para contribuir na criação de ideias para produção de conteúdo. Identificar os fatores que tem levado a essa contribuição por meio de análise de gráficos e tabelas dispostos em redes sociais. 13 FUNDAMENTAÇÃO 2.1 Comunicação na era dos volumes de dados Com o avanço tecnológico abrangendo cada vez mais a todos, a comunicação tem ocorrido de forma mais ampla. Há acesso a conteúdos de todo o mundo e as restrições se dão apenas pela falta de conhecimento da língua local. Outra contribuição para a crescente comunicação através dessa era digital é a facilidade de aprendizado das novas tecnologias conectadas em rede, mesmo com pouca formação ou até mesmo os analfabetos, podem aprender rapidamente a manipular e ingressar na rede, principalmente as sociais, no Brasil o percentual de pessoas que acessam a internet aumentou especialmente nas classes mais baixas, passou de 3,8% em 2005 para 21,4% em 2011 segundo dados do IBGE divulgados pelo Governo1. A era da informação transformou a forma como nos comunicamos, a mensagem é transmitida por entre a emaranhada rede de computadores que não modificou necessariamente a interação face a face, pelo contrário, o avanço tecnológico adjunto a internet contribuiu para ampliação da comunicação causada pela integração social emergente da denominada Sociedade em Rede (CASTELLS, 2005), tornando a comunicação de massa, característica da era industrial, em uma libertária cadeia de informação com a integralização das sociedades por entre os nós da rede de computadores. A sociedade em rede, em termos simples, é uma estrutura social baseada em redes operadas por tecnologias de comunicação e informação fundamentadas na microelectrónica e em redes digitais de computadores que geram, processam e distribuem informação a partir de conhecimento acumulado nos nós dessas redes. A rede é a estrutura formal (vide Monge e Contractor, 2004). É um sistema de nós interligados. E os nós são, em linguagem formal, os pontos onde a curva se intersecta a si própria. As redes são estruturas abertas que evoluem acrescentando ou removendo nós de acordo com as mudanças necessárias dos programas que conseguem atingir os objectivos de performance para a rede. (CASTELLS, 2005, p. 20) 1 Número de usuários de internet e de pessoas com celular cresceu mais de 100% no Brasil. Disponível em: <http://www.brasil.gov.br/infraestrutura/2013/05/numero-de-usuarios-de-internet-e-de-pessoas-com-celularcresceu-mais-de-100-no-brasil> 14 O que se deixa por entre os nós dessa rede durante a navegação são mais do que informações, são conhecimentos guardados pelas máquinas através dos dados, são milhares de bytes arquivados diariamente. E com as inovações e melhorias dos arquivamentos, a estrutura física passou para a nuvem, tudo pode ser acessado onde estiver e processado quando quiser. Dessa forma, o arquivamento da informação gerada pela sociedade em rede chegou aos meandros do Big Data, que devido ao grande volume de dados produzido, sentiu a necessidade de transfigurar em informação concisa o conteúdo extraído da rede digital. O conteúdo adquirido por meio da transformação dos dados em informação tem sido utilizado atualmente por diversas empresas, em destaque especial as da área de entretenimento e redes sociais. Através do grande volume de dados analisados por este setor empresarial, tem sido criadas estratégias de marketing e conteúdo voltados ao interesse pessoal de cada indivíduo da sociedade em rede. Com o crescente uso dessas informações cedidas pelos usuários a estas empresas e a precisão com que esses dados têm auxiliado na criação de serviços específicos a cada usuário, Pierre Lévy (2014) propõe uma Ciberdemocracia. Com um acréscimo de mais de 35% da população conectada, considerando dados a partir do levantamento de 1994, em que apenas 1% da população tinha acesso a internet. Para Lévy, a internet se tornou o principal meio de comunicação e as informações que nós cedemos nessa enleada rede podem dizer muito mais de nós do que até nós mesmos. Para nós o ambiente é uma grande massa de dados e estamos aumentando essa massa, organizando e classificando esse grande volume de dados. Criamos as relações semânticas desses dados, criamos a avaliação e transformando essa grande quantidade de dados é que nos comunicamos juntos e fazemos essa transformação do ambiente comum de dados, através dos algorítimos. Então, o centro de tudo é o grande volume de dados, onde nós temos todos algorítimos que nos permite transformar e acessar esses dados, em volta desses algoritmos estão pessoas reais que estão se comunicando através desse ambiente (algoritmos e dados). Quando estou me referindo a uma sociedade centrada em dados, estou falando não somente das instituições, mas também da relação entre as pessoas. ( MARANHÃO, Carla apud Lévy, 20142) Os algoritmos que levam a compreender e transformar em informação esse grande volume de dados tem se tornado um mecanismo de pesquisa de opinião entre o usuário e as empresas que fazem uso desse conteúdo para criar e segmentar as campanhas e os produtos de acordo com a necessidade e gosto de cada usuário. A comunicação saiu dos meandros dos 2 Resumo da Palestra de Cibercultura e Inteligência Coletiva - SENAC - 17/03/2014. Disponível em <http://carlamaranhao.blogspot.com.br/2014/03/resumo-da-palestra-de-cibercultura-e.html> 15 questionários ou pedidos de opinião para conhecimento do perfil de cada usuário através dos clicks ou escritas, verdadeiros mapas mentais deixados por navegação e que tem gerado insights as empresas. 2.2 Negócios inteligentes através dos grandes dados Inteligência de Negócios ou Business Intelligence (BI) significa, resumidamente, coletar dados de diversas fontes, organizá-los, analisá-los e compartilhá-los com os executivos mais importantes da empresa3. Estes então transformam essas informações relevantes em decisões importantes para o futuro da empresa. Através da coleta, organização, análise e compartilhamento de dados de diversos sistemas, o BI oferece informações qualitativas que permitem decisões mais seguras e ações bem direcionadas para resultados sólidos, seja para que a empresa se mantenha competitiva diante da concorrência, seja para que ela visualize novas oportunidades e amplie sua atuação. Com a chegada dos grandes dados, o BI já não trilha sozinho. Aliado a ele está o Business Analytics (BA) que, em tempo real, estará juntando a mineração de dados com análises preditivas. Segundo Barbieri (2011, p. 4) “[...] a informática fez os dados. Depois transformou-os em informações. Agora o objetivo é usinar conhecimentos a partir daquelas matérias-primas”. Dessa forma a inteligência nos negócios atualmente deve andar concomitantemente ligada a mineração dados. Big Data se torna um grande impulsionador econômico de vários segmentos e a Gartner, empresa de consultoria norte-americana, divulgou em 2012 as previsões dos segmentos que mais obteriam maiores resultados por conta do grande volume de dados como observado na figura abaixo: 3 O que é Business Intelligence? Disponível em: http://www.it4biz.com.br/novosite/comunidade/open-sourcebusiness-intelligence/o-que-e-business-intelligence/. Acesso em 13 de jul de 2014 16 . Figura 1: Grande oportunidade de Big Data do mapa de calor por indústria Fonte: Gartner, 2012 De acordo com a figura 5 observa-se que o setor de comunicação, mídia e serviços tem o segundo maior potencial de oportunidade em uso de big data. Nessa perspectiva a análise a ser feita neste projeto monográfico objetiva-se a verificar como esse potencial de mineração do grande volume de dados tem sido utilizado na comunicação para produção de conteúdo. 2.2.1 Amazon A Amazon foi fundada em 1995 com a ideia de comercializar livros online e o investimento crescia rapidamente (SCHÖNBERGER e CUKIER, 2013, pag. 35). O trabalho de avaliação dos títulos que apareciam na sugestão era feito manualmente na época, editores e críticos eram contratados especialmente para isso e o resultado era surpreendente, tanto que um jornal publicou artigo considerando os mais influentes do País devido as significativas vendas efetuadas. O diferencial da Amazon não se deu apenas pelas boas recomendações dos críticos e editores que trabalhavam na empresa. O CEO da empresa, Jeff começou a utilizar, de forma 17 primária, na análise dos dados de forma manual. Os resultados eram combinados e iniciou a recomendação específica a cada usuário. Só que como era baseada em compras anteriores acabava não sendo tão eficaz, mas já foi o início do uso de dados em correlação as práticas usadas atualmente para o big data. Os dados proporcionaram a Amazon grandes possibilidades e por isso o investimento da empresa em tecnologias de informação se manteve crescendo, para isso criou-se o serviço de computação remota denominada Amazon Web Services (AWS)4, esse sistema coleta e armazena dados e todos se encontram disponíveis na nuvem. Entra em destaque o Amazon S3, sistema de armazenamento em nuvem criado com uma interface simples que atenda o arquivamento e recuperação de qualquer quantidade de dados. Nesse sistema, o serviço implantado a Amazon é capaz de receber mais de 50 milhões de atualizações por semana sendo que a cada trinta minutos eles são processados e retornam aos vários bancos de armazenamento para interagirem novamente: Tanto a Google quanto a Amazon expandem as categorias, mas as estratégias são diferentes. Quando a Google coleta qualquer tipo de dado, visa as utilidades secundárias. Os carros Street View, como vimos, coleta informações de GPS não apenas para o serviço de mapas mas também para treinar carros automatizados. Por outro lado, a Amazon está mais focada no uso primário dos dados e só os reaproveita marginalmente. (SCHÖNBERGER e CUKIER, 2013, p.93) O CEO da Amazon revelou em entrevista ao Instituto de Tecnologia de Massachusetts (MIT5) que o sistema utilizado hoje pela empresa é muito mais eficaz do que o Google e o Facebook, pois segundo ele a empresa tem uma compreensão muito mais clara das coisas que os consumidores desejam comprar. Os usuários do e-reader da Amazon, Kindle, assinam um acordo de permissão que concede a empresa armazenar informações da última página lida, além de marcadores, destaques, notas e anotações em seus servidores de dados. Com essas informações a Amazon pode identificar quais trechos de livros são populares com os leitores, e compartilha alguns desses dados publicamente em seu site por meio de recursos como a sua lista de "passagens mais destacadas". Leitores também podem optar por ver as linhas comumente destacadas por outros leitores, que leem um livro, dessa forma, a Amazon pode ver o que se destacou mais. 4 Disponível em http://aws.amazon.com/pt/ LEBER, Jessica. Amazon Woos Advertisers with What It Knows about Consumers. Disponível em <http://www.technologyreview.com/news/509471/amazon-woos-advertisers-with-what-it-knows-aboutconsumers> 5 18 As especulações presumem que todo esse material coletado seja crucial para que os editores identifiquem fatores que deem origem ao próximo livro de sucesso, para o porta-voz da Amazon, Kinley Pearsall "Pensamos nisso como a inteligência coletiva de todas as pessoas que estão lendo no Kindle", diz6. A Amazon com todos esses atributos já é referência e seu sistema de plataforma de análise é utilizado por empresas como Pinterest (rede social de compartilhamento de fotos) e Netflix e dessa forma a empresa entrou no mercado dos grandes dados. 2.2.1 Netflix A Netflix nasceu em estrutura física oferecendo venda e o aluguel de filmes “à la carte”, em 1999, adotou o sistema de assinaturas com aluguéis ilimitados, após receber US$ 30 milhões feito por um grupo de investidores. Com isto, o sistema funcionava da seguinte maneira: o cliente escolhia o filme no site da empresa e recebia em casa via correio com embalagem personalizada para que mandasse de volta assim que acabasse de assistir7. Integrada a era digital, a economia da Netflix está baseada na de nicho onde é preciso apenas saber da necessidade do cliente e oferecer o que ele deseja. Com o Big Data, a empresa foi capaz de criar através dos sistemas de recomendação, baseado na filtragem colaborativa, era possível fazer indicações de filmes pertinentes a escolhas anteriores de seus clientes. As recomendações da Netflix nivelam o campo de jogo, oferecendo marketing gratuito para filmes que, do contrário, não poderiam dar-se a esse luxo, espalhando a demanda de maneira mais uniforme entre hits e nichos. Portanto, são importante força democratizante num setor muito pouco democrático. (ANDERSON, 2006, p.77) Esse diferencial de recomendações alavancou a empresa no mercado de streaming de vídeos, não eram só novos filmes que interessavam, e saber dessa escolha do usuário o atraia a fazer parte da rede. Tendo em vista isso, a Netflix passou de serviços de streaming de filmes para produtor de seu próprio conteúdo, e o uso dos dados foi o ponto culminante do sucesso que a empresa obteve. 6 ALTER, Alexandra. Your E-Book Is Reading You. Disponível em http://online.wsj.com/news/articles/SB10001424052702304870304577490950051438304 7 Mundo das Marcas – Netflix. Disponível em:< http://mundodasmarcas.blogspot.com.br/2007/05/netflix-bestway-to-rent-movies.html> 19 A análise de dados está fazendo com que a Netflix proporcione um serviço de melhor qualidade, e por isso ela investiu ainda mais e utilizou as informações obtidas através dos dados para construir a série House of Cards (2013). Diversos fatores contribuíram para criação da série. A Netflix consegue capturar dados de seus clientes como o tempo que se assiste, momento em que pausa, retrocede ou continua, o local (endereço) em que se assiste. Toda essa coleta de dados é pensada com o propósito de identificar formas dos clientes não cancelarem suas assinaturas ou deixariam de assistir determinado produto. A partir de dados coletados, como visualização da série pelo site da Netflix que a empresa pode identificar que a versão britânica de House of Cards, exibida durante os anos 90, fez grande sucesso e muitas pessoas comentavam como gostariam de ver novamente. Outra informação captada com base nos dados extraídos e analisados pela Netflix foi que o ator Kevin Spacey e o diretor David Fincher eram bem cotados pelo público assinante, pois os mesmos que assistiam a série também viam filmes atuados e dirigidos por eles. A partir daí, unindo esses três elementos, surgiu a fórmula de sucesso da série. Ter essa visão custou um alto investimento, mas o chefe de comunicações da Netflix, Jonathan Friedland, revelou em entrevista que saber o que as pessoas gostam de assistir ajuda a entender quão grande vai ser o interesse para determinado show e que isso deu confiança de que poderiam encontrar um público para um show como House of Cards8. 2.3 - Mineração de Dados As bases de dados estão presentes desde o nascimento da informática, o primeiro computador criado nos anos 40, o Eniac (LÉVY, 1993, p.62), com função de uma calculadora gigante, era composto apenas de dados numéricos, informações que não precisavam de grande fonte de armazenamento ou leitura, pois primordialmente se tratavam apenas de bases de dado relacionada. 8 Retirado de trecho de entrevista concedida ao blog Kiss Metrics, com tradução livre. Disponível em: http://blog.kissmetrics.com/how-netflix-uses-analytics/ 20 Cerca de 30 anos depois, na década de 70, o diretor do Instituto de Tecnologia de Massachussets (MIT), Seymor Pappert discursou que os dados seriam responsáveis por uma grande revolução, e ele estava certo. Na década de 80 os dados ganharam espaço e sua utilização como forma de informação estava em processo de formação (BARBIERI, 2011). O Data Warehouse, que significa literalmente um armazém de dados, surgiu na época com a possibilidade de analisar as tabelas relacionais, que são conjuntos de dados dispostos de forma finita em número de colunas e linhas, semelhante a uma planilha eletrônica, para transformar em informação os dados coletados e dessa forma iniciou o processo do uso de utilização dos dados em empresas, denominando a chamada Business Intelligence, a ser descrita mais adiante. Com a funcionalidade do uso de banco de dados e o volume exacerbado de informações diárias produzidas, surgiu a necessidade de um Sistema de Gerenciamento de Banco de Dados (SGBD) para guardar as informações nos computadores e organizar de forma relacional o conteúdo gerado. Contudo, a avalanche diária de dados trouxe a necessidade de novas formas de compreensão e utilidade desse conteúdo que não seria apenas armazenado, mas passar por processos de mineração. A partir do avanço da internet e da circulação de grandes quantidades diárias de dados circulantes, os conteúdos gerados contribuiu para a otimização de seu uso. Essa nova fonte surgida com base nos dados fez com que se proporcionasse uma qualidade maior nos processos de desenvolvimento de sistemas, as empresas passaram a investir em tecnologia da informação e, a descoberta de conhecimento em bases de dados como forma de mineração (Data mining) tem se tornado um atrativo pela sua abordagem na garimpagem desses dados. Até o lado mais escondido dos dados já está sendo, cada vez mais, alvo de interessantes aplicações. É o conceito de Data mining (garimpagem de dados), que objetiva melhorar o uso desses gigantescos arsenais de informação através da identificação de padrões de correlação normalmente invisíveis em análises convencionais. Indicadores de produtos comprados em conjunto, ou de padrões de fraudes praticadas, ajudarão os gerentes de empresas, no seu cotidiano [...]. (BARBIERI, 2011, p.4) A importância da mineração de dados para uma empresa se torna uma importante ferramenta que proporciona a potencialidade da inovação e lucratividade. Na era dos grandes dados, a garimpagem bem executada determina quem estará a frente do mercado, na produção de conteúdo, por exemplo, indicando qual produto é determinante e diferencial e quais as melhores escolhas a serem feitas. 21 2.3.1 Big Data e a mineração na era dos grandes volumes de Dados Desde o surgimento da internet, a velocidade com que os as informações circulam só tende a aumentar, a proporção é que passe de 1,8 zettabyte, hoje, para 7,9 zettabytes em 20159, 1 zettabyte equivale a 75 bilhões de iPads de 16 GB empilhados e em notação científica pode ser representado como 1021 bytes, ou seja, 10 elevado a 21ª potência. Esse acréscimo também resultou na quantidade de dados diários, que antes tabulados e armazenados no Data Warehouse, já não seriam suportados pois estavam além de bases relacionais. Entramos então na era dos grandes volumes dados, ou como vem sendo chamada, Big Data. Em termos de quantidade de dados, há dez anos terabytes era algo surpreendente. Hoje já se tem essa quantidade de armazenamento em uso doméstico. Por isso, Big Data tem atraído atenção pela acelerada escala em que volumes de dados cada vez maiores são criados pela sociedade. Já se passa da escala de petabytes, que equivale a cerca de 1 milhão de gigabytes, de dados gerados cada dia, adentrando na era dos zettabytes, começando a ser uma proporção real e não mais imaginária e futurista. Não se pode deixar de pensar que adicionalmente a computação em nuvem é também um impulsionador para o fenômeno que vem sendo o Big Data. A possibilidade de utilização das nuvens públicas para suportar imensos volumes de dados e utilidade de servidores virtuais, além das caraterísticas de elasticidade delas permitem a usabilidade apenas no momento de tratar estes dados independentemente de onde estejamos. O conceito de Big data também norteia pelo conjunto de soluções tecnológicas capaz de processar grande conjunto de dados que tem sido definido com captura, gerenciamento e análise que vão além de dados estruturados típicos (como os de Data Warehouse que podem ser consultados por sistemas de gerenciamento de banco de dados relacional). O Big Data está frequentemente ligado a arquivos não estruturados, não relacionais, definidos como NoSQL10, que diferente dos bancos relacionais não usam esquemas de tabelas fixas, os registros se encontram agrupados aprimorando a velocidade de busca. Exemplos de arquivos de dados não estruturais são vídeo digital, imagens, twetts, postagem de facebook, arquivos de log. Na verdade, qualquer dado não contido nos registros com campos pesquisáveis distintos. Dessa forma, os dados não estruturados se tornam dados interessantes. 9 Como funciona o Big Data. Disponível em: http://oglobo.globo.com/infograficos/bigdata/ http://nosql-database.org/ 10 22 O Big Data é sustentado por tecnologias que podem ser analisadas sob duas óticas: as envolvidas com analytics, tendo Hadoop e MapReduce como formas principais de mineração de dados e as tecnologias de infraestrutura, que armazenam e processam os dados. O Hadoop recebeu esse nome por conta de um brinquedo denominado baby elephant, é caracterizado como um gerenciador distribuído de arquivos com alto nível de escalabilidade e passível de poucas falhas. O diferencial do Hadoop se dá pela sua biblioteca de software disposto de um framework que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores, sistema que relaciona computadores para que trabalhem de maneira conjunta para execução de determinada tarefa, usando modelos de programação simples, os dados são espalhados por entre redes identificadas como nós fazendo uso de computadores mais simples. Hadoop MapReduce é um framework de software para escrever facilmente aplicações que processam grandes quantidades de dados em paralelo em grandes aglomerados (milhares de nós) de hardware commodity de uma maneira confiável e tolerante a falhas. O MapReduce geralmente trabalha dividindo a entrada de dados, quem vem em conjunto, em pedaços independentes que são processados pelas tarefas de mapeamento (Map) de uma forma completamente paralela. O quadro classifica as saídas dos mapas, que são, em seguida, a entrada para as tarefas de redução . Tipicamente, a entrada e a saída do trabalho são armazenados num sistema de arquivo. Figura 2: Modelo de estrutura do Hadoop Fonte: Apache, 2014 A figura 2 apresenta o modelo de estrutura do Hadoop, a parte inferior representa os nós (vários servidores que alocam os dados como uma rede distribuída), o HDFS é o sistema de arquivos distribuídos que subdivide os dados em blocos de 64MB para leitura da mapeamento, após segue para divisões de ordem dos conteúdos que estavam embaralhados e 23 por fim passam pela redução do conteúdo, resultando na análise e informação de leitura mais simples. Quando os dados não eram tão explorados por conta da pequena quantidade que era possível processar, a maioria das análises estava limitada a relações lineares. Com o tempo verificou-se uma não-lineridade nas variações, como curvas, eram encontradas nos gráficos e denominado de análise correlacional. Atualmente com o avanço do processamento e mineração de dados, as técnicas de análise tem se aperfeiçoado e ampliado fazendo com que na era do Big Data os novos tipos de análises levem a um mar de ideias e previsões úteis: O big data transforma a maneira como entendemos e exploramos o mundo. Na era dos pequenos dados, éramos motivados por hipóteses sobre como o mundo funcionava, as quais depois tentávamos validar coletando e analisando dados. No futuro, nossa compreensão será motivada mais pela profusão de dados do que por hipóteses. Essas hipóteses geralmente surgem de teorias das ciências naturais ou sociais, que por sua vez ajudam a explicar e/ou prever o mundo. À medida que passamos de um mundo movido por hipóteses para um mundo movido por dados, talvez nos sintamos tentados a pensar que já não precisamos de teorias. (SCHÖNBERGER e CUKIER, 2013, pag. 48) A dependência de teorias não será de um todo descartada pelo advento do Big Data, até porque ele vive com base em teorias, são elas que sustentam as premissas estatísticas e matemáticas utilizadas. Porém mesmo não representando o fim da teoria, o Big Data modifica a maneira como se entende o mundo. De forma que abre um vasto território a ser explorado pelas empresas. Há alguns anos havia existência de pouco conhecimento, experiências e mesmo de expertise profissional em especial na área da comunicação e que hoje propicia em novas funções de mercado e assim surgem profissões como cientistas de dados (SCHÖNBERGER e CUKIER). Big Data trouxe associado a ele determinadas características considerados os 5 V’s como relatados pelo IBM11, o primeiro é do volume tendo em vista a grande quantidades de dados gerada, em seguida a variedade, pois como já dito anteriormente se trata de dados relacionais como não-relacionais ou não-estruturados, velocidade pela rapidez com que os dados nascem e da mesma forma devem ser processados e analisados e dois que foram acrescidos posteriormente que são a veracidade, os dados coletados e minerados devem conter autenticidade e por último o valor pois é importante que haja retorno no investimento. 11 Você realmente sabe o que é Big Data?. Disponível em: <https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/voce_realmente_sabe_o_que_e_big_da ta?lang=en > acesso em 17/04/1024. 24 Tendo em vista a agregação desses conceitos, Big Data é capaz de abrir novas e inesperadas oportunidades. Os dados passaram a exercer diversas funções de importância e a mutabilidade de informações geradas através de algoritmos de análise sofisticados, tem gerado verdadeiras soluções e compreensão, insights, que dantes eram inimagináveis. Com essa enorme capacidade é necessário então que os planejamentos de investimento em capacidade de armazenamento, tanto interno ou em nuvem sejam revistos: A quantidade de dados do nosso mundo está explodindo. Empresas capturam trilhões de bytes de informações sobre seus clientes, fornecedores e funcionários, e milhões de sensores conectados estão sendo inseridos no mundo físico em aparelhos como celulares e automóveis, percebendo, criando e comunicando dados. Indivíduos com smartphones e em sites de redes sociais continuarão incrementando crescimento exponencial. Big data – grandes poços de dados que podem ser capturados, comunicados, agregados, armazenados e analisados – é agora parte de cada setor e função da economia global (MANYIKA; CHUI; BROWN et al, 2011, p. 4, tradução livre12). É preciso então começar a considerar os dados como valor não só momentâneo, mas futuro e por isso o armazenamento deve ser contínuo, não se pode olhar apenas como puramente valor transacional. Na verdade, com o conceito de Big Data os dados em si começam a ser altamente valorizados, antes o valor era medido apenas pelas informações que podiam ser extraídas. Big Data então tem se tornado a simples constatação prática que o imenso volume de dados gerados a cada dia excede a capacidade das tecnologias atuais de os tratarem adequadamente na sua totalidade. 2.3.2 Ferramentas de Big Data a partir de redes sociais O grande volume de dados possibilitou a implementação das empresas como Google e Facebook de disponibilizar ferramentas para seus usuários/clientes. Foram disponíveis formas de análises que representam o pós-processamento de mapeamento e redução através do Hadoop e MapReduce explicados anteriormente, as páginas de análise mostradas por essas empresas se configura em dados estatísticos de informações que possam auxiliar na geração de estratégias. 12 “The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data. Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential growth. Big data—large pools of data that can be captured, communicated, aggregated, stored, and analyzed—is now part of every sector and function of the global economy” 25 O Google apresenta ferramentas como encurtador de URL (Google URL Shortener) que possibilita ao usuário da ferramenta saber a quantidade de cliques feitos através do link encurtado, a origem de onde esses links foram acessados (Referrers), e consequentemente se o link encurtado estiver disposto em várias redes (facebook, twitter, blogger, etc.) fica registrado de qual fonte foi feito o acesso à página. Figura 3: Página de análises do Google URL Shortener Fonte: goo.gl Na figura 2 acima indica as demais possibilidades a partir do encurtador de URL do Google como as plataformas que mais são usadas para acesso do conteúdo e quais países visitam, estes indicados por uma cor mais escura. No Facebook a página que indica as estatísticas é chamada de ‘informações’ que se subdivide em quatro termos de análises diferenciadas como vistas na figura 3. Na ‘Visão Geral’ são apresentadas métricas, informações básicas dos dados da página como alcance de publicações, das pessoas que comentam e o alcance semanal que são explorados pelas outras guias mais profundamente como descritas a seguir. 26 Figura 4: Página de informações do Facebook Fonte: Facebook, 2014 A figura 3 mostrada apresenta em destaque a página de fãs que corresponde a segmentação por gêneros, quantidade de homens e mulheres que curtiram sua página, o País, a cidade e o idioma. Há também a visão de pessoas alcançadas, ou seja, a quantidade que visualizou, curtiu e compartilhou sua página por meio de uma busca orgânica (busca natural, não paga, através de listagens dos motores de busca) ou paga. Pessoas envolvidas são os seguidores assíduos, que visitam sua página numa margem de pelo menos 28 dias. O chek-in para possibilitar o administrador saber quem fez marcação (check-in) em sua página. Na ‘Publicação’ é possível visualizar os dados de um período recente até uma semana, quando os fãs estiveram conectados, apresentando até mesmo dia e horário do acesso, os tipos de publicações e a quantidades de cliques delas, a partir disso é possível promover uma publicação, de forma paga, para que o alcance da postagem seja ainda maior. As ‘Visitas’ são separadas por dois segmentos, as que são feitas por meio do clique nas guias da própria fanpage e por página de referência por meio de origem de visitas por páginas fora do Facebook. A outra rede a ser explorada é o Blogger, hoje pertencente ao Google, apresenta uma página de estatísticas composta por uma visão geral, postagens, origens de tráfego e público. Na ‘Visão geral’ são apresentados dados resumidos das demais categorias de análises existentes. No item ‘Postagens’, aparecem os números de visualizações de todas as postagens 27 do blog. Em ‘Origens do tráfego’ se vê o quantitativo de visualizações por URL de referência, por sites de referência e por termos pesquisados coincidentes com as palavras-chave. No item ‘Público’ são colocados três tipos de estatísticas, são elas visualizações de página por País, por navegador e por sistema operacional. Além das páginas de análises apresentadas acima, o Google criou uma página mais específica chamada Analytics, capaz de identificar além da tradicional taxa de exibição, localização geográfica do visitante, forma com a qual chegou na página, sistema operacional, navegador, navegador e sistema operacional, navegador e a junção de navegador e sistema operacional e suas versões, resolução de tela, verificação em períodos diários, semanais, mensais e anuais, entre outros como pode ser identificado na figura 4 abaixo. Figura 5: Aparência do Google Analytics Fonte: http://goo.gl/Yk8kBL É possível interligar todas as redes citadas ao Analytics, para isso é necessário apenas cadastrar-se e gerar o código a ser inserido na página que deseja e todas as análises poderão se acompanhadas pela ferramenta do Google. Dessa forma o Google Analytics não funciona apenas como uma ferramenta de monitoramento de tráfego, mas também como uma poderosa ferramenta para tomada de decisões em negócios relacionados à Internet. Na análise a ser feita no discorrer deste trabalho, serão utilizadas as ferramentas de análise disponíveis pelo Facebook e Blogger e como os dados disponíveis por estas redes possibilitam a criação de estratégias para produção de conteúdo. 28 2.4 Classificação Social A mineração de dados não ocorre apenas de forma analítica, as interações provenientes das redes sociais também geram dados, quando dispostos de forma a serem analisados e tabulados recebem a denominação de dataficação, processo que pode se tornar valioso quando utilizado de forma proveitosa transformando as informações recebidas em gráfico social com base nas características relacionais utilizadas pelas redes (SCHÖNBERGER e CUKIER, 2013). Os recursos da dataficação nas redes sociais são variados. O Twitter, por exemplo, alavancou com o surgimento das marcações denominadas hashtags. Com as hashtags, as empresas conseguem avaliar de forma instantânea o que está relacionado a ela e mudar de estratégia caso seja necessário. As estrelas que os usuários avaliam conteúdos, o curtir ou não como utilizados pelo Facebook e Youtube também são de utilidade nessa era dos grandes dados. O próximo âmbito da dataficação é mais pessoal: nossas relações, experiências e estado de humor. A ideia de dataficação é a espinha dorsal de várias empresas de mídias sociais. As plataformas de redes sociais não apenas nos oferecem uma maneira de encontrar e manter contato com amigos e colegas, mas usam elementos intangíveis do cotidiano e os transformam em dados que podem ser usados para outros fins. (SCHÖNBERGER e CUKIER, 2013, p.63) Essa dataficação é uma forma de filtragem: após o arquivamento é preciso apenas sintetizar os dados para transformar em informação necessária, que sendo analisadas geram uma base de informações valiosas mapeadas e arquivadas. Dessa forma, toda categorização de atribuição dataficada é útil porque estarão sendo armazenadas e as definições atribuídas a elas permitem que a mineração desses dados seja analisada e tabulada, auxiliando na leitura e transformando em informações. Na próxima seção, será apresentada a metodologia e em seguida o desenvolvimento desse trabalho. 29 3 .METODOLOGIA Como forma de compreender o processo de produção de conteúdo de entretenimento a partir da coleta de dados fornecidos por páginas de redes sociais que fazem uso de coleta, processamento e representação de dados, utilizou-se então páginas de conteúdo do Facebook e do sistema de publicação Blogger. A escolha se deu devido a facilidade de acesso as informações, pela proximidade do administrador e por se tratarem do mesmo objeto facilitando a verificação de como o conteúdo é classificado socialmente em alguns (como os “likes” do Facebook) e alguns dados analíticos (como acesso, pageviews, etc.). Assim, pretende-se avaliar como diferentes fontes de dados podem ser utilizadas para construir prospecção de conteúdos online. A página de conteúdo de entretenimento “Tatá e sua Turma” foi utilizada para análise no Facebook. Nos dados fornecidos pelo Facebook, é possível ter uma visão geral da página, as curtidas, o alcance, as visitas, as publicações e as pessoas. Já na ferramenta de publicação de conteúdo Blogger, foi feito o uso do blog de entretenimento denominado de Thales Lima Estúdio de Desenhos, que desenvolve a página do Facebook “Tatá e sua Turma”, no Blogger há ferramentas semelhantes as do Facebook, porém de forma mais concisa com poucas possibilidades de análises temporais. Dessa forma pretende-se utilizar esses dois meios e compará-los através de suas estatísticas e como estas contribuem para criação de um conteúdo e a convergência entre as publicações que podem auxiliar no mapeamento dos resultados analíticos e fomentar novas produções. O período de análise vai de 01 de junho de 2012 até 31 de dezembro de 2012, seção temporal de maior coleta de dados em ambos os produtos comunicacionais. 4. Análise Foram analisadas as ferramentas de comunicação descritas na seção anterior, as quais disponibilizam ferramentas para que os usuários possam obter informações dos dados gerados por suas páginas, a forma como esses dados aparecem e se a leitura é facilmente entendida. Os termos utilizados por cada rede são praticamente os mesmos, e que a análise por navegador está presente em duas delas, o que caracteriza um fator importante na hora da produção de um site. 30 O diferencial maior foi a possibilidade que o Facebook oferece de baixar em forma de planilha os dados da página, no arquivo consta registro de atividades com no máximo 28 dias, a partir dele é possível identificar os fatores que levam um conteúdo a ser viral, baseado no número de curtidas e compartilhamentos que aparecem sintetizados numa amostragem apenas numérica. A coleta de dados das páginas de análises das redes sociais se deu por causa da característica do conteúdo e o fluxo de informações, os dados consistem em gênero de seguidores, conteúdo de maior publicação, maior alcance, itens que são relevantes para prospecção de novos conteúdos. A escolha se deu devido a quantidade de informações disponíveis por essas redes sociais. No Facebook e Blogger os usuários que possuem páginas tem uma gama de informações detalhadas sobre a visão que os usuários tem, o conteúdo que mais obteve curtidas ou visualizações, o alcance de suas publicação. São dados minerados que já passaram pelo processo de mapeamento e redução e auxiliam na hora de criação de estratégias para maior alcance de páginas. Com base no discorrido até o momento apresentar como a mineração de dados ocorre a partir do grande volume de processamento de dados, fundamental para caracterizar o Big Data. A partir da análise de como ocorre esse tratamento analítico, pode-se então compreender o trabalho feito após essa mineração pelas empresas de produção de conteúdo que atualmente passam a gerir suas ações mercadológicas com base na mineração de dados. 4.1 Análises por meio de registros das redes sociais Até o momento foi relatado como se dá a mineração de dados por meio do processo de mapeamento e redução, mas esse tipo de análise feito por trás de sites como Google, Facebook, Amazon, Netflix, pode aparecer de forma mais concisa, apresentado por meio de gráficos, tabelas. O que se pode identificar com isso é que a produção de conteúdo com base em análise e mineração de dados pode ocorrer nas duas esferas, tanto por parte de grandes empresas que detenham softwares como o Hadoop e MapReduce, como por pequenas empresas ou usuários que utilizam a rede para expor seu conteúdo. 31 Como forma de análise foram utilizadas as páginas do Facebook, e o Blogger para visualizar que após o processo de mapeamento e redução obtemos as páginas de resultados como as que veremos a seguir. Facebook Na figura a página apresentada é do setor pessoas e os resultados mostram segmentação por gênero que ainda divide e segmenta por usuários gerais e fãs. Na mesma página é possível ainda identificar onde esses usuários estão localizados, por cidade e por países. As publicações informam o período em que o conteúdo recebeu maior número de visitações, curtidas e compartilhamentos. Através do Facebook também é possível identificar o conteúdo clicado, tudo para que o usuário possa sintetizar e utilizar essas informações como insights para futuras publicações. Figura 6: Página de informações do Facebook Fonte: Facebook, 2014 O próprio Facebook disponibiliza os dados para que possam ser baixados como planilha, e denomina como Insights Data Export, apresentando números detalhados de publicações feitas a no máximo 28 dias. Com os dados é possível verificar o conteúdo propenso a grandes 32 compartilhamentos, informação que podem modificar a forma como postagens posteriores serão feitas e como serão abordadas. Pelos Insights Data Export, pode-se gerar gráficos que permitem vislumbrar o ponto de análise que pode ser integrado para a comunicação. Os dados do Facebook apontam para um crescimento entre os meses de junho e outubro, com picos em especial de curtidas em junho e aumento de visibilidade em julho. Essa análise prévia serve para quantizar qual segmento do outro objeto de comunicação deve-se dar atenção, para entender afinal como o público interage com o conteúdo do site. Figura 7: Facebook Insights Data Export Fonte: Facebook, 2014 Diariamente Usuários envolvidos: O número de pessoas que interagiram com a sua página. Interação inclui qualquer clique ou história criada. (Usuários únicos) 150 100 50 11/2/12 10/2/12 9/2/12 8/2/12 0 7/2/12 Diariamente Usuários envolvidos na página Diariamente: O número de pessoas que interagiram com a sua página.… 6/2/12 120 100 80 60 40 20 0 Vitalício Total de curtidas Vitalício: O número total de pessoas que curtiram sua página. (Usuários únicos) Vitalício Total de curtidas Vitalício: O número total de pessoas que curtiram sua página. (Usuários únicos) 33 28 dias Alcance orgânico 28 dias 6000 28 dias Alcance orgânico 28 dias: O número de pessoas que visitaram sua página ou a visualizaram uma das publicações da sua página no Feed de notícias ou na seção Novidades.… 5000 4000 3000 2000 1000 O número de pessoas novas que curtiram sua página. (Usuários únicos) 20 15 10 5 11/2/12 10/2/12 9/2/12 8/2/12 7/2/12 11/2/12 10/2/12 9/2/12 8/2/12 7/2/12 6/2/12 6/2/12 0 0 Diariamente Novas curtidas Diariamente: O número de pessoas novas que curtiram sua página. (Usuários únicos) Figura 8: Gráficos gerados com os dados do Facebook Insights Data Export. Blogger A outra rede social utilizada para poder verificar os dados e utilizá-los como informações é o Blogger, a rede foi comprada pelo Google e possui um sistema de estatísticas geral e conciso, os dados não podem ser selecionados por períodos como ocorre no Facebook, além disso não é possível baixar, dificultando um processo de análise mais específico. Figura 9: Página de estatísticas do Blogger Fonte: Blogger, 2014 34 A figura acima demonstra uma visão geral da página de estatísticas que traz a origem das buscas, como URL e até mesmo o País, denominando assim as origens do tráfico que levaram ao acesso. É possível verificar os dados apenas por tempos determinados pelo Blogger, ele contabiliza todos os dados relacionados para cada postagem desde a data de sua origem. Na ferramenta de publicação de conteúdo em questão é possível verificar o conteúdo da página que obteve maior visitação, analisando a data e o conteúdo da postagem “vingadores...zinhos”, verificamos que coincidem com o período em que o filme “The Avengers” (Os Vingadores, 2012) estava em cartaz, outra informação que obtemos é que no mesmo período o País que mais visitou a página foi os Estados Unidos, resultado que se complementa com a busca por conteúdo relacionado, as URL’s de referência, a principal fonte de pesquisa usada foi o site de buscas do Google. Dessa forma elas também auxiliam no conhecimento pois fazem com que se aprimore a escolha das palavras-chave a serem usadas para identificar determinado conteúdo, como pode ser verificado no gráfico abaixo. Visualizações de página por URL de referência 12 10 8 6 4 2 0 Visualizações por País 11 1 1 1 1 1 Visualizações de página 40 30 20 10 0 37 28 2 1 Visualizações por País Postagens mais vistas 2000 1500 1000 500 0 Visualizações da página Figura 10: Gráficos gerados com as estatísticas fornecidas pelo Blogger Os dados coletados destas duas redes de entretenimento apresentadas acima também correspondem a conteúdos publicados, a postagem de maior visualização identificada pelo 35 Blogger também foi postada na página do Facebook no mês correspondente a estreia do filme e como apresentado no gráfico proporcionou o maior número de visualizações da fanpage. 3.3 Produzindo conteúdo a partir da analítica de dados É possível verificar então que a análise de dados pode ser feita no âmbito de grandes empresas como Google e Facebook que através do Hadoop e MapReduce conseguem extrair informações que geram insights, e que estas fornecem aos seus usuários modelos reduzidos traduzidos em gráficos estatísticos que auxiliam na própria mineração e surgimento de ideias que também podem ser geradas com base nas redes sociais. Até o momento viu-se como Big Data tem modificado o mercado devido a quantidade de informações variadas que se transformam em fonte de conhecimento. A partir do momento em que se começou a minerar dados não estruturados como já foi dito, pode-se ter a capacidade de realizar análises mais eficazes (veracidade dos dados) que contribuem para estratégias melhoradas, principalmente em termos de produção de conteúdo. Nesse tópico pretendemos apresentar um ciclo de produção associado ao Big data. Com base nas análises apresentadas, foi possível identificar que o pico de maior visualização, curtidas e compartilhamentos do Facebook e Blogger coincidem com a postagem relacionada ao filme que estava em cartaz, verificou-se também que a escolha de palavras-chave que facilitassem a busca fez com que os Estados Unidos fosse o País mais visitante do Blogger. O conteúdo primeiro foi postado no blog e só posteriormente na fanpage que consequentemente trouxe novas visitações a página “Thales Lima Estúdio de Desenhos”. A partir dessas informações e da visualização pelos gráficos gerados é possível identificar fatores que poderão auxiliar no alcance maior da página, em termos de visibilidade, curtidas e postagens com maior potencial. Verificou-se então que o uso de palavras-chave adequadas contribui para que na busca orgânica sua página possa ser encontrada com maior frequência. Essas informações então podem contribuir para que o proprietário da página no Facebook e no Blogger produza conteúdo voltado a área infantil atendendo inicialmente a personagens já conhecidos, como utilizou para os vingadores, após investir em produções de personagens próprias continuando com a temática infantil, não esquecendo que a maior público que acessa a fanpage é feminino, deve produzir conteúdo atrativo as mulheres, 36 criação de personagens e publicações dando ênfase a datas comemorativas, pois é comumente lembrado por elas ou querem parecer que lembram. Integralizar as redes e o conteúdo postado pode proporcionar o acréscimo de visitas, publicações que começam na fanpage e podem ter um complemento no blog, para isso é importante obter o retorno do usuário, feedback, com as alterações aplicadas e verificar o resultado. Dessa forma é possível verificar que o processo de produção de conteúdo a partir da mineração de dados é contínuo, a análise deve ser feita a cada feedback recebido por parte dos usuários e, a partir daí, modificar, renovar ou produzir algo novo a ser oferecido. A partir da mineração de dados é possível então produzir de acordo com o feedback recebido por parte do público, e como a quantidade de informações diárias aumenta a cada dia, saber fazer a leitura dos dados fornecidos ou ter uma estrutura de mineração como o Hadoop, é fundamental para compreensão na hora da produção de conteúdo. Produzir Conteúdo Minerar dados Formular Hipóteses Minerar dados Realizar análise Figura 11: Ciclo de produção de conteúdo Fonte: Elaborado pela autora Como vemos na figura 11 o ciclo de produção é infinito, não se limita apenas a um processo de criação, na era do grande volume de dados a criatividade está associada a leitura de dados como forma de auxiliar a produção de conteúdo que por meio das informações obtidas pelos usuários e/ou clientes é capaz de produzir de acordo com a necessidade e interesse geral. O conteúdo produzido não se baseia em virais da rede, mas em análises detalhadas de fatores que atribuem carga de interesse coletivo com probabilidades de audiência, alcance de pessoas, páginas e compartilhamentos. 37 CONSIDERAÇÕES FINAIS O grande volume de dados circulantes pela web gerou uma nova visão por parte de empreendedores, entre eles os pertencentes a produção de conteúdo midiático. A mineração de dados que nos anos 80 começaram a proporcionar estratégias de negócios eficazes na denominado Business Intelligence que por meio do Data Warehouse, ferramenta utilizada como armazém de dados estruturados, analisavam o conteúdo e planejavam estratégias com base no nas informações coletadas. A importância dos dados só manteve a aumentar, ao chegarmos na era do grande volume de dados circulantes diariamente pela rede. Surge a necessidade de analisar mais rapidamente e não só as bases relacionais de dados estruturados como também dados não estruturados como os encontrados em vídeos, imagens e que segmentam grande parte desse conteúdo diário de informação dessa sociedade em rede. O grande volume de dados se tornou o fenômeno Big Data e a partir dele vários segmentos tem se utilizado para obter informações que gerem as melhores estratégias a serem abordadas. Levando em consideração a necessidade dessa mineração é que foram criados softwares capazes de analisar, mapear e reduzir em tempo real os dados coletados, tendo como o Hadoop. Disposto tudo isso pode-se observar como todo esse processo de mineração se torna parte fundamental para produção de conteúdo, tendo como referência o caso da empresa Netflix, que criou a série House of Cards (2013) por meio do Big Data, tendo como base a análise de preferências dos usuários. A Netflix já fazia uso desses dados para recomendação dos filmes, tornando uma comunicação invisível entre usuário e empresa, onde a empresa sempre tem uma informação mais concisa através dos clicks e da navegação feita pelo usuário. Da mesma forma que a Netflix, a Amazon sabe muito bem como utilizar de forma correta a mineração de dados, a empresa que iniciou o processo de análise de forma manual para recomendar livros, hoje utiliza Big Data para mapear a leitura que os usuários do Kindle estão fazendo e assim construir um produto que seja o mais atrativo possível ao usuário, além do aprimoramento nos sistemas de recomendações habituais. Presume-se então que aquele que é capaz de manipular, minerar e transformar os dados em informações concisas pode gerar verdadeiros insights para as produções de conteúdo. O ponto de partida sempre vai ser o usuário/consumidor e que ele vai gerenciar as 38 formas que o produto irá tomar ou como ele será modificado no decorrer das análises efetuadas. O Big Data cada vez mais tem se tornado realidade, basta observar a busca crescente pelo termo no Google Trends, e seu uso vem sendo feito por grandes empresas que fazem seu próprio mapeamento, como também por usuários, pois é possível extrair dos gráficos disponíveis e já analisados, os dados de redes sociais e identificar as melhores ações a serem tomadas para obtenção de resultados significativos. Figura 12: Busca pelo termo Big Data nos últimos anos Fonte: Google Trends, 2014 Dessa forma entende-se que hoje para produzir é preciso compreender os dados, e como visto nas análises das redes sociais é fundamental explorar todas as ferramentas estatísticas disponibilizadas com o objetivo de criar a forma mais propícia de interesse ao público que se transforme em alcance maior de visualizações, público e até mesmo audiência. 39 REFERÊNCIAS ANDERSON, Chris. A Cauda Longa - Do Mercado de Massa para o Mercado de Nicho. 1ª ed. Editora Campus, 2006. BARBIERI, Carlos. BI2- Business Intelligence: modelagem e qualidade. Rio de Janeiro: Elsevier, 2011. CASTELLS, Manuel. A Sociedade em rede. 6. ed. [s. L]: Paz e Terra, 2012 CUKIER, Kenneth; SCHÖNBERGER, Viktor Mayer. Big Data: como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. 1ª ed. Editora Campus, 2013. LÉVY, Pierre. As tecnologias da inteligência – O futuro do pensamento na era da informática. Trad. Carlos Irineu da Costa. 1ª ed. Editora 34, 1993. 13ª impressão MANYIKA, James; CHUI, Michael; BROWN, Brad; et al. Big Data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 2011. Webgrafia BULYGO, Zach. How Netflix Uses Analytics To Select Movies, Create Content, and Make Multimillion Dollar Decisions. <http://blog.kissmetrics.com/how-netflix-uses- analytics/> SIEWERT, Sam B. Big Data na nuvem. Disponível em: <http://www.ibm.com/developerworks/br/library/bd-bigdatacloud/> Acesso em: 13 mai. 2014 40 LURIE, Marty. Software Big Data livre para os Impacientes, Parte 1: Tutorial de Hadoop <http://www.ibm.com/developerworks/br/data/library/techarticle/dm-1209hadoopbigdata/> Acesso em: 10 jun. 2014. V DE valor em big data: IBM. 2013. Disponível em: <http://www.ibm.com/developerworks/community/blogs/ctaurion/entry/v_de_valor_em_big_ data?lang=en>. Acesso em: 21 abr. 2014. BI – Inteligência de Negócios. Disponível em: <http://stefanini.com/br/smart- solutions/inteligencia-de-negocios/> Acesso em: 03 de jul 2014. COLUMBUS, Louis. Best- And Worst-Performing Cloud Computing Stocks July 14th To July 18th And Year-To-Date. Disponível em: <http://www.forbes.com/sites/louiscolumbus/2012/08/16/roundup-of-big-data-forecasts-andmarket-estimates-2012/> Acesso em: 10 jul. 2014.