BIG DATA: UMA BREVE VISÃO Alberto Ayres Benicio(1) Rudhy Marssal Bohn(2) Diego Justino (3) Luiz Carlos Zavatin Junior (3) Wellington Brito Mota (3) INTRODUÇÃO Com a maior facilidade de acesso à internet, popularização de redes sociais e smartphones, a quantidade de dados gerados aumentou substancialmente, sendo que esse número deve aumentar mais ainda nos próximos anos. Esses dados, quando coletados e minerados são de extrema importância para empresas, já que elas podem determinar a melhor estratégia de mercado, como cortar custos, como oferecer um melhor serviço para o usuário e etc. Marr (2015), define que a ideia básica atrás da frase “Big Data” é que tudo que fazemos gera um traço digital (dados), em que podemos analisar para nos tornamos mais inteligentes. O processo de construção da pesquisa trata-se de uma abordagem descritiva, com procedimento bibliográfico, proporcionando melhor entendimento sobre a temática em questão, onde temos, dados sobre a temática por meio de descrições, analises dos dados e conclusões. A presente pesquisa pauta-se em analisar o conceito de Big Data, ressaltando sua história, importância, analisando suas vantagens e desvantagens e mostrar como seu uso trará grandes benefícios. História e etimologia do Big Data O surgimento do termo Big Data é meio incerto, tendo poucas referências antes dos anos 2000, mas em sua grande maioria, não referenciavam o sentido totalmente que ele tem hoje. Uma referência que usou o termo Big Data de forma correta no fim do século XX, segundo Diebold (2012), ocorreu na Silicon Graphics (SGI) nos de 1990. John Mashey, um aposentado cientista chefe na SGI produziu um grupo de slides chamado Big Data and the Next Wave of InfraStress (Big Data e a nova onda de InfraStress), em que demostra clara atenção e compreendimento do fenômeno. 1 2 Mestre em Informática – PUC – Curitiba/PR. Mestre em Educação – UNIR – Porto Velho/RO. XIV Jornada Científica das Faculdades Integradas de Cacoal - UNESC 1 Foi apenas em 2001 que Doug Laney, vice-presidente e diretor de pesquisas do Enterprise Analytics Strategies (Estratégias analíticas empresariais), destacou em três dimensões como é o gerenciamento de dados, que viriam a ser conhecidos com os três V’s do Big Data, sendo eles volume, variedade e velocidade. Em 2007, Hadoop, um projeto open-souce (Gratuito) para tratar e armazenar volumes massivos de dados não estruturados e estruturados foi criado pela a Apache Foundation e mantido pelo Yahoo e rapidamente se tornou um símbolo da implementação do Big Data, sendo usado por várias empresas com Amazon e IBM. Inderpal Bhandar, chefe de dados da Express Scripts argumentou em sua apresentação na Big Data Inovation Summit em Boston no ano de 2013 que existem três V’s adicionais que a TI, empresários e cientistas de dados devem estar preocupados, sendo eles validade, volatilidade e veracidade. Conceito A fundação e as dimensões indispensáveis do Big Data são baseadas nos V’s definidos por Doug Laney com o intuito de deixar mais claro o significado do termo, sendo eles o volume, variedade e velocidade. Volume é o aspecto mais conhecido do Big Data, a sua capacidade de lidar com volumes de dados enormes que crescem em taxas massivas. Como hoje o acesso a tecnologias é mais fácil, os dados veem de diferentes fontes, sendo tanto de empresas como de usuários, chegando na casa dos peta bytes. A variedade é muito importante, já que podemos definir mais precisamente três tipos de dados que existem hoje, sendo eles o estruturado, que o tipo de dados que pode ser armazenado com facilidade em bancos de dados SQL, em tabelas e colunas, sendo que representam cerca de 10% do total de dados (IDG, 2015). 3 Graduandos em Sistema de Informação – UNESC – Cacoal/RO. X Jornada Científica das Faculdades Integradas de Cacoal - UNESC Temos também o semiestruturado, que é tipos de dados que não são originados de bancos de dados relacionais, mas é organizado de forma que é mais fácil armazena-los em bancos SQL. Um exemplo seria arquivos XML e bancos de dados não relacionais, sendo que esse tipo corresponde de 5 a 10% do total de dados (IDG, 2015). O tipo de dados mais utilizado é o não-estruturado, correspondendo a cerca de 80% do total (IDG, 2015) e o que mais cresce. Esse tipo é inclui textos e multimídia, como vídeos, fotos, áudios e etc. Como eles são incompatíveis, eles não podem ser inseridos em banco de dados comuns. Nota-se a importância que isso traz ao Big Data, a capacidade de conseguir analisar praticamente qualquer tipo de dados. Velocidade é um ponto extremamente importante, já que o fluxo de data criado é massivo e continuo exigindo que o tratamento de dados seja feito em tempo hábil ou em tempo real, para gerar as informações necessárias, assim ajudando a tomada de decisões valiosas baseados em dados atuais. Posteriormente, temos os três V’s definidos por Inderpal Bhandar, sendo eles validade, volatilidade e veracidade. Como o Big Data trabalha com várias formas de dados, a validade verifica-se ao analisar e minerar dados, espera-se que os resultados sejam precisos e corretos para o uso entendido, mas para isso deverá se verificar como validar cada elemento de dados, garantindo sua consistência e disponibilidade. Nos estágios iniciais é muito importante garantir que os dados sejam corretos, pois ela servirá de base para futuras decisões. A veracidade deverá garantir que a proveniencia dos dados seja de um fonte confiável para garantir sua autenticidade. A volatilidade refere-se a quanto tempo o dado é valido e por quanto deve ser mantido. Como a criação de dados é massiva e diária, deverá ser determinado até que ponto que o dado será relevante a análise atual. XIV Jornada Científica das Faculdades Integradas de Cacoal - UNESC 3 Os V’s criados por Inderpal levantou muitas discussões sofre sua eficiência e utilização. O termo veracidade foi bem aceito pela comunidade e grandes empresas como a IBM, mas o criador do v’s originais, Doug Laney (2013), argumenta que apesar de serem características importantes no gerenciamento e manipulação de dados, elas são confusas e não são necessárias, devendo se manter apenas na base do Big Data definidos por ele. Atualmente, a adoção desses v’s variam da necessidade das empresas. Estamos na era dos dados, aonde os mesmos estão entrelaçados com cada setor da economia mundial e são indispensáveis para o seu funcionamento, aonde fica explicita o potencial dos dados e como eles podem se tornar os principais atores para tornar os negócios mais eficientes e inteligentes. Muitos analistas acreditam que o potencial do Big Data é inimaginável, se feito de maneira correta. Para Peter Sondergaard (2012), vice-presidente do Gartner Group, “informações são o petróleo do século XXI e a analítica é o motor de combustão”, argumentado que o seu uso será tão revolucionário como o uso de gasolina por automóveis no século XX. Resultados e discussões Após a exibição dos materiais, percebe-se que o termo Big Data não é tão atual, mas que só recentemente começou a ganhar atenção, em virtude do crescimento de geração de dados e da necessidade de se analisar os mesmos para melhorar serviços, tornar- se mais inteligente e ter vantagens. As adoções de quais dimensões (v’s) serão utilizados para a implementação varia de empresa para empresa, não tendo apenas um jeito de implementalo. A eficiência do Big Data fez as empresas perceberem que o seu uso pode ser uma vantagem em relação a concorrência, ocorrendo uma tendência de aumento de uso, tendo um salto grande nos últimos anos, sendo que desde de 2014, o uso por empresas subiu 125% (IDG, 2015) e cerca de 90% de empresas de nível médio a grande investem em Big Data. (Forbes, 2015). X Jornada Científica das Faculdades Integradas de Cacoal - UNESC O termo vem sendo mais notado por executivos, sendo que 59% consideram o Big Data entre os cinco primeiros ou o caminho mais importante para atingir vantagem competitiva, mostrando a força que o termo vem ganhando em relação a aumento de uso. Apesar de um crescente uso, o Big Data tem vários desafios à serem resolvidos para alavancar de vez seu uso, como na área de adoção do conceito, mesmo tendo crescimento de número de empresas que implementam soluções em Big Data, a maioria implementa projetos menores, de experimentos, mostrando que ainda falta o domínio da tecnologia pelas empresas, sendo que muitas têm dificuldades em conseguir que várias áreas da empresa compartilhem os dados e identificar os dados e aonde melhor utiliza-los, assim perdendo-se o valor que o dado tem a oferecer. Um ponto muito importante a ser trabalhado é a falta de conhecimento de muitos empresários de o que é Big Data e o que ele pode fazer para melhorar a empresa, faltando divulgação sobre seus benefícios. Outro problema é a resistência de empresas com modelos tradicionais adeririam a essa tecnologia. Muitas resistem por desconfiança e o medo de não ser seguro, sendo que 34% dos CEO não confiam ou não tem certeza na tecnologia (IDG, 2015). Para Dumbill (2012), a legalidade de coleção de dados pode ser restritiva em recolher as informações desejadas. Em áreas, como financeiras, a coleção de dados é extremamente restrita. Em outros casos, a combinação de dados pode ser ilegal pois gera informação pessoal de identificação (PII). Um exemplo seria uma corte na Califórnia que determinou que o IP não gera identificação pessoal, mas o código de endereçamento postal (CEP) sim. Essas regulações podem impor sérias restrições em como os dados são analisados. A falta de profissionais na área é um grande empecilho, já que faltam empregados que sejam capazes de gerenciar grandes quantidades de dados e gerar as informações corretas, o que deixa as empresas mais inseguras em implementar o conceito. XIV Jornada Científica das Faculdades Integradas de Cacoal - UNESC 5 A evolução da tecnologia torna mais difícil trabalhar com dados, pois terá que ter tecnologias que fortes e inovadoras que ajudam a criar a arquitetura correta que adaptará as mudanças futuras de forma eficiente. Conclusão O resultado ao decorrer da pesquisa mostra que o Big Data é uma tecnologia maleável, possuindo um potencial é inestimável se superado os desafios do seguimento, e a qual se merece estudos mais aprofundados. Referências Laney, Doug. 3D Data Management: Controlling Data Volume, Velocity, and Variety. Application Delivery Strategies, v.949, p. 1-4, feb. 2001. Diebold, F. A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term and the Discipline. University of Pennsylvania, p. 1-7, nov. 2012. IDG Enterprise Marketing, Big Data and Analytics Survey 2015. 9 mar. 2015. Disponível em: http://www.idgenterprise.com/resource/research/2015-big-data-and-analytics-survey/. Acesso em: 25 mai. 2016. Forbes., Teradata: Big Bets on Big Data: Who, Where and What. Forbes Insights, p 1-6, 2015. Disponível em:<http://assets.teradata.com/resourceCenter/downloads/ExecutiveBriefs/EB9060_FInsights_Teradata_Brief _3_FINAL.pdf?processed=1>. Acesso em: 26 mai. 2016. Normandeu. K. Beyond Volume, Variety and Velocity is the Issue of Big Data Veracity. 12 set. 2013. Disponível em: http://insidebigdata.com/2013/09/12/beyond-volume-variety-velocity-issue-big-data-veracity/. Acesso em: 16 mai. 2016. Ronk, J. Structured, Semi Structured and Unstructured Data. 1 set. 2014. Disponível em:< https://jeremyronk.wordpress.com/2014/09/01/structured-semi-structured-and-unstructured-data/>. Acesso em: 31 mai. 2016. Alecrim, Emerson. O que é Big Data. 13 mar. 2013. Disponível em: < http://www.infowester.com/bigdata.php>. Acesso em: 22 mai. 2016. X Jornada Científica das Faculdades Integradas de Cacoal - UNESC