iii-005 - XXVII Congresso Interamericano de Engenharia

Propaganda
BIG DATA: UMA BREVE VISÃO
Alberto Ayres Benicio(1)
Rudhy Marssal Bohn(2)
Diego Justino (3)
Luiz Carlos Zavatin Junior (3)
Wellington Brito Mota (3)
INTRODUÇÃO
Com a maior facilidade de acesso à internet, popularização de redes sociais e smartphones, a
quantidade de dados gerados aumentou substancialmente, sendo que esse número deve
aumentar mais ainda nos próximos anos. Esses dados, quando coletados e minerados são de
extrema importância para empresas, já que elas podem determinar a melhor estratégia de
mercado, como cortar custos, como oferecer um melhor serviço para o usuário e etc.
Marr (2015), define que a ideia básica atrás da frase “Big Data” é que tudo que fazemos
gera um traço digital (dados), em que podemos analisar para nos tornamos mais inteligentes.
O processo de construção da pesquisa trata-se de uma abordagem descritiva, com
procedimento bibliográfico, proporcionando melhor entendimento sobre a temática em
questão, onde temos, dados sobre a temática por meio de descrições, analises dos dados e
conclusões.
A presente pesquisa pauta-se em analisar o conceito de Big Data, ressaltando sua história,
importância, analisando suas vantagens e desvantagens e mostrar como seu uso trará
grandes benefícios.
História e etimologia do Big Data
O surgimento do termo Big Data é meio incerto, tendo poucas referências antes dos
anos 2000, mas em sua grande maioria, não referenciavam o sentido totalmente que ele tem
hoje.
Uma referência que usou o termo Big Data de forma correta no fim do século XX,
segundo Diebold (2012), ocorreu na Silicon Graphics (SGI) nos de 1990. John Mashey, um
aposentado cientista chefe na SGI produziu um grupo de slides chamado Big Data and the
Next Wave of InfraStress (Big Data e a nova onda de InfraStress), em que demostra clara
atenção e compreendimento do fenômeno.
1
2
Mestre em Informática – PUC – Curitiba/PR.
Mestre em Educação – UNIR – Porto Velho/RO.
XIV Jornada Científica das Faculdades Integradas de Cacoal - UNESC
1
Foi apenas em 2001 que Doug Laney, vice-presidente e diretor de pesquisas do
Enterprise Analytics Strategies (Estratégias analíticas empresariais), destacou em três
dimensões como é o gerenciamento de dados, que viriam a ser conhecidos com os três V’s
do Big Data, sendo eles volume, variedade e velocidade.
Em 2007, Hadoop, um projeto open-souce (Gratuito) para tratar e armazenar
volumes massivos de dados não estruturados e estruturados foi criado pela a Apache
Foundation e mantido pelo Yahoo e rapidamente se tornou um símbolo da implementação
do Big Data, sendo usado por várias empresas com Amazon e IBM.
Inderpal Bhandar, chefe de dados da Express Scripts argumentou em sua
apresentação na Big Data Inovation Summit em Boston no ano de 2013 que existem três V’s
adicionais que a TI, empresários e cientistas de dados devem estar preocupados, sendo eles
validade, volatilidade e veracidade.
Conceito
A fundação e as dimensões indispensáveis do Big Data são baseadas nos V’s
definidos por Doug Laney com o intuito de deixar mais claro o significado do termo, sendo
eles o volume, variedade e velocidade.
Volume é o aspecto mais conhecido do Big Data, a sua capacidade de lidar com
volumes de dados enormes que crescem em taxas massivas. Como hoje o acesso a
tecnologias é mais fácil, os dados veem de diferentes fontes, sendo tanto de empresas como
de usuários, chegando na casa dos peta bytes.
A variedade é muito importante, já que podemos definir mais precisamente três tipos
de dados que existem hoje, sendo eles o estruturado, que o tipo de dados que pode ser
armazenado com facilidade em bancos de dados SQL, em tabelas e colunas, sendo que
representam cerca de 10% do total de dados (IDG, 2015).
3
Graduandos em Sistema de Informação – UNESC – Cacoal/RO.
X Jornada Científica das Faculdades Integradas de Cacoal - UNESC
Temos também o semiestruturado, que é tipos de dados que não são originados de
bancos de dados relacionais, mas é organizado de forma que é mais fácil armazena-los em
bancos SQL. Um exemplo seria arquivos XML e bancos de dados não relacionais, sendo
que esse tipo corresponde de 5 a 10% do total de dados (IDG, 2015).
O tipo de dados mais utilizado é o não-estruturado, correspondendo a cerca de 80%
do total (IDG, 2015) e o que mais cresce. Esse tipo é inclui textos e multimídia, como
vídeos, fotos, áudios e etc. Como eles são incompatíveis, eles não podem ser inseridos em
banco de dados comuns. Nota-se a importância que isso traz ao Big Data, a capacidade de
conseguir analisar praticamente qualquer tipo de dados.
Velocidade é um ponto extremamente importante, já que o fluxo de data criado é
massivo e continuo exigindo que o tratamento de dados seja feito em tempo hábil ou em
tempo real, para gerar as informações necessárias, assim ajudando a tomada de decisões
valiosas baseados em dados atuais.
Posteriormente, temos os três V’s definidos por Inderpal Bhandar, sendo eles
validade, volatilidade e veracidade.
Como o Big Data trabalha com várias formas de dados, a validade verifica-se ao
analisar e minerar dados, espera-se que os resultados sejam precisos e corretos para o uso
entendido, mas para isso deverá se verificar como validar cada elemento de dados,
garantindo sua consistência e disponibilidade. Nos estágios iniciais é muito importante
garantir que os dados sejam corretos, pois ela servirá de base para futuras decisões.
A veracidade deverá garantir que a proveniencia dos dados seja de um fonte
confiável para garantir sua autenticidade.
A volatilidade refere-se a quanto tempo o dado é valido e por quanto deve ser
mantido. Como a criação de dados é massiva e diária, deverá ser determinado até que ponto
que o dado será relevante a análise atual.
XIV Jornada Científica das Faculdades Integradas de Cacoal - UNESC
3
Os V’s criados por Inderpal levantou muitas discussões sofre sua eficiência e
utilização. O termo veracidade foi bem aceito pela comunidade e grandes empresas como a
IBM, mas o criador do v’s originais, Doug Laney (2013), argumenta que apesar de serem
características importantes no gerenciamento e manipulação de dados, elas são confusas e
não são necessárias, devendo se manter apenas na base do Big Data definidos por ele.
Atualmente, a adoção desses v’s variam da necessidade das empresas.
Estamos na era dos dados, aonde os mesmos estão entrelaçados com cada setor da
economia mundial e são indispensáveis para o seu funcionamento, aonde fica explicita o
potencial dos dados e como eles podem se tornar os principais atores para tornar os negócios
mais eficientes e inteligentes.
Muitos analistas acreditam que o potencial do Big Data é inimaginável, se feito de
maneira correta. Para Peter Sondergaard (2012), vice-presidente do Gartner Group,
“informações são o petróleo do século XXI e a analítica é o motor de combustão”,
argumentado que o seu uso será tão revolucionário como o uso de gasolina por automóveis
no século XX.
Resultados e discussões
Após a exibição dos materiais, percebe-se que o termo Big Data não é tão atual, mas
que só recentemente começou a ganhar atenção, em virtude do crescimento de geração de
dados e da necessidade de se analisar os mesmos para melhorar serviços, tornar- se mais
inteligente e ter vantagens. As adoções de quais dimensões (v’s) serão utilizados para a
implementação varia de empresa para empresa, não tendo apenas um jeito de implementalo.
A eficiência do Big Data fez as empresas perceberem que o seu uso pode ser uma
vantagem em relação a concorrência, ocorrendo uma tendência de aumento de uso, tendo
um salto grande nos últimos anos, sendo que desde de 2014, o uso por empresas subiu 125%
(IDG, 2015) e cerca de 90% de empresas de nível médio a grande investem em Big Data.
(Forbes, 2015).
X Jornada Científica das Faculdades Integradas de Cacoal - UNESC
O termo vem sendo mais notado por executivos, sendo que 59% consideram o Big
Data entre os cinco primeiros ou o caminho mais importante para atingir vantagem
competitiva, mostrando a força que o termo vem ganhando em relação a aumento de uso.
Apesar de um crescente uso, o Big Data tem vários desafios à serem resolvidos para
alavancar de vez seu uso, como na área de adoção do conceito, mesmo tendo crescimento de
número de empresas que implementam soluções em Big Data, a maioria implementa
projetos menores, de experimentos, mostrando que ainda falta o domínio da tecnologia pelas
empresas, sendo que muitas têm dificuldades em conseguir que várias áreas da empresa
compartilhem os dados e identificar os dados e aonde melhor utiliza-los, assim perdendo-se
o valor que o dado tem a oferecer.
Um ponto muito importante a ser trabalhado é a falta de conhecimento de muitos
empresários de o que é Big Data e o que ele pode fazer para melhorar a empresa, faltando
divulgação sobre seus benefícios.
Outro problema é a resistência de empresas com modelos tradicionais adeririam a
essa tecnologia. Muitas resistem por desconfiança e o medo de não ser seguro, sendo que
34% dos CEO não confiam ou não tem certeza na tecnologia (IDG, 2015).
Para Dumbill (2012), a legalidade de coleção de dados pode ser restritiva em
recolher as informações desejadas. Em áreas, como financeiras, a coleção de dados é
extremamente restrita. Em outros casos, a combinação de dados pode ser ilegal pois gera
informação pessoal de identificação (PII). Um exemplo seria uma corte na Califórnia que
determinou que o IP não gera identificação pessoal, mas o código de endereçamento postal
(CEP) sim. Essas regulações podem impor sérias restrições em como os dados são
analisados.
A falta de profissionais na área é um grande empecilho, já que faltam empregados
que sejam capazes de gerenciar grandes quantidades de dados e gerar as informações
corretas, o que deixa as empresas mais inseguras em implementar o conceito.
XIV Jornada Científica das Faculdades Integradas de Cacoal - UNESC
5
A evolução da tecnologia torna mais difícil trabalhar com dados, pois terá que ter
tecnologias que fortes e inovadoras que ajudam a criar a arquitetura correta que adaptará as
mudanças futuras de forma eficiente.
Conclusão
O resultado ao decorrer da pesquisa mostra que o Big Data é uma tecnologia
maleável, possuindo um potencial é inestimável se superado os desafios do seguimento, e a
qual se merece estudos mais aprofundados.
Referências
Laney, Doug. 3D Data Management: Controlling Data Volume, Velocity, and Variety. Application Delivery
Strategies, v.949, p. 1-4, feb. 2001.
Diebold, F. A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the
Term and the Discipline. University of Pennsylvania, p. 1-7, nov. 2012.
IDG Enterprise Marketing, Big Data and Analytics Survey 2015. 9 mar. 2015. Disponível em:
http://www.idgenterprise.com/resource/research/2015-big-data-and-analytics-survey/. Acesso em: 25 mai.
2016.
Forbes., Teradata: Big Bets on Big Data: Who, Where and What. Forbes Insights, p 1-6, 2015. Disponível
em:<http://assets.teradata.com/resourceCenter/downloads/ExecutiveBriefs/EB9060_FInsights_Teradata_Brief
_3_FINAL.pdf?processed=1>. Acesso em: 26 mai. 2016.
Normandeu. K. Beyond Volume, Variety and Velocity is the Issue of Big Data Veracity. 12 set. 2013.
Disponível em: http://insidebigdata.com/2013/09/12/beyond-volume-variety-velocity-issue-big-data-veracity/.
Acesso em: 16 mai. 2016.
Ronk, J. Structured, Semi Structured and Unstructured Data. 1 set. 2014. Disponível em:<
https://jeremyronk.wordpress.com/2014/09/01/structured-semi-structured-and-unstructured-data/>. Acesso em:
31 mai. 2016.
Alecrim, Emerson. O que é Big Data. 13 mar. 2013. Disponível em: < http://www.infowester.com/bigdata.php>. Acesso em: 22 mai. 2016.
X Jornada Científica das Faculdades Integradas de Cacoal - UNESC
Download