3. Integração entre ferramentas Big Data e NewSQL

Propaganda
Pág 1/14
Implementação de Big Data com NewSQL
Rodolfo Sousa Viana, Hélio Rubens Soares
Instituto de Informática – Centro Universitário do Triângulo (UNITRI)
Caixa Postal 309 – 38.411-106 – Uberlândia – MG – Brasil
[email protected], [email protected]
Resumo. Este artigo tem como finalidade demostrar o funcionamento de
plataformas de Big Data com o novo modelo de banco de dados NewSQL. Para
exemplificar, foi implementada uma solução preditiva para uma academia de
atletas, com o intuito de prever, usando o método estatístico de análise
discriminante, qual a melhor modalidade de esporte para cada atleta da
academia. A implementação de Big Data com NewSQL permite entregar maior
desempenho e resultados com maior confiabilidade. Desta feita, sua
aplicabilidade é ampla e pouco utilizada, possibilitando outros estudos sobre o
tema.
1. Introdução
Com o aumento das aplicações, sendo grande parte na web, surgiu a necessidade de se ter
maior desempenho dos bancos de dados relacionais, pois houve aumento no fluxo de
dados e necessidade de maior velocidade no tempo de resposta. Para que esses bancos
possam atender a essa demanda, são necessárias algumas melhorias.
Para atender essas necessidades, foram desenvolvidos novos SGBD (Sistemas de
Gerenciamento de Banco de Dados) com maior escalabilidade, baixo custo operacional e
com suporte transações ACID (Atomicidade, Consistência, Isolamento e Durabilidade)
denominado de modelo de banco de dados NewSQL.
Com o grande volume de dados disponíveis, analisando e aplicando técnicas
necessárias, é possível gerar informações mais rápidas, assertivas e consistentes
facilitando as empresas a tomarem decisões rápidas, permitindo as empresas a
entenderem melhor o perfil de cada cliente, inovando e melhorando produtos e serviços,
melhorando seus processos operacionais e mantendo as empresas cada vez mais
competitiva no mercado. O Big Data surgiu com uma solução, e vem crescendo
rapidamente, abrindo novas oportunidades, necessitando de novos profissionais capazes
de explorarem grandes volumes de dados. [IBM, 2013]
O objetivo deste projeto e implementar uma solução de Big Data, juntamente com
um SGBD NewSQL, mostrando suas definições, conceitos e algumas ferramentas, sendo
duas em específico de ambas tecnologias, para mais detalhes e para o estudo de caso, que
são o RapidMiner e o NuoDB.
Na seção 2, serão apresentados os conceitos, características e exemplos das
ferramentas de Big Data e NewSQL. Na seção 3, serão apresentadas as ferramentas
RapidMiner Studio e NuoDB e o método estatístico de análise discriminante. Na seção 4
será realizado um estudo de caso de uma academia de atletas e implementado uma solução
utilizando Big Data com NewSQL. Já na seção 5, será mostrado a conclusão deste artigo,
destacando a viabilidade da integração das tecnologias de Big Data com modelos de
banco de dados NewSQL e levantada a possibilidade para trabalhos futuros.
Pág 2/14
2. Big Data e NewSQL
Nas subseções seguintes, são apresentados os conceitos de Big Data e NewSQL, suas
características, e algumas ferramentas que utilizam tais tecnologias.
2.1. Big Data
O termo Big Data refere-se a um grande conjunto de dados, voláteis ou não,
extremamente amplos que, através de aplicação de ferramentas capazes de suportar e
grandes volumes de dados, possam ser extraídas qualquer informação que, depois de
analisada, possa ser aproveitada em tempo hábil. A solução de Big Data oferece uma
abordagem mais ampla para tratar os dados, que são gerados em maior volume e
variedades, tornando as informações provenientes desses dados mais precisas e
consistentes [OREILLY, 2012].
Segundo a IBM, Big Data baseia-se em cinco V’s, isto é, possuem cinco
características que são [IBM, 2012]:


Volume: Refere-se ao aumento de dados que são constantemente gerados.
Variedade: Refere-se aos diferentes tipos de dados que são gerados e que se pode
usar. Podem ter sidos gerados a partir de banco de dados tradicionais, e-mail,
textos de mídias social, vídeos, sensores que coletam dados, áudio, dados de
transações financeiras. Com isso, estes dados devem ser incluídos em análises.
 Velocidade: É a rapidez em que os dados vêm sendo gerados e a rapidez em que
esses devem ser tratados para que possa atender as demandas do mercado.
 Veracidade: Garantir o máximo possível a consistência dos dados. É
extremamente importante garantir a veracidade dos dados, uma vez que a
variedade de dados é maior, esse fator impacta na qualidade dos dados, que na
maioria das vezes são baixas.
 Valor: Refere-se a transformar em valor os grandes volumes de dados. As
empresas têm que ter a clareza dos custos e dos benefícios de uma iniciativa de
Big Data antes de implanta-las, fazendo business case para qualquer tentativa de
coletar e utilizar grandes volumes de dados. É o “V” mais importante do Big Data.
Na próxima subseção é mostrado o conceito e as características do modelo de
banco de dados NewSQL.
2.2. NewSQL
O NewSQL foi criado pela empresa de análise chamada The 451 Group e sua proposta
foi desenvolver uma nova classe de sistemas de gerenciamento de banco de dados que
pudessem oferecer o mesmo desempenho e escalabilidade dos bancos de dados NoSQL,
utilizando os mesmos padrões e as propriedades ACID para transações que possuem os
bancos de dados relacionais [ROUSE, 2014].
O NewSQL é um novo método, pois ele visa atender necessidades específicas
para cada sistema desenvolvido. O que não acontece nos bancos de dados relacionais que
atendiam qualquer tipo de aplicação. Segundo Stonebraker, M. (2011) um banco de dados
NewSQL possuem cinco características [STONEBRAKER, 2011]:


Suporte para transações ACID.
Linguagem SQL como principal mecanismo de interação entre a aplicação e o
SGBD.
Pág 3/14



Controle de concorrência não bloqueante em tempo real, para que as escritas e
leituras não causem conflitos entre si mesmas.
Arquitetura que ofereça desempenho superior por nó de processamento.
Possui arquitetura escalável, com memória distribuída e capaz de suportar grande
número de nó.
ACID (Atomicidade, Consistência, Isolamento e Durabilidade) é uma
característica de transação em bancos de dados. Cada uma dessas propriedades possui
suas características que são [MICROSOFT, 2015]:




Atomicidade: Uma transação deve ser uma unidade atômica de trabalho. Se uma
transação falhar, deve-se garantir que será feito o rollback. Se a transação for
concluída com sucesso, não podendo haver nenhum erro, deve-se fazer o commit;
Consistência: Uma transação, após ser concluída, deve manter todos os dados em
um estado de consistência. Todas as regras e restrições existentes no banco de
dados devem ser obedecidas;
Isolamento: Uma transação só estará disponível às outras após a sua conclusão.
Enquanto a transação não for confirmada, outras transações não terão visibilidade
sobre esta.
Durabilidade: Todas a transações que forem concluídas sem falhas, seus
resultados deverão ser mantidos no banco de dados sem correr o risco de perda.
Nas próximas subseções serão exemplificadas duas ferramentas que são utilizadas
para Big Data e para o modelo de banco de dados NewSQL, destacando as principais
características para cada uma.
2.3. Hadoop
O Hadoop é uma plataforma open source, escalável, desenvolvida para processamento e
análise de grandes volumes de dados, podendo ser dados estruturados ou não. O projeto
teve início em meados de 2003, quando o Google desenvolveu um modelo de
programação, o MapReduce, que distribui o processamento entre vários computadores
com o objetivo de ajudar seu mecanismo de busca a ficar mais rápido, não sendo
necessário servidores com grande poder de processamento e com custo alto. Algum tempo
depois, o próprio Google apresentou o Google File System (GFS), que é um sistema de
arquivos preparados para lidar com processamento distribuído e grande volume de dados.
Esse sistema trabalha com um conjunto de instruções que determino como os dados dever
sem armazenados, acessados e manipulados [IBM, 2011].
O GFS foi incorporado ao Nutch, um projeto de motor de busca para web, que
possuía problemas de escala. Essa combinação resultou numa solução nomeada Nutch
Distributed Filesystem (NDFS). No ano seguinte, o NDFS recebeu a implementação do
MapReduce. O Nutch foi implementado como parte de um projeto de maior escala
chamado Lucene, que visava implementar uma biblioteca para indexação de páginas.
Com a percepção de que a ferramenta Lucene poderia ser usado em outras aplicações de
busca na web, foi desenvolvido um novo projeto que tinha as características do Nutch e
do Lucene chamado Hadoop, onde sua implementação do sistema de arquivos recebeu o
nome de Hadoop Distributed File System (HDFS) [IBM, 2011].
Pág 4/14
Na próxima subseção foi destacado um SGBD que utiliza o modelo de banco de
dados NewSQL, e que vem sendo utilizado pelas empresas pelo seu desempenho e
facilidade de implantação.
2.4. MemSQL
O MemSQL é um sistema de gerenciamento de banco de dados, distribuído, in-memory.
Seu funcionamento consiste em gerar código C++ através do SQL (Structured Query
Language). O início do desenvolvimento do MemSQL foi no começo de 2011, por Eric
Frenkiel e Nikita Shamgunov, que são CEO e CTO da empresa MemSQL Inc [MEMSQL,
2015]
O MemSQL possui uma arquitetura distribuída, organizada e escalável,
oferecendo maior desempenho em dois níveis de nós denominados Agregador e
Agregador Mestre [MEMSQL, 2015].
O Agregador Mestre é um motor responsável pelo monitoramento do cluster e
failover. Ele administra as operações de cluster em toda base de dados e também as
operações DDL (Data Definition Language) [MEMSQL, 2015].
O Agregador é um nó cujo função é distribuir as consultas para os nós das folhas,
adicionando os resultados e combinando-os, para retorno ao cliente. O MemSQL possui
as seguintes características [MEMSQL, 2015]:












Suporte ANSI SQL;
Consultas compiladas;
Transações Multi-Declaradas;
JOINs totalmente distribuídos;
Tabelas em memória;
Tabelas em disco;
Durabilidade completa em disco;
Bloqueio de estruturas de dados gratuito;
Suporte Geospatial;
Gerenciamento de Cluster;
Suporte JSON;
Execução massivamente paralela.
Apresentados os conceitos, as características e alguns exemplos de ferramentas de
Big Data e NewSQL, na próxima seção será apresentada a integração destas tecnologias,
utilizando as ferramentas RapidMiner Studio e NuoDB, utilizando o método estatístico
análise discriminante.
3. Integração entre ferramentas Big Data e NewSQL
Nas próximas subseções, serão mostradas as ferramentas que serão utilizadas para a
implementação de uma solução de Big Data com banco de dados NewSQL e o método
estatístico que será utilizado na solução.
3.1. RapidMiner Studio
O RapidMiner Studio é um software que fornece ao usuário um ambiente integrado para
mineração de dados, mineração de texto, mineração na web, análise preditiva, análise de
negócios e aprendizagem de máquina. É comum ver a utilização dessa ferramenta em
Pág 5/14
aplicações comerciais e industriais, na educação, investigação policial, prototipagem
rápida e desenvolvimento de aplicações que suportam todas as etapas do processo de
mineração de dados, permitindo a visualização dos resultados, validação e otimização.
Foi desenvolvida em 2001 por Ralf Klinkenberg, Simon Fisher e Ingo Mierswa, na
unidade de inteligência artificial da Universidade Técnica de Dortmund, na Alemanha, e
era denominada YALE (Yet Another Ambiente Learning) [RAPIDMINER, 2015].
O software usa o modelo cliente/servidor oferecido como modelo SaaS (Software
as a Service) ou em infraestrutura de nuvem. De acordo com a instituição Bloor Research,
a ferramenta fornece 99% de uma solução analítica avançada, baseados em modelos que
entregam alta performance e reduz erros por quase não haver a necessidade de se escrever
código. A ferramenta também oferece mineração de dados e aprendizado de máquina,
incluindo alguns procedimentos como [RAPIDMINER, 2015]:

Extração, carregamento e transformação de dados;

Pré-processamento e visualização de dados;

Analise preditiva, Analise Quantitativa e Qualitativa;

Modelagem estatística.
O RapidMiner possui interface gráfica, permitindo o usuário projetar e executar
fluxos de trabalhos analíticos. Esses fluxos são denominados de “processos” e eles
consistem em alguns nós denominados de “operadores”. Cada operador executa uma
única tarefa em todo o processos e sua saída constitui a entrada do próximo operador. O
processo projetado pode ser usado por outras aplicações ou ser usado como uma API. A
ferramenta também disponibiliza esquemas, modelos e algoritmos de aprendizagem
Weka e scripts em linguagem R. A figura 1 apresenta um processo desenvolvido no
RapidMiner Studio [RAPIDMINER, 2015].
Pág 6/14
Figura 1 – Interface gráfica da ferramenta RapidMiner Studio (PCQUEST, 2015).
3.2. NuoDB
NuoDB é um SGBD distribuído em memória, desenvolvido pela empresa NimbusDB em
2008, que teve seu nome substituído por NuoDB, em 2011. Possui uma arquitetura
distribuída que, por sua vez, é dividida em três camadas [NUODB, 2015]:

Camada administrativa;

Camada transacional;

Camada de armazenamento;
A camada transacional é responsável pela atomicidade, consistência e isolamento.
Na camada transacional se encontra o TE (Transaction Engine), que é o motor das
transações [NUODB, 2015].
A camada de armazenamento possui outro motor denominado SM (Storage
Managers), que é o gerente de armazenamento. Esses SM têm acesso a um espaço no
disco, que é replicado em toda base de dados, com a finalidade de se comunicarem caso
haja mais instâncias [NUODB, 2015].
A camada administrativa é responsável pela distribuição dos dados, nessa camada,
existem os Brokers. Um Broker é uma classe acima dos agentes, são eles os responsáveis
por iniciar, encerrar a sessão, obter os logs e gerenciar toda a base de dados. [NUODB,
2015]. A figura 2 mostra a arquitetura do NuoDB.
Pág 7/14
Figura 2 – Arquitetura do SGBD NuoDB (NuoDB Glance, 2015).
3.2. Análise Discriminante
A análise discriminante é um método estatístico multivariado utilizado para discriminar
e classificar objetos. A primeira etapa da discriminação consiste em explorar as
características capazes de serem utilizadas para alocar objetos em grupos diferentes e
previamente definidos. Esta técnica foi desenvolvida na botânica e tinha como objetivo
fazer a distinção de grupos de plantas, tomando como base o tamanho e o tipo de folhas
e com isso classificar novas espécies encontradas futuramente [VARELLA, 2008].
A discriminação e classificação consiste em obter um combinação linear de
características destacadas que apresentam maior destaque de discriminação entre
populações. Essa combinação linear é denominada função discriminante e tem como
propriedade reduzir a probabilidade de erro na classificação. Isto ocorre quando as
populações são distribuídas com media µ e variância ∑ conhecidas. Mas essa situação
não ocorre pois a média e a variância das populações não são conhecidas, sendo assim,
havendo necessidade de estimação destes parâmetros. Pode-se atribuir que as populações
tem uma mesma matriz de covariâncias ou não. De acordo com a seleção, a função
discriminante é denominada lineares ou quadráticas [VARELLA, 2008].
As regiões de alocação são um conjunto de valores separados por uma função
discriminante qualquer. Essa função é obtida a partir de amostras de treinamento, tendo
como base modelos estatísticos ou não, assim como redes neurais e logica fuzzy. Portanto,
uma observação pode ser alocada para a população π1 ou para a população π2.
Após serem apresentados os conceitos das ferramentas RapidMiner, NuoDB e
Análise Discriminante, foi exposto um estudo de caso utilizando as ferramentas e o
método destacados nessa seção.
4. Estudo de Caso
Foi realizado um estudo com intuito de implementar uma solução de Big Data com SGBD
NewSQL para analisar os dados de academia esportiva que oferece o serviço de
desenvolvimento de jovens atletas do ensino médio escolar. Essa academia trabalha com
atletas do sexo masculino e seu foco está voltado para quatro modalidades de esporte:
Pág 8/14
Futebol, hóquei, basquete e beisebol. Com a experiência de mercado, pode-se observar
que, apesar de alguns atletas praticarem uma série de modalidade no ensino médio, a
grande maioria procuram seguir carreira profissionalmente em apenas uma modalidade.
Essa empresa possui uma ampla base de dados que adquiriu ao longo do tempo e ela
precisa realizar uma análise para ajudar os atletas a escolher a melhor modalidade de
esporte de acordo com o perfil de cada um.
Para implementar uma solução de Big Data, utilizando SGBD NewSQL, foi
utilizado as ferramentas RapidMiner e NuoDB, respectivamente, aplicando o modelo
estatístico de análise discriminante.
4.1. Ambiente de desenvolvimento
Foi usado para a implementação da solução de Big Data usando SGBD NewSQL, um
computador com as seguintes configurações:

Sistema Operacional Windows 7 Professional 64 Bits

4 GB de memória RAM

500 GB de disco rígido

Processador Intel® Core™ i3 CPU
4.2. Criação do banco de dados
Para a criação do banco de dados foi preciso entrar na interface de administrador no menu
de “Admin Center Home” e clicar na opção “SQL QuickStart” do SGBD NuoDB. Esta
opção permitiu criar um novo banco de dados após preenchimentos dos campos
obrigatórios, sinalizados com “*”. A figura 3 mostra a tela onde foi criado um novo banco
de dados denominado “db_avaliacoes_atletas”.
Figura 3 – Tela de criação de novos bancos de dados
Na próxima subseção foram mostradas as criações das tabelas e carga dos dados
através de um processo desenvolvido no RapidMiner.
Pág 9/14
4.2.1. Criação das tabelas e carregamento de dados
A criação das tabelas e carga de dados no banco de dados foi realizado pelo processo
desenvolvido no RapidMiner. Os dados dos atletas fornecido pela academia esportiva
estão em dois arquivos denominados “Scoring” [MATTHEW, 2012], onde estão os dados
a serem analisados, e “Training” [MATTHEW, 2012], que são os dados que já possuem
alguns resultados do atributo de previsão denominado “Esporte_Primario”. A Figura 4
ilustra o processo criado no RapidMiner para realizar esta tarefa. Foram criadas duas
tabelas, denominadas “TB_SCORING” e “TB_TRAINING”, no banco de dados após a
execução do processo.
Na próxima seção foi feito o processo no RapidMiner, aplicando o método
estatístico análise discriminante, para analisar e apontar, para cada atleta, qual é a melhor
modalidade de esporte que ele deve seguir carreira profissionalmente.
Figura 4 – Processo criado no RapidMiner para carga de dados no banco de dados
4.3. Criação do processo para aplicar a análise discriminante
A base de dados possui valores de testes realizados ao longo do tempo em atletas que
passaram pela academia de esportes. Pode-se observar que na base de dados existem 9
atributos [MATTHEW, 2012]:

Idade: É a idade do atleta com precisão decimal para a parte do ano desde o último
aniversário.

Força: É a força do atleta, em escala de 0 a 10, medida através de exercícios de
levantamento de peso.

Rapidez: É o desempenho do atleta, em escala de 0 a 6, através uma série de testes
cronometrados de capacidade de resposta.

Lesão: Este atributo indica se o atleta já sofreu lesão grave, que exigisse
intervenção cirúrgica ou outro procedimento médico complexo. Os valores são
marcados por 0 quando negativo e 1 quando positivo.

Visão: São valores, em escala de 0 a 3, que mostra a aptidão ocular do atleta
através de testes com objetos que se moviam rapidamente no campo de visão do
atleta.
Pág 10/14

Resistência: Este atributo indica a resistência do atleta, em escala de 0 a 6. Os
valores foram obtidos através de testes de aptidão física realizados.

Agilidade: Este atributo indica a agilidade do atleta em se mover com precisão e
agilidade em uma série de direções. Os atletas foram classificados em escala de 0
a 100 porém na base de dados foram encontrados valores em escala de 13 a 80.

Tomada de Decisão: São valores, em escala de 0 a 100, que mostra a aptidão do
atleta em tomar decisões rápidas e assertivas através de testes que expunha o atleta
a algumas situações exigidas nos jogos. Na base foram encontrados valores na
escala de 3 a 100, porém há atletas que possuem valores maiores que 100, sendo
assim, preciso tratar este dado.

Esporte Primário: É o esporte que cada atleta se especializou profissionalmente
após sair da academia.
Para que a análise discriminante possa ter resultado satisfatório, é preciso utilizar
dados existentes do passo disponibiliza-los para que o modelo possa treinar antes de ser
aplicado nos dados recentes. Esses dados histórico se encontram na “TB_ TRAINING”.
Para obter esses dados foi utilizado o operador “Read Database”. Foi aplicado o operador
“Filter Examples”, configurando o atributo “Tomada_de_Decisão” para considerar
valores iguais ou maiores que 3 e valores menores ou iguais a 100, pois foi observado que
na base havia valores maiores que 100, violando a regra de negócio da academia. Com
os dados devidamente tratado, foi preciso rotular a variável, pois ao aplicar a análise
discriminante, o modelo deve saber qual é a variável de previsão que ele irá trabalhar. A
variável de previsão utilizada foi a “Esporte_Primário”, configurada no operador
denominado “Set Role” e em seguida foi usado o operador com o algoritmo de análise
discriminante denominado “LDA”.
Com o modelo estatístico previamente treinado e apto a ser aplicado nos dados,
da tabela “TB_ SCORING”, foi utilizado o operador “Read Database” para se obter esses
dados e aplicado os mesmos operadores utilizados no fluxo anterior. Após tratamento, foi
aplicado o modelo nos dados da base atual utilizando o operador denominado “Apply
Model”. A figura 5 ilustra o processo desenvolvido.
Figura 5 – Processo criado para aplicar analise discriminante na base de dados.
Pág 11/14
Para a apresentação do resultado da análise discriminante aplicada nos dados foi
disponibilizado, no próprio ambiente de desenvolvimento, um arquivo de relatório com
extensão xlsx.
A Figura 6 mostra os resultados obtidos com o processo desenvolvido no
RapidMiner aplicando análise discriminante.
Figura 6 – Resultado da análise discriminante
A figura 7 representa o histograma gerado, mostrando o resultado obtido da
análise aplicada, para cada modalidade de esporte.
Figura 7 – Histograma Análise Preditiva
Pág 12/14
Na próxima subseção, serão apresentados os resultados da implementação da
solução de Big Data com NewSQL.
4.4. Análise de resultados
A implementação de Big Data com NewSQL resolveu, de forma satisfatória, o estudo de
caso proposto neste artigo. Nesta solução, pode-se observar que é possível e viável
integrar Big Data e NewSQL. Embora ambas tecnologias são recentes no mercado, o
cenário no mundo dos negócios é favorável para que Big Data e NewSQL seja mais
comum no dia a dia empresarial.
Para este estudo de caso, as ferramentas RapidMiner Studio e NuoDB se
mostraram aptas a serem utilizadas em problemas mais complexos, pois as mesmas não
apresentaram falhas no desenvolvimento da solução, sendo possível a se chegar a um
resultado mais assertivo.
O RapidMiner Studio é uma ferramenta completa, que entrega ao usuário interface
amigável, documentação completa e de fácil entendimento, suporte, facilidade de
integração com outros SGBDs, simultaneidade e dinamismo. Mesmo sendo uma
ferramenta nova no mercado, há diversas outras aplicabilidades em negócios distintos
desta ferramenta, permitindo a ferramenta adquirir maior eficiência. Neste estudo de caso
a ferramenta se comportou de forma satisfatória, sendo possível observar que as
características da ferramenta ajudou no processo de desenvolvimento da solução,
tornando a implementação menos complexa.
A integração com o NuoDB foi amigável, sendo possível encontrar na
documentação de ambas as ferramentas todo o procedimento a ser feito para que esse
processo fosse concluído.
O NuoDB se mostrou eficiente pois ele cumpre com o seu objetivo de entregar ao
usuário escalabilidade, sem deixar de se preocupar com as transações ACID. É um SGBD
que possui interface amigável, documentação completa e de fácil entendimento, boa
capacidade de armazenamento, possibilidade de alocação nas nuvens computacionais,
suporte e dinamismo. O uso do NuoDB é viável pois é uma ferramenta open source,
permite instalação em diversas plataformas computacionais e é confiável, pois, mesmo
sendo nova no mercado, há diversos casos de uso da ferramenta, permitindo observar que
a ferramenta possui boa adaptação e aceitação em negócios distintos.
O uso da análise discriminante no estudo de caso foi um fator importante. É um
método estatístico eficaz e já usado por outras soluções, o que torna o seu uso confiável.
Na ferramenta RapidMiner, o algoritmo já vem implementado, sendo possível mais
agilidade e reduz drasticamente a possibilidade de haver erros na implementação do
algoritmo.
Com base no estudo de caso, utilizar Big Data com modelos de banco de dados
NewSQL é viável pois, para ambas tecnologias, há diversas ferramentas que não possui
custo para adquiri-las, podendo ser usadas por empresas pequenas, médias e grandes, sem
haver preocupação com o volume de dados, acesso rápido e simultâneo, segurança e
maior confiabilidade nos resultados gerados por esta utilização destas tecnologias.
Pág 13/14
5. Conclusão
Após a realização dos estudos sobre Big Data e modelos de bancos de dados NewSQL,
chega-se à conclusão de que a integração dessas duas tecnologias é viável e que na
maioria das vezes ajudam as empresas na melhoria de processos, produtos e resultados
financeiros, permitindo a elas aumentar os lucros e sua competitividade no mercado.
Com os estudos finalizados, nota-se que este tipo de implementação possui um
grande potencial de crescimento, pois une duas tecnologias úteis para a melhoria e
crescimento das empresas. O Big Data possui a facilidade de processamento ágil de
grandes volumes de dados, permitindo o acesso rápido a informações mais confiáveis,
permitindo a tomada de decisão mais assertiva. Os modelos de banco de dados NewSQL
possui escalabilidade e transações ACID, porém está tecnologia não vem substituir os
modelos de banco de dados relacionais, pois foi criado para atender necessidades
especificas para cada sistema desenvolvido. Concluiu-se que as ferramentas de Big Data
e NewSQL, RapidMiner e NuoDB, respectivamente, se mostraram bem eficientes e
cumpriram com o propósito que são assertividade e transações mais rápidas. Já a análise
discriminante não apresentou dificuldades no entendimento deste método e permitiu ao
RapidMiner entregar uma análise assertiva.
Com base nesta pesquisa e estudo de caso, pode-se realizar trabalhos futuros de
implementação de outras soluções de Big Data utilizando outros SGBDs no modelo
NewSQL ou implementar uma solução de Business Intelligence com Big Data e SGBD
NewSQL para mercado de agronegócios.
6. Referências
MEMSQL DOCS. (2015). MemSQL Docs
<http://docs.memsql.com>. Acesso em: 10 set. 2015
Home.
Disponível
em:
NUODB.
(2013),
Technical
Whitepaper.
Disponível
em:
<http://go.nuodb.com/rs/nuodb/images/NuoDB%2520White%2520Paper_7_7_12.pd
f>. Acesso em: 07 set. 2015
NUODB GLANCE. (2015), NuoDB at a Glance. Disponível em
<http://doc.nuodb.com/display/doc/NuoDB+at+a+Glance>. Acesso em: 05 out. 2015.
STONEBRAKER, M. 2010, SQL Databases v. NoSQL Databases, Communications
of the ACM
STONEBRAKER, M. (2011). ACM. Disponível em: <http://cacm.acm.org/blogs/blogcacm/109710-new-sql-an-alternative-to-nosql-and-old-sql-for-new-oltpapps/fulltext>. Acesso em: 01 set. 2015.
MATTHEW, N. Data Mining For the Masses. Orlando: Amazon, 2012. 264 p.
VARELLA, C. (2008) Análise Multivariada Aplicada as Ciencias Agrárias.
Disponível
em:
<http://www.ufrrj.br/institutos/it/deng/varella/Downloads/multivariada%20aplicada
%20as%20ciencias%20agrarias/Aulas/ANALISE%20DISCRIMINANTE.pdf>.
Acesso em: 16 out. 2015.
RAPIDMINER DOCS. (2006), RapidMiner Documentation. Disponível em:
<http://docs.rapidminer.com/studio/>. Acesso em: 07 out. 2015.
Pág 14/14
OREILLY.
(2012),
What
is
Big
data.
Disponível
<https://beta.oreilly.com/ideas/what-is-big-data>. Acesso em: 18 set. 2015.
em:
PCQUEST. (2015), 10 Free Business Process Management & Analysis Tools.
Disponível
em:
<http://www.pcquest.com/10-free-business-process-managementanalysis-tools/>. Acesso em: 22 out. 2015.
IBM.
(2011),
Conhecendo
o
Hadoop.
Disponível
em:
<https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/conhecendo
_hadoop?lang=en>. Acesso em: 24 set. 2015.
IBM. (2012), Você realmente sabe o que é Big Data? Disponível em:
<https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/voce_realm
ente_sabe_o_que_e_big_data?lang=en>. Acesso em: 18 set. 2015.
MICROSOFT.
(2015),
ACID
Properties.
Disponível
em:
<https://msdn.microsoft.com/en-us/library/aa719484(v=vs.71).aspx>. Acesso em: 03
out. 2015.
TECHTARGET.
(2014),
NewSQL
definition.
Disponível
em:
<http://searchdatamanagement.techtarget.com/definition/NewSQL>. Acesso em: 01 set.
2015.
IBM. (2013), Big Data: expectativa, benefícios e barreiras. Disponível em:
<https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/big_data_e
xpectativas_beneficios_e_barreiras?lang=en>. Acesso em: 28 set. 2015.
Download