TRANSCRIÇÃO DO VÍDEO: O que é Hadoop?

TRANSCRIÇÃO DO VÍDEO:
O que é Hadoop?
PT-BR
1/ 2
Olá a todos e sejam bem-vindos! Meu nome é Akmal Chaudhri.
Neste vídeo vamos explicar o que é o Hadoop e o conceito de Big Data.
Imagine a seguinte situação: Você tem 1 GB de dados a serem processados.
Os dados estão armazenados em um banco de dados relacional em seu computador
e esta máquina não tem problema para manipular todo esse conteúdo.
Então, a sua empresa se expande rapidamente e o seu banco de dados chega a
10 GB.
E depois chega a 100GB.
A partir deste ponto, o computador usado para armazenar todas essas
informações passa a trabalhar próxima ao seu limite de processamento.
Devido a esta nova situação, você redimensiona sua infraestrutura com um
computador com mais capacidade de processamento. Entretanto, este novo
redimensionamento só lhe permitirá trabalhar com tranquilidade por mais
alguns meses.
Quando os seus dados cresce até 10TB, e depois 100TB.
E você começa a se aproximar rapidamente dos limites de processamento por
mais uma vez.
Além disso, a partir de agora lhe solicitam que alimente a sua aplicação com
dados não estruturados provenientes de fontes como Facebook, Twitter,
leitores de RFID, sensores, e outros.
A gerência da companhia pretende usar as informações de ambos os bancos
dados (relacionais e não estruturados), e quer estas informações o mais
rápido possível.
O que você deve fazer? A tecnologia Hadoop pode ser a resposta!
O Hadoop é um projeto open source da Fundação Apache.
É um framework escrito em Java originalmente desenvolvido por Doug Cutting,
que deu o nome do elefante de brinquedo de seu filho para esta tecnologia.
O Hadoop usa as tecnologias Google's MapReduce e o Google File Sytem em sua
estrutura.
Ele foi otimizado para trabalhar com grandes quantidades de dados que podem
ser dados estruturados, dados não estruturados ou dados semi estruturados,
utilizando o conceito de hardware como commodity, isto é, computadores
relativamente baratos.
Este processamento paralelo é feito com um ótimo desempenho. Entretanto,
pela operação ser feita em lotes e manipular grandes quantidades de dados, o
tempo de resposta não é imediato.
A partir da versão 0.20.2 do Hadoop, não é possível fazer atualizações mas a
partir da versão 0,21 será possível criar apêndices.
TRANSCRIÇÃO DO VÍDEO:
O que é Hadoop?
PT-BR
2/ 2
O Hadoop duplica os dados em vários computadores, assim, se algum dos
computadores falharem, os dados serão automaticamente processados por outro
computador.
O Hadoop não é indicado para processamento de transações on-line, onde os
dados são acessados aleatoriamente em bancos de dados estruturados como num
banco de dados relacional.
Hadoop, não é indicado para aplicações de processamento analítico on-line
(OLAP) ou aplicações em sistemas de suporte de decisão (DSS), onde os dados
são acessados de forma sequencial em banco de dados estruturados, como num
banco de dados relacional,
para gerar relatórios que forneçam suporte a inteligência de negócios (BI).
Hadoop é indicado para grande quantidades de dados ou Big Data. Ele
complementa o processamento de transações on-line e o processamento
analítico on-line.
Ele NÃO é um substituto para um sistema de banco de dados relacional.
Então, o que são grandes quantidades de dados ou Big Data?
Com a enorme quantidade de dados, atualmente, gerada pelos mais diferentes
dispositivos como: leitores de RFID, microfones, câmeras, sensores, e
outros; vemos uma explosão na geração de dados pelo mundo afora.
O termo Big Data é usado para descrever grandes lotes de dados (também
conhecido como datasets ou conjuntos de dados) que podem ser dados não
estruturados,
e crescer de forma tão rápida e volumosa que se torna difícil o seu
gerenciamento através do uso de banco de dados convencionais ou ferramentas
estatísticas.
Além disso, podemos apresentar outras estatísticas interessantes que
demonstram essa explosão de dados gerados pelo mundo afora como: a
existência de mais de 2 bilhões de usuários da internet atualmente,
a existência de mais de 4,6 bilhões de telefones celulares em 2011,
o processamento de 7TB de dados pelo Twitter todos os dias,
e o processamento 10 TB de dados pelo Facebook todos os dias.
Curiosamente, cerca de 80% destes dados são desestruturados.
Com essa quantidade gigantesca de dados, as empresas demandam por uma
análise mais rápida, confiável, e mais profunda nos dados.
Portanto, as soluções do tipo Big Data baseadas em Hadoop e/ou outros
software de análise estão se tornando cada vez mais relevante.