Apache Hadoop – É hoje que vai instalar o seu primeiro

Apache Hadoop – É hoje que vai instalar o seu primeiro
cluster?
Date : 16 de Março de 2016
Como processar grandes quantidades de dados de forma rápida e a baixo custo? A resposta é
Hadoop! Esta framework distribuída, direccionada para clusters, foi criada pela Apache em
2011 e é usada por vários players à escala mundial como, por exemplo, o Facebook, Yahoo,
Amazon, Netflix, eBay, Google, entre outros com o objectivo de gerir e processar grandes
quantidades de dados (estruturados e não estruturados).
Hoje vamos explicar como pode instalar o Hadoop no CentOS.
O Apache Hadoop é uma Framework/Plataforma desenvolvida em Java, para computação
distribuída, usada para processamento de grandes quantidades de informação (usando
modelos de programação simples).
O Hadoop está dividido em duas partes essenciais:
http://www.pplware.com | Pplware
1/7
Hadoop Distributed File System (HDFS)
Sistema de ficheiros distribuído que armazena dados em máquinas dentro do
cluster
Hadoop MapReduce
Modelo de programação para processamento em larga escala
Com instalar o Apache Hadoop no CentOS?
Para a instalação do Apache Hadoop no CentOS devem seguir os seguintes passos:
Antes de proceder à instalação do Apache Hadoop deve ser feita a instalação do Java.
Passo 1) Instalação do Java
http://www.pplware.com | Pplware
2/7
Para instalar a última versão do Java (java-1.7.0-openjdk.x86_64) basta que executem o
seguinte comando:
Download e instalação do JDK 8
Primeiro vamos obter o JDK do site oficial da Oracle
curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" http://
download.oracle.com/otn-pub/java/jdk/8u71-b15/jdk-8u71-linux-x64.rpm
Vamos agora proceder à instalação
rpm -Uvh jdk-8u71-linux-x64.rpm
Depois de instalado basta confirmarem se está tudo OK usando o comando java –version
Passo 2) Instalar o Apache Hadoop
É recomendado que seja criado um utilizador no sistema. Para tal vamos criar o utilizador
Hadoop
useradd hadoop
passwd hadoop
Depois de criar o utilizador, vamos criar uma chave SSH para o mesmo.
su - hadoop ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/auth
orized_keys chmod 0600 ~/.ssh/authorized_keys
http://www.pplware.com | Pplware
3/7
Passo 3) Download e instalação do Apache Hadoop
wget https://www.apache.org/dist/hadoop/core/hadoop-2.7.0/hadoop-2.7
.0.tar.gz tar xzf hadoop-2.7.0.tar.gz mv hadoop-2.7.0 hadoop
Passo 4) Configurar o Apache Hadoop.
A configuração do Apache Hadoop deverá começar pela definição das seguintes variáveis de
ambiente que deverão estar no ficheiro ~/.bashrc.
export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOO
P_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_H
OME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HO
ME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/
native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Para que a configuração seguinte tenha efeito na sessão corrente, basta que use o comando
source ~/.bashrc
Vamos agora editar o ficheiro $HADOOP_HOME/etc/hadoop/hadoop-env.sh e definir a variável
de ambiente JAVA_HOME.
http://www.pplware.com | Pplware
4/7
O Apache Hadoop tem muitos ficheiros de configuração. Este ficheiros permitem as mais
diversas configurações, de acordo com as necessidades de cada utilizador. Hoje vamos
configurar um simples nó de um cluster para isso devem aceder a
$HADOOP_HOME/etc/hadoop e alterar os seguintes ficheiros.
core-site.xml
fs.default.name
hdfs://localhost:9000
hdfs-site.xml
dfs.replication
data/hdfs/namenode
dfs/datanode
1
dfs.name.dir file:///home/hadoop/hadoop
dfs.data.dir file:///home/hadoop/hadoopdata/h
mapred-site.xml
http://www.pplware.com | Pplware
5/7
Nota: Caso não tenham este ficheiro, verifiquem se existe o ficheiro mapred-site.xml.template.
Neste caso devem mudar o nome mapred-site.xml.template para mapred-site.xml.
mapreduce.framework.name
yarn
yarn-site.xml
yarn.nodemanager.aux-services
mapreduce_shuffle
Feitas as configurações nos ficheiros anteriores, vamos formatar o namenode usando o
seguinte comando:
hdfs namenode –format
Por fim vamos agora iniciar todos os serviços (com previlégios root) associados ao hadoop.
Para tal basta que executem os seguintes comandos:
cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh
Para verificar se todos os serviços iniciaram correctamente, devem usar o comando jps e
visualizar um output do tipo:
26049 SecondaryNameNode 25929 DataNode
26249 TaskTracker 25807 NameNode
26399 Jps
26129 JobTracker
Passo 5) Aceder ao Apache Hadoop
Para aceder à interface de gestão do Apache Hadoop basta que abram um browser e
introduzam o endereço http://localhost:8088
http://www.pplware.com | Pplware
6/7
E está feito! Se tudo estiver a funcionar… Parabéns, você instalou com sucesso o Apache
Hadoop! Num próximo artigo iremos ensinar como acrescentar nós ao cluster.
http://www.pplware.com | Pplware
Powered by TCPDF (www.tcpdf.org)
7/7