Aplicações de Hadoop em Big Data

Aplicações de
Hadoop em Big Data
Inscrições Abertas
Início das Aulas: 01/04/2016
Dias e horários das aulas:
Quarta-Feira 19h00 às 23h00 Semanal
Sexta-Feira 19h00 às 23h00 Semanal
Carga horária: 136 Horas
Duração: 5 meses
*As informações podem sofrer alterações
Apresentação
As empresas geram a cada dia um volume muito grande de dados. Este volume cresce rapidamente e existe a
necessidade da análise dessa grande massa de dados. O Hadoop e seu ecossistema proporcionam uma forma
rápida e segura para a manipulação de grandes bases de dados estruturados e não estruturados utilizadas em
aplicações de Big Data.
Este curso apresenta como gerar informações de forma rápida e inteligente de Bases de Dados extremamente
grandes.
Objetivo
• Introduzir o conceito de Big Data, apresentando as vantagens, softwares e metodologia para a
análise e extração de informações;
• Extrair rápidas informações de grandes bases de dados utilizadas em problemas de Big Data;
• Apresentar uma visão abrangente da arquitetura e tecnologias de Big Data;
• Introduzir os conceitos de Hadoop;
• Apresentar as vantagens de trabalhar em computação distribuída;
• Apresentar exemplos, aulas práticas e casos de utilização do Hadoop para resolução de problemas
de Big Data.
Diferencial
Este curso é ministrado por professores altamente qualificados e em todas as aulas são utilizados computadores
para a realização de exercícios e aplicações dos conceitos ministrados. Durante o curso são apresentados
exemplos e resolvidos problemas reais de Big Data por meio do Hadoop e seu ecossistema.
Corpo Docente
O corpo docente conta com professores altamente capacitados. Nos critérios de seleção do corpo
docente, são priorizadas as qualificações e experiências profissionais nas distintas matérias, de
maneira que o curso permita não somente a transmissão de conhecimentos, mas também de critérios e
experiências enriquecedoras para os alunos.
Metodologia
Os conceitos são apresentados por meio de aulas teóricas, exercícios de fixação com laboratório e
apresentação de casos reais. São realizados exercícios monitorados por professores.
Perfil do Aluno
Profissionais das áreas: TI, analytics, engenharia de computação, estatísticos, analistas de sistemas,
profissionais do mercado que manipulam e precisam tomar rápidas decisões por meio de grandes
bases de dados.
Programa
Disciplina 1 – Tecnologias para Big Data 1 - 40 horas
• Introdução ao Big Data
Introdução ao curso;
Definição de Big Data;
5 Vs do Big Data;
Dados estruturados e não estruturados;
Programas e tecnologias para analisar e manipular Big Data.
Análise do mercado de Hadoop;
Vantagens da utilização das técnicas de Big Data;
Organização Apache.
• Computação em nuvem
Conceitos de computação em nuvens (Cloud Computing);
Conceito NIST de Cloud Computing;
Características de Cloud Computing;
Entidades do Ecosistema de Nuvem;
Aspectos de segurança;
O conceito e aplicações de utility computing;
O conceito de Data Center;
Repositório de recursos computacionais;
Amazon Web Services (AWS);
Exemplo de empresas que utilizam Cloud Computing;
O conceito de nuvem pública, nuvem privada, nuvem comunitária, nuvem hibrida;
SaaS: Software-as-a-Service;
PaaS: Platform-as-a-Service;
IaaS: Infrastructure-as-a-Service;
• Fundamentos de programação em JAVA para aplicação em Hadoop
Manipulação de dados;
Visualização de dados;
Aplicações em R;
Disciplina 2 – Tecnologias para Big Data 2 – 48 horas
• Utilização do Hadoop para manipulação de Big Data
Introdução ao Hadoop;
Arquitetura do HDFS;
Estrutura e arquitetura do HDFS;
Manipulação de dados no HDFS;
Estrutura de arquivo distribuído e tolerante a falhas;
Estrutura de sistemas de arquivos distribuído e tolerante a falhas;
Arquitetura do MapReduce;
Programação em MapReduce;
Funções: Map e Reduce;
Administração de um cluster Hadoop;
Exemplos de aplicação do Hadoop.
• Banco de Dados MySQL (preparação para análise de dados em Hive)
Conceitos de Bancos de dados;
SGBD;
Otimização de queries.
• Aplicação de Hive em Big Data
Introdução ao Hive;
Arquitetura e manipulação de dados com Hive;
Hive Metadados (Metastore);
Armazenamento colunar e orientado a linha;
Tabela particionada;
Otimização de query hive.
• Integração e aplicações de R com Hive.
Introdução a integração de R com Hive;
Processamento de dados distribuído de R por meio de queries Hive.
• Aplicação de Yarn em Big Data
Introdução ao Yarn;
Arquitetura do MapReduce 2.0 (MRv2) – YARN;
• Aplicações de Hadoop Zookeeper em Big Data
Funções do Zookeeper;
Gerenciamento de locks;
Gerenciamento de dados;
Computação distribuída e tolerante a falhas;
Disciplina 3 – Tecnologias para Big Data 3 – 48 horas
• Aplicações de Mahaout em Big Data
Introdução ao Mahaout;
Manipulação de dados com Mahaout;
• Banco de Dados NoSQL
Conceito de banco de dados NoSQL;
Manipulação de banco de dados NoSQL;
Arquitetura e aplicações em HBASE;
• Ingestão de dados estruturados no HDFS utilizando Sqoop
Introdução ao Sqoop;
Processo de Import/export de dados com Sqoop;
Otimização de processos de import/export.
• Ingestão de dados semi-estruturados no HDFS utilizando Flume
Introdução a arquitetura do Flume;
Processo de import de dados com Flume;
Processamento streaming (real time) com Flume.
• Ingestão de dados com Kafka
Introdução ao Kafka;
Arquitetura do Kafka;
Aplicações de ingestão de dados estruturados/semi-estruturados com Kafka.
• Distribuições para Big Data
Distribuição Linux/Hadoop para Big Data;
HortonWorks;
Cloudera;
MapR;
• Ingestão de dados com Spark Streaming
Introdução ao Spark Streaming;
Arquitetura e manipulação de dados com Spark Streaming;
Processamento real time com Spark Streaming.
• Ingestão de dados com Storm
Introdução ao Storm;
Arquitetura e manipulação de dados com Storm;
Processamento real time com Storm.
• Aplicações de Spark em Big Data
Introdução ao Spark;
Arquitetura e manipulação de dados com Spark.
• Distribuições Hadoop para Big Data
Distribuições Hadoop para Big Data;
HortonWorks;
Cloudera;
MapR.
Unidade Educacional Vila Olímpia
Rua do Rocio, 109 – CEP 04552-000 – Vila Olímpia - São Paulo/SP
Tel.: (11) 3847-3706 com Jemima