MBA ANALYTICS EM BIG DATA 1 OBJETIVOS • Apresentar como a metodologia de Big Data pode ser utilizada por um aluno de MBA para a tomada de decisão. • Este curso tem como objetivo principal analisar e extrair informações de dados não estruturados em tempo real. • Este curso tem como objetivo secundário apresentar técnicas estatísticas de manipulação e extração de informação de grandes bases de dados estruturados, semi-estruturados e não estruturados. Através de aulas teóricas, exercícios práticos e estudos de casos, são apresentadas as técnicas estatísticas de análises de dados para tomada de decisão; • Apresentar as ferramentas de Análise de Big Data como um processo importante para manipulação de dados e análise estatística de dados, em tempo real, para tomada de decisão e agregar valor no processo de administração de empresas; • Elaborar bases de dados com dados estruturados, semi-estruturados e não estruturados para modelagem estatística; PERFIL DE ALUNO Profissionais das áreas: Analytics, estatísticos, TI, analistas de mídia social, publicitários, gestores de marketing e CRM, profissionais de e-commerce, profissionais do mercado que manipulam e precisam tomar rápidas decisões por meio de grandes bases de dados. Profissionais que tenham interesse em extrair informação por meio de programação avançada. CORPO DOCENTE O corpo docente conta com professores altamente capacitados. Nos critérios de seleção do corpo docente, serão priorizadas sua qualificação e experiência profissionais nas distintas matérias, de maneira que o curso permita não somente a transmissão de conhecimentos, mas também de critérios e experiências enriquecedoras para os alunos. METODOLOGIA Aulas expositivas, resolução de exercícios práticos, estudos de casos, laboratórios. 2 MATRIZ CURRICULAR Módulo 1– Módulo de Big Data – 248 horas Business Intelligence • História e Evolução do BI • Diferenças do BI 1.0, BI 2.0, e BI 3.0 • Conceitos e Objetivos do BI • Modelagem de Dados para BI • Arquitetura Tradicional x Moderna Arquitetura de BI • Como dimensionar o BI e como diferenciar Small Data e Big Data • Processos de Data Preparation e Data Visualization • Self-Service BI e Sandbox • Bi e Big Data uma combinação de sucesso • Análise de ferramentas para BI • Técnica e recomendações para Visualização de Dados • Criação de gráficos e Dashboards em softwares e especializados, Tableau, QuikSense e PowerBI • Data Sharing e Compartilhamento de visualizações em cloud Introdução ao Big Data • Conceito de Big Data; • Análise em tempo real; • Panorama para o surgimento do Big Data; • Utilização das ferramentas de Big Data nos processos de administração de empresas; • Necessidade da utilização das técnicas de Big Data para a rápida tomada de decisão das empresas; • Vantagens da utilização das técnicas de Big Data; • Vs do Big Data: Variedade, Veracidade, Valor, Volume e Velocidade, visualização, vulnerabilidade; • O profissional adequado para operar com Big Data: “Data Scientist”; • Exemplos e aplicações nacionais e internacionais de Big Data para administração de empresas; • Tipos de dados: estruturados, semi-estruturados e não estruturados; Programação em Big Data • Programação em JAVA; Conceitos e aplicações de Máquina Virtual; • Linux; • Programação em Python; • Conceitos e Aplicações de Machine learning 3 Tecnologias para Big Data • Utilização das tecnologias de Big Data como base de informação para o processo de tomada de decisão gerencial; • Programas e tecnologias para analisar e manipular Big Data; • Introdução do Hadoop • Estrutura e arquitetura do HDFS (Hadoop Distributed File Systems); • Manipulação de dados no HDFS; • Carga de arquivos ao HDFS; • Estrutura de arquivo distribuído e tolerante a falhas; • Estrutura do MapReduce; • Administração de cluster Hadoop; • Exemplos de aplicações de Hadoop. • Aplicação do componente Hive • Introdução ao Hive; • Manipulação de dados com Hive; • Meta Store; • Armazenamento colunar e orientado a linha; • Tabela particionada; • Otimização de query SQL. • Aplicação do componente Yarn • Introdução ao Yarn; • MapReduce 2.0 (MRv2) – YARN; • Funções do JobTracker; • Manipulação de dados com Yarn; • Aplicações de Hadoop Zookeeper • Funções do Zookeeper; • Gerenciamento de dados; • Computação distribuída e tolerante a falhas; • Alta disponibilidade e resiliência da plataforma Hadoop • Aplicações de Mahout • Introdução ao Mahout; • Manipulação de dados com Mahout; • Banco de Dados • Conceito de banco de dados NoSQL (Cassandra, Mongo DB, Scoop); • Manipulação de banco de dados NoSQL; • HBASE; • Ingestão de dados semi-estrutrutados - Flume • Aplicações de Kafka • Introdução ao Kafka; • Manipulação de dados com Kafka; 4 • Uso de Kafka no controle de falhas; • Computação distribuída; • Distribuições para Big Data • Cloudera; • Aplicações de Spark • Introdução ao Spark; • Manipulação de dados com Spark; • Spark streaming • Aplicações de Python • Conceitos sobre a linguagem de programação Python; • Aplicações em Python. • Ferramentas de Python para machine learning • Análise de Dados e web • Twitter REST API • Twitter Streaming API • Facebook • Web Scraping • Análise de sentimento • Computação em nuvem • Conceitos de computação em nuvens (Cloud Computing); • Conceito NIST de Cloud Computing; • Características de Cloud Computing; • Entidades do Ecossistema de Nuvem; • Aspectos de segurança; • O conceito e aplicações de utility computing; • O conceito de Data Center; • Repositório de recursos computacionais; • Amazon Web Services (AWS); • Exemplo de empresas que utilizam Cloud Computing; • O conceito de nuvem pública, nuvem privada, nuvem comunitária, nuvem híbrida; • SaaS: Software-as-a-Service; • PaaS: plataform-as-a-Service; • IaaS: Infrastructure-as-a-Service; • Aplicações • Machine Learning • Etapas de um projeto de Machine Learning • Técnicas de Projeção, Segmentação e Classificação • Métricas de performance • Aplicações de Machine Learning com bibliotecas do Spark e do Python • Aplicações de Machine Learning com Redes neurais 5 • Aplicações de Deep Learning • Aplicações com IBM WATSON Estatística Aplicada • Social Network Analysis - SNA • Métricas para dados obtidos de redes sociais; • Análise de comportamento em Redes Sociais; • Text Mining • Análise de dados não estruturados obtidos pela internet; • Análise qualitativa e quantitativa de textos; • Cesto de Compras/Market Basket • Aplicação de ferramentas para a análise de compras efetuadas; • Utilização de algoritmos com regras de associação para determinar padrões em processos de compra; • Algoritmos para análise sequencial. • Algoritimos de recomendação Palestra sobre Big Data • Palestra sobre Big Data com especialistas e alunos do curso. Módulo 2 – Módulo Gestão de Negócios – 252 horas • Economia e Contabilidade • Marketing • Gestão Estratégica de Pessoas • Finanças • Processos e Práticas de Gerenciamento • Gestão da Informação, Inovação, Direito do Consumidor • Sustentabilidade e Responsabilidade Social Corporativa • Empreendedorismo • Governança Corporativa e Ética Empresarial 6 Métodos Quantitativos Aplicados • Análise Exploratória de Dados • Análise Gráfica • Medidas de Posição e Medidas de Dispersão • Regressão Linear Simples e Múltipla • Coeficiente de correlação linear de Pearson • Coeficiente de determinação e Coeficiente de determinação ajustado • Ajuste de equação de projeção • Testes estatísticos sobre os parâmetros • Interpretação dos parâmetros do modelo • Intervalo de confiança para os parâmetros do modelo • Previsão • Análise de Resíduos • Análise de Agrupamento • Medidas de distância - Medidas de similaridade e Medidas de dissimilaridade, Distância Euclidiana • Métodos de Agrupamento - Método hierárquico e Método das k médias • Dendograma • Técnicas de Agrupamento - Método do vizinho mais próximo (Nearest neighbor) - Método do vizinho mais distante (Furthest neighbor) – Método da Centróide • Método das k médias • Regressão Logística • Regressão Logística Binária e Múltipla • Estimação dos parâmetros do modelo • Teste de hipótese e Intervalo de confiança • Razão das chances • Interpretação dos parâmetros do modelo • Obtenção da probabilidade de sucesso • Previsão • Classificação em grupos • Tabela de classificação • Análise Discriminante • Métodos de estimação • Teste de hipótese • Análise de variância • Estimação das funções de classificação • Classificação em grupos • Tabela de classificação • Análise Fatorial • Variável latente • Matriz de variância e covariância e Matriz de correlação 7 • Fatores comuns, Fatores específicos e Cargas fatorias • Gráfico de sedimentação • Análise de componente principal FUNDAÇÃO INSTITUTO DE ADMINISTRAÇÃO Av. Das Nações Unidas, 7.221 - CEP: 05425-070 Pinheiros - São Paulo - SP Tel.: (11) 3847-3710 8 INFORMAÇÕES Tel: (11) 3732-3535 | [email protected] 9