A Perfect Storm Oracle Big Data para usuários corporativos das tecnologias "R" e SAS Marcos Arancibia, Product Manager Oracle Data Science [email protected] @MarcosArancibia youtube.com/user/OracleAdvAnalytics Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted Safe Harbor Statement The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 2 Perfect Storm: algo que descreve o fenômeno específico que acontece com tal confluência, que resulta em um evento de magnitude muito maior e pouco usual. -­‐ Wikipedia Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 3 Big Data Cloud Masters in Data Science Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 4 Agenda •O que é o R? •Quem está utilizando o R e porquê? •Visão geral das Tecnologias R da Oracle •Tour Global de Clientes •Demo Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 5 O que é o R? • O R é uma linguagem de script de código aberto e um ambiente para computação e gráficos estatísticos http://www.R-­‐project.org/ • Iniciado em 1994 como uma alternativa ao SAS, SPSS e outros ambientes proprietários • O ambiente R – R é um pacote integrado de componentes de software para manipulação, computação e display gráfico de dados. • Milhões de usuários no mundo – Amplamente ensinado em Universidades – Muitos analistas corporativos e C ientistas de Dados utilizam e conhecem R • Milhares de pacotes de código aberto para melhorar a produtividade, como : – – – – Bioinformática Estatística Espacial Análise de Mercados Financeiros Análise de Redes Sociais Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Porque estatísticos, Analistas e Cientistas de Dados utilizam R? A Linguagem estatística R é bastante similar ao SAS básico ou SPSS O Ambiente R é… • Poderoso • Extensível • Gráfico • Estatísticas extensas • Functionality out-­‐of-­‐the-­‐box com muitas opções e defaults inteligentes • De fácil instalação e uso • Grátis http://cran.r-­‐project.org/ Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Popularidade do R – # de buscas Google Scholar SPSS SAS R “O SPSS tem uma clara vantagem, mas se pode ver que sua dominância foi máxima em 2007 e seu uso tem tido um declínio forte. O SAS nunca chegou próximo do nível de dominação do SPSS, e teve seu ponto máximo em 2008“ Robert A. Muenchen http://r4stats.com/articles/popularity/ Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Popularidade do R – # de buscas Google Scholar SAS e SPSS removidos R “…o uso do R está experimentando um crescimento muito rápido e está se distanciando do resto, solidificando sua terceira posição.” Robert A. Muenchen http://r4stats.com/articles/popularity/ Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Popularidade do R – Tendências de Empregos R vs. SPSS R vs. SAS http://r4stats.com/articles/popularity/ Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Pesquisa KDNuggets: Linguagems para Data Mining/Analytics Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 11 Pesquisa KDNuggets: Ferramentas Mais Utilizadas Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 12 Pontos Críticos que o Advanced Analytics resolve “Demora muito para eu conseguir meus dados, ou para conseguir os dados corretos” “Não consigo analizar todos os meus dados – tenho que utilizar amostras” “Colocar modelos e resultados em produção leva tempo e é complicado” “Recoding models into SQL, C, or Java takes time and is error prone” “Nossa empresa se preocupa muito com segurança, backup e recuperação de dados” “Temos que construir dezenas de milhares de modelos rapidamente para atingir nossos objetivos de negócio” Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 13 Tecnologias R da Oracle Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 14 Distribuição R da Oracle – Oracle R Distribution Abilidade de carregar dinamicamente Intel Math Kernel Library AMD Core Math Library Solaris Sun Performance Library • • • • Suporte Oracle Uma redistribuição com suporte Oracle do software aberto R Melhor performance de álgebra via carregamento dinâmico de bibliotecas Melhora a escalabilidade do R em utilização embebida no cliente e no database Suporte Corporativo para clientes com a opção Oracle Advanced Analytics, o Big Data Appliance, o Big Data Connectors ou o Oracle Linux. • Download gratuito • A Orace contribui com ajustes a Bugs e melhoras ao R software aberto Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle R Distribution x64 utilizando Intel MKL Performance em manipulação de matrizes (segundos) ORD with internal BLAS/LAPACK 1 thread ORD + MKL 1 thread ORD + MKL 2 threads ORD + MKL 4 threads ORD + MKL 8 threads Matrix Calculations 11.2 1.9 1.3 1.1 0.9 9.2x 11.4x Matrix F unctions 7.2 1.1 0.6 0.4 0.4 17.0x 17.0x Matrix Multiply 517.6 21.2 10.9 5.8 3.1 88.2x 166.0x Cholesky Factorization 25 3.9 2.1 1.3 0.8 18.2x 29.4x Singular Value Decomposition 103.5 15.1 7.8 4.9 3.4 20.1x 40.9x Principal Component Analysis 490.1 42.7 24.9 15.9 11.7 29.8x 40.9x Linear D iscriminant Analysis 419.8 120.9 110.8 94.1 88.0 3.5x 3.8x Performance gain Performance gain ORD + MKL ORD + MKL 4 threads 8 threads Benchmark executado em um cluster de 3 nós, com 24 cores a 3.07GHz por CPU e 47 GB RAM, usando Linux 5.5. https://blogs.oracle.com/R/entry/oracle_r_distribution_3_0 Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 16 Módulo ROracle Oracle Database ROracle • Pacote R que permite uma conectividade escalável e performática ao Database Oracle – Software aberto, publicamente disponível no CRAN – A Oracle é quem mantém o módulo • Interface para o Database Oracle (DBI) para R – Driver re-­‐implementado e otizimado baseado no OCI – Executa comandos SQL da interface R – Permite comportamento transacional para inserts, updates e deletes. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Performance do Driver ROracle vs. ODBC vs. JDBC Performance acessando o Oracle Database via queries SQL Comparação: acesso a 10 colunas e 1,000 colunas (RJDBC não suportou mais de 100k registros) https://blogs.oracle.com/R/entry/r_to_oracle_database_connectivity Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 18 Tecnologias Preditivas da Oracle R, SQL e Hadoop (MR/Spark) Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 19 Oracle Advanced Analytics Algoritmos Preditivos in-­‐Database e no Hadoop, acessíveis via R e SQL Classification Clustering Attribute Importance Logistic Regression Hierarchical k-­‐Means Minimum Description Length Decision Trees Hierarchical O-­‐Cluster Naïve Bayes Support Vector Machines Regression Linear Regression Support Vector Machines Multi-­‐Layer Neural Networks Principal Components Analysis Expectation-­‐Mazimization Feature Extraction Anomaly Detection Nonnegative Matrix Fact(NMF) One-­‐Class SVM Association Rules Singular Value Decomposition(SVD) Apriori Collaborative Filtering (LMF) Disponível via Hadoop/MR no ORAAH Disponível via Spark/Hadoop no ORAAH Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 20 Oracle Data Miner GUI Extensão ao SQL Developer 4.1, download grátis na OTN • Fácil de usar – GUI Oracle Data Miner para Analistas de Datos – Paradigma de “Work flow” • Poderoso – – – – Múltiplos algoritmos e transformações de dados Execução 100% in-­‐DB Criação, avaliação e scoring de Modelos Integração de Scripts R nos fluxos de processo • Automatização e Scoring – Gravação e compartilhamento de workflows analíticos – Criação de scripts SQL para scoring Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 21 Oracle R Enterprise Opção Oracle Advanced Analytics para o Oracle Database • Elimina a restrição de memória do cliente R • Minimiza ou elimina a latência de movimento de dados • Aproveita o ambiente do Oracle Database como um ambiente HPC • Executa scripts R através do Database Server para escalabilidade e performance • Toma proveito dos algoritmos de Data Mining paralelos/distribuídos do Oracle Database • Executa e gerencia scripts R via SQL • Operacionaliza scripts R em aplicações em produção, eliminando a tradução do código R SQL Interfaces Client R Engine SQL*Plus, SQLDeveloper, … ORE packages Oracle Database In-­‐db stats User tables Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Database Server Machine 22 Oracle Advanced Analytics: Machine Learning in-­‐Database Utilizando algoritmos in-­‐Database, o motor R Enterprise e pacotes abertos se desejado Oracle Database Server com a opção Advanced Analytics R Analytics Oracle R Enterprise SQL Basic Statistics and Joins Data Mining Predictive Analytics 15 PL/SQL In-­‐Database algorithms ORE Parallel algorithms: MLP Neural, Stepwise, LM, GLM, PCA Access to open-­‐source R packages R Client SQL Client SQL Developer Other SQL Apps R Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 23 Oracle Advanced Analytics no Exadata X3-­‐2 ½ Rack Escalabilidade de Regressão Linear: ore.lm() de processamento distribuído Modelo de Regressão utilizando 30 variáveis numéricas: SPSS rodando em servidor conectado ao EXADATA na mesma rede levou 2+ horas para ETL + construção de modelo em 34mi registros Seconds (log scale) 10,000 7200 1,000 100 10.8 10 1 …e a performance Escala linearly! 2+ horas vs. 10.8 segundos!... SPSS-­‐34mi OAA-­‐34mi 25.5 34.8 OAA-­‐180mi OAA-­‐299mi 315 OAA-­‐2.99Bi Ferramenta -­‐ Quantidade de registros Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 24 Tecnologias Preditivas da Oracle para Hadoop • Big Data SQL • ORAAH – Oracle R Advanced Analytics for Hadoop Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 25 Data Science com Big Data SQL: EXADATA + BDA + OAA Utilizando algoritmos in-­‐Database, o motor R Enterprise e pacotes R abertos se desejado Oracle BIG DATA APPLIANCE Oracle EXATADA with Advanced Analytics Option R Client R Analytics Oracle R Enterprise SQL Client SQL Developer Other SQL Apps R Big Data SQL Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 26 Utilizando o Oracle Advanced Analytics com o Big Data SQL Time to Complete distributed R scripts (in seconds) Escalabilidade do Oracle R Enterprise distribuído em uma execução group-­‐by de funções customizadas R para modelos de defeitos em milhares de grupos de Wafers de Silício EXADATA+Big Data SQL+OAA num ½ rack EXADATA X5-­‐2 conectado via Infiniband a um cluster de 9 nós num BDA X5-­‐2 Em paralelismo de 288 2,500 2,331 DATA SOURCE (DOP USED) DATABASE (96) HDFS via BDS (96) DATABASE (144) HDFS via BDS (144) DATABASE (288) HDFS via BDS (288) 2,000 1,500 1,000 1,542 1,361 1,009 850 500 265 69 69 57 57 39 com 200GB de dados, a performance é similar independente da fonte dos dados, DB ou Hadoop 263 186 183 44 165 855 111 -­‐ 4GB 20GB Data Size Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 200GB 27 Oracle R Advanced Analytics for Hadoop {CRAN packages} ORD Hadoop Job Mapper R Client Reducer R à HDFS R à MapReduce R à Hive R à sqoop/OLH Hadoop Abstraction Layer R script HCache Parte da opção Oracle Big Data Connectors Hadoop Cluster MapReduce Nodes {CRAN packages} ORD • • • • • • Acesso transparente a dados no Cluster Hadoop Manipulação de dados em HDFS, Hive, Oracle Database e file system Escreve e executa jobs Map-­‐Reduce com R Suporte a pacotes R abertos (CRAN) trabalhando em dados em HDFS Algoritmos paralelos e distribuídos prontos para execução Gerenciamento de Recursos via YARN Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | HDFS Nodes Spark Worker Oracle Database Oracle R Advanced Analytics for Hadoop: Integração Utilizando a integração do R com Hadoop e HIVE, com módulos R e pacotes R abertos Hadoop Cluster com Oracle R Advanced Analytics for Hadoop HQL Basic Statistics, Data Prep, Joins and View creation ORRAH distributed algorithms: MLP Neural Nets*, GLM*, LM PCA, k-­‐Means, NMF, LMF Open-­‐source R packages via Map-­‐Reduce R Client HQL R Analytics Oracle R Enterprise Oracle Database Server with Advanced Analytics option SQL Client SQL Developer Other SQL Apps R * Spark-­‐Caching enabled Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 29 Oracle R Advanced Analytics for Hadoop – vs. Rhadoop (RMR) A melhor plataforma para execução de jobs Hadoop-­‐R, vs. Revolution Analytics RHadoop Performance de cálculo de Covariância em uma tabela de 100 GB HDFS e 200 colunas 2,500 ORAAH 1,934 Seconds 2,000 RMR 1,500 1,217 1,038 1,000 500 439 258 294 -­‐ Text Binary Text-­‐to-­‐Binary Type o f Data Input https://blogs.oracle.com/R/entry/oraah_enabling_high_performance_r Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 30 Oracle R Advanced Analytics for Hadoop Utilização eficiente do uso do Apache Spark para Cache, mesmo em níveis mínimos de uso de memória Performance num servidor Intel X4-­‐2, 40 threads, 128GB de RAM GLM – Modelo de Regressão Logística com 843 Coeficientes Redes Neurais – Modelo utilizando 1 camada de neurônios, função de ativação linear, 838 coeficientes 600 Seconds 500 Spark Context Memory 2GB 12GB 24GB 400 300 200 100 0 Neural Networks GLM-­‐Logistic ORAAH Spark-­‐b ased Algorithm Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 31 Tecnologias Preditivas da Oracle para Cloud • Database as a Service & Exadata as a Service • Big Data Cloud Service Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 32 Novo: Database Cloud – Exadata Service Principais Características • Todas as características do Database, com suas opções e workloads • Performance e disponibilidade do Exadata scale-­‐out • Acesso seguro e completo isolamento de clientes Exadata Service • Compatível 100% com on-­‐premise • Infraestrutura totalmente gerenciável Benefícios • Grandes bases OLTP e DW de missão crítica • Consolidação massiva de bases de dados • Facilita Clouds híbridas Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 33 Oracle Cloud Data Strategy Suporte a Qualquer Dado, em Qualquer escala, On-­‐Premise e no Cloud DB Relacional • Relacional • Espacial • Gráficos • Documentos • Analíticos Real-­‐time Dados em Big Data • Logs • Streaming • Armazenamento Dados em NoSQL • Chave-­‐valor • Gráficos • Documentos • Espacial • Web Analytics Integração de Dados Captura mudanças e Aplica, faz ETL e gera SQL federado Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 34 Novo: Big Data Cloud Service Principais características Big Data • Big Data (Hadoop, Spark) como Serviço – Cloudera Enterprise – Data Hub Edition 5.4 – Oracle NoSQL Database – Oracle Big Data Connectors – Oracle Big Data Spatial and Graph – Database Cloud Service integration (via Connectors) • Big Data SQL service add-­‐on – Query unificada através do Big Data e Exadata Cloud Service • Plataforma para novos serviços Big Data – Big Data Discovery, Big Data Preparation Benefícios • Alta performance consistente • Integração com o Oracle Database Cloud Service que permite uma execução rápida de uma query SQL em todos os seus datos Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 35 Business Intelligence + Advanced Analytics Integração transparente entre o OAA e o OBIEE Oracle Database Server com Advanced Analytics Option Oracle Business Intelligence Server OBIEE Client R Computations and Special Graphics OBIEE Client Predictive Models What-­‐If Analysis R Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 36 Um Tour Global de Clientes Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 37 Quick Houston Facts: •Is the most populous city in Texas and its metropolitan area is the fifth-­‐most populated in the U.S., with over 6 million people. • Leading in energy, manufacturing, aeronautics, transportation, health care sectors and building oilfield equipment; only New York City is home to more Fortune 500 Headquarters. Panoramic Houston skyline Oracle R Enterprise na Apache Oil: •Segmentação de problemas de perfuração para entender problemas potenciais antes que aconteçam •Manutenção Preventiva de recursos para prevenir a espera de dias para substituição de peças que quebram, e otimização de investimentos. The space shuttle Challenger atop its Boeing 747 SCA, flying over Johnson Space Center, 1983 Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 38 Quick Guatemala Facts: •15.8 mi inhabitants •Guatemala City is the Capital •Spanish is spoken by 93% of the Population •21 Mayan and 2 Amerindian languages are also spoken •The service sector is the largest component of GDP at 63%, followed by the industry sector at 23.8% and the agriculture sector at 13.2% (2010 est.) Mayan City of Tikal Oracle R Enterprise na TIGO: •Comportamento de 5.5 milhões de clientes em 1.8 Bi de transações por ano. •Gerar 5 modelos de segmentação por cliente, utilizando Latitude e Longitude da torre de celular em cada ligação para entender mobilidade. •Avaliação de 27.5 milhões de modelos em 25 minutos (mais de 1 mi de modelos /min) Guatemala City Today Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 39 Quick Cincinnati Facts: •First major American city founded after the American Revolution; First major inland city in the country (“first purely American city”). •The Cincinnati Reds have a storied history as being the first professional club, hosting the first night game, and dominating the 1970s as the "Big Red Machine". Oracle Advanced Analytics at dunnhumby: American Sign Museum •Longo tempo de ETL eliminado com o uso de Analytics in-­‐Database •Modelando comportamento de milhões de clientes Music Hall •Otimização de cupons para Retailers com bilhões de transações •Insights e exploração com todos os dados, não Cincinnati Reds: somente com amostras Great American Ballpark •Média de Projeto diminuiu para 3 dias (dos Copyright 19) © 2015, Oracle and/or its affiliates. All rights reserved. | Quick Orlando Facts: •Orlando is nicknamed "The City Beautiful" and its symbol is the fountain at Lake Eola •"The Theme Park Capital of the World“ •51+ million tourists a year, 3.6 million international •Walt Disney World Resort: •Magic Kingdom, Hollywood Studios, Epcot, Animal Kingdom •Universal Studios Orlando •SeaWorld Oracle R Enterprise na Olive Garden: •Olive Garden, tradicionalmente gerenciando 830 restaurantes, transicionou para um approach local com a ajuda de Analítica Preditiva. •Avaliam 115 milhões de transações em 5% do tempo requerido pela solução de BI original •Suportam as campanhas do Olive Garden, descubrindo milhões em rentabilidade otimizando preços e menus Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Quick Lima, Peru Facts: • capital and the largest city of Peru with 9mi, Lima is the most populous metropolitan area of Peru, and the fifth largest city in the Americas (as defined by "city proper"). •home to one of the oldest higher learning institutions in the New World. The National University of San Marcos, founded on May 12, 1551 Oracle R Enterprise at Financiera Uno: •Reduziram o tempo para construção de modelos de crédito e aseguraram a relevância no mercado •Escalam a solução para volumes grandes •Entregam modelos de crédito rapidamente para vários canais diferentes Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Quick London Facts: • It is one of the world's leading financial centres and has the fifth-­‐or sixth-­‐largest metropolitan area GDP in the world depending on measurement. •London is a world cultural capital. •It is the world's most-­‐visited city as measured by international arrivals •World's largest city airport system measured by passenger traffic Oracle R Enterprise em Grande Empresa Financeira: •Cálculo de ganhos reduzido de 7 horas para 4 minutos •Cálculo de prêmios emitidos reduzidos de 100 minutos para 7 minutos; Cálculo de prêmios ganhos reduzido de 25 minutos para 8 minutos com funcionalidade adicional •Tempo de carga melhorado em 15X Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 43 Quick Geneva Facts: •Most populous city of Romandy, the French-­‐ speaking part of Switzerland •A financial center, and worldwide center for diplomacy due to the presence of numerous international organizations, including the headquarters of many of the agencies of the United Nations and the Red Cross. Geneva is the city that hosts the highest number of international organizations in the world Oracle R Enterprise no CERN: •Monitoramento e avaliação de anomalias em tempo real de dezenas de milhares de eventos por segundo •Sistema de Logs Central da CERN: •Análise de Séries de Tempo Complexa in-­‐Database •Esforço importante para entender o melhor approach •Previsão de consumo de energia do LHC (Large Hadron Collider) e seus experimentos Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 44 Quick Croatia Facts: •Croatia is a member of the European Union (EU), United Nations (UN) •Tourism is a significant source of revenue during the summer, with Croatia ranked the 18th most popular tourist destination in the world Oracle R Enterprise no ZABA Bank: •Análise de Comportamento Histórico de Clientes passou de vários meses para 2 semanas •Algoritmo especializado de Variable Clustering com execução em paralelo substituiu solução atual de principal ferramenta do mercado •Desenvolvimento mais rápido de modelos resultou em modelos melhores e mais rentáveis Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Quick Korea Facts: •Roughly half of the country's 50 million people reside in the metropolitan area surrounding its capital, the Seoul Capital Area, which is the second largest in the world with over 25 million residents •Eighth largest country in international trade, a regional power with the world's 10th largest defense budget Oracle R Enterprise na BISTEL: •Oracle ORE permite à BISTEL criar modelos analíticos com muito mais dados e mais rápido, permitindo maior insight para modelos de causa-­‐efeito •Com Oracle Exadata a BISTEL consegue fazer modelos avançados de controle de processo em Mega/Giga fabs em setores de alta tecnologia. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Aprenda mais sobre Tecnologias R da Oracle Venha nos visitar no Demo Grounds http://oracle.com/goto/R Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 47 Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 48