PostgreSQL em um Ambiente Híbrido de Big Data Analytics Palestrante: Marcio Junior Vieira [email protected] Marcio Junior Vieira ● ● ● ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014. ● Fundador e CEO da Ambiente Livre Tecnologia. ● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e MongoDB. Sobre a Ambiente Livre ● ● ● Fundada em 2004 com foco de atuar em consultoria com software livre. 2009 ampliou sua soluções para atender ao mercado de gestão empresarial com software livre. Tem 14 soluções distintas para geração de negócios com software livre. Ecosistema da Ambiente Livre Alguns clientes Big Data - Muito se fala... 2005 na apresentação do Papa Bento XVI 2013 na apresentação do Papa Francisco IoT- Internet of Things ● Internet das Coisas se aplica a comunicação entre objetos e entre estes e a internet, sejam eles físicos ou virtuais. Elementos do IOT ● Rede de sensores sem fio (RSSF); ● Radio Frequency Identification (RFID); ● Gateway; ● Banco de dados; ● Protocolos de rede; ● Gerência de processos; ● Gerência de rede. Evolução das Coisas Big Data ● ● É um novo conceito se consolidando. Grande armazenamento de dados e maior velocidade Big Data Os 4 V's ● Velocidade, Volume, Variedade e Valor Volume ● ● ● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB). Geralmente dados não estruturados. Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes. Velocidade ● Processamento de Dados ● Armazenamento ● Analise de Dados Variedade ● Dados semi-estruturados ● Dados não estruturados ● Diferentes fontes ● Diferentes formatos Valor ● Tomada de Decisão ● Benefícios ● Objetivo do Negócio. Tomada de Decisão ● ● ● ● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem 56% sentem sobrecarregados com a quantidade de dados que gerenciam 60% acreditam que precisam melhorar captura e entender informações rapidamente. 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade fonte : Survey KPMG. Onde usar Big Data ? ● ● Sistemas de recomendação Redes Sociais Onde usar Big Data ? ● ● ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) Energia Fotovoltaica (Medições , Estudos, Resultados ) Big Data X BI ● ● Big Data e uma evolução do BI, devem caminhar juntos Data Warehouses são necessários para armazenar dados estruturados Previsão: ● BI – Casos específicos ● Big Data – Analise geral Ferramentas de Big Data Ecosistema - Hadoop Distribuições Hadoop ● ● Open Source Apache Comercial Open Source - Cloudera - Hortonworks - MapR - Diversas plataformas de Hadoop em Cloud O Profissional “Data Scientist” Novo profissional: Cientista de Dados Cientista de dados ● ● ● ● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina) Estima-se que apenas um terço disso será preenchido. ( Gartner ) Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados Competências ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes Data Lake Data Lake Data Lake ● Fonte única ● Grande Volume ● Não Refinado ● Pode estar tratado. Formato Tradicional Data Mart(s) Data Source Requisitos de um Data Lake ● Armazenar todos os dados ● Satisfazer relatório e rotinas de analise ● Satisfazer ad-hoc query / analises / relatórios ● Balanceamento de performance e custo Arquitetura hibrida de Big Data ad­hoc Data Mart(s) Data Lake(s) Data Source Datawarehouse Arquitetura hibrida de Big Data Datawarehouse Data Mart(s) ad­hoc Data Lake(s) Data Source PostgreSQL em nossos projetos ● OLAP ( Online Analytical Processing ) ● OLTP ( Online Transaction Processing) Distribuído ● BRD Postgres-XL PostgreSQL em nossos Projetos ● ● ● ● Datawarehouse em Projetos de BI Bases de negócios Transacionais ( Telefonia, Monitoramento com Zabbix , Redes de Supemercados, Redes de Varejo ) Sistema de Gestão de Simuladores de Transito Brasileiro ( MySQL com PostgreSQL ) Sistemas bancários de analise de crédito Software Livre Fundação Apache ● Big Data = Apache = Open Source ● Apache é lider e Big Data! ● ~31 projetos de Big Data incluindo “Apache Hadoop” e “Spark” ● HBase ● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias) Hive ● Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados. PIG ● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce. Mahout ● O objetivo primário de criar algoritmos de aprendizagem por máquina escaláveis de fácil uso comercial para a construção de aplicativos inteligentes ● ● O Mahout contém implementações para armazenamento em cluster, categorização, CF, e programação evolucionária. Além disso, quando prudente, ele usa a biblioteca Apache Hadoop para permitir que o Mahout escale de forma efetiva na nuvem Diversidade de algorítimos Sqoop ● Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS. Apache Spark ● ● 100x mais rápido que Hadoop Programação com Scala, Java, Python ou R Apache Cassandra ● ● É um tipo de banco nosql que originalmente foi criado pelo Facebook e que atualmente é mantido pela Apache e outras empresas. Banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com. MongoDB ● MongoDB é uma aplicação open source de alta performance, sem esquemas, orientado a documentos. Foi escrito na linguagem de programação C++. Além de orientado a documentos, é formado por um conjunto de documentos JSON Titan Grafh ● ● ● É um banco de dados gráfico escalável otimizado para armazenar e consultar gráficos contendo centenas de bilhões de vértices e arestas distribuídos através de um cluster multi-máquina. Pode suportar milhares de usuários simultâneos executando traversals gráfico complexos em tempo real. Suporta aos storages Apache Cassandra, Apache HBase , MapR Tables, Oracle BerkeleyDB (local) BigSQL ● Projeto Hibrido de Integração de Tecnologias de Big Data com PostgreSQL ● Solução de BI Open Source. ● Community Edition ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc) Pentaho Orquestrando Hadoop Pentaho Data Integration Big Data no Brasil Principais desafios ● ● ● ● ● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013) A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012) Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem. Desafios dos Os 5 V ! Privacidade, A identidade do usuário, mesmo preservada pode ser buscada... ( Marco Civil da Internet ) Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores Big Data ● “Big Data hoje é o que era a Linux em 1991. Sabemos que será algo revolucionário, mas não sabemos o quanto...” Marcio Junior Vieira Contatos ● www.ambientelivre.com.br ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ou @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre