Treinamento Alfresco ECM - Apresentação Inicial

Propaganda
PostgreSQL
em um Ambiente Híbrido de Big Data Analytics
Palestrante: Marcio Junior Vieira
[email protected]
Marcio Junior Vieira
●
●
●
●
Trabalhando com Software Livre desde 2000 com serviços de consultoria e
treinamento.
Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
●
Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.
●
Fundador e CEO da Ambiente Livre Tecnologia.
●
16 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e
MongoDB.
Sobre a Ambiente Livre
●
●
●
Fundada em 2004 com foco de atuar em
consultoria com software livre.
2009 ampliou sua soluções para atender ao
mercado de gestão empresarial com software
livre.
Tem 14 soluções distintas para geração de
negócios com software livre.
Ecosistema da Ambiente
Livre
Alguns clientes
Big Data - Muito se fala...
2005 na apresentação do Papa Bento XVI
2013 na apresentação do Papa Francisco
IoT- Internet of Things
●
Internet das Coisas se aplica a comunicação
entre objetos e entre estes e a internet, sejam
eles físicos ou virtuais.
Elementos do IOT
●
Rede de sensores sem fio (RSSF);
●
Radio Frequency Identification (RFID);
●
Gateway;
●
Banco de dados;
●
Protocolos de rede;
●
Gerência de processos;
●
Gerência de rede.
Evolução das Coisas
Big Data
●
●
É um novo conceito se consolidando.
Grande armazenamento de dados e maior
velocidade
Big Data
Os 4 V's
●
Velocidade, Volume, Variedade e Valor
Volume
●
●
●
Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
Geralmente dados não
estruturados.
Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
Velocidade
●
Processamento de Dados
●
Armazenamento
●
Analise de Dados
Variedade
●
Dados semi-estruturados
●
Dados não estruturados
●
Diferentes fontes
●
Diferentes formatos
Valor
●
Tomada de Decisão
●
Benefícios
●
Objetivo
do Negócio.
Tomada de Decisão
●
●
●
●
1 em cada 3 gestores tomam decisão com base em
informações que não confiam ou não tem
56% sentem sobrecarregados com a quantidade de
dados que gerenciam
60% acreditam que precisam melhorar captura e
entender informações rapidamente.
83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
Onde usar Big Data ?
●
●
Sistemas de
recomendação
Redes Sociais
Onde usar Big Data ?
●
●
●
Analise de Risco
(Crédito, Seguros ,
Mercado Financeiro)
Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
Energia Fotovoltaica
(Medições , Estudos,
Resultados )
Big Data X BI
●
●
Big Data e uma evolução do BI, devem
caminhar juntos
Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
●
BI – Casos específicos
●
Big Data – Analise geral
Ferramentas de Big Data
Ecosistema - Hadoop
Distribuições Hadoop
●
●
Open Source
Apache
Comercial
Open Source
- Cloudera
- Hortonworks
- MapR
- Diversas plataformas de Hadoop em Cloud
O Profissional
“Data Scientist”
Novo profissional: Cientista de Dados
Cientista de dados
●
●
●
●
Gartner: necessitaremos de 4,4 Milhões de
especialistas até 2015 ( 1,9M América do Norte, 1,2M
Europa Ocidental e 1,3M Ásia/Pacifico e América
Latina)
Estima-se que apenas um terço disso será preenchido.
( Gartner )
Brasil deverá abrir 500 mil vagas para profissionais
com habilidades em Big Data
As universidades do Brasil ainda não oferecem
graduação para formação de cientistas de dados
Competências
●
Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
Data Lake
Data Lake
Data Lake
●
Fonte única
●
Grande Volume
●
Não Refinado
●
Pode estar tratado.
Formato Tradicional
Data Mart(s)
Data Source
Requisitos de um Data
Lake
●
Armazenar todos os dados
●
Satisfazer relatório e rotinas de analise
●
Satisfazer ad-hoc query / analises / relatórios
●
Balanceamento de performance e custo
Arquitetura hibrida
de Big Data
ad­hoc
Data Mart(s)
Data Lake(s)
Data Source
Datawarehouse
Arquitetura hibrida de Big
Data Datawarehouse
Data Mart(s)
ad­hoc
Data Lake(s)
Data Source
PostgreSQL
em nossos projetos
●
OLAP ( Online Analytical Processing )
●
OLTP ( Online Transaction Processing)
Distribuído
●
BRD
Postgres-XL
PostgreSQL
em nossos Projetos
●
●
●
●
Datawarehouse em Projetos de BI
Bases de negócios Transacionais ( Telefonia,
Monitoramento com Zabbix , Redes de
Supemercados, Redes de Varejo )
Sistema de Gestão de Simuladores de
Transito Brasileiro ( MySQL com PostgreSQL )
Sistemas bancários de analise de crédito
Software Livre
Fundação Apache
●
Big Data = Apache = Open Source
●
Apache é lider e Big Data!
●
~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”
●
HBase
●
Banco de dados orientada por colunas
distribuída. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
cálculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatórias)
Hive
●
Armazém de dados (datawarehouse)
distribuídos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
PIG
●
PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.
Mahout
●
O objetivo primário de criar algoritmos de
aprendizagem por máquina escaláveis de fácil uso
comercial para a construção de aplicativos inteligentes
●
●
O Mahout contém implementações para
armazenamento em cluster, categorização, CF, e
programação evolucionária. Além disso, quando
prudente, ele usa a biblioteca Apache Hadoop para
permitir que o Mahout escale de forma efetiva na
nuvem
Diversidade de algorítimos
Sqoop
●
Ferramenta para a movimentação eficiente de
dados entre bancos de dados relacionais e
HDFS.
Apache Spark
●
●
100x mais rápido que Hadoop
Programação com Scala,
Java, Python ou R
Apache Cassandra
●
●
É um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente é
mantido pela Apache e outras empresas.
Banco de dados distribuído baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
MongoDB
●
MongoDB é uma aplicação open source de
alta performance, sem esquemas, orientado a
documentos. Foi escrito na linguagem de
programação C++. Além de orientado a
documentos, é formado por um conjunto de
documentos JSON
Titan Grafh
●
●
●
É um banco de dados
gráfico escalável otimizado
para armazenar e consultar
gráficos contendo centenas de bilhões de vértices e
arestas distribuídos através de um cluster multi-máquina.
Pode suportar milhares de usuários simultâneos
executando traversals gráfico complexos em tempo real.
Suporta aos storages Apache Cassandra, Apache
HBase , MapR Tables, Oracle BerkeleyDB (local)
BigSQL
●
Projeto Hibrido de Integração de Tecnologias
de Big Data com PostgreSQL
●
Solução de BI Open Source.
●
Community Edition
●
Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards,
etc)
Pentaho Orquestrando
Hadoop
Pentaho Data Integration
Big Data no Brasil
Principais desafios
●
●
●
●
●
O Big Data não envolve só mudança de tecnologia, envolve
adaptação de processos e treinamento relacionado à mudança de
gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
A maioria dos lideres não seba lidar com essa grande variedade e
quantidade de informações, e não tem conhecimento dos benefícios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
Falta da cultura: a maioria das empresas não fazem um bom trabalho
com as informações que já tem.
Desafios dos Os 5 V !
Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
Recomendações
●
Comece com o problema , e não com os
dados
●
Compartilhe dados para receber dados
●
Suporte gerencial e executivo
●
Orçamento suficiente
●
Melhores parceiros e fornecedores
Big Data
●
“Big Data hoje é o que era a
Linux em 1991. Sabemos que
será algo revolucionário, mas
não sabemos o quanto...”
Marcio Junior Vieira
Contatos
●
www.ambientelivre.com.br
●
marcio @ ambientelivre.com.br
●
http://twitter.com/ambientelivre
●
@ambientelivre ou @marciojvieira
●
Blog
blogs.ambientelivre.com.br/marcio
●
Facebook/ambientelivre
Download