artificial antes

Propaganda
MICROSOFT
BUSINESS
INTELLIGENCE &
AZURE DATA
SERVICES
Next Generation Analytics
Deck #2
The Modern Data Warehouse

Data sources
Non-relational data
•
Pre-built hardware + software appliance
Projetado em conjunto (Dell – HP – Quanta)*
•
Hardware pré configurado
•
Software Pré-instalado
•
Pronto para uso em 1–2 dias
•
Suporte
Primeiro nível de suporte via Microsoft; Parceiro de Hardware
prove suporte on-site;
*Quanta not available in all countries or regions
Plug and play
Melhores Práticas
Menor Tempo
Deck #3
Introducing Microsoft Analytics Platform System
Microsoft SQL Server
Microsoft Analytics Platform System
• SMP – Multiprocessamento simétrico e NUMA
(non unified memory architecture) para Data
warehouse em qualquer hardware
• Appliance para (MPP) data warehousing em Multi
Processamento Paralelo.
• Ideal for data marts, pequenos e médios data
warehouses corporativos (EDWs)
• Ideal para Data Warehouses corporativos de alta
escala ou desempenho
• Software apenas
• Data warehouse appliance
• (software and hardware altamente integrados)
• 10s de TB
• 10s de TB até 6 PB (PDW – compactado)
• 24 TB – 1.2 PB (Hadoop – não compactado)
Deck #4
Microsoft Data Warehousing Solutions
Manter o
investimento
Escalabilidade limitada
e capacidade de
trabalhar com novos
tipos de dados
Deck #5
Desafios do Data warehouse moderno
Adquirir novas
soluções para BIG
Data
Adquirir mais
Hardware lowend
Adequerir novas
soluções de BI e
Apresentação de
Dados
Custo em
Treinamento,
Silo de informação
Alto custo de
manutenção,
gerenciamento e
aquisição
Complexo se a
adoção for baixa.
Analytics Platform System
SQL Server
Parallel Data
Warehouse
PolyBase
Microsoft
HDInsight
Deck #6
Hardware e Software Projetados para Funcionar
Junto
Hadoop Ecosystem
Move os dados para o Warehouse antes da Análise
Aprender novas
Ferramentas
New
data
sources
“New”
data
sources
Criar
Integrar
Gerenciar
Manter
Suportar
New data sources
T-SQL
ETL
Deck #7
Hadoop sozinho não é a solução para Tudo
SQL Server
Parallel Data
Warehouse
Alto desempenho
alinhado com a
capacidade do HW
Autenticação via AD
100% Apache
Hadoop
Gerenciado e
Monitorável pelo
System Center
PolyBase
Microsoft
HDInsight
Acessível para
análise através de
Excel e Ferrentas BI
Microsoft
Deck #8
APS Contempla um Cluster Hadoop pronto para uso
com HDInsight
Select…
Microsoft Azure
HDInsight
Hortonworks for
Windows and Linux
Cloudera
Result set
SQL Server
Parallel Data
Warehouse
PolyBase
Microsoft
HDInsight
Provê um modelo T-SQL para PDW com
Haddop que permite até JOIN Direto (sem
carga/ETL)
Utiliza o Processamento Paralel o Massivo para
Máximo Desempenho
Suporte AZURE HDInsight como fonte de
dados, permite escalabilidade na Nuvem
Provê habilidade de integrar com outras
distribuições de Haddop como Hortonworks
and Cloudera
Deck #9
Conecta a os Silos de Dados com PolyBase
Consultas SQL são enviadas ao nó
de controle
Appliance
Nó de controle cria o plano de
execução
O plano de execução cria consultas
que irão rodar em cada nó
Consultas são enviadas para todos
os nós (todas rodando em paralelo)
Nó de controle recebe os resultados,
consolida e entrega ao usuárioi
Management
Client
Control
Compute
Compute
Compute
Compute
Deck #10
Como Funciona o Processamento Paralelo de
Consultas
Preço por TB nos principais fabricantes
menor
preço por TB que o
Significativamete
Price per terabyte for user-available storage (compressed)
$30
competidor mais próximo.
Thousands
$25
$20
$15
$10
$5
$0
Oracle
EMC
IBM
Teradata
Microsoft
NOTE: Orange line indicates average price per
terabyte.
Reduza custos de
Armazenamento
com
Windows Server 2012
Storage Spaces
Deck #11
Menor custo por TB em todos os Appliances
SQL Server IaaS
em AZURE
Deck #13
SQL Server on AZURE - IaaS
SEM CUSTOS
ADICIONAIS!!!
Fatura Única!
Pode Transferir licenças
locais para Azure para
Clientes com SA
- Precificação minuto a minuto
- Não precisa da sua máquina a 24x7? – Automatize
ShutDown/Up via PowerShell
- Pagamento Proporcional ao tempo Ativo +
Armazenamento
- Garantia de Disponibilidade (da VM) pela infraestrutura
de réplicas do Azure (3 máquinas)
Deck #15
Benefícios de SQL Server em IaaS
Deck #16
Tamanhos Disponíveis – Lista Parcial
Deck #17
Tabela de Comparação de UpTime
Deck #18
Azure SLAs para VMs
http://azure.microsoft.com/pt-br/support/legal/sla/
Deck #19
SQL Databases SLA
NoSQL e
Window
NoSQL em Windows
AZURE
Deck #21
NoSQL
A Importância dos DADOS
Esta não é a ERA pós SQL ,
é a ERA SQL+
Nosso área de trabalho era
denominada
Processamento de Dados
Dados são mais críticos do
que nunca
Dados são mais abundantes
Nossos e seus clientes nos
PAGAM para cuidar deles.
Custos de armazenamento sao
menores
Data Now
The world today
Existe muitas fontes de dados
- Dados abertos de Governo
- Clima e Tempo
- Sociais, Internet of Things
Novas Tecnologias estão
disponíveis
NoSQL
Big data analytics
Busca
Deck #23
Dados na Nuvem
Para onde vamos…
SQL+
SQL
On-Premises
Cloud
Dados Operacionais
Deck #24
Tecnologias de Dados no AZURE
Análise de Dados
Document Store
(DocumentDB, MongoDB, …)
Tecnologias
NoSQL
Key/Value Store
(Tables, Riak, …)
Big Data Analytics
(HDInsight, Hadoop)
Column Family Store
(HBase, Cassandra …)
SQL
Bases Relacionais
(SQL Database,
SQL Server, Oracle, MySQL, …)
Relational Analytics
(SQL Server, Oracle, MySQL, …)
Gerenciados como
Serviço no AZURE
Instalável no AZURE,
gerenciado pelo
cliente
Deck #25
Base SQL
Serviço de dados Relacional
SQL Database
Tables
Aplicação
Consulta
SQL
ID
int
1
3
Column Name
Column Type
Primary Key
Data
2
7
Name
País
Idade
char
char
int
Modificado
Em
date
Deck #26
DEFINIÇÃO DE SHARD
Sharding
Transações atômicas
geramente precisam estam
contidas no mesmo Shard
Database
Adam
Carl
Cynthia
Bill
Anusha
Catherine
Deck #27
Technology Basics
Sharded Database
Andrew
Bertrand
Shard 1
Shard 2
Shard 3
Adam
Bertrand
Carl
Andrew
Bill
Catherine
Anusha
SQL Database Elastic
Scale (in preview) agora
supporta sharding
Cynthia
SQL Databases
DEMO
Category
SQL
Database
Relationa
l
Maximu
m
Storage
Abstractions Database
Size
Tables,
rows,
500 GB
columns
Query
Language
Transaction
Support
SQL
All rows and
tables in a
database
Stored
Secondary Procedure/
Indexes
Triggers
Yes
Written in
T-SQL
Deck #29
Comparando Azure Managed Data Services
Pricing
Units of
throughput
Deck #30
Unidade de Performance de Database (DTU)
DATABASE THROUGHPUT UNITE (DTU)
- Não é baseado em condições de Hardware, uma
vez que elas mudam.
- Com base em (x) vezes o desempenho da versão
básica
-
5x
-
10 x
-
20 x
-
50 x
-
100 x
-
200 x
-
800 x
BENCHMARK
% WORKER
THREADS
% MEMORY
% READS
- Precificado em Níveis de Desempenho
% WRITES
- Garantia de MESMO DESEMPENHO o tempo todo
% CPU
Facilidade em Escalar a
Aplicação
Pros: Tecnologias NoSQL são
muito mais escaláveis que as
relacionais
Cons: Perde recursos como
com “transações entre
databases”
Para trabalhar melhor com
dados não estruturados,
como JSON
Pros: A aplicação se torna
muito mais fácil de
Desenvolver… sem “DBAs
para atrapalhar”
Cons: Limita a capacidade
fazer BI, o modelo
persistido para uma única
aplicação é DIFÍCIL DE
COMPARTILHAR
Deck #31
Por que NoSQL?
Trabalhar de forma mais
FLEXÍVEL
Pros: NoSQL não possuem
esquemas.
Cons: esquemas EVITAM
erros!!!
AZURE DocumentDB
A document store
Deck #33
DocumentDB
DocumentDB
Collections
Document 1
Request
{
{
"name": "John",
"country": "Canada",
"age": 43,
"lastUse": "March 4, 2014"
Application
{…}
Document 2
"name": "Eva",
"country": "Germany",
"age": 25
}
}
Document 3
{
{
"name": "Lou",
"country": "Australia",
"age": 51,
"firstUse": "May 8, 2013"
}
Document 4
"docCount": 3,
"last": "May 1, 2014"
}
Deck #34
DocumentDB
Sharding e transações
Transações atômicas só
podem afetar 1 Shard
Database
Collection
A unidade de
Sharding é a
Coleção
Collection
Collection
Collection
JSON
JSON
JSON
JSON
JSON
JSON
JSON
JSON
JSON
JSON
JSON
Deck #35
Technology Basics
Replication and consistency
Replicação pode melhorar
desempenho e
disponibilidade
Database
Uma replica de
escritar pode
demorar para ser
propagada
Shard A
Shard A
Shard A
O que o leitor
enxerga ?
Primary replica
Secondary replica
Deck #36
DocumentDB
Consistency options
Leitores pode ver
dados Antigos?
Strong
(Forte)
Bounded
Staleness
Session
Eventual
Leitores pode ter Velocidade
leituras sujas? de Gravação
Velocidade
de Leitura
Não
Não
Mais Lenta
Mais Lenta
Sim, mas
apenas dentro
de um Intervalo
definido
Não
Mais Rápido
Moderada
Lenta
Sim, mas
apenas para
gravações de
outros clientes
Sim, mas
apenas para
gravações de
outros clientes
Fastest
Moderately
fast
Sim
Sim
Mais Rápida
Mais Rápida
The default
Category
SQL
Database
DocumentDB
Relational
Document
store
Maximu
Storage
m
Abstractions Database
Size
Tables,
rows,
500 GB
columns
Collections,
documents
100s of
TBs
Query
Language
Transaction
Support
SQL
All rows and
tables in a
database
All
Extended
documents in
subset of
the same
SQL
collection
Deck #37
Comparing Azure Managed Data Services
Stored
Procedures/
Triggers
Pricing
Yes
Written in
T-SQL
Units of
throughput
Yes
Written in
JavaScript
Units of
throughput
Secondar
y
Indexes
AZURE Storage
TABLES
Tables
Tables
A key/value store
B
A
1
A
2
2
Name
Country
Age
String
String
int
Name
Country
Age
String
String
int
Partition
A
Name
Country
Age
FirstUse
String
String
int
Date
Application
B
2
B
Entity
Property Name
Property
Property Type
Partition key
Data
Row key
Deck #39
Azure Tables
B
1
2
Count
int
Last
Date
LastUse
Date
Partition
B
Deck #40
Tables
Sharding and transactions
Atomic transactions can
span only a single partition
Table
Partition A
The unit of
sharding is a
partition
Partition B
Partition C
A 1
B 1
C 1
A 2
B 2
C 2
A 3
B 3
C 3
Partitions are replicated;
reads and writes provide
strong consistency
Category
Storage
Abstractions
Stored
Secondary Procedures/
Indexes
Triggers
Deck #41
Comparing Azure Managed Data Services
Maximu
m
Database
Size
Query
Language
Transaction
Support
500 GB
SQL
All rows and
tables in a
database
Yes
Written in
T-SQL
Units of
throughput
Pricing
Relational
Tables,
rows,
columns
DocumentDB
Document
store
Collections,
documents
100s of
TBs
Extended
subset of
SQL
All documents
in the same
collection
Yes
Written in
JavaScript
Units of
throughput
Tables
Key/value
store
Tables,
partitions,
entities
100s of
TBs
Subset of
OData
queries
All entities
in the same
partition
No
None
GBs of
storage
SQL
Database
AZURE HDInsight
HDInsight HBase
A column family store
Usage LastUse 2 v2
Application
Tables
Row
Key
1
2
3
4
Column Key (Family)
Column Key (Qualifier)
Data (optionally with
time-stamped versions)
Deck #43
HDInsight HBase
5
6
Usage
User
Name
Country
Age
LastUse
FirstUse
Sharding and transactions
Atomic transactions can
span only a single row
Deck #44
HDInsight HBase
Table
Region A
The unit of
sharding is
a region
Regions are replicated;
reads and writes provide
strong consistency
Region B
Region C
HBase automatically
shards a table; users
don’t see regions
Category
Maximum
Storage
Abstractions Database
Size
Deck #45
Comparing Azure Managed Data Services
Stored
Procedures/
Triggers
Pricing
Query
Language
Transaction
Support
Secondary
Indexes
Yes
Written in
T-SQL
Units of
throughput
Relational
Tables,
rows,
columns
500 GB
SQL
All rows and
tables in a
database
DocumentDB
Document
store
Collections,
documents
100s of
TBs
Extended
subset of
SQL
All documents
in the same
collection
Yes
Written in
JavaScript
Units of
throughput
Tables
Key/value
store
Tables,
partitions,
entities
100s of
TBs
Subset of
OData
queries
All entities in
the same
partition
No
None
GBs of
storage
HDInsight
HBase
Column
family
store
None
All cells in
the same
row
Written in
Java
GBs of
storage
plus VMs
per hour
SQL
Database
Tables, rows,
columns,
cells, column
families
100s of
TBs
No
Deck #46
Big Data Analytics
O Padrão: Hadoop
Hadoop
MapReduce
...
YARN
HDFS
HBase
Azure HDInsight
prove estas features
como serviço
Deck #47
HDInsight MapReduce
A Implantação de Hadoop no Azure
HDInsight MapReduce
Excel
Hive
Pig
...
MapReduce
Job
VM
VM
VM
Logic
Logic
Logic
HDFS API
HDInsight HBase is also
implemented on this API
and relies on Azure Blobs
1000110100110
0111101111101
1011010001101
1000110100110
0111101111101
1011010001101
1000110100110
0111101111101
1011010001101
Blob
Blob
Blob
Azure Blobs
Deck #48
O que é Hadoop
TRADITIONAL RDBMS
Data Size
Access
Updates
Structure
Integrity
Scaling
DBA Ratio
HADOOP
HD INSIGHT DEMO
AZYRE STREAM
ANALYTICS
Deck #51
Dados
Armazenados
Dados em
Movimento
-
O dado não é Armazenado
-
A consulta é realizada em Tempo Real
-
Baseda em Eventos
-
A consulta é executada o tempo todo
-
Eventos são Capturados
Deck #52
Para que serve o StreamInsight
Deck #53
StreamInsight e Azure Stream Analytics - Cenários
Deck #54
End-to-End Architecture Overview
Azure Stream Analytics
•
•
•
Temporal Semantics
Guaranteed delivery
Guaranteed up time
Event Inputs
- Event Hub
- Azure Blob
Outputs
Transform
-
Temporal joins
Filter
Aggregates
Projections
Windows
Etc.
- SQL Azure
- Azure Blobs
- Event Hub
Enrich
Correlate
Reference Data
- Azure Blob
Azure
Storage
Data Source
Collect
Process
Deliver
Consume
AZURE MACHINE
LEARNING
1ª - CATEGORIA CONVECIONAL : BI 1.0 - “O QUE ACONTECEU?”
- Reporting
- DashBoards
- ScoreCards
- BASEADO EM DADOS DO PASSADO
- NÃO POSSUI UM MODELO QUE “EXPLIQUE O DADO”
2º - PREDICTIVE ANALYTICS : BI 2.0 – “O QUE PODE ACONTECER?”
- Passo 1 – Desenvolver um bom modelo “estatístico” que explique o Passado
- Passo 2 - “ASSUMIR QUE O FUTURO SERÁ IGUAL AO PASSADO”
- Passo 3 – Predizer o comportamento futuro com base num modelo
estabelecido
3º - PRESCRITIVE ANALYTICS: BI 3.0 – “O QUE DEVE SER FEITO?”
- Passo 1 – Definir o FOCO
- Passo 2 – SIMULAÇÕES
- Passo 3 – Escolha do Melhor Cenário
Deck #56
As 3 Categorias de Business Analytics
I believe over the next decade
computing will become even
more ubiquitous and
intelligence will become
ambient...This will be made
possible by an ever-growing
network of connected devices,
incredible computing capacity
from the cloud, insights from
big data, and intelligence from
machine learning
“If you invent a
breakthrough in
Artificial
Intelligence, so
machines can
learn that is worth
10 Microsofts”
Deck #59
•
•
•
•
•
•
•
http://blogs.msdn.com/b/msr_er/archive/2015/04/02/micr
osoft-azure-helps-researchers-predict-traffic-jams.aspx
DETECÇÃO DE FRAUDES
TRANSCRIÇÃO DE VIDEO
LEGENDAGEM (CLOSED CAPTION)
RECONHECIMENTO DE IMAGENS
DETECÇÃO DE ANOMALIAS
ANÁLISE GENÉTICA
ETC...
Deck #60
Machine Learning não é Novidade..
Deck #61
Qual a Novidade então?
-
DISPONIBILIDADE
FACILITADE DE USO
ESCALABILDIADE
CAPACIDADE DE
TRABALHAR COM
GRANDES
VOLUMES DE DADOS
Machine Learning Studio
http://blogs.msdn.com/b/msr_er/archive/2015/04/02/micr
osoft-azure-helps-researchers-predict-traffic-jams.aspx
Deck #62
CASE Machine Learning - UFMG
http://isstke.azurewebsites.net/#/
MACHINE LEARNING
DEMO
Download