SETEMBRO, 2010 | SÃO PAULO CÓDIGO DA SESSÃO: BI301 Tecnologias para Data Warehouse: SQL Server Enterprise, Fast Track e PDW Gustavo Gattass Ayub Senior Consultant Microsoft Services Agenda A visão da Microsoft para Data Warehousing Desafios na construção de um DW SQL Server Fast Track DW SQL Server Parallel Data Warehouse Perguntas… 3 A Visão da Microsoft Menor TCO 4 Escalabilidade Agilidade Tendências no Mercado de DW DBMS Built for DW DW Appliance Mixed Workloads 5 Melhorias no SQL Server 2008 SAP-BW Adapter Partitioned Table Parallelism New - Report Builder 2.0 Teradata Adapter Data Compression Enhanced Data Visualization Oracle Adapter Backup Compression MERGE SQL Statement Resource Governor Rendering for Word & Excel IIS Agnostic Report Deployments Data Mining Engine Improvements Change Data Capture (CDC) Persistent Lookups Data Profiling 6 Star Join Query Optimization MDX Query , Writeback Optimizations Policy Based Administration Best Practice Design Alerts Reference Architectures Scale-out AS engine & backup Investimentos no SQL Server BI Self-Service gerenciado Gerenciamento multi-servidor Virtualização & Live Migration 7 Suporte MPP para DW de 10s a 100s de TB Plataforma de Banco de Dados Relacional Escalável Appliances escalonáveis Ferramentas e modelos consistentes e familiares Integração simples com o BI Microsoft Serviço na nuvem auto gerenciável, em alta disponibilidade Microsoft Data Warehousing Serviços 8 Desafios na construção de um DW 9 DW no SQL Server Deployments > 1Tb… centenas… > 5Tb… dezenas… Abordagens para implantação Existem muitas…boas e ruins… 10 Construir um DW no SQL Server Por onde começar ? Qual a melhor forma de se configurar o sistema ? A janela de atualização está cada vez menor… Como lidar com os grandes volumes de dados ? Como garantir o desempenho das consultas ? 11 O típico ambiente de DW 1) 2) 3) 4) 1) 2) 3) 12 O servidor consome até 16 Gb/sec enquanto que a SAN consegue entregar no máximo 2 Gb/sec… Muitos discos preparados para I/O aleatório O sistema é I/O Bound Consultas lentas Uma SAN enorme ($$$) Um Servidor ($$$) O SMP queenorme há de errado Tudo conectado nisso ? CPU Feed Rate 13 DISK FC HBA SQL Server Read Ahead Rate A B A B HBA Port Rate DISK A A B STORAGE CONTROLLER CACHE FC HBA FC SWITCH CPU CORES WINDOWS SQL SERVER CACHE SERVER O problema do balanceamento LUN A B DISK DISK B LUN Switch Port Rate SP Port Rate LUN Read Rate Disk Feed Rate Workloads distintos Online Transaction Processing (OLTP) Relação balanceada entre leitura e escrita (60%-40%) Alto volume de transações (insert e update) Transações curtas normalmente Consultas envolvendo poucos registros Volume de Dados menor (poucos Tb’s) Data Warehousing Acesso para leitura (90%-100%) Poucos updates, alto volume de bulk inserts Alto volume de consultas (10s K / hr) Baixo tempo de resposta esperado para as consultas Variedade de modelos: Snowflake, star schemas, normalizado Consultas complexas envolvendo filtros, joins, group-by, agregações Alto volume de dados (10s Tb-Pb) 14 Consulta típica no DW SELECT L_RETURNFLAG, L_LINESTATUS, SUM(L_QUANTITY) AS SUM_QTY, SUM(L_EXTENDEDPRICE) AS SUM_BASE_PRICE, SUM(L_EXTENDEDPRICE*(1-L_DISCOUNT)) AS SUM_DISC_PRICE, SUM(L_EXTENDEDPRICE*(1-L_DISCOUNT)*(1+L_TAX)) AS SUM_CHARGE, AVG(L_QUANTITY) AS AVG_QTY, AVG(L_EXTENDEDPRICE) AS AVG_PRICE, AVG(L_DISCOUNT) AS AVG_DISC, COUNT(*) AS COUNT_ORDER FROMLINEITEM GROUP BY L_RETURNFLAG, L_LINESTATUS ORDER BY L_RETURNFLAG, L_LINESTATUS Scan Intensive Hash Joins Aggregations 15 SQL Server Fast Track DW 16 SQL Server Fast Track DW Uma solução que permite aos clientes e parceiros acelerar a implantação de um Data Warehouse Um método para se desenhar uma solução de DW balanceada com o menor custo possível Conjunto de configurações de referência, desenvolvidas em conjunto com fabricantes de hardware Boas práticas para carga, gerenciamento e acesso aos dados 17 Componentes do Fast Track Software: • SQL Server 2008 Enterprise • Windows Server 2008 Configuration guidelines: • Physical table structures • Indexes • Compression • SQL Server settings • Windows Server settings • Loading Hardware: • Tight specifications for servers, storage and networking • ‘Per core’ building block 18 Fast Track Data Warehouse 2.0 SI Solution Templates 19 SQL Server Windows Server OS CPU Storage Processor Disk Array Host Storage Adaptor Server 20 Storage Interconnect Arquitetura do Fast Track DW 2.0 Storage Enclosure Balanceamento de Componentes CPU Maximizar a taxa de consumo de dados no cache para o workload em questão Controladora (Storage Processor) Garantir que os dados serão transmitidos até o limite das CPU’s HBA Compor os dados transmitidos a partir das diversas controladoras até o limite das CPU’s Switch Otimizado para a realização de I/O sequencial Discos Otimizados para oferecer a melhor relação preço/throughput 21 DISK FC HBA A B A B DISK A A B STORAGE CONTROLLER CACHE FC HBA FC SWITCH CPU CORES WINDOWS SQL SERVER CACHE Balanceamento para... SERVER Componente LUN A B DISK DISK B LUN Métricas de Avaliação Maximum Consumption Rate – É a capacidade do SQL Server processar dados para uma combinação Servidor&CPU dado uma consulta padrão. É medida por physical core Considera que os dados estão compactados O Fast Track 2.0 considerou um mix de consultas a partir do TPC-H User Data Capacity – É o volume de dados máximo suportado por uma dada configuração assumindo-se um fator de compactação da ordem de 2,5:1. 22 Maximum Consumption Rate Resultados obtidos a partir de configuração base: Servidor HP, 2 sockets e 8 cores Configuração Balanceada Throughput Máximo observado por core = 200 Mb/s 300 MB/s 500 MB/s 300 MB/s 300 MB/s Fiber Switch MCR 1.6 GB/s Windows Server OS HBA HBA Server 23 500 MB/s Storage Enclosure 300 MB/s 500 MB/s Min 2 GB/s Min 2 GB/s 300 MB/s 300 MB/s 300 MB/s 500 MB/s 300 MB/s Storage Enclosure Configuração de Storage RAID-1 é usado para permitir o I/O sequencial 2 disk RAID-1 array por CPU core Utilização de affinity entre o RAID-1 array e um CPU core Dados são distribuídos uniformemente no array utilizando-se particionamento Permite que os dados sejam carregados de forma sequencial I/O sequencial requer 1/3 da quantidade de discos versus I/O aleatório para que se obtenha o mesmo desempenho 24 Arquivos do SQL Server User Databases No mínimo um Filegroup contendo um data file por LUN 1:1 LUN to CPU - core affinity Arquivos com mesmo tamanho Distribuição uniforme dos dados através das LUNs (balanceamento) Transaction Log é alocado em LUN específica Tempdb Um arquivo por LUN (todos com mesmo tamanho) 25 Scan Sequencial ARY01D1v01 4MB ARY02D1v03 4MB ARY03D1v05 4MB ARY04D1v07 4MB DB1-1.ndf DB1-3.ndf DB1-5.ndf DB1-7.ndf ARY01D2v02 ARY02D2v04 ARY03D2v06 ARY04D2v08 4MB DB1-2.ndf 4MB DB1-4.ndf 4MB DB1-6.ndf 4MB DB1-8.ndf Alocação contínua, data striping, pre-fetch e read-ahead trabalhando em conjunto para realizar I/O sequencial eficiente Cada elemento é utilizado para aumentar o desempenho 26 Configuração Mínima (Exemplo) 27 Configurações Disponíveis 2 processadores: 4 – 12 TB HP ProLiant DL380 G6 HP ProLiant DL385 G6 IBM System x3650 M2 Dell Power Edge R710 Bull Novascale R460 E2 4 processadores: 12 – 24 TB HP ProLiant DL 580 G5 HP ProLiant DL 585 G6 IBM System x3850 M2 Dell Power Edge R900 Bull Novascale R480 E1 8 processadores: 6 – 48 TB HP ProLiant DL 785 G6 IBM System x3950 M2 28 Roadmap do Fast Track 2.0 Enterprise ETL Services Star Join Query Optimizations Data Compression Partitioned table parallelism 2008 New Reference Architectures from IBM Updated Configurations from HP, Dell and Bull EMC as a Service Partner for Fast Track 2009 Fast Track vNext Future Partners to create new Validated Reference Architectures with Test Harness Incorporates SQL vNext 2010 Beyond Test Harness for Partners DW Reference Architectures Predictable performance at low cost Faster time to solution Microsoft to create Test Harness for validation of new Fast Track configurations NEC to validate new Reference Architectures ? 29 Information Subject to Change Preliminary ? ? SQL Server Parallel Data Warehouse 30 Parallel Data Warehouse O appliance de data warehouse altamente escalável Escala de 10s a 100s de TB Sistema MPP (Massively Parallel Processing) Escolha do fornecedor de hardware Custo baixo (hardware commodity) Integração com BI Microsoft 31 Arquitetura do PDW Nexus Query Tool MS BI (AS, RS) Other 3rd Party Tools SQL Internet Explorer Compute Node IIS Data Access Compute Nodes Compute Nodes Data Movement Service Admin Console (OLEDB, ODBC, ADO.NET, JDBC) User Data SQL Parser Core Engine Services DMS Manager Data Movement Service MPP Engine Coordinator SQL Server Backup Node Data Movement Service Landing Zone Node DW Authentication DW Configuration DW Schema TempDB SQL Server Control Node 32 Data Movement Service Arquitetura do PDW (Cont.) Storage Nodes Database Servers Control Nodes SQL Ativo / Passivo SQL Aplicações SQL SQL SQL Monitoramento Landing Zone Interface de Carga (ETL) SQL SQL SQL Solução de Backup Corporativo Rede Corporativa SQL SQL Backup Node 33 Dual Infiniband SQL Dual Fiber Channel Management Servers Spare Database Server Rede Dedicada Ultra Shared Nothing 34 Ultra Shared Nothing (Cont.) 35 Ultra Shared Nothing (Cont.) 36 Parallel Data Warehouse Control Rack 37 Data Rack Considerações Finais... 38 39 40 Por favor preencha a avaliação © 2008 Microsoft Corporation. Todos os direitos reservados. Microsoft, Windows, Windows Vista e outros nomes de produtos são ou podem ser marcas registradas e/ou marcas comerciais nos EUA e/ou outros países. Este documento é meramente informativo e representa a visão atual da Microsoft Corporation a partir da data desta apresentação. Como a Microsoft deve atender a condições de mercado em constante alteração, este documento não deve ser interpretado como um compromisso por parte da Microsoft, e a Microsoft não pode garantir a precisão de qualquer informação fornecida após a data desta apresentação. A MICROSOFT NÃO DÁ QUALQUER GARANTIA, SEJA ELA EXPRESSA, IMPLÍCITA OU ESTATUTÁRIA, REFERENTE ÀS INFORMAÇÕES DESTA APRESENTAÇÃO.