Infraestrutura computacional para BI Guilherme Galante Roteiro Introdução Armazenamento de dados Mídias de armazenamento RAID DAS, NAS, SAN Sistemas de Arquivo Backup Alta Disponibilidade Virtualização e Computação em nuvem 2 Infraestrutura para BI Parte I – Introdução 3 Infraestrutura para BI Larissa T. Moss, Shaku Atre - Business Intelligence Roadmap: The Complete Project Lifecycle for Decision-Support Applications - Addison Wesley. 2003 BI: Passos para o desenvolvimento 4 Infraestrutura para BI Demanda por Infraestrutura BI Grande Quantidade de dados Armazenamento Processamento Armazenamento Confiabilidade e Disponibilidade Capacidade Desempenho Processamento 5 Desempenho Escalabilidade (mudanças acontecem) Infraestrutura para BI O aumento da quantidade de dados emergiu como o maior desafio para a infraestrutura de hardware de data centers, com 47% dos clientes de grandes empresas classificando-o entre os três principais desafios, seguido por desempenho do sistema e escalabilidade (37%), além de congestionamento da rede e arquitetura de conectividade (36%). Gartner 2011. Parte I – Armazenamento de Dados 6 Infraestrutura para BI Camadas de Armazenamento de dados 6. Aplicações e Banco de Dados 5. Sistema de Arquivos 4. Software RAID e Ger. Volumes 3. Hardware de RAID 2. SAN (Storage Area Network) 1. Mídias de Armazenamento 7 Infraestrutura para BI Parte I.1 – Mídias de Armazenamento 8 Infraestrutura para BI Discos Rígidos 90% de novas informações geradas são armazenadas em discos rígidos (2007) Confiáveis(?!) Fatores relevantes para falhas: 9 Compostos por diversos componentes Tempo de vida médio: 5 anos Idade Carga de uso Ambiente Infraestrutura para BI Anatomia do disco 10 Infraestrutura para BI Probabilidade de Falhas em disco Estudo do Google (2007) USENIX Conference on File and Storage Technologies (FAST’07) Dados coletados de 100.000 discos de seus servidores Conclusões 11 Após o segundo ano de vida do HD a probabilidade de falha quadruplica A utilização do HD influencia menos que o esperado; a alta utilização só aumenta sensivelmente a taxa de falhas nos 6 primeiros meses e após o 5º ano de uso A temperatura também influencia menos que o esperado. A longo prazo a melhor temperatura de operação é entre 30-40 graus Infraestrutura para BI S.M.A.R.T Self-Monitoring, Analysis and Reporting Tecnhology Sistema de monitoramento de discos que detecta e antecipa falhas, através de vários indicadores de confiabilidade 12 Implementado no próprio disco Infraestrutura para BI S.M.A.R.T – Informações do disco Seek error rate Correções de erro 13 Tempo de inicialização Reallocated sector count Setores realocados (!) Temperatura Contador de ativações/desativações Horas de funcionamento Scan error rate Spin up time Problemas na mídia magnética hardware ECC recovered Trilha não encontrada Raw read error rate Taxa de erros não reparáveis Infraestrutura para BI S.M.A.R.T Conclusões Google retiradas do S.M.A.R.T Após o primeiro Scan Error (Raw Read Erro Rate) a chance de um HD falhar nos próximos 60 dias aumenta pelo fator 39 Após o primeiro Reallocation Count chance de um HD falhar nos próximos 60 dias aumenta pelo fator 14 Após o primeiro Offline Realocation chance de um HD falhar nos próximos 60 dias aumenta pelo fator 21 Após o primeiro Pending Sector chance de um HD falhar nos próximos 60 dias aumenta pelo fator 16. 2/3 das falhas podem ser previstas 1/3 ocorre sem aviso 14 Infraestrutura para BI Ferramentas Smartmontools (linux e windows) http://sourceforge.net/apps/trac/smartmontools/wiki Disponível em várias distribuições Interface gráfica http://gsmartcontrol.berlios.de/home/index.php/en/Home CrystalDiskInfo (windows) Disk Monitor (windows) http://www.ntfs.com/disk-monitor.htm 15 Infraestrutura para BI Solid State Disks - SSD Usam materiais semi-condutores para o armazenamento Sem partes móveis Não é sensível a choque, altitude, vibração, magnetismo Problemas: limite de regravações custo Compensa? 16 Infraestrutura para BI HDD vs SDD 17 Infraestrutura para BI Fitas Magnéticas Dispositivos de armazenamento de dados mais utilizados no mercado corporativo para guardar dados e fazer backups Desde que armazenadas adequadamente, podem conter informações por aproximadamente 1 século Grande capacidade de armazenamento 18 Infraestrutura para BI Parte I.2 – RAID 19 Infraestrutura para BI RAID Redundant Array of Independent (Inexpensive) Disks Motivação: Redundância (confiabilidade) Desempenho Volumes lógicos maiores Dividido em níveis (0 – 6) Hardware ou Sofware 20 Infraestrutura para BI RAID 0 Conhecido como stripping Aumento do tamanho da unidade lógica Aumento do Desempenho Blocos pode ser lidos/escritos em paralelo Não confundir com JBOD Junção de 2 ou mais discos Sem redundância (!) Divisão dos dados em fatias (stripes) Just a Bunch Of Disks Quando usar: Quando for necessário APENAS desempenho Operações temporárias 20GB 20GB 40GB 21 Infraestrutura para BI RAID 0 - desempenho Fonte: Clube do Hardware 22 Infraestrutura para BI RAID 1 Espelhamento de discos (mirroring) Desempenho: Dados armazenados em dois ou mais dispositivos Redundância de dados Cara (50% do espaço de disco) Leitura rápida (com suporte do SO) Escrita lenta Quando usar: Aplicações que exigem redundância Leituras rápidas Ex. Pequenos servidores de arquivo 20GB 20GB 20GB 23 Infraestrutura para BI RAID 2, 3 e 4 Obsoletos e pouco utilizados Variações de RAID 0 RAID 2 RAID 3 Código de Hamming (correção de erros) Discos atuais já possuem este tipo de correção Um disco para armazenar paridade (byte) RAID 4 24 Um disco para armazenar paridade (bloco) Infraestrutura para BI RAID 5 Divide dados entre todos os discos Paridade distribuída Bom desempenho Um disco pode falhar sem perda de dados Operações paralelas Quando usar: Desempenho Redundância Servidores de BD Mínimo 3 discos 20GB 20GB 20GB 60GB 25 Infraestrutura para BI 20GB RAID 6 Variação do RAID 5 Duplicação dos blocos de paridade 26 Infraestrutura para BI RAID 0+1 Junção de dois volumes RAID0 em um volume RAID1 Dobra-se a velocidade de leitura e gravação Tolerância a falhas de até dois discos RAIDs diferentes Quando usar: 27 Rapidez e redundância 4 discos necessários 50% perda de espaço Infraestrutura para BI RAID 10 Junção de dois volumes RAID1 em um volume RAID0 Desempenho elevado Confiabilidade 28 Infraestrutura para BI RAID 50 Combina o stripping do nível 0 com a paridade distribuída do nível 5 Requer pelo menos 6 drives Escritas rápidas Ótimo desempenho 29 Infraestrutura para BI RAID – capacidade 30 Infraestrutura para BI RAID – desempenho 31 Infraestrutura para BI RAID: HW vs SW 32 Infraestrutura para BI RAID por hardware Controladoras que realizam todas as operações via hardware Podem ser externas ou “plugáveis” Algumas placas-mãe já tem embutidas (ponte-sul compatível) Os chipsets da Intel que têm RAID integrado possuem a letra “R” O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado - RAID 0, 1, 5, 10 e JBOD - 4 discos SATA II ou SATA I - PCI express - Aprox. R$500,00 ROCKETRAID2302 33 Infraestrutura para BI RAID por hardware O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado Muitas vezes como um drive SCSI Chip Promise FastTrak 100 Lite da Soyo Dragon Plus 34 Infraestrutura para BI RAID por sofware A grande vantagem do RAID por software é seu custo Nenhuma placa adicional ou mesmo componente onboard faz parte dos seus requisitos Na verdade, a única necessidade é ter um sistema operacional que dê suporte a essa tecnologia 35 Windows, Linux e MacOS possuem suporte a RAID Infraestrutura para BI RAID por sofware Windows 7 (ultimate) Computador -> Gerenciar -> Gerenciamento de disco Opções de RAID (partições/disco não alocados) 36 Infraestrutura para BI RAID por sofware Linux 37 Linha de comando: fdisk, mkraid e o mount (abordagem mais antiga) mdadm Opção de interface: Webmin + módulo Linux RAID Infraestrutura para BI RAID: Casos de Uso Servidor de imagens HTTP Imagens dos produtos em uma loja online Conteúdo estático Fotos são inseridas pelos funcionários Muitos acessos Necessidade de acesso rápido Ficar offline o mínimo possível Qual o melhor RAID? 38 Infraestrutura para BI RAID: Casos de Uso ACME Motion Picture Company Criação de vídeos Quantidade enorme de conteúdo 3 servidores 1. 2. 3. 39 Trabalhos terminados (Tolerância a Falhas) Trabalhos em andamento (Tolerância a Falhas) Edição (Desempenho e Tolerância a Falhas) Infraestrutura para BI Boa escolha? 40 Infraestrutura para BI Parte I.3 – DAS, NAS, SAN 41 Infraestrutura para BI DAS, NAS e SAS Discos locais podem não ser suficientes Desempenho Capacidade Alternativas: 42 DAS (Direct Attached Storage) NAS (Network Attached Storage) SAN (Storage Area Network) Infraestrutura para BI Conceitos Conectividade: Mídia: Como os processadores e armazenamento estão físicamente conectados Cabeamento e protocolos Protocolos: 43 Como as requisições são comunicadas à mídia Infraestrutura para BI Conectividade Conexão direta Interligado por rede REDE 44 Infraestrutura para BI 2 Mídia Alguns Padrões: 1. 2. 3. 4. Ethernet Fibre Channel Parallel SCSI SSA (Serial Storage Architecture) 3 4 45 Infraestrutura para BI Protocolos SCSI (Small Computer Systems Interface): NFS (Network File System) nível de bloco nível de arquivo CIFS (Common Internet File System) 46 nível de arquivo Infraestrutura para BI DAS (Direct Attached Storage) Sistema de armazenamento conectado diretamente a um servidor Não há acesso direto via rede acessados pelos outros computadores da rede através do computador ligado a este dispositivo Interface especial - host bus adapter (HBA) Variam de gavetas portáteis até dispositivos com vários discos Os principais protocolos usados nas conexões DAS são: ATA, SATA, eSATA, SCSI, SAS e o Fibre Channel Promise SmartStor DS4600 4Bay 47 Infraestrutura para BI Dell PowerVault MD1000 NAS (Network Attached Storage) Um NAS, por sua vez, roda um sistema operacional completo e funciona como um servidor de arquivos Também conhecidos como “filers” Tratada como única unidade de armazenamento Ligado diretamente na rede TCP/IP Acessado via protocolos NFS e CIFS 48 Usuário enxerga arquivos Infraestrutura para BI NAS Limitações: A rede pode ser um gargalo Quantidade de discos limitado à capacidade do equipamento Mais apropriado para uso no nível de arquivo Opções para implementação de NAS Equipamentos próprios PCs podem ser configurados como NAS 49 NFS OpenNas (BSD) OpenFiler (UNIX) Infraestrutura para BI SAN (Storage Area Network ) É uma rede dedicada ao armazenamento de dados Conecta storages aos servidores da rede Estrutura de rede dedicada, geralmente baseada em Fibre Channel 50 Os computadores que têm acesso ao SAN possuem interface específica para ligar-se ao SAN, além da interface de rede tradicional HBA (Host Bus Adapter) Infraestrutura para BI SAN (Storage Area Network ) O acesso a dados na SAN é de baixo nível, sendo parecido com o usado internamente em discos locais Acesso a LUNs (unidades lógicas) SAN Discos Físicos 51 Unidades Lógicas Infraestrutura para BI SAN Fonte: http://www.hardware.com.br/livros/servidores-linux/armazenamento-externo-das-nas-san.html 52 Infraestrutura para BI NAS vs SAN 53 Infraestrutura para BI NAS + SAN 54 Infraestrutura para BI iSCSI Tecnologia que permite que o cliente (initiator) envie comandos SCSI para um array de armazenamento (target) via TCP/IP Acesso aos discos remotos como se fossem unidades de armazenamento local através de cabos de rede Pode utilizar um adaptador Pode ser emulado por sofware 55 Infraestrutura para BI iSCSI Fonte: Adaptec 56 Infraestrutura para BI DAS, NAS e SAN 57 Infraestrutura para BI Parte I.4 – Sistemas de Arquivo 58 Infraestrutura para BI Sistemas de Arquivo Um sistema de arquivos (SA) e um conjunto de estruturas lógicas e de rotinas, que permitem o acesso a dispositivos de armazenamento Localização de arquivos e diretórios no disco 59 Quais setores são utilizados para armazenar um arquivo Infraestrutura para BI Sistemas de Arquivo O desempenho do SA acaba por influenciar diretamente o desempenho de um sistema computacional como um todo E importante conhecer o desempenho dos SAs disponíveis em um sistema operacional Comparativo de características de Sistemas de arquivo: 60 http://en.wikipedia.org/wiki/Comparison_of_file_systems http://wiki.novell.com/index.php/File_System_Primer Infraestrutura para BI Benchmarking Sistemas de Arquivo Testes efetuados usando IOZone Ambiente Computacional CPU: Xeon E5405 Quad, 2.00 GHz, 6144 KB de cache por core; Memória: 2GB DDR; Disco: Seagate Barracuda, 400 GB, 7200 rpm, 16 MB de cache Sistema Operacional: Linux Debian Lenny 5.0.6 NetInst i386; IOZone: versão 3.353 SAs Testados 61 EXT2 e EXT3 REISER BTRFS Infraestrutura para BI Resultados - Escrita 62 Infraestrutura para BI Resultados - Leitura 63 Infraestrutura para BI Outros Testes - PostgreSQL http://www.phoronix.com/scan.php?page=article&item=linux_2638_large&num=1 64 Infraestrutura para BI Sistemas de Arquivos - Considerações Testes apropriados para o ambiente Considerar um SAN ou rede, por exemplo Desempenho nem sempre é o mais importante Levar em consideração questões como segurança, capacidade, etc. Sistemas de Arquivo são “tunáveis” 65 Cache Journaling Compressão Infraestrutura para BI “S... happens...” Parte II – Backup 66 Infraestrutura para BI Backup Fundamental para organizações de qualquer porte Geralmente não recebem a importância devida Ideia geral: Nem o investimento... Copiar os dados para algum lugar e recuperar se necessário Não é tão simples como parece Como você cuida do backup dos seus dados? 67 Infraestrutura para BI Backup O backup é realizado devido a várias razões das quais podemos destacar : 68 requisitos de negócio proteção contra falhas de hardware recuperação a desastres proteção contra falha da aplicação proteção contra o erro do usuário atigimento de específicos níveis de serviço requisitos legais Infraestrutura para BI Backup - Observações Mirroring não substitui backup Recuperações são mais comuns do que parece Apagamento de arquivos ou diretórios (rm –rf) Problemas no RAID Otimize para a recuperação de um único arquivo Teste a capacidade de restauração Arquivos podem ser apagados ou corrompidos Evite a criação de backups inúteis Cuide das mídias (fitas, discos ópticos, HDs) 69 Infraestrutura para BI Por que Back up? Fonte: HP (http://static.highspeedbackbone.net/pdf/hp_why_backup.pdf) 70 Infraestrutura para BI Backup Qual o custo da perda de dados? Clientes Vendas Moral (!) Imagem da empresa Tempo (e $) Qual o custo do downtime? 71 Sistema fora do ar Qualidade de trabalho Tempo Infraestrutura para BI Backup - O que guardar? Sistema Arquivos Configurações do sistema Sofware instalado (ao menos uma lista) Arquivos em geral Banco de dados 72 Dados e configurações SGBDs possuem funcionalidades para isso Infraestrutura para BI Tipos de Backup Full: Incremental (ou cumulativo) Todos os dados são copiados Server de referência para os demais Demorado backup de arquivos que foram alterados ou novos desde o último backup incremental Diferencial 73 backup dos arquivos que foram alterados desde que foi feito um backup completo Mais rápido Infraestrutura para BI 60 GB de dados 5 GB de alterações por dia 20 GB/h: velocidade de backup 74 incremental diferencial Exemplo – Backup de dados Infraestrutura para BI Exemplo - Restauração 15 GB/h: velocidade de restauração 2 min: manipulação da mídia (fita, no caso) Erro ocorreu na sexta, após o backup de quinta ter sido completado E para um backup do dia 29, considerando que o backup full ocorreu dia 01? 75 Infraestrutura para BI Métodos de backup Nível de arquivos Nível de imagem ou bloco Usa o sistema operacional para fazer o backup dos arquivos O Backup é mais longo Fácil de recuperar arquivos únicos Backup no nível de bloco Muito rápido Dificuldade de recuperar arquivos únicos sem acesso aos metadados Nível de aplicação 76 Utiliza uma aplicação específica para executar o backup Infraestrutura para BI Hot Backup Realizado quando dados estão sendo atualizados, adicionados ou lidos por seus usuários, mas não controla transações correntes Somente o sistema de gerenciamento de banco de dados (SGBD) de recursos deve ser usado para fazer backups deste tipo Certifique-se que os backups sejam feitos apenas durante poucas horas de trabalho A indicação deste tipo de Backup é para ambientes onde o banco de dados precisa permanecer online 24 horas por dia e 7 dias por semana 77 não exigem paralisação como os cold backup que são realizados off line Infraestrutura para BI Armazenamento de Backup Ambiente apropriado Validade das mídias Armazenamento fora de sede Mídias limpas Temperatura adequada Identificação (Data, tipo) Incêndio ou alagamento do CPD Furto ou roubo Inabilidade de acessar as dependências principais do escritório Falha dos sistemas primários de backup Falhas da gravação ou leitura em mídias magnéticas Backup via Rede e/ou Cloud pode ser uma alternativa 78 Infraestrutura para BI Backup Linux Backups locais dump/restore Tar Cpio Backup via rede 79 rsync Bacula (http://www.bacula.org) Amanda (http://www.amanda.org/) Infraestrutura para BI Backup Windows SO possui ferramenta do própria Já foi problemático Melhorou nas últimas versões do Windows Outras opções SyncBack (http://www.2brightsparks.com/syncback/syncback-hub.html) Cobian (http://www.educ.umu.se/~cobian/cobianbackup.htm) Acronis True Image (http://www.acronis.com/homecomputing/products/trueimage/) Muitas outras... 80 Infraestrutura para BI Camadas de Armazenamento - Overview 6. Aplicações e Banco de Dados 5. Sistema de Arquivos 4. Software RAID e Ger. Volumes 3. Hardware de RAID 2. SAN (Storage Area Network) 1. Discos Físicos 81 SA locais e de rede (NFS, CIFS) RAID HW, SW , níveis FC, iSCSI HDs, DAS e NAS Infraestrutura para BI Parte II – Alta Disponibilidade 82 Infraestrutura para BI Disponibilidade (Availability) Disponibilidade é a probabilidade do sistema estar operacional em um instante de tempo determinado Alternância de períodos de funcionamento e reparo Um sistema pode ser altamente disponível mesmo apresentando períodos de inoperabilidade Exemplos de sistemas onde alta disponibilidade é requerida: base de dados on-line servidores de rede servidores de páginas web 83 Infraestrutura para BI Fatores que afetam a disponibilidade Planejados Backups Upgrade de Hardware e/ou software Manutenção Reconfiguração e realocação Não Planejados 84 Falhas do sistema operacional Falhas de aplicação Falhas no hardware Erros operacionais Desastres Naturais Falta de Energia Ataques (virus, invasões) Fonte: IBM Global Services Infraestrutura para BI Medidas de Disponibilidade Número de 9’s É a medida do número de noves na expressão de percentagem de tempo de disponibilidade Fonte: http://technet.microsoft.com/pt-br/library/cc668492.aspx 85 Infraestrutura para BI Classes de disponibilidade Básica: 99% a 99,9% Alta: 99,99% a 99,999% Contínua: 100% 86 Depende das necessidades da organização e de suas aplicação Infraestrutura para BI Implementação Redundância Failover Fontes Refrigeração Disco (RAID é um exemplo) Etc... Recuperação para manter o serviço no ar Recurso substitui o recurso faltoso automaticamente Balanceamento de carga 87 Infraestrutura para BI Exemplo de servidor com TF Exemplo de servidor TF Stratus: http://www.stratus.com/ Outras empresas também possuem servidores HA • HP • SUN • entre outras... 88 Infraestrutura para BI Clusters HA CLUSTER: Conjunto de servidores agrupados com intenção de ganho de desempenho, disponibilidade, ou facilidade no gerenciamento Tipos: 89 Alta disponibilidade Balanceamento de carga Cluster de processamento paralelo Infraestrutura para BI Clusters HA Intenção de manter a maior disponibilidade possível dos serviços, através da duplicação de servidores, ambientes de rede, discos, etc Sistema de monitoração interno no cluster garante que, no caso de falha do servidor ativo, o sistema em standby assumirá os serviços automaticamente Linux: 90 Heartbeat Mon DRBD Infraestrutura para BI Clusters HA - Heartbeat Núcleo do ambiente de alta disponibilidade Troca de mensagens entre os servidores Gerenciamento de um IP compartilhado entre os nodos 91 Infraestrutura para BI Clusters HA – MON O mon é utilizado para monitorar os serviços locais da máquina e executar uma tarefa caso ocorra algum problema com o serviço monitorado Por exemplo: monitorar o apache e caso o mesmo tenha problemas de requisição, o mon irá derrubar o heartbeat forçando assim a máquina slave a assumir os serviços DRBD: Consiste em um módulo para o kernel Linux que faz o espelhamento dos dados de um dispositivo de bloco 92 Infraestrutura para BI Exemplo de aplicação Implementação de um serviço de diretórios para autenticação de usuários 93 OpenLDAP Heartbeat Mon DRBD Infraestrutura para BI Windows Cluster Failover Clustering in Windows Server - White paper http://download.microsoft.com/download/F/2/1/F2146213-4AC0-4C50-B69A-12428FF0B077/WS08%20R2%20Failover%20Clustering%20White%20Paper.doc 94 Infraestrutura para BI “A realidade demonstrada no relatório do Gartner traz à tona a urgência e a importância de se adotar uma nova infraestrutura e operações tecnológicas, principalmente baseadas em serviços de Cloud Computing e virtualização.” Ione de Almeida Coco - vice-presidente do Programa Executivo Gartner AL. Parte III – Virtualização e Nuvens Computacionais 95 Infraestrutura para BI Virtualização Ideia não é nova: década de 60 mainframes Década de 80: PC – virtualização em desuso 30 anos depois... Arquitetura X86 Máquinas subutilizadas 10% ou 15% em média Aumento dos custos para infraestrutura física Muitas máquinas: manutenção difícil Hoje: infraestrutura virtualizada 96 máquinas virtuais Hypervisores Infraestrutura para BI Virtualização 97 Infraestrutura para BI Beneficios da Virtualização Redução na quantidade de hardware físico Economia com energia e refrigeração Poupança de espaço Instalações simplificadas Facilidade para a execução de cópias de segurança Independência de Hardware Disponibilização de novos servidores virtuais (VPS) reduzida para alguns minutos Migração de servidores para novo hardware de forma transparente Maior disponibilidade e mais fácil recuperação de servidores Compatibilidade total com as aplicações 98 Infraestrutura para BI Soluções de Virtualização VMWare Microsoft HyperV Xen KVM 99 Infraestrutura para BI Virtualização e Computação em Nuvem Virtualização é fundamental para o conceito de computação em Nuvem Muitos dos conceitos envolvidos na nuvem são derivados ou utilizam conceitos de virtualização Mas afinal... O que é a computação em Nuvem? 100 Infraestrutura para BI