Supercomputador Pleiades Introdução ao Processamento Paralelo e Distribuı́do Renato M. Dilli1 1 Centro Politécnico – Mestrado em Ciência da Computação Universidade Católica de Pelotas (UCPel) [email protected] Resumo. Este trabalho descreve as principais caracterı́sticas e recursos do supercomputador Pleiades. Em novembro de 2008 ele estava em terceiro lugar na lista do site TOP500. É apresentado um pequeno histórico dos supercomputadores da Divisão de Supercomputação Avançada da NASA, local onde se encontra o supercomputadore Pleiades. 1. Histórico Pleiades é um sistema SGI ICE [SGI 2009] capaz de atingir 565TFlops com 47104 cores. O seu nome é uma referência ao aglomerado estelar na constelação de Touro. O aglomerado estelar das Plêiades [Wikipedia 2009] é o aglomerado de estrelas mais brilhantes em todo o céu, também chamado de Sete Irmãs, M45 ou Subaru (no Japão). Figura 1. Supercomputador Pleiades O Pleiades é composto de 5888 nodos interconectados com Infiniband em uma topologia hipercubo. Cada nodo contém oito processadores Intel Xeon X5472 3.0 GHz (Harpertown) em dois Quad-Cores, e 8 GB de memória. A NASA possui dois sistemas SGI Altix ICE (Integraded Compute Environment) chamados Pleiades e RTJones [NASA 2009]. A união destes dois sistemas pontuou o supercomputador Pleiades como o terceiro supercomputador mais potente do mundo, conforme a lista dos supercomputadores mais potentes de novembro de 2008, no site TOP500 [Top500 2009]. Atingiu o ı́ndice de 487 TeraFLOPS no teste realizado com LINPACK, com pico de 608 TeraFLOPS. Este resultado faz do Pleiades o supercomputador para uso geral mais potente do mundo. Ele está instalado no centro de pesquisas da NASA (National Aeronautics and Space Administration) em Mountain View, Califórnia, Estados Unidos. A Divisão de Supercomputação Avançada da NASA há 25 anos dedica-se a disponibilizar recursos e ferramentas de simulação necessárias para missões crı́ticas e fazer novas descobertas cientı́ficas para o benefı́cio da humanidade. O RTJones foi instalado em 2007 e é usado exclusivamente por usuários de Missões Aeronáticas Direcionadas. Seu nome é uma homenagem a Robert Thomas Jones, famoso por descobrir um ingrediente essencial para alcançar boa relação custoeficácia em voos supersônicos. RTJones é composto de 512 nodos interconectados com Infiniband numa topologia hipercubo. Cada nodo contém oito processadores Intel Xeon 2.66Ghz (Clovertown) em dois Quad-Cores, e 8GB de memória. Seus 4096 cores tem um pico teórico de performance de 43 TFlops. O Pleiades suplementa o supercomputador Columbia, também instalado na NASA, que estreou em 2004 como o segundo supercomputador mais rápido do mundo. O Columbia ajudou a NASA a retomar com sucesso o programa Space Shuttle e economizar milhares de horas de pesquisa em muitos outros projetos. O Columbia é formado por 14336 cores numa plataforma SGI Altix da Silicon Graphics. O supercomputador Columbia foi pontuado na lista de junho de 2008, do site TOP500, em vigésimo quinto e na lista de novembro de 2008 em trigésimo nono. 2. Motivações Os pesquisadores utilizam o Pleiades para simular falhas catastróficas, para que possam conceber sistemas e procedimentos para prevenir problemas que possam ameaçar a segurança e a sobrevivência dos astronautas. Atualmente o Pleiades possui mais que o dobro da potência e capacidade do sistema inicial de 40 ármários SGI Altix ICE. A rápida expansão resultou de um esforço em conjunto da NASA, Silicon Graphics e Benchmark Electronics. Segundo Rupak Biswas [Newswire 2008], chefe da divisão de supercomputação da NASA (NAS), o Pleiades permite realizar o trabalho seis vezes mais rápido que o Columbia , permitindo aos pesquisadores realizarem projetos maiores e mais complexos sem comprometer a capacidade computacional para simulação ou para outros projetos em andamento. Pleiades tem sido escolhido pela NASA como a próxima geração tecnológica que atende as necessidades futuras de supercomputação da agência. Com o Pleiades, será possı́vel atender mais que duas vezes e meia a atual necessidade computacional dos cientistas e engenheiros de conduzir simulações e modelar missões. O Pleiades é um sistema SGI Altix ICE, da Silicon Graphics 3,5 vezes maior do que qualquer outra instalação SGI Altix ICE. Na produção do Pleiades a Silicon Graphics em parceria com Mellanox Technologies estão criando o maior cluster InfiniBand do mundo, com mais de 12800 nodos. O sistema de interconexão InfiniBand é 70% maior que os dois maiores sistemas combinados. No total ele suporta mais de 128TBits/s de largura de banda em comunicações IB. 3. Objetivos A NASA está utilizando o Pleiades em projetos do Programa Constellation, para refinar métodos de visualização da aeronave V-22 Osprey Tiltrotor e conduzir cálculos complexos para determinar como surgiu a vida na Terra. Entre os projetos aceitos para serem processados no Pleiades, podemos destacar: • Complexas simulações de grandes problemas computacionais para o projeto futuro de veı́culos espaciais • Desenvolvimento de modelos cada vez mais detalhados da evolução da galáxia • Executar modelos atmosféricos-oceanológicos para prever alterações climáticas 4. Visão Geral da Arquitetura Pleiades + RTJones Cluster de 51200 nodos instalados num sistema SGI(R) Altix(R) ICE 8200EX da Silicon Graphics, Inc. (SGI). 4.1. Sistema • • • • 100 Gabinetes (64 nodos em cada, 6400 nodos ao total) 609 TFlops Total de cores: 51200 Nodos – 5888 nodos (Pleiades) ∗ 2 processadores quad-core por nodo ∗ Processadores Xeon E5472 (Harpertown) ∗ Velocidade do processador de 3Ghz ∗ Cache - 6MB por par de cores – 512 nodos (RTJones) ∗ 2 processadores quad-core por nodo ∗ Processadores Xeon X5355 (Clovertown) ∗ Velocidade do processador de 2.66 Ghz ∗ Cache - 4MB por par de cores 4.2. Sub-Sistemas • 8 nodos de front-end • 1 PBS server 4.3. Memória • Tipo DDR2 FB-DIMMs • 1GB por core, 8GB por nodo • Total de Memória - 51 TB 4.4. Interconexões • Entre nodos - InfiniBand, 6400 nodos em uma topologia hipercubo 10D • Dois InfiniBand fabrics independentes rodando a 4x DDR • Rede de gerenciamento Gigabit Ethernet 4.5. InfiniBand A arquitetura InfiniBand [Pentakalos 2002] rompe a limitação da largura de banda do barramento PCI migrando a tradicional arquitetura de barramento compartilhado em uma arquitetura comutada (switched fabric). As figura 2 mostra uma configuração simplificada de uma instalação InfiniBand. Um nodo pode representar um servidor bem como um dispositivo de E/S, como um sub-sistema RAID. O switched fabric consiste de um único switch, nos caso mais simples ou uma coleção de switches e roteadores interconectados. O termo switched fabric é também conhecido como switching fabric ou somente fabric é uma topologia de rede onde os nodos conectam-se através de um ou mais switches de rede. Esta topologia permite a conexão teórica de até 16 milhões de dispositivos, limitada apenas pelo espaço de endereçamento disponı́vel. A conexão entre nodos, switches, e roteadores é uma conexão serial ponto-aponto. Esta caracterı́stica agrega os seguintes benefı́cios: • Por ser uma conexão serial, ele requer apenas quatro vias para conexão, ao contrário da grande quantidade de vias necessárias no barramento PCI, que é paralelo. • A natureza ponto-a-ponto da conexão permite total capacidade de conexão entre duas extremidades porque o link é dedicado para os nodos. Isto elimina a contenção do barramento, bem como delays que podem ocorrer em condições de utilização extrema, situações comuns numa arquitetura de barramento compartilhado. • O canal InfiniBand foi concebido para conectar hosts e dispositivos de E/S dentro de um Data Center. Desta forma, o comprimento das conexões são relativamente curtas, permitindo que uma largura de banda muito maior possa ser alcançada. A figura 3 ilustra um sistema em rede que utiliza a arquitetura InfiniBand. Nesta figura a fabric consiste de três switches que conectam seis nodos. Cada nodo conecta ao fabric através de um adaptador de canal. A especificação InfiniBand classifica os adaptadores de canal em duas categorias: Host Channel Adapters (HCA) e Target Cahnnel Adapters (TCA). Figura 2. Topologia Basica InfiniBand Fabric HCA estão presentes em servidores ou eventualmente em desktops e proveem uma interface que é usada para integrar o InfiniBand com o sistema operacional. TCAs estão presentes em dispositivos de E/S, tal como, subsistemas RAID. Cada adaptador de canal pode ter uma ou mais portas. Um adaptador de canal com mais de uma porta pode conectar em vários portas de switches. Isto permite vários caminhos entre a origem e o destino, resultando ganho de desempenho. Figura 3. Rede baseada na arquitetura InfiniBand Duas caracterı́sticas da arquitetura InfiniBand que estão evidentes na figura 3 são a habilidade de compartilhar dispositivos de armazenagem através de múltiplos servidores e a habilidade de realizar um third-party E/S. Third-party E/S é o termo usado para referirse a capacidade de dois dispositivos de armazenagem completarem uma transação de E/S sem envolvimento direto de hosts que não estão envolvidos na operação. Esta caracterı́stica é extremamente importante na perspectiva de desempenho, pois muitas operações de E/S entre dois dispositivos de armazenamento podem ser totalmente independentes do servidor, eliminando a utilização desnecessária de CPU. Tabela 1. Taxa de transferência teórica - InfiniBand Single(SDR) 1X 2 Gbit/s 4X 8 Gbit/s 12X 24 Gbit/s Double(DDR) 4 Gbit/s 16 Gbit/s 48 Gbit/s Quad(QDR) 8 Gbit/s 32 Gbit/s 96 Gbit/s A conexão serial do InfiniBand tem uma taxa de 2,5 Gbit/s em cada direção, por conexão (SDR). Infiniband também suporta velocidades DDR e QDR, equivalente a 5 Gbit/s ou 10 Gbit/s respectivamente, na mesma velocidade de clock. Como é utilizado a codificação 8B/10B, a cada 10 bits enviados, 8 são utilizados com dados, as velocidades caem para 2 Gbit/s (SDR), 4 Gbit/s (DDR) e 8 Gbit/s. A tabela 1 relacionada as velocidades máximas alcançadas em links de 1X, 4X e 12X. 4.6. Armazenamento • Nexis 9000 home filesystem • 3 sistemas de arquivos Lustre, cada um contendo: – 8 Object Storage Servers(OSS) – 1 Metadata server (MDS) – 2 DDN 9900 RAIDs - 300TB total 4.7. SGI InfiniteStorage NEXIS 9000 Utilizado pelo supercomputador Pleiades o SGI InfiniteStorage NEXIS 9000 NetworkAtached Storage(NAS) usa rede InfiniBand para extrair máxima performance em armazenagem baseada em arquivos. Figura 4. SGI NEXIS 9000 Os discos rı́gidos utilizados pelo NEXIS 9000 utilizam a tecnologia SAS (serialattached SCSI) que vem a substituir a SCSI. SAS transmite mais dados e mais rápido em um único fio que o SCSI que precisa de 32 vias no cabo. O SAS manteve o conjunto de comandos SCSI para que seja compatı́vel com SCSI. Com um expansor SAS é possı́vel conectar até 128 dispositivos sem estender a distância de até 8 metros. Um domı́nio SAS pode ter até 16256 dispositivos, conectando-se diversos expansores. A velocidade básica é de 3 Gbps, que equivale a 300MBps, que pode ser duplicada a 600MBps desde que o canal SAS seja full-duplex. Principais Caracterı́sticas: • • • • • Totalmente integrado, pré-configurado e ajustado para máxima performance Expansı́vel Otimizado para servidores SGI de alta performance Ip sobre InfiniBand (IB), 10 Gigabit Ethernet ou Gigabit Ethernet Conjunto de ferramentas para Administração e Gerenciamento para uma rápida implementação • Sistema de Arquivos de alta performance, baixa latência e escalável NAS Server - Caracterı́sticas: • Tipo de CPU - 4 a 8 Intel Itanium Dual Core • Memória do Sistema - Até 192GB • Opções de Conectividade (E/S) - 6 portas GbE copper plus compatı́vel com os cartões: 1 Porta DDR InfiniBand (IB), ou 1 Porta 10GbE óptica ou 4 portas GigE • Host Backend - 4 a 10 portas de 4 canais SAS Storage - Caracterı́sticas: • • • • • • 4 a 10 conjuntos RAID com controladores RAID redundantes 48 a 480 drives SAS Até 12 trays de 12 drives SAS idênticos no sistema base Até 6 conjuntos adicionais RAID nı́vel 5 Capacidade máxima de 216TB Dimensões: • • • • NAS Server - 10U Storage Controller Tray - 2U Storage Expansion Tray - 2U Rack - 39U ou SGI Server Rack 4.8. DDN S2A9900 O sistema S2A9900 StorageScaler da DataDirect Networks possui técnicas revolucionárias que são as seguintes: Figura 5. DDN S2A9900 • • • • • • • • Leitura e escrita na mesma velocidade (6GB/s) Qualidade de serviço em tempo real RAID 6 sem queda de performance 1.2PB em apenas dois armários 1200 drives por sistema Consumo de energia reduzido S2A SleepMode InfiniBand 4X DDR nativo e canal de fibra 8Gbps 4.9. Ambiente Operacional • Sistema Operacional - SUSE Linux Enterprise Server • Job Scheduler - PBS (Portable Batch System) 4.10. Aplicações • Linguagens de Programação e Debugadores – Intel C++ Compiler – GNU GCC – Intel Fortran (Fortran 95) – GNU GCC (Fortran 77) – Intel Debugger – GNU GDB – TotalView Debugger – MemoryScape Memory Debugger – Intel Thread Checker • Bibliotecas – Intel Math Kernel Library – Intel Integraded Performance Primitives – Intel Threading Building Blocks – Intel MPI Library • Ferramentas de Desenvolvimento – Intel VTune Performance Analyzer – Intel Trace Analyzer Collector – Interactive Supercomputing Star-P – Plataform MPI – OpenMP – SGI Message Passing Toolkit 4.11. Sistema de Arquivos Lustre O sistema de arquivos Lustre utilizado pelo supercomputador Pleiades é um sistema de arquivos distribuı́dos de código aberto, largamente utilizado em clusters de grande porte. O projeto tenta prover um sistemas de arquivos para um cluster de dezenas de milhares de nós e petabytes de capacidade de armazenamento, sem comprometer a estabilidade e a segurança. Cada arquivo armazenado em um sistema de arquivos Lustre [Sun 2009] é considerado um objeto. Lustre apresenta a todos os clientes uma semântica POSIX padrão e acesso de leitura e escrita concorrente aos objetos compartilhados. Um sistema de arquivos Lustre tem quatro unidades funcionais: um “Servidor de Meta dados”(MDS) para armazenar os meta dados; um Armazenador de Alvos de Objeto (OST) para armazenar os dados atuais; um Servidor de Objetos Armazenados (OSS) para administrar o OSTs e cliente(s) para acessar e o usar os dados. OSTs são baseados em dispositivos de blocos. Um MDS, OSS, e um OST podem estar no mesmo nó ou em nós diferentes. Lustre não fala diretamente e não administra OSTs, ele apenas delega esta responsabilidade a OSSs para assegurar escalabilidade a grandes clusters e supercomputadores. • Requisitos do Sistema – Plataformas - IA64, I686, X86 64, PPC, Cross-endian – Sistemas Operacionais - Red Hat Enterprise Linux 4.5, SUSE 9.10, Linux com kernel 2.6 – Suporte a Rede - TCP/IP, Quadrics Elan 3.4, Myrinet, InfiniBand (Open Fabrics, OpenIB Gen 1, Silverstorm, Voltaire, Cisco) Figura 6. Sistema de Arquivos Lustre 5. Arquitetura SGI Altix ICE A arquitetura SGI Altix ICE da Silicon Graphics é composta por armários de 42U que comportam até 4 blade enclosures. Cada blade enclosures possui 16 sockets duplas para compute blades, para até 128 sockets e 512 cores por armário. Figura 7. Armários SGI Altix ICE O Blade Enclosure ICE 8200EX possui quatro 4x DDR IB switch blades, topologia hipercubo e rede Gigabit Ethernet dedicada. 5.1. Softwares Todo software utilizado nos clusters Altix ICE da NAS (Pleiades e RTJones) é gerenciado através de um sistema chamado modules para centralizar a localização de produtos licenciados e de domı́nio público instalados no Pleiades e RTJones. Os módulos (programas) podem ser gerenciados da seguinte forma: • • • • • module avail: para encontrar que outros módulos estão disponı́veis module list: para listar quais módulos estão em seu ambiente module purge: para descarregar todos arquivos do módulo carregado module load module-name: para carregar o módulo desejado module switch old-module-name new-module-name: para alterar entre diferentes versões de um software Softwares de de terceiros, licenciados, disponı́veis: • FieldView - Software para identificar rapidamente importantes fluxos de recursos e caracterı́sticas em simulações • IDL - Análise de dados, visualização, e uma plataforma de desenvolvimento de aplicações • LSTC-DYNA - Software capaz de simular problemas complexos do mundo real • Tecplot - Utilizado para processar resultados de simulações Softwares de Código Aberto, Domı́nio Público: • Grace - É um WYSIWIG(O que você vê é o que você faz) para plotagem em 2D • MVAPICH - Utilizado entre a rede do cluster para aumento de performance e escalabilidade de aplicações 6. Caracterı́sticas do Sistema RTJones Cluster de 512 nodos em uma arquitetura SGI ICE 8200. 6.1. Nodos Os nodos disponı́veis para computação são nomeados como r[097-100,113-116],i[03]n[0-15]. Há ainda um nodo servidor PBS e nodos front-end, ambos não disponı́veis aos usuários. 6.2. Processador • • • • • • • • CPU Quad-Core Xeon X5355 (Clovertown) CPU-Clock - 2.66GHz Operações de Ponto Flutuante por ciclo de clock - 4 Número de Quad-Cores por nodo - 2 Número de Cores por nodo - 8 Total de nodos no cluster - 512 Total de Cores no Cluster - 4096 FSB - 1333MHz, 10,6 GB/s 6.3. Memória • L1 Cache - local para cada core, 32K para cache de instruções, 32K para cache de dados • L2 Cache - 8MB por Quad-Core, 4MB compartilhada entre pares de cores • Tamanho padrão da página - 4KB • Memória local por core - 1GB • Memória total por nodo (blade) - 8GB 6.4. Sistemas de Arquivos • Home - /rtj-home/u/userid, 2.7TB, soft limit 10GB, hard limit 12GB • /nobackup - /nobackup 172TB, soft limit 200GB, hard limit 400GB 6.5. Hierarquia de Hardware • Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de 1333 MHz com a memória) • 2 Quad-Cores em um nodo (blade) • 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack units) • 4 IRUs, nomeadas como i0-i3 em um armário • 8 armários, nomeados como r097-r100, r113-r116 no cluster Figura 8. Nodo RTJones Em adição aos 512 nodos há muitos outros nodos para funções diversas, conforme relacionados abaixo: • Service nodes: – 6 para todo cluster (2 como nodos para autenticação,1-2 como nodos interativos para compilação de software e 1 PBS server) – Usuários conectam-se neste nodo para compular e executar programas MPI – Proveem funcionalidade de gateway de E/S do cluster para rede interna do usuário • Leader nodes (não acessı́veis pelos usuários) – 1 por armário – Proveem imagem de boot do sistema para os nodos – Executa software de gerenciamento que monitora as funções do InfiniBand fabric – Conexões de rede GigE para nodo admin, nodos de serviço e nodos – Monitora, envia funções para os IRUs dentro dos armários e recebe dados dos nodos e IRUs. – Repassa dados dos IRUs e nodos para nodo admin • nodos (Compute nodes) – 512 ao total no cluster (16 por IRU ou 64 por armário) – Conexões de rede: GigE para os leader nodes, 100bT Ethernet to CMC, dual-plane IB para o resto do cluster. A comunicação entre os nodos e o nodo admin é restrita – Controlados e monitorados pelos leader nodes – Aceita jobs para processamento batch • Nodos de Armazenamento (Storage nodes) – 8 nodos de armazenamento para dados, 2 nodos para meta dados – Conexões de rede: IB para plano 1 (ib1), Ethernet para CMC • System Admin Controller (não acessı́vel pelos usuários) – 1 para todo cluster – Prove interface LAN externa – Conexões de rede: sem conexões IB – Gerencia configuração de software para o cluster – Usado para ativar e desativar todo cluster – Usado pelo administrador do sistema para gerenciar e monitorar o cluster O SGI Altix ICE 8200 utiliza arquitetura de interconexão InfiniBand com velocidade 4x DDR, integrado em unidades de armário independentes (IRU - independeent rack unit), sem cabos. Cada IRU inclui dois switches de nodos. A fabric conecta os nodos de serviço (service nodes), leader nodes e os nodos (compute nodes). Há dois IB fabrics no RTJones, um para MPI (ib0), e outro para E/S (ib1). A figura 9 exemplifica a utilização do InfiniBand no sistema SGU Altix ICE. Figura 9. InfiniBand com dois IRUs Atualmente os dois fabrics são separados em tráfego IP e tráfego MPI no ib0 e tráfego do sistema de arquivos Lustre no ib1. O InfiniBand do SGI Altix ICE utiliza o software Open Fabrics Enterprise Distribuition (OFED) 1.2. 7. Caracterı́sticas do Sistema Pleiades 7.1. Nodos Os nodos disponı́veis para computação são nomeados como r[1-76,81-88,105-108, 121124]i[0-3]n[0-15]. Há ainda um nodo servidor PBS e nodos front-end, ambos não disponı́veis aos usuários. 7.2. Processador • • • • • • • • CPU Quad-Core Xeon X5472 (Harpertown) CPU-Clock - 3GHz Operações de Ponto Flutuante por ciclo de clock - 4 Número de Quad-Cores por nodo - 2 Número de Cores por nodo - 8 Total de nodos no cluster - 5888 Total de Cores no Cluster - 47104 FSB - 1600MHz, 12,8 GB/s 7.3. Memória • L1 Cache - local para cada core, 32K para cache de instruções, 32K para cache de dados • L2 Cache - 12MB por Quad-Core, 6MB compartilhada entre pares de cores, velocidade de 3GHz • Tamanho padrão da página - 4KB • Memória local por core - 1GB • Memória total por nodo (blade) - 8GB 7.4. Sistemas de Arquivos • Home - /u/userid, 1TB, soft limit 8GB, hard limit 10GB • /nobackup - /nobackup1 110TB, /nobackup2 220TB, soft limit 200GB, hard limit 400GB 7.5. Hierarquia de Hardware • Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de 1600 MHz com a memória) • 2 Quad-Cores em um nodo (blade) • 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack units) • 4 IRUs, nomeadas como i0-i3 em um armário • 92 armários, nomeados como r1-r76, r81-r88, r121-r124 no cluster 8. Caracterı́sticas do Columbia O super cluster Columbia tornou possı́vel a NASA avançar na ciência e engenharia para a exploração espacial. A avançada arquitetura do Columbia está sendo disponibilizada para uma ampla comunidade de engenheiros e cientistas. Figura 10. SGI Altix Columbia Tabela 2. SGI Altix - Columbia Nodos Tipo Velocidade 11 Altix 3700 (512 cores) Madison 1.5 GHz 3 Altix 3700-BX2 (512 cores) Madison 1.5 GHz 5 Altix 3700-BX2 (512 cores) Madison 1.6 GHz 1 Altix 4700 (512 cores) Montecito 1.6 GHz 1 Altix 4700 (2048 cores) Montecito 1.6 GHz 2 Altix 4700 (1024 cores) Montvale 1.6 GHz Cache 6MB 6MB 9MB 9MB 9MB 9MB 8.1. Nodos 8.2. Arquitetura do Sistema • 304 nodos (compute node) • 88.88 Teraflop/s (pico teórico) 8.3. Sub-Sistemas • 2 sistemas Data Life Cycle (DLM) • 3 nodos front-end 8.4. Memória • Tipo DDR SDRAM • 2GB por processador • Memória total - 28672GB 8.5. Interconexões • NUMALink interconecta imagem do sistema aos nodos • Entre nodos: InfiniBand 4X DDR, 10Gb Ethernet, 1Gb Ethernet 8.6. Storage • DataDirect Networks • LSI RAID • SGI CXFS 8.7. Ambiente Operacional • Sistema operacional - SUSE Linux Enterprise • Job Scheduler - PBS • Compiladores - Intel Fortran, C, SGI MPI 9. Caracterı́sticas do Schirra O supercomputador Schirra é o primeiro cluster selecionado pela NASA para atender as necessidades futuras de supercomputação. O nome Schirra é uma homenagem ao astronauta Walter Schirra. Figura 11. IBM Power5+ Schirra 9.1. Arquitetura do Sistema • 6 Gabinetes • 4.8 Tflop/s 9.2. Nodos • • • • • 40 IBM 9118-575 Processadores POWER5+ Velocidade do processador - 1.9GHz 320 processadores dual-core, 640 cores 36MB cache L3 por processador 9.3. Sub-Sistemas • 2 nodos front-end 9.4. Memória • IBM DIMMS • 2GB por core • Memória total - 1280GB 9.5. Interconexões • Entre nodos - Switch de alta performance • Dentro do nodo - Avançado switch distribuı́do • 10Gb Ethernet para conexão dos front-end e nodes de armazenagem 9.6. Storage • Data Direct RAID, 160TB 9.7. Ambiente Operacional • Sistema Operacional - AIX Unix • Job Scheduler - PBS • Compiladores - IBM C/C++, IBM Fortran, IBM POE, gcc, g++ 10. Gerenciamento dos Supercomputadores na NAS A equipe de desenvolvimento de software da NAS desenvolveu um software para monitorar os supercomputadores através da WEB (miniHUD). Esta ferramenta permite aos usuários uma visão de alto nı́vel em detalhes de nodos e sub-sistemas, incluindo utilização de CPU, status da fila do PBS, entre outras informações do sistema. Mensagens popup informam anomalias no sistema como serviços que não estão sendo executados, discos que estão quase cheios, eficiência de CPU baixa e sistemas parados. Figura 12. Gerenciamento de Supercomputadores 11. Supercomputação Verde na NAS A Divisão de Supercomputação Avançada da NASA (NAS) criou um novo padrão com a instalação do Pleiades, um dos mais supercomputadores mais eficientes no consumo de energia no mundo. Pleiades está pontuado em vigésimo segundo na lista Green500 [Green500 2009]. Ele tem um desempenho de 233,02 MFlops por Watt e um consumo de 2090 kW. O sistema possui fontes de alimentação com no mı́nimo 89% de eficiência, e apenas uma por armário, reduzindo substancialmente o consumo de energia. As novas tecnologias utilizadas no Pleiades fazem ele ser cerca de 4 vezes mais eficiente que o supercomputador Columbia. A NAS limitou o montante de memória necessário da maioria dos usuários, embora algumas poucas aplicações tiveram uma pequena redução em performance por core, resultando uma redução no consumo de energia entre 10% e 15%. Para obter o máximo de produtividade e consumo eficiente de energia a NAS investe em algumas práticas: • Métodos para certificar que processadores que não estão ativos entrem automaticamente em espera com pouca energia • Atualização de hardware e ferramentas para aumentar a utilização do sistema, reduzindo ciclos de computação • Produzir mais resultados computacionais com os mesmos recursos • Técnicas de resfriamento de supercomputadores mais eficientes Referências Green500 (2009). The green500 list. http://www.top500.org. NASA (2009). Nasa advanced supercomputing division. Website. http://www.nas. nasa.gov. Newswire, P. (2008). Powered by silicon graphics, pleiades supercomputer fuels nasa’s journey to moon, then mars. http://uk.sys-con.com/node/750560. Pentakalos, O. (2002). An introduction to the infiniband architecture. Website. http: //www.oreillynet.com/pub/a/network/2002/02/04/windows.html. SGI (2009). Silicon graphics inc. Website. http://www.sgi.com. Sun (2009). Lustre file system. http://www.sun.com/software/products/ lustre/features.xml. Top500 (2009). Top500 supercomputer sites. http://www.top500.org. Wikipedia (2009). Plêiades. Website. http://pt.wikipedia.org/wiki/Pliades_ M45.