Supercomputador Pleiades Introduç ˜ao ao Processamento Paralelo

Supercomputador Pleiades
Introdução ao Processamento Paralelo e Distribuı́do
Renato M. Dilli1
1
Centro Politécnico – Mestrado em Ciência da Computação
Universidade Católica de Pelotas (UCPel)
[email protected]
Resumo. Este trabalho descreve as principais caracterı́sticas e recursos do supercomputador Pleiades. Em novembro de 2008 ele estava em terceiro lugar
na lista do site TOP500. É apresentado um pequeno histórico dos supercomputadores da Divisão de Supercomputação Avançada da NASA, local onde se
encontra o supercomputadore Pleiades.
1. Histórico
Pleiades é um sistema SGI ICE [SGI 2009] capaz de atingir 565TFlops com 47104 cores.
O seu nome é uma referência ao aglomerado estelar na constelação de Touro. O aglomerado estelar das Plêiades [Wikipedia 2009] é o aglomerado de estrelas mais brilhantes em
todo o céu, também chamado de Sete Irmãs, M45 ou Subaru (no Japão).
Figura 1. Supercomputador Pleiades
O Pleiades é composto de 5888 nodos interconectados com Infiniband em uma
topologia hipercubo. Cada nodo contém oito processadores Intel Xeon X5472 3.0 GHz
(Harpertown) em dois Quad-Cores, e 8 GB de memória.
A NASA possui dois sistemas SGI Altix ICE (Integraded Compute Environment)
chamados Pleiades e RTJones [NASA 2009].
A união destes dois sistemas pontuou o supercomputador Pleiades como o terceiro
supercomputador mais potente do mundo, conforme a lista dos supercomputadores mais
potentes de novembro de 2008, no site TOP500 [Top500 2009]. Atingiu o ı́ndice de 487
TeraFLOPS no teste realizado com LINPACK, com pico de 608 TeraFLOPS. Este resultado faz do Pleiades o supercomputador para uso geral mais potente do mundo. Ele está
instalado no centro de pesquisas da NASA (National Aeronautics and Space Administration) em Mountain View, Califórnia, Estados Unidos.
A Divisão de Supercomputação Avançada da NASA há 25 anos dedica-se a disponibilizar recursos e ferramentas de simulação necessárias para missões crı́ticas e fazer
novas descobertas cientı́ficas para o benefı́cio da humanidade.
O RTJones foi instalado em 2007 e é usado exclusivamente por usuários de
Missões Aeronáticas Direcionadas. Seu nome é uma homenagem a Robert Thomas
Jones, famoso por descobrir um ingrediente essencial para alcançar boa relação custoeficácia em voos supersônicos. RTJones é composto de 512 nodos interconectados com
Infiniband numa topologia hipercubo. Cada nodo contém oito processadores Intel Xeon
2.66Ghz (Clovertown) em dois Quad-Cores, e 8GB de memória. Seus 4096 cores tem um
pico teórico de performance de 43 TFlops.
O Pleiades suplementa o supercomputador Columbia, também instalado na
NASA, que estreou em 2004 como o segundo supercomputador mais rápido do mundo.
O Columbia ajudou a NASA a retomar com sucesso o programa Space Shuttle e economizar milhares de horas de pesquisa em muitos outros projetos. O Columbia é formado
por 14336 cores numa plataforma SGI Altix da Silicon Graphics.
O supercomputador Columbia foi pontuado na lista de junho de 2008, do site
TOP500, em vigésimo quinto e na lista de novembro de 2008 em trigésimo nono.
2. Motivações
Os pesquisadores utilizam o Pleiades para simular falhas catastróficas, para que possam conceber sistemas e procedimentos para prevenir problemas que possam ameaçar
a segurança e a sobrevivência dos astronautas.
Atualmente o Pleiades possui mais que o dobro da potência e capacidade do sistema inicial de 40 ármários SGI Altix ICE. A rápida expansão resultou de um esforço em
conjunto da NASA, Silicon Graphics e Benchmark Electronics.
Segundo Rupak Biswas [Newswire 2008], chefe da divisão de supercomputação
da NASA (NAS), o Pleiades permite realizar o trabalho seis vezes mais rápido que o
Columbia , permitindo aos pesquisadores realizarem projetos maiores e mais complexos
sem comprometer a capacidade computacional para simulação ou para outros projetos em
andamento.
Pleiades tem sido escolhido pela NASA como a próxima geração tecnológica que
atende as necessidades futuras de supercomputação da agência.
Com o Pleiades, será possı́vel atender mais que duas vezes e meia a atual necessidade computacional dos cientistas e engenheiros de conduzir simulações e modelar
missões.
O Pleiades é um sistema SGI Altix ICE, da Silicon Graphics 3,5 vezes maior do
que qualquer outra instalação SGI Altix ICE. Na produção do Pleiades a Silicon Graphics
em parceria com Mellanox Technologies estão criando o maior cluster InfiniBand do
mundo, com mais de 12800 nodos. O sistema de interconexão InfiniBand é 70% maior
que os dois maiores sistemas combinados. No total ele suporta mais de 128TBits/s de
largura de banda em comunicações IB.
3. Objetivos
A NASA está utilizando o Pleiades em projetos do Programa Constellation, para refinar
métodos de visualização da aeronave V-22 Osprey Tiltrotor e conduzir cálculos complexos para determinar como surgiu a vida na Terra.
Entre os projetos aceitos para serem processados no Pleiades, podemos destacar:
• Complexas simulações de grandes problemas computacionais para o projeto futuro de veı́culos espaciais
• Desenvolvimento de modelos cada vez mais detalhados da evolução da galáxia
• Executar modelos atmosféricos-oceanológicos para prever alterações climáticas
4. Visão Geral da Arquitetura Pleiades + RTJones
Cluster de 51200 nodos instalados num sistema SGI(R) Altix(R) ICE 8200EX da Silicon
Graphics, Inc. (SGI).
4.1. Sistema
•
•
•
•
100 Gabinetes (64 nodos em cada, 6400 nodos ao total)
609 TFlops
Total de cores: 51200
Nodos
– 5888 nodos (Pleiades)
∗ 2 processadores quad-core por nodo
∗ Processadores Xeon E5472 (Harpertown)
∗ Velocidade do processador de 3Ghz
∗ Cache - 6MB por par de cores
– 512 nodos (RTJones)
∗ 2 processadores quad-core por nodo
∗ Processadores Xeon X5355 (Clovertown)
∗ Velocidade do processador de 2.66 Ghz
∗ Cache - 4MB por par de cores
4.2. Sub-Sistemas
• 8 nodos de front-end
• 1 PBS server
4.3. Memória
• Tipo DDR2 FB-DIMMs
• 1GB por core, 8GB por nodo
• Total de Memória - 51 TB
4.4. Interconexões
• Entre nodos - InfiniBand, 6400 nodos em uma topologia hipercubo 10D
• Dois InfiniBand fabrics independentes rodando a 4x DDR
• Rede de gerenciamento Gigabit Ethernet
4.5. InfiniBand
A arquitetura InfiniBand [Pentakalos 2002] rompe a limitação da largura de banda do
barramento PCI migrando a tradicional arquitetura de barramento compartilhado em uma
arquitetura comutada (switched fabric). As figura 2 mostra uma configuração simplificada
de uma instalação InfiniBand. Um nodo pode representar um servidor bem como um
dispositivo de E/S, como um sub-sistema RAID. O switched fabric consiste de um único
switch, nos caso mais simples ou uma coleção de switches e roteadores interconectados.
O termo switched fabric é também conhecido como switching fabric ou somente
fabric é uma topologia de rede onde os nodos conectam-se através de um ou mais switches
de rede. Esta topologia permite a conexão teórica de até 16 milhões de dispositivos,
limitada apenas pelo espaço de endereçamento disponı́vel.
A conexão entre nodos, switches, e roteadores é uma conexão serial ponto-aponto. Esta caracterı́stica agrega os seguintes benefı́cios:
• Por ser uma conexão serial, ele requer apenas quatro vias para conexão, ao
contrário da grande quantidade de vias necessárias no barramento PCI, que é paralelo.
• A natureza ponto-a-ponto da conexão permite total capacidade de conexão entre duas extremidades porque o link é dedicado para os nodos. Isto elimina a
contenção do barramento, bem como delays que podem ocorrer em condições de
utilização extrema, situações comuns numa arquitetura de barramento compartilhado.
• O canal InfiniBand foi concebido para conectar hosts e dispositivos de E/S dentro
de um Data Center. Desta forma, o comprimento das conexões são relativamente
curtas, permitindo que uma largura de banda muito maior possa ser alcançada.
A figura 3 ilustra um sistema em rede que utiliza a arquitetura InfiniBand. Nesta
figura a fabric consiste de três switches que conectam seis nodos. Cada nodo conecta
ao fabric através de um adaptador de canal. A especificação InfiniBand classifica os
adaptadores de canal em duas categorias: Host Channel Adapters (HCA) e Target Cahnnel
Adapters (TCA).
Figura 2. Topologia Basica InfiniBand Fabric
HCA estão presentes em servidores ou eventualmente em desktops e proveem
uma interface que é usada para integrar o InfiniBand com o sistema operacional. TCAs
estão presentes em dispositivos de E/S, tal como, subsistemas RAID. Cada adaptador de
canal pode ter uma ou mais portas. Um adaptador de canal com mais de uma porta pode
conectar em vários portas de switches. Isto permite vários caminhos entre a origem e o
destino, resultando ganho de desempenho.
Figura 3. Rede baseada na arquitetura InfiniBand
Duas caracterı́sticas da arquitetura InfiniBand que estão evidentes na figura 3 são a
habilidade de compartilhar dispositivos de armazenagem através de múltiplos servidores e
a habilidade de realizar um third-party E/S. Third-party E/S é o termo usado para referirse a capacidade de dois dispositivos de armazenagem completarem uma transação de
E/S sem envolvimento direto de hosts que não estão envolvidos na operação. Esta caracterı́stica é extremamente importante na perspectiva de desempenho, pois muitas operações
de E/S entre dois dispositivos de armazenamento podem ser totalmente independentes do
servidor, eliminando a utilização desnecessária de CPU.
Tabela 1. Taxa de transferência teórica - InfiniBand
Single(SDR)
1X
2 Gbit/s
4X
8 Gbit/s
12X
24 Gbit/s
Double(DDR)
4 Gbit/s
16 Gbit/s
48 Gbit/s
Quad(QDR)
8 Gbit/s
32 Gbit/s
96 Gbit/s
A conexão serial do InfiniBand tem uma taxa de 2,5 Gbit/s em cada direção, por
conexão (SDR). Infiniband também suporta velocidades DDR e QDR, equivalente a 5
Gbit/s ou 10 Gbit/s respectivamente, na mesma velocidade de clock.
Como é utilizado a codificação 8B/10B, a cada 10 bits enviados, 8 são utilizados
com dados, as velocidades caem para 2 Gbit/s (SDR), 4 Gbit/s (DDR) e 8 Gbit/s.
A tabela 1 relacionada as velocidades máximas alcançadas em links de 1X, 4X e
12X.
4.6. Armazenamento
• Nexis 9000 home filesystem
• 3 sistemas de arquivos Lustre, cada um contendo:
– 8 Object Storage Servers(OSS)
– 1 Metadata server (MDS)
– 2 DDN 9900 RAIDs - 300TB total
4.7. SGI InfiniteStorage NEXIS 9000
Utilizado pelo supercomputador Pleiades o SGI InfiniteStorage NEXIS 9000 NetworkAtached Storage(NAS) usa rede InfiniBand para extrair máxima performance em armazenagem baseada em arquivos.
Figura 4. SGI NEXIS 9000
Os discos rı́gidos utilizados pelo NEXIS 9000 utilizam a tecnologia SAS (serialattached SCSI) que vem a substituir a SCSI. SAS transmite mais dados e mais rápido em
um único fio que o SCSI que precisa de 32 vias no cabo. O SAS manteve o conjunto de
comandos SCSI para que seja compatı́vel com SCSI. Com um expansor SAS é possı́vel
conectar até 128 dispositivos sem estender a distância de até 8 metros. Um domı́nio SAS
pode ter até 16256 dispositivos, conectando-se diversos expansores. A velocidade básica
é de 3 Gbps, que equivale a 300MBps, que pode ser duplicada a 600MBps desde que o
canal SAS seja full-duplex.
Principais Caracterı́sticas:
•
•
•
•
•
Totalmente integrado, pré-configurado e ajustado para máxima performance
Expansı́vel
Otimizado para servidores SGI de alta performance
Ip sobre InfiniBand (IB), 10 Gigabit Ethernet ou Gigabit Ethernet
Conjunto de ferramentas para Administração e Gerenciamento para uma rápida
implementação
• Sistema de Arquivos de alta performance, baixa latência e escalável
NAS Server - Caracterı́sticas:
• Tipo de CPU - 4 a 8 Intel Itanium Dual Core
• Memória do Sistema - Até 192GB
• Opções de Conectividade (E/S) - 6 portas GbE copper plus compatı́vel com os
cartões: 1 Porta DDR InfiniBand (IB), ou 1 Porta 10GbE óptica ou 4 portas GigE
• Host Backend - 4 a 10 portas de 4 canais SAS
Storage - Caracterı́sticas:
•
•
•
•
•
•
4 a 10 conjuntos RAID com controladores RAID redundantes
48 a 480 drives SAS
Até 12 trays de 12 drives SAS idênticos no sistema base
Até 6 conjuntos adicionais
RAID nı́vel 5
Capacidade máxima de 216TB
Dimensões:
•
•
•
•
NAS Server - 10U
Storage Controller Tray - 2U
Storage Expansion Tray - 2U
Rack - 39U ou SGI Server Rack
4.8. DDN S2A9900
O sistema S2A9900 StorageScaler da DataDirect Networks possui técnicas revolucionárias que são as seguintes:
Figura 5. DDN S2A9900
•
•
•
•
•
•
•
•
Leitura e escrita na mesma velocidade (6GB/s)
Qualidade de serviço em tempo real
RAID 6 sem queda de performance
1.2PB em apenas dois armários
1200 drives por sistema
Consumo de energia reduzido
S2A SleepMode
InfiniBand 4X DDR nativo e canal de fibra 8Gbps
4.9. Ambiente Operacional
• Sistema Operacional - SUSE Linux Enterprise Server
• Job Scheduler - PBS (Portable Batch System)
4.10. Aplicações
• Linguagens de Programação e Debugadores
– Intel C++ Compiler
– GNU GCC
– Intel Fortran (Fortran 95)
– GNU GCC (Fortran 77)
– Intel Debugger
– GNU GDB
– TotalView Debugger
– MemoryScape Memory Debugger
– Intel Thread Checker
• Bibliotecas
– Intel Math Kernel Library
– Intel Integraded Performance Primitives
– Intel Threading Building Blocks
– Intel MPI Library
• Ferramentas de Desenvolvimento
– Intel VTune Performance Analyzer
– Intel Trace Analyzer Collector
– Interactive Supercomputing Star-P
– Plataform MPI
– OpenMP
– SGI Message Passing Toolkit
4.11. Sistema de Arquivos Lustre
O sistema de arquivos Lustre utilizado pelo supercomputador Pleiades é um sistema de
arquivos distribuı́dos de código aberto, largamente utilizado em clusters de grande porte.
O projeto tenta prover um sistemas de arquivos para um cluster de dezenas de milhares
de nós e petabytes de capacidade de armazenamento, sem comprometer a estabilidade e a
segurança.
Cada arquivo armazenado em um sistema de arquivos Lustre [Sun 2009] é considerado um objeto. Lustre apresenta a todos os clientes uma semântica POSIX padrão
e acesso de leitura e escrita concorrente aos objetos compartilhados. Um sistema de arquivos Lustre tem quatro unidades funcionais: um “Servidor de Meta dados”(MDS) para
armazenar os meta dados; um Armazenador de Alvos de Objeto (OST) para armazenar
os dados atuais; um Servidor de Objetos Armazenados (OSS) para administrar o OSTs e
cliente(s) para acessar e o usar os dados. OSTs são baseados em dispositivos de blocos.
Um MDS, OSS, e um OST podem estar no mesmo nó ou em nós diferentes. Lustre não
fala diretamente e não administra OSTs, ele apenas delega esta responsabilidade a OSSs
para assegurar escalabilidade a grandes clusters e supercomputadores.
• Requisitos do Sistema
– Plataformas - IA64, I686, X86 64, PPC, Cross-endian
– Sistemas Operacionais - Red Hat Enterprise Linux 4.5, SUSE 9.10, Linux
com kernel 2.6
– Suporte a Rede - TCP/IP, Quadrics Elan 3.4, Myrinet, InfiniBand (Open
Fabrics, OpenIB Gen 1, Silverstorm, Voltaire, Cisco)
Figura 6. Sistema de Arquivos Lustre
5. Arquitetura SGI Altix ICE
A arquitetura SGI Altix ICE da Silicon Graphics é composta por armários de 42U que
comportam até 4 blade enclosures. Cada blade enclosures possui 16 sockets duplas para
compute blades, para até 128 sockets e 512 cores por armário.
Figura 7. Armários SGI Altix ICE
O Blade Enclosure ICE 8200EX possui quatro 4x DDR IB switch blades, topologia hipercubo e rede Gigabit Ethernet dedicada.
5.1. Softwares
Todo software utilizado nos clusters Altix ICE da NAS (Pleiades e RTJones) é gerenciado através de um sistema chamado modules para centralizar a localização de produtos
licenciados e de domı́nio público instalados no Pleiades e RTJones.
Os módulos (programas) podem ser gerenciados da seguinte forma:
•
•
•
•
•
module avail: para encontrar que outros módulos estão disponı́veis
module list: para listar quais módulos estão em seu ambiente
module purge: para descarregar todos arquivos do módulo carregado
module load module-name: para carregar o módulo desejado
module switch old-module-name new-module-name: para alterar entre diferentes
versões de um software
Softwares de de terceiros, licenciados, disponı́veis:
• FieldView - Software para identificar rapidamente importantes fluxos de recursos
e caracterı́sticas em simulações
• IDL - Análise de dados, visualização, e uma plataforma de desenvolvimento de
aplicações
• LSTC-DYNA - Software capaz de simular problemas complexos do mundo real
• Tecplot - Utilizado para processar resultados de simulações
Softwares de Código Aberto, Domı́nio Público:
• Grace - É um WYSIWIG(O que você vê é o que você faz) para plotagem em 2D
• MVAPICH - Utilizado entre a rede do cluster para aumento de performance e
escalabilidade de aplicações
6. Caracterı́sticas do Sistema RTJones
Cluster de 512 nodos em uma arquitetura SGI ICE 8200.
6.1. Nodos
Os nodos disponı́veis para computação são nomeados como r[097-100,113-116],i[03]n[0-15]. Há ainda um nodo servidor PBS e nodos front-end, ambos não disponı́veis
aos usuários.
6.2. Processador
•
•
•
•
•
•
•
•
CPU Quad-Core Xeon X5355 (Clovertown)
CPU-Clock - 2.66GHz
Operações de Ponto Flutuante por ciclo de clock - 4
Número de Quad-Cores por nodo - 2
Número de Cores por nodo - 8
Total de nodos no cluster - 512
Total de Cores no Cluster - 4096
FSB - 1333MHz, 10,6 GB/s
6.3. Memória
• L1 Cache - local para cada core, 32K para cache de instruções, 32K para cache de
dados
• L2 Cache - 8MB por Quad-Core, 4MB compartilhada entre pares de cores
• Tamanho padrão da página - 4KB
• Memória local por core - 1GB
• Memória total por nodo (blade) - 8GB
6.4. Sistemas de Arquivos
• Home - /rtj-home/u/userid, 2.7TB, soft limit 10GB, hard limit 12GB
• /nobackup - /nobackup 172TB, soft limit 200GB, hard limit 400GB
6.5. Hierarquia de Hardware
• Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de
1333 MHz com a memória)
• 2 Quad-Cores em um nodo (blade)
• 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack
units)
• 4 IRUs, nomeadas como i0-i3 em um armário
• 8 armários, nomeados como r097-r100, r113-r116 no cluster
Figura 8. Nodo RTJones
Em adição aos 512 nodos há muitos outros nodos para funções diversas, conforme
relacionados abaixo:
• Service nodes:
– 6 para todo cluster (2 como nodos para autenticação,1-2 como nodos interativos para compilação de software e 1 PBS server)
– Usuários conectam-se neste nodo para compular e executar programas
MPI
– Proveem funcionalidade de gateway de E/S do cluster para rede interna do
usuário
• Leader nodes (não acessı́veis pelos usuários)
– 1 por armário
– Proveem imagem de boot do sistema para os nodos
– Executa software de gerenciamento que monitora as funções do InfiniBand
fabric
– Conexões de rede GigE para nodo admin, nodos de serviço e nodos
– Monitora, envia funções para os IRUs dentro dos armários e recebe dados
dos nodos e IRUs.
– Repassa dados dos IRUs e nodos para nodo admin
• nodos (Compute nodes)
– 512 ao total no cluster (16 por IRU ou 64 por armário)
– Conexões de rede: GigE para os leader nodes, 100bT Ethernet to CMC,
dual-plane IB para o resto do cluster. A comunicação entre os nodos e o
nodo admin é restrita
– Controlados e monitorados pelos leader nodes
– Aceita jobs para processamento batch
• Nodos de Armazenamento (Storage nodes)
– 8 nodos de armazenamento para dados, 2 nodos para meta dados
– Conexões de rede: IB para plano 1 (ib1), Ethernet para CMC
• System Admin Controller (não acessı́vel pelos usuários)
– 1 para todo cluster
– Prove interface LAN externa
– Conexões de rede: sem conexões IB
– Gerencia configuração de software para o cluster
– Usado para ativar e desativar todo cluster
– Usado pelo administrador do sistema para gerenciar e monitorar o cluster
O SGI Altix ICE 8200 utiliza arquitetura de interconexão InfiniBand com velocidade 4x DDR, integrado em unidades de armário independentes (IRU - independeent rack
unit), sem cabos. Cada IRU inclui dois switches de nodos.
A fabric conecta os nodos de serviço (service nodes), leader nodes e os nodos
(compute nodes). Há dois IB fabrics no RTJones, um para MPI (ib0), e outro para E/S
(ib1). A figura 9 exemplifica a utilização do InfiniBand no sistema SGU Altix ICE.
Figura 9. InfiniBand com dois IRUs
Atualmente os dois fabrics são separados em tráfego IP e tráfego MPI no ib0 e
tráfego do sistema de arquivos Lustre no ib1.
O InfiniBand do SGI Altix ICE utiliza o software Open Fabrics Enterprise Distribuition (OFED) 1.2.
7. Caracterı́sticas do Sistema Pleiades
7.1. Nodos
Os nodos disponı́veis para computação são nomeados como r[1-76,81-88,105-108, 121124]i[0-3]n[0-15]. Há ainda um nodo servidor PBS e nodos front-end, ambos não disponı́veis aos usuários.
7.2. Processador
•
•
•
•
•
•
•
•
CPU Quad-Core Xeon X5472 (Harpertown)
CPU-Clock - 3GHz
Operações de Ponto Flutuante por ciclo de clock - 4
Número de Quad-Cores por nodo - 2
Número de Cores por nodo - 8
Total de nodos no cluster - 5888
Total de Cores no Cluster - 47104
FSB - 1600MHz, 12,8 GB/s
7.3. Memória
• L1 Cache - local para cada core, 32K para cache de instruções, 32K para cache de
dados
• L2 Cache - 12MB por Quad-Core, 6MB compartilhada entre pares de cores, velocidade de 3GHz
• Tamanho padrão da página - 4KB
• Memória local por core - 1GB
• Memória total por nodo (blade) - 8GB
7.4. Sistemas de Arquivos
• Home - /u/userid, 1TB, soft limit 8GB, hard limit 10GB
• /nobackup - /nobackup1 110TB, /nobackup2 220TB, soft limit 200GB, hard limit
400GB
7.5. Hierarquia de Hardware
• Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de
1600 MHz com a memória)
• 2 Quad-Cores em um nodo (blade)
• 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack
units)
• 4 IRUs, nomeadas como i0-i3 em um armário
• 92 armários, nomeados como r1-r76, r81-r88, r121-r124 no cluster
8. Caracterı́sticas do Columbia
O super cluster Columbia tornou possı́vel a NASA avançar na ciência e engenharia para a
exploração espacial. A avançada arquitetura do Columbia está sendo disponibilizada para
uma ampla comunidade de engenheiros e cientistas.
Figura 10. SGI Altix Columbia
Tabela 2. SGI Altix - Columbia
Nodos
Tipo
Velocidade
11 Altix 3700 (512 cores)
Madison
1.5 GHz
3 Altix 3700-BX2 (512 cores) Madison
1.5 GHz
5 Altix 3700-BX2 (512 cores) Madison
1.6 GHz
1 Altix 4700 (512 cores)
Montecito
1.6 GHz
1 Altix 4700 (2048 cores)
Montecito
1.6 GHz
2 Altix 4700 (1024 cores)
Montvale
1.6 GHz
Cache
6MB
6MB
9MB
9MB
9MB
9MB
8.1. Nodos
8.2. Arquitetura do Sistema
• 304 nodos (compute node)
• 88.88 Teraflop/s (pico teórico)
8.3. Sub-Sistemas
• 2 sistemas Data Life Cycle (DLM)
• 3 nodos front-end
8.4. Memória
• Tipo DDR SDRAM
• 2GB por processador
• Memória total - 28672GB
8.5. Interconexões
• NUMALink interconecta imagem do sistema aos nodos
• Entre nodos: InfiniBand 4X DDR, 10Gb Ethernet, 1Gb Ethernet
8.6. Storage
• DataDirect Networks
• LSI RAID
• SGI CXFS
8.7. Ambiente Operacional
• Sistema operacional - SUSE Linux Enterprise
• Job Scheduler - PBS
• Compiladores - Intel Fortran, C, SGI MPI
9. Caracterı́sticas do Schirra
O supercomputador Schirra é o primeiro cluster selecionado pela NASA para atender as
necessidades futuras de supercomputação. O nome Schirra é uma homenagem ao astronauta Walter Schirra.
Figura 11. IBM Power5+ Schirra
9.1. Arquitetura do Sistema
• 6 Gabinetes
• 4.8 Tflop/s
9.2. Nodos
•
•
•
•
•
40 IBM 9118-575
Processadores POWER5+
Velocidade do processador - 1.9GHz
320 processadores dual-core, 640 cores
36MB cache L3 por processador
9.3. Sub-Sistemas
• 2 nodos front-end
9.4. Memória
• IBM DIMMS
• 2GB por core
• Memória total - 1280GB
9.5. Interconexões
• Entre nodos - Switch de alta performance
• Dentro do nodo - Avançado switch distribuı́do
• 10Gb Ethernet para conexão dos front-end e nodes de armazenagem
9.6. Storage
• Data Direct RAID, 160TB
9.7. Ambiente Operacional
• Sistema Operacional - AIX Unix
• Job Scheduler - PBS
• Compiladores - IBM C/C++, IBM Fortran, IBM POE, gcc, g++
10. Gerenciamento dos Supercomputadores na NAS
A equipe de desenvolvimento de software da NAS desenvolveu um software para monitorar os supercomputadores através da WEB (miniHUD). Esta ferramenta permite aos
usuários uma visão de alto nı́vel em detalhes de nodos e sub-sistemas, incluindo utilização
de CPU, status da fila do PBS, entre outras informações do sistema. Mensagens popup
informam anomalias no sistema como serviços que não estão sendo executados, discos
que estão quase cheios, eficiência de CPU baixa e sistemas parados.
Figura 12. Gerenciamento de Supercomputadores
11. Supercomputação Verde na NAS
A Divisão de Supercomputação Avançada da NASA (NAS) criou um novo padrão com
a instalação do Pleiades, um dos mais supercomputadores mais eficientes no consumo
de energia no mundo. Pleiades está pontuado em vigésimo segundo na lista Green500
[Green500 2009]. Ele tem um desempenho de 233,02 MFlops por Watt e um consumo de
2090 kW.
O sistema possui fontes de alimentação com no mı́nimo 89% de eficiência, e
apenas uma por armário, reduzindo substancialmente o consumo de energia. As novas
tecnologias utilizadas no Pleiades fazem ele ser cerca de 4 vezes mais eficiente que o
supercomputador Columbia.
A NAS limitou o montante de memória necessário da maioria dos usuários, embora algumas poucas aplicações tiveram uma pequena redução em performance por core,
resultando uma redução no consumo de energia entre 10% e 15%.
Para obter o máximo de produtividade e consumo eficiente de energia a NAS
investe em algumas práticas:
• Métodos para certificar que processadores que não estão ativos entrem automaticamente em espera com pouca energia
• Atualização de hardware e ferramentas para aumentar a utilização do sistema,
reduzindo ciclos de computação
• Produzir mais resultados computacionais com os mesmos recursos
• Técnicas de resfriamento de supercomputadores mais eficientes
Referências
Green500 (2009). The green500 list. http://www.top500.org.
NASA (2009). Nasa advanced supercomputing division. Website. http://www.nas.
nasa.gov.
Newswire, P. (2008). Powered by silicon graphics, pleiades supercomputer fuels nasa’s
journey to moon, then mars. http://uk.sys-con.com/node/750560.
Pentakalos, O. (2002). An introduction to the infiniband architecture. Website. http:
//www.oreillynet.com/pub/a/network/2002/02/04/windows.html.
SGI (2009). Silicon graphics inc. Website. http://www.sgi.com.
Sun (2009).
Lustre file system.
http://www.sun.com/software/products/
lustre/features.xml.
Top500 (2009). Top500 supercomputer sites. http://www.top500.org.
Wikipedia (2009). Plêiades. Website. http://pt.wikipedia.org/wiki/Pliades_
M45.