Supercomputador Pleiades Introduç ˜ao ao Processamento Paralelo

Propaganda
Supercomputador Pleiades
Introdução ao Processamento Paralelo e Distribuı́do
Renato M. Dilli1
1
Centro Politécnico – Mestrado em Ciência da Computação
Universidade Católica de Pelotas (UCPel)
[email protected]
Resumo. Este trabalho descreve as principais caracterı́sticas e recursos do supercomputador Pleiades. Em novembro de 2008 ele estava em terceiro lugar
na lista do site TOP500. É apresentado um pequeno histórico dos supercomputadores da Divisão de Supercomputação Avançada da NASA, local onde se
encontra o supercomputadore Pleiades.
1. Histórico
Pleiades é um sistema SGI ICE [SGI 2009] capaz de atingir 565TFlops com 47104 cores.
O seu nome é uma referência ao aglomerado estelar na constelação de Touro. O aglomerado estelar das Plêiades [Wikipedia 2009] é o aglomerado de estrelas mais brilhantes em
todo o céu, também chamado de Sete Irmãs, M45 ou Subaru (no Japão).
Figura 1. Supercomputador Pleiades
O Pleiades é composto de 5888 nodos interconectados com Infiniband em uma
topologia hipercubo. Cada nodo contém oito processadores Intel Xeon X5472 3.0 GHz
(Harpertown) em dois Quad-Cores, e 8 GB de memória.
A NASA possui dois sistemas SGI Altix ICE (Integraded Compute Environment)
chamados Pleiades e RTJones [NASA 2009].
A união destes dois sistemas pontuou o supercomputador Pleiades como o terceiro
supercomputador mais potente do mundo, conforme a lista dos supercomputadores mais
potentes de novembro de 2008, no site TOP500 [Top500 2009]. Atingiu o ı́ndice de 487
TeraFLOPS no teste realizado com LINPACK, com pico de 608 TeraFLOPS. Este resultado faz do Pleiades o supercomputador para uso geral mais potente do mundo. Ele está
instalado no centro de pesquisas da NASA (National Aeronautics and Space Administration) em Mountain View, Califórnia, Estados Unidos.
A Divisão de Supercomputação Avançada da NASA há 25 anos dedica-se a disponibilizar recursos e ferramentas de simulação necessárias para missões crı́ticas e fazer
novas descobertas cientı́ficas para o benefı́cio da humanidade.
O RTJones foi instalado em 2007 e é usado exclusivamente por usuários de
Missões Aeronáticas Direcionadas. Seu nome é uma homenagem a Robert Thomas
Jones, famoso por descobrir um ingrediente essencial para alcançar boa relação custoeficácia em voos supersônicos. RTJones é composto de 512 nodos interconectados com
Infiniband numa topologia hipercubo. Cada nodo contém oito processadores Intel Xeon
2.66Ghz (Clovertown) em dois Quad-Cores, e 8GB de memória. Seus 4096 cores tem um
pico teórico de performance de 43 TFlops.
O Pleiades suplementa o supercomputador Columbia, também instalado na
NASA, que estreou em 2004 como o segundo supercomputador mais rápido do mundo.
O Columbia ajudou a NASA a retomar com sucesso o programa Space Shuttle e economizar milhares de horas de pesquisa em muitos outros projetos. O Columbia é formado
por 14336 cores numa plataforma SGI Altix da Silicon Graphics.
O supercomputador Columbia foi pontuado na lista de junho de 2008, do site
TOP500, em vigésimo quinto e na lista de novembro de 2008 em trigésimo nono.
2. Motivações
Os pesquisadores utilizam o Pleiades para simular falhas catastróficas, para que possam conceber sistemas e procedimentos para prevenir problemas que possam ameaçar
a segurança e a sobrevivência dos astronautas.
Atualmente o Pleiades possui mais que o dobro da potência e capacidade do sistema inicial de 40 ármários SGI Altix ICE. A rápida expansão resultou de um esforço em
conjunto da NASA, Silicon Graphics e Benchmark Electronics.
Segundo Rupak Biswas [Newswire 2008], chefe da divisão de supercomputação
da NASA (NAS), o Pleiades permite realizar o trabalho seis vezes mais rápido que o
Columbia , permitindo aos pesquisadores realizarem projetos maiores e mais complexos
sem comprometer a capacidade computacional para simulação ou para outros projetos em
andamento.
Pleiades tem sido escolhido pela NASA como a próxima geração tecnológica que
atende as necessidades futuras de supercomputação da agência.
Com o Pleiades, será possı́vel atender mais que duas vezes e meia a atual necessidade computacional dos cientistas e engenheiros de conduzir simulações e modelar
missões.
O Pleiades é um sistema SGI Altix ICE, da Silicon Graphics 3,5 vezes maior do
que qualquer outra instalação SGI Altix ICE. Na produção do Pleiades a Silicon Graphics
em parceria com Mellanox Technologies estão criando o maior cluster InfiniBand do
mundo, com mais de 12800 nodos. O sistema de interconexão InfiniBand é 70% maior
que os dois maiores sistemas combinados. No total ele suporta mais de 128TBits/s de
largura de banda em comunicações IB.
3. Objetivos
A NASA está utilizando o Pleiades em projetos do Programa Constellation, para refinar
métodos de visualização da aeronave V-22 Osprey Tiltrotor e conduzir cálculos complexos para determinar como surgiu a vida na Terra.
Entre os projetos aceitos para serem processados no Pleiades, podemos destacar:
• Complexas simulações de grandes problemas computacionais para o projeto futuro de veı́culos espaciais
• Desenvolvimento de modelos cada vez mais detalhados da evolução da galáxia
• Executar modelos atmosféricos-oceanológicos para prever alterações climáticas
4. Visão Geral da Arquitetura Pleiades + RTJones
Cluster de 51200 nodos instalados num sistema SGI(R) Altix(R) ICE 8200EX da Silicon
Graphics, Inc. (SGI).
4.1. Sistema
•
•
•
•
100 Gabinetes (64 nodos em cada, 6400 nodos ao total)
609 TFlops
Total de cores: 51200
Nodos
– 5888 nodos (Pleiades)
∗ 2 processadores quad-core por nodo
∗ Processadores Xeon E5472 (Harpertown)
∗ Velocidade do processador de 3Ghz
∗ Cache - 6MB por par de cores
– 512 nodos (RTJones)
∗ 2 processadores quad-core por nodo
∗ Processadores Xeon X5355 (Clovertown)
∗ Velocidade do processador de 2.66 Ghz
∗ Cache - 4MB por par de cores
4.2. Sub-Sistemas
• 8 nodos de front-end
• 1 PBS server
4.3. Memória
• Tipo DDR2 FB-DIMMs
• 1GB por core, 8GB por nodo
• Total de Memória - 51 TB
4.4. Interconexões
• Entre nodos - InfiniBand, 6400 nodos em uma topologia hipercubo 10D
• Dois InfiniBand fabrics independentes rodando a 4x DDR
• Rede de gerenciamento Gigabit Ethernet
4.5. InfiniBand
A arquitetura InfiniBand [Pentakalos 2002] rompe a limitação da largura de banda do
barramento PCI migrando a tradicional arquitetura de barramento compartilhado em uma
arquitetura comutada (switched fabric). As figura 2 mostra uma configuração simplificada
de uma instalação InfiniBand. Um nodo pode representar um servidor bem como um
dispositivo de E/S, como um sub-sistema RAID. O switched fabric consiste de um único
switch, nos caso mais simples ou uma coleção de switches e roteadores interconectados.
O termo switched fabric é também conhecido como switching fabric ou somente
fabric é uma topologia de rede onde os nodos conectam-se através de um ou mais switches
de rede. Esta topologia permite a conexão teórica de até 16 milhões de dispositivos,
limitada apenas pelo espaço de endereçamento disponı́vel.
A conexão entre nodos, switches, e roteadores é uma conexão serial ponto-aponto. Esta caracterı́stica agrega os seguintes benefı́cios:
• Por ser uma conexão serial, ele requer apenas quatro vias para conexão, ao
contrário da grande quantidade de vias necessárias no barramento PCI, que é paralelo.
• A natureza ponto-a-ponto da conexão permite total capacidade de conexão entre duas extremidades porque o link é dedicado para os nodos. Isto elimina a
contenção do barramento, bem como delays que podem ocorrer em condições de
utilização extrema, situações comuns numa arquitetura de barramento compartilhado.
• O canal InfiniBand foi concebido para conectar hosts e dispositivos de E/S dentro
de um Data Center. Desta forma, o comprimento das conexões são relativamente
curtas, permitindo que uma largura de banda muito maior possa ser alcançada.
A figura 3 ilustra um sistema em rede que utiliza a arquitetura InfiniBand. Nesta
figura a fabric consiste de três switches que conectam seis nodos. Cada nodo conecta
ao fabric através de um adaptador de canal. A especificação InfiniBand classifica os
adaptadores de canal em duas categorias: Host Channel Adapters (HCA) e Target Cahnnel
Adapters (TCA).
Figura 2. Topologia Basica InfiniBand Fabric
HCA estão presentes em servidores ou eventualmente em desktops e proveem
uma interface que é usada para integrar o InfiniBand com o sistema operacional. TCAs
estão presentes em dispositivos de E/S, tal como, subsistemas RAID. Cada adaptador de
canal pode ter uma ou mais portas. Um adaptador de canal com mais de uma porta pode
conectar em vários portas de switches. Isto permite vários caminhos entre a origem e o
destino, resultando ganho de desempenho.
Figura 3. Rede baseada na arquitetura InfiniBand
Duas caracterı́sticas da arquitetura InfiniBand que estão evidentes na figura 3 são a
habilidade de compartilhar dispositivos de armazenagem através de múltiplos servidores e
a habilidade de realizar um third-party E/S. Third-party E/S é o termo usado para referirse a capacidade de dois dispositivos de armazenagem completarem uma transação de
E/S sem envolvimento direto de hosts que não estão envolvidos na operação. Esta caracterı́stica é extremamente importante na perspectiva de desempenho, pois muitas operações
de E/S entre dois dispositivos de armazenamento podem ser totalmente independentes do
servidor, eliminando a utilização desnecessária de CPU.
Tabela 1. Taxa de transferência teórica - InfiniBand
Single(SDR)
1X
2 Gbit/s
4X
8 Gbit/s
12X
24 Gbit/s
Double(DDR)
4 Gbit/s
16 Gbit/s
48 Gbit/s
Quad(QDR)
8 Gbit/s
32 Gbit/s
96 Gbit/s
A conexão serial do InfiniBand tem uma taxa de 2,5 Gbit/s em cada direção, por
conexão (SDR). Infiniband também suporta velocidades DDR e QDR, equivalente a 5
Gbit/s ou 10 Gbit/s respectivamente, na mesma velocidade de clock.
Como é utilizado a codificação 8B/10B, a cada 10 bits enviados, 8 são utilizados
com dados, as velocidades caem para 2 Gbit/s (SDR), 4 Gbit/s (DDR) e 8 Gbit/s.
A tabela 1 relacionada as velocidades máximas alcançadas em links de 1X, 4X e
12X.
4.6. Armazenamento
• Nexis 9000 home filesystem
• 3 sistemas de arquivos Lustre, cada um contendo:
– 8 Object Storage Servers(OSS)
– 1 Metadata server (MDS)
– 2 DDN 9900 RAIDs - 300TB total
4.7. SGI InfiniteStorage NEXIS 9000
Utilizado pelo supercomputador Pleiades o SGI InfiniteStorage NEXIS 9000 NetworkAtached Storage(NAS) usa rede InfiniBand para extrair máxima performance em armazenagem baseada em arquivos.
Figura 4. SGI NEXIS 9000
Os discos rı́gidos utilizados pelo NEXIS 9000 utilizam a tecnologia SAS (serialattached SCSI) que vem a substituir a SCSI. SAS transmite mais dados e mais rápido em
um único fio que o SCSI que precisa de 32 vias no cabo. O SAS manteve o conjunto de
comandos SCSI para que seja compatı́vel com SCSI. Com um expansor SAS é possı́vel
conectar até 128 dispositivos sem estender a distância de até 8 metros. Um domı́nio SAS
pode ter até 16256 dispositivos, conectando-se diversos expansores. A velocidade básica
é de 3 Gbps, que equivale a 300MBps, que pode ser duplicada a 600MBps desde que o
canal SAS seja full-duplex.
Principais Caracterı́sticas:
•
•
•
•
•
Totalmente integrado, pré-configurado e ajustado para máxima performance
Expansı́vel
Otimizado para servidores SGI de alta performance
Ip sobre InfiniBand (IB), 10 Gigabit Ethernet ou Gigabit Ethernet
Conjunto de ferramentas para Administração e Gerenciamento para uma rápida
implementação
• Sistema de Arquivos de alta performance, baixa latência e escalável
NAS Server - Caracterı́sticas:
• Tipo de CPU - 4 a 8 Intel Itanium Dual Core
• Memória do Sistema - Até 192GB
• Opções de Conectividade (E/S) - 6 portas GbE copper plus compatı́vel com os
cartões: 1 Porta DDR InfiniBand (IB), ou 1 Porta 10GbE óptica ou 4 portas GigE
• Host Backend - 4 a 10 portas de 4 canais SAS
Storage - Caracterı́sticas:
•
•
•
•
•
•
4 a 10 conjuntos RAID com controladores RAID redundantes
48 a 480 drives SAS
Até 12 trays de 12 drives SAS idênticos no sistema base
Até 6 conjuntos adicionais
RAID nı́vel 5
Capacidade máxima de 216TB
Dimensões:
•
•
•
•
NAS Server - 10U
Storage Controller Tray - 2U
Storage Expansion Tray - 2U
Rack - 39U ou SGI Server Rack
4.8. DDN S2A9900
O sistema S2A9900 StorageScaler da DataDirect Networks possui técnicas revolucionárias que são as seguintes:
Figura 5. DDN S2A9900
•
•
•
•
•
•
•
•
Leitura e escrita na mesma velocidade (6GB/s)
Qualidade de serviço em tempo real
RAID 6 sem queda de performance
1.2PB em apenas dois armários
1200 drives por sistema
Consumo de energia reduzido
S2A SleepMode
InfiniBand 4X DDR nativo e canal de fibra 8Gbps
4.9. Ambiente Operacional
• Sistema Operacional - SUSE Linux Enterprise Server
• Job Scheduler - PBS (Portable Batch System)
4.10. Aplicações
• Linguagens de Programação e Debugadores
– Intel C++ Compiler
– GNU GCC
– Intel Fortran (Fortran 95)
– GNU GCC (Fortran 77)
– Intel Debugger
– GNU GDB
– TotalView Debugger
– MemoryScape Memory Debugger
– Intel Thread Checker
• Bibliotecas
– Intel Math Kernel Library
– Intel Integraded Performance Primitives
– Intel Threading Building Blocks
– Intel MPI Library
• Ferramentas de Desenvolvimento
– Intel VTune Performance Analyzer
– Intel Trace Analyzer Collector
– Interactive Supercomputing Star-P
– Plataform MPI
– OpenMP
– SGI Message Passing Toolkit
4.11. Sistema de Arquivos Lustre
O sistema de arquivos Lustre utilizado pelo supercomputador Pleiades é um sistema de
arquivos distribuı́dos de código aberto, largamente utilizado em clusters de grande porte.
O projeto tenta prover um sistemas de arquivos para um cluster de dezenas de milhares
de nós e petabytes de capacidade de armazenamento, sem comprometer a estabilidade e a
segurança.
Cada arquivo armazenado em um sistema de arquivos Lustre [Sun 2009] é considerado um objeto. Lustre apresenta a todos os clientes uma semântica POSIX padrão
e acesso de leitura e escrita concorrente aos objetos compartilhados. Um sistema de arquivos Lustre tem quatro unidades funcionais: um “Servidor de Meta dados”(MDS) para
armazenar os meta dados; um Armazenador de Alvos de Objeto (OST) para armazenar
os dados atuais; um Servidor de Objetos Armazenados (OSS) para administrar o OSTs e
cliente(s) para acessar e o usar os dados. OSTs são baseados em dispositivos de blocos.
Um MDS, OSS, e um OST podem estar no mesmo nó ou em nós diferentes. Lustre não
fala diretamente e não administra OSTs, ele apenas delega esta responsabilidade a OSSs
para assegurar escalabilidade a grandes clusters e supercomputadores.
• Requisitos do Sistema
– Plataformas - IA64, I686, X86 64, PPC, Cross-endian
– Sistemas Operacionais - Red Hat Enterprise Linux 4.5, SUSE 9.10, Linux
com kernel 2.6
– Suporte a Rede - TCP/IP, Quadrics Elan 3.4, Myrinet, InfiniBand (Open
Fabrics, OpenIB Gen 1, Silverstorm, Voltaire, Cisco)
Figura 6. Sistema de Arquivos Lustre
5. Arquitetura SGI Altix ICE
A arquitetura SGI Altix ICE da Silicon Graphics é composta por armários de 42U que
comportam até 4 blade enclosures. Cada blade enclosures possui 16 sockets duplas para
compute blades, para até 128 sockets e 512 cores por armário.
Figura 7. Armários SGI Altix ICE
O Blade Enclosure ICE 8200EX possui quatro 4x DDR IB switch blades, topologia hipercubo e rede Gigabit Ethernet dedicada.
5.1. Softwares
Todo software utilizado nos clusters Altix ICE da NAS (Pleiades e RTJones) é gerenciado através de um sistema chamado modules para centralizar a localização de produtos
licenciados e de domı́nio público instalados no Pleiades e RTJones.
Os módulos (programas) podem ser gerenciados da seguinte forma:
•
•
•
•
•
module avail: para encontrar que outros módulos estão disponı́veis
module list: para listar quais módulos estão em seu ambiente
module purge: para descarregar todos arquivos do módulo carregado
module load module-name: para carregar o módulo desejado
module switch old-module-name new-module-name: para alterar entre diferentes
versões de um software
Softwares de de terceiros, licenciados, disponı́veis:
• FieldView - Software para identificar rapidamente importantes fluxos de recursos
e caracterı́sticas em simulações
• IDL - Análise de dados, visualização, e uma plataforma de desenvolvimento de
aplicações
• LSTC-DYNA - Software capaz de simular problemas complexos do mundo real
• Tecplot - Utilizado para processar resultados de simulações
Softwares de Código Aberto, Domı́nio Público:
• Grace - É um WYSIWIG(O que você vê é o que você faz) para plotagem em 2D
• MVAPICH - Utilizado entre a rede do cluster para aumento de performance e
escalabilidade de aplicações
6. Caracterı́sticas do Sistema RTJones
Cluster de 512 nodos em uma arquitetura SGI ICE 8200.
6.1. Nodos
Os nodos disponı́veis para computação são nomeados como r[097-100,113-116],i[03]n[0-15]. Há ainda um nodo servidor PBS e nodos front-end, ambos não disponı́veis
aos usuários.
6.2. Processador
•
•
•
•
•
•
•
•
CPU Quad-Core Xeon X5355 (Clovertown)
CPU-Clock - 2.66GHz
Operações de Ponto Flutuante por ciclo de clock - 4
Número de Quad-Cores por nodo - 2
Número de Cores por nodo - 8
Total de nodos no cluster - 512
Total de Cores no Cluster - 4096
FSB - 1333MHz, 10,6 GB/s
6.3. Memória
• L1 Cache - local para cada core, 32K para cache de instruções, 32K para cache de
dados
• L2 Cache - 8MB por Quad-Core, 4MB compartilhada entre pares de cores
• Tamanho padrão da página - 4KB
• Memória local por core - 1GB
• Memória total por nodo (blade) - 8GB
6.4. Sistemas de Arquivos
• Home - /rtj-home/u/userid, 2.7TB, soft limit 10GB, hard limit 12GB
• /nobackup - /nobackup 172TB, soft limit 200GB, hard limit 400GB
6.5. Hierarquia de Hardware
• Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de
1333 MHz com a memória)
• 2 Quad-Cores em um nodo (blade)
• 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack
units)
• 4 IRUs, nomeadas como i0-i3 em um armário
• 8 armários, nomeados como r097-r100, r113-r116 no cluster
Figura 8. Nodo RTJones
Em adição aos 512 nodos há muitos outros nodos para funções diversas, conforme
relacionados abaixo:
• Service nodes:
– 6 para todo cluster (2 como nodos para autenticação,1-2 como nodos interativos para compilação de software e 1 PBS server)
– Usuários conectam-se neste nodo para compular e executar programas
MPI
– Proveem funcionalidade de gateway de E/S do cluster para rede interna do
usuário
• Leader nodes (não acessı́veis pelos usuários)
– 1 por armário
– Proveem imagem de boot do sistema para os nodos
– Executa software de gerenciamento que monitora as funções do InfiniBand
fabric
– Conexões de rede GigE para nodo admin, nodos de serviço e nodos
– Monitora, envia funções para os IRUs dentro dos armários e recebe dados
dos nodos e IRUs.
– Repassa dados dos IRUs e nodos para nodo admin
• nodos (Compute nodes)
– 512 ao total no cluster (16 por IRU ou 64 por armário)
– Conexões de rede: GigE para os leader nodes, 100bT Ethernet to CMC,
dual-plane IB para o resto do cluster. A comunicação entre os nodos e o
nodo admin é restrita
– Controlados e monitorados pelos leader nodes
– Aceita jobs para processamento batch
• Nodos de Armazenamento (Storage nodes)
– 8 nodos de armazenamento para dados, 2 nodos para meta dados
– Conexões de rede: IB para plano 1 (ib1), Ethernet para CMC
• System Admin Controller (não acessı́vel pelos usuários)
– 1 para todo cluster
– Prove interface LAN externa
– Conexões de rede: sem conexões IB
– Gerencia configuração de software para o cluster
– Usado para ativar e desativar todo cluster
– Usado pelo administrador do sistema para gerenciar e monitorar o cluster
O SGI Altix ICE 8200 utiliza arquitetura de interconexão InfiniBand com velocidade 4x DDR, integrado em unidades de armário independentes (IRU - independeent rack
unit), sem cabos. Cada IRU inclui dois switches de nodos.
A fabric conecta os nodos de serviço (service nodes), leader nodes e os nodos
(compute nodes). Há dois IB fabrics no RTJones, um para MPI (ib0), e outro para E/S
(ib1). A figura 9 exemplifica a utilização do InfiniBand no sistema SGU Altix ICE.
Figura 9. InfiniBand com dois IRUs
Atualmente os dois fabrics são separados em tráfego IP e tráfego MPI no ib0 e
tráfego do sistema de arquivos Lustre no ib1.
O InfiniBand do SGI Altix ICE utiliza o software Open Fabrics Enterprise Distribuition (OFED) 1.2.
7. Caracterı́sticas do Sistema Pleiades
7.1. Nodos
Os nodos disponı́veis para computação são nomeados como r[1-76,81-88,105-108, 121124]i[0-3]n[0-15]. Há ainda um nodo servidor PBS e nodos front-end, ambos não disponı́veis aos usuários.
7.2. Processador
•
•
•
•
•
•
•
•
CPU Quad-Core Xeon X5472 (Harpertown)
CPU-Clock - 3GHz
Operações de Ponto Flutuante por ciclo de clock - 4
Número de Quad-Cores por nodo - 2
Número de Cores por nodo - 8
Total de nodos no cluster - 5888
Total de Cores no Cluster - 47104
FSB - 1600MHz, 12,8 GB/s
7.3. Memória
• L1 Cache - local para cada core, 32K para cache de instruções, 32K para cache de
dados
• L2 Cache - 12MB por Quad-Core, 6MB compartilhada entre pares de cores, velocidade de 3GHz
• Tamanho padrão da página - 4KB
• Memória local por core - 1GB
• Memória total por nodo (blade) - 8GB
7.4. Sistemas de Arquivos
• Home - /u/userid, 1TB, soft limit 8GB, hard limit 10GB
• /nobackup - /nobackup1 110TB, /nobackup2 220TB, soft limit 200GB, hard limit
400GB
7.5. Hierarquia de Hardware
• Dois dual-core 64 bits em um chip Quad-Core (compartilhando o barramento de
1600 MHz com a memória)
• 2 Quad-Cores em um nodo (blade)
• 16 nodos (compute blades), nomeados como n0-n15 em 1 IRU (individual rack
units)
• 4 IRUs, nomeadas como i0-i3 em um armário
• 92 armários, nomeados como r1-r76, r81-r88, r121-r124 no cluster
8. Caracterı́sticas do Columbia
O super cluster Columbia tornou possı́vel a NASA avançar na ciência e engenharia para a
exploração espacial. A avançada arquitetura do Columbia está sendo disponibilizada para
uma ampla comunidade de engenheiros e cientistas.
Figura 10. SGI Altix Columbia
Tabela 2. SGI Altix - Columbia
Nodos
Tipo
Velocidade
11 Altix 3700 (512 cores)
Madison
1.5 GHz
3 Altix 3700-BX2 (512 cores) Madison
1.5 GHz
5 Altix 3700-BX2 (512 cores) Madison
1.6 GHz
1 Altix 4700 (512 cores)
Montecito
1.6 GHz
1 Altix 4700 (2048 cores)
Montecito
1.6 GHz
2 Altix 4700 (1024 cores)
Montvale
1.6 GHz
Cache
6MB
6MB
9MB
9MB
9MB
9MB
8.1. Nodos
8.2. Arquitetura do Sistema
• 304 nodos (compute node)
• 88.88 Teraflop/s (pico teórico)
8.3. Sub-Sistemas
• 2 sistemas Data Life Cycle (DLM)
• 3 nodos front-end
8.4. Memória
• Tipo DDR SDRAM
• 2GB por processador
• Memória total - 28672GB
8.5. Interconexões
• NUMALink interconecta imagem do sistema aos nodos
• Entre nodos: InfiniBand 4X DDR, 10Gb Ethernet, 1Gb Ethernet
8.6. Storage
• DataDirect Networks
• LSI RAID
• SGI CXFS
8.7. Ambiente Operacional
• Sistema operacional - SUSE Linux Enterprise
• Job Scheduler - PBS
• Compiladores - Intel Fortran, C, SGI MPI
9. Caracterı́sticas do Schirra
O supercomputador Schirra é o primeiro cluster selecionado pela NASA para atender as
necessidades futuras de supercomputação. O nome Schirra é uma homenagem ao astronauta Walter Schirra.
Figura 11. IBM Power5+ Schirra
9.1. Arquitetura do Sistema
• 6 Gabinetes
• 4.8 Tflop/s
9.2. Nodos
•
•
•
•
•
40 IBM 9118-575
Processadores POWER5+
Velocidade do processador - 1.9GHz
320 processadores dual-core, 640 cores
36MB cache L3 por processador
9.3. Sub-Sistemas
• 2 nodos front-end
9.4. Memória
• IBM DIMMS
• 2GB por core
• Memória total - 1280GB
9.5. Interconexões
• Entre nodos - Switch de alta performance
• Dentro do nodo - Avançado switch distribuı́do
• 10Gb Ethernet para conexão dos front-end e nodes de armazenagem
9.6. Storage
• Data Direct RAID, 160TB
9.7. Ambiente Operacional
• Sistema Operacional - AIX Unix
• Job Scheduler - PBS
• Compiladores - IBM C/C++, IBM Fortran, IBM POE, gcc, g++
10. Gerenciamento dos Supercomputadores na NAS
A equipe de desenvolvimento de software da NAS desenvolveu um software para monitorar os supercomputadores através da WEB (miniHUD). Esta ferramenta permite aos
usuários uma visão de alto nı́vel em detalhes de nodos e sub-sistemas, incluindo utilização
de CPU, status da fila do PBS, entre outras informações do sistema. Mensagens popup
informam anomalias no sistema como serviços que não estão sendo executados, discos
que estão quase cheios, eficiência de CPU baixa e sistemas parados.
Figura 12. Gerenciamento de Supercomputadores
11. Supercomputação Verde na NAS
A Divisão de Supercomputação Avançada da NASA (NAS) criou um novo padrão com
a instalação do Pleiades, um dos mais supercomputadores mais eficientes no consumo
de energia no mundo. Pleiades está pontuado em vigésimo segundo na lista Green500
[Green500 2009]. Ele tem um desempenho de 233,02 MFlops por Watt e um consumo de
2090 kW.
O sistema possui fontes de alimentação com no mı́nimo 89% de eficiência, e
apenas uma por armário, reduzindo substancialmente o consumo de energia. As novas
tecnologias utilizadas no Pleiades fazem ele ser cerca de 4 vezes mais eficiente que o
supercomputador Columbia.
A NAS limitou o montante de memória necessário da maioria dos usuários, embora algumas poucas aplicações tiveram uma pequena redução em performance por core,
resultando uma redução no consumo de energia entre 10% e 15%.
Para obter o máximo de produtividade e consumo eficiente de energia a NAS
investe em algumas práticas:
• Métodos para certificar que processadores que não estão ativos entrem automaticamente em espera com pouca energia
• Atualização de hardware e ferramentas para aumentar a utilização do sistema,
reduzindo ciclos de computação
• Produzir mais resultados computacionais com os mesmos recursos
• Técnicas de resfriamento de supercomputadores mais eficientes
Referências
Green500 (2009). The green500 list. http://www.top500.org.
NASA (2009). Nasa advanced supercomputing division. Website. http://www.nas.
nasa.gov.
Newswire, P. (2008). Powered by silicon graphics, pleiades supercomputer fuels nasa’s
journey to moon, then mars. http://uk.sys-con.com/node/750560.
Pentakalos, O. (2002). An introduction to the infiniband architecture. Website. http:
//www.oreillynet.com/pub/a/network/2002/02/04/windows.html.
SGI (2009). Silicon graphics inc. Website. http://www.sgi.com.
Sun (2009).
Lustre file system.
http://www.sun.com/software/products/
lustre/features.xml.
Top500 (2009). Top500 supercomputer sites. http://www.top500.org.
Wikipedia (2009). Plêiades. Website. http://pt.wikipedia.org/wiki/Pliades_
M45.
Download