SASKE klaster - IBM iDataPlex


 

Štatút využívania výpočtových systémov 

Stiahnúť (.pdf)

 

Súpis výpočtových zdrojov klastra:

Klaster pozostáva z 56 výpočtových uzlov IBM iDataPlex dx360 M3, z toho 4 sú osadené dvoma GPU akcelerátormi NVIDIA Tesla.
K dispozícii je 872 cpu + 32128 cuda jadier, 2,8TB ram, disková raw kapacita zdieľaného úložiska dát 96TB a ďalších 56TB na lokálnych diskoch.
Jeho výpočtový výkon cpu je 6,76 TFLOPS (Linpack benchmark), čo je 92% teoretického výkonu. 
Maximalny príkon spolu s dátovým úložiskom a obslužnými zariadeniami vrátane chladena je 40kW.

Výpočtový uzol

  • Systém: Server IBM System x iDataPlex dx360 M3 a dx360 M4
  • Počet výpočtových jadier bez GPU: 360
  • Počet výpočtových jadier s GPU: 512
  • Pamäť na výpočtové jadro: 2-4GB
  • ECC Pamäť grafického výpočtového akcelerátora: 6GB
  • Kapacita externého úložiska dát: 48TB
  • Operačný systém: Scientific Linux
  • Výpočtová sieť: 40Gb/s infiniband

Dostupné súborové systémy

Filesystem popis zálohovanie diskové kvóty automatické mazanie súborov
/home/$USER domovské priečinky používateľov (GPFS) plánované 32GB/80k inodes 1 nie
/work/$USER zdieľaný sieťový disk na výpočty (GPFS) 3 nie nie (56TB) ano 2
/scratch/$PBS_JOBID ($TMPDIR) lokálny disk (ext4) 4 nie nie (1.6TB) ano / po skončení úlohy
/apps zdieľaný sieťový disk pre aplikácie (GPFS) N/A N/A N/A
  1. výpis aktuálne nastavených kvót príkazom: mmlsquota
  2. súbory väčšie ako 200MB budú zmazané po 14 dňoch nepoužívania, ostatné po 30 dňoch
  3. GPFS - paralelný sieťový súborový systém s agregovanou priepustnosťou približne 5GB/s vhodný na sekvenčný prenos
    objemnejších dát v blokoch >16kB.
  4. Lokálny disk je vhodný na spracovanie väčšieho počtu malých súborov s náhodným prístupom ( env. premenná $TMPDIR).

Vysokorýchlostné prepojenie (Interconnect)

Každý uzol je vzájome prepojený 2x10Gb/s Ethernet (RoCE alebo inak IBoE) v dvoch oddelených sieťach s celkovou priepustnosťou 2x640Gb/s.

  • výpočtová sieť (TCP: compNN-eth1, IB: mlx4_0:2), 
  • všeobecná sieť určená pre komunikáciu s hlavným uzlom a pre GPFS (TCP: compNN, IB: mlx4_0:1)

Na výpočty je vhodné používať iba sieť na to určenú, pretože intenzívna Infiniband komunikácia medzi uzlami, može veľmi významne spomaliť TCP protokol, ktorý využíva popri ďalších sieťových službách aj paralelný súborový systém GPFS. V takom prípade dôjde výraznému zhoršieniu jeho výkonnostných parametrov a dostupnosti dát.

Výpočtové fronty úloh

Na správu front a prideľovanie zdrojov klastra bol nainštalovaný software PBS Torque/Maui a nakonfigurované následovné fronty úloh.

Názov popis limity na jedného používateľa 1
debug fronta s vysokou prioritou, určená na odladenie úloh iba 2 krátke súčasne spustené úlohy, walltime = 30min
serial určená pre sériové úlohy max 1 cpu, pmem = 4gb, walltime = 240h
parallel určená pre paralelné úlohy (MPI, OpenMP...) min ppn = 4, max nodes = 8, walltime = 240h* )
gpu fronta úloh využívajúcich GPU akcelerátor walltime = 24h
  1. Na každý evidovný projekt je vyhradených max. 11520 aktívnych hodín (ncpu*walltime). Ďalšie úlohy daného projektu budú čakat vo frontách dovtedy, kým sa kumulovaný požadovaný walltime jeho spustených úloh neskráti o už použitý strojový čas natoľko, aby sa mohla v limite spustiť ďalšia úloha. Administrátor môže limity meniť individuálne podľa aktuálneho vyťaženia klastra, alebo podľa významnosti úloh.
© 2013 Ústav experimentálnej fyziky SAV, Watsonova 47, 040 01 Košice. HPC-Team: webmaster [at] saske.sk