Serwery GPU


CI TASK w ramach działu KDM posiada pulę serwerów z akceleratorami GPU NVidia A100. Ze względu na ograniczone zasoby, dostęp będzie przyznawany w uzasadnionych przypadkach na szczególny wniosek użytkownika KDM. 


Podsumowanie konfiguracji sprzętowej

8 x GPU NVidia A100 per serwer
liczba serwerów: 2

Organizacja

Karty są udostępnione w zwirtualizowanych nodach:

  • 4 x 1 karta
  • 2 x 2 karty
  • 2 x 4 karty

 

Organizacja nodów i podział kart może ulec zmianie.

Nazwy nodów z puli: akiv01-akiv16 (nie wszystkie będą dostępne).

Środowisko systemowe na nodach jest takie jak na nodach gv w Trytonie, tj. CentOS 7. Dostępne są wspólne systemy plików /users/kdm i /users/work oraz całe środowisko aplikacji z kompilatorami i bibliotekami Intela (ładowane przez module load ...)

Oprócz tego w systemie jest zainstalowane środowisko sterników NVidia i środowisko CUDA. Polecenia np. nvcc dostępne bezpośrednio w systemie.


Dostęp

Nody są dostępne w ramach Trytona, w systemie kolejkowym Slurm,
partycja: gpu-100, można się od nich dostać z tryton-ap, zlecając zadania w systemie kolejkowym.

Do celów prac rozwojowych możliwe jest korzystanie z dostępu poprzez interaktywną alokację w Slurmie np.:


[@tryton-ap ~]$ salloc --time 6:00:00 --partition gpu-a100 --gres=gpu:a100:1

alloc: Pending job allocation 24970941
salloc: job 24970941 queued and waiting for resources
salloc: job 24970941 has been allocated resources
salloc: Granted job allocation 24970941
salloc: Waiting for resource configuration
salloc: Nodes akiv02 are ready for job

To polecenie tworzy alokację na nodzie, ale nic nie uruchamia. Można się zalogować (wielokrotnie) na przydzielonego noda:

ssh akiv02

Specyfikacja --gres (Generic Resource) określa jakie zasoby są wymagane na nodzie, np: --gres=gpu:a100:

gdzie:

  • gpu - ogólna klasa zasobów
  • a100 - napis określający nasze karty
  • 1 - liczba kart w nodzie