CI TASK w ramach działu KDM posiada pulę serwerów z akceleratorami GPU NVidia A100. Ze względu na ograniczone zasoby, dostęp będzie przyznawany w uzasadnionych przypadkach na szczególny wniosek użytkownika KDM.
Podsumowanie konfiguracji sprzętowej
8 x GPU NVidia A100 per serwer
liczba serwerów: 2
Organizacja
Karty graficzne są udostępnione na zwirtualizowanych nodach:
- 4 x 1 karta
- 2 x 2 karty
- 2 x 4 karty
Organizacja nodów i podział kart może ulec zmianie.
Nazwy nodów z puli: akiv01-akiv16 (nie wszystkie będą dostępne).
Środowisko systemowe na nodach jest takie jak na nodach gv w Trytonie, tj. CentOS 7. Dostępne są wspólne systemy plików /users/kdm i /users/work oraz całe środowisko aplikacji z kompilatorami i bibliotekami Intela (ładowane przez module load ...)
Oprócz tego w systemie jest zainstalowane środowisko sterowników NVidia i środowisko CUDA. Polecenia np. nvcc dostępne bezpośrednio w systemie.
Dostęp
Nody są dostępne w ramach Trytona, w systemie kolejkowym Slurm,
partycja: gpu-100, można się od nich dostać z tryton-ap, zlecając zadania w systemie kolejkowym.
Do celów prac rozwojowych możliwe jest korzystanie z dostępu poprzez interaktywną alokację w Slurmie np.:
[@tryton-ap ~]$ salloc --time 6:00:00 --partition gpu-a100 --gres=gpu:a100:1
alloc: Pending job allocation 24970941
salloc: job 24970941 queued and waiting for resources
salloc: job 24970941 has been allocated resources
salloc: Granted job allocation 24970941
salloc: Waiting for resource configuration
salloc: Nodes akiv02 are ready for job
To polecenie tworzy alokację na nodzie, ale nic nie uruchamia. Można się zalogować (wielokrotnie) na przydzielonego noda:
ssh akiv02
Specyfikacja --gres (Generic Resource) określa jakie zasoby są wymagane na nodzie, np: --gres=gpu:a100:
gdzie:
- gpu - ogólna klasa zasobów
- a100 - napis określający nasze karty
- 1 - liczba kart w nodzie
Przykład zastosowania