Kubernetes
August 23, 2023

Создание нод группы с driverless gpu

При выборе данной опции драйвера необходимо будет установить вручную.

Создание фиксированной нод группы для кластера.

export FOLDER=$(yc config get folder-id)
export ZONE=ru-central1-a
export SUBNET=subnet-a
export SG=$(yc vpc sg get k8s-sg --format json | jq -r '.id')
yc k8s node-group create \
--folder-id $FOLDER \
--name cam-gpu \
--cluster-name cam-test \
--description "gpu" \
--metadata serial-port-enable=1 \
--metadata-from-file=ssh-keys=/Users/cameda/ssh-pairs.txt \
--location zone=$ZONE \
--platform gpu-standard-v2 \
--memory 96 \
--cores 16 \
--core-fraction 100 \
--disk-type network-ssd \
--disk-size 96 \
--gpus 2 \
--gpu-environment runc \
--network-acceleration-type standard \
--network-interface security-group-ids=$SG,subnets=$SUBNET,ipv4-address=nat \
--version 1.24 \
--container-runtime containerd \
--fixed-size 2 \
--auto-upgrade=false \
--auto-repair \
--max-expansion 1 \
--max-unavailable 1 \
--daily-maintenance-window start=22:00,duration=5h \
--allowed-unsafe-sysctls net.ipv4.tcp_timestamps \
--async

Ставим драйвер.

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia 
helm repo update
helm install --wait --generate-name \
  --namespace gpu-operator \
  --create-namespace nvidia/gpu-operator \
  --set toolkit.enabled=false \
  --set driver.version="535.54.03"

Если есть Kyverno с политикой enforce, то может быть конфликт с кластерной политикой: disallow-host-path.