Skip to main content

Nvidia GPU Operator


설치

helm repo add nvidia https://nvidia.github.io/gpu-operator \
&& helm repo update nvidia
helm search repo gpu-operator -l | head -n 10
mkdir -p node/gpu-operator/helm
helm show values nvidia/gpu-operator \
--version v1.9.1 \
> node/gpu-operator/helm/values.yaml

https://github.com/NVIDIA/gpu-operator/blob/master/deployments/gpu-operator/values.yaml

  • NVIDIA driver
  • NVIDIA driver manager
  • NVIDIA container toolkit
  • NVIDIA k8s device plugin
  • NVIDIA dcgm-exporter
  • NFD(Node Feature Discovery)
  • NVIDIA GPU Feature Discovery # NFD가 설치되어 있어야 함
  • NVIDIA MIG(Multi-Instance GPU) manager
  • NVIDIA DCGM(Data Center GPU Manager)
node/gpu-operator/helm/values.yaml
driver:
# NVIDIA driver가 Node에 설치되어 실행되는 경우 false로 설정
enabled: fasle

toolkit:
# nvidia-docker2가 Node에 설치되어 실행되는 경우 false로 설정
enabled: false
helm upgrade gpu-operator nvidia/gpu-operator \
--install \
--version v1.9.1 \
-n nvidia \
--create-namespace \
-f node/gpu-operator/helm/values.yaml
info

NFD와 GFD에 의해 Node label에 시스템 정보가 추가되며, 이를 nodeAffinity에 설정하여 사용할 수 있습니다.

kubectl get node -o json | jq '.items[].metadata.labels'
kubectl get node -o json | jq '.items[].metadata.annotations'

Removal

helm uninstall gpu-operator -n nvidia

Reference