在安装期间自定义 NVIDIA GPU 驱动程序参数#
NVIDIA 驱动程序内核模块接受许多参数,这些参数可用于自定义驱动程序的行为。默认情况下,GPU Operator 使用默认值加载内核模块。在已安装驱动程序的机器上,您可以使用 cat /proc/driver/nvidia/params
命令列出参数名称和值。您可以将自定义参数传递给作为 NVIDIA 驱动程序安装一部分加载的内核模块 (nvidia
、nvidia-modeset
、nvidia-uvm
和 nvidia-peermem
)。
要传递自定义参数,请执行以下步骤。
创建一个名为 <module>.conf
的配置文件,其中 <module>
是参数所属的内核模块的名称。该文件应包含键值对形式的参数 – 每行一个参数。在以下示例中,GPU 固件日志记录参数被传递到 nvidia
模块。
$ cat nvidia.conf
NVreg_EnableGpuFirmwareLogs=2
为配置文件创建一个 ConfigMap
。如果配置了多个模块,则在创建 ConfigMap
时传递多个文件。
$ kubectl create configmap kernel-module-params -n gpu-operator --from-file=nvidia.conf=./nvidia.conf
安装 GPU Operator 并将 driver.kernelModuleConfig.name
设置为包含内核模块参数的 ConfigMap
的名称。
$ helm install --wait --generate-name \
-n gpu-operator --create-namespace \
nvidia/gpu-operator \
--version=v24.9.2 \
--set driver.kernelModuleConfig.name="kernel-module-params"