在安装期间自定义 NVIDIA GPU 驱动程序参数#
NVIDIA 驱动程序内核模块接受许多参数,这些参数可用于自定义驱动程序的行为。默认情况下,GPU Operator 使用默认值加载内核模块。在已安装驱动程序的机器上,您可以使用 cat /proc/driver/nvidia/params 命令列出参数名称和值。您可以将自定义参数传递给作为 NVIDIA 驱动程序安装一部分加载的内核模块 (nvidia、nvidia-modeset、nvidia-uvm 和 nvidia-peermem)。
要传递自定义参数,请执行以下步骤。
创建一个名为 <module>.conf 的配置文件,其中 <module> 是参数所属的内核模块的名称。该文件应包含键值对形式的参数 – 每行一个参数。在以下示例中,GPU 固件日志记录参数被传递到 nvidia 模块。
$ cat nvidia.conf
NVreg_EnableGpuFirmwareLogs=2
为配置文件创建一个 ConfigMap。如果配置了多个模块,则在创建 ConfigMap 时传递多个文件。
$ kubectl create configmap kernel-module-params -n gpu-operator --from-file=nvidia.conf=./nvidia.conf
安装 GPU Operator 并将 driver.kernelModuleConfig.name 设置为包含内核模块参数的 ConfigMap 的名称。
$ helm install --wait --generate-name \
-n gpu-operator --create-namespace \
nvidia/gpu-operator \
--version=v24.9.2 \
--set driver.kernelModuleConfig.name="kernel-module-params"