在安装期间自定义 NVIDIA GPU 驱动程序参数#

NVIDIA 驱动程序内核模块接受许多参数,这些参数可用于自定义驱动程序的行为。默认情况下,GPU Operator 使用默认值加载内核模块。在已安装驱动程序的机器上,您可以使用 cat /proc/driver/nvidia/params 命令列出参数名称和值。您可以将自定义参数传递给作为 NVIDIA 驱动程序安装一部分加载的内核模块 (nvidianvidia-modesetnvidia-uvmnvidia-peermem)。

要传递自定义参数,请执行以下步骤。

创建一个名为 <module>.conf 的配置文件,其中 <module> 是参数所属的内核模块的名称。该文件应包含键值对形式的参数 – 每行一个参数。在以下示例中,GPU 固件日志记录参数被传递到 nvidia 模块。

$ cat nvidia.conf
NVreg_EnableGpuFirmwareLogs=2

为配置文件创建一个 ConfigMap。如果配置了多个模块,则在创建 ConfigMap 时传递多个文件。

$ kubectl create configmap kernel-module-params -n gpu-operator --from-file=nvidia.conf=./nvidia.conf

安装 GPU Operator 并将 driver.kernelModuleConfig.name 设置为包含内核模块参数的 ConfigMap 的名称。

$ helm install --wait --generate-name \
     -n gpu-operator --create-namespace \
     nvidia/gpu-operator \
     --version=v24.9.2 \
     --set driver.kernelModuleConfig.name="kernel-module-params"