DGX 软件堆栈#

NVIDIA DGX 软件包#

以下表格列出了作为 DGX 软件堆栈一部分安装的软件包,按元软件包名称和平台分类。

DGX A100, DGX Station A100, DGX A800, DGX Station A800, DGX H100/H200 和 DGX H800#

DGX A100 和 DGX A800

DGX Station A100 和 DGX Station A800

DGX H100/H200 和 DGX H800

dgx-a100-system-configurations
dgx-a800-system-configurations
dgxstation-a100-system-configurations
dgxstation-a800-system-configurations
dgx-h100-system-configurations
dgx-h200-system-configurations
dgx-h800-system-configurations

dgx-release

dgx-release

dgx-release

nv-cpu-governor

nv-cpu-governor

nv-cpu-governor

nv-hugepage

nv-hugepage

nv-hugepage

nv-iommu-pt

nv-iommu-pt

nv-iommu-pt

nv-ipmi-devintf

nv-ipmi-devintf

nv-ipmi-devintf

nv-limits

nv-limits

nv-limits

nv-update-disable

nv-update-disable

nv-update-disable

nvgpu-services-list

nvgpu-services-list

nvgpu-services-list

nvidia-acs-disable

nvidia-acs-disable

nvidia-crashdump

nvidia-crashdump

nvidia-crashdump

nvidia-disable-opensm

nvidia-disable-opensm

nvidia-disable-opensm

nvidia-esm-hook-epilogue

nvidia-esm-hook-epilogue

nvidia-esm-hook-epilogue

nvidia-fs-loader

nvidia-fs-loader

nvidia-fs-loader

nvidia-kbd-udev

nvidia-kbd-udev

nvidia-kbd-udev

nvidia-kernel-defaults

nvidia-kernel-defaults

nvidia-kernel-defaults

nvidia-mlnx-ofed-netdev-rename

nvidia-mlnx-ofed-netdev-rename

nvidia-mlnx-ofed-netdev-rename

nvidia-nvme-smartd

nvidia-nvme-smartd

nvidia-nvme-smartd

nvidia-pci-bridge-power

nvidia-pci-bridge-power

nvidia-pci-bridge-power

nvidia-pci-no-realloc

nvidia-redfish-config

nvidia-redfish-config

nvidia-redfish-config

nvidia-relaxed-ordering-gpu

nvidia-relaxed-ordering-gpu

nvidia-relaxed-ordering-nvme

nvidia-relaxed-ordering-nvme

nvidia-relaxed-ordering-nvme

dgx-a100-system-tools
dgx-a800-system-tools
dgxstation-a100-system-tools
dgxstation-a800-system-tools
dgx-h100-system-tools
dgx-h200-system-tools
dgx-h800-system-tools

dgx-release

dgx-release

dgx-release

ipmitool

ipmitool

ipmitool

nv-common-apis

nv-common-apis

nv-common-apis

nv-env-paths

nv-env-paths

nv-env-paths

nvdebug

nvidia-mig-manager

nvidia-mig-manager

nvidia-mig-manager

nvidia-raid-config

nvidia-raid-config

nvidia-raid-config

nvme-cli

nvme-cli

nvme-cli

tpm2-tools

tpm2-tools

tpm2-tools

dgx-a100-system-tools-extra
dgx-a800-system-tools-extra
dgxstation-a100-system-tools-extra
dgxstation-a800-system-tools-extra
dgx-h100-system-tools-extra
dgx-h200-system-tools-extra
dgx-h800-system-tools-extra

msecli

msecli

msecli

DGX-1、DGX-2 和 DGX Station#

DGX-1

DGX-2

DGX Station

dgx1-system-configurations
dgx2-system-configurations
dgxstation-system-configurations

dgx-release

dgx-release

dgx-release

nv-ast-modeset

nv-cpu-governor

nv-cpu-governor

nv-enable-nvme-hot-plug

nv-hugepage

nv-hugepage

nv-hugepage

nv-ipmi-devintf

nv-ipmi-devintf

nv-limits

nv-limits

nv-limits

nv-update-disable

nv-update-disable

nv-update-disable

nvgpu-services-list

nvgpu-services-list

nvgpu-services-list

nvidia-crashdump

nvidia-crashdump

nvidia-crashdump

nvidia-disable-opensm

nvidia-disable-opensm

nvidia-disable-opensm

nvidia-esm-hook-epilogue

nvidia-esm-hook-epilogue

nvidia-esm-hook-epilogue

nvidia-fs-loader

nvidia-fs-loader

nvidia-fs-loader

nvidia-kbd-udev

nvidia-kbd-udev

nvidia-kbd-udev

nvidia-kernel-defaults

nvidia-kernel-defaults

nvidia-kernel-defaults

nvidia-mlnx-ofed-netdev-rename

nvidia-mlnx-ofed-netdev-rename

nvidia-mlnx-ofed-netdev-rename

nvidia-nvme-smartd

nvidia-pci-bridge-power

nvidia-pci-bridge-power

dgx1-system-tools
dgx2-system-tools
dgxstation-system-tools

dgx-release

dgx-release

dgx-release

ipmitool

ipmitool

nv-common-apis

nv-common-apis

nv-common-apis

nv-env-paths

nv-env-paths

nv-env-paths

nvidia-raid-config

nvidia-raid-config

nvme-cli

tpm-tools

dgx1-system-tools-extra
dgx2-system-tools-extra
dgxstation-system-tools-extra

msecli

nvidia-raid-config

storcli

以下软件包由 nvidia-mlnx-ofed-misc 元软件包安装

  • mlnx-fw-updater

  • mlnx-pxe-setup

  • nvidia-mlnx-config

  • nvidia-peermem-loader

以下附加软件包是 DGX 软件堆栈的一部分

  • nv-docker-options

  • nvidia-logrotate

  • nvidia-motd

  • nvidia-ipmisol

Base OS 6.3.1 已安装软件包#

下表列出了将作为系统配置软件包一部分安装的所有软件包,并提供更多详细信息

软件包名称

描述

1

2

A

H

containerd.io

一个开放且可靠的容器运行时。

X

X

X

X

cuda-compute-repo

CUDA 计算存储库配置文件。

X

X

X

X

cuda-nvml-dev-12-4

NVML 本机开发链接,标头。

X

X

X

X

dgx-release

软件包更新 DGX OS 版本信息。

X

X

X

X

dgx-repo

DGX 存储库配置文件。

X

X

X

X

dgx-server-grub

DGX 服务器 grub 定制器。

X

X

X

X

docker-ce

Docker。

X

X

X

X

hpc-sdk-repo

NVIDIA HPC SDK 存储库配置文件。

X

X

X

X

mlnx-pxe-setup

提供一个脚本以使用 Mellanox 网卡启用 PXE 启动。

X

X

X

X

msecli

Micron Storage Executive CLI。

X

X

X

nv-ast-modeset

在启动期间禁用 ast 驱动程序。

X

nv-common-apis

安装 Nvidia 系统常用的脚本。

X

X

X

X

nv-cpu-governor

将 CPU 调速器设置为 performance。

X

X

X

X

nv-docker-options

Docker 守护程序选项。

X

X

X

X

nv-enable-nvme-hot-plug

在启动期间设置 PCIe 内核参数。

X

nv-env-paths

配置 PATH 变量。

X

X

X

X

nv-hugepage

启用透明大页。

X

X

X

X

nv-iommu-pt

在直通模式下启用 iommu。

X

X

nv-ipmi-devintf

加载 ipmi_devintf 模块。

X

X

X

X

nv-limits

增加文件限制。

X

X

X

X

nv-persistence-mode

启用持久模式。

X

X

X

X

nv-update-disable

禁用操作系统更新提示。

X

X

X

X

nvdebug

NVIDIA 调试工具。

X

nvgpu-services-list

所有 GPU 相关服务的列表。

X

X

X

X

nvidia-acs-disable

禁用 PCIe ACS 功能。

X

X

nvidia-chardev-links

安装 udev 规则,该规则创建到 NVIDIA 设备的符号链接。

X

X

X

X

nvidia-conf-cachefilesd

cachefilesd 的 Systemd 设置。

X

X

X

X

nvidia-crashdump

NVIDIA 崩溃转储策略。

X

X

X

X

nvidia-disable-opensm

禁用 opensm。

X

X

X

X

nvidia-esm-hook-epilogue

NVIDIA 软件包,用于阐明 ESM 策略。

X

X

X

X

nvidia-fs-loader

加载 nvidia-fs 模块。

X

X

X

X

nvidia-ipmisol

启用 IPMI 串行 over LAN。

X

X

X

X

nvidia-kbd-udev

在 BMC 虚拟控制台上启用大写锁定指示器。

X

X

X

X

nvidia-kernel-defaults

sysctl default kernel settings for DGX。

X

X

X

X

nvidia-logrotate

NVIDIA logrotate 策略。

X

X

X

X

nvidia-manage-ofed

用于管理 OFED 安装的工具。

X

X

X

X

nvidia-mig-manager

NVIDIA MIG 分区编辑器和 Systemd 服务。

X

X

nvidia-mlnx-config

配置 MLNX 设备。

X

X

X

X

nvidia-mlnx-names

更改 Mellanox 设备的设备名称。

X

X

X

X

nvidia-mlnx-ofed-netdev-rename

将 mlnx enp* 设备重置回其原始名称。

X

X

X

X

nvidia-motd

NVIDIA 平台的自定义 motd 文件。

X

X

X

X

nvidia-mstflint-loader

加载 mstflint-access 模块。

X

X

X

X

nvidia-nvme-smartd

在 NVME 设备上启用 SMART 监控。

X

X

X

nvidia-oem-config-bmc

Ubiquity 插件,用于在 NVIDIA 平台上配置 BMC。

X

X

X

X

nvidia-oem-config-crypt-passwd

Ubiquity 插件,用于重置 crypt 密码。

X

X

X

X

nvidia-oem-config-eula

Ubiquity 插件,用于显示 EULA。

X

X

X

X

nvidia-oem-config-grub-passwd

Ubiquity 插件,用于在 NVIDIA 平台上配置 GRUB 密码。

X

X

X

X

nvidia-oem-config-postact

Ubiquity 插件,用于在启动前完成最终操作。

X

X

X

X

nvidia-pci-bridge-power

将 PCI 桥接电源控制设置为开启。

X

X

X

X

nvidia-pci-no-realloc

禁用 PCI 资源重新分配。

X

nvidia-peermem-loader

加载 nvidia-peermem 模块。

X

X

X

X

nvidia-raid-config

DGX RAID 配置。

X

X

X

X

nvidia-redfish-config

配置 Redfish 主机接口。

X

X

nvidia-relaxed-ordering-gpu

配置 PCIe 宽松排序。

X

nvidia-relaxed-ordering-nvme

配置 PCIe 宽松排序。

X

X

nvidia-repo-keys

将密钥添加到 apt trusted.gpg 数据库。

X

X

X

X

nvidia-systemd-reorder

修复 NVIDIA 服务的启动顺序。

X

X

X

nvipmitool

NVIDIA 定制了 ipmitool,它支持 NVIDIA 平台的子命令。

X

X

X

X

nvsm

用于 DGX 系统管理的 REST API 服务。

X

X

X

X

storcli

存储命令行工具,管理存储控制器。

X

ubiquity

Ubuntu Live CD 安装程序。

X

X

X

X

图例

1:

DGX-1

2:

DGX-2

A:

DGX A100, DGX A800

H:

DGX H100/H200, DGX H800

DGX 内核参数#

参数名称

描述

软件包

位置

ast.modeset=0

禁用 Aspeed 显示驱动程序。AST2xxx 是 DGX-1 和 DGX-2 服务器中使用的 BMC。

nv-ast-modeset

/etc/default/grub.d/nomodeset.cfg

pci=realloc=on

如果 BIOS 完成的分配不足,则允许内核重新分配 PCI 资源。此项和 pcie_ports=native 都是 DGX2 上 NVME 热插拔所必需的。

nv-enable-nvme-hot-plug

/etc/default/grub.d/enable-nvme-hot-plug.cfg

pcie_ports=native

使用 Linux 本机服务进行 PME、AER、DPC、PCIe 热插拔,即不是固件优先。此项和 pci=realloc=on 都是 DGX2 上 NVME 热插拔所必需的。

nv-enable-nvme-hot-plug

/etc/default/grub.d/enable-nvme-hot-plug.cfg

transparent_hugepage=madvise

系统范围内禁用大页,仅在 MADV_HUGEPAGE madvise 区域内启用它们,以防止应用程序分配超出必要的内存资源。

nv-hugepage

/etc/default/grub.d/hugepage.cfg

iommu=pt

仅启用直通模式并禁用 DMA 转换。这为 DGX A100 内的 CPU 启用优化。

nv-iommu-pt

/etc/default/grub.d/iommu.cfg

crashkernel

用于崩溃转储的内存量。

nvidia-crashdump

/etc/default/grub.d/ipmisol.cfg

console=ttyS[0-1],115200n8

将控制台设置为串行端口 0 或 1,使用 115200 波特,无奇偶校验,8 位数据位。对于 dgx-2、dgx-h100、dgx-h800:console=ttyS0,115200n8。其他系统类型:console=ttyS1,115200n8

nvidia-ipmisol

kernel cmdline

net.ipv4.conf.all.arp_announce = 2

始终为此目标使用最佳本地地址。

nvidia-kernel-defaults

/etc/sysctl.d/20-nvidia-defaults.conf

net.ipv4.conf.default.arp_announce = 2

始终为此目标使用最佳本地地址。

nvidia-kernel-defaults

/etc/sysctl.d/20-nvidia-defaults.conf

net.ipv4.conf.all.arp_ignore = 1

仅回复包含目标 IP 地址的接口上的 ARP 请求。

nvidia-kernel-defaults

/etc/sysctl.d/20-nvidia-defaults.conf

net.ipv4.conf.default.arp_ignore = 1

仅回复包含目标 IP 地址的接口上的 ARP 请求。

nvidia-kernel-defaults

/etc/sysctl.d/20-nvidia-defaults.conf

setpci -d ::207 68.w=5000:f000

将所有网络 (2) Infiniband (07) 设备的 MaxReadReq 大小设置为 4KB。

nvidia-mlnx-config

/etc/systemd/system/nvidia-mlnx-config.service

setpci -d ::207 68.w

将所有网络 (2) Infiniband (07) 设备的 MaxReadReq 大小设置为 4KB。

nvidia-mlnx-config

/etc/systemd/system/nvidia-mlnx-config.service

NVreg_EnablePCIERelaxedOrderingMode=1

设置 reg-key 以在 GPU 中启用 PCIe 宽松排序。

nvidia-relaxed-ordering-gpu

/etc/modprobe.d/nvidia-relaxed-ordering.conf