DGX 软件堆栈#
NVIDIA DGX 软件包#
以下表格列出了作为 DGX 软件堆栈一部分安装的软件包,按元软件包名称和平台分类。
DGX A100 和 DGX A800 |
DGX Station A100 和 DGX Station A800 |
DGX H100/H200 和 DGX H800 |
---|---|---|
dgx-a100-system-configurations
dgx-a800-system-configurations
|
dgxstation-a100-system-configurations
dgxstation-a800-system-configurations
|
dgx-h100-system-configurations
dgx-h200-system-configurations
dgx-h800-system-configurations
|
dgx-release |
dgx-release |
dgx-release |
nv-cpu-governor |
nv-cpu-governor |
nv-cpu-governor |
nv-hugepage |
nv-hugepage |
nv-hugepage |
nv-iommu-pt |
nv-iommu-pt |
nv-iommu-pt |
nv-ipmi-devintf |
nv-ipmi-devintf |
nv-ipmi-devintf |
nv-limits |
nv-limits |
nv-limits |
nv-update-disable |
nv-update-disable |
nv-update-disable |
nvgpu-services-list |
nvgpu-services-list |
nvgpu-services-list |
nvidia-acs-disable |
nvidia-acs-disable |
|
nvidia-crashdump |
nvidia-crashdump |
nvidia-crashdump |
nvidia-disable-opensm |
nvidia-disable-opensm |
nvidia-disable-opensm |
nvidia-esm-hook-epilogue |
nvidia-esm-hook-epilogue |
nvidia-esm-hook-epilogue |
nvidia-fs-loader |
nvidia-fs-loader |
nvidia-fs-loader |
nvidia-kbd-udev |
nvidia-kbd-udev |
nvidia-kbd-udev |
nvidia-kernel-defaults |
nvidia-kernel-defaults |
nvidia-kernel-defaults |
nvidia-mlnx-ofed-netdev-rename |
nvidia-mlnx-ofed-netdev-rename |
nvidia-mlnx-ofed-netdev-rename |
nvidia-nvme-smartd |
nvidia-nvme-smartd |
nvidia-nvme-smartd |
nvidia-pci-bridge-power |
nvidia-pci-bridge-power |
nvidia-pci-bridge-power |
nvidia-pci-no-realloc |
||
nvidia-redfish-config |
nvidia-redfish-config |
nvidia-redfish-config |
nvidia-relaxed-ordering-gpu |
nvidia-relaxed-ordering-gpu |
|
nvidia-relaxed-ordering-nvme |
nvidia-relaxed-ordering-nvme |
nvidia-relaxed-ordering-nvme |
dgx-a100-system-tools
dgx-a800-system-tools
|
dgxstation-a100-system-tools
dgxstation-a800-system-tools
|
dgx-h100-system-tools
dgx-h200-system-tools
dgx-h800-system-tools
|
dgx-release |
dgx-release |
dgx-release |
ipmitool |
ipmitool |
ipmitool |
nv-common-apis |
nv-common-apis |
nv-common-apis |
nv-env-paths |
nv-env-paths |
nv-env-paths |
nvdebug |
||
nvidia-mig-manager |
nvidia-mig-manager |
nvidia-mig-manager |
nvidia-raid-config |
nvidia-raid-config |
nvidia-raid-config |
nvme-cli |
nvme-cli |
nvme-cli |
tpm2-tools |
tpm2-tools |
tpm2-tools |
dgx-a100-system-tools-extra
dgx-a800-system-tools-extra
|
dgxstation-a100-system-tools-extra
dgxstation-a800-system-tools-extra
|
dgx-h100-system-tools-extra
dgx-h200-system-tools-extra
dgx-h800-system-tools-extra
|
msecli |
msecli |
msecli |
DGX-1 |
DGX-2 |
DGX Station |
---|---|---|
dgx1-system-configurations
|
dgx2-system-configurations
|
dgxstation-system-configurations
|
dgx-release |
dgx-release |
dgx-release |
nv-ast-modeset |
||
nv-cpu-governor |
nv-cpu-governor |
|
nv-enable-nvme-hot-plug |
||
nv-hugepage |
nv-hugepage |
nv-hugepage |
nv-ipmi-devintf |
nv-ipmi-devintf |
|
nv-limits |
nv-limits |
nv-limits |
nv-update-disable |
nv-update-disable |
nv-update-disable |
nvgpu-services-list |
nvgpu-services-list |
nvgpu-services-list |
nvidia-crashdump |
nvidia-crashdump |
nvidia-crashdump |
nvidia-disable-opensm |
nvidia-disable-opensm |
nvidia-disable-opensm |
nvidia-esm-hook-epilogue |
nvidia-esm-hook-epilogue |
nvidia-esm-hook-epilogue |
nvidia-fs-loader |
nvidia-fs-loader |
nvidia-fs-loader |
nvidia-kbd-udev |
nvidia-kbd-udev |
nvidia-kbd-udev |
nvidia-kernel-defaults |
nvidia-kernel-defaults |
nvidia-kernel-defaults |
nvidia-mlnx-ofed-netdev-rename |
nvidia-mlnx-ofed-netdev-rename |
nvidia-mlnx-ofed-netdev-rename |
nvidia-nvme-smartd |
||
nvidia-pci-bridge-power |
nvidia-pci-bridge-power |
|
dgx1-system-tools
|
dgx2-system-tools
|
dgxstation-system-tools
|
dgx-release |
dgx-release |
dgx-release |
ipmitool |
ipmitool |
|
nv-common-apis |
nv-common-apis |
nv-common-apis |
nv-env-paths |
nv-env-paths |
nv-env-paths |
nvidia-raid-config |
nvidia-raid-config |
|
nvme-cli |
||
tpm-tools |
||
dgx1-system-tools-extra
|
dgx2-system-tools-extra
|
dgxstation-system-tools-extra
|
msecli |
||
nvidia-raid-config |
||
storcli |
以下软件包由 nvidia-mlnx-ofed-misc 元软件包安装
mlnx-fw-updater
mlnx-pxe-setup
nvidia-mlnx-config
nvidia-peermem-loader
以下附加软件包是 DGX 软件堆栈的一部分
nv-docker-options
nvidia-logrotate
nvidia-motd
nvidia-ipmisol
Base OS 6.3.1 已安装软件包#
下表列出了将作为系统配置软件包一部分安装的所有软件包,并提供更多详细信息
软件包名称 |
描述 |
1 |
2 |
A |
H |
---|---|---|---|---|---|
containerd.io |
一个开放且可靠的容器运行时。 |
X |
X |
X |
X |
cuda-compute-repo |
CUDA 计算存储库配置文件。 |
X |
X |
X |
X |
cuda-nvml-dev-12-4 |
NVML 本机开发链接,标头。 |
X |
X |
X |
X |
dgx-release |
软件包更新 DGX OS 版本信息。 |
X |
X |
X |
X |
dgx-repo |
DGX 存储库配置文件。 |
X |
X |
X |
X |
dgx-server-grub |
DGX 服务器 grub 定制器。 |
X |
X |
X |
X |
docker-ce |
Docker。 |
X |
X |
X |
X |
hpc-sdk-repo |
NVIDIA HPC SDK 存储库配置文件。 |
X |
X |
X |
X |
mlnx-pxe-setup |
提供一个脚本以使用 Mellanox 网卡启用 PXE 启动。 |
X |
X |
X |
X |
msecli |
Micron Storage Executive CLI。 |
X |
X |
X |
|
nv-ast-modeset |
在启动期间禁用 ast 驱动程序。 |
X |
|||
nv-common-apis |
安装 Nvidia 系统常用的脚本。 |
X |
X |
X |
X |
nv-cpu-governor |
将 CPU 调速器设置为 performance。 |
X |
X |
X |
X |
nv-docker-options |
Docker 守护程序选项。 |
X |
X |
X |
X |
nv-enable-nvme-hot-plug |
在启动期间设置 PCIe 内核参数。 |
X |
|||
nv-env-paths |
配置 PATH 变量。 |
X |
X |
X |
X |
nv-hugepage |
启用透明大页。 |
X |
X |
X |
X |
nv-iommu-pt |
在直通模式下启用 iommu。 |
X |
X |
||
nv-ipmi-devintf |
加载 ipmi_devintf 模块。 |
X |
X |
X |
X |
nv-limits |
增加文件限制。 |
X |
X |
X |
X |
nv-persistence-mode |
启用持久模式。 |
X |
X |
X |
X |
nv-update-disable |
禁用操作系统更新提示。 |
X |
X |
X |
X |
nvdebug |
NVIDIA 调试工具。 |
X |
|||
nvgpu-services-list |
所有 GPU 相关服务的列表。 |
X |
X |
X |
X |
nvidia-acs-disable |
禁用 PCIe ACS 功能。 |
X |
X |
||
nvidia-chardev-links |
安装 udev 规则,该规则创建到 NVIDIA 设备的符号链接。 |
X |
X |
X |
X |
nvidia-conf-cachefilesd |
cachefilesd 的 Systemd 设置。 |
X |
X |
X |
X |
nvidia-crashdump |
NVIDIA 崩溃转储策略。 |
X |
X |
X |
X |
nvidia-disable-opensm |
禁用 opensm。 |
X |
X |
X |
X |
nvidia-esm-hook-epilogue |
NVIDIA 软件包,用于阐明 ESM 策略。 |
X |
X |
X |
X |
nvidia-fs-loader |
加载 nvidia-fs 模块。 |
X |
X |
X |
X |
nvidia-ipmisol |
启用 IPMI 串行 over LAN。 |
X |
X |
X |
X |
nvidia-kbd-udev |
在 BMC 虚拟控制台上启用大写锁定指示器。 |
X |
X |
X |
X |
nvidia-kernel-defaults |
sysctl default kernel settings for DGX。 |
X |
X |
X |
X |
nvidia-logrotate |
NVIDIA logrotate 策略。 |
X |
X |
X |
X |
nvidia-manage-ofed |
用于管理 OFED 安装的工具。 |
X |
X |
X |
X |
nvidia-mig-manager |
NVIDIA MIG 分区编辑器和 Systemd 服务。 |
X |
X |
||
nvidia-mlnx-config |
配置 MLNX 设备。 |
X |
X |
X |
X |
nvidia-mlnx-names |
更改 Mellanox 设备的设备名称。 |
X |
X |
X |
X |
nvidia-mlnx-ofed-netdev-rename |
将 mlnx enp* 设备重置回其原始名称。 |
X |
X |
X |
X |
nvidia-motd |
NVIDIA 平台的自定义 motd 文件。 |
X |
X |
X |
X |
nvidia-mstflint-loader |
加载 mstflint-access 模块。 |
X |
X |
X |
X |
nvidia-nvme-smartd |
在 NVME 设备上启用 SMART 监控。 |
X |
X |
X |
|
nvidia-oem-config-bmc |
Ubiquity 插件,用于在 NVIDIA 平台上配置 BMC。 |
X |
X |
X |
X |
nvidia-oem-config-crypt-passwd |
Ubiquity 插件,用于重置 crypt 密码。 |
X |
X |
X |
X |
nvidia-oem-config-eula |
Ubiquity 插件,用于显示 EULA。 |
X |
X |
X |
X |
nvidia-oem-config-grub-passwd |
Ubiquity 插件,用于在 NVIDIA 平台上配置 GRUB 密码。 |
X |
X |
X |
X |
nvidia-oem-config-postact |
Ubiquity 插件,用于在启动前完成最终操作。 |
X |
X |
X |
X |
nvidia-pci-bridge-power |
将 PCI 桥接电源控制设置为开启。 |
X |
X |
X |
X |
nvidia-pci-no-realloc |
禁用 PCI 资源重新分配。 |
X |
|||
nvidia-peermem-loader |
加载 nvidia-peermem 模块。 |
X |
X |
X |
X |
nvidia-raid-config |
DGX RAID 配置。 |
X |
X |
X |
X |
nvidia-redfish-config |
配置 Redfish 主机接口。 |
X |
X |
||
nvidia-relaxed-ordering-gpu |
配置 PCIe 宽松排序。 |
X |
|||
nvidia-relaxed-ordering-nvme |
配置 PCIe 宽松排序。 |
X |
X |
||
nvidia-repo-keys |
将密钥添加到 apt trusted.gpg 数据库。 |
X |
X |
X |
X |
nvidia-systemd-reorder |
修复 NVIDIA 服务的启动顺序。 |
X |
X |
X |
|
nvipmitool |
NVIDIA 定制了 ipmitool,它支持 NVIDIA 平台的子命令。 |
X |
X |
X |
X |
nvsm |
用于 DGX 系统管理的 REST API 服务。 |
X |
X |
X |
X |
storcli |
存储命令行工具,管理存储控制器。 |
X |
|||
ubiquity |
Ubuntu Live CD 安装程序。 |
X |
X |
X |
X |
图例
- 1:
DGX-1
- 2:
DGX-2
- A:
DGX A100, DGX A800
- H:
DGX H100/H200, DGX H800
DGX 内核参数#
参数名称 |
描述 |
软件包 |
位置 |
---|---|---|---|
ast.modeset=0 |
禁用 Aspeed 显示驱动程序。AST2xxx 是 DGX-1 和 DGX-2 服务器中使用的 BMC。 |
nv-ast-modeset |
/etc/default/grub.d/nomodeset.cfg |
pci=realloc=on |
如果 BIOS 完成的分配不足,则允许内核重新分配 PCI 资源。此项和 pcie_ports=native 都是 DGX2 上 NVME 热插拔所必需的。 |
nv-enable-nvme-hot-plug |
/etc/default/grub.d/enable-nvme-hot-plug.cfg |
pcie_ports=native |
使用 Linux 本机服务进行 PME、AER、DPC、PCIe 热插拔,即不是固件优先。此项和 pci=realloc=on 都是 DGX2 上 NVME 热插拔所必需的。 |
nv-enable-nvme-hot-plug |
/etc/default/grub.d/enable-nvme-hot-plug.cfg |
transparent_hugepage=madvise |
系统范围内禁用大页,仅在 MADV_HUGEPAGE madvise 区域内启用它们,以防止应用程序分配超出必要的内存资源。 |
nv-hugepage |
/etc/default/grub.d/hugepage.cfg |
iommu=pt |
仅启用直通模式并禁用 DMA 转换。这为 DGX A100 内的 CPU 启用优化。 |
nv-iommu-pt |
/etc/default/grub.d/iommu.cfg |
crashkernel |
用于崩溃转储的内存量。 |
nvidia-crashdump |
/etc/default/grub.d/ipmisol.cfg |
console=ttyS[0-1],115200n8 |
将控制台设置为串行端口 0 或 1,使用 115200 波特,无奇偶校验,8 位数据位。对于 dgx-2、dgx-h100、dgx-h800:console=ttyS0,115200n8。其他系统类型:console=ttyS1,115200n8 |
nvidia-ipmisol |
kernel cmdline |
net.ipv4.conf.all.arp_announce = 2 |
始终为此目标使用最佳本地地址。 |
nvidia-kernel-defaults |
/etc/sysctl.d/20-nvidia-defaults.conf |
net.ipv4.conf.default.arp_announce = 2 |
始终为此目标使用最佳本地地址。 |
nvidia-kernel-defaults |
/etc/sysctl.d/20-nvidia-defaults.conf |
net.ipv4.conf.all.arp_ignore = 1 |
仅回复包含目标 IP 地址的接口上的 ARP 请求。 |
nvidia-kernel-defaults |
/etc/sysctl.d/20-nvidia-defaults.conf |
net.ipv4.conf.default.arp_ignore = 1 |
仅回复包含目标 IP 地址的接口上的 ARP 请求。 |
nvidia-kernel-defaults |
/etc/sysctl.d/20-nvidia-defaults.conf |
setpci -d ::207 68.w=5000:f000 |
将所有网络 (2) Infiniband (07) 设备的 MaxReadReq 大小设置为 4KB。 |
nvidia-mlnx-config |
/etc/systemd/system/nvidia-mlnx-config.service |
setpci -d ::207 68.w |
将所有网络 (2) Infiniband (07) 设备的 MaxReadReq 大小设置为 4KB。 |
nvidia-mlnx-config |
/etc/systemd/system/nvidia-mlnx-config.service |
NVreg_EnablePCIERelaxedOrderingMode=1 |
设置 reg-key 以在 GPU 中启用 PCIe 宽松排序。 |
nvidia-relaxed-ordering-gpu |
/etc/modprobe.d/nvidia-relaxed-ordering.conf |