DGX 软件堆栈#

NVIDIA DGX 软件包#

此表列出了作为相应元软件包一部分安装的所有软件包(以粗体突出显示)

DGX A100

DGX-2

DGX-1

dgx-a100-system-configurations:

dgx2-system-configurations:

dgx1-system-confgurations:

dgx-release

dgx-release

dgx-release

-

-

nv-ast-modeset

nvidia-crashdump

nvidia-crashdump

nvidia-crashdump

-

nv-enable-nvme-hot-plug

-

nv-hugepage

nv-hugepage

nv-hugepage

nv-iommu-pt

-

-

nv-ipmi-devintf

nv-ipmi-devintf

nv-ipmi-devintf

nv-limits

nv-limits

nv-limits

nv-update-disable

nv-update-disable

nv-update-disable

nvidia-acs-disable

nvidia-acs-disable

-

nvidia-kernel-defaults

nvidia-kernel-defaults

nvidia-kernel-defaults

nvidia-nvme-smartd

nvidia-nvme-smartd

-

nvidia-pci-bridge-power

nvidia-pci-bridge-power

nvidia-pci-bridge-power

nvidia-redfish-config

-

-

nvidia-relaxed-ordering-gpu

-

-

nvidia-relaxed-ordering-nvme

-

-

nvgpu-services-list

-

-

dgx-a100-system-tools:

dgx2-system-tools:

dgx1-system-tools:

dgx-release

dgx-release

dgx-release

ipmitool

ipmitool

ipmitool

nv-common-apis

nv-common-apis

nv-common-apis

nv-env-paths

nv-env-paths

nv-env-paths

nvidia-mig-manager

-

-

nvidia-raid-config

nvidia-raid-config

nvidia-raid-config

nvme-cli

nvme-cli

-

tpm2-tools

tpm-tools

-

dgx-a100-system-tools-extra:

dgx2-system-tools-extra:

dgx1-system-tools-extra:

msecli

msecli

storcli

nvidia-mlnx-ofed-misc:

mlnx-fw-updater

mlnx-pxe-setup

nvidia-mlnx-config

nvidia-peer-memory

nvidia-peer-memory-dkms

其他 NVIDIA 软件包

nv-docker-options

nvidia-logrotate

nvidia-motd

nvidia-ipmisol

下表列出了将作为系统配置软件包的一部分安装的所有软件包,并提供更多详细信息

软件包

描述

1

2

A

dgx-release

发布信息

R

R

R

nv-ast-modeset

禁用 Aspeed 显示驱动程序。它可能会导致连接的显示器出现问题。AST2xxx 是我们服务器中使用的 BMC。

[DGX-1, DGX-2, DGX A100, DGX Station A100]

R

R

R

nv-enable-nvme-hot-plug

配置 NVMe 热插拔的内核参数(另请参阅下面的内核部分)。

R

nv-hugepage

设置 “transpa rent_hugepa ge=madvise” 内核参数。

R

R

R

nv-iommu-pt

为 AMD Rome 平台设置 iommu=pt。

R

nv-ipmi-devintf

添加 i pmi_devintf 模块,以便使用 ipmi 工具访问 BMC。

R

R

R

nv-limits

增加用户的进程资源限制 (ulimits nofile 50000)

R

R

R

nv-update-disable

禁用自动系统升级。用户需要使用 apt 显式升级其系统。

R

R

R

nvgpu-services-list

以 .json 格式列出消耗 GPU 的服务,例如 DCGM 或 NVSM,固件更新机制需要这些服务。

R

R

R

nvidia-acs-disable

禁用 PCIe ACS 功能,以便在 DGX A100 上的裸机用例中获得更好的 GPU 直连性能。

R

nvidia-crashdump

用于管理内核崩溃转储的工具。默认情况下它们处于禁用状态。

R

R

R

nv-docker-options

增加 SHMEM 和其他资源。

R

R

R

nvidia-ipmisol

[可选]

通过 BMC 启用串行输出

(SOL - 串行 over Lan)

O

O

O

nvidia-kernel-defaults

禁用 ARP 以提高安全性 ne t.ipv4.conf

.all.a rp_announce = 2

.all .arp_ignore = 1

.default.a rp_announce = 2

.default .arp_ignore = 1

R

R

R

nvidia-logrotate

修改 logrotate 配置

O

O

O

nvidia-motd

修改每日消息 (MOTD) 以显示 NVSM 健康监控警报和发布信息。

O

O

O

nvidia-nvme-smartd

在 NVME 设备上启用 SMART 监控。默认情况下,smartd 将跳过 NVME 设备。

R

R

nvidia-pci-bridge-power

将所有 PCI 桥的桥电源控制设置设置为“on”。

R

R

R

nvidia-relaxed-ordering-gpu

设置一个 reg-key 以在 GPU 中启用 PCIe relax ed-ordering

R

nvidia-relaxed-ordering-nvme

安装一个用户可以调用的脚本,以在 NVME 设备中启用 re laxed-order。

R

nvidia-redfish-config

使用接口名称和 IP 地址配置 redfish 接口。接口名称为 “bmc _redfish0”,而 IP 地址从 DMI 类型 42 读取。

R

图例

1:

DGX-1

2:

DGX-2

A:

DGX A100

R:

必需软件包

O:

可选软件包

DGX 内核参数#

内核参数

描述

软件包

ast.modeset=0

禁用 Aspeed 显示驱动程序。AST2xxx 是我们服务器中使用的 BMC。

[DGX-1, DGX-2, DGX A100, DGX Station A100]

nv-ast-modeset

crashkernel=1G-:0M

不为崩溃转储保留任何内存(当 crah 被禁用 = 默认值时)

nvidia-crashdump

crashkernel=1G-:512M

为崩溃转储保留 512MB 内存(当 crash 被启用时)

nvidia-crashdump

pci=realloc=on

允许内核在 BIOS 完成的分配不足时重新分配 PCI 资源。

此项和 pcie_ports=native 都是 DGX2 上 NVME 热插拔所必需的。

nv-enable-nvme-hot-plugth

pcie_ports=native

使用 Linux 本地服务进行 PME、AER、DPC、PCIe 热插拔。即,不是固件优先。

此项和 pci=realloc=on 都是 DGX2 上 NVME 热插拔所必需的。

nv-enable-nvme-hot-plug

transparent_hugepage=madvise

系统范围内禁用巨页,仅在 MADV_HUGEPAGE madvise 区域内启用它们,以防止应用程序分配超出必要的内存资源。

nv-hugepage

iommu=pt

仅启用直通模式并禁用 DMA 转换。这为 DGX A100 内部的 CPU 启用了优化。

nv-iommu-pt

console=ttyS1,115200n8

将控制台设置为串行端口 1,使用 115200 波特,无奇偶校验,8 个数据位

[DGX-2]

nvidia-ipmisol

console=ttyS0,115200n8

将控制台设置为串行端口 0,使用 115200 波特,无奇偶校验,8 个数据位

nvidia-ipmisol