DGX 软件堆栈#
NVIDIA DGX 软件包#
此表列出了作为相应元软件包一部分安装的所有软件包(以粗体突出显示)
DGX A100 |
DGX-2 |
DGX-1 |
---|---|---|
dgx-a100-system-configurations: |
dgx2-system-configurations: |
dgx1-system-confgurations: |
dgx-release |
dgx-release |
dgx-release |
- |
- |
nv-ast-modeset |
nvidia-crashdump |
nvidia-crashdump |
nvidia-crashdump |
- |
nv-enable-nvme-hot-plug |
- |
nv-hugepage |
nv-hugepage |
nv-hugepage |
nv-iommu-pt |
- |
- |
nv-ipmi-devintf |
nv-ipmi-devintf |
nv-ipmi-devintf |
nv-limits |
nv-limits |
nv-limits |
nv-update-disable |
nv-update-disable |
nv-update-disable |
nvidia-acs-disable |
nvidia-acs-disable |
- |
nvidia-kernel-defaults |
nvidia-kernel-defaults |
nvidia-kernel-defaults |
nvidia-nvme-smartd |
nvidia-nvme-smartd |
- |
nvidia-pci-bridge-power |
nvidia-pci-bridge-power |
nvidia-pci-bridge-power |
nvidia-redfish-config |
- |
- |
nvidia-relaxed-ordering-gpu |
- |
- |
nvidia-relaxed-ordering-nvme |
- |
- |
nvgpu-services-list |
- |
- |
dgx-a100-system-tools: |
dgx2-system-tools: |
dgx1-system-tools: |
dgx-release |
dgx-release |
dgx-release |
ipmitool |
ipmitool |
ipmitool |
nv-common-apis |
nv-common-apis |
nv-common-apis |
nv-env-paths |
nv-env-paths |
nv-env-paths |
nvidia-mig-manager |
- |
- |
nvidia-raid-config |
nvidia-raid-config |
nvidia-raid-config |
nvme-cli |
nvme-cli |
- |
tpm2-tools |
tpm-tools |
- |
dgx-a100-system-tools-extra: |
dgx2-system-tools-extra: |
dgx1-system-tools-extra: |
msecli |
msecli |
storcli |
nvidia-mlnx-ofed-misc: |
||
mlnx-fw-updater |
||
mlnx-pxe-setup |
||
nvidia-mlnx-config |
||
nvidia-peer-memory nvidia-peer-memory-dkms |
||
其他 NVIDIA 软件包 |
||
nv-docker-options |
||
nvidia-logrotate |
||
nvidia-motd |
||
nvidia-ipmisol |
下表列出了将作为系统配置软件包的一部分安装的所有软件包,并提供更多详细信息
软件包 |
描述 |
1 |
2 |
A |
---|---|---|---|---|
dgx-release |
发布信息 |
R |
R |
R |
nv-ast-modeset |
禁用 Aspeed 显示驱动程序。它可能会导致连接的显示器出现问题。AST2xxx 是我们服务器中使用的 BMC。 [DGX-1, DGX-2, DGX A100, DGX Station A100] |
R |
R |
R |
nv-enable-nvme-hot-plug |
配置 NVMe 热插拔的内核参数(另请参阅下面的内核部分)。 |
R |
||
nv-hugepage |
设置 “transpa rent_hugepa ge=madvise” 内核参数。 |
R |
R |
R |
nv-iommu-pt |
为 AMD Rome 平台设置 iommu=pt。 |
R |
||
nv-ipmi-devintf |
添加 i pmi_devintf 模块,以便使用 ipmi 工具访问 BMC。 |
R |
R |
R |
nv-limits |
增加用户的进程资源限制 (ulimits nofile 50000) |
R |
R |
R |
nv-update-disable |
禁用自动系统升级。用户需要使用 apt 显式升级其系统。 |
R |
R |
R |
nvgpu-services-list |
以 .json 格式列出消耗 GPU 的服务,例如 DCGM 或 NVSM,固件更新机制需要这些服务。 |
R |
R |
R |
nvidia-acs-disable |
禁用 PCIe ACS 功能,以便在 DGX A100 上的裸机用例中获得更好的 GPU 直连性能。 |
R |
||
nvidia-crashdump |
用于管理内核崩溃转储的工具。默认情况下它们处于禁用状态。 |
R |
R |
R |
nv-docker-options |
增加 SHMEM 和其他资源。 |
R |
R |
R |
nvidia-ipmisol [可选] |
通过 BMC 启用串行输出 (SOL - 串行 over Lan) |
O |
O |
O |
nvidia-kernel-defaults |
禁用 ARP 以提高安全性 ne t.ipv4.conf .all.a rp_announce = 2 .all .arp_ignore = 1 .default.a rp_announce = 2 .default .arp_ignore = 1 |
R |
R |
R |
nvidia-logrotate |
修改 logrotate 配置 |
O |
O |
O |
nvidia-motd |
修改每日消息 (MOTD) 以显示 NVSM 健康监控警报和发布信息。 |
O |
O |
O |
nvidia-nvme-smartd |
在 NVME 设备上启用 SMART 监控。默认情况下,smartd 将跳过 NVME 设备。 |
R |
R |
|
nvidia-pci-bridge-power |
将所有 PCI 桥的桥电源控制设置设置为“on”。 |
R |
R |
R |
nvidia-relaxed-ordering-gpu |
设置一个 reg-key 以在 GPU 中启用 PCIe relax ed-ordering |
R |
||
nvidia-relaxed-ordering-nvme |
安装一个用户可以调用的脚本,以在 NVME 设备中启用 re laxed-order。 |
R |
||
nvidia-redfish-config |
使用接口名称和 IP 地址配置 redfish 接口。接口名称为 “bmc _redfish0”,而 IP 地址从 DMI 类型 42 读取。 |
R |
图例
- 1:
DGX-1
- 2:
DGX-2
- A:
DGX A100
- R:
必需软件包
- O:
可选软件包
DGX 内核参数#
内核参数 |
描述 |
软件包 |
---|---|---|
ast.modeset=0 |
禁用 Aspeed 显示驱动程序。AST2xxx 是我们服务器中使用的 BMC。 [DGX-1, DGX-2, DGX A100, DGX Station A100] |
nv-ast-modeset |
crashkernel=1G-:0M |
不为崩溃转储保留任何内存(当 crah 被禁用 = 默认值时) |
nvidia-crashdump |
crashkernel=1G-:512M |
为崩溃转储保留 512MB 内存(当 crash 被启用时) |
nvidia-crashdump |
pci=realloc=on |
允许内核在 BIOS 完成的分配不足时重新分配 PCI 资源。 此项和 pcie_ports=native 都是 DGX2 上 NVME 热插拔所必需的。 |
nv-enable-nvme-hot-plugth |
pcie_ports=native |
使用 Linux 本地服务进行 PME、AER、DPC、PCIe 热插拔。即,不是固件优先。 此项和 pci=realloc=on 都是 DGX2 上 NVME 热插拔所必需的。 |
nv-enable-nvme-hot-plug |
transparent_hugepage=madvise |
系统范围内禁用巨页,仅在 MADV_HUGEPAGE madvise 区域内启用它们,以防止应用程序分配超出必要的内存资源。 |
nv-hugepage |
iommu=pt |
仅启用直通模式并禁用 DMA 转换。这为 DGX A100 内部的 CPU 启用了优化。 |
nv-iommu-pt |
console=ttyS1,115200n8 |
将控制台设置为串行端口 1,使用 115200 波特,无奇偶校验,8 个数据位 [DGX-2] |
nvidia-ipmisol |
console=ttyS0,115200n8 |
将控制台设置为串行端口 0,使用 115200 波特,无奇偶校验,8 个数据位 |
nvidia-ipmisol |