已知问题#
本节提供 DGX OS 5 中的问题摘要
已知问题概述#
DGX 服务器的已知问题
DGX 工作站的已知问题
DGX Station A100 的已知问题
已知限制(不会修复的问题)
已解决的问题
[所有 DGX 系统]:启动 DCGM 服务时,将出现类似于以下内容的版本不匹配错误消息:[78075.772392] nvidia-nvswitch:版本不匹配,内核版本 450.80.02 用户版本 450.51.06
[所有 DGX 系统]:当发出 nvsm show health 命令时,nvsmhealth_log.txt 日志文件报告 /proc/driver/ 文件夹为空。
[DGX A100]:DGX OS 中包含的 Mellanox 软件安装在 DGX A100 系统上时,不会在安装 Mellanox 驱动程序时自动更新 Mellanox 固件(如果需要)。
[DGX A100]:如果启用了 MIG,nvsm stress-test 不会对系统进行压力测试。在 4.99.10 中报告
[DGX A100]:安装了八个 U.2 NVMe 驱动器后,nvsm-plugin-pcie 服务报告“错误:在映射表中未找到设备”,用于额外的四个驱动器(例如,响应 systemctl status nvsm*)。在 4.99.11 中报告
[DGX A100]:启动 Fabric Manager 服务时,报告以下错误:检测到 NVSwitch 非致命错误 10003 在 NVSwitch pci 上。在 4.99.9 中报告
已知问题详情#
本节提供 DGX OS 5.x 中已知问题的详细信息。
不支持虚拟化#
问题#
虚拟化技术,例如 ESXi hypervisor 或基于内核的虚拟机 (KVM),并非 DGX 系统上的预期用例,并且未经测试。
在气隙系统上加载镜像仓库时发生错误#
问题#
当您运行 apt update
命令以在气隙系统上加载镜像仓库时,会出现以下错误消息
File not found - /media/repository/mirror/security.ubuntu.com/ubuntu/dists/focal-security/main/cnf/Commands-amd64 (2: No such file or directory)
Failed to fetch file:/media/repository/mirror/security.ubuntu.com/ubuntu/dists/focal-security/main/cnf/Commands-amd64 File not found - /media/repository/mirror/security.ubuntu.com/ubuntu/dists/focal-security/main/cnf/Commands-amd64 (2: No such file or directory)
解释#
此问题发生的原因是 Ubuntu 23.10 中提供的 apt-mirror
软件包的修复程序尚未在 Ubuntu 22.04 仓库中实施。如果您正在使用 apt-mirror
软件包
版本高于 0.5.4-1:请提交支持案例,联系 NVIDIA 企业服务。
版本 0.5.4-1:使用以下解决方法来镜像仓库。
您可以运行以下命令来确定您的 apt-mirror
软件包的版本
$ dpkg -l | grep apt-mirror
ii apt-mirror 0.5.4-1 all APT sources mirroring tool
解决方法#
要解决此问题,请按照以下说明使用 Ubuntu 23.10 Docker 镜像
在具有网络访问权限的 Ubuntu 20.04 或更高版本系统上,格式化可移动 USB 闪存驱动器,并将该驱动器挂载到
/media
。例如,sudo mkfs.ext4 device sudo mount -t ext4 device /media
创建一个空目录,并使其可由可以访问 Docker 容器的用户(例如 joe)访问。
mkdir /media/repository chown joe /media/repository chmod 755 /media/repository
作为步骤 2 中指定的用户,创建以下两个文件
./mirror.list set base_path /media/repository set run_postmirror 0 set nthreads 20 set _tilde 0 deb http://security.ubuntu.com/ubuntu focal-security main multiverse universe restricted deb http://archive.ubuntu.com/ubuntu/ focal main multiverse universe restricted deb http://archive.ubuntu.com/ubuntu/ focal-updates main multiverse universe restricted deb [ arch=amd64 ] https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ / deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal common dgx deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal-updates common dgx deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal common dgx deb [ arch=amd64 ] https://repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal-updates common dgx
./Dockerfile FROM ubuntu:23.10 ENV DEBIAN_FRONTEND=noninteractive RUN apt update RUN apt install -y apt-mirror COPY ./mirror.list /etc/apt/mirror.list RUN chmod 644 /etc/apt/mirror.list CMD ["apt-mirror"]
作为步骤 2 中指定的用户,运行以下命令以在
/media/repository
上构建镜像。docker build -t dgxos6mirror . docker run --rm -it -v /media/repository/:/media/repository dgxos6mirror
注意
由于需要下载近 1 TB 的数据,因此此步骤需要很长时间才能完成。
从联网系统卸载
media
目录sudo umount /media
将
media
目录移动并挂载到目标 DGX 系统sudo mount -t <device> /media
以 root 用户身份,编辑
sources.list
、cuda-compute-repo.list
和dgx.list
文件,以将它们指向正确的本地镜像,如下所示/etc/apt/sources.list deb file:///media/repository/mirror/archive.ubuntu.com/ubuntu/ focal main restricted universe multiverse deb file:///media/repository/mirror/archive.ubuntu.com/ubuntu/ focal-updates main restricted universe multiverse deb file:///media/repository/mirror/security.ubuntu.com/ubuntu/ focal-security main restricted universe multiverse
/etc/apt/sources.list.d/cuda-compute-repo.list deb [arch=amd64 signed-by=/usr/share/keyrings/cuda_debian_prod.gpg] file:///raid/media/repository/mirror/developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /
/etc/apt/sources.list.d/dgx.list deb [arch=amd64 signed-by=/usr/share/keyrings/dgx_debian_prod.gpg] file:///raid/media/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal common dgx deb [arch=amd64 signed-by=/usr/share/keyrings/dgx_debian_prod.gpg] file:///raid/media/repository/mirror/repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/ focal-updates common dgx
查看
sources.list.d
目录中的其他文件,以验证您是否没有同一仓库的重复条目。测试您的目标系统是否可以加载这些仓库。
sudo apt update
如果您看到错误消息,请联系 NVIDIA 企业服务。
DGX A800 工作站/服务器:DCGM 诊断可能返回跳过 - 全部#
问题#
DCGM 诊断 dcgmi diag
对于某些测试可能会返回“跳过 - 全部”错误消息。
解释#
DCGM 2.4 默认情况下不识别 A800 设备 ID。
解决方法#
要继续使用 DCGM 诊断
使用以下命令创建一个名为
a800-sxm4-diag.yaml
的文件cat << EOF > a800-sxm4-diag.yaml version: "@CMAKE_PROJECT_VERSION@" spec: dcgm-diag-v1 skus: - name: A800-SXM4-80GB id: 20f3 targeted_power: is_allowed: true starting_matrix_dim: 1024 target_power: 399.0 use_dgemm: false targeted_stress: is_allowed: true use_dgemm: false sm_stress: is_allowed: true # dcgmproftester -t 1007 measures ~18600. Multiply by .75 to get ~13950 target_stress: 13950.0 use_dgemm: false pcie: is_allowed: true h2d_d2h_single_pinned: min_pci_generation: 3.0 min_pci_width: 8.0 h2d_d2h_single_unpinned: min_pci_generation: 3.0 min_pci_width: 8.0 memory: is_allowed: true l1cache_size_kb_per_sm: 192.0 diagnostic: is_allowed: true memory_bandwidth: is_allowed: true # dcgmproftester -t 1005 shows ~1566000. Multiply by .75 to get ~1175000 minimum_bandwidth: 971000.0 pulse_test: is_allowed: false EOF
接下来,当您运行
dcgmi diag
时,请提供您在步骤 1 中创建的配置文件。例如dcgmi diag -r 2 -c a800-sxm4-diag.yaml
注意
此版本不支持 Pulse 测试,因此将继续跳过。
DGX A800 工作站/服务器:mig-parted 配置#
问题#
默认 mig-parted 配置文件的全平衡配置目前不支持 DGX Station A800。
解决方法#
要将 A800 设备 ID 添加到全平衡配置
创建默认配置的副本。
将设备 ID 0x20F310DE 添加到全平衡配置的 device-filter。
在选择配置时,将
mig-parted apply
指向此新文件。
CUDA 应用程序启动性能的回归#
问题#
在 5.4.0 中报告,CUDA 应用程序可能会遇到更长的 CUDA 二进制加载时间。
解释#
使用某些驱动程序和 CUDA 版本(使用 R510 和 CUDA 11.6 体验),CUBIN/FATBINARY 加载执行时间可能会增加高达 ~15%。这会影响所有 CUDA 模块加载 API,cuModuleLoad*,以及通过 CUDA Runtime (CUDART) 加载的 CUDA 模块。一旦模块加载完成,预计此问题不会对应用程序产生影响。
NVSM 压力测试日志不包含摘要信息#
问题#
当您运行 NVSM 压力测试时,日志不包含测试摘要。
解释#
此问题目前正在调查中。
nvidia-release-upgrade 可能会报告并非所有更新都已安装并退出#
问题#
在运行 DGX OS 4.99.x 的系统上运行 nvidia-release-upgrade 命令时,即使所有升级都已安装,它也可能退出并告诉用户:“请在升级前安装您发布版本的所有可用更新”。
解释#
要恢复,请发出以下命令
sudo apt install -y nvidia-fabricmanager-450/bionic-updates --allow-downgrades
运行命令后,继续执行常规升级步骤
sudo apt update
sudo apt full-upgrade -y
sudo apt install -y nvidia-release-upgrade sudo nvidia-release-upgrade
重复的 EFI 变量可能导致 efibootmgr 失败#
问题#
在版本 5.1.0 中报告。
在某些 DGX-2 系统上,“efibootmgr”命令可能会失败,并显示以下签名
sudo efibootmgr
未设置 BootOrder;固件将尝试恢复
解释#
当 SBIOS 呈现重复的 EFI 变量时,会发生这种情况。因此,efivarfs 将不会完全填充,这最终可能导致 efibootmgr 失败。
要解决此问题
使用 BMC 将 BIOS 刷新到最新的 SBIOS 修订版本。有关说明,请参阅:从 BMC 仪表板更新 SBIOS。
警告
在“固件更新完成”对话框中单击“取消”后,请勿关闭系统电源。
从命令行,发出以下命令以读取“恢复 PLDM 标志”。
sudo ipmitool raw 0x03 0x0D
此标志在读取后会被清除,这意味着系统在随后的电源循环后不会恢复 PLDM 表。
电源循环系统。
PCIe 插槽可能发生错误的电源不足错误#
问题#
在版本 4.99.9 中报告。
当连接网络电缆时,DGX A100 服务器在 PCIe 插槽上报告“电源不足”。
解释#
这可能在使用光缆时发生,并表明卡 + 2 根光缆的计算功率高于 PCIe 插槽可以提供的功率。
可以忽略此消息。
不支持 AMD 加密协处理器#
问题#
在版本 4.99.9 中报告。
DGX A100 当前不支持 AMD 加密协处理器。启动系统时,您可能会在系统日志中看到以下错误消息
ccp 初始化失败
解释#
即使未出现该消息,仍不支持 CCP。SBIOS 使驱动程序无法使用零个 CCP 队列,因此无法激活 CCP。
nvsm show alerts 报告 NVSwitch PCIe 链路宽度已降低#
问题#
在版本 4.99.10 中报告。
NVSM 针对 NVSwitch 和 Draco 交换机之间的 PCIe 链路引发严重性 = 警告的警报。警报声明“PCIe 链路宽度降低” - PCIe 链路宽度预计为 x4,而实际链路宽度为 x2。
共有六对 PCIe 链路,因此在这种情况下,NVSM 会引发六个此类警报。
解释#
合成交换机的 Broadcom 固件声明 Draco 交换机具有 x4 的 PCIe 链路宽度能力。此合成信息未反映硬件能力,硬件能力为 x2 宽度。NVSM 基于此不正确的信息引发警报。
此问题将在 DGX A100 固件更新容器版本 20.05.12.3 之后提供的更新固件中解决。有关最新的固件状态,请参阅 DGX A100 固件更新容器。
nvsm show health 报告固件为未验证#
问题#
在版本 5.0 中报告。
当发出 nvsm show health
命令时,输出显示 CEC 固件组件为未验证,即使它们已通过验证。
示例
CEC:CEC 版本:3.5 EC_FW_TAG0:未验证 EC_FW_TAG1:未验证 BMC FW 验证状态:未验证
解释#
可以忽略此消息,它不会影响整体 nvsm 运行状况输出状态。
运行早于 20.10 的 NGC 容器可能会产生“不兼容的 MOFED 驱动程序”消息#
问题#
在版本 5.0 中报告。
DGX OS 5.0 包含 Mellanox OFED 5.1,用于高性能多节点连接。NGC 容器 20.10 中添加了对此 OFED 版本的支持,因此当在早期版本(或从早期版本派生的容器)上运行时,可能会出现类似于以下内容的消息。
错误:检测到 MOFED 驱动程序 5.1-2.4.6,但此容器具有版本 4.6-1.0.1。无法自动升级此容器。使用此版本,多节点通信可能不可靠或可能导致崩溃。此不兼容性将在即将发布的版本中解决。
解释#
对于依赖 OFED 的应用程序(通常用于多节点作业的应用程序),这表示需要更新到 NGC 容器 20.10 或更高版本。对于大多数其他应用程序,可以忽略此错误。
某些应用程序在启用 NCCL 调试消息 (export NCCL_DEBUG=WARN) 的情况下运行时,可能会返回如下错误:misc/ibvwrap.cc:284 NCCL WARN Callto ibv_modify_qp failedwitherrorNo such device … common.cu:777’unhandled system error’
即使对于单节点训练作业,也可能发生这种情况。要解决此问题,请发出以下命令
export NCCL_IB_DISABLE=1
使用 mpirun 时系统可能会变慢#
问题#
运行消息传递接口 (MPI) 工作负载的客户可能会遇到操作系统响应速度变得非常慢的情况。发生这种情况时,内核日志中会出现类似于以下内容的日志消息
kernel BUG at /build/linux-fQ94TU/linux-4.4.0/fs/ext4/inode.c:1899!
解释#
由于 Linux 内核的当前设计,当在持久性存储上的文件上使用 get_user_pages 时,可能会触发这种情况。例如,当在 ext4 文件系统中存储的文件路径上使用 cudaHostRegister 时,可能会发生这种情况。DGX 系统在持久性 ext4 文件系统上实现 /tmp。
注意:如果您在以前的 DGX OS 软件版本上执行过此解决方法,则在更新到最新的 DGX OS 版本后,您无需再次执行此操作。
为了避免使用持久性存储,可以将 MPI 配置为在 /dev/shm(这是一个临时文件系统)中使用共享内存。
如果您正在使用 Open MPI,则可以通过配置模块化组件架构 (MCA) 参数来解决此问题,以便 mpirun 使用内存中的临时文件系统。
有关如何完成此操作的详细信息,请参阅知识库文章 DGX 系统变慢(需要登录到 nvidia 企业支持 门户)。
强制重启会挂起操作系统#
问题#
当发出 reboot -f
(强制重启)时,控制台上会出现 I/O 错误消息,然后系统挂起。
发出 reboot 命令时,系统会正常重启。
解释#
此问题将在 DGX OS 的未来版本中解决。
调用 cuCTXCreate API 的应用程序可能会遇到性能下降#
问题#
在版本 5.0 中报告。
当某些应用程序调用 cuCtxCreate、cuGLCtxCreate 或 cut Destroy 时,可能会出现性能下降。
解释#
此问题发生在 Ubuntu 20.04 上,但未发生在以前的版本上。此问题会影响执行图形/计算互操作或具有 CUDA 插件机制的应用程序,其中每个插件都会创建自己的上下文,或者需要计算的视频流应用程序。示例包括 ffmpeg、Blender、simpleDrive Runtime 和 cuSolverSp_LinearSolver。
预计此问题不会影响深度学习训练。
DGX OS 版本升级后,NVIDIA 桌面快捷方式未更新#
问题#
在版本 4.0.4 中报告。
在 DGX OS 4 版本中,NVIDIA 桌面快捷方式已更新,以反映有关 NVIDIA DGX 系统和深度学习框架容器的最新信息。这些桌面快捷方式也组织在桌面上的单个文件夹中。DGX OS 版本升级后,现有用户的 NVIDIA 桌面快捷方式不会更新。但是,在升级后添加的用户的桌面将在单个文件夹中具有当前的桌面快捷方式。
解释#
如果您希望从桌面快速访问有关 NVIDIA DGX 系统和容器的最新信息,请将旧的桌面快捷方式替换为新的桌面快捷方式。
更改到您的桌面目录。cd /home/your-user-login-id/Desktop
删除现有的 NVIDIA 桌面快捷方式 rm dgx-container-registry.desktop \ dgxstation-userguide.desktop \ dgx-container-registry-userguide.desktop \ nvidia-customer-support.desktop
将包含新的 NVIDIA 桌面快捷方式的文件夹及其内容复制到您的桌面目录。cp -rf /etc/skel/Desktop/Getting\ Started/
无法通过 xorg.conf 文件或 nvidia-settings 设置单独/Xinerama 模式#
问题#
在版本 5.0.2 中报告
在 Station A100 中,在 BIOS 中,在 OnBrd/Ext VGA Select= 中,当选择 Auto 或 External 时,nvidia-conf-xconfig 服务将 Xorg 设置为仅使用显示适配器。
解释#
手动编辑现有的 /etc/X11/xorg.conf.d/xorg-nvidia.conf 文件,并使用以下设置
--- xorg-nvidia.conf 2020-12-10 02:42:25.585721167 +0530
+++ /root/working-xinerama-xorg-nvidia.conf
2020-12-10 02:38:05.368218170 +0530
@@ -8,8 +8,10 @@
Section "ServerLayout"
Identifier "Layout0"
Screen 0 "Screen0"
+ Screen 1 "Screen0 (1)" RightOf "Screen0"
InputDevice "Keyboard0" "CoreKeyboard"
InputDevice "Mouse0" "CorePointer"
+ Option "Xinerama" "1"
EndSection
Section "Files"
@@ -43,6 +45,7 @@
Driver "nvidia"
BusID "PCI:2:0:0"
VendorName "NVIDIA Corporation"
+ Screen 0
EndSection
Section "Screen"
@@ -51,6 +54,25 @@
Monitor "Monitor0"
DefaultDepth 24
Option "AllowEmptyInitialConfiguration" "True"
+ SubSection "Display"
+ Depth 24
+ EndSubSection
+EndSection
+
+Section "Device"
+ Identifier "Device0 (1)"
+ Driver "nvidia"
+ BusID "PCI:2:0:0"
+ VendorName "NVIDIA Corporation"
+ Screen 1
+EndSection
+
+Section "Screen"
+ Identifier "Screen0 (1)"
+ Device "Device0 (1)"
+ Monitor "Monitor0"
+ DefaultDepth 24
+ Option "AllowEmptyInitialConfiguration" "True"
SubSection "Display"
Depth 24
EndSubSection
已知限制详情#
本节列出已知限制和不会修复的其他问题的详细信息。
ISO 安装后未创建 RAID 分区#
问题#
使用 DGX OS ISO 安装 DGX OS 后,未创建 /raid 分区。
解释#
如果您在安装完成后立即重启系统,则会发生这种情况。要创建数据 RAID,DGX OS 安装程序会设置一个 systemd 服务,以在首次启动时创建 /raid 分区。如果您在该服务完成之前重启,则可能无法正确设置 /raid 分区。
要创建 /raid 分区,请发出以下命令。
sudo configure_raid_array.py -c -f
首次启动设置完成后,系统服务启动消息出现#
问题#
完成首次启动设置过程并进入登录提示符后,系统服务启动消息出现。
解释#
某些服务在初始配置过程完成后才能启动。在 Ubuntu 提示符下启动服务避免了需要额外重启才能完成设置过程。
完成后,服务消息不会在后续系统重启时出现。
[DGX A100]:不支持存储驱动器的热插拔#
问题#
热插拔或热更换其中一个存储驱动器可能会导致系统不稳定或设备报告不正确。
解释和解决方法#
在移除和更换任何存储驱动器之前,请关闭系统。
[DGX A100]:系统日志包含大量“SM LID 为 0,可能没有 SM 正在运行”错误消息#
问题#
系统日志 (/var/log/syslog) 包含多个“SM LID 为 0,可能没有 SM 正在运行”错误消息条目。
解释和解决方法#
此问题是 Mellanox 驱动程序中 srp_daemon
的结果。该守护程序用于发现和连接到 InfiniBand SCSI RDMA 协议 (SRP) 目标。
如果您不使用 RDMA,请按如下方式禁用 srp_daemon
。
sudo systemctl disable srp_daemon.service
sudo systemctl disable srptools.service
[DGX-2]:冷复位 BMC 后,Serial Over LAN 不工作#
问题#
在串行 over LAN (SOL) 处于活动状态时,对 BMC 执行冷复位 (ipmitool mc reset cold) 后,您无法重启 SOL 会话。
解释和解决方法#
要重新激活 SOL,请执行以下操作之一
重启系统,或
终止然后重启进程,如下所示
通过运行以下命令来识别 SOL TTY 进程的进程 ID。
ps -ef | grep "/sbin/agetty -o -p -- \u --keep-baud 115200,38400,9600 ttyS0 vt220"
终止进程。
kill <PID>
其中 <PID> 是上一个命令返回的进程 ID。
等待 cron 作业重新生成进程,或通过运行以下命令手动重启进程
/sbin/agetty -o -p -- \u --keep-baud 115200,38400,9600 ttyS0 vt220
[DGX-2]:某些 BMC 仪表板快速链接错误地出现#
问题#
在 BMC 仪表板上,以下快速链接错误地出现,不应使用。
维护->固件更新
设置->NvMeManagement->NvMe P3700Vpd Info
要在此情况下重新创建阵列,
将驱动器恢复到良好状态。
sudo /opt/MegaRAID/storcli/storcli64/c0/e<enclosure_id>/s<drive_slot> set good
运行脚本以重新创建阵列。
sudo /usr/bin/configure_raid_array.py -c -f
[DGX-2]:DGX-2 开机后无法立即运行应用程序#
问题#
当尝试在 DGX-2 系统开机后立即运行使用 GPU 的应用程序时,您可能会遇到以下错误。
CUDA_ERROR_SYSTEM_NOT_READY
解释和解决方法#
DGX-2 使用 fabric manager 服务来管理系统中所有 GPU 之间的通信。当 DGX-2 系统开机时,fabric manager 初始化所有 GPU。这可能需要大约 45 秒。在 GPU 初始化完成之前,尝试使用它们的应用程序将失败。
如果您遇到此错误,请等待并再次启动应用程序。
[DGX-1]:重新插入已知良好的 SSD 后,脚本无法重新创建 RAID 阵列#
问题#
当从 DGX-1 RAID 0 阵列中移除良好的 SSD 然后重新插入时,用于重新创建阵列的脚本失败。
解释和解决方法#
将 SSD 重新插入系统后,RAID 控制器会将阵列设置为脱机,并将重新插入的 SSD 标记为 Unconfigured_Bad (UBad)。当尝试重建阵列时,如果一个或多个 SSD 被标记为 Ubad,则脚本将失败。
要在此情况下重新创建阵列
将驱动器恢复到良好状态。
sudo /opt/MegaRAID/storcli/storcli64/c0/e<enclosure_id>/s<drive_slot> set good
运行脚本以重新创建阵列。
sudo /usr/bin/configure_raid_array.py -c -f
[DGX-2] NVSM 未检测到降级的 GPU PCIe 链路#
问题#
如果 GPU PCIe 链路降级为 Gen1,NVSM 仍将 GPU 运行状况状态报告为正常。
解释#
NVSM 不会将运行状况状态从 PCIe 子系统传播到其他子系统。例如:如果网络适配器报告 PCIe 链路降级,NVSM 不会将网络适配器标记为不健康。
已解决的问题详情#
以下是在最新版本中已解决的问题
NVSM 平台显示为不支持#
问题#
在版本 5.0 中报告。
在 DGX Station 中,当您运行时
nvsm show version
平台字段不显示 DGX Station,而是显示不支持。
解释#
您可以忽略此消息。
NVSM 将 NVSwitch 枚举为 8-13 而不是 0-5#
问题#
在版本 4.99.9 中报告。在版本 5.1 中修复
列出 NVSwitch 的 NVSM 命令(例如 nvsm show nvswitches)将返回枚举为 8-13 的交换机。
示例
nvsm show /systems/localhost/nvswitches/systems/localhost/nvswitches
Targets:
- NVSwitch10
- NVSwitch11
- NVSwitch12
- NVSwitch13
- NVSwitch8
- NVSwitch9
解释#
目前,NVSM 将 NVSwitch 识别为图形设备,并将其枚举为 GPU 0-7 枚举的延续。
[DGX A100]:如果其中一个 M.2 驱动器损坏,具有加密 rootfs 的系统可能无法启动#
问题#
在版本 4.99.9 中报告。在 5.0.2 中修复。
在具有加密 rootfs 的系统上,如果其中一个 M.2 驱动器损坏,则系统会在启动时停止在 BusyBox shell 中。
解释#
(由于 M.2 驱动器损坏)不活动的 RAID 阵列未转换为降级的 RAID 阵列。
要解决此问题,请在 BusyBox 中执行以下操作。
发出以下命令
mdadm --run /dev/md?\*
等待几秒钟以发现 RAID 和 crypt。
退出。
exit
NVSM 无法在非英语区域设置下显示 CPU 信息#
问题#
在版本 4.1.0 和 5.0 update 3 中报告
如果区域设置不是英语,则 nvsm show cpu
命令报告目标处理器不存在。
sudo nvsm show cpu
ERROR:nvsm:Not Found for target address /systems/localhost/processors
ERROR:nvsm:Target address "/systems/\*/processors/\*" does not exist
解释#
要解决此问题,请在发出 nvsm
show cpu 之前将区域设置设置为英语。
报告驱动程序版本不匹配#
问题#
在版本 5.0 中报告:4/20/21 更新
在 5/06/21 更新中修复。
更新 DGX OS 后,syslog/dmesg 报告以下版本不匹配
nvidia-nvswitch: Version mismatch, kernel version 450.119.03 user version 450.51.06
解释#
此问题在使用驱动程序 450.119.03 的 NVSwitch 系统(例如 DGX -2 或 DGX A100)上出现,是由于一个错误导致 NSCQ 库加载失败。此问题将在更新的驱动程序版本中得到解决。