已知问题#
本节概述了面向红帽企业 Linux 的 DGX 软件中的问题。
升级 nvidia-mig-manager 期间移除符号链接#
问题
在将 nvidia-mig-manager
软件包升级到 0.10.1 版本期间,可能会意外移除以下两个符号链接。
/etc/nvidia-mig-manager/config.yaml
/etc/nvidia-mig-manager/hooks.yaml
解决方法
要解决此问题,请运行以下命令。
sudo dnf remove nvidia-mig-manager
sudo dnf install nvidia-mig-manager
红帽安装程序无法删除分区#
问题
使用红帽安装实用程序执行磁盘分区时,该实用程序可能无法删除先前被其他操作系统使用的分区。
解决方法
要手动擦除设备,请执行以下步骤。
从手动分区菜单中单击完成两次。
您将返回到安装实用程序的主菜单。
按 Ctrl+Alt+F2 以在不同的虚拟控制台中使用 shell。
如果安装实用程序对按键操作没有响应,请添加一个发送 Ctrl+Alt+F2 的热键。
选择热键 > 添加热键。
将打开用户定义的宏窗口。
单击添加。
将打开添加宏窗口。
按 Ctrl+Alt+F2。确保按键序列显示在文本字段中,然后单击插入。
在用户定义的宏窗口中单击关闭。
选择热键 > Ctrl+Alt+F2 以使用不同的虚拟控制台。
在虚拟控制台中运行剩余的命令。
停止 RAID 设备。
运行
lsblk
命令。如果命令输出包含任何 md 设备,请停止这些设备
mdadm --stop /dev/md<device-id>
对所有驱动器运行 wipefs 命令
wipefs -a /dev/nvme0n1 wipefs -a /dev/nvme1n1 ...
重新启动计算机并重新开始安装过程。
不支持虚拟化#
问题
虚拟化技术(例如 ESXi 虚拟机监控程序或基于内核的虚拟机 (KVM))并非 DGX 系统上的预期用例,且未经测试。
NVSM 服务和 Fabric Manager 服务报告为非活动状态#
平台
DGX H100 系统、A100 系统和 A100 工作站,搭载 EL9-24.06
问题
在 EL9-24.06 升级和系统重启后,当您分别运行 systemctl status nvsm
和 systemctl status nvidia-fabricmanager
时,nvsm.service
和 nvidia-fabricmanager.service
的状态显示为 inactive (dead)
。
$ sudo systemctl status nvsm
...
nvsm.service - NVIDIA System Management service suite
Loaded: loaded (/usr/lib/systemd/system/nvsm.service; enabled; preset: disabled)
Active: inactive (dead)
...
$ sudo systemctl status nvidia-fabricmanager
...
nvidia-fabricmanager.service - NVIDIA fabric manager service
Loaded: loaded (/usr/lib/systemd/system/nvidia-fabricmanager.service; enabled; preset: disabled)
Active: inactive (dead)
...
解决方法
nvsm.service
服务管理 NVSM 下运行的服务的启动和停止。由于 NVSM 服务运行正常且 NVSM 功能齐全,您可以忽略 nvsm.service
的 inactive
状态。要修复 nvsm.service
状态问题,请在系统重启后运行 systemctl start nvsm
命令。
但是,nvidia-fabricmanager.service
服务仍然处于非活动状态。要解决此问题,请通过运行 systemctl start nvidia-fabricmanager.service
命令手动启动该服务。
说明
在运行 GPU 驱动程序 550 或更高版本的 DGX 系统上系统重启后,nvsm.service
和 nvidia-fabricmanager.service
显示为非活动状态,因为 systemd
在启动期间发现对 nvidia-fabricmanager.service
的依赖关系。nvsm.service
和 nvidia-fabricmanager.service
之间的循环依赖关系导致一个服务等待另一个服务,并阻止服务启动。
OpenSM 日志过度增长导致 DGX 系统无法运行#
问题
异常大的 /var/log/opensm.log
文件可能会导致 DGX 系统无法运行。
说明
在 MLNX_OFED 或 DOCA OFED 软件的安装过程中,也会安装 opensm
软件包。默认情况下,OpenSM 已禁用。在启用 OpenSM 的系统上,应配置 /etc/logrotate.d/opensm
文件以包含以下选项,从而管理 opensm.log
文件的大小
日志轮换的最大日志文件大小,例如
maxsize 10M
或maxsize 100M
轮换持续时间,例如
daily
、weekly
或monthly
不指定这两个配置选项可能会导致 /var/log/opensm.log
文件异常大,从而导致 DGX 系统无法运行。有关 OpenSM 网络拓扑、配置和启用的更多信息,请参阅 NVIDIA OpenSM 文档。
配置 RAID 后重新启动挂起#
平台
DGX H100 系统,搭载 EL9-23.08 和 RHEL 9.1 或 9.2
问题
在安装 DGX H100 配置组并使用 sudo /usr/bin/configure_raid_array.py -c -f -5
命令配置 RAID 并重新启动后,系统可能会挂起并显示如下例所示的控制台消息
...
[ 1944.542085] md: md124 stopped.
[ 1944.545711] md: md124 stopped.
...
解决方法
执行电源循环以成功重新启动系统。系统在后续重新启动时正常启动。
说明
重新启动之前,此问题由 active, degraded, recovering
的 RAID 状态触发,该状态可以通过运行 sudo mdadm --detail /dev/mdXXX
命令显示。将 XXX
替换为您使用 configure_raid_array.py
命令配置的 RAID 阵列。
请参阅以下示例输出
$ sudo mdadm --detail /dev/md125
/dev/md125:
Version : 1.2
Creation Time : Wed Aug 30 11:39:08 2023
Raid Level : raid5
Array Size : 26254240768 (24.45 TiB 26.88 TB)
Used Dev Size : 3750605824 (3.49 TiB 3.84 TB)
Raid Devices : 8
Total Devices : 8
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Wed Aug 30 11:55:51 2023
State : active, degraded, recovering
Active Devices : 7
Working Devices : 8
Failed Devices : 0
Spare Devices : 1
Layout : left-symmetric
Chunk Size : 512K
Consistency Policy : bitmap
Rebuild Status : 5% complete
Name : nv-data-array
UUID : 2dbe34c6:70decf1e:c54206a6:e78b9161
Events : 204
Number Major Minor RaidDevice State
0 259 1 0 active sync /dev/nvme2n1
1 259 3 1 active sync /dev/nvme3n1
2 259 6 2 active sync /dev/nvme4n1
3 259 7 3 active sync /dev/nvme5n1
4 259 9 4 active sync /dev/nvme6n1
5 259 13 5 active sync /dev/nvme7n1
6 259 14 6 active sync /dev/nvme8n1
8 259 15 7 spare rebuilding /dev/nvme9n1
MOFED mlnxofedinstall 报告“当前操作系统不受支持”(使用 RHEL 9.2)#
平台
EL9-23.01 和 RHEL 9.2,搭载 MLNX_OFED_LINUX-5.8-2.0.3.0-rhel9.1-x86_64.iso
问题
当使用 mlnxofedinstall --add-kernel-support
从下载的 ISO 安装 MLNX MOFED 驱动程序时,系统会生成警告:“当前操作系统不受支持!”
解决方法
通过添加“–distro rhel9.1”在命令行中指定上次支持的 RHEL 版本 mlnxofedinstall --distro rhel9.1 --add-kernel-support
说明
如果操作系统在安装程序支持添加该操作系统版本之前已升级,则当前的 MLNX MOFED 安装程序脚本可能需要按名称指定最新的受支持操作系统。
预编译 GPU 驱动程序 525 软件包不适用于 Rocky 9.1#
平台
Rocky 9.1,搭载 EL9-23.01
问题
预编译 GPU 驱动程序可能不支持已安装的 Rocky Linux 内核。
解决方法
您可以使用 DKMS 子系统通过运行以下命令来安装 GPU 驱动程序
sudo dnf module reset -y nvidia-driver
sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
sudo dnf module install nvidia-driver:525-dkms
RHEL 9.1 安装期间出现黄色屏幕#
问题
在 DGX Station V100 上安装 RedHat Enterprise Linux 9.1 ISO 时,第一个安装页面显示黄色屏幕。这种情况可能会持续整个安装过程以及安装完成后。
解决方法
在 DGX Station V100 上安装 RedHat Enterprise Linux 9.0,然后执行无线 (OTA) 更新以获取最新的 RHEL9 版本和 DGX EL9-23.01 更新。
DGX A100:VBIOS 无法更新,因为有服务进程在运行#
问题
VBIOS 无法在红帽企业 Linux 9 上更新,因为服务/进程正在占用即将升级的资源。
解决方法
必须手动停止以下服务(系统进程)才能开始固件更新
进程 nvidia-persistenced
进程 nv-hostengine
进程 cache_mgr_event
进程 cache_mgr_main
进程 dcgm_ipc
如果 xorg 正在占用资源,请尝试通过运行以下命令停止它
sudo systemctl stop (display manager)
其中(显示管理器)可以通过以下方式获取
cat /etc/X11/default-display-manager
NVSM 不支持的驱动器错误#
问题
运行 nvsm show storage
时,NV-DRIVE-01 警报显示“不支持的驱动器配置”消息。
解决方法
必须手动停止以下服务(系统进程)才能开始固件更新
创建一个配置文件以禁用 nvme 多路径
sudo sh -c 'echo "options nvme-core multipath=n" > /etc/modprobe.d/nvidia-nvme.conf'
重新创建 initramfs。
dracut --force /boot/initramfs-$(uname -r).img $(uname -r)
重新启动系统。
sudo systemctl reboot
当您登录或运行 nvsm show alert
和 nvsm show storage
命令时,可能会显示此消息,可以安全地忽略它。此问题将在未来的版本中修复。
Tuned 配置文件在图形模式下不生效#
问题
由于红帽企业 Linux 9 的已知问题,DGX Tuned 配置文件可能无法生效。这会影响使用图形目标模式的系统。
解决方法
可以通过运行以下命令来修复此问题
屏蔽 power-profiles-daemon 服务,然后 Tuned 可以在启动期间启动。
systemctl mask power-profiles-daemon
重新启动系统
reboot