已知问题#

本节概述了面向红帽企业 Linux 的 DGX 软件中的问题。

升级 nvidia-mig-manager 期间移除符号链接#

问题

在将 nvidia-mig-manager 软件包升级到 0.10.1 版本期间，可能会意外移除以下两个符号链接。

/etc/nvidia-mig-manager/config.yaml
/etc/nvidia-mig-manager/hooks.yaml

解决方法

要解决此问题，请运行以下命令。

sudo dnf remove nvidia-mig-manager
sudo dnf install nvidia-mig-manager

红帽安装程序无法删除分区#

问题

使用红帽安装实用程序执行磁盘分区时，该实用程序可能无法删除先前被其他操作系统使用的分区。

解决方法

要手动擦除设备，请执行以下步骤。

从手动分区菜单中单击完成两次。

您将返回到安装实用程序的主菜单。
按 Ctrl+Alt+F2 以在不同的虚拟控制台中使用 shell。

如果安装实用程序对按键操作没有响应，请添加一个发送 Ctrl+Alt+F2 的热键。
1. 选择热键 > 添加热键。
  
  将打开用户定义的宏窗口。
2. 单击添加。
  
  将打开添加宏窗口。
3. 按 Ctrl+Alt+F2。确保按键序列显示在文本字段中，然后单击插入。
4. 在用户定义的宏窗口中单击关闭。
5. 选择热键 > Ctrl+Alt+F2 以使用不同的虚拟控制台。
在虚拟控制台中运行剩余的命令。
停止 RAID 设备。
1. 运行 lsblk 命令。
2. 如果命令输出包含任何 md 设备，请停止这些设备
```
mdadm --stop /dev/md<device-id>
```

对所有驱动器运行 wipefs 命令

wipefs -a /dev/nvme0n1
wipefs -a /dev/nvme1n1
...

重新启动计算机并重新开始安装过程。

不支持虚拟化#

问题

虚拟化技术（例如 ESXi 虚拟机监控程序或基于内核的虚拟机 (KVM)）并非 DGX 系统上的预期用例，且未经测试。

NVSM 服务和 Fabric Manager 服务报告为非活动状态#

平台

DGX H100 系统、A100 系统和 A100 工作站，搭载 EL9-24.06

问题

在 EL9-24.06 升级和系统重启后，当您分别运行 systemctl status nvsm 和 systemctl status nvidia-fabricmanager 时，nvsm.service 和 nvidia-fabricmanager.service 的状态显示为 inactive (dead)。

$ sudo systemctl status nvsm
...
nvsm.service - NVIDIA System Management service suite
  Loaded: loaded (/usr/lib/systemd/system/nvsm.service; enabled; preset: disabled)
  Active: inactive (dead)
...

$ sudo systemctl status nvidia-fabricmanager
...
nvidia-fabricmanager.service - NVIDIA fabric manager service
  Loaded: loaded (/usr/lib/systemd/system/nvidia-fabricmanager.service; enabled; preset: disabled)
  Active: inactive (dead)
...

解决方法

nvsm.service 服务管理 NVSM 下运行的服务的启动和停止。由于 NVSM 服务运行正常且 NVSM 功能齐全，您可以忽略 nvsm.service 的 inactive 状态。要修复 nvsm.service 状态问题，请在系统重启后运行 systemctl start nvsm 命令。

但是，nvidia-fabricmanager.service 服务仍然处于非活动状态。要解决此问题，请通过运行 systemctl start nvidia-fabricmanager.service 命令手动启动该服务。

说明

在运行 GPU 驱动程序 550 或更高版本的 DGX 系统上系统重启后，nvsm.service 和 nvidia-fabricmanager.service 显示为非活动状态，因为 systemd 在启动期间发现对 nvidia-fabricmanager.service 的依赖关系。nvsm.service 和 nvidia-fabricmanager.service 之间的循环依赖关系导致一个服务等待另一个服务，并阻止服务启动。

OpenSM 日志过度增长导致 DGX 系统无法运行#

问题

异常大的 /var/log/opensm.log 文件可能会导致 DGX 系统无法运行。

说明

在 MLNX_OFED 或 DOCA OFED 软件的安装过程中，也会安装 opensm 软件包。默认情况下，OpenSM 已禁用。在启用 OpenSM 的系统上，应配置 /etc/logrotate.d/opensm 文件以包含以下选项，从而管理 opensm.log 文件的大小

日志轮换的最大日志文件大小，例如 maxsize 10M 或 maxsize 100M
轮换持续时间，例如 daily、weekly 或 monthly

不指定这两个配置选项可能会导致 /var/log/opensm.log 文件异常大，从而导致 DGX 系统无法运行。有关 OpenSM 网络拓扑、配置和启用的更多信息，请参阅 NVIDIA OpenSM 文档。

配置 RAID 后重新启动挂起#

平台

DGX H100 系统，搭载 EL9-23.08 和 RHEL 9.1 或 9.2

问题

在安装 DGX H100 配置组并使用 sudo /usr/bin/configure_raid_array.py -c -f -5 命令配置 RAID 并重新启动后，系统可能会挂起并显示如下例所示的控制台消息

...
[ 1944.542085] md: md124 stopped.
[ 1944.545711] md: md124 stopped.
...

解决方法

执行电源循环以成功重新启动系统。系统在后续重新启动时正常启动。

说明

重新启动之前，此问题由 active, degraded, recovering 的 RAID 状态触发，该状态可以通过运行 sudo mdadm --detail /dev/mdXXX 命令显示。将 XXX 替换为您使用 configure_raid_array.py 命令配置的 RAID 阵列。

请参阅以下示例输出

$ sudo mdadm --detail /dev/md125
/dev/md125:
           Version : 1.2
     Creation Time : Wed Aug 30 11:39:08 2023
        Raid Level : raid5
        Array Size : 26254240768 (24.45 TiB 26.88 TB)
     Used Dev Size : 3750605824 (3.49 TiB 3.84 TB)
      Raid Devices : 8
     Total Devices : 8
       Persistence : Superblock is persistent

     Intent Bitmap : Internal

       Update Time : Wed Aug 30 11:55:51 2023
             State : active, degraded, recovering
    Active Devices : 7
   Working Devices : 8
    Failed Devices : 0
     Spare Devices : 1

            Layout : left-symmetric
        Chunk Size : 512K

Consistency Policy : bitmap

    Rebuild Status : 5% complete

              Name : nv-data-array
              UUID : 2dbe34c6:70decf1e:c54206a6:e78b9161
            Events : 204

    Number   Major   Minor   RaidDevice State
       0     259        1        0      active sync   /dev/nvme2n1
       1     259        3        1      active sync   /dev/nvme3n1
       2     259        6        2      active sync   /dev/nvme4n1
       3     259        7        3      active sync   /dev/nvme5n1
       4     259        9        4      active sync   /dev/nvme6n1
       5     259       13        5      active sync   /dev/nvme7n1
       6     259       14        6      active sync   /dev/nvme8n1
       8     259       15        7      spare rebuilding   /dev/nvme9n1

MOFED mlnxofedinstall 报告“当前操作系统不受支持”（使用 RHEL 9.2）#

平台

EL9-23.01 和 RHEL 9.2，搭载 MLNX_OFED_LINUX-5.8-2.0.3.0-rhel9.1-x86_64.iso

问题

当使用 mlnxofedinstall --add-kernel-support 从下载的 ISO 安装 MLNX MOFED 驱动程序时，系统会生成警告：“当前操作系统不受支持！”

解决方法

通过添加“–distro rhel9.1”在命令行中指定上次支持的 RHEL 版本 mlnxofedinstall --distro rhel9.1 --add-kernel-support

说明

如果操作系统在安装程序支持添加该操作系统版本之前已升级，则当前的 MLNX MOFED 安装程序脚本可能需要按名称指定最新的受支持操作系统。

预编译 GPU 驱动程序 525 软件包不适用于 Rocky 9.1#

平台

Rocky 9.1，搭载 EL9-23.01

问题

预编译 GPU 驱动程序可能不支持已安装的 Rocky Linux 内核。

解决方法

您可以使用 DKMS 子系统通过运行以下命令来安装 GPU 驱动程序

sudo dnf module reset -y nvidia-driver
sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
sudo dnf module install nvidia-driver:525-dkms

RHEL 9.1 安装期间出现黄色屏幕#

问题

在 DGX Station V100 上安装 RedHat Enterprise Linux 9.1 ISO 时，第一个安装页面显示黄色屏幕。这种情况可能会持续整个安装过程以及安装完成后。

解决方法

在 DGX Station V100 上安装 RedHat Enterprise Linux 9.0，然后执行无线 (OTA) 更新以获取最新的 RHEL9 版本和 DGX EL9-23.01 更新。

DGX A100：VBIOS 无法更新，因为有服务进程在运行#

问题

VBIOS 无法在红帽企业 Linux 9 上更新，因为服务/进程正在占用即将升级的资源。

解决方法

必须手动停止以下服务（系统进程）才能开始固件更新

进程 nvidia-persistenced
进程 nv-hostengine
进程 cache_mgr_event
进程 cache_mgr_main
进程 dcgm_ipc

如果 xorg 正在占用资源，请尝试通过运行以下命令停止它

sudo systemctl stop (display manager)

其中（显示管理器）可以通过以下方式获取

cat /etc/X11/default-display-manager

NVSM 不支持的驱动器错误#

问题

运行 nvsm show storage 时，NV-DRIVE-01 警报显示“不支持的驱动器配置”消息。

解决方法

必须手动停止以下服务（系统进程）才能开始固件更新

创建一个配置文件以禁用 nvme 多路径

sudo sh -c 'echo "options nvme-core multipath=n" > /etc/modprobe.d/nvidia-nvme.conf'

重新创建 initramfs。

dracut --force /boot/initramfs-$(uname -r).img $(uname -r)

重新启动系统。
```
sudo systemctl reboot
```

当您登录或运行 nvsm show alert 和 nvsm show storage 命令时，可能会显示此消息，可以安全地忽略它。此问题将在未来的版本中修复。

Tuned 配置文件在图形模式下不生效#

问题

由于红帽企业 Linux 9 的已知问题，DGX Tuned 配置文件可能无法生效。这会影响使用图形目标模式的系统。

解决方法

可以通过运行以下命令来修复此问题

屏蔽 power-profiles-daemon 服务，然后 Tuned 可以在启动期间启动。
```
systemctl mask power-profiles-daemon
```
重新启动系统
```
reboot
```