已知问题#

本节概述了面向红帽企业 Linux 的 DGX 软件中的问题。

红帽安装程序无法删除分区#

问题

使用红帽安装实用程序执行磁盘分区时,该实用程序可能无法删除先前被其他操作系统使用的分区。

解决方法

要手动擦除设备,请执行以下步骤。

  1. 手动分区菜单中单击完成两次。

    您将返回到安装实用程序的主菜单。

  2. 按 Ctrl+Alt+F2 以在不同的虚拟控制台中使用 shell。

    如果安装实用程序对按键操作没有响应,请添加一个发送 Ctrl+Alt+F2 的热键。

    1. 选择热键 > 添加热键

      将打开用户定义的宏窗口。

    2. 单击添加

      将打开添加宏窗口。

    3. 按 Ctrl+Alt+F2。确保按键序列显示在文本字段中,然后单击插入

    4. 用户定义的宏窗口中单击关闭

    5. 选择热键 > Ctrl+Alt+F2 以使用不同的虚拟控制台。

    在虚拟控制台中运行剩余的命令。

  3. 停止 RAID 设备。

    1. 运行 lsblk 命令。

    2. 如果命令输出包含任何 md 设备,请停止这些设备

      mdadm --stop /dev/md<device-id>
      
  4. 对所有驱动器运行 wipefs 命令

    wipefs -a /dev/nvme0n1
    wipefs -a /dev/nvme1n1
    ...
    
  5. 重新启动计算机并重新开始安装过程。

不支持虚拟化#

问题

虚拟化技术(例如 ESXi 虚拟机监控程序或基于内核的虚拟机 (KVM))并非 DGX 系统上的预期用例,且未经测试。

NVSM 服务和 Fabric Manager 服务报告为非活动状态#

平台

DGX H100 系统、A100 系统和 A100 工作站,搭载 EL9-24.06

问题

在 EL9-24.06 升级和系统重启后,当您分别运行 systemctl status nvsmsystemctl status nvidia-fabricmanager 时,nvsm.servicenvidia-fabricmanager.service 的状态显示为 inactive (dead)

$ sudo systemctl status nvsm
...
nvsm.service - NVIDIA System Management service suite
  Loaded: loaded (/usr/lib/systemd/system/nvsm.service; enabled; preset: disabled)
  Active: inactive (dead)
...
$ sudo systemctl status nvidia-fabricmanager
...
nvidia-fabricmanager.service - NVIDIA fabric manager service
  Loaded: loaded (/usr/lib/systemd/system/nvidia-fabricmanager.service; enabled; preset: disabled)
  Active: inactive (dead)
...

解决方法

nvsm.service 服务管理 NVSM 下运行的服务的启动和停止。由于 NVSM 服务运行正常且 NVSM 功能齐全,您可以忽略 nvsm.serviceinactive 状态。要修复 nvsm.service 状态问题,请在系统重启后运行 systemctl start nvsm 命令。

但是,nvidia-fabricmanager.service 服务仍然处于非活动状态。要解决此问题,请通过运行 systemctl start nvidia-fabricmanager.service 命令手动启动该服务。

说明

在运行 GPU 驱动程序 550 或更高版本的 DGX 系统上系统重启后,nvsm.servicenvidia-fabricmanager.service 显示为非活动状态,因为 systemd 在启动期间发现对 nvidia-fabricmanager.service 的依赖关系。nvsm.servicenvidia-fabricmanager.service 之间的循环依赖关系导致一个服务等待另一个服务,并阻止服务启动。

OpenSM 日志过度增长导致 DGX 系统无法运行#

问题

异常大的 /var/log/opensm.log 文件可能会导致 DGX 系统无法运行。

说明

在 MLNX_OFED 或 DOCA OFED 软件的安装过程中,也会安装 opensm 软件包。默认情况下,OpenSM 已禁用。在启用 OpenSM 的系统上,应配置 /etc/logrotate.d/opensm 文件以包含以下选项,从而管理 opensm.log 文件的大小

  • 日志轮换的最大日志文件大小,例如 maxsize 10Mmaxsize 100M

  • 轮换持续时间,例如 dailyweeklymonthly

不指定这两个配置选项可能会导致 /var/log/opensm.log 文件异常大,从而导致 DGX 系统无法运行。有关 OpenSM 网络拓扑、配置和启用的更多信息,请参阅 NVIDIA OpenSM 文档。

配置 RAID 后重新启动挂起#

平台

DGX H100 系统,搭载 EL9-23.08 和 RHEL 9.1 或 9.2

问题

在安装 DGX H100 配置组并使用 sudo /usr/bin/configure_raid_array.py -c -f -5 命令配置 RAID 并重新启动后,系统可能会挂起并显示如下例所示的控制台消息

...
[ 1944.542085] md: md124 stopped.
[ 1944.545711] md: md124 stopped.
...

解决方法

执行电源循环以成功重新启动系统。系统在后续重新启动时正常启动。

说明

重新启动之前,此问题由 active, degraded, recovering 的 RAID 状态触发,该状态可以通过运行 sudo mdadm --detail /dev/mdXXX 命令显示。将 XXX 替换为您使用 configure_raid_array.py 命令配置的 RAID 阵列。

请参阅以下示例输出

$ sudo mdadm --detail /dev/md125
/dev/md125:
           Version : 1.2
     Creation Time : Wed Aug 30 11:39:08 2023
        Raid Level : raid5
        Array Size : 26254240768 (24.45 TiB 26.88 TB)
     Used Dev Size : 3750605824 (3.49 TiB 3.84 TB)
      Raid Devices : 8
     Total Devices : 8
       Persistence : Superblock is persistent

     Intent Bitmap : Internal

       Update Time : Wed Aug 30 11:55:51 2023
             State : active, degraded, recovering
    Active Devices : 7
   Working Devices : 8
    Failed Devices : 0
     Spare Devices : 1

            Layout : left-symmetric
        Chunk Size : 512K

Consistency Policy : bitmap

    Rebuild Status : 5% complete

              Name : nv-data-array
              UUID : 2dbe34c6:70decf1e:c54206a6:e78b9161
            Events : 204

    Number   Major   Minor   RaidDevice State
       0     259        1        0      active sync   /dev/nvme2n1
       1     259        3        1      active sync   /dev/nvme3n1
       2     259        6        2      active sync   /dev/nvme4n1
       3     259        7        3      active sync   /dev/nvme5n1
       4     259        9        4      active sync   /dev/nvme6n1
       5     259       13        5      active sync   /dev/nvme7n1
       6     259       14        6      active sync   /dev/nvme8n1
       8     259       15        7      spare rebuilding   /dev/nvme9n1

MOFED mlnxofedinstall 报告“当前操作系统不受支持”(使用 RHEL 9.2)#

平台

EL9-23.01 和 RHEL 9.2,搭载 MLNX_OFED_LINUX-5.8-2.0.3.0-rhel9.1-x86_64.iso

问题

当使用 mlnxofedinstall --add-kernel-support 从下载的 ISO 安装 MLNX MOFED 驱动程序时,系统会生成警告:“当前操作系统不受支持!”

解决方法

通过添加“–distro rhel9.1”在命令行中指定上次支持的 RHEL 版本 mlnxofedinstall --distro rhel9.1 --add-kernel-support

说明

如果操作系统在安装程序支持添加该操作系统版本之前已升级,则当前的 MLNX MOFED 安装程序脚本可能需要按名称指定最新的受支持操作系统。

预编译 GPU 驱动程序 525 软件包不适用于 Rocky 9.1#

平台

Rocky 9.1,搭载 EL9-23.01

问题

预编译 GPU 驱动程序可能不支持已安装的 Rocky Linux 内核。

解决方法

您可以使用 DKMS 子系统通过运行以下命令来安装 GPU 驱动程序

sudo dnf module reset -y nvidia-driver
sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r)
sudo dnf module install nvidia-driver:525-dkms

RHEL 9.1 安装期间出现黄色屏幕#

问题

在 DGX Station V100 上安装 RedHat Enterprise Linux 9.1 ISO 时,第一个安装页面显示黄色屏幕。这种情况可能会持续整个安装过程以及安装完成后。

解决方法

在 DGX Station V100 上安装 RedHat Enterprise Linux 9.0,然后执行无线 (OTA) 更新以获取最新的 RHEL9 版本和 DGX EL9-23.01 更新。

DGX A100:VBIOS 无法更新,因为有服务进程在运行#

问题

VBIOS 无法在红帽企业 Linux 9 上更新,因为服务/进程正在占用即将升级的资源。

解决方法

必须手动停止以下服务(系统进程)才能开始固件更新

  • 进程 nvidia-persistenced

  • 进程 nv-hostengine

  • 进程 cache_mgr_event

  • 进程 cache_mgr_main

  • 进程 dcgm_ipc

如果 xorg 正在占用资源,请尝试通过运行以下命令停止它

sudo systemctl stop (display manager)

其中(显示管理器)可以通过以下方式获取

cat /etc/X11/default-display-manager

NVSM 不支持的驱动器错误#

问题

运行 nvsm show storage 时,NV-DRIVE-01 警报显示“不支持的驱动器配置”消息。

解决方法

必须手动停止以下服务(系统进程)才能开始固件更新

  1. 创建一个配置文件以禁用 nvme 多路径

    sudo sh -c 'echo "options nvme-core multipath=n" > /etc/modprobe.d/nvidia-nvme.conf'
    
  2. 重新创建 initramfs。

    dracut --force /boot/initramfs-$(uname -r).img $(uname -r)
    
  3. 重新启动系统。

    sudo systemctl reboot
    

当您登录或运行 nvsm show alertnvsm show storage 命令时,可能会显示此消息,可以安全地忽略它。此问题将在未来的版本中修复。

Tuned 配置文件在图形模式下不生效#

问题

由于红帽企业 Linux 9 的已知问题,DGX Tuned 配置文件可能无法生效。这会影响使用图形目标模式的系统。

解决方法

可以通过运行以下命令来修复此问题

  • 屏蔽 power-profiles-daemon 服务,然后 Tuned 可以在启动期间启动。

    systemctl mask power-profiles-daemon
    
  • 重新启动系统

    reboot