D. 为 DGX Station 使用自定义 DGX 软件实用程序

DGX 软件包括用于维护 DGX Station 持久性存储的自定义实用程序。用于管理和获取 DGX Station 诊断信息的自定义实用程序在 DGX 软件的 EL7-20.01 版本中提供。

D.1. 重建或重新创建 DGX Station RAID 阵列

RAID 5 阵列中单个驱动器的故障是可恢复的错误,但故障会导致阵列的数据冗余丢失。更换 RAID 5 阵列中的单个故障 SSD 后,您必须重建阵列以恢复阵列的数据冗余。RAID 0 阵列中任意数量的 SSD 故障以及 RAID 5 阵列中多个 SSD 故障都是不可恢复的故障。在更换 SSD 以响应不可恢复的故障后,您必须重新创建阵列。

如果 DGX Station RAID 阵列由于一个或多个 SSD 故障而降级,请更换每个故障的 SSD,如DGX Station 用户指南中所述。

DGX Station 软件包括自定义脚本 configure_raid_array.py,用于重建或重新创建 RAID 阵列

  • 要在更换单个故障 SSD 后重建 RAID 5 阵列,请运行以下命令

    $ sudo configure_raid_array.py -r
    注意: 重建 RAID 5 阵列所需的时间取决于系统负载、SSD 容量以及阵列中 SSD 的数量等因素。重建 DGX Station 中三个 1.92 TB SSD 的阵列可能需要几个小时。

    您可以检查 /proc/mdstat 文件的内容来监控长时间运行的重建进度

    $ cat /proc/mdstat
    Personalities : [raid0] [linear] [multipath] [raid1] [raid6] [raid5] [raid4] [raid10]
    md0 : active raid5 sdb[0] sdd[3] sdc[1]
          3750486016 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
          [>....................]  recovery =  4.0% (75580956/1875243008) finish=438.3min speed=68419K/sec
          bitmap: 2/14 pages [8KB], 65536KB chunk
    
    unused devices: <none>

    在此示例中,重建已完成 4.0%,预计在 438.3 分钟内完成。

  • 要在更换多个故障 SSD 后重新创建 RAID 5 阵列,请运行以下命令

    $ sudo configure_raid_array.py -c -5 -f
    警告
    仅当发生不可恢复的故障(例如多个 SSD 故障)时,才指定 -c 选项。-c 选项会擦除阵列中的所有数据。
  • 要在更换任意数量的故障 SSD 后重新创建 RAID 0 阵列,请运行以下命令

    $ sudo configure_raid_array.py -c -f
RAID 阵列将使用您指定的 RAID 级别重建或重新创建。
  • 如果您重新创建了 RAID 0 或 RAID 5 阵列,则阵列上的所有数据将在重新创建阵列后被擦除。
  • 如果您重建了 RAID 5 阵列,则阵列上的数据将在重建阵列后保留。
如果您已重新创建 RAID 0 或 RAID 5 阵列,并且有要保留的阵列数据备份,请从备份中恢复数据。

D.2. 更改 RAID 阵列的 RAID 级别

Red Hat Enterprise Linux 上首次安装 DGX 软件期间,DGX Station 中的数据 SSD 配置为 RAID 0 或 RAID 5 阵列。如果您的冗余或存储容量需求发生变化,您可以将阵列的 RAID 级别从最初配置的级别更改。

在更改 DGX Station RAID 阵列的 RAID 级别之前,请备份阵列上要保留的所有数据。更改 DGX Station RAID 阵列的 RAID 级别会擦除阵列上存储的所有数据。

DGX Station 软件包括自定义脚本 configure_raid_array.py,您可以使用该脚本更改 RAID 阵列的级别,而无需卸载 RAID 卷。

  • 要将 RAID 级别更改为 RAID 5,请运行以下命令

    $ sudo configure_raid_array.py -m raid5
    注意

    将 RAID 级别更改为 RAID 5 后,RAID 阵列将重建。正在重建的 RAID 阵列已联机并准备好使用,但对 DGX Station 健康状况的检查报告 RAID 卷的状态为不健康。因此,在重建 RAID 阵列时,请避免检查 DGX Station 的健康状况。有关更多信息,请参阅仅限 EL7-20.01:检查系统健康状况

    重建 RAID 阵列所需的时间取决于系统上的工作负载。在空闲系统上,重建可能在 30 分钟内完成。

  • 要将 RAID 级别更改为 RAID 0,请运行以下命令

    $ sudo configure_raid_array.py -m raid0

要确认 RAID 级别已按要求更改,请运行 lsblk 命令。RAID 阵列中每个 SSD 的 TYPE 列中的条目指示阵列的 RAID 级别。

以下示例显示阵列的 RAID 级别为 RAID 0。RAID 卷的名称为 md0,卷的挂载点为 /raid

~$ lsblk
NAME   MAJ:MIN RM  SIZE RO TYPE  MOUNTPOINT
sda      8:0    0  1.8T  0 disk
|_sda1   8:1    0  487M  0 part  /boot/efi
|_sda2   8:2    0  1.8T  0 part  /
sdb      8:16   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdc      8:32   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdd      8:48   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid

D.3. 仅限 EL7-20.01:检查 DGX Station 的健康状况

注意:EL7-20.02 版本开始,NVIDIA 系统健康检查器 (nvhealth) 工具已被 NVIDIA 系统管理 (NVSM) 取代。有关如何使用 NVSM 执行此任务的信息,请参阅NVIDIA 系统管理用户指南中的“显示健康状况”

DGX Station 提供 NVIDIA 系统健康检查器 (nvhealth) 工具来测试系统并验证其健康状况。nvhealth 的输出是检查项及其状态的详细列表,通常为“健康”或“不健康”。在健康的系统上,所有检查都应返回“健康”。您应调查任何返回“不健康”的检查,以确定其根本原因并解决它们。

要检查 DGX Station 的健康状况,请运行以下命令

$ sudo nvhealth [-k output-file]
output-file

在其中写入系统原始状态的文件的名称和路径。nvhealth 命令在命令输出的末尾显示此文件名。

如果您省略输出文件,则信息将写入文件 /tmp/nvhealth-log.random-string.jsonl,例如 /tmp/nvhealth-log.6wf3WriAC3.jsonl

注意

如果在将 RAID 级别更改为 RAID 5 后重建 RAID 阵列时运行 nvhealth 命令,则 nvhealth 会报告 RAID 卷的状态为不健康。为避免这种潜在的误导性结果,请在运行 nvhealth 之前等待 RAID 阵列重建完成。

要检查重建进度并显示完成百分比和完成时间估计,请运行此命令

# cat /proc/mdstat

Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md0 : active raid5 sdb[0] sdc[1] sdd[2]
     181764096 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/3] [UUU_]
     [===>.................]  recovery = 17.2% (10426232/60588032) finish=45.8min speed=18238K/sec

D.4. 仅限 EL7-20.01:收集信息以排除 DGX Station 故障

注意:EL7-20.02 版本开始,用于收集故障排除信息的工具 (nvsysinfo) 已被 NVIDIA 系统管理 (NVSM) 取代。有关如何使用 NVSM 执行此任务的信息,请参阅NVIDIA 系统管理用户指南中的“转储健康状况”

为了帮助诊断和解决问题,DGX Station 提供了一个工具来收集 NVIDIA 支持企业服务的故障排除信息。

该工具验证 DGX Station 的基本功能和性能,并在 xz 压缩的 tar 存档中收集以下信息

  • 日志文件
  • 硬件清单
  • 软件清单

要收集信息以排除 DGX Station 故障,请运行以下命令

sudo nvsysinfo [-o output-file]
output-file

在其中写入信息的文件路径。

如果您省略输出文件,则写入信息的文件名是 /tmp/nvsysinfo-host-name-timestamp.tar.xz

使用任何方便您的方法将文件发送给 NVIDIA 支持企业服务。例如,将文件作为电子邮件附件发送。