B. 将自定义 DGX 软件实用程序用于 DGX Station

DGX 软件包括用于维护 DGX Station 持久存储的自定义实用程序。用于管理和获取 DGX Station 诊断信息的自定义实用程序包含在 DGX 软件的 EL7-20.01 版本中。

B.1. 重建或重新创建 DGX Station RAID 阵列

RAID 5 阵列中单个驱动器发生故障是可恢复的错误,但故障会导致阵列的数据冗余丢失。更换 RAID 5 阵列中单个发生故障的 SSD 后,您必须重建阵列以恢复阵列的数据冗余。RAID 0 阵列中任意数量的 SSD 发生故障以及 RAID 5 阵列中多个 SSD 发生故障均为不可恢复的故障。在更换 SSD 以响应不可恢复的故障后,您必须重新创建阵列。

如果 DGX Station RAID 阵列因一个或多个 SSD 发生故障而降级,请按照DGX Station 用户指南中的说明更换每个发生故障的 SSD。

DGX Station 软件包括自定义脚本 configure_raid_array.py,用于重建或重新创建 RAID 阵列

  • 要在更换单个发生故障的 SSD 后重建 RAID 5 阵列,请运行以下命令

    $ sudo configure_raid_array.py -r
    注意: 重建 RAID 5 阵列所需的时间取决于系统负载、SSD 容量和阵列中 SSD 的数量等因素。重建 DGX Station 中由三个 1.92 TB SSD 组成的阵列可能需要数小时。

    您可以检查 /proc/mdstat 文件的内容来监控长时间运行的重建进度

    $ cat /proc/mdstat
    Personalities : [raid0] [linear] [multipath] [raid1] [raid6] [raid5] [raid4] [raid10]
    md0 : active raid5 sdb[0] sdd[3] sdc[1]
          3750486016 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
          [>....................]  recovery =  4.0% (75580956/1875243008) finish=438.3min speed=68419K/sec
          bitmap: 2/14 pages [8KB], 65536KB chunk
    
    unused devices: <none>

    在此示例中,重建已完成 4.0%,预计在 438.3 分钟内完成。

  • 要在更换多个发生故障的 SSD 后重新创建 RAID 5 阵列,请运行以下命令

    $ sudo configure_raid_array.py -c -5 -f
    小心
    仅当发生不可恢复的故障(例如多个 SSD 发生故障)时,才指定 -c 选项。-c 选项会擦除阵列中的所有数据。
  • 要在更换任意数量的发生故障的 SSD 后重新创建 RAID 0 阵列,请运行以下命令

    $ sudo configure_raid_array.py -c -f
RAID 阵列将使用您指定的 RAID 级别重建或重新创建。
  • 如果您重新创建了 RAID 0 或 RAID 5 阵列,则在重新创建阵列后,阵列上的所有数据都将被擦除。
  • 如果您重建了 RAID 5 阵列,则在重建阵列后,阵列上的数据将保留。
如果您已重新创建 RAID 0 或 RAID 5 阵列,并且备份了要保留的阵列数据,请从备份中恢复数据。

B.2. 更改 RAID 阵列的 RAID 级别

CentOS 上首次安装 DGX 软件期间,DGX Station 中的数据 SSD 将配置为 RAID 0 或 RAID 5 阵列。如果您的冗余或存储容量要求发生变化,您可以将阵列的 RAID 级别从最初配置的级别更改。

在更改 DGX Station RAID 阵列的 RAID 级别之前,请备份您要保留的阵列上的所有数据。更改 DGX Station RAID 阵列的 RAID 级别会擦除存储在阵列上的所有数据。

DGX Station 软件包括自定义脚本 configure_raid_array.py,您可以使用该脚本更改 RAID 阵列的级别,而无需卸载 RAID 卷。

  • 要将 RAID 级别更改为 RAID 5,请运行以下命令

    $ sudo configure_raid_array.py -m raid5
    注意

    在您将 RAID 级别更改为 RAID 5 后,RAID 阵列将被重建。正在重建的 RAID 阵列处于联机状态并可以使用,但是对 DGX Station 运行状况的检查会将 RAID 卷的状态报告为不正常。因此,在重建 RAID 阵列时,请避免检查 DGX Station 的运行状况。有关更多信息,请参阅EL7-20.01 版本独有:检查 DGX Station 的运行状况

    重建 RAID 阵列所需的时间取决于系统上的工作负载。在空闲系统上,重建可能在 30 分钟内完成。

  • 要将 RAID 级别更改为 RAID 0,请运行以下命令

    $ sudo configure_raid_array.py -m raid0

要确认 RAID 级别已按要求更改,请运行 lsblk 命令。RAID 阵列中每个 SSD 的 TYPE 列中的条目指示阵列的 RAID 级别。

以下示例显示阵列的 RAID 级别为 RAID 0。RAID 卷的名称为 md0,卷的挂载点为 /raid

~$ lsblk
NAME   MAJ:MIN RM  SIZE RO TYPE  MOUNTPOINT
sda      8:0    0  1.8T  0 disk
|_sda1   8:1    0  487M  0 part  /boot/efi
|_sda2   8:2    0  1.8T  0 part  /
sdb      8:16   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdc      8:32   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdd      8:48   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid

B.3. EL7-20.01 版本独有:检查 DGX Station 的运行状况

注意:EL7-20.02 版本开始,NVIDIA System Health Checker (nvhealth) 工具已替换为 NVIDIA System Management (NVSM)。有关如何使用 NVSM 执行此任务的信息,请参阅NVIDIA System Management 用户指南中的“显示运行状况”

DGX Station 提供 NVIDIA System Health Checker (nvhealth) 工具来执行系统检查并验证其运行状况。nvhealth 的输出是检查项及其状态的详细列表,通常为“正常”或“不正常”。在运行状况正常的系统上,所有检查都应返回“正常”。您应该调查任何返回“不正常”的检查,以确定其根本原因并解决它们。

要检查 DGX Station 的运行状况,请运行以下命令

$ sudo nvhealth [-k output-file]
output-file

在其中写入系统原始状态的文件的名称和路径。nvhealth 命令在命令输出的末尾显示此文件名。

如果您省略输出文件,则信息将写入文件 /tmp/nvhealth-log.random-string.jsonl,例如,/tmp/nvhealth-log.6wf3WriAC3.jsonl

注意

如果在 RAID 级别更改为 RAID 5 后重建 RAID 阵列时运行 nvhealth 命令,则 nvhealth 会将 RAID 卷的状态报告为不正常。为避免这种可能产生误导的结果,请等到重建 RAID 阵列后再运行 nvhealth

要检查重建进度并显示完成百分比以及完成时间的估计值,请运行此命令

# cat /proc/mdstat

Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md0 : active raid5 sdb[0] sdc[1] sdd[2]
     181764096 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/3] [UUU_]
     [===>.................]  recovery = 17.2% (10426232/60588032) finish=45.8min speed=18238K/sec

B.4. EL7-20.01 版本独有:收集信息以排除 DGX Station 故障

注意:EL7-20.02 版本开始,用于收集故障排除信息的工具 (nvsysinfo) 工具已替换为 NVIDIA System Management (NVSM)。有关如何使用 NVSM 执行此任务的信息,请参阅NVIDIA System Management 用户指南中的“转储运行状况”

为了帮助诊断和解决问题,DGX Station 提供了一个工具来收集 NVIDIA Support Enterprise Services 的故障排除信息。

该工具验证 DGX Station 的基本功能和性能,并在 xz 压缩的 tar 存档中收集以下信息

  • 日志文件
  • 硬件清单
  • 软件清单

要收集信息以排除 DGX Station 故障,请运行以下命令

sudo nvsysinfo [-o output-file]
output-file

在其中写入信息的文件路径。

如果您省略输出文件,则写入信息的文件名为 /tmp/nvsysinfo-host-name-timestamp.tar.xz

使用任何方便您的方法将文件发送给 NVIDIA Support Enterprise Services。例如,将文件作为电子邮件附件发送。