:: - NVIDIA 文档

D. 为 DGX Station 使用自定义 DGX 软件实用程序

DGX 软件包括用于维护 DGX Station 持久性存储的自定义实用程序。用于管理和获取 DGX Station 诊断信息的自定义实用程序仅在 DGX 软件的 EL7-20.01 版本中提供。

D.1. 重建或重新创建 DGX Station RAID 阵列

RAID 5 阵列中单个驱动器的故障是可恢复的错误，但故障会导致阵列的数据冗余丢失。更换 RAID 5 阵列中的单个故障 SSD 后，您必须重建阵列以恢复阵列的数据冗余。RAID 0 阵列中任意数量的 SSD 故障以及 RAID 5 阵列中多个 SSD 故障都是不可恢复的故障。在更换 SSD 以响应不可恢复的故障后，您必须重新创建阵列。

如果 DGX Station RAID 阵列由于一个或多个 SSD 故障而降级，请更换每个故障的 SSD，如DGX Station 用户指南中所述。

DGX Station 软件包括自定义脚本 configure_raid_array.py，用于重建或重新创建 RAID 阵列。

要在更换单个故障 SSD 后重建 RAID 5 阵列，请运行以下命令

$ sudo configure_raid_array.py -r

注意：重建 RAID 5 阵列所需的时间取决于系统负载、SSD 容量以及阵列中 SSD 的数量等因素。重建 DGX Station 中三个 1.92 TB SSD 的阵列可能需要几个小时。

您可以检查 /proc/mdstat 文件的内容来监控长时间运行的重建进度

$ cat /proc/mdstat
Personalities : [raid0] [linear] [multipath] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sdb[0] sdd[3] sdc[1]
      3750486016 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
      [>....................]  recovery =  4.0% (75580956/1875243008) finish=438.3min speed=68419K/sec
      bitmap: 2/14 pages [8KB], 65536KB chunk

unused devices: <none>

在此示例中，重建已完成 4.0%，预计在 438.3 分钟内完成。

要在更换多个故障 SSD 后重新创建 RAID 5 阵列，请运行以下命令
```
$ sudo configure_raid_array.py -c -5 -f
```
警告

仅当发生不可恢复的故障（例如多个 SSD 故障）时，才指定 -c 选项。-c 选项会擦除阵列中的所有数据。
要在更换任意数量的故障 SSD 后重新创建 RAID 0 阵列，请运行以下命令
```
$ sudo configure_raid_array.py -c -f
```

RAID 阵列将使用您指定的 RAID 级别重建或重新创建。

如果您重新创建了 RAID 0 或 RAID 5 阵列，则阵列上的所有数据将在重新创建阵列后被擦除。
如果您重建了 RAID 5 阵列，则阵列上的数据将在重建阵列后保留。

如果您已重新创建 RAID 0 或 RAID 5 阵列，并且有要保留的阵列数据备份，请从备份中恢复数据。

D.2. 更改 RAID 阵列的 RAID 级别

在 Red Hat Enterprise Linux 上首次安装 DGX 软件期间，DGX Station 中的数据 SSD 配置为 RAID 0 或 RAID 5 阵列。如果您的冗余或存储容量需求发生变化，您可以将阵列的 RAID 级别从最初配置的级别更改。

在更改 DGX Station RAID 阵列的 RAID 级别之前，请备份阵列上要保留的所有数据。更改 DGX Station RAID 阵列的 RAID 级别会擦除阵列上存储的所有数据。

DGX Station 软件包括自定义脚本 configure_raid_array.py，您可以使用该脚本更改 RAID 阵列的级别，而无需卸载 RAID 卷。

要将 RAID 级别更改为 RAID 5，请运行以下命令
```
$ sudo configure_raid_array.py -m raid5
```
注意
将 RAID 级别更改为 RAID 5 后，RAID 阵列将重建。正在重建的 RAID 阵列已联机并准备好使用，但对 DGX Station 健康状况的检查报告 RAID 卷的状态为不健康。因此，在重建 RAID 阵列时，请避免检查 DGX Station 的健康状况。有关更多信息，请参阅仅限 EL7-20.01：检查系统健康状况。

重建 RAID 阵列所需的时间取决于系统上的工作负载。在空闲系统上，重建可能在 30 分钟内完成。
要将 RAID 级别更改为 RAID 0，请运行以下命令
```
$ sudo configure_raid_array.py -m raid0
```

要确认 RAID 级别已按要求更改，请运行 lsblk 命令。RAID 阵列中每个 SSD 的 TYPE 列中的条目指示阵列的 RAID 级别。

以下示例显示阵列的 RAID 级别为 RAID 0。RAID 卷的名称为 md0，卷的挂载点为 /raid。

~$ lsblk
NAME   MAJ:MIN RM  SIZE RO TYPE  MOUNTPOINT
sda      8:0    0  1.8T  0 disk
|_sda1   8:1    0  487M  0 part  /boot/efi
|_sda2   8:2    0  1.8T  0 part  /
sdb      8:16   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdc      8:32   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdd      8:48   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid

D.3. 仅限 EL7-20.01：检查 DGX Station 的健康状况

注意：从 EL7-20.02 版本开始，NVIDIA 系统健康检查器 (nvhealth) 工具已被 NVIDIA 系统管理 (NVSM) 取代。有关如何使用 NVSM 执行此任务的信息，请参阅NVIDIA 系统管理用户指南中的“显示健康状况”。

DGX Station 提供 NVIDIA 系统健康检查器 (nvhealth) 工具来测试系统并验证其健康状况。nvhealth 的输出是检查项及其状态的详细列表，通常为“健康”或“不健康”。在健康的系统上，所有检查都应返回“健康”。您应调查任何返回“不健康”的检查，以确定其根本原因并解决它们。

要检查 DGX Station 的健康状况，请运行以下命令

$ sudo nvhealth [-k output-file]

output-file

在其中写入系统原始状态的文件的名称和路径。nvhealth 命令在命令输出的末尾显示此文件名。

如果您省略输出文件，则信息将写入文件 /tmp/nvhealth-log.random-string.jsonl，例如 /tmp/nvhealth-log.6wf3WriAC3.jsonl。

注意

如果在将 RAID 级别更改为 RAID 5 后重建 RAID 阵列时运行 nvhealth 命令，则 nvhealth 会报告 RAID 卷的状态为不健康。为避免这种潜在的误导性结果，请在运行 nvhealth 之前等待 RAID 阵列重建完成。

要检查重建进度并显示完成百分比和完成时间估计，请运行此命令

# cat /proc/mdstat

Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md0 : active raid5 sdb[0] sdc[1] sdd[2]
     181764096 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/3] [UUU_]
     [===>.................]  recovery = 17.2% (10426232/60588032) finish=45.8min speed=18238K/sec

D.4. 仅限 EL7-20.01：收集信息以排除 DGX Station 故障

注意：从 EL7-20.02 版本开始，用于收集故障排除信息的工具 (nvsysinfo) 已被 NVIDIA 系统管理 (NVSM) 取代。有关如何使用 NVSM 执行此任务的信息，请参阅NVIDIA 系统管理用户指南中的“转储健康状况”。

为了帮助诊断和解决问题，DGX Station 提供了一个工具来收集 NVIDIA 支持企业服务的故障排除信息。

该工具验证 DGX Station 的基本功能和性能，并在 xz 压缩的 tar 存档中收集以下信息

日志文件
硬件清单
软件清单

要收集信息以排除 DGX Station 故障，请运行以下命令

sudo nvsysinfo [-o output-file]

output-file

在其中写入信息的文件路径。

如果您省略输出文件，则写入信息的文件名是 /tmp/nvsysinfo-host-name-timestamp.tar.xz。

使用任何方便您的方法将文件发送给 NVIDIA 支持企业服务。例如，将文件作为电子邮件附件发送。