:: - NVIDIA 文档

B. 将自定义 DGX 软件实用程序用于 DGX Station

DGX 软件包括用于维护 DGX Station 持久存储的自定义实用程序。用于管理和获取 DGX Station 诊断信息的自定义实用程序仅包含在 DGX 软件的 EL7-20.01 版本中。

B.1. 重建或重新创建 DGX Station RAID 阵列

RAID 5 阵列中单个驱动器发生故障是可恢复的错误，但故障会导致阵列的数据冗余丢失。更换 RAID 5 阵列中单个发生故障的 SSD 后，您必须重建阵列以恢复阵列的数据冗余。RAID 0 阵列中任意数量的 SSD 发生故障以及 RAID 5 阵列中多个 SSD 发生故障均为不可恢复的故障。在更换 SSD 以响应不可恢复的故障后，您必须重新创建阵列。

如果 DGX Station RAID 阵列因一个或多个 SSD 发生故障而降级，请按照DGX Station 用户指南中的说明更换每个发生故障的 SSD。

DGX Station 软件包括自定义脚本 configure_raid_array.py，用于重建或重新创建 RAID 阵列。

要在更换单个发生故障的 SSD 后重建 RAID 5 阵列，请运行以下命令
```
$ sudo configure_raid_array.py -r
```
注意：重建 RAID 5 阵列所需的时间取决于系统负载、SSD 容量和阵列中 SSD 的数量等因素。重建 DGX Station 中由三个 1.92 TB SSD 组成的阵列可能需要数小时。

您可以检查 /proc/mdstat 文件的内容来监控长时间运行的重建进度
```
$ cat /proc/mdstat
Personalities : [raid0] [linear] [multipath] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sdb[0] sdd[3] sdc[1]
      3750486016 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [UU_]
      [>....................]  recovery =  4.0% (75580956/1875243008) finish=438.3min speed=68419K/sec
      bitmap: 2/14 pages [8KB], 65536KB chunk

unused devices: <none>
```
在此示例中，重建已完成 4.0%，预计在 438.3 分钟内完成。
要在更换多个发生故障的 SSD 后重新创建 RAID 5 阵列，请运行以下命令
```
$ sudo configure_raid_array.py -c -5 -f
```
小心

仅当发生不可恢复的故障（例如多个 SSD 发生故障）时，才指定 -c 选项。-c 选项会擦除阵列中的所有数据。
要在更换任意数量的发生故障的 SSD 后重新创建 RAID 0 阵列，请运行以下命令
```
$ sudo configure_raid_array.py -c -f
```

RAID 阵列将使用您指定的 RAID 级别重建或重新创建。

如果您重新创建了 RAID 0 或 RAID 5 阵列，则在重新创建阵列后，阵列上的所有数据都将被擦除。
如果您重建了 RAID 5 阵列，则在重建阵列后，阵列上的数据将保留。

如果您已重新创建 RAID 0 或 RAID 5 阵列，并且备份了要保留的阵列数据，请从备份中恢复数据。

B.2. 更改 RAID 阵列的 RAID 级别

在 CentOS 上首次安装 DGX 软件期间，DGX Station 中的数据 SSD 将配置为 RAID 0 或 RAID 5 阵列。如果您的冗余或存储容量要求发生变化，您可以将阵列的 RAID 级别从最初配置的级别更改。

在更改 DGX Station RAID 阵列的 RAID 级别之前，请备份您要保留的阵列上的所有数据。更改 DGX Station RAID 阵列的 RAID 级别会擦除存储在阵列上的所有数据。

DGX Station 软件包括自定义脚本 configure_raid_array.py，您可以使用该脚本更改 RAID 阵列的级别，而无需卸载 RAID 卷。

要将 RAID 级别更改为 RAID 5，请运行以下命令
```
$ sudo configure_raid_array.py -m raid5
```
注意
在您将 RAID 级别更改为 RAID 5 后，RAID 阵列将被重建。正在重建的 RAID 阵列处于联机状态并可以使用，但是对 DGX Station 运行状况的检查会将 RAID 卷的状态报告为不正常。因此，在重建 RAID 阵列时，请避免检查 DGX Station 的运行状况。有关更多信息，请参阅EL7-20.01 版本独有：检查 DGX Station 的运行状况。

重建 RAID 阵列所需的时间取决于系统上的工作负载。在空闲系统上，重建可能在 30 分钟内完成。
要将 RAID 级别更改为 RAID 0，请运行以下命令
```
$ sudo configure_raid_array.py -m raid0
```

要确认 RAID 级别已按要求更改，请运行 lsblk 命令。RAID 阵列中每个 SSD 的 TYPE 列中的条目指示阵列的 RAID 级别。

以下示例显示阵列的 RAID 级别为 RAID 0。RAID 卷的名称为 md0，卷的挂载点为 /raid。

~$ lsblk
NAME   MAJ:MIN RM  SIZE RO TYPE  MOUNTPOINT
sda      8:0    0  1.8T  0 disk
|_sda1   8:1    0  487M  0 part  /boot/efi
|_sda2   8:2    0  1.8T  0 part  /
sdb      8:16   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdc      8:32   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid
sdd      8:48   0  1.8T  0 disk
|_md0    9:0    0  5.2T  0 raid0 /raid

B.3. EL7-20.01 版本独有：检查 DGX Station 的运行状况

注意：从 EL7-20.02 版本开始，NVIDIA System Health Checker (nvhealth) 工具已替换为 NVIDIA System Management (NVSM)。有关如何使用 NVSM 执行此任务的信息，请参阅NVIDIA System Management 用户指南中的“显示运行状况”。

DGX Station 提供 NVIDIA System Health Checker (nvhealth) 工具来执行系统检查并验证其运行状况。nvhealth 的输出是检查项及其状态的详细列表，通常为“正常”或“不正常”。在运行状况正常的系统上，所有检查都应返回“正常”。您应该调查任何返回“不正常”的检查，以确定其根本原因并解决它们。

要检查 DGX Station 的运行状况，请运行以下命令

$ sudo nvhealth [-k output-file]

output-file

在其中写入系统原始状态的文件的名称和路径。nvhealth 命令在命令输出的末尾显示此文件名。

如果您省略输出文件，则信息将写入文件 /tmp/nvhealth-log.random-string.jsonl，例如，/tmp/nvhealth-log.6wf3WriAC3.jsonl。

注意

如果在 RAID 级别更改为 RAID 5 后重建 RAID 阵列时运行 nvhealth 命令，则 nvhealth 会将 RAID 卷的状态报告为不正常。为避免这种可能产生误导的结果，请等到重建 RAID 阵列后再运行 nvhealth。

要检查重建进度并显示完成百分比以及完成时间的估计值，请运行此命令

# cat /proc/mdstat

Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md0 : active raid5 sdb[0] sdc[1] sdd[2]
     181764096 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/3] [UUU_]
     [===>.................]  recovery = 17.2% (10426232/60588032) finish=45.8min speed=18238K/sec

B.4. EL7-20.01 版本独有：收集信息以排除 DGX Station 故障

注意：从 EL7-20.02 版本开始，用于收集故障排除信息的工具 (nvsysinfo) 工具已替换为 NVIDIA System Management (NVSM)。有关如何使用 NVSM 执行此任务的信息，请参阅NVIDIA System Management 用户指南中的“转储运行状况”。

为了帮助诊断和解决问题，DGX Station 提供了一个工具来收集 NVIDIA Support Enterprise Services 的故障排除信息。

该工具验证 DGX Station 的基本功能和性能，并在 xz 压缩的 tar 存档中收集以下信息

日志文件
硬件清单
软件清单

要收集信息以排除 DGX Station 故障，请运行以下命令

sudo nvsysinfo [-o output-file]

output-file

在其中写入信息的文件路径。

如果您省略输出文件，则写入信息的文件名为 /tmp/nvsysinfo-host-name-timestamp.tar.xz。

使用任何方便您的方法将文件发送给 NVIDIA Support Enterprise Services。例如，将文件作为电子邮件附件发送。