配置存储#
默认情况下,DGX A100 系统包含四个配置为 RAID 0 的 SSD。这些 SSD 旨在用于应用程序缓存,因此您必须设置自己的 NFS 存储以进行长期数据存储。本节中的说明介绍如何在 DGX A100 系统上挂载 NFS,以及如何使用 DGX A100 SSD 缓存 NFS 以提高性能。
禁用 cachefilesd#
DGX A100 系统使用 cachefilesd 来管理 NFS 的缓存。要禁用
$ sudo systemctl stop cachefilesd
$ sudo systemctl disable cachefilesd
使用 cachefilesd#
以下说明介绍如何在 DGX A100 系统上挂载 NFS,以及如何使用 DGX A100 SSD 缓存 NFS 以提高性能。
确保您有一个 NFS 服务器,其中包含一个或多个导出,其中包含 DGX A100 系统要访问的数据,并且 DGX A100 系统和 NFS 服务器之间存在网络连接。
为 DGX A100 系统配置 NFS 挂载。
编辑文件系统表配置。
$ sudo vi /etc/fstab
为 NFS 挂载添加新行,使用本地挂载点 /mnt。
<nfs_server>:<export_path> /mnt nfs rw,noatime,rsize=32768,wsize=32768,nolock,tcp,intr,fsc,nofail 0 0
/mnt 在这里用作示例挂载点。
请咨询您的网络管理员以获取 <nfs_server> 和 <export_path> 的正确值。
此处提供的 nfs 参数是基于典型用例的推荐值列表。
但是,“fsc” 必须始终包含在内,因为该参数指定使用 FS-Cache。
保存更改。
验证 NFS 服务器是否可访问。
$ ping <nfs-server-ip-address>
使用服务器 IP 地址或网络管理员提供的服务器名称。
挂载 NFS 导出。
$ sudo mount /mnt
/mnt
是一个示例挂载点。验证缓存是否已启用。
$ cat /proc/fs/nfsfs/volumes
在输出中,查找
FSC=yes
。NFS 将在后续重启周期中自动挂载并在 DGX A100 系统上缓存。
设置文件系统配额#
运行 NGC 容器时,您可能需要限制文件系统上使用的磁盘空间量,以避免填满分区。
有关如何在 Ubuntu 18.04 及更高版本上设置文件系统配额的信息,请参阅 https://www.digitalocean.com/community/tutorials/how-to-set-filesystem-quotas-on-ubuntu-18-04。
在 RAID 0 和 RAID 5 之间切换#
出厂时提供的 DGX A100 RAID 阵列的 RAID 级别为 RAID 0。它提供最大的存储容量,但不提供任何冗余。
如果阵列中的一个 SSD 发生故障,则阵列上存储的所有数据都将丢失。如果您愿意接受容量减少以换取一定程度的 SSD 故障保护,则可以将 RAID 阵列的级别更改为 RAID 5。如果您将 RAID 级别从 RAID 0 更改为 RAID 5,则 RAID 阵列的总存储容量将减少。
在更改 DGX A100 RAID 阵列的 RAID 级别之前,请备份您要保留的阵列上的所有数据。更改 DGX A100 RAID 阵列的 RAID 级别会擦除阵列上存储的所有数据。
DGX A100 软件包含 configure_raid_array.py
自定义脚本,您可以使用该脚本在不卸载 RAID 卷的情况下更改 RAID 阵列的级别。
要将 RAID 级别更改为 RAID 5,请运行以下命令
$ sudo configure_raid_array.py -m raid5
将 RAID 级别更改为 RAID 5 后,将重建 RAID 阵列。正在重建的 RAID 阵列处于联机状态并可以使用,但对 DGX 系统运行状况的检查会将 RAID 卷的状态报告为不正常。
重建 RAID 阵列所需的时间取决于系统上的工作负载。在空闲系统上,重建将需要大约 30 分钟才能完成。
要将 RAID 级别更改为 RAID 0,请运行以下命令
$ sudo configure_raid_array.py -m raid0
要确认 RAID 级别已按要求更改,请运行
lsblk
命令。RAID 阵列中每个 SSD 的 TYPE 列中的条目指示阵列的 RAID 级别。
配置自定义驱动器分区支持#
DGX A100 系统默认情况下集成了配置为 RAID 0 的数据驱动器。您可以通过添加或移除驱动器,或在 RAID 0 配置和 RAID 5 配置之间切换来更改默认配置。
如果您更改了默认配置,则必须告知 NVSM,以便该实用程序不会将配置标记为错误,并且 NVSM 可以继续监控驱动器的运行状况。
编辑 /etc/nvsm/nvsm.config 并将 use_standard_config_storage 参数设置为 false。
"use_standard_config_storage":false
重启 NVSM。
$ systemctl restart nvsm
如果您将驱动器分区恢复为默认配置,请将参数设置回 true
。