配置存储#

默认情况下,DGX A100 系统包含四个配置为 RAID 0 的 SSD。这些 SSD 旨在用于应用程序缓存,因此您必须设置自己的 NFS 存储以进行长期数据存储。本节中的说明介绍如何在 DGX A100 系统上挂载 NFS,以及如何使用 DGX A100 SSD 缓存 NFS 以提高性能。

禁用 cachefilesd#

DGX A100 系统使用 cachefilesd 来管理 NFS 的缓存。要禁用

$ sudo systemctl stop cachefilesd
$ sudo systemctl disable cachefilesd

使用 cachefilesd#

以下说明介绍如何在 DGX A100 系统上挂载 NFS,以及如何使用 DGX A100 SSD 缓存 NFS 以提高性能。

确保您有一个 NFS 服务器,其中包含一个或多个导出,其中包含 DGX A100 系统要访问的数据,并且 DGX A100 系统和 NFS 服务器之间存在网络连接。

  1. 为 DGX A100 系统配置 NFS 挂载。

    1. 编辑文件系统表配置。

      $ sudo vi /etc/fstab
      
    2. 为 NFS 挂载添加新行,使用本地挂载点 /mnt。

      <nfs_server>:<export_path> /mnt nfs rw,noatime,rsize=32768,wsize=32768,nolock,tcp,intr,fsc,nofail 0 0
      
      • /mnt 在这里用作示例挂载点。

      • 请咨询您的网络管理员以获取 <nfs_server> 和 <export_path> 的正确值。

      • 此处提供的 nfs 参数是基于典型用例的推荐值列表。

      但是,“fsc” 必须始终包含在内,因为该参数指定使用 FS-Cache。

    3. 保存更改。

  2. 验证 NFS 服务器是否可访问。

    $ ping <nfs-server-ip-address>
    

    使用服务器 IP 地址或网络管理员提供的服务器名称。

  3. 挂载 NFS 导出。

    $ sudo mount /mnt
    

    /mnt 是一个示例挂载点。

  4. 验证缓存是否已启用。

    $ cat /proc/fs/nfsfs/volumes
    

    在输出中,查找 FSC=yes

    NFS 将在后续重启周期中自动挂载并在 DGX A100 系统上缓存。

设置文件系统配额#

运行 NGC 容器时,您可能需要限制文件系统上使用的磁盘空间量,以避免填满分区。

有关如何在 Ubuntu 18.04 及更高版本上设置文件系统配额的信息,请参阅 https://www.digitalocean.com/community/tutorials/how-to-set-filesystem-quotas-on-ubuntu-18-04

在 RAID 0 和 RAID 5 之间切换#

出厂时提供的 DGX A100 RAID 阵列的 RAID 级别为 RAID 0。它提供最大的存储容量,但不提供任何冗余。

如果阵列中的一个 SSD 发生故障,则阵列上存储的所有数据都将丢失。如果您愿意接受容量减少以换取一定程度的 SSD 故障保护,则可以将 RAID 阵列的级别更改为 RAID 5。如果您将 RAID 级别从 RAID 0 更改为 RAID 5,则 RAID 阵列的总存储容量将减少。

在更改 DGX A100 RAID 阵列的 RAID 级别之前,请备份您要保留的阵列上的所有数据。更改 DGX A100 RAID 阵列的 RAID 级别会擦除阵列上存储的所有数据。

DGX A100 软件包含 configure_raid_array.py 自定义脚本,您可以使用该脚本在不卸载 RAID 卷的情况下更改 RAID 阵列的级别。

  • 要将 RAID 级别更改为 RAID 5,请运行以下命令

    $ sudo configure_raid_array.py -m raid5
    

    将 RAID 级别更改为 RAID 5 后,将重建 RAID 阵列。正在重建的 RAID 阵列处于联机状态并可以使用,但对 DGX 系统运行状况的检查会将 RAID 卷的状态报告为不正常。

    重建 RAID 阵列所需的时间取决于系统上的工作负载。在空闲系统上,重建将需要大约 30 分钟才能完成。

  • 要将 RAID 级别更改为 RAID 0,请运行以下命令

    $ sudo configure_raid_array.py -m raid0
    

    要确认 RAID 级别已按要求更改,请运行 lsblk 命令。RAID 阵列中每个 SSD 的 TYPE 列中的条目指示阵列的 RAID 级别。

配置自定义驱动器分区支持#

DGX A100 系统默认情况下集成了配置为 RAID 0 的数据驱动器。您可以通过添加或移除驱动器,或在 RAID 0 配置和 RAID 5 配置之间切换来更改默认配置。

如果您更改了默认配置,则必须告知 NVSM,以便该实用程序不会将配置标记为错误,并且 NVSM 可以继续监控驱动器的运行状况。

  1. 编辑 /etc/nvsm/nvsm.config 并将 use_standard_config_storage 参数设置为 false。

    "use_standard_config_storage":false
    
  2. 重启 NVSM。

    $ systemctl restart nvsm
    

如果您将驱动器分区恢复为默认配置,请将参数设置回 true