配置存储 - NFS 挂载和缓存

DGX 服务器和 DGX Station 包括多个 SSD,用于数据缓存或数据存储。

  • DGX-1 服务器包含四个 SSD,用于 RAID 0 配置。
  • DGX-2 服务器包含 8 或 16 个 SSD,用于 RAID 0 配置。
  • DGX A100 服务器包含 4 或 8 个 SSD,用于 RAID 0 配置。
  • DGX Station 包含三个 SSD,用于 RAID 0 或 RAID 5 配置。

对于 DGX 服务器,这些 SSD 旨在用作 NFS 挂载目录的数据缓存。对于 DGX Station,这些 SSD 旨在用于本地持久存储或作为 NFS 挂载目录的数据缓存。如果您将这些 SSD 用作 NFS 挂载目录的数据缓存,则必须设置自己的 NFS 挂载目录以进行长期数据存储。

以下说明描述了如何将 NFS 目录挂载到 DGX 系统上,以及如何使用 DGX SSD 缓存 NFS 以提高性能。

确保您有一个 NFS 服务器,其中包含一个或多个导出,DGX 系统可以访问这些导出中的数据,并且 DGX 系统和 NFS 服务器之间存在网络访问。
  1. 安装 nfs 软件包。
    $ sudo yum install nfs-utils
  2. 为 DGX 配置 NFS 挂载。
    1. 编辑文件系统表配置。
      sudo vi /etc/fstab
    2. 为 NFS 挂载添加新行,使用本地挂载点 /mnt。
      <nfs_server>:<export_path> /mnt nfs rw,noatime,rsize=32768,wsize=32768,nolock,tcp,intr,fsc,nofail 0 0

      /mnt 在这里用作示例挂载点。

      请咨询您的网络管理员以获取 <nfs_server> 和 <export_path> 的正确值。

      此处提供的 nfs 参数是基于典型用例的推荐值列表。但是,必须始终包含 'fsc',因为该参数指定使用 FS-Cache。

    3. 保存更改。
  3. 验证 NFS 服务器是否可访问。
    ping <nfs_server>

    使用服务器 IP 地址或您的网络管理员提供的服务器名称。

  4. 挂载 NFS 导出。
    sudo mount /mnt

    /mnt 是步骤 1 中使用的示例挂载点。

  5. 验证缓存是否已启用。
    cat /proc/fs/nfsfs/volumes

    在输出中查找文本 FSC=yes。NFS 将在后续重启周期中自动挂载并在 DGX 系统上缓存。