先决条件#

GDS 需要特定的服务器配置、文件系统和软件。本节概述了将 GDS 与 NVIDIA AI Enterprise 结合使用所需的先决条件。

支持的系统#

NVIDIA AI Enterprise 利用 NVIDIA 认证服务器来交付工作负载。完整的 NVIDIA AI Enterprise 兼容服务器列表可以在兼容系统列表中找到。这些服务器的子集可以与 GPUDirect Storage 一起使用。OEM、CSP 和 ODM 可以利用NVIDIA GPUDirect Storage 设计指南来设计他们的服务器,以利用 GPUDirect Storage 的优势。《设计指南》还有助于应用程序开发人员了解 GPUDirect Storage 可以为应用程序性能带来价值的地方。

除了 GPU 选择之外,GDS 的运行还取决于服务器的 PCI Express 子系统布局。这项技术的一个关键性能要素是能够缩短 GPU 和网络接口卡 (NIC) 之间的数据路径,这需要 PCI Express 交换机存在于 GPU 和 NIC 之间的拓扑中。因此,支持 GDS 的系统可以分为两组 - 配备 PCIe 交换机的服务器和配备 NVIDIA 融合卡的服务器。

下面是一个配备 PCI Express 交换机的系统示例(稍后将详细介绍该主题),演示了在没有 GDS 和有 GDS 的情况下 GPU 和网络接口卡 (NIC) 之间的数据路径。

没有 GDS

_images/gds-01.png

数据首先从 GPU 传输到系统内存中的 CUDA 驱动程序缓冲区,以绿色箭头“1”表示,然后数据被复制到仍然在系统内存中的网卡缓冲区(黄色箭头“2”),然后才到达 NIC(蓝色箭头“3”)。

有 GDS

_images/gds-02.png

虚线显示了消除的往返系统内存的路径,由于 NIC 现在可以直接与 GPU 内存通信(绿色箭头),因此不再需要该路径。

PCI 交换机系统#

在此类别中,我们有采用一个或多个集成 PCI Express 交换机设计的服务器,以增加设备之间的 PCIe 带宽,同时减少 CPU 使用的通道数。 在这项技术中,GPU 可以使用交换机作为与网络设备通信的快捷方式,从而释放总线利用率和 CPU 资源,同时最大限度地减少延迟。

可以通过 OEM 配置 PCI 交换机且与 NVIDIA AI Enterprise 兼容的示例系统包括:

  • Lenovo SR670 V2

  • HPE Apollo 6500

  • Inspur NF5468M6

  • Supermicro SYS-420GP-TNR

注意

这些系统仅在裸机部署中兼容。

在配置 GDS 之前,请确保服务器配置了正确的硬件拓扑。并非这些服务器中的所有插槽都将进行交换,因此安装适配器的确切位置很重要。请参阅“验证 PCI 交换机系统拓扑”,以确保您的系统已为 GDS 做好准备。

融合卡系统#

某些 NVIDIA AI Enterprise 兼容系统可以通过利用 NVIDIA 的融合卡(如 A30X 或 A100X)配置为 GPUDirect Storage。融合卡由 ARM 处理器、GPU 和网络接口组成,具有内部 PCI Express 交换机部分,可以正确连接所有这些子组件——后一个功能允许 GDS 运行。对于支持 NVIDIA AI Enterprise 的 GDS,系统必须列在 NVIDIA AI Enterprise 兼容列表中。

任何通过 A30X 和 A100X 认证的系统都可以配置为 GPUDirect Storage。如果没有融合卡,GDS 要求 GPU 和 NIC 位于拓扑结构中的同一 PCI Express 交换机之后,这可以使用 lstopo 进行验证。”

BIOS 和操作系统设置#

  • IOMMU – 禁用

  • ACS 禁用

支持的操作系统#

  • Ubuntu 20.04

  • Ubuntu 22.04

支持的文件系统#

用于裸机部署的 GDS 与 NVIDIA AI Enterprise 支持本地 NVMe 驱动器和带有 NFS 驱动器的远程文件系统。

  • 远程

    • NFS

  • 本地

    • NVME

      • EXT4

      • XFS

支持的 GPU#

NVIDIA AI Enterprise 支持大量用于计算的 GPU,其中一部分能够支持 GDS。

对于 PCIe 交换布局,GDS 支持计算能力高于 6 的数据中心和 RTX 专业桌面产品。请参阅下面支持的数据中心 GPU 列表 – 完整列表可在此处找到:https://developer.nvidia.com/cuda-gpus#compute。NVIDIA AI Enterprise 也支持的这些 GPU 子集是:

  • NVIDIA H100

  • NVIDIA A100

  • NVIDIA A40

  • NVIDIA A30

  • NVIDIA A10

  • NVIDIA A16

  • NVIDIA A2

  • NVIDIA T4

  • NVIDIA V100

在没有 PCI Express 交换的部署中,支持以下融合 GPU:

  • NVIDIA A100X

  • NVIDIA A30X

注意

当融合 GPU 安装在通过 PCI 交换机提供的插槽中时,也受到支持。

网络#

由于 GDS 提供了从 GPU 到存储的直接网络连接,因此足够的网络带宽至关重要。确保您的系统具有足够的现代网络以避免性能瓶颈。