先决条件#
GDS 需要特定的服务器配置、文件系统和软件。本节概述了将 GDS 与 NVIDIA AI Enterprise 结合使用所需的先决条件。
支持的系统#
NVIDIA AI Enterprise 利用 NVIDIA 认证服务器来交付工作负载。完整的 NVIDIA AI Enterprise 兼容服务器列表可以在兼容系统列表中找到。这些服务器的子集可以与 GPUDirect Storage 一起使用。OEM、CSP 和 ODM 可以利用NVIDIA GPUDirect Storage 设计指南来设计他们的服务器,以利用 GPUDirect Storage 的优势。《设计指南》还有助于应用程序开发人员了解 GPUDirect Storage 可以为应用程序性能带来价值的地方。
除了 GPU 选择之外,GDS 的运行还取决于服务器的 PCI Express 子系统布局。这项技术的一个关键性能要素是能够缩短 GPU 和网络接口卡 (NIC) 之间的数据路径,这需要 PCI Express 交换机存在于 GPU 和 NIC 之间的拓扑中。因此,支持 GDS 的系统可以分为两组 - 配备 PCIe 交换机的服务器和配备 NVIDIA 融合卡的服务器。
下面是一个配备 PCI Express 交换机的系统示例(稍后将详细介绍该主题),演示了在没有 GDS 和有 GDS 的情况下 GPU 和网络接口卡 (NIC) 之间的数据路径。
没有 GDS
数据首先从 GPU 传输到系统内存中的 CUDA 驱动程序缓冲区,以绿色箭头“1”表示,然后数据被复制到仍然在系统内存中的网卡缓冲区(黄色箭头“2”),然后才到达 NIC(蓝色箭头“3”)。
有 GDS
虚线显示了消除的往返系统内存的路径,由于 NIC 现在可以直接与 GPU 内存通信(绿色箭头),因此不再需要该路径。
PCI 交换机系统#
在此类别中,我们有采用一个或多个集成 PCI Express 交换机设计的服务器,以增加设备之间的 PCIe 带宽,同时减少 CPU 使用的通道数。 在这项技术中,GPU 可以使用交换机作为与网络设备通信的快捷方式,从而释放总线利用率和 CPU 资源,同时最大限度地减少延迟。
可以通过 OEM 配置 PCI 交换机且与 NVIDIA AI Enterprise 兼容的示例系统包括:
Lenovo SR670 V2
HPE Apollo 6500
Inspur NF5468M6
Supermicro SYS-420GP-TNR
注意
这些系统仅在裸机部署中兼容。
在配置 GDS 之前,请确保服务器配置了正确的硬件拓扑。并非这些服务器中的所有插槽都将进行交换,因此安装适配器的确切位置很重要。请参阅“验证 PCI 交换机系统拓扑”,以确保您的系统已为 GDS 做好准备。
融合卡系统#
某些 NVIDIA AI Enterprise 兼容系统可以通过利用 NVIDIA 的融合卡(如 A30X 或 A100X)配置为 GPUDirect Storage。融合卡由 ARM 处理器、GPU 和网络接口组成,具有内部 PCI Express 交换机部分,可以正确连接所有这些子组件——后一个功能允许 GDS 运行。对于支持 NVIDIA AI Enterprise 的 GDS,系统必须列在 NVIDIA AI Enterprise 兼容列表中。
任何通过 A30X 和 A100X 认证的系统都可以配置为 GPUDirect Storage。如果没有融合卡,GDS 要求 GPU 和 NIC 位于拓扑结构中的同一 PCI Express 交换机之后,这可以使用 lstopo 进行验证。”
BIOS 和操作系统设置#
IOMMU – 禁用
ACS 禁用
支持的操作系统#
Ubuntu 20.04
Ubuntu 22.04
支持的文件系统#
用于裸机部署的 GDS 与 NVIDIA AI Enterprise 支持本地 NVMe 驱动器和带有 NFS 驱动器的远程文件系统。
远程
NFS
本地
NVME
EXT4
XFS
支持的 GPU#
NVIDIA AI Enterprise 支持大量用于计算的 GPU,其中一部分能够支持 GDS。
对于 PCIe 交换布局,GDS 支持计算能力高于 6 的数据中心和 RTX 专业桌面产品。请参阅下面支持的数据中心 GPU 列表 – 完整列表可在此处找到:https://developer.nvidia.com/cuda-gpus#compute。NVIDIA AI Enterprise 也支持的这些 GPU 子集是:
NVIDIA H100
NVIDIA A100
NVIDIA A40
NVIDIA A30
NVIDIA A10
NVIDIA A16
NVIDIA A2
NVIDIA T4
NVIDIA V100
在没有 PCI Express 交换的部署中,支持以下融合 GPU:
NVIDIA A100X
NVIDIA A30X
注意
当融合 GPU 安装在通过 PCI 交换机提供的插槽中时,也受到支持。
网络#
由于 GDS 提供了从 GPU 到存储的直接网络连接,因此足够的网络带宽至关重要。确保您的系统具有足够的现代网络以避免性能瓶颈。