需求#

最低需求概要#

  • 在单个 NVIDIA 认证系统 中至少配备一个 NVIDIA A100 或 T4 GPU,并带有 NVIDIA ConnectX-6 Dx 网卡

  • 托管虚拟机的服务器连接到 NVIDIA Mellanox Spectrum 交换机

  • GPU 和网卡对需要位于同一根联合体上

  • VMware vSphere 7.0 Update 2

  • NVIDIA AI Enterprise 软件套件

    • NVIDIA AI Enterprise 主机软件

    • NVIDIA 客户机驱动程序

  • NVIDIA 虚拟 GPU 许可服务器

注意

VMware ESXi 以及 NVIDIA vGPU 主机和客户机驱动程序软件的安装不在本文档的范围之内。 有关详细说明,请参阅《NVIDIA AI Enterprise 部署指南》。要在 VMware 上设置支持 AI 的虚拟机,需要向虚拟机添加 vGPU 配置文件。 这需要先在 ESXi 上安装 vGPU Host Manager,附加 vGPU 配置文件,然后在虚拟机上安装 vGPU 客户机驱动程序,并为虚拟机进行许可。 本指南的以下章节对您有所帮助,可供参考:

服务器配置#

以下服务器配置详情被认为是最佳实践

  • 超线程 – 已启用

  • 电源设置或系统配置文件 – 高性能

  • CPU 性能 (如果适用) – 企业级或高吞吐量

  • 4GB 以上的内存映射 I/O – 已启用 (如果适用)

  • 单根 I/O 虚拟化 (SR-IOV) – 已启用

虚拟机需求#

在继续本指南之前,应至少预先创建 2 个虚拟机。 以下是每个虚拟机的硬件需求

  • 每个虚拟机一个 ConnectX-6 Dx 网卡

  • 每个虚拟机一个 GPU

由于 C 系列 vGPU 具有较大的 BAR 内存设置,因此需要以下配置要求。

  • 客户机操作系统必须是 64 位操作系统。

  • 必须为虚拟机启用 64 位 MMIO 和 EFI 启动。

  • 客户机操作系统必须能够以 EFI 启动模式安装。

  • 虚拟机版本 19。 虚拟机的 MMIO 空间必须增加到 128 GB,如 VMware 知识库文章 VMware vSphere VMDirectPath I/O: Platforms and Devices 的要求 (2142307) 中所述。

虚拟机配置#

  • 16 个 vCPU(分配给单个插槽的所有核心)

  • 64 GB 内存

  • 500 GB 磁盘

  • 连接到网络的 VMXNet3 网卡

  • 附加 NVIDIA 完整 vGPU 非 MiG 配置文件 (A100-40C)

  • 以直通模式连接的 NVIDIA ConnectX-6 Dx 网卡

  • Ubuntu Server 20.04 Server HWE 64 位

其他虚拟机配置#

按照以下顺序在虚拟机中安装以下组件

  • vGPU 12.0 或更高版本的虚拟机驱动程序

  • Docker,请参阅 Docker 安装指南

  • NVIDIA Container Toolkit;这包括所需的 Docker 版本。

注意

您无需在主机上安装 CUDA Toolkit,但需要安装驱动程序。

可选:使用 MIG 设置 A100 vGPU 虚拟机#

按照《NVIDIA AI Enterprise 部署指南》中“启用 NVIDIA vGPU”部分进行操作。