创建您的首个 NVIDIA AI Enterprise 虚拟机#

由于 C 系列 vGPU 具有较大的 BAR 内存设置，因此使用这些 vGPU 对 VMware ESXi 有一些限制。

客户机操作系统必须是 64 位操作系统。
必须为虚拟机启用 64 位 MMIO 和 EFI 启动。
客户机操作系统必须能够在 EFI 启动模式下安装。
虚拟机的 MMIO 空间必须根据 GPU 型号进行增加。
对于 GPUDirectRDMA，必须启用 P2P。

创建虚拟机#

这些说明旨在帮助您从头开始创建支持 NVIDIA vGPU 的虚拟机。稍后，该虚拟机将用作黄金主映像。使用以下步骤为单个客户机桌面配置 vGPU

使用vSphere Web Client浏览到主机或集群。
右键单击所需的主机或集群，然后选择新建虚拟机。
选择创建新的虚拟机，然后单击下一步。
输入虚拟机的名称。接下来，使用选择虚拟机的存放位置部分，选择虚拟机的存放位置。单击下一步继续。
选择用于运行虚拟机的计算资源。单击下一步继续。

注意

此计算资源应包括已安装且配置正确的 NVIDIA vGPU 启用卡。
选择用于存放虚拟机的数据存储。单击下一步继续。
接下来，选择虚拟机的兼容性。这应反映您的 NVIDIA 认证系统的 ESXi 版本。单击下一步继续。
从客户机操作系统系列和客户机操作系统版本下拉菜单中选择合适的 Ubuntu Linux 操作系统。单击下一步继续。
接下来，我们将设置虚拟机的硬件。下表总结了我们将在后续步骤中设置的设置。

虚拟机配置

CPU

单插槽上的 16 个 vCPU

RAM

64 GB

存储

150 GB 精简配置磁盘
通过单击大于号展开 CPU 选项。将 CPU 设置为 16，将每插槽内核数设置为 16。
接下来，将内存设置为 64 GB。
接下来，通过单击大于号展开新建硬盘选项。将存储设置为 150 GB，将磁盘配置设置为精简配置。
在完成之前，查看新建虚拟机配置。准备就绪后，单击完成。
新的虚拟机容器已创建。
配置虚拟机的 EFI 启动选项。右键单击新的虚拟机，然后选择编辑设置。
单击 VM 选项选项卡，展开启动选项，将固件从 BIOS 更改为 EFI。
展开高级，然后选择编辑配置。

调整虚拟机的内存映射 I/O (MMIO) 设置

单击添加配置参数，然后从表中添加参数，在 xxx 中填写 GPU 型号所需的 MMIO 空间列中的相应值。

名称

值

pciPassthru.64bitMMIOSizeGB

xxx

GPU

所需的 MMIO 空间

NVIDIA A10

64

NVIDIA A30

64

NVIDIA A40

128

NVIDIA A100 40GB（所有变体）

128

NVIDIA A100 80GB（所有变体）

256

NVIDIA RTX A5000

64

NVIDIA RTX A5500

64

NVIDIA RTX A6000

128

Tesla P100（所有变体）

64

注意

启用 NVLink 后，请相应地调整每个使用的 GPU 的 MMIO 空间。

再次单击添加配置参数，然后从表中添加参数。

名称

值

pciPassthru.use64bitMMIO

TRUE

注意

对于 GPUDirectRDMA，必须启用 P2P。

名称

值

pciPassthru.use64bitMMIO

TRUE

单击确定关闭高级配置窗口，然后单击确定完成虚拟机配置。

重要提示

NVIDIA AI Enterprise 支持 Ubuntu 20.04 和 Red Hat Enterprise Linux 8.4，版本新增：1.1。您可以在下面找到两个安装指南。

安装 Ubuntu Server LTS#

NVIDIA AI Enterprise 在 Ubuntu LTS 操作系统上受支持。需要注意的是，Ubuntu ISO 类型有两种：桌面版和 Live Server 版。桌面版包含图形用户界面 (GUI)，而 Live Server 版仅通过命令行操作。本文档使用 Ubuntu 的 Live Server 20.04 版（amd64 架构），但值得注意的是，如果需要，稍后可以安装 GUI。

将 ISO 上传到虚拟机的数据存储。在 vSphere Client 中右键单击虚拟机容器，然后选择编辑设置。通过单击浏览将 ISO 挂载到您的虚拟机，并确保选中启动时连接。单击确定完成。
启动虚拟机并等待安装屏幕出现。
选择您的首选语言，然后按 Enter 键。
继续而不更新，因为本指南是围绕 20.04 构建的。
配置键盘布局，然后按 Enter 键。
在此屏幕上，选择您的网络连接类型并对其进行修改以适合您的内部要求。本指南使用 DHCP 进行配置。
如果您有代理地址，请在此屏幕上输入并按完成。
如果您有 Ubuntu 的备用镜像地址，请在此处输入。否则，如果有默认地址，请使用它并按完成。
格式化整个磁盘。然后，选择要安装的磁盘。
查看文件系统摘要，如果满意，请选择完成。在弹出窗口中选择继续。
使用用户帐户、名称和密码配置虚拟机。
选择安装 OpenSSH 服务器，然后选择完成。
选择您的环境中内部使用可能需要的任何服务器 snaps，然后选择完成。等待系统完成安装。
在 Ubuntu 操作系统屏幕上选择立即重启。
重启完成后，返回 vCenter。右键单击虚拟机，选择电源，然后单击关闭电源。
在导航器窗口中单击虚拟机。右键单击虚拟机，然后选择编辑设置。取消选中 CD/DVD 驱动器 1 上的连接复选框。

安装 Red Hat Enterprise Linux#

在 1.1 版本中添加。

NVIDIA AI Enterprise 在 Red Hat Enterprise Linux 操作系统上受支持。

在开始安装之前，您需要禁用虚拟机上的安全启动。右键单击虚拟机，然后选择编辑设置…。
接下来，在窗口顶部选择 VM 选项。找到启动选项，确保安全启动未选中，然后单击确定。

重要提示

确保您已添加列出的先决条件以及创建虚拟机的步骤 18 中列出的 PCI 配置参数
将 ISO 上传到虚拟机的数据存储。在 vSphere Client 中右键单击虚拟机容器，然后选择编辑设置。通过单击浏览将 ISO 挂载到您的虚拟机，并确保选中启动时连接。单击确定完成。
启动虚拟机并等待安装屏幕出现。
选择您的首选语言，然后单击继续。
接下来，在本地化列下选择时间和日期。根据需要设置时间和日期，然后单击完成。
接下来，在软件列下选择软件程序包。选择服务器，然后单击完成。
接下来，在系统菜单下选择安装目标位置。选择 VMware 虚拟磁盘，然后单击完成。
接下来，在系统列下选择网络和主机名。如果您的系统已连接到网络，则它将尝试从 DHCP 服务器获取 IP，否则可以手动配置。完成后单击完成。
在用户设置列下选择 Root 密码。创建密码，然后单击完成。
单击开始安装以开始安装。
安装将开始，如下所示。
安装完成后，通过单击重启系统来重启虚拟机。
重启完成后，返回 vCenter。右键单击虚拟机，选择电源，然后单击关闭电源。
在导航器窗口中单击虚拟机。右键单击虚拟机，然后选择编辑设置。取消选中 CD/DVD 驱动器 1 上的连接复选框。

启用 NVIDIA vGPU#

使用以下步骤为您的虚拟机启用 vGPU 支持。您必须编辑虚拟机设置。

关闭虚拟机电源。
在导航器窗口中单击虚拟机。右键单击虚拟机，然后选择编辑设置。
单击新设备栏，然后选择 PCI 设备。
在新 PCI 设备下拉菜单下方选择所需的 GPU 配置文件。

注意

NVIDIA AI Enterprise 需要 C 系列配置文件。
单击确定，然后启动虚拟机电源。

注意

单个虚拟机可以连接多个 GPU（PCI 设备），但这要求每个 GPU 都配置最大的内存分配。

在虚拟机中安装 NVIDIA 驱动程序#

现在您已创建 Linux 虚拟机，我们将启动虚拟机，并在虚拟机中安装 NVIDIA AI Enterprise Guest 驱动程序，以完全启用 GPU 操作。

重要提示

对于具有 vGPU 的虚拟机，请继续阅读以下部分，了解 vGPU 客户机驱动程序安装步骤。如果您使用的是具有 GPU 直通的虚拟机：可以使用 vGPU 驱动程序或数据中心驱动程序。有关安装数据中心驱动程序驱动程序的说明，请参见此处。

重要提示

在继续 NVIDIA 驱动程序安装之前，请确认 Nouveau 已禁用。有关确认此操作的说明，Ubuntu 的说明与 Ubuntu 和 RHEL 的说明不同。

使用 NGC 下载 NVIDIA AI Enterprise 软件驱动程序#

重要提示

在开始之前，您需要生成或使用现有的 API 密钥。

从浏览器中，转到 https://ngc.nvidia.com/signin/email，然后输入您的电子邮件和密码。
在右上角，单击您的用户帐户图标，然后选择设置。
单击获取 API 密钥以打开设置 > API 密钥页面。

注意

API 密钥是用于验证您对 NGC 容器注册表的访问权限的机制。
单击生成 API 密钥以生成您的 API 密钥。

注意

将显示一条警告消息，告知您，如果您创建新密钥，则旧的 API 密钥将失效。
单击确认以生成密钥。
您的 API 密钥将显示。

重要提示

您只需生成一次 API 密钥。NGC 不会保存您的密钥，因此请将其存储在安全位置。（您可以通过单击 API 密钥右侧的复制图标将 API 密钥复制到剪贴板。）如果您丢失了 API 密钥，您可以从 NGC 网站生成一个新的密钥。当您生成新的 API 密钥时，旧的密钥将失效。
现在，您将使用此页面左侧窗格上的虚拟机控制台链接登录到虚拟机。

运行以下命令以在 CLI 安装页面上为 AMD64 或 ARM64 安装 NGC CLI。

您必须配置 NGC CLI 才能使用，以便您可以运行命令。输入以下命令，并在出现提示时输入您的 API 密钥。

ngc config set

Enter API key [no-apikey]. Choices: [<VALID_APIKEY>, 'no-apikey']:

Enter CLI output format type [ascii]. Choices: [ascii, csv, json]: ascii

Enter org [no-org]. Choices: ['no-org']:

Enter team [no-team]. Choices: ['no-team']:

Enter ace [no-ace]. Choices: ['no-ace']:

Successfully saved NGC configuration to /home/$username/.ngc/config

提示

有关配置 NGC CLI 的更多信息，请参见 NGC CLI 入门

重要提示

根据先前步骤中安装的操作系统，按照驱动程序安装步骤进行操作。

使用 .run 文件在 Ubuntu 上安装 NVIDIA 驱动程序
使用 .run 文件在 RHEL 上安装 NVIDIA 驱动程序

使用 .run 文件在 Ubuntu 上安装 NVIDIA 驱动程序#

安装适用于 Linux 的 NVIDIA AI Enterprise 软件驱动程序需要

编译器工具链
内核标头

登录到虚拟机并检查更新。
sudo apt-get update
在终端中安装 gcc 编译器和 make 工具。
sudo apt-get install build-essential
要查找最新的 NVIDIA AI Enterprise vGPU 软件驱动程序，请在登录到 NGC Catalog 后，导航到 NGC 资源。
在左侧窗格中，选择 NVIDIA AI Enterprise Essentials，然后找到 NVIDIA vGPU Guest Driver Resource。
选择文件浏览器，然后选择最新版本（或所需版本）。

重要提示

在本指南中，我们将使用 vGPU 版本 5.2。以下命令在您的环境中可能会因版本控制而有所不同。
选择下载，然后选择 CLI 以将 NGC CLI 下载命令复制到剪贴板。

将此命令粘贴到您的终端中。它应类似于

ngc registry resource download-version "nvidia/vgpu/vgpu-guest-driver-5:5.2"

导航到包含 NVIDIA 驱动程序 .run 文件的目录。然后，使用 chmod 命令将可执行权限添加到 NVIDIA 驱动程序文件。
1cd vgpu-guest-driver-5_v5.2/ 2sudo chmod +x NVIDIA-Linux-x86_64-550.127.05-grid.run
从控制台 shell 中，以 root 用户身份运行驱动程序安装程序，并接受默认值。
sudo sh ./NVIDIA-Linux-x86_64-550.127.05-grid.run
重启系统。
sudo reboot
系统重启后，确认您可以从 nvidia-smi 的输出中看到您的 NVIDIA vGPU 设备。
nvidia-smi

安装 NVIDIA vGPU 计算驱动程序后，您可以为您正在使用的任何 NVIDIA AI Enterprise Software 许可产品进行许可。

使用 .run 文件在 RHEL 上安装 NVIDIA 驱动程序#

重要提示

在开始驱动程序安装之前，需要禁用安全启动，如安装 Red Hat Enterprise Linux 8.4中所示

使用以下命令，通过 subscription-manager 将计算机注册到 RHEL。
subscription-manager register
满足动态内核模块系统 (DKMS) 的 EPEL 外部依赖项。
dnf install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm dnf install dkms
注意

有关更多信息，请参阅 EPEL 入门文档。
对于 RHEL 8，请确保系统具有来自 Red Hat 存储库的正确 Linux 内核源。
dnf install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)
注意

NVIDIA 驱动程序要求在驱动程序安装时以及每次重建驱动程序时，都必须安装正在运行的内核版本的内核标头和开发包。例如，如果您的系统正在运行内核版本 4.4.0，则还必须安装 4.4.0 内核标头和开发包。

安装 NVIDIA 驱动程序的其他依赖项。

dnf install elfutils-libelf-devel.x86_64
dnf install -y tar bzip2 make automake gcc gcc-c++ pciutils libglvnd-devel

更新正在运行的内核

dnf install -y kernel kernel-core kernel-modules

更新后，确认系统具有来自 Red Hat 存储库的正确 Linux 内核源。
dnf install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)

下载 NVIDIA AI Enterprise 软件驱动程序。

ngc registry resource download-version "nvidia/vgpu/vgpu-guest-driver-5:5.2"

导航到包含 NVIDIA 驱动程序 .run 文件的目录。然后，使用 chmod 命令将可执行权限添加到 NVIDIA 驱动程序文件。
1sudo chmod +x NVIDIA-Linux-x86_64-550.127.05-grid.run
从控制台 shell 中，运行驱动程序安装程序并接受默认值。
sudo sh ./NVIDIA-Linux-x86_64-550.127.05-grid.run
注意

接受任何警告并忽略 CC 版本检查
重启系统。
sudo reboot
系统重启后，确认您可以从 nvidia-smi 的输出中看到您的 NVIDIA vGPU 设备。
nvidia-smi

安装 NVIDIA vGPU 计算驱动程序后，您可以为您正在使用的任何 NVIDIA AI Enterprise Software 许可产品进行许可。

虚拟机许可#

要使用 NVIDIA vGPU 软件许可产品，分配了物理或虚拟 GPU 的每个客户端系统都必须能够从 NVIDIA 许可系统获取许可证。客户端系统可以是配置了 NVIDIA vGPU 的虚拟机、配置为 GPU 直通的虚拟机，也可以是在裸机部署中分配了物理 GPU 的物理主机。

虚拟机配置
CPU	单插槽上的 16 个 vCPU
RAM	64 GB
存储	150 GB 精简配置磁盘

GPU	所需的 MMIO 空间
NVIDIA A10	64
NVIDIA A30	64
NVIDIA A40	128
NVIDIA A100 40GB（所有变体）	128
NVIDIA A100 80GB（所有变体）	256
NVIDIA RTX A5000	64
NVIDIA RTX A5500	64
NVIDIA RTX A6000	128
Tesla P100（所有变体）	64