安装和配置 NVIDIA AI Enterprise 主机软件#

本节介绍如何安装和配置 NVIDIA AI Enterprise 主机软件

  • 准备用于安装的 VIB 文件

  • 在 vSphere Client 中上传 VIB

  • 使用 VIB 安装 NVIDIA AI Enterprise 主机软件

  • 更新 VIB

  • 验证 VIB 的安装

  • 卸载 VIB

  • 在 VMware vSphere 中更改默认图形类型

准备用于安装的 VIB 文件#

在开始之前,请下载包含 VIB 文件的存档,并将存档内容解压到文件夹中。以 .VIB 结尾的文件是您必须上传到主机数据存储以进行安装的文件。为了演示目的,这些步骤使用 VMware vSphere Web 界面将 VIB 上传到服务器主机。

在 vSphere Web Client 中上传 VIB#

要使用 vSphere Web Client 将 VIB 文件上传到数据存储

  1. 选择主机服务器,然后选择“数据存储”选项卡。

  2. 右键单击数据存储,然后选择“浏览文件”。“数据存储浏览器”窗口将显示。

    _images/dg-vgpu-01.png
  3. 单击“新建文件夹”图标。“创建新文件夹”窗口将显示。

  4. 将新文件夹命名为 VIB,然后单击“确定”。

    _images/dg-vgpu-02.png
  5. 在“数据存储浏览器”窗口中选择“VIB”文件夹。

  6. 单击“上传文件”按钮,然后导航到 VIB 文件。双击该文件进行上传。进度条应显示在下方。如果操作失败,请按“详细信息”,然后按照说明手动绕过证书。

    _images/dg-vgpu-03.png

.VIB 文件已上传到主机上的数据存储。

注意

如果您在计时器结束前未单击“允许”,则后续上传文件的尝试将静默失败。如果发生这种情况,请退出并重新启动 vSphere Web Client。重复此步骤,并确保在计时器结束前单击“允许”。

安装 VIB#

NVIDIA AI Enterprise 主机软件在 ESXi 主机上运行。它以以下格式提供

  • 作为 VIB 文件,必须将其复制到 ESXi 主机,然后进行安装

  • 作为脱机捆绑包,您可以按照手动导入补丁中的说明手动导入

注意

要安装 NVIDIA AI Enterprise 主机软件 (VIB),您需要通过 ESXi Shell 或 SSH 访问 ESXi 主机。请参阅 VMware 的文档,了解如何启用对 ESXi Shell 或 SSH 的访问

注意

在继续安装 NVIDIA AI Enterprise 主机软件之前,请确保所有虚拟机都已关闭,并且 ESXi 主机已置于维护模式。请参阅 VMware 的文档,了解如何将 ESXi 主机置于维护模式

  1. 通过右键单击主机,然后选择“维护模式 - 进入维护模式”,将主机置于维护模式。

    _images/dg-vgpu-04.png

    注意

    或者,您可以使用命令提示符通过输入以下命令将主机置于维护模式

    esxcli system maintenanceMode set --enable=true
    

    此命令不会返回响应。使用命令提示符进行此更改不会刷新 vSphere Web Client UI。单击 vSphere Web Client 窗口右上角的“刷新”图标。

    重要提示

    将主机置于维护模式会禁用在此主机上运行的任何 vCenter 设备,直到您退出维护模式并重新启动该 vCenter 设备。

  2. 单击“确定”以确认您的选择。

  3. 使用 esxcli 命令安装 NVIDIA AI Enterprise 主机软件包

    1[root@esxi:~] esxcli software vib install -v directory/NVIDIA-AIE_ESXi_6.7.0_Driver_470.105-1OEM.670.0.0.8169922.vib
    2Installation Result    Message: Operation finished successfully.
    3Reboot Required: false
    4VIBs Installed: NVIDIA-AIE_ESXi_6.7.0_Driver_470.105-1OEM.670.0.0.8169922
    5VIBs Removed:
    6VIBs Skipped:
    

    目录是包含 VIB 文件的目录的绝对路径。即使 VIB 文件位于当前工作目录中,也必须指定绝对路径。不要在绝对文件路径中包含 ds:/// 术语。而是以 /vmfs/volumes/... 等开始文件路径。

  4. 从 vSphere Web Client 中,通过右键单击主机并选择“退出维护模式”来退出维护模式。

    注意

    虽然显示状态为“需要重启: ”,但重启对于加载 VIB 和启动 xorg 是必要的。

    注意

    或者,您可以通过命令提示符输入以下命令退出维护模式

    esxcli system maintenanceMode set --enable=false
    

    此命令不会返回响应。通过命令提示符进行此更改不会刷新 vSphere Web Client UI。单击 vSphere Web Client 窗口右上角的“刷新”图标。

  5. 从 vSphere Web Client 中,通过右键单击主机,然后选择“重启”来重启主机。

    注意

    您可以通过在命令提示符下输入以下命令来重启主机

    reboot
    

    此命令不会返回响应。“重启主机”窗口将显示。

  6. 从 vSphere Web Client 重启时,在“记录此重启操作的原因”字段中输入重启的描述性原因,然后单击“确定”继续。

更新 VIB#

如果您想在已安装现有版本的系统上安装新版本的 NVIDIA AI Enterprise 主机软件,请更新 NVIDIA AI Enterprise 主机软件包。

  • 要更新 NVIDIA AI Enterprise 主机软件 (VIB),您需要通过 ESXi Shell 或 SSH 访问 ESXi 主机。请参阅 VMware 的文档,了解如何为 ESXi 主机启用 ESXi Shell 或 SSH。

  • 本文档中看到的驱动程序版本仅用于演示目的。您的本地环境中会存在相似之处,但也可能存在细微差异。

    注意

    在继续更新 NVIDIA AI Enterprise 主机软件之前,请确保所有虚拟机都已关闭,并且 ESXi 主机已置于维护模式。请参阅 VMware 的文档,了解如何将 ESXi 主机置于维护模式。

  1. 使用 esxcli 命令更新 NVIDIA AI Enterprise 主机软件包

    1[root@esxi:~] esxcli software vib update -v directory/NVIDIA-AIE_ESXi_6.7.0_Driver_470.105-1OEM.670.0.0.8169922.vib
    2Installation Result    Message: Operation finished successfully.
    3Reboot Required: false
    4VIBs Installed: NVIDIA-AIE_ESXi_6.7.0_Driver_470.105-1OEM.670.0.0.8169922
    5VIBs Removed: NVIDIA-vGPU-
    6VMware_ESXi_6.0_Host_Driver_390.57-1OEM.600.0.0.2159203
    7VIBs Skipped:
    
  2. 重启 ESXi 主机并将其从维护模式中移除。

验证 VIB 的安装#

ESXi 主机重启后,验证 NVIDIA vGPU 软件包的安装。您还可以通过以下步骤查看驱动程序的版本。

  1. 通过检查内核加载模块列表中是否有 NVIDIA 内核驱动程序,验证 NVIDIA vGPU 软件包是否已正确安装和加载。

    1[root@esxi:~] vmkload_mod -l | grep nvidia
    2nvidia                   5    8420
    
  2. 如果输出中未列出 NVIDIA 驱动程序,请检查 dmesg 以查看驱动程序报告的任何加载时错误。

  3. 通过运行 nvidia-smi 命令,验证 NVIDIA 内核驱动程序是否可以与系统中的 NVIDIA 物理 GPU 成功通信。

    运行 nvidia-smi 命令应生成平台中 GPU 的列表。

     1[root@esxi:~] nvidia-smi
     2Wen January 19 10:10:15 2022
     3+-----------------------------------------------------------------------------+
     4| NVIDIA-SMI 470.105   Driver Version: 470.105   CUDA Version: N/A            |
     5|-------------------------------+----------------------+----------------------+
     6| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
     7| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
     8|                               |                      |               MIG M. |
     9|===============================+======================+======================|
    10|   0  Tesla T4            On   | 00000000:1A:00.0 Off |                    0 |
    11| N/A   38C    P8    17W /  70W |     83MiB / 15359MiB |      0%      Default |
    12|                               |                      |                  N/A |
    13+-------------------------------+----------------------+----------------------+
    14|   1  Tesla T4            On   | 00000000:3B:00.0 Off |                    0 |
    15| N/A   37C    P8    16W /  70W |     75MiB / 15359MiB |      0%      Default |
    16|                               |                      |                  N/A |
    17+-------------------------------+----------------------+----------------------+
    18|   2  Tesla T4            On   | 00000000:87:00.0 Off |                    0 |
    19| N/A   34C    P8    16W /  70W |     75MiB / 15359MiB |      0%      Default |
    20|                               |                      |                  N/A |
    21+-------------------------------+----------------------+----------------------+
    22|   3  Tesla T4            On   | 00000000:AF:00.0 Off |                    0 |
    23| N/A   38C    P8    16W /  70W |     75MiB / 15359MiB |      0%      Default |
    24|                               |                      |                  N/A |
    25+-------------------------------+----------------------+----------------------+
    26|   4  Tesla T4            On   | 00000000:D8:00.0 Off |                    0 |
    27| N/A   36C    P8    16W /  70W |     75MiB / 15359MiB |      0%      Default |
    28|                               |                      |                  N/A |
    29+-------------------------------+----------------------+----------------------+
    30
    31+-----------------------------------------------------------------------------+
    32| Processes:                                                                  |
    33|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
    34|        ID   ID                                                   Usage      |
    35|=============================================================================|
    36|  No running processes found                                                 |
    37+-----------------------------------------------------------------------------+
    

如果 nvidia-smi 未能报告系统中所有 NVIDIA GPU 的预期输出,请参阅《NVIDIA AI Enterprise 用户指南》以获取故障排除步骤。

NVIDIA 系统管理界面 nvidia-smi 还允许使用以下命令进行 GPU 监控

nvidia-smi -l

此命令开关添加一个循环,自动刷新显示。默认刷新间隔为 1 秒。

卸载 VIB#

要卸载 NVIDIA AI Enterprise 主机软件

  1. 运行 esxcli 以确定 vGPU 驱动程序捆绑包的名称。

    1   esxcli software vib list | grep -i nvidia
    2   NVIDIA-AIE_ESXi_7.0.2_Driver_470.63-1OEM.702.0.0.17630552
    3   NVIDIA  VMwareAccepted    2022-01-019
    
  2. 运行以下命令卸载驱动程序包

    esxcli software vib remove -n NVIDIA-AIE_ESXi_7.0.2_Driver_470.63-1OEM.702.0.0.17630552 - maintenance-mode
    

如果卸载过程成功,将显示以下消息

1Removal Result
2    Message: Operation finished successfully.
3    Reboot Required: false
4    VIBs Installed:
5    VIBs Removed: NVIDIA-AIE_ESXi_7.0.2_Driver_470.63-1OEM.702.0.0.17630552
6    VIBs Skipped:

重启主机以完成 NVIDIA AI Enterprise 主机软件的卸载。

在 VMware vSphere 中更改默认图形类型#

用于 VMware vSphere 的 NVIDIA AI Enterprise 主机软件 (VIB) 在单个 VIB 中提供虚拟共享图形加速 (vSGA) 和 vGPU 功能。安装此 VIB 后,默认图形类型为“共享”,它提供 vSGA 功能。要在 VMware vSphere 中为虚拟机启用 vGPU 支持,您必须将默认图形类型更改为“共享直通”。如果您不修改默认图形类型,则分配了 vGPU 的虚拟机将无法启动,并显示以下错误消息

父资源池中可用的图形资源量不足以执行此操作。

在配置 vGPU 之前,请更改默认图形类型。对于运行 vGPU 的虚拟机,VMware vSphere Web Client 中虚拟机控制台的输出不可用。在更改默认图形类型之前,请确保 ESXi 主机正在运行,并且主机上的所有虚拟机都已关闭。

  1. 使用 vSphere Web Client 登录到 vCenter Server。

  2. 在导航树中,选择您的 ESXi 主机,然后单击“配置”选项卡。

  3. 从菜单中,选择“图形”,然后单击“主机图形”选项卡。

  4. 在“主机图形”选项卡上,单击“编辑”。

    _images/dg-vgpu-05.png
  5. 在打开的“编辑主机图形设置”对话框中,选择“共享直通”,然后单击“确定”。

    _images/dg-vgpu-06.png

    注意

    此对话框还允许您更改启用 vGPU 的虚拟机的分配方案。有关详细信息,请参阅“在 VMware vSphere 上修改 GPU 分配策略”

  6. 单击“确定”后,默认图形类型将更改为“共享直通”。

  7. 您可以重启 ESXi 主机,或者停止并重启 ESXi 主机上的 Xorg 服务和 nv-hostengine。要停止并重启 Xorg 服务和 nv-hostengine,请执行以下步骤

    • 停止 Xorg 服务。

      [root@esxi:~] /etc/init.d/xorg stop
      
    • 停止 nv-hostengine

      [root@esxi:~] nv-hostengine -t
      
    • 等待 1 秒钟以允许 nv-hostengine 停止。

    • 启动 nv-hostengine

      [root@esxi:~] nv-hostengine -d
      
    • 启动 Xorg 服务。

      [root@esxi:~] /etc/init.d/xorg start
      

更改默认图形类型后,根据需要在“配置带有虚拟 GPU 的 vSphere 虚拟机”中配置 vGPU。

另请参阅 VMware vSphere 文档中的以下主题