Azure Stack HCI (ASHCI) 部署指南(最新)

GPU 分区工作流程

注意

免责声明

本指南中关于 GPU 分区的内容来源于 Azure 文档。如需最新和详细信息,请参考官方 Azure 文档。

GPU 分区允许多个虚拟机 (VM) 共享单个物理 GPU。每个 VM 接收 GPU 的专用部分,而不是访问整个设备。此功能利用单根 I/O 虚拟化 (SR-IOV) 接口,确保每个 VM 都有硬件支持的安全边界和可预测的性能。安全分区可防止 VM 之间未经授权的访问,使其成为虚拟桌面基础设施 (VDI)、AI 和 ML 推理等工作负载的理想选择。GPU 分区可以显著降低基础设施的总拥有成本。

在开始使用 GPU 分区功能之前,请务必完成所有先决条件

完成 Azure Stack HCI 集群设置后,就可以开始配置启用 GPU 的虚拟机了。

对于不需要完整 GPU 的工作负载,例如 VDI、AI 和 ML 推理,请使用 GPU 分区。此技术可最大限度地提高硬件利用率并降低总体基础设施成本。

您还可以为内存映射 IO (MMIO) 空间定义高级设置值,以确定单个 GPU 的资源需求。例如

  • VDI 应用程序:分布式边缘客户通常在其 VDI 环境中运行基本生产力应用程序(如 Microsoft Office)和图形密集型可视化工作负载,这些工作负载需要 GPU 加速。为了实现必要的 GPU 加速,您可以使用独立设备分配 (DDA) 或 GPU 分区。GPU 分区允许您在单个物理 GPU 上创建多个分区,并将每个分区分配给托管 VDI 环境的虚拟机 (VM)。这种方法可帮助您实现所需的密度并显著扩展支持的用户数量,从而在为单个用户提供可接受性能的同时,最大限度地提高资源利用率。

  • ML 推理:在零售店和制造工厂中,在边缘运行推理需要 GPU 支持。使用 GPU 分区,您可以在同一 GPU 上但不同的物理分区中并行运行多个 ML 模型。这使您能够在将数据发送到云端以进行进一步分析和 ML 模型再训练之前,获得快速、可操作的结果。与 DDA(将整个物理 GPU 分配给单个 VM)不同,GPU 分区通过允许多个推理应用程序同时运行来优化 GPU 使用率,从而充分利用 GPU 的功能。

GPU 分区提供了一种灵活高效的方式来满足 VDI 和 ML 推理工作负载的苛刻要求,确保您的基础设施既经济高效又可扩展。

确保在集群的每台服务器上安装 GPU 驱动程序。有关更多信息,请参阅 NVIDIA vGPU 文档。按照以下步骤验证 GPU 驱动程序是否已安装并且可以使用 Windows Admin Center 进行分区

  1. 启动 Windows Admin Center 并确保已安装 GPUs 扩展。有关如何在 Windows Admin Center 中安装 GPUs 扩展的说明,请参阅 安装扩展

  2. 从顶部下拉菜单中选择 集群管理器 并连接到您的集群。

  3. 设置 菜单中,选择 扩展 > GPU

    GPU 页面上的 GPU 选项卡显示所有服务器的清单以及每台服务器上安装的物理 GPU。

  4. 检查所有服务器上每个 GPU 的 分配状态 列。“分配状态”列可以具有以下状态之一

    1. 准备好进行 DDA 分配。:表示 GPU 指定用于 DDA 分配,不能用于 GPU 分区。

    2. 已分区。 表示 GPU 可分区。

    3. 半虚拟化。 表示 GPU 已安装分区驱动程序功能,但服务器上的 SR-IOV 未启用。

    4. 不可分配。 表示 GPU 不可分配。

    azure-034.png


  5. 仅当 分配状态 列显示集群中所有服务器上的 GPU 的状态为 已分区 时,才继续执行 GPU 分区工作流程。

  1. 选择 GPU 分区 选项卡以配置分区计数。

  2. 要查看详细信息,请选择 GPU 或 GPU 分区。详细信息将显示在页面底部的 选定项目详细信息 下。当您选择 GPU 时,它会显示 GPU 名称、GPU ID、可用编码器和解码器资源、可用 VRAM、有效分区计数和当前分区计数。当您选择 GPU 分区时,它会显示分区 ID、VM ID、实例路径、分区 VRAM、分区编码和分区解码。

  3. 选择 配置分区计数。“在 GPU 上配置分区计数”页面将显示。对于每台服务器,它都会显示安装在其上的 GPU 设备。

    azure-035.png


  4. 选择一组同构 GPU。默认情况下,Windows Admin Center 会自动选择一组同构 GPU(如果检测到),如下面的屏幕截图所示

    azure-036.png


  5. 选择一组同构 GPU 后,从 分区数 下拉列表中选择分区计数。此列表会自动填充 NVIDIA 配置的分区计数。列表中显示的计数可能因您选择的 GPU 类型而异。

    一旦您选择不同的分区计数,下拉列表下方就会出现一个工具提示,动态显示每个分区获得的 VRAM 大小。

    azure-037.png


  6. 选择 配置分区计数

    配置分区计数后,Windows Admin Center 会通知您分区计数已成功配置,并再次显示 GPU 分区 选项卡。您可以在 分区计数 列下看到 GPU 分区的新分区计数。

在分配分区之前,您必须保存您的工作负载。

  1. GPU 分区 选项卡上,选择 + 分配分区

    azure-038.png


  2. 选择服务器 列表中,选择 VM 所在的服务器。此列表显示集群中的所有服务器。

  3. 搜索并选择要分配 GPU 分区的 VM。该列表会自动填充您在步骤 2 中选择的服务器上的 VM。

    1. 如果 GPU 分区已分配给 VM,则该 VM 将显示为灰色。

    2. 通过选中 全选 复选框一次性选择所有 VM。

  4. 选择可用的 VRAM 选项。此字段中的值必须与您配置的分区计数的大小相匹配。

  5. (可选,但建议)如果您希望 VM 具有高可用性并在其主机服务器发生故障时进行故障转移,请选中 配置强制关机的脱机操作 复选框。

  6. 选择 分配分区。这会将选定 VRAM 大小的分区分配给选定主机服务器上的选定 VM。

您现在应该可以启动启用 vGPU 的 VM 了。

  1. GPU 分区 选项卡上,选择要取消分配的 GPU 分区。

  2. 选择 - 取消分配分区

    azure-039.png


  3. 选择服务器 列表中,选择具有要取消分配的 GPU 分区的服务器。

  4. 选择要从中取消分配分区的虚拟机 列表中,搜索或选择要从中取消分配分区的 VM。

  5. 选择 取消分配分区

注意

注意:如果您的 VM 当前已打开或正在运行,Windows Admin Center 会自动先关闭它,取消分配分区,然后再自动打开它。

您还可以将启用 GPU 的实例与集群 VM 一起使用。集群 VM 可以利用 GPU 加速以及集群功能,例如通过故障转移实现高可用性。当前不支持 VM 的实时迁移,但在发生故障时,VM 可以自动重启并放置在 GPU 资源可用的位置。

准备集群并将 VM 分配给 GPU 资源池

  1. 工具 菜单上的 扩展 下,选择 GPU 以打开该工具。

  2. 在该工具的主页上,选择 GPU 池 选项卡,然后选择 创建 GPU 池

    azure-040.png


  3. 新建 GPU 池 页面上,指定以下内容,然后选择 保存

    1. 服务器 名称

    2. GPU 池 名称

    3. 要添加到池中的 GPU

    该过程完成后,您将收到一个成功提示,其中显示新 GPU 池的名称和主机服务器。

  4. 将 VM 分配给 GPU 池 页面上,指定以下内容,然后选择 分配

    1. 服务器 名称

    2. GPU 池 名称

    3. 您要从 GPU 池分配 GPU 的 虚拟机

    您还可以为内存映射 IO (MMIO) 空间定义高级设置值,以确定单个 GPU 的资源需求。

    azure-041.png


  5. 该过程完成后,您将收到一个确认提示,显示您已成功将 GPU 从 GPU 资源池分配给 VM,该 VM 将显示在 已分配的 VM 下。

从 GPU 资源池取消分配 VM

此步骤用于从集群环境中删除使用启用 GPU 的实例的 VM。如果您不再需要集群 VM 利用 GPU 资源,请按照以下步骤操作

  1. GPU 池 选项卡上,选择要取消分配的 GPU,然后选择 取消分配 VM

  2. 从 GPU 池取消分配 VM 页面上的 虚拟机 列表框中,指定 VM 的名称,然后选择 取消分配

    azure-042.png


  3. 该过程完成后,您将收到一个成功提示,表明 VM 已从 GPU 池中取消分配,并且在 分配状态 下,GPU 显示 可用(未分配)

即将推出的功能

即将推出的操作系统版本将引入对使用 GPU 分区的 VM 的实时迁移支持。此项进步使客户能够平衡其整个机群中的任务关键型工作负载,并在不停机的情况下执行硬件维护和软件升级。

上一页 安装 Azure Stack HCI
下一页 支持和服务
© 版权所有 © 2024, NVIDIA Corporation。 上次更新时间:2024 年 8 月 2 日。