多实例 GPU#

多实例 GPU (MIG) 是 NVIDIA A100 GPU 的一项新功能。MIG 使用空间分区将 A100 GPU 的物理资源划分为最多七个独立的 GPU 实例。这些实例同时运行,每个实例都有自己的内存、缓存和计算流式多处理器。与未启用 MIG 的 GPU 相比,MIG 使 A100 GPU 能够以高达 7 倍的利用率提供有保证的服务质量。

MIG 实现了以下功能

  • 并行 GPU 工作负载之间的 GPU 内存隔离。

  • 并行 GPU 工作负载使用的资源的物理分配。

管理 MIG 实例通过使用 NVIDIA 管理库 (NVML) API 或其命令行实用程序 (nvidia-smi) 完成。启用 MIG 需要 GPU 重置,因此在启用 MIG 之前,应终止一些管理 GPU 的系统服务。

要在系统中的所有八个 GPU 上启用 MIG,请执行以下操作。

  1. 停止 NVSM 和 DCGM 服务。

    $ sudo systemctl stop nvsm dcgm
    
  2. 在所有八个 GPU 上启用 MIG。

    $ sudo nvidia-smi -mig 1
    

    如果其他服务正在运行,阻止您重置 GPU,请重新启动系统并跳过下一步。

  3. 重新启动 DCGM 和 NVSM 服务。

    $ sudo systemctl start dcgm nvsm
    

    要使用 MIG,请参阅 MIG 用户指南,其中提供了关于关键 MIG 概念和部署注意事项的更详细信息,并解释了如何创建 MIG 实例以及如何使用 MIG 运行 Docker 容器。