多实例 GPU#
多实例 GPU (MIG) 是 NVIDIA A100 GPU 的一项新功能。MIG 使用空间分区将 A100 GPU 的物理资源划分为最多七个独立的 GPU 实例。这些实例同时运行,每个实例都有自己的内存、缓存和计算流式多处理器。与未启用 MIG 的 GPU 相比,MIG 使 A100 GPU 能够以高达 7 倍的利用率提供有保证的服务质量。
MIG 实现了以下功能
并行 GPU 工作负载之间的 GPU 内存隔离。
并行 GPU 工作负载使用的资源的物理分配。
管理 MIG 实例通过使用 NVIDIA 管理库 (NVML) API 或其命令行实用程序 (nvidia-smi) 完成。启用 MIG 需要 GPU 重置,因此在启用 MIG 之前,应终止一些管理 GPU 的系统服务。
要在系统中的所有八个 GPU 上启用 MIG,请执行以下操作。
停止 NVSM 和 DCGM 服务。
$ sudo systemctl stop nvsm dcgm
在所有八个 GPU 上启用 MIG。
$ sudo nvidia-smi -mig 1
如果其他服务正在运行,阻止您重置 GPU,请重新启动系统并跳过下一步。
重新启动 DCGM 和 NVSM 服务。
$ sudo systemctl start dcgm nvsm
要使用 MIG,请参阅 MIG 用户指南,其中提供了关于关键 MIG 概念和部署注意事项的更详细信息,并解释了如何创建 MIG 实例以及如何使用 MIG 运行 Docker 容器。