在 DGX Station A100 中启用 MIG 模式#
以下是关于如何启用多实例 GPU (MIG) 模式的一些信息。
默认情况下,DGX Station A100 上未启用 MIG 模式。
例如,当您运行
nvidia-smi
时,输出显示 MIG 模式已禁用$ nvidia-smi -i 0 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 450.80.02 Driver Version: 450.80.02 CUDA Version: 11.0 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 A100-SXM4-40GB Off | 00000000:36:00.0 Off | 0 | | N/A 29C P0 62W / 400W | 0MiB / 40537MiB | 6% Default | | | | Disabled | +-------------------------------+----------------------+----------------------+
要为每个 GPU 启用 MIG 模式,请运行
nvidia-smi -i <GPU IDs> -mig 1
命令。通过使用逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 来选择 GPU。
以下是一些需要记住的信息
如果您未指定 GPU ID,则 MIG 模式将应用于系统上的所有 GPU。
$ sudo nvidia-smi -i 0 -mig 1 Enabled MIG Mode for GPU 00000000:36:00.0 All done. $ nvidia-smi -i 0 --query-gpu=pci.bus_id,mig.mode.current --format=csv pci.bus_id, mig.mode.current 00000000:36:00.0, Enabled
如果您在具有 GPU 直通的 VM 中使用 MIG,您可能需要重启 VM 以允许 GPU 进入 MIG 模式。
有时,出于安全原因,不允许通过虚拟机监控程序重置 GPU。以下是一个示例
$ sudo nvidia-smi -i 0 -mig 1 Warning: MIG mode is in pending enable state for GPU 00000000:00:03.0:Not Supported Reboot the system or try nvidia-smi --gpu-reset to make MIG mode effective on GPU 00000000:00:03.0 All done. $ sudo nvidia-smi -i 0 -mig 1 $ sudo nvidia-smi --gpu-reset Resetting GPU 00000000:00:03.0 is not supported.
如果您的系统上有代理程序,例如使用 GPU 的监控代理程序,您可能无法启动 GPU 重置。
例如,在 DGX 系统上,您可能会遇到以下消息
$ sudo nvidia-smi -i 0 -mig 1 Warning: MIG mode is in pending enable state for GPU 00000000:07:00.0:In use by another client 00000000:07:00.0 is currently being used by one or more other processes (e.g. CUDA application or a monitoring application such as another instance of nvidia-smi). Please first kill all processes using the device and retry the command or reboot the system to make MIG mode effective. All done.
停止
nvsm
、dcgm
和gdm3
服务,在所需的 GPU 上启用 MIG 模式,并恢复监控服务$ sudo systemctl stop nvsm $ sudo systemctl stop dcgm $ sudo systemctl stop gdm3 $ sudo nvidia-smi -i 0 -mig 1 Enabled MIG Mode for GPU 00000000:07:00.0 All done.
这些示例使用超级用户权限。当您授予对
mig/config
功能的读取权限时,在 Station A100 配置为 MIG 模式后,非 root 用户也可以管理实例。有关更多信息,请参阅 Device Notes。以下是
mig/config
文件上的默认文件权限$ ls -l /proc/driver/nvidia/capabilities/* /proc/driver/nvidia/capabilities/mig: total 0 -r-------- 1 root root 0 May 24 16:10 config -r--r--r-- 1 root root 0 May 24 16:10 monitor
为了确保 MIG 实例在您的容器中可用,请重启 nv-docker-gpus
和 docker
$ sudo systemctl restart nv-docker-gpus
$ sudo systemctl restart docker