在 DGX Station A100 中启用 MIG 模式#
以下是关于如何启用多实例 GPU (MIG) 模式的一些信息。
默认情况下,DGX Station A100 上未启用 MIG 模式。
例如,当您运行
nvidia-smi时,输出显示 MIG 模式已禁用$ nvidia-smi -i 0 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 450.80.02 Driver Version: 450.80.02 CUDA Version: 11.0 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 A100-SXM4-40GB Off | 00000000:36:00.0 Off | 0 | | N/A 29C P0 62W / 400W | 0MiB / 40537MiB | 6% Default | | | | Disabled | +-------------------------------+----------------------+----------------------+
要为每个 GPU 启用 MIG 模式,请运行
nvidia-smi -i <GPU IDs> -mig 1命令。通过使用逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 来选择 GPU。
以下是一些需要记住的信息
如果您未指定 GPU ID,则 MIG 模式将应用于系统上的所有 GPU。
$ sudo nvidia-smi -i 0 -mig 1 Enabled MIG Mode for GPU 00000000:36:00.0 All done. $ nvidia-smi -i 0 --query-gpu=pci.bus_id,mig.mode.current --format=csv pci.bus_id, mig.mode.current 00000000:36:00.0, Enabled
如果您在具有 GPU 直通的 VM 中使用 MIG,您可能需要重启 VM 以允许 GPU 进入 MIG 模式。
有时,出于安全原因,不允许通过虚拟机监控程序重置 GPU。以下是一个示例
$ sudo nvidia-smi -i 0 -mig 1 Warning: MIG mode is in pending enable state for GPU 00000000:00:03.0:Not Supported Reboot the system or try nvidia-smi --gpu-reset to make MIG mode effective on GPU 00000000:00:03.0 All done. $ sudo nvidia-smi -i 0 -mig 1 $ sudo nvidia-smi --gpu-reset Resetting GPU 00000000:00:03.0 is not supported.
如果您的系统上有代理程序,例如使用 GPU 的监控代理程序,您可能无法启动 GPU 重置。
例如,在 DGX 系统上,您可能会遇到以下消息
$ sudo nvidia-smi -i 0 -mig 1 Warning: MIG mode is in pending enable state for GPU 00000000:07:00.0:In use by another client 00000000:07:00.0 is currently being used by one or more other processes (e.g. CUDA application or a monitoring application such as another instance of nvidia-smi). Please first kill all processes using the device and retry the command or reboot the system to make MIG mode effective. All done.
停止
nvsm、dcgm和gdm3服务,在所需的 GPU 上启用 MIG 模式,并恢复监控服务$ sudo systemctl stop nvsm $ sudo systemctl stop dcgm $ sudo systemctl stop gdm3 $ sudo nvidia-smi -i 0 -mig 1 Enabled MIG Mode for GPU 00000000:07:00.0 All done.
这些示例使用超级用户权限。当您授予对
mig/config功能的读取权限时,在 Station A100 配置为 MIG 模式后,非 root 用户也可以管理实例。有关更多信息,请参阅 Device Notes。以下是
mig/config文件上的默认文件权限$ ls -l /proc/driver/nvidia/capabilities/* /proc/driver/nvidia/capabilities/mig: total 0 -r-------- 1 root root 0 May 24 16:10 config -r--r--r-- 1 root root 0 May 24 16:10 monitor
为了确保 MIG 实例在您的容器中可用,请重启 nv-docker-gpus 和 docker
$ sudo systemctl restart nv-docker-gpus
$ sudo systemctl restart docker