通用集群信息
这是一个单节点实例 k8s 集群,配备 A100 或 H100 GPU,并已拆分为三个多实例 GPU (MIG)。
使用以下命令查看当前的 GPU 信息。GPU 应该是 NVIDIA A100 或 H100 80GB,已转换为 3 个多实例 GPU (MIG) 实例。
kubectl run nvidia-smi --rm -t -i --restart=Never --image=nvidia/cuda:12.0.0-base-ubuntu20.04 nvidia-smi
输出应类似于以下内容。
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.47.03 Driver Version: 510.47.03 CUDA Version: 11.6 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA A100 80G... On | 00000000:CA:00.0 Off | On |
| N/A 42C P0 81W / 300W | N/A | N/A Default |
| | | Enabled |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| MIG devices: |
+------------------+----------------------+-----------+-----------------------+
| GPU GI CI MIG | Memory-Usage | Vol| Shared |
| ID ID Dev | BAR1-Usage | SM Unc| CE ENC DEC OFA JPG|
| | | ECC| |
|==================+======================+===========+=======================|
| 0 3 0 0 | 6MiB / 19968MiB | 28 0 | 2 0 1 0 0 |
| | 0MiB / 32767MiB | | |
+------------------+----------------------+-----------+-----------------------+
| 0 4 0 1 | 6MiB / 19968MiB | 28 0 | 2 0 1 0 0 |
| | 0MiB / 32767MiB | | |
+------------------+----------------------+-----------+-----------------------+
| 0 5 0 2 | 6MiB / 19968MiB | 28 0 | 2 0 1 0 0 |
| | 0MiB / 32767MiB | | |
+------------------+----------------------+-----------+-----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
基准测试使用交互式 Jupyter notebook 应用程序,这些应用程序将在 Kubernetes 中部署的 LaunchPad 集群上运行。您可以通过单击左侧菜单中的 System Console 链接访问集群。连接后,您可以根据每个基准测试指南连接到 sparkrunner pod 并运行基准测试。我们还部署了一些服务,例如 spark history server/spark/jupyter,您可以通过单击 Desktop 选项卡来访问它们,以监控应用程序状态,轻松查看事件日志。您也可以在桌面终端中 ssh 连接到集群。