无需代码更改加速 Apache Spark

通用集群信息

这是一个单节点实例 k8s 集群,配备 A100 或 H100 GPU,并已拆分为三个多实例 GPU (MIG)。

使用以下命令查看当前的 GPU 信息。GPU 应该是 NVIDIA A100 或 H100 80GB,已转换为 3 个多实例 GPU (MIG) 实例。

复制
已复制!
            

kubectl run nvidia-smi --rm -t -i --restart=Never --image=nvidia/cuda:12.0.0-base-ubuntu20.04 nvidia-smi

输出应类似于以下内容。

复制
已复制!
            

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 510.47.03 Driver Version: 510.47.03 CUDA Version: 11.6 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 NVIDIA A100 80G... On | 00000000:CA:00.0 Off | On | | N/A 42C P0 81W / 300W | N/A | N/A Default | | | | Enabled | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | MIG devices: | +------------------+----------------------+-----------+-----------------------+ | GPU GI CI MIG | Memory-Usage | Vol| Shared | | ID ID Dev | BAR1-Usage | SM Unc| CE ENC DEC OFA JPG| | | | ECC| | |==================+======================+===========+=======================| | 0 3 0 0 | 6MiB / 19968MiB | 28 0 | 2 0 1 0 0 | | | 0MiB / 32767MiB | | | +------------------+----------------------+-----------+-----------------------+ | 0 4 0 1 | 6MiB / 19968MiB | 28 0 | 2 0 1 0 0 | | | 0MiB / 32767MiB | | | +------------------+----------------------+-----------+-----------------------+ | 0 5 0 2 | 6MiB / 19968MiB | 28 0 | 2 0 1 0 0 | | | 0MiB / 32767MiB | | | +------------------+----------------------+-----------+-----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+

基准测试使用交互式 Jupyter notebook 应用程序,这些应用程序将在 Kubernetes 中部署的 LaunchPad 集群上运行。您可以通过单击左侧菜单中的 System Console 链接访问集群。连接后,您可以根据每个基准测试指南连接到 sparkrunner pod 并运行基准测试。我们还部署了一些服务,例如 spark history server/spark/jupyter,您可以通过单击 Desktop 选项卡来访问它们,以监控应用程序状态,轻松查看事件日志。您也可以在桌面终端中 ssh 连接到集群。

© 版权所有 2022-2023, NVIDIA。 上次更新于 2023 年 6 月 23 日。