cuBLASMp:用于分布式稠密线性代数的高性能 CUDA 库#

NVIDIA cuBLASMp 是一个用于分布式基本稠密线性代数的高性能、多进程、GPU 加速库。

cuBLASMp 兼容 2D 块循环数据布局,并提供类似 PBLAS 的 C API。

配套库 CAL 包含用于管理通信器和以安全方式同步进程的实用程序。

下载: cuBLASMp 库可通过 NVIDIA 开发者专区NVIDIA HPC SDK 以抢先体验版形式获取。

主要特性#

  • 多进程,多 GPU。

  • 每个 GPU 一个进程。

  • 类似 PBLAS 的 C 功能和接口,方便移植。

  • 可配置的通信后端(UCC、NCCL、UCX、NVSHMEM 等)。

  • 日志记录和跟踪。

  • Tensor-core 加速。

索引#