cuBLASMp:用于分布式稠密线性代数的高性能 CUDA 库#
NVIDIA cuBLASMp 是一个用于分布式基本稠密线性代数的高性能、多进程、GPU 加速库。
cuBLASMp 兼容 2D 块循环数据布局,并提供类似 PBLAS 的 C API。
配套库 CAL 包含用于管理通信器和以安全方式同步进程的实用程序。
下载: cuBLASMp 库可通过 NVIDIA 开发者专区 和 NVIDIA HPC SDK 以抢先体验版形式获取。
主要特性#
多进程,多 GPU。
每个 GPU 一个进程。
类似 PBLAS 的 C 功能和接口,方便移植。
可配置的通信后端(UCC、NCCL、UCX、NVSHMEM 等)。
日志记录和跟踪。
Tensor-core 加速。