cuSOLVERMp:用于分布式稠密线性代数的高性能 CUDA 库#
NVIDIA cuSOLVERMp 是一个高性能、分布式内存、GPU 加速的库,提供用于求解稠密线性系统和特征值问题的工具。
cuSOLVERMp 兼容 2D 块循环数据布局,并提供类似 ScaLAPACK 的 C API。
一个配套库 CAL 包含用于管理通信器和以安全方式同步进程的实用程序。
下载: cuSOLVERMp 库可通过 NVIDIA 开发者专区 和 NVIDIA HPC SDK 获取
主要特性#
多进程,多 GPU。
每个 GPU 一个进程。
类似 ScaLAPACK 的 C 功能和接口,以方便移植。
可配置的通信后端(UCC、NCCL、UCX 等)
日志记录和跟踪。
Tensor Core 加速。