发行说明#
cuSOLVERMp v0.6.0#
新增对 NVIDIA Blackwell GPU 架构的支持。
不再支持 CUDA 11.x。
cuSOLVERMp v0.5.1#
修复了 cusolverMpSyevd() 中的一个错误,当问题适合单个进程时,特征值未广播到所有进程。
已知问题#
传递给 cusolverMpCreate() 的流不能是默认的 (
NULL
或0
) 流 (bug 4337214)。
cuSOLVERMp v0.5.0#
提升了 cusolverMpStedc() 的性能。
引入了一个新选项,通过设置
CUSOLVERMP_FORCE_NCCL=1
环境变量标志来强制使用 NCCL。目前仅适用于特征值求解器的部分。
cuSOLVERMp v0.4.3#
支持 CUDA 12.1.1。
修复了当问题很小且适合单个处理器时,处理器挂起的错误。
已知问题#
CUDA 12.1.1 兼容 NCCL v2.16.x 及更低版本;更高版本的 NCCL 在某些处理器网格上可能会间歇性挂起。
cuSOLVERMp v0.4.2#
修复了 cusolverMpSyevd() 中的一个错误,即对于填充零条目的矩阵,代码返回内部错误;正确的行为是返回零特征值和单位特征向量。
支持 CUDA 12.1.1
请注意,该代码与 NCCL v2.16.x 及更低版本兼容
cuSOLVERMp v0.4.1#
在 SYEVD 中增加了对行主序网格的支持。
cuSOLVERMp v0.4.0#
随 HPC-SDK 23.5 发布。
为对称(埃尔米特)广义特征值求解器添加了例程
cusolverMpSygst() 将对称(埃尔米特)广义特征值问题简化为标准形式。
cusolverMpSygvd() 计算对称(埃尔米特)广义特征值问题的所有特征值和特征向量。
cuSOLVERMp v0.3.1#
随 HPC-SDK 23.3 发布。
包含次要错误修复
cusolverMpPotrf() 修复结果以清除对角线虚部的零值。
cusolverMpStedc() 修复了内部内存泄漏。
cuSOLVERMp v0.3.0#
随 HPC-SDK 23.1 发布。
移除对 MPI 的依赖,现在 UCC 库是主要的通信后端
提供以下计算 API
cusolverMpGeqrf_bufferSize(), cusolverMpGeqrf(), cusolverMpOrmqr_bufferSize(), cusolverMpOrmqr(), cusolverMpGels_bufferSize(), cusolverMpGels(), cusolverMpSytrd_bufferSize(), cusolverMpSytrd(), cusolverMpStedc_bufferSize(), cusolverMpStedc(), cusolverMpOrmtr_bufferSize(), cusolverMpOrmtr(), cusolverMpSyevd_bufferSize(), cusolverMpSyevd()。
请注意,cusolverMpGels() 目前仅支持无转置选项的最小二乘解。
请注意,cusolverMpSytrd(), cusolverMpOrmtr() 和 cusolverMpSyevd() 目前仅支持下三角输入矩阵。
cuSOLVERMp v0.2.0#
随 HPC-SDK 21.09 发布。
增加了对
pp64 + SpectrumMPI
的支持,目标是 ORNL 的 Summit 超级计算机。添加了 Cholesky 分解和求解 API
请注意,cusolverMpGetrs() 目前不支持多个右侧项。
cuSOLVERMp v0.1.0#
初始版本,随 HPC-SDK 20.09 发布。
支持
Linux x86_64
和SM 8.0
。提供以下计算 API
请注意,cusolverMpGetrs() 目前不支持多个右侧项。