发行说明#
cuBLASMp v0.3.1#
添加选项以设置用于通信的 SM 数量(目前仅与 Atomic GEMM + ReduceScatter 相关)。
减少 TP 重叠 GEMM 中的工作空间大小要求。
移除 TP 重叠 GEMM 中的额外同步。
当 beta 为 0 时,允许 C 矩阵为空。
修复复数类型的 GEMM 实现,其中 transA / transB 为 CUBLAS_OP_T。
cuBLASMp v0.3.0#
添加了新的 cublasMpMatmul API。
添加了张量并行所需的 GEMM/Matmul 快速路径(通信-计算重叠 AllGather+GEMM 和 GEMM+ReduceScatter)。
添加了 FP8 支持。
添加了 cublasMpStatus_t。
添加了 cublasMpMatrixDescriptorInit API,以允许重用矩阵描述符。
添加了 NVSHMEM 依赖项。
添加了 Matmul 辅助 API:cublasMpMatmulDescriptorCreate、cublasMpMatmulDescriptorDestroy、cublasMpMatmulDescriptorAttributeSet、cublasMpMatmulDescriptorAttributeGet
错误修复。
重大更改#
从 cublasMpGridCreate、cublasMpGridDestroy、cublasMpMatrixDescriptorCreate、cublasMpMatrixDescriptorDestroy、cublasMpGetVersion API 中移除了 cublasMpHandle_t 参数。
将所有函数的返回状态更改为 cublasMpStatus_t。
移除了
cublasMpSetMathMode
和cublasMpGetMathMode
API。
cuBLASMp v0.2.1#
添加了混合精度和更低精度支持。
错误修复。
cuBLASMp v0.2.0#
改进了 cublasMpGemm 的性能。
错误修复。
cuBLASMp v0.1.2#
添加了 cublasMpGeadd。
添加了 cublasMpTradd。
改进了 cublasMpGemm 的性能。
改进了 cublasMpTrsm 的性能。
cuBLASMp v0.1.1#
添加了
rsrc
和csrc
支持。添加了 cublasMpGemr2D。
添加了 cublasMpTrmr2D。
cuBLASMp v0.1.0#
早期访问版本。
此版本侧重于功能。