发行说明#

cuBLASMp v0.3.1#

  • 添加选项以设置用于通信的 SM 数量(目前仅与 Atomic GEMM + ReduceScatter 相关)。

  • 减少 TP 重叠 GEMM 中的工作空间大小要求。

  • 移除 TP 重叠 GEMM 中的额外同步。

  • 当 beta 为 0 时,允许 C 矩阵为空。

  • 修复复数类型的 GEMM 实现,其中 transA / transB 为 CUBLAS_OP_T。

cuBLASMp v0.3.0#

重大更改#

cuBLASMp v0.2.1#

  • 添加了混合精度和更低精度支持。

  • 错误修复。

cuBLASMp v0.2.0#

cuBLASMp v0.1.2#

cuBLASMp v0.1.1#

cuBLASMp v0.1.0#

  • 早期访问版本。

  • 此版本侧重于功能。