NVIDIA cuBLASDx#

cuBLAS 设备扩展库 (cuBLASDx) 使您能够在 CUDA 内核中执行来自 cuBLAS 的选定线性代数函数。目前仅限于通用矩阵乘法 (GEMM)。将线性代数例程与其他操作融合可以减少延迟并提高应用程序的整体性能。

该文档由三个主要部分组成

要求和支持的功能。
快速入门指南，使用 cuBLASDx 的通用矩阵乘法。
一个 API 参考，用于全面概述所提供的功能。

亮点#

cuBLASDx 库目前提供：

BLAS GEMM 例程，可嵌入到 CUDA 内核中。
高性能，无需不必要地从全局内存进行数据移动。
可定制性，可以根据不同需求（大小、精度、类型、目标 CUDA 架构等）调整 GEMM 例程的选项。
在共享内存或寄存器中执行累积和融合的灵活性。
能够将 BLAS 内核与其他操作融合，以节省全局内存访问。
与未来版本的 CUDA 工具包的兼容性。