NVIDIA cuDNN 前端# NVIDIA cuDNN 前端 API 提供了一个简化的编程模型,足以满足大多数用例。 仅当您想使用传统的固定功能例程(这些例程不是基于图的接口,并且未通过前端 API 层公开)时,才使用 NVIDIA cuDNN 后端 API。 概述 安装指南 示例 Python 示例 源代码 依赖项 C++ 示例 源代码 构建 发行说明 前端 API 操作 Attention 块缩放 卷积 矩阵乘法 归一化 逐点和归约 重采样 切片 实用工具 CUDA 图 自定义执行计划 动态形状和内核缓存 前端开发者指南 概述 构建和运行 cuDNN 图工作流程 API 创建图 定义张量 定义操作 验证图 构建后端图 创建执行计划 获取执行计划计数 检查图支持 构建执行计划 过滤计划(可选) 自动调优 执行图 其他 API 序列化 错误处理 操作 核心概念 cuDNN 句柄 张量和布局 张量描述符 WXYZ 张量描述符 3-D 张量描述符 4-D 张量描述符 5-D 张量描述符 完全打包的张量 部分打包的张量 空间打包的张量 重叠张量 数据布局格式 示例张量 卷积布局 NCHW 内存布局 NHWC 内存布局 NC/32HW32 内存布局 矩阵乘法布局 图 关键概念 操作和操作图 引擎和引擎配置 其他运行时概念 启发式 支持的图模式 预编译的单操作引擎 ConvolutionBwdData ConvolutionBwdFilter ConvolutionFwd NormalizationBackward NormalizationForward 通用运行时融合引擎 支持面 支持面 90 支持面 80 支持面 70 运行时融合引擎的操作特定约束 矩阵乘法 卷积 逐点 GenStats 归约 ResampleFwd 用于训练的重采样索引张量转储 ResampleBwd 支持模式示例 单操作 卷积 1 后的逐点操作 卷积 2 后的逐点操作 矩阵乘法前的逐点操作 DAG 中间的卷积生产者节点 混合输入精度矩阵乘法和卷积 专用运行时融合引擎 BnAddRelu DReluForkDBn 融合 Attention 前向传播 融合 Attention 反向传播 融合 Flash Attention 前向传播 融合 Flash Attention 反向传播 专用预编译引擎 ConvBNfprop ConvBNwgrad ConvBiasAct ConvScaleBiasAct DgradDreluBNBwdWeight FP8 融合 Flash Attention 使用后端描述符进行映射 硬件向前兼容性 配置向前兼容模式 向前兼容性和图 API 支持的图模式 杂项 cuDNN 库配置 FULL 配置 GRAPH_JIT_ONLY 配置 子库配置说明 线程安全 cuDNN 后端要求 SM 划分 原生 CUDA 图 API 调试 使用环境变量进行调试 使用 API 调用进行调试 参考 支持的产品 常见问题解答 支持 软件许可协议 NVIDIA 软件开发工具包许可协议 许可。 授予 分发要求 授权用户 预发布 SDK 更新 其他许可下的组件 权利保留 限制。 所有权。 无担保。 责任限制。 终止。 通用条款。 cuDNN NVIDIA 软件开发工具包许可协议补充条款 致谢 声明