目录

1. 简介
- 1.1. 使用 GPU 的优势
- 1.2. CUDA®：通用并行计算平台和编程模型
- 1.3. 可扩展的编程模型
- 1.4. 文档结构
2. 编程模型
- 2.1. 内核
- 2.2. 线程层次结构
  - 2.2.1. 线程块集群
- 2.3. 内存层次结构
- 2.4. 异构编程
- 2.5. 异步 SIMT 编程模型
  - 2.5.1. 异步操作
- 2.6. 计算能力
3. 编程接口
- 3.1. 使用 NVCC 进行编译
- 3.2. CUDA 运行时
- 3.3. 版本控制和兼容性
- 3.4. 计算模式
- 3.5. 模式切换
- 3.6. Windows 的 Tesla 计算集群模式
4. 硬件实现
- 4.1. SIMT 架构
- 4.2. 硬件多线程
5. 性能指南
- 5.1. 整体性能优化策略
- 5.2. 最大化利用率
- 5.3. 最大化内存吞吐量
  - 5.3.1. 主机和设备之间的数据传输
  - 5.3.2. 设备内存访问
- 5.4. 最大化指令吞吐量
- 5.5. 最小化内存抖动
6. 支持 CUDA 的 GPU
7. C++ 语言扩展
- 7.1. 函数执行空间限定符
  - 7.1.1. __global__
  - 7.1.2. __device__
  - 7.1.3. __host__
  - 7.1.4. 未定义行为
  - 7.1.5. __noinline__ 和 __forceinline__
  - 7.1.6. __inline_hint__
- 7.2. 变量内存空间限定符
  - 7.2.1. __device__
  - 7.2.2. __constant__
  - 7.2.3. __shared__
  - 7.2.4. __grid_constant__
  - 7.2.5. __managed__
  - 7.2.6. __restrict__
- 7.3. 内置向量类型
  - 7.3.1. char、short、int、long、longlong、float、double
  - 7.3.2. dim3
- 7.4. 内置变量
  - 7.4.1. gridDim
  - 7.4.2. blockIdx
  - 7.4.3. blockDim
  - 7.4.4. threadIdx
  - 7.4.5. warpSize
- 7.5. 内存栅栏函数
- 7.6. 同步函数
- 7.7. 数学函数
- 7.8. 纹理函数
  - 7.8.1. 纹理对象 API
- 7.9. 表面函数
  - 7.9.1. 表面对象 API
- 7.10. 只读数据缓存加载函数
- 7.11. 使用缓存提示的加载函数
- 7.12. 使用缓存提示的存储函数
- 7.13. 时间函数
- 7.14. 原子函数
  - 7.14.1. 算术函数
  - 7.14.2. 位运算函数
  - 7.14.3. 其他原子函数
- 7.15. 地址空间谓词函数
  - 7.15.1. __isGlobal()
  - 7.15.2. __isShared()
  - 7.15.3. __isConstant()
  - 7.15.4. __isGridConstant()
  - 7.15.5. __isLocal()
- 7.16. 地址空间转换函数
  - 7.16.1. __cvta_generic_to_global()
  - 7.16.2. __cvta_generic_to_shared()
  - 7.16.3. __cvta_generic_to_constant()
  - 7.16.4. __cvta_generic_to_local()
  - 7.16.5. __cvta_global_to_generic()
  - 7.16.6. __cvta_shared_to_generic()
  - 7.16.7. __cvta_constant_to_generic()
  - 7.16.8. __cvta_local_to_generic()
- 7.17. Alloca 函数
  - 7.17.1. 概要
  - 7.17.2. 描述
  - 7.17.3. 示例
- 7.18. 编译器优化提示函数
  - 7.18.1. __builtin_assume_aligned()
  - 7.18.2. __builtin_assume()
  - 7.18.3. __assume()
  - 7.18.4. __builtin_expect()
  - 7.18.5. __builtin_unreachable()
  - 7.18.6. 限制
- 7.19. Warp Vote 函数
- 7.20. Warp Match 函数
  - 7.20.1. 概要
  - 7.20.2. 描述
- 7.21. Warp Reduce 函数
  - 7.21.1. 概要
  - 7.21.2. 描述
- 7.22. Warp Shuffle 函数
  - 7.22.1. 概要
  - 7.22.2. 描述
  - 7.22.3. 示例
- 7.23. Nanosleep 函数
  - 7.23.1. 概要
  - 7.23.2. 描述
  - 7.23.3. 示例
- 7.24. Warp 矩阵函数
  - 7.24.1. 描述
  - 7.24.2. 备用浮点
  - 7.24.3. 双精度
  - 7.24.4. 子字节操作
  - 7.24.5. 限制
  - 7.24.6. 元素类型和矩阵大小
  - 7.24.7. 示例
- 7.25. DPX
  - 7.25.1. 示例
- 7.26. 异步屏障
  - 7.26.1. 简单同步模式
  - 7.26.2. 时间分割和同步的五个阶段
  - 7.26.3. 引导初始化、预期到达计数和参与
  - 7.26.4. 屏障的阶段：到达、倒计时、完成和重置
  - 7.26.5. 空间分区（也称为 Warp 专用化）
  - 7.26.6. 提前退出（退出参与）
  - 7.26.7. 完成函数
  - 7.26.8. 内存屏障原语接口
    - 7.26.8.1. 数据类型
    - 7.26.8.2. 内存屏障原语 API
- 7.27. 异步数据复制
  - 7.27.1. memcpy_async API
  - 7.27.2. 复制和计算模式 - 通过共享内存暂存数据
  - 7.27.3. 没有 memcpy_async
  - 7.27.4. 有 memcpy_async
  - 7.27.5. 使用 cuda::barrier 的异步数据复制
  - 7.27.6. memcpy_async 的性能指南
- 7.28. 使用 cuda::pipeline 的异步数据复制
  - 7.28.1. 使用 cuda::pipeline 的单阶段异步数据复制
  - 7.28.2. 使用 cuda::pipeline 的多阶段异步数据复制
  - 7.28.3. Pipeline 接口
  - 7.28.4. Pipeline 原语接口
- 7.29. 使用张量内存加速器 (TMA) 的异步数据复制
  - 7.29.1. 使用 TMA 传输一维数组
  - 7.29.2. 使用 TMA 传输多维数组
    - 7.29.2.1. 多维 TMA PTX 包装器
- 7.30. 在设备上编码张量图
  - 7.30.1. 张量图的设备端编码和修改
  - 7.30.2. 修改后的张量图的用法
  - 7.30.3. 使用驱动程序 API 创建模板张量图值
- 7.31. 分析器计数器函数
- 7.32. 断言
- 7.33. Trap 函数
- 7.34. 断点函数
- 7.35. 格式化输出
  - 7.35.1. 格式说明符
  - 7.35.2. 限制
  - 7.35.3. 关联的主机端 API
  - 7.35.4. 示例
- 7.36. 动态全局内存分配和操作
  - 7.36.1. 堆内存分配
  - 7.36.2. 与主机内存 API 的互操作性
  - 7.36.3. 示例
- 7.37. 执行配置
- 7.38. 启动边界
- 7.39. 每线程最大寄存器数
- 7.40. #pragma unroll
- 7.41. SIMD 视频指令
- 7.42. 诊断 Pragma
8. 协同组
- 8.1. 简介
- 8.2. 协同组的新特性
- 8.3. 编程模型概念
  - 8.3.1. 组合示例
- 8.4. 组类型
  - 8.4.1. 隐式组
  - 8.4.2. 显式组
    - 8.4.2.1. 线程块瓦片
      - 8.4.2.1.1. Warp 同步代码模式
      - 8.4.2.1.2. 单线程组
    - 8.4.2.2. 合并组
      - 8.4.2.2.1. 发现模式
- 8.5. 组分区
- 8.6. 组集合通信
- 8.7. 网格同步
- 8.8. 多设备同步
9. CUDA 动态并行
- 9.1. 简介
  - 9.1.1. 概述
  - 9.1.2. 术语表
- 9.2. 执行环境和内存模型
  - 9.2.1. 执行环境
  - 9.2.2. 内存模型
    - 9.2.2.1. 一致性和一致性
- 9.3. 编程接口
- 9.4. 编程指南
- 9.5. CDP2 与 CDP1
  - 9.5.1. CDP1 和 CDP2 之间的差异
  - 9.5.2. 兼容性和互操作性
- 9.6. 旧版 CUDA 动态并行性 (CDP1)
10. 虚拟内存管理
- 10.1. 简介
- 10.2. 查询支持
- 10.3. 分配物理内存
  - 10.3.1. 可共享内存分配
  - 10.3.2. 内存类型
    - 10.3.2.1. 可压缩内存
- 10.4. 预留虚拟地址范围
- 10.5. 虚拟别名支持
- 10.6. 映射内存
- 10.7. 控制访问权限
- 10.8. Fabric 内存
  - 10.8.1. 查询支持
- 10.9. 多播支持
11. 流有序内存分配器
- 11.1. 简介
- 11.2. 查询支持
- 11.3. API 基础知识（cudaMallocAsync 和 cudaFreeAsync）
- 11.4. 内存池和 cudaMemPool_t
- 11.5. 默认/隐式池
- 11.6. 显式池
- 11.7. 物理页面缓存行为
- 11.8. 资源使用统计信息
- 11.9. 内存重用策略
- 11.10. 多 GPU 支持的设备可访问性
- 11.11. IPC 内存池
- 11.12. 同步 API 操作
- 11.13. 附录
12. 图内存节点
- 12.1. 简介
- 12.2. 支持和兼容性
- 12.3. API 基础知识
- 12.4. 优化的内存重用
  - 12.4.1. 图内的地址重用
  - 12.4.2. 物理内存管理和共享
- 12.5. 性能注意事项
  - 12.5.1. 首次启动 / cudaGraphUpload
- 12.6. 物理内存占用
- 12.7. 对等访问
  - 12.7.1. 使用图节点 API 的对等访问
  - 12.7.2. 使用流捕获的对等访问
13. 数学函数
- 13.1. 标准函数
- 13.2. 内联函数
14. C++ 语言支持
- 14.1. C++11 语言特性
- 14.2. C++14 语言特性
- 14.3. C++17 语言特性
- 14.4. C++20 语言特性
- 14.5. 限制
- 14.6. 多态函数包装器
- 14.7. 扩展 Lambda
- 14.8. 放松 Constexpr (-expt-relaxed-constexpr)
- 14.9. 代码示例
15. 纹理获取
- 15.1. 最近点采样
- 15.2. 线性滤波
- 15.3. 查找表
16. 计算能力
- 16.1. 功能可用性
- 16.2. 功能和技术规格
- 16.3. 浮点标准
- 16.4. 计算能力 5.x
- 16.5. 计算能力 6.x
- 16.6. 计算能力 7.x
- 16.7. 计算能力 8.x
- 16.8. 计算能力 9.0
- 16.9. 计算能力 10.0
- 16.10. 计算能力 12.0
17. 驱动程序 API
- 17.1. 上下文
- 17.2. 模块
- 17.3. 内核执行
- 17.4. 运行时 API 和驱动程序 API 之间的互操作性
- 17.5. 驱动程序入口点访问
18. CUDA 环境变量
19. 统一内存编程
- 19.1. 统一内存简介
  - 19.1.1. 统一内存的系统要求
  - 19.1.2. 编程模型
- 19.2. 在具有完整 CUDA 统一内存支持的设备上使用统一内存
  - 19.2.1. 系统分配内存：深入示例
    - 19.2.1.1. 文件支持的统一内存
    - 19.2.1.2. 使用统一内存的进程间通信 (IPC)
  - 19.2.2. 性能调优
- 19.3. 在没有完整 CUDA 统一内存支持的设备上使用统一内存
  - 19.3.1. 仅支持 CUDA 托管内存的设备上的统一内存
  - 19.3.2. Windows 或计算能力为 5.x 的设备上的统一内存
20. 延迟加载
- 20.1. 什么是延迟加载？
- 20.2. 延迟加载版本支持
- 20.3. 在延迟模式下触发内核加载
  - 20.3.1. CUDA 驱动程序 API
  - 20.3.2. CUDA 运行时 API
- 20.4. 查询是否已启用延迟加载
- 20.5. 采用延迟加载时可能出现的问题
21. 扩展 GPU 内存
- 21.1. 预备知识
- 21.2. 使用 EGM 接口
22. 通知
- 22.1. 注意事项
- 22.2. OpenCL
- 22.3. 商标