1. NVIDIA Ampere GPU 架构调优指南
2. 修订历史
3. 通知
Ampere 调优指南
»
目录
v12.8 |
PDF
|
存档
目录
1. NVIDIA Ampere GPU 架构调优指南
1.1. NVIDIA Ampere GPU 架构
1.2. CUDA 最佳实践
1.3. 应用程序兼容性
1.4. NVIDIA Ampere GPU 架构调优
1.4.1. 流式多处理器
1.4.1.1. 占用率
1.4.1.2. 从全局内存到共享内存的异步数据复制
1.4.1.3. 用于拆分到达/等待屏障的硬件加速
1.4.1.4. Warp 级别对归约操作的支持
1.4.1.5. 改进的 Tensor Core 操作
1.4.1.6. 改进的 FP32 吞吐量
1.4.2. 内存系统
1.4.2.1. 增加的内存容量和高带宽内存
1.4.2.2. 增加的 L2 容量和 L2 驻留控制
1.4.2.3. 统一共享内存/L1/纹理缓存
1.4.3. 第三代 NVLink
2. 修订历史
3. 通知
3.1. 注意事项
3.2. OpenCL
3.3. 商标