CUDA 应用程序的 Volta 兼容性指南

构建用于基于 NVIDIA Volta 架构的 GPU 的 CUDA 应用程序指南。

1. Volta 兼容性

1.1. 关于本文档

本应用说明，《CUDA 应用程序的 Volta 兼容性指南》，旨在帮助开发人员确保他们的 NVIDIA^® CUDA^® 应用程序可以在基于 NVIDIA^® Volta 架构的 GPU 上运行。本文档为已经熟悉 CUDA C++ 编程并希望确保其软件应用程序与 Volta 兼容的开发人员提供指导。

1.2. Volta 上的应用程序兼容性

NVIDIA CUDA C++ 编译器 nvcc 可用于生成特定于架构的 cubin 文件和向前兼容的每个内核的 PTX 版本。每个 cubin 文件都针对特定的计算能力版本，并且仅与相同主版本号的 GPU 架构向前兼容。例如，以计算能力 3.0 为目标的 cubin 文件在所有计算能力 3.x (Kepler) 设备上都受支持，但不在计算能力 5.x (Maxwell) 或 6.x (Pascal) 设备上受支持。因此，为了确保与应用程序发布后推出的 GPU 架构的向前兼容性，建议所有应用程序都包含其内核的 PTX 版本。

注意

对于给定的架构，包含 cubin 和 PTX 代码的 CUDA 运行时应用程序将默认自动使用 cubin，严格将 PTX 路径用于向前兼容性目的。

已经包含其内核 PTX 版本的应用程序应能在基于 Volta 的 GPU 上按原样工作。但是，仅通过 cubin 文件支持特定 GPU 架构的应用程序将需要更新以提供 Volta 兼容的 PTX 或 cubin。

1.3. 验证现有应用程序的 Volta 兼容性

第一步是检查是否将 Volta 兼容的设备代码（至少是 PTX）编译到应用程序中。以下部分展示了如何为使用不同 CUDA 工具包版本构建的应用程序完成此操作。

1.3.1. 使用 CUDA 工具包 8.0 或更早版本的应用程序

使用 CUDA 工具包版本 2.1 到 8.0 构建的 CUDA 应用程序与 Volta 兼容，只要它们构建为包含其内核的 PTX 版本即可。要测试 PTX JIT 是否适用于您的应用程序，您可以执行以下操作：

从 http://www.nvidia.com/drivers 下载并安装最新的驱动程序。
设置环境变量 CUDA_FORCE_PTX_JIT=1。
启动您的应用程序。

首次使用上述环境变量标志启动 CUDA 应用程序时，CUDA 驱动程序将 JIT 编译每个使用的 CUDA 内核的 PTX 为本机 cubin 代码。

如果您设置了上述环境变量，然后启动您的程序并且它运行正常，那么您已成功验证了 Volta 兼容性。

注意

完成测试后，请务必取消设置 CUDA_FORCE_PTX_JIT 环境变量。

1.3.2. 使用 CUDA 工具包 9.0 的应用程序

使用 CUDA 工具包 9.0 构建的 CUDA 应用程序与 Volta 兼容，只要它们构建为包含 Volta 本机 cubin 格式（参见构建支持 Volta 的应用程序）或 PTX 格式（参见使用 CUDA 工具包 8.0 或更早版本的应用程序）或两者的内核。

1.4. 构建支持 Volta 的应用程序

当 CUDA 应用程序启动内核时，CUDA 运行时会确定系统中每个 GPU 的计算能力，并使用此信息自动查找可用的内核的最佳匹配 cubin 或 PTX 版本。如果支持目标 GPU 架构的 cubin 文件可用，则使用它；否则，CUDA 运行时将加载 PTX 并将 PTX JIT 编译为 GPU 的本机 cubin 格式，然后再启动它。如果两者都不可用，则内核启动将失败。

用于构建应用程序以支持 Volta 的本机 cubin 或至少 PTX 的方法取决于所使用的 CUDA 工具包的版本。

提供本机 cubin 的主要优点如下：

它为最终用户节省了 JIT 编译仅作为 PTX 提供的内核所需的时间。编译到应用程序中的所有内核都必须在加载时具有本机二进制文件，否则它们将从 PTX 实时构建，包括链接到应用程序的所有库中的内核，即使这些内核永远不会被应用程序启动。尤其是在使用大型库时，这种 JIT 编译可能需要大量时间。CUDA 驱动程序将缓存 PTX JIT 生成的 cubin，因此对于给定的用户来说，这主要是一次性成本，但最好尽可能避免这种时间消耗。
PTX JIT 编译的内核通常无法利用较新 GPU 的架构特性，这意味着本机编译的代码可能更快或更准确。

1.4.1. 使用 CUDA 工具包 8.0 或更早版本的应用程序

CUDA 工具包 8.0 或更早版本中包含的编译器生成早期 NVIDIA 架构（如 Maxwell 和 Pascal）的本机 cubin 文件，但它们无法生成 Volta 架构的本机 cubin 文件。为了在使用 CUDA 工具包 8.0 或更早版本时支持 Volta 和未来的架构，编译器必须生成每个内核的 PTX 版本。

以下是可用于构建 mykernel.cu 以在本机 Maxwell 或 Pascal 设备上以及通过 PTX JIT 在 Volta 设备上运行的编译器设置。

注意

compute_XX 指的是 PTX 版本，sm_XX 指的是 cubin 版本。-gencode= 命令行选项的 arch= 子句 nvcc 指定前端编译目标，并且必须始终是 PTX 版本。code= 子句指定后端编译目标，可以是 cubin 或 PTX 或两者。只有 code= 子句指定的后端目标版本将保留在生成的二进制文件中；至少一个必须是 PTX 才能提供 Volta 兼容性。

Windows

nvcc.exe -ccbin "C:\vs2010\VC\bin"
  -Xcompiler "/EHsc /W3 /nologo /O2 /Zi /MT"
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_60,code=sm_60
  -gencode=arch=compute_61,code=sm_61
  -gencode=arch=compute_61,code=compute_61
  --compile -o "Release\mykernel.cu.obj" "mykernel.cu"

Mac/Linux

/usr/local/cuda/bin/nvcc
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_60,code=sm_60
  -gencode=arch=compute_61,code=sm_61
  -gencode=arch=compute_61,code=compute_61
  -O2 -o mykernel.o -c mykernel.cu

或者，您可能熟悉简化的 nvcc 命令行选项 -arch=sm_XX，它是上述更明确的 -gencode= 命令行选项的简写等效形式。-arch=sm_XX 扩展为以下内容：

-gencode=arch=compute_XX,code=sm_XX
-gencode=arch=compute_XX,code=compute_XX

但是，虽然 -arch=sm_XX 命令行选项确实默认导致包含 PTX 后端目标，但它一次只能指定一个目标 cubin 架构，并且不可能在同一 nvcc 命令行上使用多个 -arch= 选项，这就是为什么上面的示例显式使用 -gencode=。

1.4.2. 使用 CUDA 工具包 9.0 的应用程序

使用 CUDA 工具包 9.0 版本，nvcc 可以生成 Volta 架构（计算能力 7.0）的本机 cubin 文件。当使用 CUDA 工具包 9.0 时，为了确保 nvcc 将为所有最新的 GPU 架构以及 PTX 版本生成 cubin 文件，以便与未来的 GPU 架构向前兼容，请在 nvcc 命令行上指定适当的 -gencode= 参数，如下面的示例所示。

Windows

nvcc.exe -ccbin "C:\vs2010\VC\bin"
  -Xcompiler "/EHsc /W3 /nologo /O2 /Zi /MT"
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_60,code=sm_60
  -gencode=arch=compute_61,code=sm_61
  -gencode=arch=compute_70,code=sm_70
  -gencode=arch=compute_70,code=compute_70
  --compile -o "Release\mykernel.cu.obj" "mykernel.cu"

Mac/Linux

/usr/local/cuda/bin/nvcc
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_60,code=sm_60
  -gencode=arch=compute_61,code=sm_61
  -gencode=arch=compute_70,code=sm_70
  -gencode=arch=compute_70,code=compute_70
  -O2 -o mykernel.o -c mykernel.cu

注意

compute_XX 指的是 PTX 版本，sm_XX 指的是 cubin 版本。-gencode= 命令行选项的 arch= 子句 nvcc 指定前端编译目标，并且必须始终是 PTX 版本。code= 子句指定后端编译目标，可以是 cubin 或 PTX 或两者。只有 code= 子句指定的后端目标版本将保留在生成的二进制文件中；至少一个应该是 PTX 以提供与未来架构的兼容性。

另请注意，CUDA 9.0 取消了对计算能力 2.x (Fermi) 设备的支持。任何 compute_2x 和 sm_2x 标志都需要从您的编译器命令中删除。

1.4.3. 独立线程调度兼容性

Volta 架构引入了 warp 中线程之间的独立线程调度。如果开发人员对 warp 同步性做了假设1，则与以前的架构相比，此功能可能会改变参与执行代码的线程集。有关详细信息和纠正措施，请参阅 CUDA C++ 编程指南中的计算能力 7.0。为了帮助迁移，Volta 开发人员可以选择使用以下编译器选项组合来选择 Pascal 调度模型。

nvcc -arch=compute_60 -code=sm_70 ...

2. 修订历史

版本 1.0

首次公开发布。

版本 1.1

使用 CUDA C++ 而不是 CUDA C/C++
更新了对 CUDA C++ 编程指南和 CUDA C++ 最佳实践指南的引用。

3. 通知

3.1. 通知

本文档仅供参考，不应视为对产品的特定功能、状况或质量的保证。NVIDIA Corporation（“NVIDIA”）对本文档中包含信息的准确性或完整性不作任何明示或暗示的陈述或保证，并且对本文档中包含的任何错误不承担任何责任。NVIDIA 对因使用此类信息或因使用此类信息而可能导致的侵犯专利或第三方的其他权利的行为不承担任何责任。本文档不构成对开发、发布或交付任何材料（定义如下）、代码或功能的承诺。

NVIDIA 保留随时修改、增强、改进本文档以及对其进行任何其他更改的权利，恕不另行通知。

客户应在下订单前获取最新的相关信息，并应验证此类信息是否为最新且完整。

NVIDIA 产品根据订单确认时提供的 NVIDIA 标准销售条款和条件进行销售，除非 NVIDIA 和客户的授权代表签署的单独销售协议（“销售条款”）另有约定。NVIDIA 特此明确反对将任何客户通用条款和条件应用于购买本文档中引用的 NVIDIA 产品。本文档未直接或间接地形成任何合同义务。

NVIDIA 产品并非设计、授权或保证适用于医疗、军事、航空、航天或生命维持设备，也不适用于 NVIDIA 产品的故障或失灵可能合理预期会导致人身伤害、死亡或财产或环境损害的应用。NVIDIA 对 NVIDIA 产品包含和/或用于此类设备或应用不承担任何责任，因此，此类包含和/或使用由客户自行承担风险。

NVIDIA 不保证或声明基于本文档的产品将适用于任何特定用途。NVIDIA 不一定会执行每个产品所有参数的测试。客户全权负责评估和确定本文档中包含的任何信息的适用性，确保产品适合客户计划的应用，并为该应用执行必要的测试，以避免应用或产品的默认设置。客户产品设计中的缺陷可能会影响 NVIDIA 产品的质量和可靠性，并可能导致超出本文档中包含的附加或不同条件和/或要求。对于可能基于或归因于以下原因的任何默认设置、损坏、成本或问题，NVIDIA 不承担任何责任：(i) 以任何与本文档相悖的方式使用 NVIDIA 产品，或 (ii) 客户产品设计。

本文档未授予 NVIDIA 专利权、版权或其他 NVIDIA 知识产权下的任何明示或暗示的许可。NVIDIA 发布的有关第三方产品或服务的信息不构成 NVIDIA 授予的使用此类产品或服务的许可，也不构成对此类产品或服务的保证或认可。使用此类信息可能需要获得第三方的专利或第三方其他知识产权下的许可，或获得 NVIDIA 的专利或 NVIDIA 其他知识产权下的许可。

只有在获得 NVIDIA 书面预先批准的情况下，才允许复制本文档中的信息，并且复制必须不得更改，并完全符合所有适用的出口法律和法规，并附带所有相关的条件、限制和通知。

本文档和所有 NVIDIA 设计规范、参考板、文件、图纸、诊断程序、列表和其他文档（统称为“材料”）均按“原样”提供。NVIDIA 对材料不作任何明示、暗示、法定或其他形式的保证，并且明确声明不承担任何非侵权性、适销性和特定用途适用性的暗示保证。在法律未禁止的范围内，在任何情况下，NVIDIA 均不对任何损害（包括但不限于任何直接、间接、特殊、附带、惩罚性或后果性损害）负责，无论其由何种原因引起，也无论责任理论如何，即使 NVIDIA 已被告知发生此类损害的可能性。尽管客户可能因任何原因而遭受任何损害，但 NVIDIA 对本文所述产品的客户承担的总体和累积责任应根据产品的销售条款进行限制。

3.2. OpenCL

OpenCL 是 Apple Inc. 的商标，已获得 Khronos Group Inc. 的许可使用。

3.3. 商标

NVIDIA 和 NVIDIA 徽标是 NVIDIA Corporation 在美国和其他国家/地区的商标或注册商标。其他公司和产品名称可能是与其相关的各自公司的商标。

1: Warp 同步是指假设同一 warp 中的线程在每个指令处同步，并且可以例如在没有显式同步的情况下通信值。