CUDA 应用程序的 Pascal 兼容性指南

构建用于基于 NVIDIA Pascal 架构的 GPU 的 CUDA 应用程序的指南。

1. Pascal 兼容性

1.1. 关于本文档

本应用说明《CUDA 应用程序的 Pascal 兼容性指南》旨在帮助开发人员确保他们的 NVIDIA^® CUDA^® 应用程序可以在基于 NVIDIA^® Pascal 架构的 GPU 上运行。本文档为已经熟悉 CUDA C++ 编程并希望确保其软件应用程序与 Pascal 兼容的开发人员提供指导。

1.2. Pascal 上的应用程序兼容性

NVIDIA CUDA C++ 编译器 nvcc 可用于生成特定于架构的 cubin 文件和向前兼容的每个内核的 PTX 版本。每个 cubin 文件都针对特定的计算能力版本，并且仅与相同主版本号的 GPU 架构向前兼容。例如，以计算能力 3.0 为目标的 cubin 文件在所有计算能力 3.x (Kepler) 设备上都受支持，但不在计算能力 5.x (Maxwell) 或 6.x (Pascal) 设备上受支持。因此，为了确保与应用程序发布后推出的 GPU 架构的向前兼容性，建议所有应用程序都包含其内核的 PTX 版本。

注意

对于给定的架构，包含 cubin 和 PTX 代码的 CUDA 运行时应用程序将自动默认使用 cubin，从而严格将 PTX 路径用于向前兼容性目的。

已经包含其内核 PTX 版本的应用程序应该可以在基于 Pascal 的 GPU 上按原样工作。但是，仅通过 cubin 文件支持特定 GPU 架构的应用程序将需要更新以提供 Pascal 兼容的 PTX 或 cubin。

1.3. 验证现有应用程序的 Pascal 兼容性

第一步是检查是否已将 Pascal 兼容的设备代码（至少是 PTX）编译到应用程序中。以下各节显示了如何为使用不同 CUDA Toolkit 版本构建的应用程序完成此操作。

1.3.1. 使用 CUDA Toolkit 7.5 或更早版本的应用程序

使用 CUDA Toolkit 2.1 到 7.5 版本构建的 CUDA 应用程序与 Pascal 兼容，只要它们构建为包含其内核的 PTX 版本即可。要测试 PTX JIT 是否适用于您的应用程序，您可以执行以下操作

从 https://www.nvidia.com/drivers 下载并安装最新的驱动程序。
设置环境变量 CUDA_FORCE_PTX_JIT=1。
启动您的应用程序。

首次使用上述环境变量标志启动 CUDA 应用程序时，CUDA 驱动程序将 JIT 编译每个使用的 CUDA 内核的 PTX 为本机 cubin 代码。

如果您设置了上述环境变量，然后启动程序并且它运行正常，那么您已成功验证了 Pascal 兼容性。

注意

完成测试后，请务必取消设置 CUDA_FORCE_PTX_JIT 环境变量。

1.3.2. 使用 CUDA Toolkit 8.0 的应用程序

使用 CUDA Toolkit 8.0 构建的 CUDA 应用程序与 Pascal 兼容，只要它们构建为包含 Pascal 本机 cubin 格式（参见构建支持 Pascal 的应用程序）或 PTX 格式（参见使用 CUDA Toolkit 7.5 或更早版本的应用程序）或两者的内核。

1.4. 构建支持 Pascal 的应用程序

当 CUDA 应用程序启动内核时，CUDA 运行时会确定系统中每个 GPU 的计算能力，并使用此信息自动查找可用的最佳匹配的内核 cubin 或 PTX 版本。如果支持目标 GPU 架构的 cubin 文件可用，则使用它；否则，CUDA 运行时将加载 PTX 并将 PTX JIT 编译为 GPU 的本机 cubin 格式，然后再启动它。如果两者都不可用，则内核启动将失败。

使用本机 cubin 或至少 PTX 支持构建 Pascal 应用程序的方法取决于所使用的 CUDA Toolkit 版本。

提供本机 cubin 的主要优点如下

它可以为最终用户节省 JIT 编译仅作为 PTX 提供的内核所需的时间。编译到应用程序中的所有内核都必须在加载时具有本机二进制文件，否则它们将从 PTX 及时构建，包括链接到应用程序的所有库中的内核，即使这些内核永远不会被应用程序启动。尤其是在使用大型库时，这种 JIT 编译可能需要大量时间。CUDA 驱动程序将缓存作为 PTX JIT 结果生成的 cubin，因此对于给定的用户来说，这主要是一次性成本，但尽可能避免花费时间是最好的。
PTX JIT 编译的内核通常无法利用较新 GPU 的架构特性，这意味着本机编译的代码可能更快或更准确。

1.4.1. 使用 CUDA Toolkit 7.5 或更早版本的应用程序

CUDA Toolkit 7.5 或更早版本中包含的编译器生成 Kepler 和 Maxwell 等早期 NVIDIA 架构的本机 cubin 文件，但它们不能生成 Pascal 架构的本机 cubin 文件。为了在使用 CUDA Toolkit 7.5 或更早版本时支持 Pascal 和未来的架构，编译器必须生成每个内核的 PTX 版本。

以下是可用于构建 mykernel.cu 以在本机 Kepler 或 Maxwell 设备上运行以及通过 PTX JIT 在 Pascal 设备上运行的编译器设置。

注意

compute_XX 指的是 PTX 版本，而 sm_XX 指的是 cubin 版本。nvcc 的 -gencode= 命令行选项的 arch= 子句指定前端编译目标，并且必须始终是 PTX 版本。code= 子句指定后端编译目标，可以是 cubin 或 PTX 或两者兼有。只有 code= 子句指定的后端目标版本将保留在生成的二进制文件中；至少必须有一个是 PTX 才能提供 Pascal 兼容性。

Windows

nvcc.exe -ccbin "C:\vs2010\VC\bin"
  -Xcompiler "/EHsc /W3 /nologo /O2 /Zi /MT"
  -gencode=arch=compute_30,code=sm_30
  -gencode=arch=compute_35,code=sm_35
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_52,code=compute_52
  --compile -o "Release\mykernel.cu.obj" "mykernel.cu"

Mac/Linux

/usr/local/cuda/bin/nvcc
  -gencode=arch=compute_30,code=sm_30
  -gencode=arch=compute_35,code=sm_35
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_52,code=compute_52
  -O2 -o mykernel.o -c mykernel.cu

或者，您可能熟悉简化的 nvcc 命令行选项 -arch=sm_XX，它是上述更明确的 -gencode= 命令行选项的简写等效项。-arch=sm_XX 扩展为以下内容

-gencode=arch=compute_XX,code=sm_XX
-gencode=arch=compute_XX,code=compute_XX

但是，虽然 -arch=sm_XX 命令行选项确实默认导致包含 PTX 后端目标，但它一次只能指定单个目标 cubin 架构，并且不可能在同一 nvcc 命令行上使用多个 -arch= 选项，这就是为什么上面的示例显式使用 -gencode= 的原因。

1.4.2. 使用 CUDA Toolkit 8.0 的应用程序

使用 CUDA Toolkit 8.0 版本，nvcc 可以生成 Pascal 架构（计算能力 6.0 和 6.1）的本机 cubin 文件。使用 CUDA Toolkit 8.0 时，为了确保 nvcc 将为所有最新的 GPU 架构以及用于与未来 GPU 架构向前兼容的 PTX 版本生成 cubin 文件，请在 nvcc 命令行上指定适当的 -gencode= 参数，如下例所示。

Windows

nvcc.exe -ccbin "C:\vs2010\VC\bin"
  -Xcompiler "/EHsc /W3 /nologo /O2 /Zi /MT"
  -gencode=arch=compute_30,code=sm_30
  -gencode=arch=compute_35,code=sm_35
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_60,code=sm_60
  -gencode=arch=compute_61,code=sm_61
  -gencode=arch=compute_61,code=compute_61
  --compile -o "Release\mykernel.cu.obj" "mykernel.cu"

Mac/Linux

/usr/local/cuda/bin/nvcc
  -gencode=arch=compute_30,code=sm_30
  -gencode=arch=compute_35,code=sm_35
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_60,code=sm_60
  -gencode=arch=compute_61,code=sm_61
  -gencode=arch=compute_61,code=compute_61
  -O2 -o mykernel.o -c mykernel.cu

注意

compute_XX 指的是 PTX 版本，而 sm_XX 指的是 cubin 版本。nvcc 的 -gencode= 命令行选项的 arch= 子句指定前端编译目标，并且必须始终是 PTX 版本。code= 子句指定后端编译目标，可以是 cubin 或 PTX 或两者兼有。只有 code= 子句指定的后端目标版本将保留在生成的二进制文件中；至少应该有一个是 PTX 以提供与未来架构的兼容性。

2. 修订历史

版本 1.0

首次公开发布。

版本 1.1

使用 CUDA C++ 而不是 CUDA C/C++

3. 注意事项

3.1. 注意

本文档仅供参考，不应视为对产品的特定功能、条件或质量的保证。NVIDIA Corporation（“NVIDIA”）对本文档中包含的信息的准确性或完整性不作任何明示或暗示的陈述或保证，并且对本文档中包含的任何错误不承担任何责任。NVIDIA 对因使用此类信息或因使用此类信息而可能导致的侵犯第三方专利或其他权利的后果或使用不承担任何责任。本文档不构成对开发、发布或交付任何材料（如下定义）、代码或功能的承诺。

NVIDIA 保留随时修改、修正、增强、改进和对本文档进行任何其他更改的权利，恕不另行通知。

客户应在下订单前获取最新的相关信息，并应验证此类信息是否为最新且完整。

NVIDIA 产品在销售时受 NVIDIA 标准销售条款和条件的约束，除非 NVIDIA 和客户的授权代表签署的个别销售协议（“销售条款”）另有约定。NVIDIA 特此明确反对将任何客户通用条款和条件应用于购买本文档中引用的 NVIDIA 产品。本文档既不直接也不间接地形成合同义务。

NVIDIA 产品并非设计、授权或保证适用于医疗、军事、航空、航天或生命支持设备，也不适用于 NVIDIA 产品的故障或故障可能合理预期会导致人身伤害、死亡或财产或环境损害的应用。NVIDIA 对在上述设备或应用中包含和/或使用 NVIDIA 产品不承担任何责任，因此，此类包含和/或使用由客户自行承担风险。

NVIDIA 不作任何陈述或保证，保证基于本文档的产品适用于任何特定用途。NVIDIA 不一定对每个产品的所有参数进行测试。客户全权负责评估和确定本文档中包含的任何信息的适用性，确保产品适合客户计划的应用，并执行必要的应用测试，以避免应用或产品的默认设置。客户产品设计中的缺陷可能会影响 NVIDIA 产品的质量和可靠性，并可能导致超出本文档中包含的附加或不同的条件和/或要求。对于可能基于或归因于以下原因的任何默认设置、损坏、成本或问题，NVIDIA 不承担任何责任：(i) 以任何违反本文档的方式使用 NVIDIA 产品或 (ii) 客户产品设计。

本文档未授予任何 NVIDIA 专利权、版权或其他 NVIDIA 知识产权之下的任何明示或暗示的许可。NVIDIA 发布的有关第三方产品或服务的信息不构成 NVIDIA 授予使用此类产品或服务的许可，也不构成对此类产品或服务的保证或认可。使用此类信息可能需要从第三方获得专利或许可或第三方的其他知识产权，或者从 NVIDIA 获得 NVIDIA 的专利或许可或其他知识产权。

只有在事先获得 NVIDIA 书面批准的情况下，才允许复制本文档中的信息，复制时不得进行更改，并且必须完全遵守所有适用的出口法律法规，并附带所有相关的条件、限制和通知。

本文档和所有 NVIDIA 设计规范、参考板、文件、图纸、诊断程序、列表和其他文档（统称为“材料”）均“按原样”提供。NVIDIA 不对材料作出任何明示、暗示、法定或其他方面的保证，并且明确否认对非侵权性、适销性和特定用途适用性的所有暗示保证。在法律未禁止的范围内，在任何情况下，NVIDIA 均不对任何损害负责，包括但不限于任何直接、间接、特殊、偶然、惩罚性或后果性损害，无论是如何造成的，也无论责任理论如何，即使 NVIDIA 已被告知发生此类损害的可能性，也均不承担责任。尽管客户可能因任何原因遭受任何损害，但 NVIDIA 对本文所述产品的客户的累计责任应根据产品的销售条款进行限制。

3.2. OpenCL

OpenCL 是 Apple Inc. 的商标，已授权 Khronos Group Inc. 使用。

3.3. 商标

NVIDIA 和 NVIDIA 徽标是 NVIDIA Corporation 在美国和其他国家/地区的商标或注册商标。其他公司和产品名称可能是与其相关的各自公司的商标。