CUDA 应用程序 Maxwell 兼容性指南

构建基于 NVIDIA Maxwell 架构的 GPU 的 CUDA 应用程序指南。

1. Maxwell 兼容性

1.1. 关于本文档

本应用说明《CUDA 应用程序 Maxwell 兼容性指南》旨在帮助开发者确保他们的 NVIDIA® CUDA® 应用程序可以在基于 NVIDIA® Maxwell 架构的 GPU 上运行。本文档为已经熟悉 CUDA C++ 编程并希望确保其软件应用程序与 Maxwell 兼容的开发者提供指导。

1.2. Maxwell 上的应用程序兼容性

NVIDIA CUDA C++ 编译器 nvcc 可以用于生成特定于架构的 cubin 文件和向前兼容的每个内核的 PTX 版本。每个 cubin 文件都面向特定的计算能力版本,并且仅与相同主版本号的 GPU 架构向前兼容。例如,面向计算能力 3.0 的 cubin 文件在所有计算能力 3.x (Kepler) 设备上都受支持,但在计算能力 5.x (Maxwell) 设备上受支持。因此,为了确保与应用程序发布后推出的 GPU 架构向前兼容,建议所有应用程序都包含其内核的 PTX 版本。

注意

对于给定的架构,包含 cubin 和 PTX 代码的 CUDA 运行时应用程序将默认自动使用 cubin,从而严格将 PTX 路径用于向前兼容目的。

已经包含其内核 PTX 版本的应用程序应该可以在基于 Maxwell 的 GPU 上按原样工作。但是,仅通过 cubin 文件支持特定 GPU 架构的应用程序将需要更新以提供 Maxwell 兼容的 PTX 或 cubin。

1.3. 验证现有应用程序的 Maxwell 兼容性

第一步是检查 Maxwell 兼容的设备代码(至少是 PTX)是否已编译到应用程序中。以下部分展示了如何为使用不同 CUDA Toolkit 版本构建的应用程序完成此操作。

1.3.1. 使用 CUDA Toolkit 5.5 或更早版本的应用程序

只要构建为包含其内核的 PTX 版本,使用 CUDA Toolkit 2.1 到 5.5 版本构建的 CUDA 应用程序就与 Maxwell 兼容。要测试 PTX JIT 是否适用于您的应用程序,您可以执行以下操作

首次使用上述环境变量标志启动 CUDA 应用程序时,CUDA 驱动程序会将每个使用的 CUDA 内核的 PTX JIT 编译为本机 cubin 代码。

如果您设置了上面的环境变量,然后启动您的程序并且它工作正常,那么您已成功验证了 Maxwell 兼容性。

注意

完成测试后,请务必取消设置 CUDA_FORCE_PTX_JIT 环境变量。

1.3.2. 使用 CUDA Toolkit 6.0 或更高版本的应用程序

只要构建为包含 Maxwell 原生 cubin 格式(参见构建支持 Maxwell 的应用程序)或 PTX 格式(参见使用 CUDA Toolkit 5.5 或更早版本的应用程序)或两者都包含的内核,使用 CUDA Toolkit 6.0 或更高版本1 构建的 CUDA 应用程序就与 Maxwell 兼容。

1.4. 构建支持 Maxwell 的应用程序

当 CUDA 应用程序启动内核时,CUDA 运行时会确定系统中每个 GPU 的计算能力,并使用此信息自动查找可用的最佳匹配的内核 cubin 或 PTX 版本。如果支持目标 GPU 架构的 cubin 文件可用,则使用它;否则,CUDA 运行时将加载 PTX 并在启动之前将该 PTX JIT 编译为 GPU 的原生 cubin 格式。如果两者都不可用,则内核启动将失败。

用于构建您的应用程序以支持 Maxwell 原生 cubin 或至少 PTX 的方法取决于所使用的 CUDA Toolkit 版本。

提供原生 cubin 的主要优势如下

  • 它可以节省最终用户 JIT 编译仅以 PTX 形式提供的内核所需的时间。所有编译到应用程序中的内核必须在加载时具有本机二进制文件,否则它们将从 PTX 实时构建,包括链接到应用程序的所有库中的内核,即使这些内核永远不会被应用程序启动。尤其是在使用大型库时,此 JIT 编译可能需要大量时间。CUDA 驱动程序将缓存 PTX JIT 生成的 cubin,因此对于给定用户来说,这主要是一次性成本,但最好尽可能避免。

  • PTX JIT 编译的内核通常无法利用较新 GPU 的架构特性,这意味着原生编译的代码可能更快或更准确。

1.4.1. 使用 CUDA Toolkit 5.5 或更早版本的应用程序

CUDA Toolkit 5.5 或更早版本中包含的编译器生成 Fermi 和 Kepler 等早期 NVIDIA 架构的原生 cubin 文件,但它们无法生成 Maxwell 架构的原生 cubin 文件。为了在使用 CUDA Toolkit 5.5 或更早版本时允许支持 Maxwell 和未来架构,编译器必须为每个内核生成 PTX 版本。

以下是可用于构建 mykernel.cu 以在本机 Fermi 或 Kepler 设备上以及通过 PTX JIT 在 Maxwell 设备上运行的编译器设置。

注意

compute_XX 指的是 PTX 版本,而 sm_XX 指的是 cubin 版本。-gencode= 命令的命令行选项 nvccarch= 子句指定前端编译目标,并且必须始终是 PTX 版本。code= 子句指定后端编译目标,可以是 cubin 或 PTX 或两者。只有 code= 子句指定的后端目标版本将保留在生成的二进制文件中;至少必须有一个是 PTX 才能提供 Maxwell 兼容性。

Windows

nvcc.exe -ccbin "C:\vs2010\VC\bin"
  -Xcompiler "/EHsc /W3 /nologo /O2 /Zi /MT"
  -gencode=arch=compute_20,code=sm_20
  -gencode=arch=compute_30,code=sm_30
  -gencode=arch=compute_35,code=sm_35
  -gencode=arch=compute_35,code=compute_35
  --compile -o "Release\mykernel.cu.obj" "mykernel.cu"

Mac/Linux

/usr/local/cuda/bin/nvcc
  -gencode=arch=compute_20,code=sm_20
  -gencode=arch=compute_30,code=sm_30
  -gencode=arch=compute_35,code=sm_35
  -gencode=arch=compute_35,code=compute_35
  -O2 -o mykernel.o -c mykernel.cu

或者,您可能熟悉简化的 nvcc 命令行选项 -arch=sm_XX,它是以下更明确的 -gencode= 命令行选项的简写等效形式,如上所述。-arch=sm_XX 扩展为以下内容

-gencode=arch=compute_XX,code=sm_XX
-gencode=arch=compute_XX,code=compute_XX

然而,虽然 -arch=sm_XX 命令行选项确实默认包含 PTX 后端目标,但它一次只能指定一个目标 cubin 架构,并且不可能在同一 nvcc 命令行上使用多个 -arch= 选项,这就是为什么上面的示例显式使用 -gencode= 的原因。

1.4.2. 使用 CUDA Toolkit 6.0 或更高版本的应用程序

在 CUDA Toolkit 6.0 版本中,nvcc 可以生成第一代 Maxwell 架构(计算能力 5.0)的原生 cubin 文件;CUDA Toolkit 6.5 及更高版本进一步增加了对第二代 Maxwell 设备(计算能力 5.2)的原生支持。当使用 CUDA Toolkit 6.x 或更高版本时,为了确保 nvcc 将为所有最新的 GPU 架构生成 cubin 文件,以及为与未来 GPU 架构向前兼容的 PTX 版本,请在 nvcc 命令行上指定适当的 -gencode= 参数,如下面的示例所示。

Windows

nvcc.exe -ccbin "C:\vs2010\VC\bin"
  -Xcompiler "/EHsc /W3 /nologo /O2 /Zi /MT"
  -gencode=arch=compute_20,code=sm_20
  -gencode=arch=compute_30,code=sm_30
  -gencode=arch=compute_35,code=sm_35
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_52,code=compute_52
  --compile -o "Release\mykernel.cu.obj" "mykernel.cu"

Mac/Linux

/usr/local/cuda/bin/nvcc
  -gencode=arch=compute_20,code=sm_20
  -gencode=arch=compute_30,code=sm_30
  -gencode=arch=compute_35,code=sm_35
  -gencode=arch=compute_50,code=sm_50
  -gencode=arch=compute_52,code=sm_52
  -gencode=arch=compute_52,code=compute_52
  -O2 -o mykernel.o -c mykernel.cu

注意

compute_XX 指的是 PTX 版本,而 sm_XX 指的是 cubin 版本。-gencode= 命令的命令行选项 nvccarch= 子句指定前端编译目标,并且必须始终是 PTX 版本。code= 子句指定后端编译目标,可以是 cubin 或 PTX 或两者。只有 code= 子句指定的后端目标版本将保留在生成的二进制文件中;至少应该有一个是 PTX,以提供与未来架构的兼容性。

2. 修订历史

版本 1.0

  • 首次公开发布。

版本 1.1

  • 针对第二代 Maxwell(计算能力 5.2)进行了更新。

版本 1.2

  • 使用 CUDA C++ 而不是 CUDA C/C++。

  • 将 CUDA Toolkit 参考更新为 6.0 及更高版本。

3. 声明

3.1. 声明

本文档仅供参考,不应被视为对产品特定功能、条件或质量的保证。NVIDIA 公司(“NVIDIA”)对本文档中包含信息的准确性或完整性不作任何明示或暗示的陈述或保证,并且对本文档中包含的任何错误不承担任何责任。NVIDIA 对因使用此类信息而造成的后果或使用,或因使用此类信息而可能导致的任何专利或第三方其他权利的侵犯不承担任何责任。本文档不承诺开发、发布或交付任何材料(如下定义)、代码或功能。

NVIDIA 保留随时对本文档进行更正、修改、增强、改进和任何其他更改的权利,恕不另行通知。

客户在下订单之前应获取最新的相关信息,并应验证此类信息是最新且完整的。

NVIDIA 产品的销售受订单确认时提供的 NVIDIA 标准销售条款和条件的约束,除非 NVIDIA 和客户的授权代表签署的单独销售协议(“销售条款”)另有约定。NVIDIA 在此明确反对将任何客户通用条款和条件应用于购买本文档中引用的 NVIDIA 产品。本文档不直接或间接地形成任何合同义务。

NVIDIA 产品并非设计、授权或保证适用于医疗、军事、航空、航天或生命支持设备,也不适用于 NVIDIA 产品的故障或失灵可能合理预期会导致人身伤害、死亡或财产或环境损害的应用。NVIDIA 对在上述设备或应用中包含和/或使用 NVIDIA 产品不承担任何责任,因此,此类包含和/或使用由客户自行承担风险。

NVIDIA 不作任何陈述或保证,基于本文档的产品将适用于任何特定用途。NVIDIA 不一定对每个产品的所有参数进行测试。客户全权负责评估和确定本文档中包含的任何信息的适用性,确保产品适合客户计划的应用,并为该应用执行必要的测试,以避免应用程序或产品的默认状态。客户产品设计中的缺陷可能会影响 NVIDIA 产品的质量和可靠性,并可能导致超出本文档中包含的附加或不同的条件和/或要求。NVIDIA 对可能基于或归因于以下原因的任何默认、损坏、成本或问题不承担任何责任:(i)以违反本文档的任何方式使用 NVIDIA 产品或(ii)客户产品设计。

本文档未授予任何 NVIDIA 专利权、版权或其他 NVIDIA 知识产权下的任何明示或暗示的许可。NVIDIA 发布的有关第三方产品或服务的信息不构成 NVIDIA 授予使用此类产品或服务的许可,也不构成对其的保证或认可。使用此类信息可能需要从第三方获得其专利或其他知识产权下的许可,或从 NVIDIA 获得 NVIDIA 专利或其他知识产权下的许可。

只有在事先获得 NVIDIA 书面批准的情况下,才允许复制本文档中的信息,并且复制必须未经修改,完全符合所有适用的出口法律和法规,并附带所有相关的条件、限制和声明。

本文档以及所有 NVIDIA 设计规范、参考板、文件、图纸、诊断程序、列表和其他文档(统称为“材料”,单独或合并)均按“原样”提供。NVIDIA 对这些材料不作任何明示、暗示、法定或其他形式的保证,并明确声明不承担任何关于不侵权、适销性和针对特定用途的适用性的默示保证。在法律未禁止的范围内,在任何情况下,NVIDIA 均不对因使用本文档而引起的任何损害承担责任,包括但不限于任何直接、间接、特殊、附带、惩罚性或后果性损害,无论何种原因造成,也无论责任理论如何,即使 NVIDIA 已被告知可能发生此类损害。尽管客户可能因任何原因遭受任何损害,NVIDIA 对本文所述产品的客户的累计总责任应根据产品的销售条款进行限制。

3.2. OpenCL

OpenCL 是 Apple Inc. 的商标,已获得 Khronos Group Inc. 的许可使用。

3.3. 商标

NVIDIA 和 NVIDIA 徽标是 NVIDIA 公司在美国和其他国家/地区的商标或注册商标。其他公司和产品名称可能是与其相关的各自公司的商标。

1

未来的 CUDA Toolkit 版本可能会弃用对 Maxwell 架构的支持。