CUDA 运行时 API :: CUDA Toolkit 文档

cudaMemcpyFromSymbol, cudaGraphAddMemcpyNode, cudaGraphAddMemcpyNodeToSymbol, cudaGraphMemcpyNodeGetParams, cudaGraphMemcpyNodeSetParams, cudaGraphMemcpyNodeSetParamsFromSymbol, cudaGraphMemcpyNodeSetParamsToSymbol, cudaGraphCreate, cudaGraphDestroyNode, cudaGraphAddChildGraphNode, cudaGraphAddEmptyNode, cudaGraphAddKernelNode, cudaGraphAddHostNode, cudaGraphAddMemsetNode

Description

创建一个新的 memcpy 节点以从symbol复制，并使用通过graph指定的numDependencies依赖项将其添加到pDependencies。

可能为 0，在这种情况下，节点将放置在图的根目录中。numDependenciesto be 0, in which case the node will be placed at the root of the graph.pDependencies不能有任何重复条目。新节点的句柄将在pGraphNode.

中返回。当启动图时，节点将从count指向的内存区域复制offset字节，从符号symbol的起始位置偏移

字节到

指向的内存区域。内存区域可能不重叠。dst. The memory areas may not overlap.symbolis a variable that resides in global or constant memory space.kind是驻留在全局或常量内存空间中的变量。

可以是 cudaMemcpyDeviceToHost、cudaMemcpyDeviceToDevice 或 cudaMemcpyDefault。建议传递 cudaMemcpyDefault，在这种情况下，传输类型是从指针值推断出来的。但是，仅在支持统一虚拟寻址的系统上才允许使用 cudaMemcpyDefault。

Note

如果系统包含至少一个设备，其设备属性 cudaDevAttrConcurrentManagedAccess 的值为零，则 Memcpy 节点在托管内存方面有一些额外的限制。
请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

template < class T > __host__ cudaError_t cudaGraphAddMemcpyNodeToSymbol ( cudaGraphNode_t* pGraphNode, cudaGraph_t graph, const cudaGraphNode_t* pDependencies, size_t numDependencies, const T& symbol, const void* src, size_t count, size_t offset, cudaMemcpyKind kind ) [inline]

创建一个 memcpy 节点，用于复制到设备上的符号，并将其添加到图中。

Parameters

pGraphNode: - 返回新创建的节点
graph: - 要向其添加节点的图
pDependencies: - 节点的依赖项
numDependencies: - 依赖项的数量
symbol: - 设备符号地址
src: - 源内存地址
count: - 要复制的字节大小
offset: - 从符号起始位置的字节偏移量
kind: - 传输类型

Returns

cudaMemcpyToSymbol, cudaGraphAddMemcpyNode, cudaGraphAddMemcpyNodeFromSymbol, cudaGraphMemcpyNodeGetParams, cudaGraphMemcpyNodeSetParams, cudaGraphMemcpyNodeSetParamsToSymbol, cudaGraphMemcpyNodeSetParamsFromSymbol, cudaGraphCreate, cudaGraphDestroyNode, cudaGraphAddChildGraphNode, cudaGraphAddEmptyNode, cudaGraphAddKernelNode, cudaGraphAddHostNode, cudaGraphAddMemsetNode

Description

创建一个新的 memcpy 节点以复制到symbol复制，并使用通过graph指定的numDependencies依赖项将其添加到pDependencies。

中返回。当启动图时，节点将从count指向的内存区域复制src的起始位置偏移

字节到

指向的内存区域。内存区域可能不重叠。offset字节，从符号symbol. The memory areas may not overlap.symbolis a variable that resides in global or constant memory space.kind可以是 cudaMemcpyHostToDevice、 cudaMemcpyDeviceToDevice 或 cudaMemcpyDefault 之一。建议传递 cudaMemcpyDefault，在这种情况下，传输类型将从指针值推断。但是，只有在支持统一虚拟寻址的系统上才允许使用 cudaMemcpyDefault。

Note

如果系统包含至少一个设备，其设备属性 cudaDevAttrConcurrentManagedAccess 的值为零，则 Memcpy 节点在托管内存方面有一些额外的限制。
请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

template < class T > __host__ cudaError_t cudaGraphExecMemcpyNodeSetParamsFromSymbol ( cudaGraphExec_t hGraphExec, cudaGraphNode_t node, void* dst, const T& symbol, size_t count, size_t offset, cudaMemcpyKind kind ) [inline]

设置给定 graphExec 中 memcpy 节点的参数，以从设备上的符号复制。

Parameters

hGraphExec: - 要在其中设置指定节点的可执行图
node: - 来自用于实例化 graphExec 的图的 Memcpy 节点
dst: - 目标内存地址
symbol: - 设备符号地址
count: - 要复制的字节大小
offset: - 从符号起始位置的字节偏移量
kind: - 传输类型

Returns

cudaGraphAddMemcpyNode, cudaGraphAddMemcpyNodeFromSymbol, cudaGraphMemcpyNodeSetParams, cudaGraphMemcpyNodeSetParamsFromSymbol, cudaGraphInstantiate, cudaGraphExecMemcpyNodeSetParams, cudaGraphExecMemcpyNodeSetParamsToSymbol, cudaGraphExecKernelNodeSetParams, cudaGraphExecMemsetNodeSetParams, cudaGraphExecHostNodeSetParams

Description

更新由以下项表示的工作node在hGraphExec如同node在实例化时包含给定的参数一样。node必须保留在用于实例化的图中hGraphExec。更改了进出node的边将被忽略。

symbol和dst必须从与原始源和目标内存相同的上下文中分配。实例化时的内存操作数必须是一维的。不支持零长度操作。

修改仅影响未来的hGraphExec启动。hGraphExec已排队或正在运行的启动不受此调用的影响。node也不会被此调用修改。

如果内存操作数的映射已更改或原始内存操作数是多维的，则返回 cudaErrorInvalidValue。

Note

如果系统包含至少一个设备，其设备属性 cudaDevAttrConcurrentManagedAccess 的值为零，则 Memcpy 节点在托管内存方面有一些额外的限制。
请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

template < class T > __host__ cudaError_t cudaGraphExecMemcpyNodeSetParamsToSymbol ( cudaGraphExec_t hGraphExec, cudaGraphNode_t node, const T& symbol, const void* src, size_t count, size_t offset, cudaMemcpyKind kind ) [inline]

设置给定 graphExec 中 memcpy 节点的参数，以复制到设备上的符号。

Parameters

hGraphExec: - 要在其中设置指定节点的可执行图
node: - 来自用于实例化 graphExec 的图的 Memcpy 节点
symbol: - 设备符号地址
src: - 源内存地址
count: - 要复制的字节大小
offset: - 从符号起始位置的字节偏移量
kind: - 传输类型

Returns

cudaGraphAddMemcpyNode, cudaGraphAddMemcpyNodeToSymbol, cudaGraphMemcpyNodeSetParams, cudaGraphMemcpyNodeSetParamsToSymbol, cudaGraphInstantiate, cudaGraphExecMemcpyNodeSetParams, cudaGraphExecMemcpyNodeSetParamsFromSymbol, cudaGraphExecKernelNodeSetParams, cudaGraphExecMemsetNodeSetParams, cudaGraphExecHostNodeSetParams

Description

src和symbol必须从与原始源和目标内存相同的上下文中分配。实例化时的内存操作数必须是一维的。不支持零长度操作。

修改仅影响未来的hGraphExec启动。hGraphExec已排队或正在运行的启动不受此调用的影响。node也不会被此调用修改。

如果内存操作数的映射已更改或原始内存操作数是多维的，则返回 cudaErrorInvalidValue。

Note

如果系统包含至少一个设备，其设备属性 cudaDevAttrConcurrentManagedAccess 的值为零，则 Memcpy 节点在托管内存方面有一些额外的限制。
请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

__host__ cudaError_t cudaGraphInstantiate ( cudaGraphExec_t* pGraphExec, cudaGraph_t graph, cudaGraphNode_t* pErrorNode, char* pLogBuffer, size_t bufferSize )

从图中创建可执行图。

Parameters

pGraphExec: - 返回实例化的图
graph: - 要实例化的图
pErrorNode: - 如果发生实例化错误，则可以修改此项以指示导致错误的节点
pLogBuffer: - 用于存储诊断消息的字符缓冲区
bufferSize: - 日志缓冲区的大小（以字节为单位）

Returns

Description

实例化graph作为可执行图。该图会针对任何结构约束或先前未验证的节点内约束进行验证。如果实例化成功，则会在pGraphExec.

中返回实例化图的句柄。pErrorNode和pLogBuffer如果有任何错误，则可能会在

Note

如果系统包含至少一个设备，其设备属性 cudaDevAttrConcurrentManagedAccess 的值为零，则 Memcpy 节点在托管内存方面有一些额外的限制。
请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

中返回诊断信息。这是检查实例化错误的主要方法。除非诊断信息溢出缓冲区，否则输出将以 null 结尾。在这种情况下，它们将被截断，并且可以检查最后一个字节以确定是否发生了截断。

template < class T > cudaGraphInstantiateWithFlags, cudaGraphCreate, cudaGraphUpload, cudaGraphLaunch, cudaGraphExecDestroy

__host__ cudaError_t cudaGraphMemcpyNodeSetParamsFromSymbol ( cudaGraphNode_t node, void* dst, const T& symbol, size_t count, size_t offset, cudaMemcpyKind kind ) [inline]

Parameters

node: - 要设置参数的节点
dst: - 目标内存地址
symbol: - 设备符号地址
count: - 要复制的字节大小
offset: - 从符号起始位置的字节偏移量
kind: - 传输类型

Returns

cudaMemcpyFromSymbol, cudaGraphMemcpyNodeSetParams, cudaGraphMemcpyNodeSetParamsToSymbol, cudaGraphAddMemcpyNode, cudaGraphMemcpyNodeGetParams

Description

设置 memcpy 节点的参数node为提供的参数描述的复制。

中返回。当启动图时，节点将从count指向的内存区域复制offset字节，从符号symbol的起始位置偏移

字节到

Note

如果系统包含至少一个设备，其设备属性 cudaDevAttrConcurrentManagedAccess 的值为零，则 Memcpy 节点在托管内存方面有一些额外的限制。
请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

template < class T > __host__ cudaError_t cudaGraphMemcpyNodeSetParamsToSymbol ( cudaGraphNode_t node, const T& symbol, const void* src, size_t count, size_t offset, cudaMemcpyKind kind ) [inline]

设置 memcpy 节点的参数，以复制到设备上的符号。

Parameters

node: - 要设置参数的节点
symbol: - 设备符号地址
src: - 源内存地址
count: - 要复制的字节大小
offset: - 从符号起始位置的字节偏移量
kind: - 传输类型

Returns

cudaMemcpyToSymbol, cudaGraphMemcpyNodeSetParams, cudaGraphMemcpyNodeSetParamsFromSymbol, cudaGraphAddMemcpyNode, cudaGraphMemcpyNodeGetParams

Description

设置 memcpy 节点的参数node为提供的参数描述的复制。

中返回。当启动图时，节点将从count指向的内存区域复制src的起始位置偏移

字节到

Note

如果系统包含至少一个设备，其设备属性 cudaDevAttrConcurrentManagedAccess 的值为零，则 Memcpy 节点在托管内存方面有一些额外的限制。
请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

template < class T >
__host__ cudaError_t cudaLaunchCooperativeKernel ( T* func, dim3 gridDim, dim3 blockDim, void** args, size_t sharedMem = 0, cudaStream_t stream = 0 ) [inline]

启动设备函数。

Parameters

func: - 设备函数符号
gridDim: - 网格维度
blockDim: - 块维度
args: - 参数
sharedMem: - 共享内存（默认为 0）
stream: - 流标识符（默认为 NULL）

Returns

cudaSuccess, cudaErrorInvalidDeviceFunction, cudaErrorInvalidConfiguration, cudaErrorLaunchFailure, cudaErrorLaunchTimeout, cudaErrorLaunchOutOfResources, cudaErrorSharedObjectInitFailed

Description

该函数在func上调用内核gridDim (gridDim.xgridDim.ygridDim.z）网格的块。每个块包含blockDim (blockDim.xblockDim.yblockDim.z）线程。

调用此内核的设备必须具有设备属性 cudaDevAttrCooperativeLaunch 的非零值。

启动的块总数不能超过每个多处理器最大块数（由 cudaOccupancyMaxActiveBlocksPerMultiprocessor （或 cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags）返回）乘以设备属性 cudaDevAttrMultiProcessorCount 指定的多处理器数量。

内核不能使用 CUDA 动态并行性。

如果内核有 N 个参数，则args应指向 N 个指针的数组。每个指针，从args[0]到args[N - 1]，指向将从中复制实际参数的内存区域。

sharedMem设置每个线程块可用的动态共享内存量。

stream指定与调用关联的流。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
对于大多数用例，此函数都表现出异步行为。
此函数使用标准默认流语义。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。
该 API 也可与内核 cudaKernel_t 一起使用，方法是使用 cudaLibraryGetKernel() 或 cudaGetKernel 查询句柄，然后通过强制转换为 void* 将其传递给 API。传递给 cudaGetKernel 的符号entryFuncAddr应该是向同一 CUDA 运行时实例注册的符号。
传递属于不同运行时实例的符号将导致未定义的行为。唯一可以可靠地传递给不同运行时实例的类型是 cudaKernel_t

cudaLaunchCooperativeKernel (C API)

template < class T >
__host__ cudaError_t cudaLaunchKernel ( T* func, dim3 gridDim, dim3 blockDim, void** args, size_t sharedMem = 0, cudaStream_t stream = 0 ) [inline]

启动设备函数。

Parameters

func: - 设备函数符号
gridDim: - 网格维度
blockDim: - 块维度
args: - 参数
sharedMem: - 共享内存（默认为 0）
stream: - 流标识符（默认为 NULL）

Returns

cudaSuccess, cudaErrorInvalidDeviceFunction, cudaErrorInvalidConfiguration, cudaErrorLaunchFailure, cudaErrorLaunchTimeout, cudaErrorLaunchOutOfResources, cudaErrorSharedObjectInitFailed, cudaErrorInvalidPtx, cudaErrorUnsupportedPtxVersion, cudaErrorNoKernelImageForDevice, cudaErrorJitCompilerNotFound, cudaErrorJitCompilationDisabled

Description

该函数在func上调用内核gridDim (gridDim.xgridDim.ygridDim.z）网格的块。每个块包含blockDim (blockDim.xblockDim.yblockDim.z）线程。

如果内核有 N 个参数，则args应指向 N 个指针的数组。每个指针，从args[0]到args[N - 1]，指向将从中复制实际参数的内存区域。

sharedMem设置每个线程块可用的动态共享内存量。

stream指定与调用关联的流。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
对于大多数用例，此函数都表现出异步行为。
此函数使用标准默认流语义。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。
该 API 也可与内核 cudaKernel_t 一起使用，方法是使用 cudaLibraryGetKernel() 或 cudaGetKernel 查询句柄，然后通过强制转换为 void* 将其传递给 API。传递给 cudaGetKernel 的符号entryFuncAddr应该是向同一 CUDA 运行时实例注册的符号。
传递属于不同运行时实例的符号将导致未定义的行为。唯一可以可靠地传递给不同运行时实例的类型是 cudaKernel_t

cudaLaunchKernel (C API)

template < typename... ActTypes > __host__ cudaError_t cudaLaunchKernelEx ( const cudaLaunchConfig_t* config, const cudaKernel_t kernel, ActTypes &&... args ) [inline]

使用启动时配置启动 CUDA 函数。

Parameters

config: - 启动配置
kernel
args: - 内核参数的参数包

Returns

Description

调用内核kernel上调用内核config->gridDim (config->gridDim.xconfig->gridDim.yconfig->gridDim.z）网格的块。每个块包含config->blockDim (config->blockDim.xconfig->blockDim.yconfig->blockDim.z）线程。

config->dynamicSmemBytes设置每个线程块可用的动态共享内存量。

config->stream指定与调用关联的流。

超出网格和块维度、动态共享内存大小和流的配置可以使用config

config->attrs的以下两个字段提供config->numAttrs是 cudaLaunchAttribute 元素的连续数组。如果config->numAttrs为零，则不考虑此指针的值。但是，在这种情况下，建议将指针设置为 NULL。config->numAttrs是填充第一个config->numAttrs位置的属性数量config->attrs数组。

内核参数应通过args参数包作为参数传递给此函数。

此函数的 C API 版本cudaLaunchKernelExC也可用于 pre-C++11 编译器以及在需要通过 void* 数组传递内核参数的用例中。

Note

此函数使用标准默认流语义。
请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaLaunchKernelEx (C API), cuLaunchKernelEx

template < typename... ExpTypes, typename... ActTypes > __host__ cudaError_t cudaLaunchKernelEx ( const cudaLaunchConfig_t* config, void(*)(ExpTypes...) kernel, ActTypes &&... args ) [inline]

使用启动时配置启动 CUDA 函数。

Parameters

config: - 启动配置
kernel: - 要启动的内核
args: - 内核参数的参数包

Returns

Description

config->dynamicSmemBytes设置每个线程块可用的动态共享内存量。

config->stream指定与调用关联的流。

超出网格和块维度、动态共享内存大小和流的配置可以使用config

内核参数应通过args参数包作为参数传递给此函数。

此函数的 C API 版本cudaLaunchKernelExC也可用于 pre-C++11 编译器以及在需要通过 void* 数组传递内核参数的用例中。

Note

此函数使用标准默认流语义。
请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。
该 API 也可与内核 cudaKernel_t 一起使用，方法是使用 cudaLibraryGetKernel() 或 cudaGetKernel 查询句柄，然后通过强制转换为 void* 将其传递给 API。传递给 cudaGetKernel 的符号entryFuncAddr应该是向同一 CUDA 运行时实例注册的符号。
传递属于不同运行时实例的符号将导致未定义的行为。唯一可以可靠地传递给不同运行时实例的类型是 cudaKernel_t

另请参阅

cudaLaunchKernelEx (C API), cuLaunchKernelEx

template < class T >
__host__ cudaError_t cudaLibraryGetGlobal ( T** dptr, size_t* bytes, cudaLibrary_t library, const char* name ) [inline]

返回全局设备指针。

Parameters

dptr: - 为请求的库返回的全局设备指针
bytes: - 返回的全局大小（以字节为单位）
library: - 从中检索全局变量的库
name: - 要检索的全局变量的名称

Returns

cudaSuccess, cudaErrorCudartUnloading, cudaErrorInitializationError, cudaErrorInvalidValue, cudaErrorInvalidResourceHandle, cudaErrorSymbolNotFound cudaErrorDeviceUninitialized, cudaErrorContextIsDestroyed

Description

在*dptr和*bytes请求的库的名称为name的全局变量的基本指针和大小library以及当前设备。如果请求的名称name不存在全局变量，则调用返回 cudaErrorSymbolNotFound。参数之一dptr或bytes（不能同时为 NULL）可以为 NULL，在这种情况下，它将被忽略。

另请参阅

cudaLibraryLoadData, cudaLibraryLoadFromFile, cudaLibraryUnload, cudaLibraryGetManaged

template < class T >
__host__ cudaError_t cudaLibraryGetManaged ( T** dptr, size_t* bytes, cudaLibrary_t library, const char* name ) [inline]

返回指向托管内存的指针。

Parameters

dptr: - 返回指向托管内存的指针
bytes: - 返回的内存大小（字节）
library: - 从哪个库检索托管内存
name: - 要检索的托管内存的名称

Returns

cudaSuccess, cudaErrorCudartUnloading, cudaErrorInitializationError, cudaErrorInvalidValue, cudaErrorInvalidResourceHandle, cudaErrorSymbolNotFound

Description

在*dptr和*bytes具有指定名称的托管内存的基指针和大小name的全局变量的基本指针和大小library。如果没有具有请求名称的托管内存name不存在全局变量，则调用返回 cudaErrorSymbolNotFound。参数之一dptr或bytes（不能同时为 NULL），在这种情况下将被忽略。请注意，库的托管内存library在设备之间共享，并在库加载时注册。

另请参阅

cudaLibraryLoadData, cudaLibraryLoadFromFile, cudaLibraryUnload, cudaLibraryGetGlobal

template < class T >
__host__ cudaError_t cudaLibraryGetUnifiedFunction ( T** fptr, cudaLibrary_t library, const char* symbol ) [inline]

返回指向统一函数的指针。

Parameters

fptr: - 返回指向统一函数的指针
library: - 从哪个库检索函数指针内存
symbol: - 要检索的函数指针的名称

Returns

cudaSuccess, cudaErrorCudartUnloading, cudaErrorInitializationError, cudaErrorInvalidValue, cudaErrorInvalidResourceHandle, cudaErrorSymbolNotFound

Description

在*fptr指向由以下项表示的统一函数的函数指针symbol。如果不存在具有名称的统一函数symbol，则调用返回 cudaErrorSymbolNotFound。如果系统中没有具有属性 cudaDeviceProp::unifiedFunctionPointers 的设备，则调用可能返回 cudaErrorSymbolNotFound。

另请参阅

cudaLibraryLoadData, cudaLibraryLoadFromFile, cudaLibraryUnload

__host__ cudaError_t cudaMallocAsync ( void** ptr, size_t size, cudaMemPool_t memPool, cudaStream_t stream )

从内存池分配。

Description

这是 cudaMallocFromPoolAsync 的另一种拼写方式，通过函数重载提供。

另请参阅

cudaMallocFromPoolAsync, cudaMallocAsync ( C API)

__host__ cudaError_t cudaMallocHost ( void** ptr, size_t size, unsigned int flags )

[C++ API] 在主机上分配页锁定内存

Parameters

ptr: - 指向已分配内存的设备指针
size: - 请求的分配大小（字节）
flags: - 请求的已分配内存的属性

Returns

cudaSuccess, cudaErrorMemoryAllocation

Description

分配size字节的主机内存，该内存是页锁定的，并且设备可以访问。驱动程序跟踪使用此函数分配的虚拟内存范围，并自动加速对 cudaMemcpy() 等函数的调用。由于设备可以直接访问内存，因此与使用 malloc() 等函数获得的可分页内存相比，可以以更高的带宽读取或写入内存。分配过多的固定内存可能会降低系统性能，因为它减少了系统可用于分页的内存量。因此，此函数最好谨慎使用，以分配主机和设备之间数据交换的暂存区。

的flags参数允许指定影响分配的不同选项，如下所示。

cudaHostAllocDefault：此标志的值定义为 0。
cudaHostAllocPortable：此调用返回的内存将被所有 CUDA 上下文视为固定内存，而不仅仅是执行分配的上下文。
cudaHostAllocMapped：将分配映射到 CUDA 地址空间。可以通过调用 cudaHostGetDevicePointer() 来获取指向内存的设备指针。
cudaHostAllocWriteCombined：将内存分配为写组合 (WC)。在某些系统配置中，WC 内存可以通过 PCI Express 总线更快地传输，但大多数 CPU 无法有效地读取 WC 内存。对于将由 CPU 写入并通过映射的固定内存或主机->设备传输由设备读取的缓冲区，WC 内存是一个不错的选择。

所有这些标志彼此正交：开发人员可以分配便携式、映射和/或写组合的内存，而没有任何限制。

cudaSetDeviceFlags() 必须已使用 cudaDeviceMapHost 标志调用，以便 cudaHostAllocMapped 标志生效。

对于不支持映射的固定内存的设备，可以在 CUDA 上下文中指定 cudaHostAllocMapped 标志。失败会延迟到 cudaHostGetDevicePointer()，因为内存可以通过 cudaHostAllocPortable 标志映射到其他 CUDA 上下文中。

由此函数分配的内存必须使用 cudaFreeHost() 释放。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaSetDeviceFlags, cudaMallocHost ( C API), cudaFreeHost, cudaHostAlloc

template < class T >
__host__ cudaError_t cudaMallocManaged ( T** devPtr, size_t size, unsigned int flags = cudaMemAttachGlobal ) [inline]

分配将由统一内存系统自动管理的内存。

Parameters

devPtr: - 指向已分配设备内存的指针
size: - 请求的分配大小（字节）
flags: - 必须是 cudaMemAttachGlobal 或 cudaMemAttachHost 之一（默认为 cudaMemAttachGlobal）

Returns

cudaSuccess, cudaErrorMemoryAllocation, cudaErrorNotSupported, cudaErrorInvalidValue

Description

分配size设备上的托管内存字节数，并在*devPtr中返回指向已分配内存的指针。如果设备不支持分配托管内存，则返回 cudaErrorNotSupported。可以使用设备属性 cudaDevAttrManagedMemory 查询对托管内存的支持。分配的内存适当地对齐，可以用于任何类型的变量。内存未被清除。如果size为 0，则 cudaMallocManaged 返回 cudaErrorInvalidValue。该指针在 CPU 和系统中所有支持托管内存的 GPU 上均有效。对此指针的所有访问都必须遵守统一内存编程模型。

flags指定此分配的默认流关联。flags必须是 cudaMemAttachGlobal 或 cudaMemAttachHost 之一。的默认值为flags是 cudaMemAttachGlobal。如果指定了 cudaMemAttachGlobal，则可以从任何设备上的任何流访问此内存。如果指定了 cudaMemAttachHost，则不应从设备属性 cudaDevAttrConcurrentManagedAccess 的值为零的设备访问分配；将需要显式调用 cudaStreamAttachMemAsync 以启用对此类设备的访问。

如果稍后通过 cudaStreamAttachMemAsync 将关联更改为单个流，则在销毁该流时，将恢复在 cudaMallocManaged 期间指定的默认关联。对于 __managed__ 变量，默认关联始终为 cudaMemAttachGlobal。请注意，销毁流是一个异步操作，因此，只有在该流中的所有工作完成后，才会发生更改为默认关联的情况。

使用 cudaMallocManaged 分配的内存应使用 cudaFree 释放。

对于设备属性 cudaDevAttrConcurrentManagedAccess 的值非零的 GPU，设备内存可能会过度分配。为了给其他分配腾出空间，统一内存驱动程序可以随时将此类 GPU 上的托管内存从设备内存中逐出到主机内存中。

在所有 GPU 的设备属性 cudaDevAttrConcurrentManagedAccess 的值均为非零的多 GPU 系统中，托管内存可能不会在此 API 返回时填充，而可能在访问时填充。在此类系统中，托管内存可以随时迁移到任何处理器的内存中。统一内存驱动程序将采用启发式方法来维护数据局部性，并在最大程度上防止过多的页错误。应用程序还可以通过 cudaMemAdvise 指导驱动程序了解内存使用模式。应用程序还可以通过 cudaMemPrefetchAsync 将内存显式迁移到所需的处理器内存。

在所有 GPU 的设备属性 cudaDevAttrConcurrentManagedAccess 的值为零，并且所有 GPU 彼此之间都具有对等支持的多 GPU 系统中，托管内存的物理存储在调用 cudaMallocManaged 时处于活动状态的 GPU 上创建。所有其他 GPU 将通过 PCIe 总线上的对等映射以降低的带宽引用数据。统一内存驱动程序不会在此类 GPU 之间迁移内存。

在并非所有 GPU 彼此之间都具有对等支持，并且设备属性 cudaDevAttrConcurrentManagedAccess 的值对于至少一个 GPU 为零的多 GPU 系统中，为托管内存选择的物理存储位置取决于系统。

在 Linux 上，只要当前活动上下文集位于彼此具有对等支持或设备属性 cudaDevAttrConcurrentManagedAccess 的值非零的设备上，选择的位置将是设备内存。如果 GPU 上存在活动上下文，该 GPU 的设备属性的值非零，并且它与其他具有活动上下文的设备不具有对等支持，则物理存储的位置将为“零复制”或主机内存。请注意，这意味着如果在新 GPU 上创建不具有非零设备属性值且不支持与至少一个其他具有活动上下文的设备对等连接的上下文，则位于设备内存中的托管内存将迁移到主机内存。这反过来意味着，如果主机内存不足以迁移所有托管分配，则上下文创建可能会失败。
在 Windows 上，物理存储始终在“零复制”或主机内存中创建。所有 GPU 将通过 PCIe 总线以降低的带宽引用数据。在这种情况下，建议使用环境变量 CUDA_VISIBLE_DEVICES 来限制 CUDA 仅使用那些具有对等支持的 GPU。或者，用户还可以将 CUDA_MANAGED_FORCE_DEVICE_ALLOC 设置为非零值，以强制驱动程序始终将设备内存用于物理存储。当此环境变量设置为非零值时，该进程中使用的所有支持托管内存的设备都必须彼此对等兼容。如果使用了支持托管内存的设备，但该设备与该进程中先前使用的任何其他支持托管内存的设备都不对等兼容，即使已在这些设备上调用了 cudaDeviceReset，也会返回错误 cudaErrorInvalidDevice。这些环境变量在 CUDA 编程指南的“CUDA 环境变量”部分中进行了描述。
在 ARM 上，Drive PX-2 的独立 GPU 上不提供托管内存。

Note

请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaMallocPitch, cudaFree, cudaMallocArray, cudaFreeArray, cudaMalloc3D, cudaMalloc3DArray, cudaMallocHost ( C API), cudaFreeHost, cudaHostAlloc, cudaDeviceGetAttribute, cudaStreamAttachMemAsync

template < class T > cudaError_t cudaMemAdvise ( T* devPtr, size_t count, cudaMemoryAdvise advice, cudaMemLocation location ) [inline]

就给定内存范围的使用提供建议。

Description

这是 cudaMemAdvise 的另一种拼写方式，通过函数重载提供。

另请参阅

cudaMemAdvise, cudaMemAdvise (C API)

template < typename T, typename U >
__host__ cudaError_t cudaMemcpyBatchAsync ( T** dsts, U** srcs, size_t* sizes, size_t count, cudaMemcpyAttributes attr, size_t* failIdx, cudaStream_t hStream ) [inline]

异步执行一批内存复制。

Description

这是 cudaMemcpyBatchAsync 的另一种拼写方式，通过函数重载提供。

由attr指定的 cudaMemcpyAttributes 适用于批处理中指定的所有副本。

另请参阅

cudaMemcpyBatchAsync

template < typename T, typename U >
__host__ cudaError_t cudaMemcpyBatchAsync ( T** dsts, U** srcs, size_t* sizes, size_t count, cudaMemcpyAttributes* attrs, size_t* attrsIdxs, size_t numAttrs, size_t* failIdx, cudaStream_t hStream ) [inline]

异步执行一批内存复制。

Description

这是 cudaMemcpyBatchAsync 的另一种拼写方式，通过函数重载提供。

另请参阅

cudaMemcpyBatchAsync

template < class T > __host__ cudaError_t cudaMemcpyFromSymbol ( void* dst, const T& symbol, size_t count, size_t offset = 0, cudaMemcpyKind kind = cudaMemcpyDeviceToHost ) [inline]

[C++ API] 从设备上的给定符号复制数据

Parameters

dst: - 目标内存地址
symbol: - 设备符号引用
count: - 要复制的字节大小
offset: - 从符号起始位置的字节偏移量
kind: - 传输类型

Returns

cudaSuccess, cudaErrorInvalidValue, cudaErrorInvalidSymbol, cudaErrorInvalidMemcpyDirection, cudaErrorNoKernelImageForDevice

Description

从内存区域复制count字节offset字节，从符号symbol的起始位置偏移

字节到

指向的内存区域。内存区域可能不重叠。dst. The memory areas may not overlap.symbolis a variable that resides in global or constant memory space.kind可以是 cudaMemcpyDeviceToHost 或 cudaMemcpyDeviceToDevice。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
对于大多数用例，此函数表现出同步行为。
在 CUDA 4.1 中，不推荐使用字符串命名变量作为symbol参数，并在 CUDA 5.0 中删除。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaMemcpy, cudaMemcpy2D, cudaMemcpy2DToArray, cudaMemcpy2DFromArray, cudaMemcpy2DArrayToArray, cudaMemcpyToSymbol, cudaMemcpyAsync, cudaMemcpy2DAsync, cudaMemcpy2DToArrayAsync, cudaMemcpy2DFromArrayAsync, cudaMemcpyToSymbolAsync, cudaMemcpyFromSymbolAsync

template < class T > __host__ cudaError_t cudaMemcpyFromSymbolAsync ( void* dst, const T& symbol, size_t count, size_t offset = 0, cudaMemcpyKind kind = cudaMemcpyDeviceToHost, cudaStream_t stream = 0 ) [inline]

[C++ API] 从设备上的给定符号复制数据

Parameters

dst: - 目标内存地址
symbol: - 设备符号引用
count: - 要复制的字节大小
offset: - 从符号起始位置的字节偏移量
kind: - 传输类型
stream: - 流标识符

Returns

cudaSuccess, cudaErrorInvalidValue, cudaErrorInvalidSymbol, cudaErrorInvalidMemcpyDirection, cudaErrorNoKernelImageForDevice

Description

从内存区域复制count字节offset字节，从符号symbol的起始位置偏移

字节到

cudaMemcpyFromSymbolAsync() 相对于主机是异步的，因此调用可能在复制完成之前返回。可以通过传递非零stream参数，选择性地将复制操作与流关联。如果kind是 cudaMemcpyDeviceToHost 且stream为非零值，则复制操作可能与其他流中的操作重叠。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
对于大多数用例，此函数都表现出异步行为。
在 CUDA 4.1 中，不推荐使用字符串命名变量作为symbol参数，并在 CUDA 5.0 中删除。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaMemcpy, cudaMemcpy2D, cudaMemcpy2DToArray, cudaMemcpy2DFromArray, cudaMemcpy2DArrayToArray, cudaMemcpyToSymbol, cudaMemcpyFromSymbol, cudaMemcpyAsync, cudaMemcpy2DAsync, cudaMemcpy2DToArrayAsync, cudaMemcpy2DFromArrayAsync, cudaMemcpyToSymbolAsync

template < class T > __host__ cudaError_t cudaMemcpyToSymbol ( const T& symbol, const void* src, size_t count, size_t offset = 0, cudaMemcpyKind kind = cudaMemcpyHostToDevice ) [inline]

[C++ API] 将数据复制到设备上的给定符号

Parameters

symbol: - 设备符号引用
src: - 源内存地址
count: - 要复制的字节大小
offset: - 从符号起始位置的字节偏移量
kind: - 传输类型

Returns

cudaSuccess, cudaErrorInvalidValue, cudaErrorInvalidSymbol, cudaErrorInvalidMemcpyDirection, cudaErrorNoKernelImageForDevice

Description

从内存区域复制count指向的内存区域复制src到内存区域offset字节，从符号symbol. The memory areas may not overlap.symbolis a variable that resides in global or constant memory space.kind可以是 cudaMemcpyHostToDevice 或 cudaMemcpyDeviceToDevice。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
对于大多数用例，此函数表现出同步行为。
在 CUDA 4.1 中，不推荐使用字符串命名变量作为symbol参数，并在 CUDA 5.0 中删除。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaMemcpy, cudaMemcpy2D, cudaMemcpy2DToArray, cudaMemcpy2DFromArray, cudaMemcpy2DArrayToArray, cudaMemcpyFromSymbol, cudaMemcpyAsync, cudaMemcpy2DAsync, cudaMemcpy2DToArrayAsync, cudaMemcpy2DFromArrayAsync, cudaMemcpyToSymbolAsync, cudaMemcpyFromSymbolAsync

template < class T > __host__ cudaError_t cudaMemcpyToSymbolAsync ( const T& symbol, const void* src, size_t count, size_t offset = 0, cudaMemcpyKind kind = cudaMemcpyHostToDevice, cudaStream_t stream = 0 ) [inline]

[C++ API] 将数据复制到设备上的给定符号

Parameters

symbol: - 设备符号引用
src: - 源内存地址
count: - 要复制的字节大小
offset: - 从符号起始位置的字节偏移量
kind: - 传输类型
stream: - 流标识符

Returns

cudaSuccess, cudaErrorInvalidValue, cudaErrorInvalidSymbol, cudaErrorInvalidMemcpyDirection, cudaErrorNoKernelImageForDevice

Description

cudaMemcpyToSymbolAsync() 相对于主机是异步的，因此调用可能在复制完成之前返回。可以通过传递非零值将复制操作与流关联stream参数，选择性地将复制操作与流关联。如果kind是 cudaMemcpyHostToDevice 和stream为非零值，则复制操作可能与其他流中的操作重叠。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
对于大多数用例，此函数都表现出异步行为。
在 CUDA 4.1 中，不推荐使用字符串命名变量作为symbol参数，并在 CUDA 5.0 中删除。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

template < class T > __host__ cudaError_t cudaOccupancyAvailableDynamicSMemPerBlock ( size_t* dynamicSmemSize, T* func, int numBlocks, int blockSize ) [inline]

返回每个块在启动时可用的动态共享内存numBlocks在 SM 上的块。

Parameters

dynamicSmemSize: - 返回的最大动态共享内存
func: - 用于计算占用率的内核函数
numBlocks: - 适合在 SM 上的块数
blockSize: - 块的大小

Returns

cudaSuccess, cudaErrorInvalidDevice, cudaErrorInvalidDeviceFunction, cudaErrorInvalidValue, cudaErrorUnknown,

Description

在*dynamicSmemSize允许的动态共享内存的最大大小numBlocks每个 SM 的块。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。
该 API 也可与内核 cudaKernel_t 一起使用，方法是使用 cudaLibraryGetKernel() 或 cudaGetKernel 查询句柄，然后通过强制转换为 void* 将其传递给 API。传递给 cudaGetKernel 的符号entryFuncAddr应该是向同一 CUDA 运行时实例注册的符号。
传递属于不同运行时实例的符号将导致未定义的行为。唯一可以可靠地传递给不同运行时实例的类型是 cudaKernel_t

另请参阅

cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags

cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags

template < class T > __host__ cudaError_t cudaOccupancyMaxActiveBlocksPerMultiprocessor ( int* numBlocks, T func, int blockSize, size_t dynamicSMemSize ) [inline]

返回设备函数的占用率。

Parameters

numBlocks: - 返回的占用率
func: - 用于计算占用率的内核函数
blockSize: - 内核计划启动的块大小
dynamicSMemSize: - 计划的每块动态共享内存使用量，以字节为单位

Returns

cudaSuccess, cudaErrorInvalidDevice, cudaErrorInvalidDeviceFunction, cudaErrorInvalidValue, cudaErrorUnknown,

Description

在*numBlocks设备函数的每个流式多处理器允许的最大活动块数。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。
该 API 也可与内核 cudaKernel_t 一起使用，方法是使用 cudaLibraryGetKernel() 或 cudaGetKernel 查询句柄，然后通过强制转换为 void* 将其传递给 API。传递给 cudaGetKernel 的符号entryFuncAddr应该是向同一 CUDA 运行时实例注册的符号。
传递属于不同运行时实例的符号将导致未定义的行为。唯一可以可靠地传递给不同运行时实例的类型是 cudaKernel_t

另请参阅

cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags

cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags

cudaSuccess, cudaErrorInvalidDevice, cudaErrorInvalidDeviceFunction, cudaErrorInvalidValue, cudaErrorUnknown,

template < class T > __host__ cudaError_t cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags ( int* numBlocks, T func, int blockSize, size_t dynamicSMemSize, unsigned int flags ) [inline]

返回具有指定标志的设备函数的占用率。

Parameters

numBlocks: - 返回的占用率
func: - 用于计算占用率的内核函数
blockSize: - 内核计划启动的块大小
dynamicSMemSize: - 计划的每块动态共享内存使用量，以字节为单位
flags: - 占用率计算器的请求行为

Returns

Description

在*numBlocks设备函数的每个流式多处理器允许的最大活动块数。

的flags参数控制如何处理特殊情况。有效的标志包括

cudaOccupancyDefault: 保留默认行为，如同 cudaOccupancyMaxActiveBlocksPerMultiprocessor

cudaOccupancyDisableCachingOverride: 在全局缓存影响占用率的平台上，抑制默认行为。在此类平台上，如果启用了缓存，但每块 SM 资源使用会导致零占用率，则占用率计算器将计算禁用缓存时的占用率。设置此标志会使占用率计算器在这种情况下返回 0。有关此功能的更多信息，请参见 Maxwell 调优指南的“Unified L1/Texture Cache”部分。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。
该 API 也可与内核 cudaKernel_t 一起使用，方法是使用 cudaLibraryGetKernel() 或 cudaGetKernel 查询句柄，然后通过强制转换为 void* 将其传递给 API。传递给 cudaGetKernel 的符号entryFuncAddr应该是向同一 CUDA 运行时实例注册的符号。
传递属于不同运行时实例的符号将导致未定义的行为。唯一可以可靠地传递给不同运行时实例的类型是 cudaKernel_t

另请参阅

cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags

cudaSuccess, cudaErrorInvalidDeviceFunction, cudaErrorInvalidValue, cudaErrorInvalidClusterSize, cudaErrorUnknown,

template < class T > __host__ cudaError_t cudaOccupancyMaxActiveClusters ( int* numClusters, T* func, const cudaLaunchConfig_t* config ) [inline]

给定内核函数 (func) 和启动配置 (config)，返回目标设备上可以共存的最大集群数，结果在*numClusters.

Parameters

numClusters: - 返回的目标设备上可以共存的最大集群数
func: - 用于计算最大集群数的内核函数
config: - 给定内核函数的启动配置

Returns

Description

如果函数已设置所需的集群大小（参见 cudaFuncGetAttributes），则配置中的集群大小必须是未指定的，或者与所需大小匹配。如果没有所需大小，则必须在配置中指定集群大小，否则该函数将返回错误。

请注意，内核函数的各种属性可能会影响占用率计算。运行时环境可能会影响硬件如何调度集群，因此无法保证计算出的占用率是可实现的。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。
该 API 也可与内核 cudaKernel_t 一起使用，方法是使用 cudaLibraryGetKernel() 或 cudaGetKernel 查询句柄，然后通过强制转换为 void* 将其传递给 API。传递给 cudaGetKernel 的符号entryFuncAddr应该是向同一 CUDA 运行时实例注册的符号。
传递属于不同运行时实例的符号将导致未定义的行为。唯一可以可靠地传递给不同运行时实例的类型是 cudaKernel_t

另请参阅

cudaFuncGetAttributes

template < class T > __host__ cudaError_t cudaOccupancyMaxPotentialBlockSize ( int* minGridSize, int* blockSize, T func, size_t dynamicSMemSize = 0, int blockSizeLimit = 0 ) [inline]

返回为设备函数实现最大潜在占用率的网格大小和块大小。

Parameters

minGridSize: - 返回的实现最佳潜在占用率所需的最小网格大小
blockSize: - 返回的块大小
func: - 设备函数符号
dynamicSMemSize: - 计划的每块动态共享内存使用量，以字节为单位
blockSizeLimit: - 最大块大小func旨在与之配合使用。 0 表示没有限制。

Returns

cudaSuccess, cudaErrorInvalidDevice, cudaErrorInvalidDeviceFunction, cudaErrorInvalidValue, cudaErrorUnknown,

Description

在*minGridSize和*blocksize建议的网格/块大小对，可实现最佳潜在占用率（即，最大数量的活动 warp 和最小数量的块）。

使用

另请参阅

cudaOccupancyMaxPotentialBlockSizeVariableSMem，如果每块动态共享内存量随不同的块大小而变化。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags

cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags

cudaSuccess, cudaErrorInvalidDevice, cudaErrorInvalidDeviceFunction, cudaErrorInvalidValue, cudaErrorUnknown,

template < typename UnaryFunction, class T > __host__ cudaError_t cudaOccupancyMaxPotentialBlockSizeVariableSMem ( int* minGridSize, int* blockSize, T func, UnaryFunction blockSizeToDynamicSMemSize, int blockSizeLimit = 0 ) [inline]

返回为设备函数实现最大潜在占用率的网格大小和块大小。

Parameters

minGridSize: - 返回的实现最佳潜在占用率所需的最小网格大小
blockSize: - 返回的块大小
func: - 设备函数符号
blockSizeToDynamicSMemSize: - 接受块大小并返回块所需的动态共享内存大小（以字节为单位）的一元函数/仿函数
blockSizeLimit: - 最大块大小func旨在与之配合使用。 0 表示没有限制。

Returns

Description

在*minGridSize和*blocksize建议的网格/块大小对，可实现最佳潜在占用率（即，最大数量的活动 warp 和最小数量的块）。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags

cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags

cudaSuccess, cudaErrorInvalidDevice, cudaErrorInvalidDeviceFunction, cudaErrorInvalidValue, cudaErrorUnknown,

template < typename UnaryFunction, class T > __host__ cudaError_t cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags ( int* minGridSize, int* blockSize, T func, UnaryFunction blockSizeToDynamicSMemSize, int blockSizeLimit = 0, unsigned int flags = 0 ) [inline]

返回为设备函数实现最大潜在占用率的网格大小和块大小。

Parameters

minGridSize: - 返回的实现最佳潜在占用率所需的最小网格大小
blockSize: - 返回的块大小
func: - 设备函数符号
blockSizeToDynamicSMemSize: - 接受块大小并返回块所需的动态共享内存大小（以字节为单位）的一元函数/仿函数
blockSizeLimit: - 最大块大小func旨在与之配合使用。 0 表示没有限制。
flags: - 占用率计算器的请求行为

Returns

Description

在*minGridSize和*blocksize建议的网格/块大小对，可实现最佳潜在占用率（即，最大数量的活动 warp 和最小数量的块）。

的flags参数控制如何处理特殊情况。有效的标志包括

cudaOccupancyDefault: 保留默认行为，如同 cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags

cudaOccupancyDisableCachingOverride: 此标志在全局缓存影响占用率的平台上，抑制默认行为。在此类平台上，如果启用了缓存，但每块 SM 资源使用会导致零占用率，则占用率计算器将计算禁用缓存时的占用率。设置此标志会使占用率计算器在这种情况下返回 0。有关此功能的更多信息，请参见 Maxwell 调优指南的“Unified L1/Texture Cache”部分。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags

cudaSuccess, cudaErrorInvalidDevice, cudaErrorInvalidDeviceFunction, cudaErrorInvalidValue, cudaErrorUnknown,

template < class T > __host__ cudaError_t cudaOccupancyMaxPotentialBlockSizeWithFlags ( int* minGridSize, int* blockSize, T func, size_t dynamicSMemSize = 0, int blockSizeLimit = 0, unsigned int flags = 0 ) [inline]

返回为具有指定标志的设备函数实现最大潜在占用率的网格大小和块大小。

Parameters

minGridSize: - 返回的实现最佳潜在占用率所需的最小网格大小
blockSize: - 返回的块大小
func: - 设备函数符号
dynamicSMemSize: - 计划的每块动态共享内存使用量，以字节为单位
blockSizeLimit: - 最大块大小func旨在与之配合使用。 0 表示没有限制。
flags: - 占用率计算器的请求行为

Returns

Description

在*minGridSize和*blocksize建议的网格/块大小对，可实现最佳潜在占用率（即，最大数量的活动 warp 和最小数量的块）。

的flags参数控制如何处理特殊情况。有效的标志包括

cudaOccupancyDefault: 保留默认行为，如同 cudaOccupancyMaxPotentialBlockSize

cudaOccupancyDisableCachingOverride: 此标志在全局缓存影响占用率的平台上，抑制默认行为。在此类平台上，如果启用了缓存，但每块 SM 资源使用会导致零占用率，则占用率计算器将计算禁用缓存时的占用率。设置此标志会使占用率计算器在这种情况下返回 0。有关此功能的更多信息，请参见 Maxwell 调优指南的“Unified L1/Texture Cache”部分。

使用

另请参阅

cudaOccupancyMaxPotentialBlockSizeVariableSMem，如果每块动态共享内存量随不同的块大小而变化。

Note

请注意，此函数也可能返回来自先前异步启动的错误代码。
请注意，如果此调用尝试初始化内部 CUDA RT 状态，则此函数也可能返回 cudaErrorInitializationError、cudaErrorInsufficientDriver 或 cudaErrorNoDevice。
请注意，根据 cudaStreamAddCallback 的规定，不得从回调函数中调用任何 CUDA 函数。在这种情况下，可能会返回 cudaErrorNotPermitted 作为诊断信息，但这不能保证。

另请参阅

cudaOccupancyMaxActiveBlocksPerMultiprocessorWithFlags

cudaOccupancyMaxPotentialBlockSizeVariableSMemWithFlags