6.6. CUpti_ActivityCdpKernel
-
struct CUpti_ActivityCdpKernel
CDP (CUDA 动态并行) 内核的活动记录。
此活动记录表示 CDP 内核执行。
公共成员
-
CUpti_ActivityKind kind
活动记录类型,必须是 CUPTI_ACTIVITY_KIND_CDP_KERNEL。
-
uint8_t requested
内核请求的缓存配置。
该值是来自 cuda.h 的 CUfunc_cache 枚举值之一。
-
uint8_t executed
内核使用的缓存配置。
该值是来自 cuda.h 的 CUfunc_cache 枚举值之一。
内核使用的共享内存配置。
该值是来自 cuda.h 的 CUsharedconfig 枚举值之一。
-
uint16_t registersPerThread
每个线程执行内核所需的寄存器数量。
-
uint64_t start
内核执行的开始时间戳,单位为纳秒。
开始和结束时间戳都为 0 表示无法收集内核的时间戳信息。
-
uint64_t end
内核执行的结束时间戳,单位为纳秒。
开始和结束时间戳都为 0 表示无法收集内核的时间戳信息。
-
uint32_t deviceId
内核执行的设备 ID。
-
uint32_t contextId
内核执行的上下文 ID。
-
uint32_t streamId
内核执行的流 ID。
-
int32_t gridX
内核的 X 维度网格大小。
-
int32_t gridY
内核的 Y 维度网格大小。
-
int32_t gridZ
内核的 Z 维度网格大小。
-
int32_t blockX
内核的 X 维度块大小。
-
int32_t blockY
内核的 Y 维度块大小。
-
int32_t blockZ
内核的 Z 维度网格大小。
为内核分配的静态共享内存,单位为字节。
为内核保留的动态共享内存,单位为字节。
-
uint32_t localMemoryPerThread
为每个线程保留的本地内存量,单位为字节。
-
uint32_t localMemoryTotal
为内核保留的本地内存总量,单位为字节。
-
uint32_t correlationId
内核的相关 ID。
每个内核执行都分配一个唯一的 correlation ID,该 ID 与启动内核的驱动程序 API 活动记录中的 correlation ID 相同。
-
int64_t gridId
内核的网格 ID。
每个内核执行都分配一个唯一的网格 ID。
-
int64_t parentGridId
父内核的网格 ID。
-
uint64_t queued
内核排队的时间戳,单位为纳秒。
CUPTI_TIMESTAMP_UNKNOWN 值表示排队时间未知。
-
uint64_t submitted
内核提交到 GPU 的时间戳,单位为纳秒。
CUPTI_TIMESTAMP_UNKNOWN 值表示提交时间未知。
-
uint64_t completed
内核标记为完成的时间戳,单位为纳秒。
CUPTI_TIMESTAMP_UNKNOWN 值表示完成时间未知。
-
uint32_t parentBlockX
父块的 X 维度。
-
uint32_t parentBlockY
父块的 Y 维度。
-
uint32_t parentBlockZ
父块的 Z 维度。
-
uint32_t pad
未定义。
保留供内部使用。
-
const char *name
内核的名称。
此名称在表示相同内核的所有活动记录之间共享,因此不应修改。
-
CUpti_ActivityKind kind