tritonclient.utils.cuda_shared_memory#

函数

allocated_shared_memory_regions()

返回所有已分配但未释放的 cuda 共享内存区域。

as_shared_memory_tensor(cuda_shm_handle, ...)

create_shared_memory_region(triton_shm_name, ...)

创建具有指定名称和大小的共享内存区域。

destroy_shared_memory_region(cuda_shm_handle)

关闭具有指定句柄的 cuda 共享内存区域。

get_contents_as_numpy(cuda_shm_handle, ...)

使用在由句柄指定的 cuda 共享内存区域中存储的数据生成 numpy 数组。

get_raw_handle(cuda_shm_handle)

返回 base64 编码的底层原始序列化 cudaIPC 句柄。

set_shared_memory_region(cuda_shm_handle, ...)

将 numpy 数组的内容复制到 cuda 共享内存区域中。

set_shared_memory_region_from_dlpack(...)

tritonclient.utils.cuda_shared_memory._get_or_create_global_cuda_stream(device_id)#
tritonclient.utils.cuda_shared_memory._is_device_supported(device: DLDevice)#
tritonclient.utils.cuda_shared_memory._support_uva(shm_device_id, ext_device_id)#
tritonclient.utils.cuda_shared_memory.allocated_shared_memory_regions()#

返回所有已分配但未释放的 cuda 共享内存区域。

返回:

与已分配区域相对应的 cuda 共享内存句柄列表。

返回类型:

list

tritonclient.utils.cuda_shared_memory.as_shared_memory_tensor(cuda_shm_handle, datatype, shape)#
tritonclient.utils.cuda_shared_memory.create_shared_memory_region(triton_shm_name, byte_size, device_id)#

创建具有指定名称和大小的共享内存区域。

参数:
  • triton_shm_name (str) – 要创建的 cuda 共享内存区域的唯一名称。

  • byte_size (int) – 要创建的 cuda 共享内存区域的大小(以字节为单位)。

  • device_id (int) – 要创建的 cuda 共享内存区域的 GPU 设备 ID。

返回:

cuda_shm_handle – cuda 共享内存区域的句柄。

返回类型:

CudaSharedMemoryRegion

Raises:

CudaSharedMemoryException – 如果无法在指定设备上创建 cuda 共享内存区域。

tritonclient.utils.cuda_shared_memory.destroy_shared_memory_region(cuda_shm_handle)#

关闭具有指定句柄的 cuda 共享内存区域。

参数:

cuda_shm_handle (CudaSharedMemoryRegion) – cuda 共享内存区域的句柄。

Raises:

CudaSharedMemoryException – 如果无法关闭 cuda 共享内存区域并释放设备内存。

tritonclient.utils.cuda_shared_memory.get_contents_as_numpy(cuda_shm_handle, datatype, shape)#

使用在由句柄指定的 cuda 共享内存区域中存储的数据生成 numpy 数组。

参数:
  • cuda_shm_handle (CudaSharedMemoryRegion) – cuda 共享内存区域的句柄。

  • datatype (np.dtype) – 要返回的数组的数据类型。

  • shape (list) – 描述要返回的数组形状的整数列表。

返回:

使用来自指定共享内存区域的内容生成的 numpy 数组。

返回类型:

np.array

tritonclient.utils.cuda_shared_memory.get_raw_handle(cuda_shm_handle)#

返回 base64 编码的底层原始序列化 cudaIPC 句柄。

参数:

cuda_shm_handle (CudaSharedMemoryRegion) – cuda 共享内存区域的句柄。

返回:

base64 编码的底层 cuda 共享内存的原始序列化 cudaIPC 句柄。

返回类型:

bytes

tritonclient.utils.cuda_shared_memory.set_shared_memory_region(cuda_shm_handle, input_values)#

将 numpy 数组的内容复制到 cuda 共享内存区域中。

参数:
  • cuda_shm_handle (CudaSharedMemoryRegion) – cuda 共享内存区域的句柄。

  • input_values (list) – 要复制到共享内存区域中的 numpy 数组列表。

Raises:

CudaSharedMemoryException – 如果无法在 cuda 共享内存区域中设置值。

tritonclient.utils.cuda_shared_memory.set_shared_memory_region_from_dlpack(cuda_shm_handle, input_values)#