NvTritonExt#

NVIDIA Triton 推理组件。此扩展旨在与 Triton 2.49.0 (x86_64) 和 2.40.0 (Jetpack 6.1) 一起使用。

有关支持矩阵和更多信息，请参阅 NVIDIA Triton 官方文档。

UUID: a3c95d1c-c06c-4a4e-a2f9-8d9078ab645c
版本: 0.5.0
作者: NVIDIA
许可证: 专有

组件#

nvidia::triton::TritonServer#

使用 Triton C API 的 Triton 推理服务器组件。

组件 ID: 26228984-ffc4-4162-9af5-6e3008aa2982
基类型: nvidia::gxf::Component

参数#

log_level

Triton 的日志级别。

有效值

0: 错误

1: 警告

2: 信息

3+: 详细

标志: GXF_PARAMETER_FLAGS_NONE (1 = 默认值)
类型: GXF_PARAMETER_TYPE_UINT32

enable_strict_model_config

启用严格模型配置以强制配置文件的存在。如果禁用，TensorRT、TensorFlow saved-model 和 ONNX 模型不需要模型配置文件。Triton 可以自动推导出所有必需的设置。

标志: GXF_PARAMETER_FLAGS_NONE (true = 默认值)
类型: GXF_PARAMETER_TYPE_BOOL

min_compute_capability

GPU 的最低计算能力。请参阅 https://developer.nvidia.com/cuda-gpus。

标志: GXF_PARAMETER_FLAGS_NONE (6.0 = 默认值)
类型: GXF_PARAMETER_TYPE_FLOAT64

model_repository_paths

Triton 模型仓库路径列表。请参阅 bytedance/triton-inference-server

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING

tf_gpu_memory_fraction

为 TensorFlow 模型保留的 GPU 内存部分。

标志: GXF_PARAMETER_FLAGS_NONE (0.0 = 默认值)
类型: GXF_PARAMETER_TYPE_FLOAT64

tf_disable_soft_placement_

当 GPU 实现不可用时，允许 Tensorflow 使用 CPU 操作。

标志: GXF_PARAMETER_FLAGS_NONE (true = 默认值)
类型: GXF_PARAMETER_TYPE_BOOL

backend_directory_path

Triton 后端目录的路径。

标志: GXF_PARAMETER_FLAGS_NONE (”” = 默认值)
类型: GXF_PARAMETER_TYPE_STRING

model_control_mode

Triton 模型控制模式。

有效值:

“none”: 在启动时加载模型仓库中的所有模型。

“explicit”: 允许在需要时加载模型。

标志: GXF_PARAMETER_FLAGS_NONE (“explicit” = 默认值)
类型: GXF_PARAMETER_TYPE_STRING

backend_configs

Triton 后端配置，格式为：backend,setting=value。请参阅后端特定文档：triton-inference-server/tensorflow_backend, triton-inference-server/python_backend’。

标志: GXF_PARAMETER_FLAGS_OPTIONAL
类型: GXF_PARAMETER_TYPE_STRING

nvidia::triton::TritonInferencerInterface#

提供 Triton 推理接口的辅助组件。

组件 ID: 1661c015-6b1c-422d-a6f0-248cdc197b1a
基类型: nvidia::gxf::Component

nvidia::triton::TritonInferencerImpl#

实现 TritonInferencerInterface 以从 TritonServer 组件或外部 Triton 实例获取推理的组件。

组件 ID: b84cf267-b223-4df5-ac82-752d9fae1014
基类型: nvidia::triton::TritonInferencerInterface

参数#

server

Triton 服务器。如果此组件的 inference_mode 为 Direct，则必须指定此可选句柄。

标志: GXF_PARAMETER_FLAGS_OPTIONAL
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::triton::TritonServer

model_name

要运行推理的 Triton 模型名称。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING

model_version

要运行推理的模型名称的 Triton 模型版本。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_INT64

max_batch_size

运行推理的最大批处理大小。这应与 Triton 模型仓库中的值匹配。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_UINT32

num_concurrent_requests

此模型版本的最大并发推理请求数。这用于定义请求池。

标志: GXF_PARAMETER_FLAGS_NONE (1 = 默认值)
类型: GXF_PARAMETER_TYPE_UINT32

async_scheduling_term

确定响应何时准备就绪的异步调度项。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::gxf::AsynchronousSchedulingTerm

inference_mode

Triton 推理模式。

有效值

Direct: 此模式需要将 TritonServer 组件句柄传递给可选的 server 参数。

RemoteGrpc: 此模式需要可选的 server_endpoint 指向外部 Triton gRPC 服务器 URL。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING

server_endpoint

外部 Triton 实例的服务器端点 URL。如果此组件的 inference_mode 为 Remote 类型，则必须指定此可选字符串。

标志: GXF_PARAMETER_FLAGS_OPTIONAL
类型: GXF_PARAMETER_TYPE_STRING

nvidia::triton::TritonInferenceRequest#

请求 Triton 推理的通用 codelet。这将使用 InferencerImpl 的句柄与 Triton 交互。

组件 ID: 34395920-232c-446f-b5b7-46f642ce84df
基类型: nvidia::gxf::Codelet

参数#

inferencer

Triton 推理实现的句柄。这用于请求推理。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::triton::TritonInferencerInterface

rx

接收输入张量的接收器列表。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::gxf::Receiver

input_tensor_names

rx 中有序接收器中存在的输入张量的名称。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING

input_binding_names

与 Triton 配置输入对应的输入绑定名称，顺序与 input_tensor_names 中提供的顺序相同。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING

nvidia::triton::TritonInferenceResponse#

从 Triton 推理获取响应的通用 codelet。这将使用 InferencerImpl 的句柄与 Triton 交互。

组件 ID: 4dd957a7-aa55-4117-90d3-9a98e31ee176
基类型: nvidia::gxf::Codelet

参数#

inferencer

Triton 推理实现的句柄。这用于请求推理。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::triton::TritonInferencerInterface

output_tensor_names

要从模型检索的输出张量的名称顺序。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING

output_binding_names

模型中输出绑定的名称，顺序与 output_tensor_names 中提供的顺序相同。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING

tx

用于发布输出张量的单个发射器。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::gxf::Transmitter

nvidia::triton::TritonOptions#

表示用于模型控制和序列控制的 Triton 推理选项的通用结构。

组件 ID: 087696ed-229d-4199-876f-05b92d3887f0

nvidia::triton::TritonRequestReceptiveSchedulingTerm#

当推理器可以接受新请求时，调度请求 Codelet 的 Triton 调度项。

组件 ID: f8602412-1242-4e43-9dbf-9c559d496b84
基类型: nvidia::gxf::SchedulingTerm

参数#

inferencer

Triton 推理实现的句柄。这用于检查新请求的可接受性。

标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::triton::TritonInferencerInterface