NvTritonExt#
NVIDIA Triton 推理组件。此扩展旨在与 Triton 2.49.0 (x86_64) 和 2.40.0 (Jetpack 6.1) 一起使用。
有关支持矩阵和更多信息,请参阅 NVIDIA Triton 官方文档。
UUID: a3c95d1c-c06c-4a4e-a2f9-8d9078ab645c
版本: 0.5.0
作者: NVIDIA
许可证: 专有
组件#
nvidia::triton::TritonServer#
使用 Triton C API 的 Triton 推理服务器组件。
组件 ID: 26228984-ffc4-4162-9af5-6e3008aa2982
基类型: nvidia::gxf::Component
参数#
log_level
Triton 的日志级别。
有效值
0: 错误
1: 警告
2: 信息
3+: 详细
标志: GXF_PARAMETER_FLAGS_NONE (1 = 默认值)
类型: GXF_PARAMETER_TYPE_UINT32
enable_strict_model_config
启用严格模型配置以强制配置文件的存在。如果禁用,TensorRT、TensorFlow saved-model 和 ONNX 模型不需要模型配置文件。Triton 可以自动推导出所有必需的设置。
标志: GXF_PARAMETER_FLAGS_NONE (true = 默认值)
类型: GXF_PARAMETER_TYPE_BOOL
min_compute_capability
GPU 的最低计算能力。请参阅 https://developer.nvidia.com/cuda-gpus。
标志: GXF_PARAMETER_FLAGS_NONE (6.0 = 默认值)
类型: GXF_PARAMETER_TYPE_FLOAT64
model_repository_paths
Triton 模型仓库路径列表。请参阅 bytedance/triton-inference-server
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING
tf_gpu_memory_fraction
为 TensorFlow 模型保留的 GPU 内存部分。
标志: GXF_PARAMETER_FLAGS_NONE (0.0 = 默认值)
类型: GXF_PARAMETER_TYPE_FLOAT64
tf_disable_soft_placement_
当 GPU 实现不可用时,允许 Tensorflow 使用 CPU 操作。
标志: GXF_PARAMETER_FLAGS_NONE (true = 默认值)
类型: GXF_PARAMETER_TYPE_BOOL
backend_directory_path
Triton 后端目录的路径。
标志: GXF_PARAMETER_FLAGS_NONE (”” = 默认值)
类型: GXF_PARAMETER_TYPE_STRING
model_control_mode
Triton 模型控制模式。
有效值:
“none”: 在启动时加载模型仓库中的所有模型。
“explicit”: 允许在需要时加载模型。
标志: GXF_PARAMETER_FLAGS_NONE (“explicit” = 默认值)
类型: GXF_PARAMETER_TYPE_STRING
backend_configs
Triton 后端配置,格式为:backend,setting=value
。请参阅后端特定文档:triton-inference-server/tensorflow_backend, triton-inference-server/python_backend’。
标志: GXF_PARAMETER_FLAGS_OPTIONAL
类型: GXF_PARAMETER_TYPE_STRING
nvidia::triton::TritonInferencerInterface#
提供 Triton 推理接口的辅助组件。
组件 ID: 1661c015-6b1c-422d-a6f0-248cdc197b1a
基类型: nvidia::gxf::Component
nvidia::triton::TritonInferencerImpl#
实现 TritonInferencerInterface
以从 TritonServer
组件或外部 Triton 实例获取推理的组件。
组件 ID: b84cf267-b223-4df5-ac82-752d9fae1014
基类型: nvidia::triton::TritonInferencerInterface
参数#
server
Triton 服务器。如果此组件的 inference_mode
为 Direct
,则必须指定此可选句柄。
标志: GXF_PARAMETER_FLAGS_OPTIONAL
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::triton::TritonServer
model_name
要运行推理的 Triton 模型名称。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING
model_version
要运行推理的模型名称的 Triton 模型版本。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_INT64
max_batch_size
运行推理的最大批处理大小。这应与 Triton 模型仓库中的值匹配。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_UINT32
num_concurrent_requests
此模型版本的最大并发推理请求数。这用于定义请求池。
标志: GXF_PARAMETER_FLAGS_NONE (1 = 默认值)
类型: GXF_PARAMETER_TYPE_UINT32
async_scheduling_term
确定响应何时准备就绪的异步调度项。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::gxf::AsynchronousSchedulingTerm
inference_mode
Triton 推理模式。
有效值
Direct
: 此模式需要将TritonServer
组件句柄传递给可选的server
参数。
RemoteGrpc
: 此模式需要可选的server_endpoint
指向外部 Triton gRPC 服务器 URL。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING
server_endpoint
外部 Triton 实例的服务器端点 URL。如果此组件的 inference_mode
为 Remote
类型,则必须指定此可选字符串。
标志: GXF_PARAMETER_FLAGS_OPTIONAL
类型: GXF_PARAMETER_TYPE_STRING
nvidia::triton::TritonInferenceRequest#
请求 Triton 推理的通用 codelet。这将使用 InferencerImpl 的句柄与 Triton 交互。
组件 ID: 34395920-232c-446f-b5b7-46f642ce84df
基类型: nvidia::gxf::Codelet
参数#
inferencer
Triton 推理实现的句柄。这用于请求推理。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::triton::TritonInferencerInterface
rx
接收输入张量的接收器列表。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::gxf::Receiver
input_tensor_names
rx 中有序接收器中存在的输入张量的名称。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING
input_binding_names
与 Triton 配置输入对应的输入绑定名称,顺序与 input_tensor_names
中提供的顺序相同。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING
nvidia::triton::TritonInferenceResponse#
从 Triton 推理获取响应的通用 codelet。这将使用 InferencerImpl 的句柄与 Triton 交互。
组件 ID: 4dd957a7-aa55-4117-90d3-9a98e31ee176
基类型: nvidia::gxf::Codelet
参数#
inferencer
Triton 推理实现的句柄。这用于请求推理。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::triton::TritonInferencerInterface
output_tensor_names
要从模型检索的输出张量的名称顺序。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING
output_binding_names
模型中输出绑定的名称,顺序与 output_tensor_names
中提供的顺序相同。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_STRING
tx
用于发布输出张量的单个发射器。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::gxf::Transmitter
nvidia::triton::TritonOptions#
表示用于模型控制和序列控制的 Triton 推理选项的通用结构。
组件 ID: 087696ed-229d-4199-876f-05b92d3887f0
nvidia::triton::TritonRequestReceptiveSchedulingTerm#
当推理器可以接受新请求时,调度请求 Codelet 的 Triton 调度项。
组件 ID: f8602412-1242-4e43-9dbf-9c559d496b84
基类型: nvidia::gxf::SchedulingTerm
参数#
inferencer
Triton 推理实现的句柄。这用于检查新请求的可接受性。
标志: GXF_PARAMETER_FLAGS_NONE
类型: GXF_PARAMETER_TYPE_HANDLE
句柄类型: nvidia::triton::TritonInferencerInterface