术语表#

B

批次 (Batch) - 批次是输入的集合,这些输入可以被统一处理。批次中的每个实例都具有相同的形状,并以类似的方式流经网络。因此,所有实例都可以并行计算。

构建器 (Builder) - TensorRT 的模型优化器。构建器以网络定义作为输入,执行设备无关和设备相关的优化,并创建一个引擎。有关构建器的更多信息,请参阅 构建器 API

D

数据相关形状 (Data-Dependent Shape) - 张量形状,其动态维度并非仅从网络输入维度和形状张量计算得出。

设备 (Device) - 特定的 GPU。如果两个 GPU 具有相同的型号名称和配置,则被认为是相同的设备。

动态批次 (Dynamic batch) - 一种推理部署模式,其中批次大小在运行时之前是未知的。历史上,TensorRT 将批次大小视为一个特殊维度,也是运行时唯一可配置的维度。TensorRT 6 及更高版本允许构建引擎,以便可以在运行时调整输入的所有维度。

E

引擎 (Engine) - 由 TensorRT 构建器优化的模型的表示形式。有关引擎的更多信息,请参阅 执行 API

显式数据相关形状 (Explicitly Data-Dependent Shape) - 一种张量形状,它依赖于 INonZeroLayerINMSLayer 输出的维度。

F

框架集成 (Framework integration) - 将 TensorRT 集成到 PyTorch 等框架中,从而允许在框架内进行模型优化和推理。

I

隐式数据相关形状 (Implicitly Data-Dependent Shape) - 一种张量形状,其动态维度从网络输入维度、网络输入形状张量以及 INonZeroLayerINMSLayer 以外的数据计算得出。 例如,一个形状的维度从卷积输出的数据计算得出。

N

网络定义 (Network definition) - 模型在 TensorRT 中的表示形式。网络定义是张量和算子的图。

O

ONNX - 开放神经网络交换 (Open Neural Network eXchange)。一种框架无关的标准,用于表示机器学习模型。有关 ONNX 的更多信息,请参阅 onnx.ai

ONNX 解析器 (ONNX parser) - 一种用于从 ONNX 模型创建 TensorRT 网络定义的解析器。有关 C++ ONNX 解析器的更多详细信息,请参阅 NvONNXParser 或 Python ONNX 解析器

P

Plan - 序列化格式的优化推理引擎。应用程序将首先从 plan 文件反序列化模型以初始化推理引擎。典型的应用程序将构建一次引擎,然后将其序列化为 plan 文件以供以后使用。

平台 (Platform) - 架构和操作系统的组合。这些平台的示例包括 x86 上的 Linux 和 AArch64 上的 QNX Standard。具有不同架构或不同操作系统的平台被认为是不同的平台。

精度 (Precision) - 指用于表示计算方法中数值的数字格式。此选项在 TensorRT 构建步骤中指定。TensorRT 支持使用 FP32、TF32、FP16 或 INT8 精度进行混合精度推理。NVIDIA Ampere 架构之前的设备默认为 FP32。NVIDIA Ampere 架构及更高版本的设备默认为 TF32,这是一种快速格式,使用 FP32 存储和较低精度的数学运算。

R

运行时 (Runtime) - TensorRT 的组件,用于在 TensorRT 引擎上执行推理。运行时 API 支持同步和异步执行、性能分析、枚举以及查询引擎输入和输出绑定的信息。