TAO Converter with Deformable DETR
TAO 提供了 tao-converter
工具,以方便在 TensorRT 和/或 Deepstream 上部署 TAO 训练的模型。本节详细说明如何使用 tao-converter
生成 TensorRT 引擎。
对于具有基于 x86 的 CPU 和独立 GPU 的部署平台,tao-converter
分发在 TAO Docker 容器内。因此,我们建议使用 Docker 容器来生成引擎。但是,这要求用户遵守与 Docker 容器分发的 TensorRT 相同的小版本。TAO Docker 容器包含 TensorRT 8.0 版本。
对于具有独立 GPU 的 x86 平台,默认 TAO 包包括为 TensorRT 8.2.5.1 与 CUDA 11.4 和 CUDNN 8.2 构建的 tao-converter
。但是,对于任何其他版本的 CUDA 和 TensorRT,请参考概述部分进行下载。下载 tao-converter
后,请按照以下说明生成 TensorRT 引擎。
在目标机器上解压缩 zip 文件。
使用以下命令安装 OpenSSL 包
sudo apt-get install libssl-dev
导出以下环境变量
$ export TRT_LIB_PATH=”/usr/lib/x86_64-linux-gnu”
$ export TRT_INC_PATH=”/usr/include/x86_64-linux-gnu”
使用下面的示例命令运行
tao-converter
并生成引擎。有关在 Jetson 上构建 TensorRT OSS 的说明,请参见上面的TensorRT OSS on x86章节或此 GitHub 仓库。
请务必遵循各个模型的导出模型章节中提到的输出节点名称。
对于 Jetson 平台,tao-converter
可在 NVIDIA 开发者专区下载。您可以选择您希望下载的版本,如概述部分所列。下载 tao-converter
后,请按照以下说明生成 TensorRT 引擎。
在目标机器上解压缩 zip 文件。
使用以下命令安装 OpenSSL 包
sudo apt-get install libssl-dev
导出以下环境变量
$ export TRT_LIB_PATH=”/usr/lib/aarch64-linux-gnu”
$ export TRT_INC_PATH=”/usr/include/aarch64-linux-gnu”
对于 Jetson 设备,TensorRT 预装在 Jetpack 中。如果您使用的是较旧的 JetPack,请升级到 JetPack-5.0DP。
有关在 Jetson 上构建 TensorRT OSS 的说明,请参见上面的TensorRT OSS on Jetson (ARM64)章节或此 GitHub 仓库。
使用下面的示例命令运行
tao-converter
并生成引擎。
请务必遵循各个模型的 导出模型
章节中提到的输出节点名称。
tao-converter [-h] -k <encryption_key>
-d <input_dimensions>
-o <comma separated output nodes>
[-c <path to calibration cache file>]
[-e <path to output engine>]
[-b <calibration batch size>]
[-m <maximum batch size of the TRT engine>]
[-t <engine datatype>]
[-w <maximum workspace size of the TRT Engine>]
[-i <input dimension ordering>]
[-p <optimization_profiles>]
[-s]
[-u <DLA_core>]
input_file
必需参数
input_file
:使用export
导出的.etlt
模型的路径。-k
:训练时用于编码.tlt
模型的密钥-d
:逗号分隔的输入维度列表,应与用于tao model deformable_detr export
的维度匹配-o
:逗号分隔的输出 blob 名称列表,应与用于tao model deformable_detr export
的输出配置匹配。对于 Deformable DETR,请将此参数设置为NMS
。
可选参数
-e
:保存引擎的路径。默认路径为./saved.engine
。-t
:期望的引擎数据类型,如果在 INT8 模式下,则生成校准缓存。默认值为fp32
。选项包括fp32
、fp16
和int8
。-w
:TensorRT 引擎的最大工作区大小。默认值为1073741824(1<<30)
。-i
:输入维度顺序;所有其他 TAO 命令都使用 NCHW。选项包括nchw
、nhwc
、nc
。对于 Deformable DETR,您可以省略此参数,因为默认值为nchw
。-p
:具有动态形状的.etlt
模型的优化配置文件。参数格式是以逗号分隔的优化配置文件形状列表,格式为<input_name>,<min_shape>,<opt_shape>,<max_shape>
,其中每个形状的格式为<n>x<c>x<h>x<w>
。如果模型有多个输入张量,则可以多次指定此参数。这仅对 TAO v3.0 中引入的新模型有用。-s
:一个布尔值,用于在构建 TensorRT 引擎时应用 TensorRT 严格类型约束。-u
:在 Jetson 设备上构建 TensorRT 引擎时,指定 DLA 核心索引。
INT8 模式参数
-c
:校准缓存文件的路径,仅在 INT8 模式下使用。默认值为./cal.bin
。-b
:在导出步骤中用于 INT8 校准缓存生成的批次大小。默认值为8
。-m
:TensorRT 引擎的最大批次大小。默认值为16
。如果您遇到内存不足问题,请相应地减少批次大小。此参数仅对使用动态形状生成的.etlt
模型有用。
示例输出日志
以下是导出 Deformable DETR 模型的示例日志。
tao-converter -k $KEY \
-p inputx,1x3x544x960,4x3x544x960,8x3x544x960, \
-e /export/trt.fp16.engine \
-t fp16 \
/ws/tlt_266_0049.etlt