发行说明 - NVIDIA 文档

NVIDIA TAO 是一个 Python 包，使您能够使用自己的数据微调预训练模型，并将它们导出以通过边缘设备进行基于 TensorRT 的推理。

NVIDIA Transfer Learning Toolkit 已更名为 TAO：有关详细的迁移指南，请参阅此页面。

版本列表

5.5.0
5.3.0
5.2.0
5.1.0
5.0.0
4.0.2
4.0.1
4.0.0
3.0-22.05
3.0-22.02
3.0-21.11
3.0-21.08

TAO 5.5.0

主要特性

开放词汇对象检测模型 (GroundingDINO)
开放词汇对象检测模型 (Mask GroundingDINO)
用于 DINO 对象检测模型的知识蒸馏
使用 BEVFusion 的多摄像头和激光雷达早期融合
使用 Mask2Former 的语义、实例和全景图像分割
运行 SEGIC (上下文分割) 的交互式演示
使用 FoundationPose 模型为任何对象生成姿势点的示例应用程序

预训练模型

专用模型
- 商业可用的 Grounding DINO
- 使用合成数据的 TAO BevFusion
- TAO 合成 BEVFusion
- FoundationPose - 用于返回对象姿势点的基础模型
- 商业可用的用于分割的 Mask GroundingDINO
- 仅供研究的在 COCO 上微调的 Mask GroundingDINO
- NVCLIP - 商业 CLIP 模型

已知问题和限制

Grounding DINO 和 Mask Grounding DINO 微调至少需要 16GB 的 RAM
基础模型微调需要至少 24GB VRAM 的 GPU。
知识蒸馏目前仅限于对象检测
Mask Grounding DINO 部署只能通过 tao-deploy 以批大小为 1 的方式运行 TensorRT 推理
BEVFusion 不支持 5.5.0 的 TensorRT 部署
FoundationPose 不支持通过 TAO 进行微调

重大更改

TAO API 中的几项新更改已在本迁移指南中进行了总结

计算堆栈

PyTorch 2.1.0 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.5.0-pyt

软件	版本
Python	3.10
CUDA	12.4
CuDNN	9.1.0
TensorRT	8.6.3.1

部署容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.5.0-deploy

软件	版本
Python	3.10
CUDA	12.4
CuDNN	9.1.0
TensorRT	8.6.3.1

数据服务容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.5.0-dataservice

软件	版本
Python	3.10
CUDA	12.3
CuDNN	8.9.7
TensorRT	8.6.3.1

TensorFlow 2.15.0 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.5.0-tf2

软件	版本
Python	3.10
CUDA	12.4
CuDNN	9.1.0
TensorRT	8.6.3.1

TAO 5.3.0

主要特性

用于 3D bbox 检测的多类 Centerpose 模型
将基础模型 (NvDINOv2) 主干集成到视觉变化网络
将 classification_pyt 和 segformer 迁移到 pytorch 2.1.0，并将所有 PyTorch 网络合并到一个容器中

预训练模型

专用模型
- 多类 CenterPose
- 具有 NvDINOv2 主干的视觉变化网络分类
- 视觉变化网络分割 NvDINOv2 主干 - LandSat-SCD
- 视觉变化网络分割 NvDINOv2 主干 - LEVIR-CD
- 具有 FAN-S 模型的零售对象识别头

已知问题和限制

视觉变化网络和基础模型微调不支持通过 TAO API 进行
基础模型微调需要至少 24GB VRAM 的 GPU。

重大更改

TAO API 中的几项新更改已在本迁移指南中进行了总结

计算堆栈

PyTorch 2.1.0 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.3.0-pyt

软件	版本
Python	3.10
CUDA	12.3
CuDNN	8.9.7
TensorRT	8.6.1.6

部署容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.3.0-deploy

软件	版本
Python	3.10
CUDA	12.3
CuDNN	8.9.7
TensorRT	8.6.1.6

数据服务容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.3.0-dataservice

软件	版本
Python	3.10
CUDA	12.3
CuDNN	8.9.7
TensorRT	8.6.1.6

TAO 5.2.0

主要特性

新的计算机视觉解决方案
- CenterPose 模型的端到端训练管道
- ViT 适配器实现，用于将 ViT 主干与 DINO 集成
- 使用 ViT 主干和 NvDINOv2 基础模型微调 DINO 对象检测模型
- 开放词汇图像分割的微调和推理支持，作为 GitHub 上的开发者预览功能

TAO API
- 夜间爬虫，用于动态更新 NGC 上 TAO 兼容模型的列表
- 为基于列表的参数启用 AutoML 超参数搜索
- 支持为 classification_pyt 进行基础模型微调
- 为视觉变化网络启用 AutoML
- 为 CenterPose 启用 AutoML
其他
- 进度条，用于通过启动器显示 docker pull 状态

预训练模型

专用模型
- CenterPose
- ODISE

已知问题和限制

视觉变化网络和基础模型微调不支持通过 TAO API 进行
基础模型微调需要至少 24GB VRAM 的 GPU。
通过 --onnx_route keras2onnx 导出的 DetectNet_v2 在可视化预测中显示 16x16 偏移。

FasterRCNN TensorRT 引擎生成引发误报故障，但实际上不会导致引擎生成失败或性能和准确性下降。

复制
已复制！

            
            [06/23/2023-13:19:40] [TRT] [F] Validation failed: libNamespace == nullptr
/workspace/trt_oss_src/TensorRT/plugin/proposalPlugin/proposalPlugin.cpp:528

[06/23/2023-13:19:40] [TRT] [E] std::exception
[06/23/2023-13:19:40] [TRT] [I] Successfully created plugin: ProposalDynamic
[06/23/2023-13:19:40] [TRT] [F] Validation failed: libNamespace == nullptr

OCRNet-ViT 需要 TensorRT 8.6 及以上版本才能达到最佳准确率。对于 TensorRT 8.5，OCRNet-ViT 应使用 opset-version < 17 导出，并建议使用 FP32 精度。

重大更改

从 TAO 5.2.0 开始，TensorFlow 后端仅作为 GitHub 上新功能的源代码发布。NVIDIA 建议从源代码构建容器以获取最新功能和错误修复。
从 TAO 5.0.0 开始，UNet onnx 模型输出现在是 argmax_1/output，而不是 softmax_1

计算堆栈

PyTorch 1.14.0 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.2.0-pyt1.14.0

软件	版本
Python	3.8
CUDA	12.0
CuDNN	8.6.0
TensorRT	8.5.3.1

PyTorch 2.1.0 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.2.0-pyt2.1.0

软件	版本
Python	3.10
CUDA	12.2
CuDNN	8.9.5
TensorRT	8.6.1

部署容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.2.0-deploy

软件	版本
Python	3.10
CUDA	12.2
CuDNN	8.9.5
TensorRT	8.6.1

数据服务容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.2.0-dataservice

软件	版本
Python	3.10
CUDA	12.2
CuDNN	8.9.5
TensorRT	8.6.1

TAO 5.1.0

主要特性

新的计算机视觉解决方案
- 视觉变化网络分类和分割的端到端训练管道
- 以下用于分类的基础图像模型主干的微调
  - OpenCLIP
  - EvaCLIP
  注意
  
  有关模型详细信息，请参阅基础模型部分。

预训练模型

专用模型
- 视觉变化网络分类
- 视觉变化网络分割 - LEVIRCD (仅供研究)
- 视觉变化网络分割 - LandSat-SCD

已知问题和限制

视觉变化网络和基础模型微调不支持通过 TAO API 进行
基础模型微调需要至少 24GB VRAM 的 GPU。
通过 --onnx_route keras2onnx 导出的 DetectNet_v2 在可视化预测中显示 16x16 偏移。
DetectNet_v2 推理器无法设置 dbscan_min_samples > 1。

重大更改

DetectNet_v2 推理器配置参数 dbscan_min_samples 只能设置为整数，而不是 TAO 4.0.x 中的 float32。

计算堆栈

PyTorch 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.1.0-pyt

软件	版本
Python	3.8
CUDA	12.0
CuDNN	8.6.0
TensorRT	8.5.3.1

部署容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.1.0-deploy

软件	版本
Python	3.8
CUDA	12.0
CuDNN	8.6.0
TensorRT	8.5.3.1

TAO 5.0.0

主要特性

新的计算机视觉解决方案
- 用于光学检测的自定义 Siamese 网络训练管道，带有 TensorBoard 可视化
- 度量学习识别的端到端训练管道
- TAO PyTorch 中使用 FAN 和 GCViT 主干的图像分类
- 新的对象检测架构 DINO，带有 FAN、GCViT 和 ResNet 主干
- SegFormer 训练现在支持基于 FAN 的主干
- 带有 GCViT 主干的可变形 DETR
- Mask Auto Labeller 网络的训练管道
- 用于从文档中进行光学字符检测和光学字符识别的端到端 TAO 工作流程管道
- 用于增强数据集的新工具
  - 使用 Mask Auto Labeller 为用户数据集生成分割掩码
  - 用于对象检测用例的多 GPU 离线数据集增强
  - 用于可视化、检查、验证和更正对象检测数据集注释的工具
  - COCO 和 KITTI 对象检测数据集之间的格式转换器
启动器 CLI
- 新的 task_group 层次结构，以帮助隔离任务操作
  - 模型
  - 数据集
  - 部署
管道功能
- 导出以反序列化 ONNX 模型，以便直接与 TensorRT 集成 (MaskRCNN 除外)
- 跨所有网络的解密检查点序列化
RESTful API 和云部署
- 更多网络已添加到 AutoML 工作流程
- 快速入门支持已扩展到以下新的 K8 云服务提供商 (CSP)
  - Google Cloud GKS
  - Microsoft Azure AKS
现在 GitHub 上提供了所有 TAO 组件的源代码。有关更多信息，请参阅TAO 源代码部分。

预训练模型

专用模型
- PeopleSemSegFormer
- PCB 分类
- OCDNet
- OCRNet
- 零售对象检测
- 零售对象识别
- 光学检测
预训练起始权重
- 分类
  - 预训练 GCViT NvImageNet
  - 预训练 FAN NvImageNet
  - 预训练 GCViT ImageNet
  - 预训练 FAN ImageNet
- 对象检测
  - 预训练 DINO NVImageNet
  - 预训练 DINO ImageNet
  - 预训练可变形-DETR NVImageNet
  - 预训练可变形-DETR NVImageNet
  - 预训练 EfficientNet NVImageNet
  - EfficientDet COCO
  - 可变形-DETR COCO
  - DINO COCO
- 分割
  - 预训练 SegFormer NVImageNet
  - 预训练 SegFormer ImageNet
  - Mask Auto Label
  - CityScapes Segformer

已弃用的功能

所有 TAO 对话式 AI 集成已从 TAO 5.0.0 版本中弃用
使用 tao-converter 从 .etlt 文件生成 TensorRT 引擎的功能已弃用。所有网络都支持直接与 TensorRT 集成以及 trtexec 示例。有关更多信息，请参阅使用 TensorRT 进行性能分析部分。
以下计算机视觉训练管道已弃用
- 视线估计
- 情感分类
- 心率估计
- 手势识别

重大更改

所有 PyTorch 和 TensorFlow 2 网络都具有重新架构的规范文件，其中包含实验规范的概念
为了配置统一性，所有网络的通用参数都已重命名
无法在 5.0.0 版本中加载来自 TAO 4.0.0 版本的 SegFormer 模型。对于 5.0.0 版本，请使用新的预训练模型。
从 TAO 5.0.0 导出的模型将无法与 tao-converter 一起用于 TensorRT 引擎生成。您可以直接使用 TensorRT 中的 trtexec 命令行包装器来生成 TensorRT 引擎。
所有以前的 tao <network> <subtask> 命令层次结构现在都变为 tao model <network> <subtash>。因此，作为 TAO 4.0.x 一部分发布的示例笔记本电脑将无法直接与 TAO 5.0.0 一起使用。有关新 CLI 结构的更多信息，请阅读从 TAO 4.0.x 迁移到 TAO 5.0.0 的迁移指南。
离线增强工具 tao augment 不是数据集 task_group 下的 tao dataset augment。

错误修复

修复了 DetectNet_v2 的 .etlt 推理中的错误
修复了错误，以提高 TensorFlow 1.x 网络的 MultiGPU 作业的稳定性

已知问题和限制

通过 TAO API，多 GPU 训练目前仅限于单节点实例
从 TAO 导出的基于 FAN 的网络作为 .onnx 文件，需要 TensorRT 版本 >= 8.6.x 才能部署。
光学检测模型的 tao deploy 不支持动态批处理。
BodyPoseNet 和 FPENet 未与 TAO 5.0.0 版本的 tao deploy 集成。
仅通过 tf2onnx 后端支持将 DetectNet-v2 导出到 .onnx 以用于 QAT INT8 模型。
多节点执行仅通过容器执行模型支持，如使用容器部分所述。
MIG 训练目前仅支持单 GPU。有关更多信息，请参阅在多实例 GPU 上运行训练部分。
所有 DNN 容器都需要 NVIDIA CUDA 驱动程序版本 525.85 及以上版本才能运行。
Re-identification 训练器在 5.0.0 中不支持多 GPU 训练

计算堆栈

TF 1.15.5 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.0.0-tf1.15.5

软件	版本
Python	3.8
CUDA	12.0
CuDNN	8.6.0
TensorRT	8.5.3.1

TF 2.11.0 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.0.0-tf2.11.0

软件	版本
Python	3.8
CUDA	12.0
CuDNN	8.6.0
TensorRT	8.5.3.1

PyTorch 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.0.0-pyt

软件	版本
Python	3.8
CUDA	12.0
CuDNN	8.6.0
TensorRT	8.5.3.1

部署容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.0.0-deploy

软件	版本
Python	3.8
CUDA	12.0
CuDNN	8.6.0
TensorRT	8.5.3.1

数据服务容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：5.0.0-dataservice

软件	版本
Python	3.8
CUDA	12.0
CuDNN	8.6.0
TensorRT	8.5.3.1

TAO 4.0.2

4.0.1 的增量更改。

错误修复

TAO API
- TAO API AutoML 挂起
- TAO API 支持 HTTPS 代理和自定义 SSL CA 证书
- TAO API 无法访问无线接口上的服务
- TAO API MLOPs 可视化，适用于
  - MaskRCNN
  - UNet

TAO 4.0.1

主要特性

为以下网络启用第三方 MLOPs 提供商 - ClearML 和 Weights and Biases
- MaskRCNN
- UNet

计算堆栈

TF 1.15.5 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：4.0.1-tf1.15.5

软件	版本
Python	3.6
CUDA	11.8
CuDNN	8.6.0
TensorRT	8.5.1.7

错误修复

YOLOv4 可视化工具在运行 multiGPU 训练时失败
修复 tao-client 中的模型取消和恢复函数名称
TAO API
- 将 FLIR Google Drive 链接替换为公共链接
- 裸机快速入门脚本
  - 修复安装主机驱动程序时 GPU Operator 部署问题
  - 禁用 ingress-nginx 控制器 admissionWebhooks，因为它们在某些系统上失败
  - 添加对基于 MIG 的节点的支持
  - 添加对覆盖 GPU Operator 和驱动程序版本的支持

已知问题/限制

MaskRCNN 和 UNet 的 MLOPs 可视化无法通过 RestAPI 获得

TAO 4.0.0

主要特性

通过 TAO API 的 AutoML 套件
与第三方 MLOPS 提供商集成 - ClearML 和 Weights and Biases
支持基于 Transformer 的深度神经网络训练和导出
- Segformer - 语义分割
- 可变形 DETR - 对象检测
支持重新识别网络
将 DNN 命令隔离到训练和部署容器中
NGram 语言模型的剪枝和微调
添加对 AWS EKS 和 Azure AKS 的支持
用于通过启动器和 API 轻松部署 TAO 的快速入门脚本
- 启动器
- API
  - 裸机
  - AWS EKS
  - Azure AKS

计算堆栈

TF 1.15.5 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：4.0.0-tf1.15.5

软件	版本
Python	3.6
CUDA	11.8
CuDNN	8.6.0
TensorRT	8.5.1.7

TF 2.9.1 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：4.0.0-tf2.9.1

软件	版本
Python	3.8
CUDA	11.8
CuDNN	8.6.0
TensorRT	8.5.0.12

PyTorch 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：4.0.0-pyt

软件	版本
Python	3.8
CUDA	11.8
CuDNN	8..6.0
TensorRT	8.5.0.12

部署容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit 标签：4.0.0-deploy

软件	版本
Python	3.8
CUDA	11.8
CuDNN	8.6.0
TensorRT	8.5.1.7

模型更新

计算机视觉

通用
- 将 TensorRT 版本升级到 8.5.1.7。
- 将 clearml 和 wandb 集成到训练任务中。
- 将 target_opset 传递给 ONNX 模型的导出器。
- 修复 TAO API 所需的所有网络的 status.json。
- 存储 calib_json 并禁止显示 TensorRT 相关参数。
分类
- 执行 image_dir 的递归遍历。
- 添加有效的输入检查和相应的日志。
FasterRCNN
- 修复 VGG16 剪枝中的错误。
UNet
- 通过添加用于删除 FC 头的参数来解决 BYOM 错误。
- 将目标 opset 添加到导出模型。
- 修复恢复训练和保存检查点。
- 添加 calib_json 选项并从导出中删除 tensorrt 选项。
- 修复微调时修改类数量的问题。
- 修复 QAT 模型的重新训练。
DetectNet_v2
- 修复提前停止验证中的错误。
- 在 wandb 和 clearml 中为 DNv2 添加配置文件。
- 向评估添加阈值处理。
- 向 DetectNetv2 添加提前停止。
多任务分类
- 修复带有 deepstream 配置的多任务分类导出。
YOLOv3
- 启用 Tensorboard 可视化。
MaskRCNN
- 为 mrcnn_resolution 启用自适应导出。
SSD
- 修复 DALI 数据加载器中的恢复问题。
- 减少启用 QAT 时对 create_quantized_keras_model 的调用。
- 修复数据集转换器回归。
YOLOv4
- 添加自动类权重。
- 支持 16 位图像。
可变形-DETR
- 可变形-DETR 支持的初始提交，
Segformer
- Segformer 支持的初始提交
核心
- 添加用于遥测数据上传的逻辑。
ARNet
- 为 eval 脚本启用 block_mode 数据加载器。
- 改进推理脚本。

对话式 AI

ASR
- 为 ONNX 导出添加 opset、autocast 和 fold 常量。
- 修复 ASR 指标中的遗漏。
- 更新 infer_onnx 的 WER API 更改。
TTS
- 修复遥测的日志记录。
- 修复声码器 multiGPU 日志记录。
- 修复 TTS 中的 multiGPU 故障。
- 修复训练中的 CUDA 错误。

已知问题和限制

Wandb 集成要求容器由 root 用户实例化。
NLP 问答任务不支持 TAO 工作流程的 egatron 模型。

TAO 3.0-22.05

主要特性

使用 TAO BYOM 转换器将您自己的模型引入 TAO。
将 TAO 作为服务部署在 Kubernetes 集群上，详见此部分
使用 RestAPI 将 TAO 集成到您的工作流程中
TensorBoard 可视化适用于选定的模型，详见此部分。
通过 PointPillars 从点云数据文件训练对象检测网络。
训练分类网络，以通过图卷积网络对姿势骨架的姿势进行分类。
中间检查点适用于 ASR 和 TTS 模型。
支持 Conformer-CTC for ASR：训练、微调、评估、推理和导出。

计算堆栈

TF 1.15.4 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit-tf 标签：v3.22.05-tf1.15.4-py3

软件	版本
Python	3.6
CUDA	11.4
CuDNN	8.2.1.32
TensorRT	8.2.5.1

TF 1.15.5 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit-tf 标签：v3.22.05-tf1.15.5-py3

软件	版本
Python	3.6
CUDA	11.6
CuDNN	8.2.1.32
TensorRT	8.2.5.1

PyTorch 容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit-pyt 标签：v3.22.05-py3

软件	版本
Python	3.8
CUDA	11.5
CuDNN	8.2.1.32
TensorRT	8.2.5.1

语言模型容器

容器名称：nvcr.io/nvidia/tao/tao-toolkit-lm 标签：v3.22.05-py3

软件	版本
Python	3.8
CUDA	11.5
CuDNN	8.2.1.32
TensorRT	8.2.5.1

模型更新

计算机视觉

图像分类
- 添加自定义 classmap 文件输入的验证。
- 将 classmap 文件输入添加到训练。
- 将 classmap 文件添加为评估的可选输入。
- 为评估和推理添加状态回调和 results_dir 命令行参数。
- 支持 train 端点的 TensorBoard 可视化。
- 执行 BYOM 自定义层的初始更新。
- 添加 EFF 包。
- 添加 EFF 包和模型加载。
- 在图像分类中启用 BYOM。
DetectNet_v2
- 限制 tao detectnet_v2 evaluate 期间的 GPU 内存使用量，
- 添加本机支持以将 COCO 数据集转换为 TFRecords，
- 在 dataset_config 下的 spec 文件中取出采样模式参数，
- 启用 tensorboard 可视化，
- 在 dataset_config 中为 visualizer 添加配置元素。
- 修复 TFRecords 生成的成功状态。
- 只要通过命令行设置了 --results_dir 参数，就将状态日志记录添加到所有任务。
UNet
- 更新 UNet 导出期间的 --gen_ds_config 选项。
- 将 dataset_convert 端点添加到 UNet。
- 添加对将 COCO 数据集转换为 TFRecords 的支持。
- 支持对剪枝模型进行评估。
- 添加用于函数的图形收集以提高内存消耗。
- 优化 UNet 推理的 ONNX。
- 修复重新训练剪枝模型的错误。
- 将统一的 status_logging 添加到 UNet 端点。
- 支持自定义层剪枝和通过 BYOM 从 .tltb 直接评估。
- 为 UNet 启用自带模型 (Bring Your Own Model)。
- 实现对量化感知训练 (QAT) 的支持。
- 添加对 ShuffleNet 的端到端支持。
- 通过 StatusCallBack 在训练期间启用状态日志记录。
- 改进训练期间数据加载器的操作。
- 在训练期间启用 TensorBoard 可视化。
- 为 output_width 添加警告。
- 启用对提前停止训练的支持。
BYOM
- 为自带模型 (BYOM) 启用自定义层剪枝。
通用功能
- 修复 model_io 中的错误处理。
- 支持对象检测和分割网络的 COCO TFRecord 转换。
- 修复 SoftStartAnnealingLearningRateScheduler 中的拼写错误。
- 实现状态日志记录回调。
YOLOv4
- 启用对象损失平滑。
- 支持指数移动平均 (EMA)。
- 修复 YOLOv4 颈部和头部结构。
- 配置每个数据加载器配置的 NMS。
- 修复 YOLOv3 和 YOLOv4 形状。
- 启用手动设置类权重。
- 启用 TensorBoard 可视化。
MaskRCNN
- 启用 skip_crowd_during_training=False。
- 添加评估摘要和补丁导出器。
- 启用 TensorBoard 可视化。
EfficientDet
- 修复 TRT 推理器中的拼写错误。
SSD
- 当 --results_dir 添加到命令行时，为所有端点启用状态日志记录
- 启用对提前停止训练的支持。
DSSD
- 当 --results_dir 添加到命令行时，为所有端点启用状态日志记录。
- 启用对提前停止训练的支持。
RetinaNet
- 启用对提前停止训练的支持。
- 当 --results_dir 添加到命令行时，为所有端点启用状态日志记录。
- 修复通过序列数据加载器恢复检查点的错误。
- 为 TLT 2.0 训练的模型启用向后兼容性。
- 在训练期间启用 Tensorboard 可视化。
- 启用手动设置类权重。
FasterRCNN
- 当 --results_dir 添加到命令行时，为所有端点启用状态日志记录。
- 为 TAO API 的评估和推理启用模型作为 CLI 参数。
- 在训练期间启用 Tensorboard 可视化

对话式 AI

通用
- 将状态日志记录添加到 TTS 模型，类似于 TAO CV 模型
- 修复 QA 模型评估中用于中文 SQuAD*样式数据集的问题
- 修复 create_tokenizer 在始终静默使用旧语料库上的错误
- 更新后端以使用 NeMo 1.7.0
TTS
- 从 Riva Custom Voice Recorder 中删除 TTS 数据集的持续时间检查
- 修复从微调模型运行推理时 infer onnx 端点
- 修复声码器的错误处理
- 启用中间 .tlt 模型检查点
PointPillars
- 启用使用预训练模型的迁移学习
- 使用来自 GitHub 的 TensorRT oss 22.02
动作识别
- 更新指标模块
ASR
- 支持提前停止
- 在 NeMo 模型上进行微调
- 启用中间 .tlt 模型检查点

预训练模型

新模型
- PointPillarNet
- PoseClassificationNet
更新的模型
- PeopleNet
- PeopleSemSegNet
- PeopleSegNet
- LPDNet

已知问题/限制

TAO DSSD/FasterRCNN/RetinaNet/YOLOv3/YOLOv4 在使用导出或转换器 CLI 命令时可能会出现间歇性的非法内存访问错误。根本原因不明。在这种情况下，只需再次运行即可解决此问题。
TAO BYOM 语义分割工作流程仅支持 UNet 和图像分类。
TAO 图像分类网络需要驱动程序 510 或更高版本才能进行训练。
TAO 即服务不支持用户身份验证和每个用户的工作区管理。
TTS 微调仅支持来自NVIDIA Custom Voice Recorder的数据。

TAO 3.0-22.02

主要特性

此版本中包含的功能

TAO 资源
- Jupyter notebook 示例，用于展示以下模型的端到端工作流程
  - TTS 微调
TAO 对话式 AI
- 支持从预训练模型微调 FastPitch 和 HiFiGAN
- 更新 FastPitch 和 HiFiGAN 导出和推理端点以与 RIVA 接口

已知问题/限制

TAO FastPitch 微调仅支持在NVIDIA Custom Voice Recorder中定义的文本转录。
来自NVIDIA Custom Voice Recorder的数据只能用于微调 FastPitch 或 HiFiGAN 模型。
为了微调 FastPitch，您需要将新的说话人数据重新采样到用于训练预训练模型的数据集的采样率。

TAO 3.0-21.11

主要特性

此版本中包含的功能

TAO 资源
- Jupyter notebook 示例，展示以下模型的端到端工作流程
  - ActionRecognitionNet
  - EfficientDet
  - 使用 FastPitch 和 HiFiGAN 的文本到语音
TAO CV
- 用于多个公共架构和参考应用程序的预训练模型，服务于计算机视觉相关的对象分类、检测和分割用例。
- 支持 YOLOv4-tiny 和 EfficientDet 对象检测模型。
- 支持剪枝 EfficientDet 模型
- 在 NGC 上发布了新的预训练模型
  - PeopleNet 2.5 版本
  - ActionRecognitionNet
- 转换器实用程序，用于生成特定于设备的优化 TensorRT 引擎
  - Jetson JP4.6
  - x86 + dGPU - TensorRT 8.0.1.6 与 CUDA 11.4
TAO 对话式 AI
- 支持从头开始训练 FastPitch 和 HiFiGAN 模型
- 为自然语言处理任务添加新的编码器
  - DistilBERT
  - BioMegatron-BERT

已知问题/限制

TAO CV
- 在所有应用程序中，剪枝模型上不支持迁移学习。
- 当使用多个 GPU 进行训练时，您可能需要缩小 batch_size 和/或扩大学习率，以获得与单 GPU 训练中看到的相同的准确率。
- 当训练 DetectNet_v2 用于对象检测用例且类数超过 10 个时，您可能需要更新 cost_function_config 中的 cost_weight 参数，或者平衡数据集中每个类的样本数，以获得更好的训练效果。
- 当为图像少于 20,000 张的数据集训练 DetectNet_v2 网络时，请使用较小的批大小 (1、2 或 4) 以获得更好的准确率。
- DetectNet_v2 的 infer 子任务不输出置信度，并将值生成为 0。您可以忽略这些值，仅将 bbox 和类标签视为有效输出。
- NGC 中的 ResNet101 预训练权重在 YOLOv3、YOLOv4、YOLOv4-tiny、SSD、DSSD 和 RetinaNet 上不受支持。
- 当使用 tao-converter 生成 int8 引擎时，如果 TensorRT 错误消息指示权重超出 fp16 范围，请使用 -s。
- 由于较大的 EfficientDet 模型的复杂性，剪枝过程将花费更长的时间才能完成。例如，在 V100 服务器上剪枝 EfficientDet-D5 模型可能至少需要 25 分钟。
- 当使用 tao-converter 在 A100 GPU 上为 MaskRCNN 生成 TensorRT INT8 引擎时，请启用 --strict_data_type
- 我们的 EfficientDet 代码库的源代码取自 automl github 仓库

TAO 对话式 AI
- 在云 VM 上运行 convAI 模型时，用户应具有 VM 的 root 访问权限
- 文本到语音管道仅支持从头开始训练单个说话人
- 文本到语音训练管道要求音频文件为 .wav 格式
- RIVA < 21.09 中不支持 TAO 3.0-21.11 导出的 .riva 文件
- BioMegatron-BERT 和基于 Megatron 的 NLP 任务不支持使用比以前完成的实验更多 epoch 的模型恢复以前完成的模型
- 当运行文本到语音的端到端示例时，您可能必须使用展开缩写

已解决的问题

TAO CV
- YOLOv4、YOLOv3、UNet 和 LPRNet 导出的 .etlt 模型文件可以直接集成到 DeepStream 6.0 中。
TAO 对话式 AI
- ASR 模型支持在训练期间生成中间 .tlt 模型文件

已弃用的功能

TAO 计算机视觉推理管道已弃用。用户现在可以使用 DeepStream 通过此处提供的参考应用程序部署以下开箱即用模型here
- HeartRateNet
- GestureNet
- EmotionNet
- FpeNet
- FaceDetect
- GazeNet
- BodyPoseNet

发行内容

此版本中包含的组件

TAO 启动器 pip 包
TAO - TF docker
TAO - Pytorch Docker
TAO - 语言模型 Docker
带有示例工作流程的 Jupyter notebook
- 对话式 AI
- 计算机视觉

包含使用和安装说明的入门指南
适用于 x86 + 独立 GPU 平台的 tao-converter
适用于 Jetson (ARM64) 的 tao-converter 可在此处获得。
在 NGC 上提供的在 Open Image 数据集上训练的预训练权重
专用模型的未剪枝和剪枝模型 - 剪枝模型可以与 DeepStream 开箱即用部署，未剪枝模型可以用于重新训练。
可训练和开箱即用可部署模型，适用于
- PeopleSegNet
- HeartRateNet
- GestureNet
- EmotionNet
- FpeNet
- FaceDetect
- GazeNet
- LPRNet
- BodyPoseNet

TAO 3.0-21.08

主要特性

Transfer Learning Toolkit 已更名为 TAO

TAO 启动器
- Python3 pip 包作为统一的命令行界面 (CLI)
- 支持从不同注册表托管的 docker
TAO 资源
- Jupyter notebook 示例，展示以下模型的端到端工作流程
  - N-Gram 语言模型
TAO CV
- 支持 MaskRCNN 实例分割模型
- 支持剪枝 MaskRCNN 模型
- 支持序列化模板 DeepStream 配置和标签文件
- 支持训练高精度专用模型
  - 人体姿势估计
- 用于在 Azure 云中运行 TAO 的说明
- 转换器实用程序，用于生成特定于设备的优化 TensorRT 引擎
- 添加到 UNet 训练的新主干
  - Vanilla UNet Dynamic
  - Efficient UNet
TAO 对话式 AI
- 添加了对验证导出的模型是否符合 RIVA 的支持
- 在 KenLM 中实现的训练 N-Gram 语言模型

已知问题/限制

TAO CV
- 在所有应用程序中，剪枝模型上不支持迁移学习。
- 当使用多个 GPU 进行训练时，您可能需要缩小 batch_size 和/或扩大学习率，以获得与单 GPU 训练中看到的相同的准确率。
- 当训练 DetectNet_v2 用于对象检测用例且类数超过 10 个时，您可能需要更新 cost_function_config 中的 cost_weight 参数，或者平衡数据集中每个类的样本数，以获得更好的训练效果。
- 当为图像少于 20,000 张的数据集训练 DetectNet_v2 网络时，请使用较小的批大小 (1、2 或 4) 以获得更好的准确率。
- DetectNet_v2 的 infer 子任务不输出置信度，并将值生成为 0。您可以忽略这些值，仅将 bbox 和类标签视为有效输出。
- NGC 中的 ResNet101 预训练权重在 YOLOv3、YOLOv4、YOLOv4-tiny、SSD、DSSD 和 RetinaNet 上不受支持。
- 当使用 tao-converter 生成 int8 引擎时，如果 TensorRT 错误消息指示权重超出 fp16 范围，请使用 -s。
TAO 对话式 AI
- 在云 VM 上运行 convAI 模型时，用户应具有 VM 的 root 访问权限。
- TAO Conv AI 模型无法生成中间 model.tlt 文件。