发行说明
NVIDIA TAO 是一个 Python 包,使您能够使用自己的数据微调预训练模型,并将它们导出以通过边缘设备进行基于 TensorRT 的推理。
NVIDIA Transfer Learning Toolkit 已更名为 TAO:有关详细的迁移指南,请参阅此页面。
主要特性
开放词汇对象检测模型 (GroundingDINO)
开放词汇对象检测模型 (Mask GroundingDINO)
用于 DINO 对象检测模型的知识蒸馏
使用 BEVFusion 的多摄像头和激光雷达早期融合
使用 Mask2Former 的语义、实例和全景图像分割
运行 SEGIC (上下文分割) 的交互式演示
使用 FoundationPose 模型为任何对象生成姿势点的示例应用程序
预训练模型
专用模型
商业可用的 Grounding DINO
使用合成数据的 TAO BevFusion
TAO 合成 BEVFusion
FoundationPose - 用于返回对象姿势点的基础模型
商业可用的用于分割的 Mask GroundingDINO
仅供研究的在 COCO 上微调的 Mask GroundingDINO
NVCLIP - 商业 CLIP 模型
已知问题和限制
Grounding DINO 和 Mask Grounding DINO 微调至少需要 16GB 的 RAM
基础模型微调需要至少 24GB VRAM 的 GPU。
知识蒸馏目前仅限于对象检测
Mask Grounding DINO 部署只能通过 tao-deploy 以批大小为 1 的方式运行 TensorRT 推理
BEVFusion 不支持 5.5.0 的 TensorRT 部署
FoundationPose 不支持通过 TAO 进行微调
重大更改
TAO API 中的几项新更改已在本迁移指南中进行了总结
计算堆栈
PyTorch 2.1.0 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.5.0-pyt
软件 | 版本 |
Python | 3.10 |
CUDA | 12.4 |
CuDNN | 9.1.0 |
TensorRT | 8.6.3.1 |
部署容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.5.0-deploy
软件 | 版本 |
Python | 3.10 |
CUDA | 12.4 |
CuDNN | 9.1.0 |
TensorRT | 8.6.3.1 |
数据服务容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.5.0-dataservice
软件 | 版本 |
Python | 3.10 |
CUDA | 12.3 |
CuDNN | 8.9.7 |
TensorRT | 8.6.3.1 |
TensorFlow 2.15.0 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.5.0-tf2
软件 | 版本 |
Python | 3.10 |
CUDA | 12.4 |
CuDNN | 9.1.0 |
TensorRT | 8.6.3.1 |
主要特性
用于 3D bbox 检测的多类 Centerpose 模型
将基础模型 (NvDINOv2) 主干集成到视觉变化网络
将
classification_pyt
和segformer
迁移到 pytorch 2.1.0,并将所有 PyTorch 网络合并到一个容器中
预训练模型
专用模型
多类 CenterPose
具有 NvDINOv2 主干的视觉变化网络分类
视觉变化网络分割 NvDINOv2 主干 - LandSat-SCD
视觉变化网络分割 NvDINOv2 主干 - LEVIR-CD
具有 FAN-S 模型的零售对象识别头
已知问题和限制
视觉变化网络和基础模型微调不支持通过 TAO API 进行
基础模型微调需要至少 24GB VRAM 的 GPU。
重大更改
TAO API 中的几项新更改已在本迁移指南中进行了总结
计算堆栈
PyTorch 2.1.0 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.3.0-pyt
软件 | 版本 |
Python | 3.10 |
CUDA | 12.3 |
CuDNN | 8.9.7 |
TensorRT | 8.6.1.6 |
部署容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.3.0-deploy
软件 | 版本 |
Python | 3.10 |
CUDA | 12.3 |
CuDNN | 8.9.7 |
TensorRT | 8.6.1.6 |
数据服务容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.3.0-dataservice
软件 | 版本 |
Python | 3.10 |
CUDA | 12.3 |
CuDNN | 8.9.7 |
TensorRT | 8.6.1.6 |
主要特性
新的计算机视觉解决方案
CenterPose 模型的端到端训练管道
ViT 适配器实现,用于将 ViT 主干与 DINO 集成
使用 ViT 主干和 NvDINOv2 基础模型微调 DINO 对象检测模型
开放词汇图像分割的微调和推理支持,作为 GitHub 上的开发者预览功能
TAO API
夜间爬虫,用于动态更新 NGC 上 TAO 兼容模型的列表
为基于列表的参数启用 AutoML 超参数搜索
支持为 classification_pyt 进行基础模型微调
为视觉变化网络启用 AutoML
为 CenterPose 启用 AutoML
其他
进度条,用于通过启动器显示 docker pull 状态
预训练模型
专用模型
CenterPose
ODISE
已知问题和限制
视觉变化网络和基础模型微调不支持通过 TAO API 进行
基础模型微调需要至少 24GB VRAM 的 GPU。
通过
--onnx_route keras2onnx
导出的 DetectNet_v2 在可视化预测中显示 16x16 偏移。FasterRCNN TensorRT 引擎生成引发误报故障,但实际上不会导致引擎生成失败或性能和准确性下降。
[06/23/2023-13:19:40] [TRT] [F] Validation failed: libNamespace == nullptr /workspace/trt_oss_src/TensorRT/plugin/proposalPlugin/proposalPlugin.cpp:528 [06/23/2023-13:19:40] [TRT] [E] std::exception [06/23/2023-13:19:40] [TRT] [I] Successfully created plugin: ProposalDynamic [06/23/2023-13:19:40] [TRT] [F] Validation failed: libNamespace == nullptr
OCRNet-ViT 需要 TensorRT 8.6 及以上版本才能达到最佳准确率。对于 TensorRT 8.5,OCRNet-ViT 应使用 opset-version < 17 导出,并建议使用 FP32 精度。
重大更改
从 TAO 5.2.0 开始,TensorFlow 后端仅作为 GitHub 上新功能的源代码发布。NVIDIA 建议从源代码构建容器以获取最新功能和错误修复。
从 TAO 5.0.0 开始,UNet onnx 模型输出现在是
argmax_1/output
,而不是softmax_1
计算堆栈
PyTorch 1.14.0 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.2.0-pyt1.14.0
软件 | 版本 |
Python | 3.8 |
CUDA | 12.0 |
CuDNN | 8.6.0 |
TensorRT | 8.5.3.1 |
PyTorch 2.1.0 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.2.0-pyt2.1.0
软件 | 版本 |
Python | 3.10 |
CUDA | 12.2 |
CuDNN | 8.9.5 |
TensorRT | 8.6.1 |
部署容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.2.0-deploy
软件 | 版本 |
Python | 3.10 |
CUDA | 12.2 |
CuDNN | 8.9.5 |
TensorRT | 8.6.1 |
数据服务容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.2.0-dataservice
软件 | 版本 |
Python | 3.10 |
CUDA | 12.2 |
CuDNN | 8.9.5 |
TensorRT | 8.6.1 |
主要特性
新的计算机视觉解决方案
视觉变化网络分类和分割的端到端训练管道
以下用于分类的基础图像模型主干的微调
OpenCLIP
EvaCLIP
注意有关模型详细信息,请参阅基础模型部分。
预训练模型
专用模型
视觉变化网络分类
视觉变化网络分割 - LEVIRCD (仅供研究)
视觉变化网络分割 - LandSat-SCD
已知问题和限制
视觉变化网络和基础模型微调不支持通过 TAO API 进行
基础模型微调需要至少 24GB VRAM 的 GPU。
通过
--onnx_route keras2onnx
导出的 DetectNet_v2 在可视化预测中显示 16x16 偏移。DetectNet_v2 推理器无法设置
dbscan_min_samples
>1
。
重大更改
DetectNet_v2 推理器配置参数
dbscan_min_samples
只能设置为整数,而不是 TAO 4.0.x 中的 float32。
计算堆栈
PyTorch 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.1.0-pyt
软件 | 版本 |
Python | 3.8 |
CUDA | 12.0 |
CuDNN | 8.6.0 |
TensorRT | 8.5.3.1 |
部署容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.1.0-deploy
软件 | 版本 |
Python | 3.8 |
CUDA | 12.0 |
CuDNN | 8.6.0 |
TensorRT | 8.5.3.1 |
主要特性
新的计算机视觉解决方案
用于光学检测的自定义 Siamese 网络训练管道,带有 TensorBoard 可视化
度量学习识别的端到端训练管道
TAO PyTorch 中使用 FAN 和 GCViT 主干的图像分类
新的对象检测架构 DINO,带有 FAN、GCViT 和 ResNet 主干
SegFormer 训练现在支持基于 FAN 的主干
带有 GCViT 主干的可变形 DETR
Mask Auto Labeller 网络的训练管道
用于从文档中进行光学字符检测和光学字符识别的端到端 TAO 工作流程管道
用于增强数据集的新工具
使用 Mask Auto Labeller 为用户数据集生成分割掩码
用于对象检测用例的多 GPU 离线数据集增强
用于可视化、检查、验证和更正对象检测数据集注释的工具
COCO 和 KITTI 对象检测数据集之间的格式转换器
启动器 CLI
新的
task_group
层次结构,以帮助隔离任务操作模型
数据集
部署
管道功能
导出以反序列化 ONNX 模型,以便直接与 TensorRT 集成 (MaskRCNN 除外)
跨所有网络的解密检查点序列化
RESTful API 和云部署
更多网络已添加到 AutoML 工作流程
快速入门支持已扩展到以下新的 K8 云服务提供商 (CSP)
Google Cloud GKS
Microsoft Azure AKS
现在 GitHub 上提供了所有 TAO 组件的源代码。有关更多信息,请参阅TAO 源代码部分。
预训练模型
专用模型
PeopleSemSegFormer
PCB 分类
OCDNet
OCRNet
零售对象检测
零售对象识别
光学检测
预训练起始权重
分类
预训练 GCViT NvImageNet
预训练 FAN NvImageNet
预训练 GCViT ImageNet
预训练 FAN ImageNet
对象检测
预训练 DINO NVImageNet
预训练 DINO ImageNet
预训练可变形-DETR NVImageNet
预训练可变形-DETR NVImageNet
预训练 EfficientNet NVImageNet
EfficientDet COCO
可变形-DETR COCO
DINO COCO
分割
预训练 SegFormer NVImageNet
预训练 SegFormer ImageNet
Mask Auto Label
CityScapes Segformer
已弃用的功能
所有 TAO 对话式 AI 集成已从 TAO 5.0.0 版本中弃用
使用
tao-converter
从.etlt
文件生成 TensorRT 引擎的功能已弃用。所有网络都支持直接与 TensorRT 集成以及 trtexec 示例。有关更多信息,请参阅使用 TensorRT 进行性能分析部分。以下计算机视觉训练管道已弃用
视线估计
情感分类
心率估计
手势识别
重大更改
所有 PyTorch 和 TensorFlow 2 网络都具有重新架构的规范文件,其中包含实验规范的概念
为了配置统一性,所有网络的通用参数都已重命名
无法在 5.0.0 版本中加载来自 TAO 4.0.0 版本的 SegFormer 模型。对于 5.0.0 版本,请使用新的预训练模型。
从 TAO 5.0.0 导出的模型将无法与
tao-converter
一起用于 TensorRT 引擎生成。您可以直接使用 TensorRT 中的 trtexec 命令行包装器来生成 TensorRT 引擎。所有以前的
tao <network> <subtask>
命令层次结构现在都变为tao model <network> <subtash>
。因此,作为 TAO 4.0.x 一部分发布的示例笔记本电脑将无法直接与 TAO 5.0.0 一起使用。有关新 CLI 结构的更多信息,请阅读从 TAO 4.0.x 迁移到 TAO 5.0.0 的迁移指南。离线增强工具
tao augment
不是数据集task_group
下的tao dataset augment
。
错误修复
修复了 DetectNet_v2 的
.etlt
推理中的错误修复了错误,以提高 TensorFlow 1.x 网络的 MultiGPU 作业的稳定性
已知问题和限制
通过 TAO API,多 GPU 训练目前仅限于单节点实例
从 TAO 导出的基于 FAN 的网络作为
.onnx
文件,需要 TensorRT 版本 >= 8.6.x 才能部署。光学检测模型的
tao deploy
不支持动态批处理。BodyPoseNet 和 FPENet 未与 TAO 5.0.0 版本的
tao deploy
集成。仅通过
tf2onnx
后端支持将 DetectNet-v2 导出到.onnx
以用于 QAT INT8 模型。多节点执行仅通过容器执行模型支持,如使用容器部分所述。
MIG 训练目前仅支持单 GPU。有关更多信息,请参阅在多实例 GPU 上运行训练部分。
所有 DNN 容器都需要 NVIDIA CUDA 驱动程序版本 525.85 及以上版本才能运行。
Re-identification 训练器在 5.0.0 中不支持多 GPU 训练
计算堆栈
TF 1.15.5 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.0.0-tf1.15.5
软件 | 版本 |
Python | 3.8 |
CUDA | 12.0 |
CuDNN | 8.6.0 |
TensorRT | 8.5.3.1 |
TF 2.11.0 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.0.0-tf2.11.0
软件 | 版本 |
Python | 3.8 |
CUDA | 12.0 |
CuDNN | 8.6.0 |
TensorRT | 8.5.3.1 |
PyTorch 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.0.0-pyt
软件 | 版本 |
Python | 3.8 |
CUDA | 12.0 |
CuDNN | 8.6.0 |
TensorRT | 8.5.3.1 |
部署容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.0.0-deploy
软件 | 版本 |
Python | 3.8 |
CUDA | 12.0 |
CuDNN | 8.6.0 |
TensorRT | 8.5.3.1 |
数据服务容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:5.0.0-dataservice
软件 | 版本 |
Python | 3.8 |
CUDA | 12.0 |
CuDNN | 8.6.0 |
TensorRT | 8.5.3.1 |
4.0.1 的增量更改。
错误修复
TAO API
TAO API AutoML 挂起
TAO API 支持 HTTPS 代理和自定义 SSL CA 证书
TAO API 无法访问无线接口上的服务
TAO API MLOPs 可视化,适用于
MaskRCNN
UNet
主要特性
为以下网络启用第三方 MLOPs 提供商 - ClearML 和 Weights and Biases
MaskRCNN
UNet
计算堆栈
TF 1.15.5 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:4.0.1-tf1.15.5
软件 | 版本 |
Python | 3.6 |
CUDA | 11.8 |
CuDNN | 8.6.0 |
TensorRT | 8.5.1.7 |
错误修复
YOLOv4 可视化工具在运行 multiGPU 训练时失败
修复
tao-client
中的模型取消和恢复函数名称TAO API
将 FLIR Google Drive 链接替换为公共链接
裸机快速入门脚本
修复安装主机驱动程序时 GPU Operator 部署问题
禁用 ingress-nginx 控制器 admissionWebhooks,因为它们在某些系统上失败
添加对基于 MIG 的节点的支持
添加对覆盖 GPU Operator 和驱动程序版本的支持
已知问题/限制
MaskRCNN 和 UNet 的 MLOPs 可视化无法通过 RestAPI 获得
主要特性
通过 TAO API 的 AutoML 套件
与第三方 MLOPS 提供商集成 - ClearML 和 Weights and Biases
支持基于 Transformer 的深度神经网络训练和导出
Segformer - 语义分割
可变形 DETR - 对象检测
支持重新识别网络
将 DNN 命令隔离到训练和部署容器中
NGram 语言模型的剪枝和微调
添加对 AWS EKS 和 Azure AKS 的支持
用于通过启动器和 API 轻松部署 TAO 的快速入门脚本
启动器
API
裸机
AWS EKS
Azure AKS
计算堆栈
TF 1.15.5 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:4.0.0-tf1.15.5
软件 | 版本 |
Python | 3.6 |
CUDA | 11.8 |
CuDNN | 8.6.0 |
TensorRT | 8.5.1.7 |
TF 2.9.1 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:4.0.0-tf2.9.1
软件 | 版本 |
Python | 3.8 |
CUDA | 11.8 |
CuDNN | 8.6.0 |
TensorRT | 8.5.0.12 |
PyTorch 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:4.0.0-pyt
软件 | 版本 |
Python | 3.8 |
CUDA | 11.8 |
CuDNN | 8..6.0 |
TensorRT | 8.5.0.12 |
部署容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit 标签:4.0.0-deploy
软件 | 版本 |
Python | 3.8 |
CUDA | 11.8 |
CuDNN | 8.6.0 |
TensorRT | 8.5.1.7 |
模型更新
计算机视觉
通用
将 TensorRT 版本升级到 8.5.1.7。
将 clearml 和 wandb 集成到训练任务中。
将
target_opset
传递给 ONNX 模型的导出器。修复 TAO API 所需的所有网络的
status.json
。存储
calib_json
并禁止显示 TensorRT 相关参数。
分类
执行
image_dir
的递归遍历。添加有效的输入检查和相应的日志。
FasterRCNN
修复 VGG16 剪枝中的错误。
UNet
通过添加用于删除 FC 头的参数来解决 BYOM 错误。
将目标 opset 添加到导出模型。
修复恢复训练和保存检查点。
添加
calib_json
选项并从导出中删除tensorrt
选项。修复微调时修改类数量的问题。
修复 QAT 模型的重新训练。
DetectNet_v2
修复提前停止验证中的错误。
在 wandb 和 clearml 中为 DNv2 添加配置文件。
向评估添加阈值处理。
向 DetectNetv2 添加提前停止。
多任务分类
修复带有 deepstream 配置的多任务分类导出。
YOLOv3
启用 Tensorboard 可视化。
MaskRCNN
为
mrcnn_resolution
启用自适应导出。
SSD
修复 DALI 数据加载器中的恢复问题。
减少启用 QAT 时对
create_quantized_keras_model
的调用。修复数据集转换器回归。
YOLOv4
添加自动类权重。
支持 16 位图像。
可变形-DETR
可变形-DETR 支持的初始提交,
Segformer
Segformer 支持的初始提交
核心
添加用于遥测数据上传的逻辑。
ARNet
为 eval 脚本启用
block_mode
数据加载器。改进推理脚本。
对话式 AI
ASR
为 ONNX 导出添加 opset、autocast 和 fold 常量。
修复 ASR 指标中的遗漏。
更新
infer_onnx
的 WER API 更改。
TTS
修复遥测的日志记录。
修复声码器 multiGPU 日志记录。
修复 TTS 中的 multiGPU 故障。
修复训练中的 CUDA 错误。
已知问题和限制
Wandb 集成要求容器由
root
用户实例化。NLP 问答任务不支持 TAO 工作流程的 egatron 模型。
主要特性
使用 TAO BYOM 转换器将您自己的模型引入 TAO。
将 TAO 作为服务部署在 Kubernetes 集群上,详见此部分
使用 RestAPI 将 TAO 集成到您的工作流程中
TensorBoard 可视化适用于选定的模型,详见此部分。
通过 PointPillars 从点云数据文件训练对象检测网络。
训练分类网络,以通过图卷积网络对姿势骨架的姿势进行分类。
中间检查点适用于 ASR 和 TTS 模型。
支持 Conformer-CTC for ASR:训练、微调、评估、推理和导出。
计算堆栈
TF 1.15.4 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit-tf 标签:v3.22.05-tf1.15.4-py3
软件 | 版本 |
Python | 3.6 |
CUDA | 11.4 |
CuDNN | 8.2.1.32 |
TensorRT | 8.2.5.1 |
TF 1.15.5 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit-tf 标签:v3.22.05-tf1.15.5-py3
软件 | 版本 |
Python | 3.6 |
CUDA | 11.6 |
CuDNN | 8.2.1.32 |
TensorRT | 8.2.5.1 |
PyTorch 容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit-pyt 标签:v3.22.05-py3
软件 | 版本 |
Python | 3.8 |
CUDA | 11.5 |
CuDNN | 8.2.1.32 |
TensorRT | 8.2.5.1 |
语言模型容器
容器名称:nvcr.io/nvidia/tao/tao-toolkit-lm 标签:v3.22.05-py3
软件 | 版本 |
Python | 3.8 |
CUDA | 11.5 |
CuDNN | 8.2.1.32 |
TensorRT | 8.2.5.1 |
模型更新
计算机视觉
图像分类
添加自定义 classmap 文件输入的验证。
将 classmap 文件输入添加到训练。
将 classmap 文件添加为评估的可选输入。
为评估和推理添加状态回调和
results_dir
命令行参数。支持
train
端点的 TensorBoard 可视化。执行 BYOM 自定义层的初始更新。
添加 EFF 包。
添加 EFF 包和模型加载。
在图像分类中启用 BYOM。
DetectNet_v2
限制
tao detectnet_v2 evaluate
期间的 GPU 内存使用量,添加本机支持以将 COCO 数据集转换为 TFRecords,
在
dataset_config
下的 spec 文件中取出采样模式参数,启用 tensorboard 可视化,
在
dataset_config
中为visualizer
添加配置元素。修复 TFRecords 生成的成功状态。
只要通过命令行设置了
--results_dir
参数,就将状态日志记录添加到所有任务。
UNet
更新 UNet 导出期间的
--gen_ds_config
选项。将
dataset_convert
端点添加到 UNet。添加对将 COCO 数据集转换为 TFRecords 的支持。
支持对剪枝模型进行评估。
添加用于函数的图形收集以提高内存消耗。
优化 UNet 推理的 ONNX。
修复重新训练剪枝模型的错误。
将统一的
status_logging
添加到 UNet 端点。支持自定义层剪枝和通过 BYOM 从
.tltb
直接评估。为 UNet 启用自带模型 (Bring Your Own Model)。
实现对量化感知训练 (QAT) 的支持。
添加对 ShuffleNet 的端到端支持。
通过
StatusCallBack
在训练期间启用状态日志记录。改进训练期间数据加载器的操作。
在训练期间启用 TensorBoard 可视化。
为
output_width
添加警告。启用对提前停止训练的支持。
BYOM
为自带模型 (BYOM) 启用自定义层剪枝。
通用功能
修复
model_io
中的错误处理。支持对象检测和分割网络的 COCO TFRecord 转换。
修复 SoftStartAnnealingLearningRateScheduler 中的拼写错误。
实现状态日志记录回调。
YOLOv4
启用对象损失平滑。
支持指数移动平均 (EMA)。
修复 YOLOv4 颈部和头部结构。
配置每个数据加载器配置的 NMS。
修复 YOLOv3 和 YOLOv4 形状。
启用手动设置类权重。
启用 TensorBoard 可视化。
MaskRCNN
启用
skip_crowd_during_training=False
。添加评估摘要和补丁导出器。
启用 TensorBoard 可视化。
EfficientDet
修复 TRT 推理器中的拼写错误。
SSD
当
--results_dir
添加到命令行时,为所有端点启用状态日志记录启用对提前停止训练的支持。
DSSD
当
--results_dir
添加到命令行时,为所有端点启用状态日志记录。启用对提前停止训练的支持。
RetinaNet
启用对提前停止训练的支持。
当
--results_dir
添加到命令行时,为所有端点启用状态日志记录。修复通过序列数据加载器恢复检查点的错误。
为 TLT 2.0 训练的模型启用向后兼容性。
在训练期间启用 Tensorboard 可视化。
启用手动设置类权重。
FasterRCNN
当
--results_dir
添加到命令行时,为所有端点启用状态日志记录。为 TAO API 的评估和推理启用模型作为 CLI 参数。
在训练期间启用 Tensorboard 可视化
对话式 AI
通用
将状态日志记录添加到 TTS 模型,类似于 TAO CV 模型
修复 QA 模型评估中用于中文 SQuAD*样式数据集的问题
修复 create_tokenizer 在始终静默使用旧语料库上的错误
更新后端以使用 NeMo 1.7.0
TTS
从 Riva Custom Voice Recorder 中删除 TTS 数据集的持续时间检查
修复从微调模型运行推理时 infer onnx 端点
修复声码器的错误处理
启用中间 .tlt 模型检查点
PointPillars
启用使用预训练模型的迁移学习
使用来自 GitHub 的 TensorRT oss 22.02
动作识别
更新指标模块
ASR
支持提前停止
在 NeMo 模型上进行微调
启用中间 .tlt 模型检查点
预训练模型
新模型
PointPillarNet
PoseClassificationNet
更新的模型
PeopleNet
PeopleSemSegNet
PeopleSegNet
LPDNet
已知问题/限制
TAO DSSD/FasterRCNN/RetinaNet/YOLOv3/YOLOv4 在使用导出或转换器 CLI 命令时可能会出现间歇性的非法内存访问错误。根本原因不明。在这种情况下,只需再次运行即可解决此问题。
TAO BYOM 语义分割工作流程仅支持 UNet 和图像分类。
TAO 图像分类网络需要驱动程序 510 或更高版本才能进行训练。
TAO 即服务不支持用户身份验证和每个用户的工作区管理。
TTS 微调仅支持来自NVIDIA Custom Voice Recorder的数据。
主要特性
此版本中包含的功能
TAO 资源
Jupyter notebook 示例,用于展示以下模型的端到端工作流程
TAO 对话式 AI
支持从预训练模型微调 FastPitch 和 HiFiGAN
更新 FastPitch 和 HiFiGAN 导出和推理端点以与 RIVA 接口
已知问题/限制
TAO FastPitch 微调仅支持在NVIDIA Custom Voice Recorder中定义的文本转录。
来自NVIDIA Custom Voice Recorder的数据只能用于微调
FastPitch
或HiFiGAN
模型。为了微调 FastPitch,您需要将新的说话人数据重新采样到用于训练预训练模型的数据集的采样率。
主要特性
此版本中包含的功能
TAO 资源
Jupyter notebook 示例,展示以下模型的端到端工作流程
ActionRecognitionNet
EfficientDet
使用 FastPitch 和 HiFiGAN 的文本到语音
TAO CV
用于多个公共架构和参考应用程序的预训练模型,服务于计算机视觉相关的对象分类、检测和分割用例。
支持 YOLOv4-tiny 和 EfficientDet 对象检测模型。
支持剪枝 EfficientDet 模型
在 NGC 上发布了新的预训练模型
转换器实用程序,用于生成特定于设备的优化 TensorRT 引擎
Jetson JP4.6
x86 + dGPU - TensorRT 8.0.1.6 与 CUDA 11.4
TAO 对话式 AI
支持从头开始训练 FastPitch 和 HiFiGAN 模型
为自然语言处理任务添加新的编码器
DistilBERT
BioMegatron-BERT
已知问题/限制
TAO CV
在所有应用程序中,剪枝模型上不支持迁移学习。
当使用多个 GPU 进行训练时,您可能需要缩小 batch_size 和/或扩大学习率,以获得与单 GPU 训练中看到的相同的准确率。
当训练 DetectNet_v2 用于对象检测用例且类数超过 10 个时,您可能需要更新 cost_function_config 中的 cost_weight 参数,或者平衡数据集中每个类的样本数,以获得更好的训练效果。
当为图像少于 20,000 张的数据集训练 DetectNet_v2 网络时,请使用较小的批大小 (1、2 或 4) 以获得更好的准确率。
DetectNet_v2 的 infer 子任务不输出置信度,并将值生成为 0。您可以忽略这些值,仅将 bbox 和类标签视为有效输出。
NGC 中的 ResNet101 预训练权重在 YOLOv3、YOLOv4、YOLOv4-tiny、SSD、DSSD 和 RetinaNet 上不受支持。
当使用
tao-converter
生成 int8 引擎时,如果 TensorRT 错误消息指示权重超出 fp16 范围,请使用-s
。由于较大的 EfficientDet 模型的复杂性,剪枝过程将花费更长的时间才能完成。例如,在 V100 服务器上剪枝 EfficientDet-D5 模型可能至少需要 25 分钟。
当使用
tao-converter
在 A100 GPU 上为 MaskRCNN 生成 TensorRT INT8 引擎时,请启用--strict_data_type
我们的 EfficientDet 代码库的源代码取自 automl github 仓库
TAO 对话式 AI
在云 VM 上运行 convAI 模型时,用户应具有 VM 的 root 访问权限
文本到语音管道仅支持从头开始训练单个说话人
文本到语音训练管道要求音频文件为
.wav
格式RIVA < 21.09 中不支持 TAO 3.0-21.11 导出的 .riva 文件
BioMegatron-BERT 和基于 Megatron 的 NLP 任务不支持使用比以前完成的实验更多 epoch 的模型恢复以前完成的模型
当运行文本到语音的端到端示例时,您可能必须使用展开缩写
已解决的问题
TAO CV
YOLOv4、YOLOv3、UNet 和 LPRNet 导出的
.etlt
模型文件可以直接集成到 DeepStream 6.0 中。
TAO 对话式 AI
ASR 模型支持在训练期间生成中间
.tlt
模型文件
已弃用的功能
TAO 计算机视觉推理管道已弃用。用户现在可以使用 DeepStream 通过此处提供的参考应用程序部署以下开箱即用模型here
发行内容
此版本中包含的组件
TAO 启动器 pip 包
TAO - TF docker
TAO - Pytorch Docker
TAO - 语言模型 Docker
带有示例工作流程的 Jupyter notebook
对话式 AI
包含使用和安装说明的入门指南
适用于 x86 + 独立 GPU 平台的 tao-converter
适用于 Jetson (ARM64) 的 tao-converter 可在此处获得。
在 NGC 上提供的在 Open Image 数据集上训练的预训练权重
专用模型的未剪枝和剪枝模型 - 剪枝模型可以与 DeepStream 开箱即用部署,未剪枝模型可以用于重新训练。
可训练和开箱即用可部署模型,适用于
主要特性
Transfer Learning Toolkit 已更名为 TAO
TAO 启动器
Python3 pip 包作为统一的命令行界面 (CLI)
支持从不同注册表托管的 docker
TAO 资源
Jupyter notebook 示例,展示以下模型的端到端工作流程
N-Gram 语言模型
TAO CV
支持 MaskRCNN 实例分割模型
支持剪枝 MaskRCNN 模型
支持序列化模板 DeepStream 配置和标签文件
支持训练高精度专用模型
人体姿势估计
用于在 Azure 云中运行 TAO 的说明
转换器实用程序,用于生成特定于设备的优化 TensorRT 引擎
添加到 UNet 训练的新主干
Vanilla UNet Dynamic
Efficient UNet
TAO 对话式 AI
添加了对验证导出的模型是否符合 RIVA 的支持
在 KenLM 中实现的训练 N-Gram 语言模型
已知问题/限制
TAO CV
在所有应用程序中,剪枝模型上不支持迁移学习。
当使用多个 GPU 进行训练时,您可能需要缩小 batch_size 和/或扩大学习率,以获得与单 GPU 训练中看到的相同的准确率。
当训练 DetectNet_v2 用于对象检测用例且类数超过 10 个时,您可能需要更新 cost_function_config 中的 cost_weight 参数,或者平衡数据集中每个类的样本数,以获得更好的训练效果。
当为图像少于 20,000 张的数据集训练 DetectNet_v2 网络时,请使用较小的批大小 (1、2 或 4) 以获得更好的准确率。
DetectNet_v2 的 infer 子任务不输出置信度,并将值生成为 0。您可以忽略这些值,仅将 bbox 和类标签视为有效输出。
NGC 中的 ResNet101 预训练权重在 YOLOv3、YOLOv4、YOLOv4-tiny、SSD、DSSD 和 RetinaNet 上不受支持。
当使用
tao-converter
生成 int8 引擎时,如果 TensorRT 错误消息指示权重超出 fp16 范围,请使用-s
。
TAO 对话式 AI
在云 VM 上运行 convAI 模型时,用户应具有 VM 的 root 访问权限。
TAO Conv AI 模型无法生成中间 model.tlt 文件。