发行说明

Nsight Deep Learning Designer 发行说明。

发行说明和系统要求。

2025.1 版本更新

Nsight Deep Learning Designer 2025.1 包括以下更新

与 TensorRT 10.8 集成。
添加了对在 TensorRT 的不同次要版本之间切换的支持。
添加了从模型画布和层资源管理器中隐藏/显示 Constant 节点的支持（默认隐藏）。
添加了通过热键 Ctrl+Space 创建新的 ONNX 节点的支持。
添加了通过环境变量 NV_DLD_CACHE_DIR 为存储依赖位和定时缓存指定用户位置的支持。
修复了加载非常大的 ONNX 模型时导致 CPU 内存使用过多的错误。
修复了当某些节点的输入未全部连接时，导致类型检查器对某些 YOLO 模型失败的错误。
修复了在屏幕上拖动节点/链接时，某些 ONNX 节点链接呈现不可见的问题。
修复了当输出节点与中间张量同名时，导致类型检查器失败的问题。
修复了当在加载期间自动重命名某些节点时，已打开的 ONNX 模型文件未标记为脏的错误。

Nsight Deep Learning Designer 依赖于以下组件，并在需要时自动下载其中一些组件

组件	版本
CUDA	12.8
cuDNN	8.9.7
DirectML	1.15.2
Nsight Systems	2024.6.1
ONNX IR	9
ONNX GraphSurgeon	0.5.1
ONNX Opsets	1 至 20
ONNX Runtime	1.17.3
Polygraphy	0.49.9
TensorRT	10.8
WinPixEventRuntime	1.0.240308001

2024.1 版本更新

Nsight Deep Learning Designer 已完全改进。在此版本中，我们采用了 ONNX，为 DL 模型提供更广泛、更灵活的支持。更重要的是，我们采用了 NVIDIA 的标志性推理解决方案 TensorRT 来取代 NvNeural 作为底层推理引擎。此版本中的一些值得注意的更改

Nsight Deep Learning Designer 现在是一个成熟的 ONNX 模型编辑器。ONNX 模型可以可视化、编辑和分析。
我们改进了节点在画布上的表示方式。
添加了一种新的布局算法，以更紧凑的布局排列画布上的节点。
添加了对 ONNX opset 版本 1 到 20 以及 ONNX Runtime Contrib opset 版本 1 的支持。
添加了对 ONNX 模型中的子图和本地函数的支持。
添加了将子图或选定节点提取到独立 ONNX 模型的功能。
添加了从 ONNX 模型导出 TensorRT 引擎的支持。
添加了可视化 TensorRT 引擎图的支持。
为 ONNX 模型添加了 TensorRT 和 ONNX Runtime 分析支持。分析会生成一份报告文档，其中包含模型的详细推理性能。
基于 Polygraphy 添加了一个新的模型验证器，用于报告当前模型结构导致的任何错误、警告或问题。
添加了从 Nsight Deep Learning Designer 在 ONNX 模型上运行自定义工具的支持。
为 ONNX 模型添加了批量修改操作：将模型转换为 FP16、清理模型和批量张量转换。

Nsight Deep Learning Designer 依赖于以下组件，并在需要时自动下载其中一些组件

组件	版本
CUDA	12.7
cuDNN	8.9.7
DirectML	1.15.2
Nsight Systems	2024.6.1
ONNX IR	9
ONNX GraphSurgeon	0.5.1
ONNX Opsets	1 至 20
ONNX Runtime	1.17.3
Polygraphy	0.49.9
TensorRT	10.7
WinPixEventRuntime	1.0.240308001

作为过渡到 ONNX 和 TensorRT 的一部分，我们弃用了以下内容

编辑和可视化 NvNeural 模型
从/向 PyTorch 导入/导出 NvNeural 模型
NvNeural SDK
分析模式和通道检查器

2022.2 版本更新

NVIDIA Nsight Deep Learning Designer 2022.2 版本中的更改

我们添加了从虚拟环境（Conda 或 virtualenv）启动 PyTorch 导出器的支持。
我们通过将每层权重的可视化与每层特征分离，并更改我们可视化 NxCx1x1 权重的方式，提高了通道检查器的整体性能。
我们添加了一个实验性功能，允许用户直接将现有的 PyTorch 模型导入 NVIDIA Nsight Deep Learning Designer，而无需从头开始。
我们切换到使用三次曲线来表示图层链接，以减少路径查找开销。
我们添加了在分析模式中可视化分类网络推理结果的支持。
我们为相关图层添加了自定义填充支持（除了当前的 same 和 valid 选项）。
我们修复了许多错误。

我们还决定删除一些不常用的运算符，因为我们要使推理库现代化并统一我们的模型导出器。以下图层现已弃用，并将在未来的产品版本中删除

局部响应归一化 (LRN) 图层：仅删除 region 值为 within 的情况。仍完全支持 across 通道的归一化。
Mono-four-stack 图层：替换为自定义图层。
Mono-to-RGB 图层：替换为自定义图层。
网络图层：改为导入子网络作为模板。
输出图层：不推荐使用输出图层进行张量切片（width、height、channels 和 offset 参数）。如果需要这些操作，请使用显式切片图层。

以下激活函数现已弃用

Leaky sigmoid 激活函数：替换为自定义图层。
Leaky tanh 激活函数：替换为自定义图层。
正在删除 alpha 值不为零的 ReLU 激活函数。仍完全支持标准 ReLU。逐元素 max 图层可以替换这些激活函数。

NvNeural 2022.2 版本中的更改

更改了 nvneural::XmlNetworkBuilder::createLayerObject 的签名，以接收用于选择要实例化的图层对象的原始序列化类型。如果自定义类从 XmlNetworkBuilder 派生并覆盖此函数，则必须更新它们。

2022.1 版本更新

NVIDIA Nsight Deep Learning Designer 2022.1 版本中的更改

添加了保存分析模式下所有张量的支持。
添加了使用嵌套模板构建分层网络图的支持。
我们显著提高了编辑器中类型检查过程的性能。
修复了阻止 Linux 上 PyTorch 导出成功的错误。
从 Affine 图层中删除了钳位行为。它不再限制其 scale 和 offset 参数的值。options_on 参数已弃用；希望在分析期间隐藏此图层的交互式控件的用户应将新的 include_ui 参数设置为 false。
修复了将 7x7 卷积与批量归一化融合时阻止 FP16 推理的错误。

NvNeural 2022.1 版本中的更改

添加了一个新的分析图层：信号注入器。
添加了一个新的输入（常量）图层，该图层支持直接嵌入标量常量。
优化了 BatchNorm 图层的性能。
优化了 Upscale 图层的性能。
为 Upscale 图层添加了降采样和固定大小缩放的支持。
nvneural::ICudaRuntimeCompiler 中的 NvRTC 包装器在从 GUI 进行类型检查网络时已被存根替换。依赖于在初始化或 nvneural::ILayer::reshape 期间执行生成的内核代码的插件应直接调用 NvRTC，但出于性能原因，我们不建议这样做。
导出的 PyTorch 类中的 forward() 函数现在接受仅关键字参数。用户在调用模型/函数时应显式命名输入参数。
INetwork::inferenceSubgraph 方法现在应用排队的重塑操作。排队的重塑操作在失败后不会清除，并将继续阻止 inference 和 inferenceSubgraph 调用，直到它们成功。

2021.2 版本更新

NVIDIA Nsight Deep Learning Designer 2021.2 版本中的更改

通道检查器可以显示有关图层输出张量的摘要和每通道统计信息：均值、最小值/最大值、标准差和稀疏度（接近于零的张量元素的百分比）。
输出张量形状现在在编辑期间可见。
ConverenceNG 现在可以将网络输出另存为 .npy 文件。
用户现在可以展开或折叠编辑器视图中图层字形的参数列表。
在通道检查器中，用户现在可以切换复选框以执行通道的自动缩放和偏移。
用户现在可以将模板另存为可以导入到另一个模型中的文件。

我们向网络分析报告添加了更多数据

每层设备内存占用
全网络设备内存占用
推理时间的百分比视图
图层到最近输入的距离，用于按网络深度排序
模板级推理时间

NvNeural 2021.2 版本中的更改

插件初始化已重构，以减少其对翻译单元作用域静态初始化的依赖。ExportPlugin 框架现在期望用户插件代码提供函数 void nvneural::plugin::InitializePluginTypes() 的实现。此函数应调用静态 ClassRegistry 方法，使其导出类型对客户端应用程序可见。
SkipConcatenation 优化已重写。自定义连接图层应实现 nvneural::IConcatenationLayer2 以参与此优化。
我们添加了两个新的分析图层：Saliency Generator 和 Saliency Mix。Saliency Generator 图层将其输入张量转换为单通道张量，其 H 和 W 与其输入相同。saliency mix 图层只是将显著性信息（Saliency Generator 的输出）叠加到另一个输入张量上。

已知问题

Nsight Deep Learning Designer 的分析功能需要访问 GPU 性能计数器，默认情况下，这需要本地管理员权限。请参阅以下页面，了解如何配置系统以允许在不提升权限的情况下进行分析。在没有适当权限的情况下进行分析将生成 ERR: xxx: Error 19 returned from Perfworks 形式的错误消息。
从此 NVIDIA 开发者工具站点计算的操作/秒值以及使用数据中心监控工具生成的操作/秒值，与用于出口管制目的的操作/秒值的计算方式不同，不应依赖它们来评估是否符合出口管制限制的性能。
发送反馈对话框中的屏幕截图功能在将 Wayland 用作显示管理器的 Linux 系统上不起作用。
ONNX Runtime DirectML 分析提供程序不支持使用软件显示适配器的计算机。
不支持 COMPLEX64 和 COMPLEX128 ONNX 数据类型。
ONNX 模型的输入和输出仅支持张量类型。
如果链接彼此太靠近，链接注释可能会相互重叠。
处理具有无效 SparseTensor 的 ONNX 模型时，模型验证失败。
TensorRT 分析不支持控制流运算符，例如 Loop 和 If。
如果用户选择保存更改，则使用文档选项卡中的 [x] 按钮关闭未保存的本地函数文档将不允许关闭该文档。使用“确认本地函数编辑”按钮或“Ctrl-S”键盘快捷键保存本地函数编辑。

平台支持

Linux

Nsight Deep Learning Designer 支持运行 Ubuntu 20.04 LTS 或更高版本的 Linux x86_64 系统，GLIBC 版本为 2.29 或更高版本。

Nsight Deep Learning Designer 主机应用程序需要安装多个软件包才能启用 Qt。请参阅Qt for X11 Requirements。当执行 Nsight Deep Learning Designer 时，如果缺少依赖项，则会显示一条错误消息，其中包含有关缺少软件包的信息。请注意，即使您的系统中可能缺少多个软件包，一次也只会显示一个软件包。以下命令在 X11 上为 Nsight Deep Learning Designer 安装所需的软件包

Ubuntu 20.04:

apt install libopengl0 libxcb-icccm4 libxcb-image0 libxcb-keysyms1 libxcb-render-util0 libxcb-xinerama0 libxcb-xkb1 libxkbcommon-x11-0 libxcb-cursor0

NVIDIA L4T

Nsight Deep Learning Designer 支持运行 Ubuntu 20.04 LTS 或更高版本的 NVIDIA L4T arm64 系统，GLIBC 版本为 2.29 或更高版本。