发行说明
Nsight Deep Learning Designer 发行说明。
发行说明和系统要求。
2025.1 版本更新
Nsight Deep Learning Designer 2025.1 包括以下更新
与 TensorRT 10.8 集成。
添加了对在 TensorRT 的不同次要版本之间切换的支持。
添加了从模型画布和层资源管理器中隐藏/显示 Constant 节点的支持(默认隐藏)。
添加了通过热键 Ctrl+Space 创建新的 ONNX 节点的支持。
添加了通过环境变量 NV_DLD_CACHE_DIR 为存储依赖位和定时缓存指定用户位置的支持。
修复了加载非常大的 ONNX 模型时导致 CPU 内存使用过多的错误。
修复了当某些节点的输入未全部连接时,导致类型检查器对某些 YOLO 模型失败的错误。
修复了在屏幕上拖动节点/链接时,某些 ONNX 节点链接呈现不可见的问题。
修复了当输出节点与中间张量同名时,导致类型检查器失败的问题。
修复了当在加载期间自动重命名某些节点时,已打开的 ONNX 模型文件未标记为脏的错误。
Nsight Deep Learning Designer 依赖于以下组件,并在需要时自动下载其中一些组件
组件 |
版本 |
---|---|
CUDA |
12.8 |
cuDNN |
8.9.7 |
DirectML |
1.15.2 |
Nsight Systems |
2024.6.1 |
ONNX IR |
9 |
ONNX GraphSurgeon |
0.5.1 |
ONNX Opsets |
1 至 20 |
ONNX Runtime |
1.17.3 |
Polygraphy |
0.49.9 |
TensorRT |
10.8 |
WinPixEventRuntime |
1.0.240308001 |
2024.1 版本更新
Nsight Deep Learning Designer 已完全改进。在此版本中,我们采用了 ONNX,为 DL 模型提供更广泛、更灵活的支持。更重要的是,我们采用了 NVIDIA 的标志性推理解决方案 TensorRT 来取代 NvNeural 作为底层推理引擎。此版本中的一些值得注意的更改
Nsight Deep Learning Designer 现在是一个成熟的 ONNX 模型编辑器。ONNX 模型可以可视化、编辑和分析。
我们改进了节点在画布上的表示方式。
添加了一种新的布局算法,以更紧凑的布局排列画布上的节点。
添加了对 ONNX opset 版本 1 到 20 以及 ONNX Runtime Contrib opset 版本 1 的支持。
添加了对 ONNX 模型中的子图和本地函数的支持。
添加了将子图或选定节点提取到独立 ONNX 模型的功能。
添加了从 ONNX 模型导出 TensorRT 引擎的支持。
添加了可视化 TensorRT 引擎图的支持。
为 ONNX 模型添加了 TensorRT 和 ONNX Runtime 分析支持。分析会生成一份报告文档,其中包含模型的详细推理性能。
基于 Polygraphy 添加了一个新的模型验证器,用于报告当前模型结构导致的任何错误、警告或问题。
添加了从 Nsight Deep Learning Designer 在 ONNX 模型上运行自定义工具的支持。
为 ONNX 模型添加了批量修改操作:将模型转换为 FP16、清理模型和批量张量转换。
Nsight Deep Learning Designer 依赖于以下组件,并在需要时自动下载其中一些组件
组件 |
版本 |
---|---|
CUDA |
12.7 |
cuDNN |
8.9.7 |
DirectML |
1.15.2 |
Nsight Systems |
2024.6.1 |
ONNX IR |
9 |
ONNX GraphSurgeon |
0.5.1 |
ONNX Opsets |
1 至 20 |
ONNX Runtime |
1.17.3 |
Polygraphy |
0.49.9 |
TensorRT |
10.7 |
WinPixEventRuntime |
1.0.240308001 |
作为过渡到 ONNX 和 TensorRT 的一部分,我们弃用了以下内容
编辑和可视化 NvNeural 模型
从/向 PyTorch 导入/导出 NvNeural 模型
NvNeural SDK
分析模式和通道检查器
2022.2 版本更新
NVIDIA Nsight Deep Learning Designer 2022.2 版本中的更改
我们添加了从虚拟环境(Conda 或 virtualenv)启动 PyTorch 导出器的支持。
我们通过将每层权重的可视化与每层特征分离,并更改我们可视化 NxCx1x1 权重的方式,提高了通道检查器的整体性能。
我们添加了一个实验性功能,允许用户直接将现有的 PyTorch 模型导入 NVIDIA Nsight Deep Learning Designer,而无需从头开始。
我们切换到使用三次曲线来表示图层链接,以减少路径查找开销。
我们添加了在分析模式中可视化分类网络推理结果的支持。
我们为相关图层添加了自定义填充支持(除了当前的
same
和valid
选项)。我们修复了许多错误。
我们还决定删除一些不常用的运算符,因为我们要使推理库现代化并统一我们的模型导出器。以下图层现已弃用,并将在未来的产品版本中删除
局部响应归一化 (LRN) 图层:仅删除
region
值为within
的情况。仍完全支持across
通道的归一化。Mono-four-stack 图层:替换为自定义图层。
Mono-to-RGB 图层:替换为自定义图层。
网络图层:改为导入子网络作为模板。
输出图层:不推荐使用输出图层进行张量切片(
width
、height
、channels
和offset
参数)。如果需要这些操作,请使用显式切片图层。
以下激活函数现已弃用
Leaky sigmoid 激活函数:替换为自定义图层。
Leaky tanh 激活函数:替换为自定义图层。
正在删除
alpha
值不为零的 ReLU 激活函数。仍完全支持标准 ReLU。逐元素max
图层可以替换这些激活函数。
NvNeural 2022.2 版本中的更改
更改了
nvneural::XmlNetworkBuilder::createLayerObject
的签名,以接收用于选择要实例化的图层对象的原始序列化类型。如果自定义类从XmlNetworkBuilder
派生并覆盖此函数,则必须更新它们。
2022.1 版本更新
NVIDIA Nsight Deep Learning Designer 2022.1 版本中的更改
添加了保存分析模式下所有张量的支持。
添加了使用嵌套模板构建分层网络图的支持。
我们显著提高了编辑器中类型检查过程的性能。
修复了阻止 Linux 上 PyTorch 导出成功的错误。
从 Affine 图层中删除了钳位行为。它不再限制其
scale
和offset
参数的值。options_on
参数已弃用;希望在分析期间隐藏此图层的交互式控件的用户应将新的include_ui
参数设置为 false。修复了将 7x7 卷积与批量归一化融合时阻止 FP16 推理的错误。
NvNeural 2022.1 版本中的更改
添加了一个新的分析图层:信号注入器。
添加了一个新的输入(常量)图层,该图层支持直接嵌入标量常量。
优化了 BatchNorm 图层的性能。
优化了 Upscale 图层的性能。
为 Upscale 图层添加了降采样和固定大小缩放的支持。
nvneural::ICudaRuntimeCompiler
中的 NvRTC 包装器在从 GUI 进行类型检查网络时已被存根替换。依赖于在初始化或nvneural::ILayer::reshape
期间执行生成的内核代码的插件应直接调用 NvRTC,但出于性能原因,我们不建议这样做。导出的 PyTorch 类中的
forward()
函数现在接受仅关键字参数。用户在调用模型/函数时应显式命名输入参数。INetwork::inferenceSubgraph
方法现在应用排队的重塑操作。排队的重塑操作在失败后不会清除,并将继续阻止inference
和inferenceSubgraph
调用,直到它们成功。
2021.2 版本更新
NVIDIA Nsight Deep Learning Designer 2021.2 版本中的更改
通道检查器可以显示有关图层输出张量的摘要和每通道统计信息:均值、最小值/最大值、标准差和稀疏度(接近于零的张量元素的百分比)。
输出张量形状现在在编辑期间可见。
ConverenceNG 现在可以将网络输出另存为 .npy 文件。
用户现在可以展开或折叠编辑器视图中图层字形的参数列表。
在通道检查器中,用户现在可以切换复选框以执行通道的自动缩放和偏移。
用户现在可以将模板另存为可以导入到另一个模型中的文件。
我们向网络分析报告添加了更多数据
每层设备内存占用
全网络设备内存占用
推理时间的百分比视图
图层到最近输入的距离,用于按网络深度排序
模板级推理时间
NvNeural 2021.2 版本中的更改
插件初始化已重构,以减少其对翻译单元作用域静态初始化的依赖。ExportPlugin 框架现在期望用户插件代码提供函数
void nvneural::plugin::InitializePluginTypes()
的实现。此函数应调用静态 ClassRegistry 方法,使其导出类型对客户端应用程序可见。SkipConcatenation 优化已重写。自定义连接图层应实现
nvneural::IConcatenationLayer2
以参与此优化。我们添加了两个新的分析图层:Saliency Generator 和 Saliency Mix。Saliency Generator 图层将其输入张量转换为单通道张量,其 H 和 W 与其输入相同。saliency mix 图层只是将显著性信息(Saliency Generator 的输出)叠加到另一个输入张量上。
已知问题
Nsight Deep Learning Designer 的分析功能需要访问 GPU 性能计数器,默认情况下,这需要本地管理员权限。请参阅以下页面,了解如何配置系统以允许在不提升权限的情况下进行分析。在没有适当权限的情况下进行分析将生成
ERR: xxx: Error 19 returned from Perfworks
形式的错误消息。从此 NVIDIA 开发者工具站点计算的操作/秒值以及使用数据中心监控工具生成的操作/秒值,与用于出口管制目的的操作/秒值的计算方式不同,不应依赖它们来评估是否符合出口管制限制的性能。
发送反馈对话框中的屏幕截图功能在将 Wayland 用作显示管理器的 Linux 系统上不起作用。
ONNX Runtime DirectML 分析提供程序不支持使用软件显示适配器的计算机。
不支持 COMPLEX64 和 COMPLEX128 ONNX 数据类型。
ONNX 模型的输入和输出仅支持张量类型。
如果链接彼此太靠近,链接注释可能会相互重叠。
处理具有无效 SparseTensor 的 ONNX 模型时,模型验证失败。
TensorRT 分析不支持控制流运算符,例如 Loop 和 If。
如果用户选择保存更改,则使用文档选项卡中的 [x] 按钮关闭未保存的本地函数文档将不允许关闭该文档。使用“确认本地函数编辑”按钮或“Ctrl-S”键盘快捷键保存本地函数编辑。
平台支持
Linux
Nsight Deep Learning Designer 支持运行 Ubuntu 20.04 LTS 或更高版本的 Linux x86_64 系统,GLIBC 版本为 2.29 或更高版本。
Nsight Deep Learning Designer 主机应用程序需要安装多个软件包才能启用 Qt。请参阅Qt for X11 Requirements。当执行 Nsight Deep Learning Designer 时,如果缺少依赖项,则会显示一条错误消息,其中包含有关缺少软件包的信息。请注意,即使您的系统中可能缺少多个软件包,一次也只会显示一个软件包。以下命令在 X11 上为 Nsight Deep Learning Designer 安装所需的软件包
Ubuntu 20.04:
apt install libopengl0 libxcb-icccm4 libxcb-image0 libxcb-keysyms1 libxcb-render-util0 libxcb-xinerama0 libxcb-xkb1 libxkbcommon-x11-0 libxcb-cursor0
NVIDIA L4T
Nsight Deep Learning Designer 支持运行 Ubuntu 20.04 LTS 或更高版本的 NVIDIA L4T arm64 系统,GLIBC 版本为 2.29 或更高版本。
Nsight Deep Learning Designer 主机应用程序需要安装多个软件包才能启用 Qt。请参阅Qt for X11 Requirements。当执行 Nsight Deep Learning Designer 时,如果缺少依赖项,则会显示一条错误消息,其中包含有关缺少软件包的信息。请注意,即使您的系统中可能缺少多个软件包,一次也只会显示一个软件包。以下命令在 X11 上为 Nsight Deep Learning Designer 安装所需的软件包
Ubuntu 20.04:
apt install libopengl0 libxcb-icccm4 libxcb-image0 libxcb-keysyms1 libxcb-render-util0 libxcb-xinerama0 libxcb-xkb1 libxkbcommon-x11-0 libxcb-cursor0
Windows
Nsight Deep Learning Designer 支持运行 Windows x86_64 系统
Windows 10:20H1 或更高版本。
Windows 11:21H2 或更高版本。
GPU 支持
NVIDIA Nsight Deep Learning Designer 需要 NVIDIA GPU 才能运行
Linux x86_64
GeForce GPU:GeForce RTX 2000 系列、RTX 3000 系列或 RTX 4000 系列。
数据中心 GPU:A100 或 H100。
NVIDIA L4T arm64
嵌入式系统:Jetson Orin。
Windows x86_64
GeForce GPU:GeForce RTX 2000 系列、RTX 3000 系列或 RTX 4000 系列。
推荐显示驱动程序
您必须在系统上安装最新的 NVIDIA 显示驱动程序才能运行 Nsight Deep Learning Designer。建议使用以下显示驱动程序
Windows:Release 560.00 或更高版本。
Linux:Release 560.00 或更高版本。
NVIDIA L4T:NVIDIA JetPack SDK 6.1。注意:当以 NVIDIA L4T 平台为目标时,用户(本地或远程)需要是 debug 组的成员才能进行分析。