相关技术
Holoscan 通过利用硬件和软件加速流式 AI 应用。Holoscan SDK 依赖于多项核心技术来实现低延迟和高吞吐量
配备 ConnectX 网络适配器 的 NVIDIA 开发者套件可以与 NVIDIA Rivermax SDK 结合使用,以提供极其高效的网络连接,并通过使用用于 RDMA 的 GPUDirect 进一步针对 GPU 工作负载进行优化。这项技术通过将数据直接复制到或从固定的 GPU 内存,避免了不必要的内存复制和 CPU 开销,并支持集成 GPU 或独立 GPU。
NVIDIA 致力于支持硬件供应商在其自己的驱动程序中启用 RDMA,AJA Video Systems 提供了一个示例,作为与 NVIDIA 就 Holoscan SDK 合作的一部分。AJASource
运算符是如何 SDK 可以利用 RDMA 的一个例子。
有关 GPUDirect RDMA 的更多信息,请参阅以下内容
Minimal GPUDirect RDMA Demonstration 源代码,它提供了使用 RDMA 的真实硬件示例,并包括 RHS Research PicoEVB 和 HiTech Global HTG-K800 FPGA 板的内核驱动程序和用户空间应用程序。
图执行框架 (GXF) 是 Holoscan SDK 的核心组件,它提供的功能可以通过最小化或消除跨每个工作块复制数据的需求,并提供优化内存分配的方法,从而以高性能执行各种独立任务的管道。
GXF 将在本用户指南的许多地方被提及,包括一个 专用章节,其中提供了更多详细信息。
NVIDIA TensorRT 是一个基于 CUDA 的深度学习推理框架,它为在 NVIDIA GPU(包括 NVIDIA 开发者套件)上运行提供了最高的优化。
推理模块 利用 TensorRT 和其他后端,并提供了并行执行多个推理的能力。
流式图像处理通常需要常见的 2D 操作,如调整大小、转换位宽和更改颜色格式。NVIDIA 构建了 CUDA 加速的 NVIDIA 性能原语库 (NPP),它可以帮助进行许多这些常见的转换。NPP 在 Holoscan SDK 的格式转换器运算符中得到了广泛展示。
统一通信 X (UCX) 框架是一个开源通信框架,由工业界和学术界合作开发。它为数据中心应用提供高性能的点对点通信。Holoscan SDK 使用 UCX 在分布式应用中的片段之间发送数据。UCX 的高级协议尝试根据可用的硬件自动选择最佳传输层。例如,支持 TCP、CUDA 内存复制、CUDA IPC 和 GPUDirect RDMA 等技术。