NVIDIA Jetson 平台的 AI 服务#
概述#
Jetson AI 服务提供优化的、开箱即用的视频分析功能,可以通过定义良好的 API 加以利用。它们可以轻松地与其他 Jetson 平台服务集成,以快速实现端到端应用程序,这些应用程序支持生产级功能,包括摄像头发现和流式传输(通过 VST)、动态流添加(通过 SDR)、用于微服务集成的消息总线(通过 Redis)。
AI 服务以容器形式部署,通常作为通过 docker-compose 将相关容器更大规模部署到系统的一部分。Jetson 平台服务版本中包含的各种参考工作流程展示了此类集成的示例。REST API 定义了与 AI 服务相关的各种标准操作,包括流添加/删除、模型交互和配置。
AI 服务支持生成式 AI,通过重新定义传统上解决的问题(例如:通过开放词汇表支持的目标检测)以及通过能够与视频输入进行自然语言交互的视觉语言模型的新用例,从而实现计算机视觉领域前所未有的用例。
DeepStream#
DeepStream AI 服务提供优化的 DeepStream 管道,支持使用 PeopleNet 或 YOLO (v8) 模型进行多流对象检测和跟踪。支持与 Jetson 平台服务架构中的各种其他模块深度集成,包括 VST(用于摄像头发现和流式传输)、SDR(动态流添加)、Analytics(使用 DeepStream 元数据输出的时空分析)和监控。
要开始使用,请查看DeepStream 感知页面。
零样本检测#
零样本检测 AI 服务使用一个名为 NanoOWL 的开放词汇表检测模型,该模型基于 Google 的 OWL-ViT。NanoOWL 已针对 Jetson 进行了优化,并打包为零样本检测 AI 服务,以便于部署。该 AI 服务允许基于 REST API 的交互来控制视频流输入和要检测的类别。该模型不受一组预定义类别的限制,这允许用户在运行时更新检测类别,并立即在叠加输出流中看到更新后的检测结果。
要开始使用,请查看零样本检测与 Jetson 平台服务页面。
视觉语言模型 (VLM)#
VLM AI 服务支持快速部署 VILA 和 LLaVA 系列大型多模态模型,这些模型能够理解图像和文本输入。该 AI 服务使用 REST API 封装这些模型,以便于配置和与其他服务集成。REST API 允许用户控制视频流输入和模型的提示,以设置警报或询问有关视频流的问题。
要开始使用,请查看视觉语言模型 (VLM) 与 Jetson 平台服务页面。
Grounding DINO (GDINO)#
Grounding DINO 微服务支持开放词汇表对象检测,使用生成式 AI 支持无限类别的对象。它支持通过 REST API 对对象进行基于自然语言的上下文提示。
要开始使用,请查看Grounding DINO (GDINO)页面。
VLM 视频摘要#
视频摘要微服务启用了一种基于自然语言界面的准确、通用技术,用于使用可通过 REST API 访问的视频语言模型 (VLM) 总结视频文件。虽然视频摘要通常是一项资源密集型操作,但该微服务使用了优化,使得这在 Jetson 设备上可行。
要开始使用,请查看VLM 视频摘要页面。
自定义#
要自定义或创建您自己的 AI 服务,请查看 GitHub 上的开源代码 <https://github.com/NVIDIA-AI-IOT/jetson-platform-services> 以了解 AI 服务是如何开发的。这些 AI 服务可以用作自定义的起点,或者作为使用新模型构建您自己的 AI 服务的参考。查找可以转化为 AI 服务的最新模型的一个好地方是 NVIDIA Jetson AI 实验室。