简介#

NVIDIA NIM for Vision Language Models (VLMs)(NVIDIA NIM for VLMs)将最先进的视觉语言模型 (VLM) 的强大功能带入企业应用程序,提供无与伦比的自然语言和多模态理解能力。

借助 NIM,IT 和 DevOps 团队可以轻松地在他们自己管理的环境中自托管视觉语言模型 (VLM),同时仍然为开发人员提供行业标准 API,使他们能够构建强大的副驾驶、聊天机器人和 AI 助手,从而转变他们的业务。NIM 利用 NVIDIA 的尖端 GPU 加速和可扩展部署,提供最快的推理路径和无与伦比的性能。

访问支持矩阵,了解 NVIDIA NIM for VLM 支持的所有模型。

要发现其他 NIM 和 API,请访问 API 目录

高性能特性#

NIM 抽象化了模型推理的内部细节,例如执行引擎和运行时操作。无论使用 TRT-LLM、vLLM 还是其他,它们都是可用的性能最佳选项。NIM 提供以下高性能特性:

可扩展部署,性能卓越,可以从少量用户快速无缝扩展到数百万用户。

先进的视觉语言模型支持,具有针对各种尖端 VLM 架构的预生成优化引擎。

灵活集成,可轻松将微服务集成到现有工作流程和应用程序中。为开发人员提供了 OpenAI API 兼容的编程模型和用于附加功能的自定义 NVIDIA 扩展。

企业级安全性,通过使用 safetensors持续监控和修补我们堆栈中的 CVE 以及进行内部渗透测试来强调安全性。

应用场景#

图像问答:使机器人除了类人语言理解和响应能力外,还具备视觉理解能力

图像摘要:根据图像理解生成摘要

图像描述:使机器人能够描述图像内容并进行多轮对话

图表理解:生成图像中图表、表格和示意图的描述

以及更多... NIM 的潜在应用非常广泛,跨越各个行业和用例。

架构#

NIM 作为容器镜像按模型/模型系列进行打包。每个 NIM 都是其自身的 Docker 容器,其中包含一个模型,例如 meta/llama-3.2-90b-vision-instruct。这些容器包含一个运行时,该运行时可在任何具有足够 GPU 内存的 NVIDIA GPU 上运行,但只有某些模型/GPU 组合经过优化。NIM 自动从 NGC 下载模型,如果本地文件系统缓存可用,则利用本地文件系统缓存。每个 NIM 都从一个通用基础构建,因此一旦下载了一个 NIM,就可以快速下载其他 NIM。

当首次部署 NIM 时,它会检查本地硬件配置和模型注册表中的可用模型版本,并自动为可用硬件选择最佳模型版本。对于一部分 NVIDIA GPU(请参阅支持矩阵),NIM 下载优化的 TRT 引擎并使用 TRT-LLM 库运行推理。对于所有其他 NVIDIA GPU,NIM 下载非优化模型并使用 vLLM 库运行它。

NIM 通过 NVIDIA NGC 目录作为 NGC 容器镜像分发。NGC 目录中每个容器都有一个安全扫描报告,其中提供了该镜像的安全评级、按软件包划分的 CVE 严重性细分以及指向 CVE 详细信息的链接。

NVIDIA 开发者计划#

想了解更多关于 NIM 的信息?加入 NVIDIA 开发者计划,即可在任何基础设施(云、数据中心或个人工作站)上最多 16 个 GPU 上免费访问自托管 NVIDIA NIM 和微服务。

加入免费的 NVIDIA 开发者计划后,您可以随时通过 NVIDIA API 目录访问 NIM。为了获得企业级安全性、支持和 API 稳定性,请选择通过我们免费的 90 天 NVIDIA AI Enterprise 试用版(使用企业电子邮件地址)访问 NIM 的选项。

有关更多信息,请参阅NVIDIA NIM 常见问题解答