发行说明#

版本 1.1.1#

摘要#

此补丁版本修复了在 AWS 和 Azure 实例上出现的 CUDA 运行时错误。

视觉语言模型#

局限性#

  • 不支持 PEFT。

  • 根据 Meta 的指导,不支持函数调用。

  • 根据 Meta 的指导,每个请求仅支持一张图像。

  • 根据 Meta 的指导,系统消息不允许与图像一起使用。

  • 根据官方 vLLM 实现,图像始终添加到用户消息的前面。

  • 当使用 vLLM 后端时,最大并发性可能较低。

  • 图像和视觉编码器 Prometheus 指标在 vLLM 后端不可用。

  • 当上下文长度大于 32k 时,Llama-3.2-90B-Vision-Instruct 的准确性可能会降低。

版本 1.1.0#

摘要#

这是 NIM for VLMs 的 1.1.0 版本。

视觉语言模型#

局限性#

  • 不支持 PEFT。

  • 根据 Meta 的指导,不支持函数调用。

  • 根据 Meta 的指导,每个请求仅支持一张图像。

  • 根据 Meta 的指导,系统消息不允许与图像一起使用。

  • 根据官方 vLLM 实现,图像始终添加到用户消息的前面。

  • 当使用 vLLM 后端时,最大并发性可能较低。

  • 图像和视觉编码器 Prometheus 指标在 vLLM 后端不可用。

  • 当上下文长度大于 32k 时,Llama-3.2-90B-Vision-Instruct 的准确性可能会降低。

  • 当在 AWS A10G 上部署优化后的配置文件时,您可能会看到 [TensorRT-LLM][ERROR] ICudaEngine::createExecutionContextWithoutDeviceMemory: Error Code 1: Cuda Runtime (an illegal memory access was encountered)。请改用 vLLM 后端,如此处所述。