发行说明#

版本 1.1.1#

摘要#

此补丁版本修复了在 AWS 和 Azure 实例上出现的 CUDA 运行时错误。

视觉语言模型#

局限性#

不支持 PEFT。
根据 Meta 的指导，不支持函数调用。
根据 Meta 的指导，每个请求仅支持一张图像。
根据 Meta 的指导，系统消息不允许与图像一起使用。
根据官方 vLLM 实现，图像始终添加到用户消息的前面。
当使用 vLLM 后端时，最大并发性可能较低。
图像和视觉编码器 Prometheus 指标在 vLLM 后端不可用。
当上下文长度大于 32k 时，Llama-3.2-90B-Vision-Instruct 的准确性可能会降低。

版本 1.1.0#

摘要#

这是 NIM for VLMs 的 1.1.0 版本。

视觉语言模型#

局限性#

不支持 PEFT。
根据 Meta 的指导，不支持函数调用。
根据 Meta 的指导，每个请求仅支持一张图像。
根据 Meta 的指导，系统消息不允许与图像一起使用。
根据官方 vLLM 实现，图像始终添加到用户消息的前面。
当使用 vLLM 后端时，最大并发性可能较低。
图像和视觉编码器 Prometheus 指标在 vLLM 后端不可用。
当上下文长度大于 32k 时，Llama-3.2-90B-Vision-Instruct 的准确性可能会降低。
当在 AWS A10G 上部署优化后的配置文件时，您可能会看到 [TensorRT-LLM][ERROR] ICudaEngine::createExecutionContextWithoutDeviceMemory: Error Code 1: Cuda Runtime (an illegal memory access was encountered)。请改用 vLLM 后端，如此处所述。