发行说明#
版本 1.1.1#
摘要#
此补丁版本修复了在 AWS 和 Azure 实例上出现的 CUDA 运行时错误。
视觉语言模型#
局限性#
不支持 PEFT。
根据 Meta 的指导,不支持函数调用。
根据 Meta 的指导,每个请求仅支持一张图像。
根据 Meta 的指导,系统消息不允许与图像一起使用。
根据官方 vLLM 实现,图像始终添加到用户消息的前面。
当使用 vLLM 后端时,最大并发性可能较低。
图像和视觉编码器 Prometheus 指标在 vLLM 后端不可用。
当上下文长度大于 32k 时,Llama-3.2-90B-Vision-Instruct 的准确性可能会降低。
版本 1.1.0#
摘要#
这是 NIM for VLMs 的 1.1.0 版本。
视觉语言模型#
局限性#
不支持 PEFT。
根据 Meta 的指导,不支持函数调用。
根据 Meta 的指导,每个请求仅支持一张图像。
根据 Meta 的指导,系统消息不允许与图像一起使用。
根据官方 vLLM 实现,图像始终添加到用户消息的前面。
当使用 vLLM 后端时,最大并发性可能较低。
图像和视觉编码器 Prometheus 指标在 vLLM 后端不可用。
当上下文长度大于 32k 时,Llama-3.2-90B-Vision-Instruct 的准确性可能会降低。
当在 AWS A10G 上部署优化后的配置文件时,您可能会看到
[TensorRT-LLM][ERROR] ICudaEngine::createExecutionContextWithoutDeviceMemory: Error Code 1: Cuda Runtime (an illegal memory access was encountered)
。请改用 vLLM 后端,如此处所述。