发行说明#

所有已知问题#

单击展开

以下是按版本列出的已知问题。如果问题已修复,则修复问题的版本以粗体列出。

1.5.0#

  • 如果提供了自定义微调模型目录,则文件名不应包含空格。

  • 当 UVM 被禁用时,将选择 TRT-LLM 配置文件。在以前的版本中,当 UVM 被禁用时,将选择 vLLM 配置文件。

  • "fast_outlines" 引导式解码后端在处理强制模型生成表情符号的请求时会失败。

  • StarCoderBase 15.5B 不支持聊天端点。

  • Llama 3.3 70B Instruct 至少需要 400GB 的 CPU 内存。

1.4.0#

  • 以下模型不支持 LoRA

  • Gemma-2-2b 不支持聊天或补全 API 调用中的系统角色。

  • 提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前,先过滤掉这些字符。

  • 使用 KServe 部署可能需要更改缓存目录的权限。有关详细信息,请参阅 从本地资产提供模型 部分。

1.3.0#

  • 提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前,先过滤掉这些字符。

  • 当设置 logprobs=2echo=truestream=false 时,所有模型都返回 500 错误;它们应该返回 200 成功。

  • Llama 3.1 70B Instruct:

    • 由于内存不足,不支持 vLLM 和 TRTLLM 的 LoRA A10G TP8。

    • L40s TP88 上 vLLM LoRA 的性能明显欠佳。

    • 使用 KServe 部署失败。作为一种解决方法,请尝试在运行时 YAML 文件中将 CPU 内存增加到至少 77GB。

    • 运行 1.3 NIM 时,存在关于校验和的不正确警告。在 1.4 中修复。

    • 由于主机内存不足,在 A100 和 H100 上构建可构建的 TRT-LLM BF16 TP4 LoRA 配置文件可能会失败。您可以通过设置 NIM_LOW_MEMORY_MODE=1 来解决此问题。

  • Llama 3.1 405B Instruct TRT-LLM BF16 TP16 可构建配置文件无法在 A100 上部署。

  • Mistral 7B Instruct V0.3 与优化的 TRT-LLM 配置文件相比,开源 vLLM 的性能较低。

  • Mixtral 8x7B Instruct v0.1

    • 在 vLLM 配置文件上不支持函数调用和结构化生成。 有关详细信息,请参阅 vLLM #9433

    • 对于 MoE 模型,TRTLLM 后端不支持 LoRA

    • vLLM LoRA 配置文件返回内部服务器错误/500。设置 NIM_MAX_LORA_RANK=256 以将 LoRA 与 vLLM 一起使用。

    • 如果您使用 L40S FP8 TP4 吞吐量配置文件启用 NIM_ENABLE_KV_CACHE_REUSE,则部署将失败。

  • Nemotron 4 340B Instruct 128K 不支持可构建的 TRT-LLM 配置文件。

  • 如果主机内存不足,则在构建本地 TensorRT LLM 引擎时,容器可能会崩溃。如果发生这种情况,请尝试设置 NIM_LOW_MEMORY_MODE=1

  • 函数调用和结构化生成不支持大于 1 的流水线并行度。

  • FP8 配置文件不支持本地构建的微调模型。

  • 对数概率 (logprobs) 支持回显

  • vGPU 相关问题

    • trtllm_buildable 配置文件在 vGPU 系统上可能会遇到内存不足 (OOM) 错误,可以通过 NIM_LOW_MEMORY_MODE=1 标志修复。

    • 当将 vGPU 系统与 trtllm_buildable 配置文件一起使用时,您可能仍然会遇到连接断开错误。例如,client_loop: send disconnect: Broken pipe

  • tensorrt_llm-local_build 的 OOB 为 8K。使用 NIM_MAX_MODEL_LEN 环境变量来修改模型支持的值范围内的序列长度。

  • GET v1/metrics API 在文档页面 (http://HOST-IP:8000/docs,其中 HOST-IP 是您的主机的 IP 地址) 中缺失。

1.2.3#

  • Code Llama 模型

    • 由于准确性下降,FP8 配置文件未发布

    • 不支持 LoRA

  • Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。

  • Mistral NeMo Minitron 8B 8K Instruct

    • 不支持工具调用

    • 不支持 LoRA

    • vLLM TP4 或 TP8 配置文件不可用。

  • Mixtral 8x7b Instruct v0.1 vLLM 配置文件不支持函数调用和结构化生成。 有关详细信息,请参阅 vLLM #9433

  • Phi 3 Mini 4K Instruct 模型

    • 不支持 LoRA

    • 不支持工具调用

  • Phind Code Llama 34B v2 Instruct

    • 不支持 LoRA

    • 不支持工具调用

  • logprobs=2 仅支持奖励模型的 TRT-LLM (优化) 配置;此选项支持所有模型的 vLLM (非优化) 配置。有关详细信息,请参阅支持的模型部分。

  • 带有 vLLM 后端的 NIM 可能会间歇性地进入 API 返回“服务不健康”消息的状态。这是 vLLM 的已知问题 (vllm-project/vllm#5060)。在这种情况下,您必须重新启动 NIM。

1.2.1#

  • 长上下文模型 (model_max_len > 65528) 的 vllm + LoRA 配置文件将无法加载,从而导致 ValueError: 由于自定义 LoRA CUDA 内核的限制,启用 LoRA 时,max_num_batched_tokens 必须 <= 65528。作为一种解决方法,您可以设置 NIM_MAX_MODEL_LEN=65525 或更低

  • Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。

  • 对于使用 TRT-LLM 后端的任何模型,logit_bias 均不可用。

1.2.0#

  • NIM 不支持多实例 GPU 模式 (MIG)。

  • Nemotron4 模型需要使用“慢速”分词器。“快速”分词器会导致准确性下降。

  • Llama 3.1 405B Instruct 不支持 LoRA。

  • Llama 3.1 405B Instruct 不支持 vLLM 配置文件。

  • 优化的引擎 (TRT-LLM) 不支持 NVIDIA vGPU。要使用优化的引擎,请使用 GPU 直通。

  • repetition_penalty=2 时,较大模型的响应时间更长。在较大的模型上使用 repetition_penalty=1

  • Llama 3.1 8B Instruct H100 和 L40s LoRA 配置文件在高 (>2000) ISL 值时可能会挂起。

1.1.2#

  • Llama 3.1 405B Instruct 不支持 LoRA

  • Llama 3.1 405B Instruct 不支持 vLLM 配置文件

  • Llama 3.1 405B Instruct 的吞吐量优化配置文件在 A100 FP16 和 H100 FP16 上不受支持

  • 对于气隙系统或多 GPU vLLM 配置文件的只读卷,缓存部署失败。在 1.2.0 中修复。

  • Llama2 70b v1.0.3 的 CUDA 内存不足问题。vllm-fp16-tp2 配置文件已经过验证,已知可在 H100 x 2 和 A100 x 2 配置上工作。其他类型的 GPU 可能会遇到“CUDA 内存不足”问题。

  • Llama 3.1 FP8 需要 NVIDIA 驱动程序版本 >= 550

1.1.1#

  • Llama 3.1 8B Base、Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 不支持 vLLM 配置文件

1.1.0#

  • Llama 3.1 模型的 vLLM 配置文件将失败,并显示 ValueError: Unknown RoPE scaling type extended

  • NIM 不支持多实例 GPU 模式 (MIG)。

1.0#

  • 当设置 logprobs=2echo=truestream=false 时,所有模型都返回 500 错误;它们应该返回 200 成功。

  • Llama3 70b v1.0.3 - 8 x GPU 配置不支持 LoRA

  • LLama2 70B vLLM FP16 TP2 配置文件限制 NVIDIA 已经验证了 H100、A100 和 L40S GPU 的各种配置上的 Llama2 70B。Llama2 70B 在 H100、A100 和 L40s 的 tp4 (四个 GPU) 和 tp8 (八个 GPU) 版本上运行;但是,L40S 的 tp2 (2 个 GPU) 没有足够的内存来运行 Llama2 70B,并且任何尝试在该平台上运行它的操作都可能遇到 CUDA“内存不足”问题。

  • 不支持 P-Tuning。

  • 多 GPU TensorRT-LLM 模型上的空指标值。指标项 gpu_cache_usage_percnum_request_maxnum_requests_runningnum_requests_waitingprompt_tokens_total 不会为多 GPU TensorRT-LLM 模型报告,因为 TensorRT-LLM 目前未在 orchestrator 模式下公开迭代统计信息。

  • 运行 PEFT 时未找到分词器错误。可以安全地忽略此警告。

## 版本 1.5.0

新语言模型#

新功能#

  • 支持 A100 SXM 40GB

  • 为引导式解码后端添加了选择加入设置 (NIM_GUIDED_DECODING_BACKEND) 以减少 TTFT。注意:需要 GPU 驱动程序版本 与 PTX 8.5 兼容

已知问题#

  • 如果提供了自定义微调模型目录,则文件名不应包含空格。

  • 当 UVM 被禁用时,将选择 TRT-LLM 配置文件。在以前的版本中,当 UVM 被禁用时,将选择 vLLM 配置文件。

  • "fast_outlines" 引导式解码后端在处理强制模型生成表情符号的请求时会失败。

  • StarCoderBase 15.5B 不支持聊天端点。

  • Llama 3.3 70B Instruct 至少需要 400GB 的 CPU 内存。

版本 1.4.0#

新模型#

新功能#

  • 各种性能改进和错误修复。

已修复问题#

  • “运行 1.3 NIM 时,存在关于校验和的不正确警告”的问题已修复。

已知问题#

  • 以下模型不支持 LoRA

  • Gemma-2-2b 不支持聊天或补全 API 调用中的系统角色。

  • 提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前,先过滤掉这些字符。

  • 使用 KServe 部署可能需要更改缓存目录的权限。有关详细信息,请参阅 从本地资产提供模型 部分。

版本 1.3.0#

新语言模型#

新功能#

  • 自定义微调模型支持。有关更多详细信息,请参阅 FT 支持

  • 引入了 tensorrt_llm-local_build 配置文件,这使得在没有预构建优化引擎的 GPU 上可以使用 TensorRT-LLM 运行时。有关更多详细信息,请参阅模型配置文件页面。

  • 本地构建和微调引擎的缓存,可与常规 LLM NIM 工作流程无缝协作。

  • 实现了键值缓存,以在多个请求中的初始提示相同时加快推理速度。有关详细信息,请参阅 KV 缓存

没有预构建优化引擎的系统的用户应该会看到比以前版本的 NIM 更快的速度,但由于本地编译过程,首次部署时可能会遇到较慢的启动时间。

已知问题#

  • 提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前,先过滤掉这些字符。

  • 当设置 logprobs=2echo=truestream=false 时,所有模型都返回 500 错误;它们应该返回 200 成功。

  • Llama 3.1 70B Instruct:

    • 由于内存不足,不支持 vLLM 和 TRTLLM 的 LoRA A10G TP8。

    • L40s TP88 上 vLLM LoRA 的性能明显欠佳。

    • 使用 KServe 部署失败。作为一种解决方法,请尝试在运行时 YAML 文件中将 CPU 内存增加到至少 77GB。

    • 运行 1.3 NIM 时,存在关于校验和的不正确警告。例如:Profile 0462612f0f2de63b2d423bc3863030835c0fbdbc13b531868670cc416e030029 is not fully defined with checksums。可以安全地忽略此警告。

    • 由于主机内存不足,在 A100 和 H100 上构建可构建的 TRT-LLM BF16 TP4 LoRA 配置文件可能会失败。您可以通过设置 NIM_LOW_MEMORY_MODE=1 来解决此问题。

  • Llama 3.1 405B Instruct TRT-LLM BF16 TP16 可构建配置文件无法在 A100 上部署。

  • Mistral 7B Instruct V0.3 与优化的 TRT-LLM 配置文件相比,开源 vLLM 的性能较低。

  • Mixtral 8x7B Instruct v0.1

    • 在 vLLM 配置文件上不支持函数调用和结构化生成。 有关详细信息,请参阅 vLLM #9433

    • 对于 MoE 模型,TRTLLM 后端不支持 LoRA

    • vLLM LoRA 配置文件返回内部服务器错误/500。设置 NIM_MAX_LORA_RANK=256 以将 LoRA 与 vLLM 一起使用。

    • 如果您使用 L40S FP8 TP4 吞吐量配置文件启用 NIM_ENABLE_KV_CACHE_REUSE,则部署将失败。

  • Nemotron 4 340B Instruct 128K 不支持可构建的 TRT-LLM 配置文件。

  • 如果主机内存不足,则在构建本地 TensorRT LLM 引擎时,容器可能会崩溃。如果发生这种情况,请尝试设置 NIM_LOW_MEMORY_MODE=1

  • 函数调用和结构化生成不支持大于 1 的流水线并行度。

  • FP8 配置文件不支持本地构建的微调模型。

  • 对数概率 (logprobs) 支持回显

  • vGPU 相关问题

    • trtllm_buildable 配置文件在 vGPU 系统上可能会遇到内存不足 (OOM) 错误,可以通过 NIM_LOW_MEMORY_MODE=1 标志修复。

    • 当将 vGPU 系统与 trtllm_buildable 配置文件一起使用时,您可能仍然会遇到连接断开错误。例如,client_loop: send disconnect: Broken pipe

  • tensorrt_llm-local_build 的 OOB 为 8K。使用 NIM_MAX_MODEL_LEN 环境变量来修改模型支持的值范围内的序列长度。

  • GET v1/metrics API 在文档页面 (http://HOST-IP:8000/docs,其中 HOST-IP 是您的主机的 IP 地址) 中缺失。

软件要求已更新#

版本 1.3.0 基于 CUDA 12.6.1,这需要 NVIDIA 驱动程序 版本 560 或更高版本。但是,如果您在数据中心 GPU (例如,A100 或任何其他数据中心 GPU) 上运行,则可以使用 NVIDIA 驱动程序版本 470.57 (或更高版本 R470)、535.86 (或更高版本 R535) 或 550.54 (或更高版本 R550)

版本 1.2.3#

新语言模型#

已知问题#

  • Code Llama 模型

    • 由于准确性下降,FP8 配置文件未发布

    • 不支持 LoRA

  • Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。

  • Mistral NeMo Minitron 8B 8K Instruct

    • 不支持工具调用

    • 不支持 LoRA

    • vLLM TP4 或 TP8 配置文件不可用。

  • Mixtral 8x7b Instruct v0.1 vLLM 配置文件不支持函数调用和结构化生成。 有关详细信息,请参阅 vLLM #9433

  • Phi 3 Mini 4K Instruct 模型

    • 不支持 LoRA

    • 不支持工具调用

  • Phind Code Llama 34B v2 Instruct

    • 不支持 LoRA

    • 不支持工具调用

  • logprobs=2 仅支持奖励模型的 TRT-LLM (优化) 配置;此选项支持所有模型的 vLLM (非优化) 配置。有关详细信息,请参阅支持的模型部分。

  • 带有 vLLM 后端的 NIM 可能会间歇性地进入 API 返回“服务不健康”消息的状态。这是 vLLM 的已知问题 (vllm-project/vllm#5060)。在这种情况下,您必须重新启动 NIM。

版本 1.2.1#

新模型#

已知问题#

  • 长上下文模型 (model_max_len > 65528) 的 vllm + LoRA 配置文件将无法加载,从而导致 ValueError: 由于自定义 LoRA CUDA 内核的限制,启用 LoRA 时,max_num_batched_tokens 必须 <= 65528。作为一种解决方法,您可以设置 NIM_MAX_MODEL_LEN=65525 或更低

  • Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。

  • 对于使用 TRT-LLM 后端的任何模型,logit_bias 均不可用。

版本 1.2.0#

新语言模型#

新功能#

  • 通过改进设备选择器添加 vGPU 支持。有关 vGPU 详细信息,请参阅支持的模型

    • 在 UVM 和可用的优化引擎的情况下,模型在 TRT-LLM 上运行。

    • 否则,模型在 vLLM 上运行。

  • 为 API 服务器中的跟踪和指标添加 OpenTelemetry 支持。有关详细信息,包括 NIM_ENABLE_OTELNIM_OTEL_TRACES_EXPORTERNIM_OTEL_METRICS_EXPORTERNIM_OTEL_EXPORTER_OTLP_ENDPOINTNIM_OTEL_SERVICE_NAME,请参阅配置

  • 在 completion API 中启用了 ECHO 请求,以与 OpenAI 规范对齐。有关详细信息,请参阅 NIM OpenAPI 架构

  • 为 ECHO 模式添加 logprob 支持,该模式返回完整上下文 (包括提示和输出令牌) 的 logprobs

  • 添加了 FP8 引擎支持以及 FP16 lora。有关 lora 用法的详细信息,请参阅 PEFT

已修复问题#

  • 对于多 GPU vLLM 配置文件的气隙系统或只读卷,缓存部署失败

已知问题#

  • NIM 不支持多实例 GPU 模式 (MIG)。

  • Nemotron4 模型需要使用“慢速”分词器。“快速”分词器会导致准确性下降。

  • Llama 3.1 405B Instruct 不支持 LoRA。

  • Llama 3.1 405B Instruct 不支持 vLLM 配置文件。

  • 优化的引擎 (TRT-LLM) 不支持 NVIDIA vGPU。要使用优化的引擎,请使用 GPU 直通。

  • repetition_penalty=2 时,较大模型的响应时间更长。在较大的模型上使用 repetition_penalty=1

  • Llama 3.1 8B Instruct H100 和 L40s LoRA 配置文件在高 (>2000) ISL 值时可能会挂起。

版本 1.1.2#

新语言模型#

  • Llama 3.1 405B Instruct

    • 注意:由于此模型尺寸较大,因此仅在部分 GPU 和优化目标上受支持。有关详细信息,请参阅支持的模型

新功能#

  • 为 Llama 3.1 8B Base、Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 添加了 vLLM 后备配置文件支持

已知问题#

Llama 3.1 405B Instruct 不支持 LoRA

Llama 3.1 405B Instruct 不支持 vLLM 配置文件

Llama 3.1 405B Instruct 的吞吐量优化配置文件在 A100 FP16 和 H100 FP16 上不受支持

对于多 GPU vLLM 配置文件的气隙系统或只读卷,缓存部署失败
将缓存部署到气隙系统或只读卷并打算使用多 GPU vLLM 配置文件的用户必须从用于初始下载和生成缓存的系统创建以下 JSON 文件

echo '{
    "0->0": false,
    "0->1": true,
    "1->0": true,
    "1->1": false
}' > $NIM_CACHE_PATH/vllm/cache/gpu_p2p_access_cache_for_0,1.json file

Llama2 70b v1.0.3 的 CUDA 内存不足问题
vllm-fp16-tp2 配置文件已经过验证,已知可在 H100 x 2 和 A100 x 2 配置上工作。其他类型的 GPU 可能会遇到“CUDA 内存不足”问题。

Llama 3.1 FP8 需要 NVIDIA 驱动程序版本 >= 550

版本 1.1.1#

已知问题#

  • Llama 3.1 8B Base、Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 不支持 vLLM 配置文件

版本 1.1.0#

新语言模型#

  • Llama 3.1 8B Base

  • Llama 3.1 8B Instruct

  • Llama 3.1 70B Instruct

新功能#

已知问题#

  • Llama 3.1 模型的 vLLM 配置文件将失败,并显示 ValueError: Unknown RoPE scaling type extended

  • NIM 不支持多实例 GPU 模式 (MIG)。

版本 1.0#

  • 版本 1.0 的发行说明位于 1.0 文档中。