发行说明#

所有已知问题#

单击展开

以下是按版本列出的已知问题。如果问题已修复，则修复问题的版本以粗体列出。

1.5.0#

如果提供了自定义微调模型目录，则文件名不应包含空格。
当 UVM 被禁用时，将选择 TRT-LLM 配置文件。在以前的版本中，当 UVM 被禁用时，将选择 vLLM 配置文件。
"fast_outlines" 引导式解码后端在处理强制模型生成表情符号的请求时会失败。
StarCoderBase 15.5B 不支持聊天端点。
Llama 3.3 70B Instruct 至少需要 400GB 的 CPU 内存。

1.4.0#

以下模型不支持 LoRA
- Gemma 2 9B
- Llama 3.1 Swallow 8B Instruct v0.1
Gemma-2-2b 不支持聊天或补全 API 调用中的系统角色。
提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前，先过滤掉这些字符。
使用 KServe 部署可能需要更改缓存目录的权限。有关详细信息，请参阅从本地资产提供模型部分。

1.3.0#

提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前，先过滤掉这些字符。
当设置 logprobs=2、echo=true 和 stream=false 时，所有模型都返回 500 错误；它们应该返回 200 成功。
Llama 3.1 70B Instruct:
- 由于内存不足，不支持 vLLM 和 TRTLLM 的 LoRA A10G TP8。
- L40s TP88 上 vLLM LoRA 的性能明显欠佳。
- 使用 KServe 部署失败。作为一种解决方法，请尝试在运行时 YAML 文件中将 CPU 内存增加到至少 77GB。
- 运行 1.3 NIM 时，存在关于校验和的不正确警告。在 1.4 中修复。
- 由于主机内存不足，在 A100 和 H100 上构建可构建的 TRT-LLM BF16 TP4 LoRA 配置文件可能会失败。您可以通过设置 NIM_LOW_MEMORY_MODE=1 来解决此问题。
Llama 3.1 405B Instruct TRT-LLM BF16 TP16 可构建配置文件无法在 A100 上部署。
Mistral 7B Instruct V0.3 与优化的 TRT-LLM 配置文件相比，开源 vLLM 的性能较低。
Mixtral 8x7B Instruct v0.1
- 在 vLLM 配置文件上不支持函数调用和结构化生成。有关详细信息，请参阅 vLLM #9433。
- 对于 MoE 模型，TRTLLM 后端不支持 LoRA
- vLLM LoRA 配置文件返回内部服务器错误/500。设置 NIM_MAX_LORA_RANK=256 以将 LoRA 与 vLLM 一起使用。
- 如果您使用 L40S FP8 TP4 吞吐量配置文件启用 NIM_ENABLE_KV_CACHE_REUSE，则部署将失败。
Nemotron 4 340B Instruct 128K 不支持可构建的 TRT-LLM 配置文件。
如果主机内存不足，则在构建本地 TensorRT LLM 引擎时，容器可能会崩溃。如果发生这种情况，请尝试设置 NIM_LOW_MEMORY_MODE=1。
函数调用和结构化生成不支持大于 1 的流水线并行度。
FP8 配置文件不支持本地构建的微调模型。
对数概率 (logprobs) 支持回显
- TRTLLM 引擎需要使用 --gather_generation_logits 显式构建
- 启用此功能可能会影响模型吞吐量和令牌间延迟。
- NIM_MODEL_NAME 必须设置为生成的模型存储库。
vGPU 相关问题
- trtllm_buildable 配置文件在 vGPU 系统上可能会遇到内存不足 (OOM) 错误，可以通过 NIM_LOW_MEMORY_MODE=1 标志修复。
- 当将 vGPU 系统与 trtllm_buildable 配置文件一起使用时，您可能仍然会遇到连接断开错误。例如，client_loop: send disconnect: Broken pipe。
与 tensorrt_llm-local_build 的 OOB 为 8K。使用 NIM_MAX_MODEL_LEN 环境变量来修改模型支持的值范围内的序列长度。
GET v1/metrics API 在文档页面 (http://HOST-IP:8000/docs，其中 HOST-IP 是您的主机的 IP 地址) 中缺失。

1.2.3#

Code Llama 模型
- 由于准确性下降，FP8 配置文件未发布
- 不支持 LoRA
Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。
Mistral NeMo Minitron 8B 8K Instruct
- 不支持工具调用
- 不支持 LoRA
- vLLM TP4 或 TP8 配置文件不可用。
Mixtral 8x7b Instruct v0.1 vLLM 配置文件不支持函数调用和结构化生成。有关详细信息，请参阅 vLLM #9433。
Phi 3 Mini 4K Instruct 模型
- 不支持 LoRA
- 不支持工具调用
Phind Code Llama 34B v2 Instruct
- 不支持 LoRA
- 不支持工具调用
logprobs=2 仅支持奖励模型的 TRT-LLM (优化) 配置；此选项支持所有模型的 vLLM (非优化) 配置。有关详细信息，请参阅支持的模型部分。
带有 vLLM 后端的 NIM 可能会间歇性地进入 API 返回“服务不健康”消息的状态。这是 vLLM 的已知问题 (vllm-project/vllm#5060)。在这种情况下，您必须重新启动 NIM。

1.2.1#

长上下文模型 (model_max_len > 65528) 的 vllm + LoRA 配置文件将无法加载，从而导致 ValueError: 由于自定义 LoRA CUDA 内核的限制，启用 LoRA 时，max_num_batched_tokens 必须 <= 65528。作为一种解决方法，您可以设置 NIM_MAX_MODEL_LEN=65525 或更低
Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。
对于使用 TRT-LLM 后端的任何模型，logit_bias 均不可用。

1.2.0#

NIM 不支持多实例 GPU 模式 (MIG)。
Nemotron4 模型需要使用“慢速”分词器。“快速”分词器会导致准确性下降。
Llama 3.1 405B Instruct 不支持 LoRA。
Llama 3.1 405B Instruct 不支持 vLLM 配置文件。
优化的引擎 (TRT-LLM) 不支持 NVIDIA vGPU。要使用优化的引擎，请使用 GPU 直通。
当 repetition_penalty=2 时，较大模型的响应时间更长。在较大的模型上使用 repetition_penalty=1。
Llama 3.1 8B Instruct H100 和 L40s LoRA 配置文件在高 (>2000) ISL 值时可能会挂起。

1.1.2#

Llama 3.1 405B Instruct 不支持 LoRA
Llama 3.1 405B Instruct 不支持 vLLM 配置文件
Llama 3.1 405B Instruct 的吞吐量优化配置文件在 A100 FP16 和 H100 FP16 上不受支持
对于气隙系统或多 GPU vLLM 配置文件的只读卷，缓存部署失败。在 1.2.0 中修复。
Llama2 70b v1.0.3 的 CUDA 内存不足问题。vllm-fp16-tp2 配置文件已经过验证，已知可在 H100 x 2 和 A100 x 2 配置上工作。其他类型的 GPU 可能会遇到“CUDA 内存不足”问题。
Llama 3.1 FP8 需要 NVIDIA 驱动程序版本 >= 550

1.1.1#

Llama 3.1 8B Base、Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 不支持 vLLM 配置文件

1.1.0#

Llama 3.1 模型的 vLLM 配置文件将失败，并显示 ValueError: Unknown RoPE scaling type extended。
NIM 不支持多实例 GPU 模式 (MIG)。

1.0#

当设置 logprobs=2、echo=true 和 stream=false 时，所有模型都返回 500 错误；它们应该返回 200 成功。
Llama3 70b v1.0.3 - 8 x GPU 配置不支持 LoRA
LLama2 70B vLLM FP16 TP2 配置文件限制 NVIDIA 已经验证了 H100、A100 和 L40S GPU 的各种配置上的 Llama2 70B。Llama2 70B 在 H100、A100 和 L40s 的 tp4 (四个 GPU) 和 tp8 (八个 GPU) 版本上运行；但是，L40S 的 tp2 (2 个 GPU) 没有足够的内存来运行 Llama2 70B，并且任何尝试在该平台上运行它的操作都可能遇到 CUDA“内存不足”问题。
不支持 P-Tuning。
多 GPU TensorRT-LLM 模型上的空指标值。指标项 gpu_cache_usage_perc、num_request_max、num_requests_running、num_requests_waiting 和 prompt_tokens_total 不会为多 GPU TensorRT-LLM 模型报告，因为 TensorRT-LLM 目前未在 orchestrator 模式下公开迭代统计信息。
运行 PEFT 时未找到分词器错误。可以安全地忽略此警告。

## 版本 1.5.0

新语言模型#

新功能#

支持 A100 SXM 40GB
为引导式解码后端添加了选择加入设置 (NIM_GUIDED_DECODING_BACKEND) 以减少 TTFT。注意：需要 GPU 驱动程序版本与 PTX 8.5 兼容。

已知问题#

如果提供了自定义微调模型目录，则文件名不应包含空格。
当 UVM 被禁用时，将选择 TRT-LLM 配置文件。在以前的版本中，当 UVM 被禁用时，将选择 vLLM 配置文件。
"fast_outlines" 引导式解码后端在处理强制模型生成表情符号的请求时会失败。
StarCoderBase 15.5B 不支持聊天端点。
Llama 3.3 70B Instruct 至少需要 400GB 的 CPU 内存。

版本 1.4.0#

新模型#

新功能#

各种性能改进和错误修复。

已修复问题#

“运行 1.3 NIM 时，存在关于校验和的不正确警告”的问题已修复。

已知问题#

以下模型不支持 LoRA
- Gemma 2 9B
- Llama 3.1 Swallow 8B Instruct v0.1
Gemma-2-2b 不支持聊天或补全 API 调用中的系统角色。
提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前，先过滤掉这些字符。
使用 KServe 部署可能需要更改缓存目录的权限。有关详细信息，请参阅从本地资产提供模型部分。

版本 1.3.0#

新语言模型#

新功能#

自定义微调模型支持。有关更多详细信息，请参阅 FT 支持。
引入了 tensorrt_llm-local_build 配置文件，这使得在没有预构建优化引擎的 GPU 上可以使用 TensorRT-LLM 运行时。有关更多详细信息，请参阅模型配置文件页面。
本地构建和微调引擎的缓存，可与常规 LLM NIM 工作流程无缝协作。
实现了键值缓存，以在多个请求中的初始提示相同时加快推理速度。有关详细信息，请参阅 KV 缓存。

没有预构建优化引擎的系统的用户应该会看到比以前版本的 NIM 更快的速度，但由于本地编译过程，首次部署时可能会遇到较慢的启动时间。

已知问题#

提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前，先过滤掉这些字符。
当设置 logprobs=2、echo=true 和 stream=false 时，所有模型都返回 500 错误；它们应该返回 200 成功。
Llama 3.1 70B Instruct:
- 由于内存不足，不支持 vLLM 和 TRTLLM 的 LoRA A10G TP8。
- L40s TP88 上 vLLM LoRA 的性能明显欠佳。
- 使用 KServe 部署失败。作为一种解决方法，请尝试在运行时 YAML 文件中将 CPU 内存增加到至少 77GB。
- 运行 1.3 NIM 时，存在关于校验和的不正确警告。例如：Profile 0462612f0f2de63b2d423bc3863030835c0fbdbc13b531868670cc416e030029 is not fully defined with checksums。可以安全地忽略此警告。
- 由于主机内存不足，在 A100 和 H100 上构建可构建的 TRT-LLM BF16 TP4 LoRA 配置文件可能会失败。您可以通过设置 NIM_LOW_MEMORY_MODE=1 来解决此问题。
Llama 3.1 405B Instruct TRT-LLM BF16 TP16 可构建配置文件无法在 A100 上部署。
Mistral 7B Instruct V0.3 与优化的 TRT-LLM 配置文件相比，开源 vLLM 的性能较低。
Mixtral 8x7B Instruct v0.1
- 在 vLLM 配置文件上不支持函数调用和结构化生成。有关详细信息，请参阅 vLLM #9433。
- 对于 MoE 模型，TRTLLM 后端不支持 LoRA
- vLLM LoRA 配置文件返回内部服务器错误/500。设置 NIM_MAX_LORA_RANK=256 以将 LoRA 与 vLLM 一起使用。
- 如果您使用 L40S FP8 TP4 吞吐量配置文件启用 NIM_ENABLE_KV_CACHE_REUSE，则部署将失败。
Nemotron 4 340B Instruct 128K 不支持可构建的 TRT-LLM 配置文件。
如果主机内存不足，则在构建本地 TensorRT LLM 引擎时，容器可能会崩溃。如果发生这种情况，请尝试设置 NIM_LOW_MEMORY_MODE=1。
函数调用和结构化生成不支持大于 1 的流水线并行度。
FP8 配置文件不支持本地构建的微调模型。
对数概率 (logprobs) 支持回显
- TRTLLM 引擎需要使用 --gather_generation_logits 显式构建
- 启用此功能可能会影响模型吞吐量和令牌间延迟。
- NIM_MODEL_NAME 必须设置为生成的模型存储库。
vGPU 相关问题
- trtllm_buildable 配置文件在 vGPU 系统上可能会遇到内存不足 (OOM) 错误，可以通过 NIM_LOW_MEMORY_MODE=1 标志修复。
- 当将 vGPU 系统与 trtllm_buildable 配置文件一起使用时，您可能仍然会遇到连接断开错误。例如，client_loop: send disconnect: Broken pipe。
与 tensorrt_llm-local_build 的 OOB 为 8K。使用 NIM_MAX_MODEL_LEN 环境变量来修改模型支持的值范围内的序列长度。
GET v1/metrics API 在文档页面 (http://HOST-IP:8000/docs，其中 HOST-IP 是您的主机的 IP 地址) 中缺失。

软件要求已更新#

版本 1.3.0 基于 CUDA 12.6.1，这需要 NVIDIA 驱动程序版本 560 或更高版本。但是，如果您在数据中心 GPU (例如，A100 或任何其他数据中心 GPU) 上运行，则可以使用 NVIDIA 驱动程序版本 470.57 (或更高版本 R470)、535.86 (或更高版本 R535) 或 550.54 (或更高版本 R550)

版本 1.2.3#

新语言模型#

已知问题#

Code Llama 模型
- 由于准确性下降，FP8 配置文件未发布
- 不支持 LoRA
Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。
Mistral NeMo Minitron 8B 8K Instruct
- 不支持工具调用
- 不支持 LoRA
- vLLM TP4 或 TP8 配置文件不可用。
Mixtral 8x7b Instruct v0.1 vLLM 配置文件不支持函数调用和结构化生成。有关详细信息，请参阅 vLLM #9433。
Phi 3 Mini 4K Instruct 模型
- 不支持 LoRA
- 不支持工具调用
Phind Code Llama 34B v2 Instruct
- 不支持 LoRA
- 不支持工具调用
logprobs=2 仅支持奖励模型的 TRT-LLM (优化) 配置；此选项支持所有模型的 vLLM (非优化) 配置。有关详细信息，请参阅支持的模型部分。
带有 vLLM 后端的 NIM 可能会间歇性地进入 API 返回“服务不健康”消息的状态。这是 vLLM 的已知问题 (vllm-project/vllm#5060)。在这种情况下，您必须重新启动 NIM。

版本 1.2.1#

新模型#

已知问题#

长上下文模型 (model_max_len > 65528) 的 vllm + LoRA 配置文件将无法加载，从而导致 ValueError: 由于自定义 LoRA CUDA 内核的限制，启用 LoRA 时，max_num_batched_tokens 必须 <= 65528。作为一种解决方法，您可以设置 NIM_MAX_MODEL_LEN=65525 或更低
Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。
对于使用 TRT-LLM 后端的任何模型，logit_bias 均不可用。

版本 1.2.0#

新语言模型#

Nemotron 4 340B Reward

新功能#

通过改进设备选择器添加 vGPU 支持。有关 vGPU 详细信息，请参阅支持的模型。
- 在 UVM 和可用的优化引擎的情况下，模型在 TRT-LLM 上运行。
- 否则，模型在 vLLM 上运行。
为 API 服务器中的跟踪和指标添加 OpenTelemetry 支持。有关详细信息，包括 NIM_ENABLE_OTEL、NIM_OTEL_TRACES_EXPORTER、NIM_OTEL_METRICS_EXPORTER、NIM_OTEL_EXPORTER_OTLP_ENDPOINT 和 NIM_OTEL_SERVICE_NAME，请参阅配置。
在 completion API 中启用了 ECHO 请求，以与 OpenAI 规范对齐。有关详细信息，请参阅 NIM OpenAPI 架构。
为 ECHO 模式添加 logprob 支持，该模式返回完整上下文 (包括提示和输出令牌) 的 logprobs。
添加了 FP8 引擎支持以及 FP16 lora。有关 lora 用法的详细信息，请参阅 PEFT。

已修复问题#

对于多 GPU vLLM 配置文件的气隙系统或只读卷，缓存部署失败

已知问题#

NIM 不支持多实例 GPU 模式 (MIG)。
Nemotron4 模型需要使用“慢速”分词器。“快速”分词器会导致准确性下降。
Llama 3.1 405B Instruct 不支持 LoRA。
Llama 3.1 405B Instruct 不支持 vLLM 配置文件。
优化的引擎 (TRT-LLM) 不支持 NVIDIA vGPU。要使用优化的引擎，请使用 GPU 直通。
当 repetition_penalty=2 时，较大模型的响应时间更长。在较大的模型上使用 repetition_penalty=1。
Llama 3.1 8B Instruct H100 和 L40s LoRA 配置文件在高 (>2000) ISL 值时可能会挂起。

版本 1.1.2#

新语言模型#

Llama 3.1 405B Instruct
- 注意：由于此模型尺寸较大，因此仅在部分 GPU 和优化目标上受支持。有关详细信息，请参阅支持的模型。

新功能#

为 Llama 3.1 8B Base、Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 添加了 vLLM 后备配置文件支持

已知问题#

Llama 3.1 405B Instruct 不支持 LoRA

Llama 3.1 405B Instruct 不支持 vLLM 配置文件

Llama 3.1 405B Instruct 的吞吐量优化配置文件在 A100 FP16 和 H100 FP16 上不受支持

对于多 GPU vLLM 配置文件的气隙系统或只读卷，缓存部署失败
将缓存部署到气隙系统或只读卷并打算使用多 GPU vLLM 配置文件的用户必须从用于初始下载和生成缓存的系统创建以下 JSON 文件

echo '{
    "0->0": false,
    "0->1": true,
    "1->0": true,
    "1->1": false
}' > $NIM_CACHE_PATH/vllm/cache/gpu_p2p_access_cache_for_0,1.json file

Llama2 70b v1.0.3 的 CUDA 内存不足问题
vllm-fp16-tp2 配置文件已经过验证，已知可在 H100 x 2 和 A100 x 2 配置上工作。其他类型的 GPU 可能会遇到“CUDA 内存不足”问题。

Llama 3.1 FP8 需要 NVIDIA 驱动程序版本 >= 550

版本 1.1.1#

已知问题#

Llama 3.1 8B Base、Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 不支持 vLLM 配置文件

版本 1.1.0#

新语言模型#

Llama 3.1 8B Base
Llama 3.1 8B Instruct
Llama 3.1 70B Instruct

新功能#

多节点
函数调用和工具使用
分块预填充
Llama Stack API 的实验性支持
气隙支持
将 FP8 的格式从 PTQ 更改为 Meta-FP8 以提高准确性

已知问题#

Llama 3.1 模型的 vLLM 配置文件将失败，并显示 ValueError: Unknown RoPE scaling type extended。
NIM 不支持多实例 GPU 模式 (MIG)。

版本 1.0#

版本 1.0 的发行说明位于 1.0 文档中。