发行说明#
所有已知问题#
单击展开
以下是按版本列出的已知问题。如果问题已修复,则修复问题的版本以粗体列出。
1.5.0#
如果提供了自定义微调模型目录,则文件名不应包含空格。
当 UVM 被禁用时,将选择 TRT-LLM 配置文件。在以前的版本中,当 UVM 被禁用时,将选择 vLLM 配置文件。
"fast_outlines"
引导式解码后端在处理强制模型生成表情符号的请求时会失败。StarCoderBase 15.5B 不支持聊天端点。
Llama 3.3 70B Instruct 至少需要 400GB 的 CPU 内存。
1.4.0#
以下模型不支持 LoRA
Gemma-2-2b 不支持聊天或补全 API 调用中的系统角色。
提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前,先过滤掉这些字符。
使用 KServe 部署可能需要更改缓存目录的权限。有关详细信息,请参阅 从本地资产提供模型 部分。
1.3.0#
提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前,先过滤掉这些字符。
当设置
logprobs=2
、echo=true
和stream=false
时,所有模型都返回 500 错误;它们应该返回 200 成功。-
由于内存不足,不支持 vLLM 和 TRTLLM 的 LoRA A10G TP8。
L40s TP88 上 vLLM LoRA 的性能明显欠佳。
使用 KServe 部署失败。作为一种解决方法,请尝试在运行时 YAML 文件中将 CPU 内存增加到至少 77GB。
运行 1.3 NIM 时,存在关于校验和的不正确警告。在 1.4 中修复。
由于主机内存不足,在 A100 和 H100 上构建可构建的 TRT-LLM BF16 TP4 LoRA 配置文件可能会失败。您可以通过设置
NIM_LOW_MEMORY_MODE=1
来解决此问题。
Llama 3.1 405B Instruct TRT-LLM BF16 TP16 可构建配置文件无法在 A100 上部署。
Mistral 7B Instruct V0.3 与优化的 TRT-LLM 配置文件相比,开源 vLLM 的性能较低。
-
在 vLLM 配置文件上不支持函数调用和结构化生成。 有关详细信息,请参阅 vLLM #9433。
对于 MoE 模型,TRTLLM 后端不支持 LoRA
vLLM LoRA 配置文件返回内部服务器错误/500。设置
NIM_MAX_LORA_RANK=256
以将 LoRA 与 vLLM 一起使用。如果您使用 L40S FP8 TP4 吞吐量配置文件启用
NIM_ENABLE_KV_CACHE_REUSE
,则部署将失败。
Nemotron 4 340B Instruct 128K 不支持可构建的 TRT-LLM 配置文件。
如果主机内存不足,则在构建本地 TensorRT LLM 引擎时,容器可能会崩溃。如果发生这种情况,请尝试设置
NIM_LOW_MEMORY_MODE=1
。函数调用和结构化生成不支持大于 1 的流水线并行度。
FP8 配置文件不支持本地构建的微调模型。
对数概率 (
logprobs
) 支持回显TRTLLM 引擎需要使用
--gather_generation_logits
显式构建启用此功能可能会影响模型吞吐量和令牌间延迟。
NIM_MODEL_NAME 必须设置为生成的模型存储库。
vGPU 相关问题
trtllm_buildable
配置文件在 vGPU 系统上可能会遇到内存不足 (OOM) 错误,可以通过NIM_LOW_MEMORY_MODE=1
标志修复。当将 vGPU 系统与
trtllm_buildable
配置文件一起使用时,您可能仍然会遇到连接断开错误。例如,client_loop: send disconnect: Broken pipe
。
与
tensorrt_llm-local_build
的 OOB 为 8K。使用 NIM_MAX_MODEL_LEN 环境变量来修改模型支持的值范围内的序列长度。GET v1/metrics
API 在文档页面 (http://HOST-IP:8000/docs
,其中HOST-IP
是您的主机的 IP 地址) 中缺失。
1.2.3#
Code Llama 模型
由于准确性下降,FP8 配置文件未发布
不支持 LoRA
Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。
Mistral NeMo Minitron 8B 8K Instruct
不支持工具调用
不支持 LoRA
vLLM TP4 或 TP8 配置文件不可用。
Mixtral 8x7b Instruct v0.1 vLLM 配置文件不支持函数调用和结构化生成。 有关详细信息,请参阅 vLLM #9433。
Phi 3 Mini 4K Instruct 模型
不支持 LoRA
不支持工具调用
Phind Code Llama 34B v2 Instruct
不支持 LoRA
不支持工具调用
logprobs=2
仅支持奖励模型的 TRT-LLM (优化) 配置;此选项支持所有模型的 vLLM (非优化) 配置。有关详细信息,请参阅支持的模型部分。带有 vLLM 后端的 NIM 可能会间歇性地进入 API 返回“服务不健康”消息的状态。这是 vLLM 的已知问题 (vllm-project/vllm#5060)。在这种情况下,您必须重新启动 NIM。
1.2.1#
长上下文模型 (
model_max_len
> 65528) 的 vllm + LoRA 配置文件将无法加载,从而导致 ValueError: 由于自定义 LoRA CUDA 内核的限制,启用 LoRA 时,max_num_batched_tokens
必须 <= 65528。作为一种解决方法,您可以设置NIM_MAX_MODEL_LEN=65525
或更低Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。
对于使用 TRT-LLM 后端的任何模型,
logit_bias
均不可用。
1.2.0#
NIM 不支持多实例 GPU 模式 (MIG)。
Nemotron4 模型需要使用“慢速”分词器。“快速”分词器会导致准确性下降。
Llama 3.1 405B Instruct 不支持 LoRA。
Llama 3.1 405B Instruct 不支持 vLLM 配置文件。
优化的引擎 (TRT-LLM) 不支持 NVIDIA vGPU。要使用优化的引擎,请使用 GPU 直通。
当
repetition_penalty=2
时,较大模型的响应时间更长。在较大的模型上使用repetition_penalty=1
。Llama 3.1 8B Instruct H100 和 L40s LoRA 配置文件在高 (>2000) ISL 值时可能会挂起。
1.1.2#
Llama 3.1 405B Instruct 不支持 LoRA
Llama 3.1 405B Instruct 不支持 vLLM 配置文件
Llama 3.1 405B Instruct 的吞吐量优化配置文件在 A100 FP16 和 H100 FP16 上不受支持
对于气隙系统或多 GPU vLLM 配置文件的只读卷,缓存部署失败。在 1.2.0 中修复。
Llama2 70b v1.0.3 的 CUDA 内存不足问题。
vllm-fp16-tp2
配置文件已经过验证,已知可在 H100 x 2 和 A100 x 2 配置上工作。其他类型的 GPU 可能会遇到“CUDA 内存不足”问题。Llama 3.1 FP8 需要 NVIDIA 驱动程序版本 >= 550
1.1.1#
Llama 3.1 8B Base、Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 不支持 vLLM 配置文件
1.1.0#
Llama 3.1 模型的 vLLM 配置文件将失败,并显示
ValueError: Unknown RoPE scaling type extended
。NIM 不支持多实例 GPU 模式 (MIG)。
1.0#
当设置
logprobs=2
、echo=true
和stream=false
时,所有模型都返回 500 错误;它们应该返回 200 成功。Llama3 70b v1.0.3 - 8 x GPU 配置不支持 LoRA
LLama2 70B vLLM FP16 TP2 配置文件限制 NVIDIA 已经验证了 H100、A100 和 L40S GPU 的各种配置上的 Llama2 70B。Llama2 70B 在 H100、A100 和 L40s 的 tp4 (四个 GPU) 和 tp8 (八个 GPU) 版本上运行;但是,L40S 的 tp2 (2 个 GPU) 没有足够的内存来运行 Llama2 70B,并且任何尝试在该平台上运行它的操作都可能遇到 CUDA“内存不足”问题。
不支持 P-Tuning。
多 GPU TensorRT-LLM 模型上的空指标值。指标项
gpu_cache_usage_perc
、num_request_max
、num_requests_running
、num_requests_waiting
和prompt_tokens_total
不会为多 GPU TensorRT-LLM 模型报告,因为 TensorRT-LLM 目前未在 orchestrator 模式下公开迭代统计信息。运行 PEFT 时未找到分词器错误。可以安全地忽略此警告。
新语言模型#
新功能#
支持 A100 SXM 40GB
为引导式解码后端添加了选择加入设置 (
NIM_GUIDED_DECODING_BACKEND
) 以减少 TTFT。注意:需要 GPU 驱动程序版本 与 PTX 8.5 兼容。
已知问题#
如果提供了自定义微调模型目录,则文件名不应包含空格。
当 UVM 被禁用时,将选择 TRT-LLM 配置文件。在以前的版本中,当 UVM 被禁用时,将选择 vLLM 配置文件。
"fast_outlines"
引导式解码后端在处理强制模型生成表情符号的请求时会失败。StarCoderBase 15.5B 不支持聊天端点。
Llama 3.3 70B Instruct 至少需要 400GB 的 CPU 内存。
版本 1.4.0#
新模型#
新功能#
各种性能改进和错误修复。
已修复问题#
“运行 1.3 NIM 时,存在关于校验和的不正确警告”的问题已修复。
已知问题#
以下模型不支持 LoRA
Gemma-2-2b 不支持聊天或补全 API 调用中的系统角色。
提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前,先过滤掉这些字符。
使用 KServe 部署可能需要更改缓存目录的权限。有关详细信息,请参阅 从本地资产提供模型 部分。
版本 1.3.0#
新语言模型#
新功能#
自定义微调模型支持。有关更多详细信息,请参阅 FT 支持。
引入了
tensorrt_llm-local_build
配置文件,这使得在没有预构建优化引擎的 GPU 上可以使用 TensorRT-LLM 运行时。有关更多详细信息,请参阅模型配置文件页面。本地构建和微调引擎的缓存,可与常规 LLM NIM 工作流程无缝协作。
实现了键值缓存,以在多个请求中的初始提示相同时加快推理速度。有关详细信息,请参阅 KV 缓存。
没有预构建优化引擎的系统的用户应该会看到比以前版本的 NIM 更快的速度,但由于本地编译过程,首次部署时可能会遇到较慢的启动时间。
已知问题#
提示中 Unicode 字符范围为 0x0e0020 到 0x0e007f 可能会产生不可预测的响应。NVIDIA 建议您在将提示提交给 LLM 之前,先过滤掉这些字符。
当设置
logprobs=2
、echo=true
和stream=false
时,所有模型都返回 500 错误;它们应该返回 200 成功。-
由于内存不足,不支持 vLLM 和 TRTLLM 的 LoRA A10G TP8。
L40s TP88 上 vLLM LoRA 的性能明显欠佳。
使用 KServe 部署失败。作为一种解决方法,请尝试在运行时 YAML 文件中将 CPU 内存增加到至少 77GB。
运行 1.3 NIM 时,存在关于校验和的不正确警告。例如:
Profile 0462612f0f2de63b2d423bc3863030835c0fbdbc13b531868670cc416e030029 is not fully defined with checksums
。可以安全地忽略此警告。由于主机内存不足,在 A100 和 H100 上构建可构建的 TRT-LLM BF16 TP4 LoRA 配置文件可能会失败。您可以通过设置
NIM_LOW_MEMORY_MODE=1
来解决此问题。
Llama 3.1 405B Instruct TRT-LLM BF16 TP16 可构建配置文件无法在 A100 上部署。
Mistral 7B Instruct V0.3 与优化的 TRT-LLM 配置文件相比,开源 vLLM 的性能较低。
-
在 vLLM 配置文件上不支持函数调用和结构化生成。 有关详细信息,请参阅 vLLM #9433。
对于 MoE 模型,TRTLLM 后端不支持 LoRA
vLLM LoRA 配置文件返回内部服务器错误/500。设置
NIM_MAX_LORA_RANK=256
以将 LoRA 与 vLLM 一起使用。如果您使用 L40S FP8 TP4 吞吐量配置文件启用
NIM_ENABLE_KV_CACHE_REUSE
,则部署将失败。
Nemotron 4 340B Instruct 128K 不支持可构建的 TRT-LLM 配置文件。
如果主机内存不足,则在构建本地 TensorRT LLM 引擎时,容器可能会崩溃。如果发生这种情况,请尝试设置
NIM_LOW_MEMORY_MODE=1
。函数调用和结构化生成不支持大于 1 的流水线并行度。
FP8 配置文件不支持本地构建的微调模型。
对数概率 (
logprobs
) 支持回显TRTLLM 引擎需要使用
--gather_generation_logits
显式构建启用此功能可能会影响模型吞吐量和令牌间延迟。
NIM_MODEL_NAME 必须设置为生成的模型存储库。
vGPU 相关问题
trtllm_buildable
配置文件在 vGPU 系统上可能会遇到内存不足 (OOM) 错误,可以通过NIM_LOW_MEMORY_MODE=1
标志修复。当将 vGPU 系统与
trtllm_buildable
配置文件一起使用时,您可能仍然会遇到连接断开错误。例如,client_loop: send disconnect: Broken pipe
。
与
tensorrt_llm-local_build
的 OOB 为 8K。使用 NIM_MAX_MODEL_LEN 环境变量来修改模型支持的值范围内的序列长度。GET v1/metrics
API 在文档页面 (http://HOST-IP:8000/docs
,其中HOST-IP
是您的主机的 IP 地址) 中缺失。
软件要求已更新#
版本 1.3.0 基于 CUDA 12.6.1,这需要 NVIDIA 驱动程序 版本 560 或更高版本。但是,如果您在数据中心 GPU (例如,A100 或任何其他数据中心 GPU) 上运行,则可以使用 NVIDIA 驱动程序版本 470.57 (或更高版本 R470)、535.86 (或更高版本 R535) 或 550.54 (或更高版本 R550)
版本 1.2.3#
新语言模型#
已知问题#
Code Llama 模型
由于准确性下降,FP8 配置文件未发布
不支持 LoRA
Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。
Mistral NeMo Minitron 8B 8K Instruct
不支持工具调用
不支持 LoRA
vLLM TP4 或 TP8 配置文件不可用。
Mixtral 8x7b Instruct v0.1 vLLM 配置文件不支持函数调用和结构化生成。 有关详细信息,请参阅 vLLM #9433。
Phi 3 Mini 4K Instruct 模型
不支持 LoRA
不支持工具调用
Phind Code Llama 34B v2 Instruct
不支持 LoRA
不支持工具调用
logprobs=2
仅支持奖励模型的 TRT-LLM (优化) 配置;此选项支持所有模型的 vLLM (非优化) 配置。有关详细信息,请参阅支持的模型部分。带有 vLLM 后端的 NIM 可能会间歇性地进入 API 返回“服务不健康”消息的状态。这是 vLLM 的已知问题 (vllm-project/vllm#5060)。在这种情况下,您必须重新启动 NIM。
版本 1.2.1#
新模型#
已知问题#
长上下文模型 (
model_max_len
> 65528) 的 vllm + LoRA 配置文件将无法加载,从而导致 ValueError: 由于自定义 LoRA CUDA 内核的限制,启用 LoRA 时,max_num_batched_tokens
必须 <= 65528。作为一种解决方法,您可以设置NIM_MAX_MODEL_LEN=65525
或更低Llama 3.1 8B Instruct 在 L40S 上使用 TRT-LLM 时不支持 LoRA。
对于使用 TRT-LLM 后端的任何模型,
logit_bias
均不可用。
版本 1.2.0#
新语言模型#
新功能#
通过改进设备选择器添加 vGPU 支持。有关 vGPU 详细信息,请参阅支持的模型。
在 UVM 和可用的优化引擎的情况下,模型在 TRT-LLM 上运行。
否则,模型在 vLLM 上运行。
为 API 服务器中的跟踪和指标添加 OpenTelemetry 支持。有关详细信息,包括
NIM_ENABLE_OTEL
、NIM_OTEL_TRACES_EXPORTER
、NIM_OTEL_METRICS_EXPORTER
、NIM_OTEL_EXPORTER_OTLP_ENDPOINT
和NIM_OTEL_SERVICE_NAME
,请参阅配置。在 completion API 中启用了 ECHO 请求,以与 OpenAI 规范对齐。有关详细信息,请参阅 NIM OpenAPI 架构。
为 ECHO 模式添加
logprob
支持,该模式返回完整上下文 (包括提示和输出令牌) 的logprobs
。添加了 FP8 引擎支持以及 FP16
lora
。有关lora
用法的详细信息,请参阅 PEFT。
已修复问题#
对于多 GPU vLLM 配置文件的气隙系统或只读卷,缓存部署失败
已知问题#
NIM 不支持多实例 GPU 模式 (MIG)。
Nemotron4 模型需要使用“慢速”分词器。“快速”分词器会导致准确性下降。
Llama 3.1 405B Instruct 不支持 LoRA。
Llama 3.1 405B Instruct 不支持 vLLM 配置文件。
优化的引擎 (TRT-LLM) 不支持 NVIDIA vGPU。要使用优化的引擎,请使用 GPU 直通。
当
repetition_penalty=2
时,较大模型的响应时间更长。在较大的模型上使用repetition_penalty=1
。Llama 3.1 8B Instruct H100 和 L40s LoRA 配置文件在高 (>2000) ISL 值时可能会挂起。
版本 1.1.2#
新语言模型#
Llama 3.1 405B Instruct
注意:由于此模型尺寸较大,因此仅在部分 GPU 和优化目标上受支持。有关详细信息,请参阅支持的模型。
新功能#
为 Llama 3.1 8B Base、Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 添加了 vLLM 后备配置文件支持
已知问题#
Llama 3.1 405B Instruct 不支持 LoRA
Llama 3.1 405B Instruct 不支持 vLLM 配置文件
Llama 3.1 405B Instruct 的吞吐量优化配置文件在 A100 FP16 和 H100 FP16 上不受支持
对于多 GPU vLLM 配置文件的气隙系统或只读卷,缓存部署失败
将缓存部署到气隙系统或只读卷并打算使用多 GPU vLLM 配置文件的用户必须从用于初始下载和生成缓存的系统创建以下 JSON 文件
echo '{
"0->0": false,
"0->1": true,
"1->0": true,
"1->1": false
}' > $NIM_CACHE_PATH/vllm/cache/gpu_p2p_access_cache_for_0,1.json file
Llama2 70b v1.0.3 的 CUDA 内存不足问题
vllm-fp16-tp2
配置文件已经过验证,已知可在 H100 x 2 和 A100 x 2 配置上工作。其他类型的 GPU 可能会遇到“CUDA 内存不足”问题。
Llama 3.1 FP8 需要 NVIDIA 驱动程序版本 >= 550
版本 1.1.1#
已知问题#
Llama 3.1 8B Base、Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 不支持 vLLM 配置文件
版本 1.1.0#
新语言模型#
Llama 3.1 8B Base
Llama 3.1 8B Instruct
Llama 3.1 70B Instruct
新功能#
分块预填充
Llama Stack API 的实验性支持
将 FP8 的格式从 PTQ 更改为 Meta-FP8 以提高准确性
已知问题#
Llama 3.1 模型的 vLLM 配置文件将失败,并显示
ValueError: Unknown RoPE scaling type extended
。NIM 不支持多实例 GPU 模式 (MIG)。
版本 1.0#
版本 1.0 的发行说明位于 1.0 文档中。