模型配置#

NVIDIA ACE Agent NLP 服务器利用 model_config.yaml 中提到的模型信息来托管模型服务器，并为将模型集成到对话管线提供统一的 API 服务器。model_config.yaml 将模型信息分组在不同的模型服务器块下。

在顶层，model_config.yaml 有一个单独的 model_servers 键，它包含一个映射列表，其中每个映射代表 model_server 的单个实例。每个模型服务器映射都应强制包含 name 字段。可用选项为 triton、riva 和 custom。

Triton Inference Server#

Triton Inference Server 是一款开源推理服务软件，使团队能够部署来自多种深度学习和机器学习框架的任何 AI 模型，包括 TensorRT、TensorFlow、PyTorch、ONNX、Python 等。

Triton Inference Server 键#
键	描述
`url`	Triton gRPC URL [必需]
`http_url`	Triton HTTP URL [可选]
`nlp_models`	用于部署的 NLP 模型列表，如果使用已托管的 Triton 服务器，则跳过。
`speech_models`	ASR 和 TTS 模型列表，仅当使用 `--speech` 标志时才会部署。

NVIDIA Riva 是一个 GPU 加速的 SDK，用于构建为您的用例定制的 Speech AI 应用程序，并提供实时性能。

Riva Skills Server 键#
键	描述
`url`	Riva Triton gRPC URL [必需]
`riva_url`	Riva API gRPC 服务器 URL，如果使用 Riva 翻译模型，则需要。
`http_url`	Riva Triton HTTP URL [可选]
`nlp_models`	用于部署的 NMT 模型列表，如果使用已托管的 Riva Skills 服务器，则跳过。
`speech_models`	ASR 和 TTS 模型列表，仅当使用 `--speech` 标志时才会部署。推荐语音模型 - ASR 模型 - `nvidia/ace/rmir_asr_parakeet_1-1b_en_us_str_vad:2.17.0` - TTS 模型 - `nvidia/riva/rmir_tts_radtts_hifigan_en_us_ipa:2.17.0`

NLP 服务器允许您通过创建 @model_api 和 @pytriton 装饰器推理客户端来轻松部署任何 Hugging Face、NeMo 或任何其他自定义模型。

自定义模型键#
键	描述
`nlp_models`	`@mode_api` 和 `@pytriton` 装饰的推理模型客户端。
`speech_models`	仅当使用 `--speech` 标志时，才会部署语音模型推理客户端。