模型配置#

NVIDIA ACE Agent NLP 服务器利用 model_config.yaml 中提到的模型信息来托管模型服务器,并为将模型集成到对话管线提供统一的 API 服务器。model_config.yaml 将模型信息分组在不同的模型服务器块下。

在顶层,model_config.yaml 有一个单独的 model_servers 键,它包含一个映射列表,其中每个映射代表 model_server 的单个实例。每个模型服务器映射都应强制包含 name 字段。可用选项为 tritonrivacustom

Triton Inference Server#

Triton Inference Server 是一款开源推理服务软件,使团队能够部署来自多种深度学习和机器学习框架的任何 AI 模型,包括 TensorRT、TensorFlow、PyTorch、ONNX、Python 等。

Triton Inference Server 键#

描述

url

Triton gRPC URL [必需]

http_url

Triton HTTP URL [可选]

nlp_models

用于部署的 NLP 模型列表,如果使用已托管的 Triton 服务器,则跳过。

speech_models

ASR 和 TTS 模型列表,仅当使用 --speech 标志时才会部署。

Riva Skills Server#

NVIDIA Riva 是一个 GPU 加速的 SDK,用于构建为您的用例定制的 Speech AI 应用程序,并提供实时性能。

Riva Skills Server 键#

描述

url

Riva Triton gRPC URL [必需]

riva_url

Riva API gRPC 服务器 URL,如果使用 Riva 翻译模型,则需要。

http_url

Riva Triton HTTP URL [可选]

nlp_models

用于部署的 NMT 模型列表,如果使用已托管的 Riva Skills 服务器,则跳过。

speech_models

ASR 和 TTS 模型列表,仅当使用 --speech 标志时才会部署。

推荐语音模型 - ASR 模型 - nvidia/ace/rmir_asr_parakeet_1-1b_en_us_str_vad:2.17.0 - TTS 模型 - nvidia/riva/rmir_tts_radtts_hifigan_en_us_ipa:2.17.0

自定义模型#

NLP 服务器允许您通过创建 @model_api@pytriton 装饰器推理客户端来轻松部署任何 Hugging Face、NeMo 或任何其他自定义模型。

自定义模型键#

描述

nlp_models

@mode_api@pytriton 装饰的推理模型客户端。

speech_models

仅当使用 --speech 标志时,才会部署语音模型推理客户端。