模型配置#
NVIDIA ACE Agent NLP 服务器利用 model_config.yaml
中提到的模型信息来托管模型服务器,并为将模型集成到对话管线提供统一的 API 服务器。model_config.yaml
将模型信息分组在不同的模型服务器块下。
在顶层,model_config.yaml
有一个单独的 model_servers
键,它包含一个映射列表,其中每个映射代表 model_server
的单个实例。每个模型服务器映射都应强制包含 name 字段。可用选项为 triton
、riva
和 custom
。
Triton Inference Server#
Triton Inference Server 是一款开源推理服务软件,使团队能够部署来自多种深度学习和机器学习框架的任何 AI 模型,包括 TensorRT、TensorFlow、PyTorch、ONNX、Python 等。
键 |
描述 |
---|---|
|
Triton gRPC URL [必需] |
|
Triton HTTP URL [可选] |
|
用于部署的 NLP 模型列表,如果使用已托管的 Triton 服务器,则跳过。 |
|
ASR 和 TTS 模型列表,仅当使用 |
Riva Skills Server#
NVIDIA Riva 是一个 GPU 加速的 SDK,用于构建为您的用例定制的 Speech AI 应用程序,并提供实时性能。
键 |
描述 |
---|---|
|
Riva Triton gRPC URL [必需] |
|
Riva API gRPC 服务器 URL,如果使用 Riva 翻译模型,则需要。 |
|
Riva Triton HTTP URL [可选] |
|
用于部署的 NMT 模型列表,如果使用已托管的 Riva Skills 服务器,则跳过。 |
|
ASR 和 TTS 模型列表,仅当使用 推荐语音模型 - ASR 模型 - |
自定义模型#
NLP 服务器允许您通过创建 @model_api
和 @pytriton
装饰器推理客户端来轻松部署任何 Hugging Face、NeMo 或任何其他自定义模型。
键 |
描述 |
---|---|
|
|
|
仅当使用 |