调度器#

Triton 通过允许单个推理请求指定一批输入来支持批量推理。一批输入的推理同时执行,这对于 GPU 尤其重要,因为它可以大大提高推理吞吐量。在许多用例中,单个推理请求未进行批处理,因此,它们无法从批处理的吞吐量优势中受益。

推理服务器包含多种调度和批处理算法,这些算法支持许多不同的模型类型和用例。有关模型类型和调度器的更多信息,请参见 模型和调度器

默认调度器#

如果模型配置中未指定任何 scheduling_choice 属性,则默认调度器用于模型。默认调度器只是将推理请求分发到为模型配置的所有 模型实例

集成调度器#

集成调度器必须用于 集成模型,并且不能用于任何其他类型的模型。

对于每个模型,使用模型配置中的 ModelEnsembleScheduling 属性独立启用和配置集成调度器。这些设置描述了包含在集成中的模型以及模型之间张量值的流动。有关更多信息和示例,请参见 集成模型