调度器#

Triton 通过允许单个推理请求指定一批输入来支持批量推理。一批输入的推理同时执行，这对于 GPU 尤其重要，因为它可以大大提高推理吞吐量。在许多用例中，单个推理请求未进行批处理，因此，它们无法从批处理的吞吐量优势中受益。

推理服务器包含多种调度和批处理算法，这些算法支持许多不同的模型类型和用例。有关模型类型和调度器的更多信息，请参见模型和调度器。

默认调度器#

如果模型配置中未指定任何 scheduling_choice 属性，则默认调度器用于模型。默认调度器只是将推理请求分发到为模型配置的所有模型实例。

集成调度器必须用于集成模型，并且不能用于任何其他类型的模型。

对于每个模型，使用模型配置中的 ModelEnsembleScheduling 属性独立启用和配置集成调度器。这些设置描述了包含在集成中的模型以及模型之间张量值的流动。有关更多信息和示例，请参见集成模型。