调度策略扩展#
本文档介绍了 Triton 的调度策略扩展。调度策略扩展允许推理请求提供参数,以影响 Triton 如何处理和调度请求。由于支持此扩展,Triton 会在其服务器元数据的扩展字段中报告“schedule_policy”。请注意,这些策略特定于动态批处理器,并且仅对具有直接调度策略的序列批处理器提供实验性支持。
动态批处理器#
调度策略扩展使用请求参数来指示策略。参数及其类型为
“priority”:int64 值,指示请求的优先级。优先级值零表示应使用默认优先级级别(即,与不指定优先级参数的行为相同)。较低的值优先级表示较高的优先级级别。因此,最高优先级级别通过将参数设置为 1 来指示,次高优先级级别为 2,依此类推。
“timeout”:int64 值,指示请求的超时值,以微秒为单位。如果请求无法在时间内完成,Triton 将采取特定于模型的操作,例如终止请求。
这两个参数都是可选的,如果未指定,Triton 将使用适合模型的默认优先级和超时值来处理请求。
具有直接调度策略的序列批处理器#
请注意,序列批处理器的调度策略尚处于实验阶段,可能会发生更改。
调度策略扩展使用请求参数来指示策略。参数及其类型为
“timeout”:int64 值,指示请求的超时值,以微秒为单位。如果请求无法在时间内完成,Triton 将终止请求,以及相应的序列和接收到的序列请求。超时仅适用于尚未分配批处理槽以供执行的序列请求,已分配批处理槽的序列请求将不受超时设置的影响。
该参数是可选的,如果未指定,Triton 将根据模型配置处理请求和相应的序列。