模型分析器#

Triton 模型分析器#

[!Warning]

最新发布

您当前位于 main 分支，该分支跟踪下一个版本的开发进度。Triton 模型分析器的最新版本是 1.42.0，可在分支 r24.07 上找到。

Triton 模型分析器是一个 CLI 工具，可以帮助您在给定的硬件上，为在 Triton 推理服务器上运行的单个、多个、集成或 BLS 模型找到更优化的配置。模型分析器还将生成报告，以帮助您更好地了解不同配置的权衡以及它们的计算和内存需求。

功能特性#

搜索模式#

Optuna 搜索 -ALPHA 版本- 允许您使用超参数优化框架搜索模型配置中可以指定的每个参数。如果您对算法如何运作的具体细节感兴趣，请参阅 Optuna 网站。
快速搜索将稀疏地搜索最大批次大小、动态批处理和实例组空间，通过利用启发式爬山算法，帮助您快速找到更优化的配置
自动穷举搜索将详尽地搜索您的模型配置的最大批次大小、动态批处理和实例组参数
手动穷举搜索允许您为模型配置中可以指定的每个参数创建手动扫描

模型类型#

集成：模型分析器可以帮助您在分析集成模型时找到最佳设置
BLS：模型分析器可以帮助您在分析 BLS 模型时找到最佳设置
多模型：模型分析器可以帮助您在分析多个并发模型时找到最佳设置
LLM：模型分析器可以帮助您在分析大型语言模型时找到最佳设置

其他功能#

详细和摘要报告：模型分析器能够生成摘要和详细报告，可以帮助您更好地了解可用于您的模型的不同模型配置之间的权衡。
QoS 约束：约束可以帮助您根据您的 QoS 要求过滤模型分析器结果。例如，您可以指定延迟预算来过滤掉不满足指定延迟阈值的模型配置。

示例和教程#

单模型#

请参阅单模型快速入门，了解如何使用模型分析器分析、分析和报告简单的 PyTorch 模型。

多模型#

请参阅多模型快速入门，了解如何使用模型分析器分析、分析和报告在同一 GPU 上并发运行的两个模型。

集成模型#

请参阅集成模型快速入门，了解如何使用模型分析器分析、分析和报告简单的集成模型。

BLS 模型#

请参阅 BLS 模型快速入门，了解如何使用模型分析器分析、分析和报告简单的 BLS 模型。

文档#

术语表#

以下是模型分析器中一些常用术语的定义

模型类型 - 正在分析的模型类别。例如，单模型、多模型、集成模型、BLS 模型等。
搜索模式 - 模型分析器在分析时探索可能的配置空间的方式。这可以是穷举式（brute）或启发式（quick/optuna）。
模型配置搜索 - 模型类型和搜索模式的交叉组合。
启动模式 - Triton 服务器被模型分析器部署和使用的方式。

报告问题，提出问题#

我们感谢关于此项目的任何反馈、问题或错误报告。当需要代码方面的帮助时，请遵循 Stack Overflow 中概述的流程 (https://stackoverflow.com/help/mcve) 文档。确保发布的示例是

最小化 – 使用尽可能少的代码，但仍能重现相同的问题
完整 – 提供重现问题所需的所有部分。检查是否可以去除外部依赖项并仍然显示问题。我们在重现问题上花费的时间越少，我们就越有时间修复它
可验证 – 测试您即将提供的代码，以确保它可以重现问题。删除所有与您的请求/问题无关的其他问题。