模型分析器#

License

Triton 模型分析器#

[!Warning]

最新发布

您当前位于 main 分支,该分支跟踪下一个版本的开发进度。Triton 模型分析器的最新版本是 1.42.0,可在分支 r24.07 上找到。

Triton 模型分析器是一个 CLI 工具,可以帮助您在给定的硬件上,为在 Triton 推理服务器 上运行的单个、多个、集成或 BLS 模型找到更优化的配置。模型分析器还将生成报告,以帮助您更好地了解不同配置的权衡以及它们的计算和内存需求。

功能特性#

搜索模式#

模型类型#

  • 集成:模型分析器可以帮助您在分析集成模型时找到最佳设置

  • BLS:模型分析器可以帮助您在分析 BLS 模型时找到最佳设置

  • 多模型:模型分析器可以帮助您在分析多个并发模型时找到最佳设置

  • LLM:模型分析器可以帮助您在分析大型语言模型时找到最佳设置

其他功能#

  • 详细和摘要报告:模型分析器能够生成摘要和详细报告,可以帮助您更好地了解可用于您的模型的不同模型配置之间的权衡。

  • QoS 约束:约束可以帮助您根据您的 QoS 要求过滤模型分析器结果。例如,您可以指定延迟预算来过滤掉不满足指定延迟阈值的模型配置。

示例和教程#

单模型#

请参阅 单模型快速入门,了解如何使用模型分析器分析、分析和报告简单的 PyTorch 模型。

多模型#

请参阅 多模型快速入门,了解如何使用模型分析器分析、分析和报告在同一 GPU 上并发运行的两个模型。

集成模型#

请参阅 集成模型快速入门,了解如何使用模型分析器分析、分析和报告简单的集成模型。

BLS 模型#

请参阅 BLS 模型快速入门,了解如何使用模型分析器分析、分析和报告简单的 BLS 模型。

文档#

术语表#

以下是模型分析器中一些常用术语的定义

  • 模型类型 - 正在分析的模型类别。例如,单模型、多模型、集成模型、BLS 模型等。

  • 搜索模式 - 模型分析器在分析时探索可能的配置空间的方式。这可以是穷举式(brute)或启发式(quick/optuna)。

  • 模型配置搜索 - 模型类型和搜索模式的交叉组合。

  • 启动模式 - Triton 服务器被模型分析器部署和使用的方式。

报告问题,提出问题#

我们感谢关于此项目的任何反馈、问题或错误报告。当需要代码方面的帮助时,请遵循 Stack Overflow 中概述的流程 (https://stackoverflow.com/help/mcve) 文档。确保发布的示例是

  • 最小化 – 使用尽可能少的代码,但仍能重现相同的问题

  • 完整 – 提供重现问题所需的所有部分。检查是否可以去除外部依赖项并仍然显示问题。我们在重现问题上花费的时间越少,我们就越有时间修复它

  • 可验证 – 测试您即将提供的代码,以确保它可以重现问题。删除所有与您的请求/问题无关的其他问题。