性能分析器#

Triton 性能分析器#

Triton 性能分析器是一个 CLI 工具,可以帮助您通过测量在使用不同优化策略时性能的变化,来优化在 Triton 推理服务器上运行的模型的推理性能。

特性#

推理负载模式#

  • 并发模式 通过维持到服务器的特定并发出站请求来模拟负载

  • 请求速率模式 通过以特定速率向服务器发送连续请求来模拟负载

  • 自定义间隔模式 通过以特定间隔向服务器发送连续请求来模拟负载

性能测量模式#

  • 时间窗口模式 在特定的时间间隔内重复测量模型性能,直到性能稳定

  • 计数窗口模式 在特定数量的请求上重复测量模型性能,直到性能稳定

其他特性#

快速开始#

以下步骤将指导您如何开始使用 Perf Analyzer。

步骤 1:启动 Triton 容器#

export RELEASE=<yy.mm> # e.g. to use the release from the end of February of 2023, do `export RELEASE=23.02`

docker pull nvcr.io/nvidia/tritonserver:${RELEASE}-py3

docker run --gpus all --rm -it --net host nvcr.io/nvidia/tritonserver:${RELEASE}-py3

步骤 2:下载 simple 模型#

# inside triton container
git clone --depth 1 https://github.com/triton-inference-server/server

mkdir model_repository ; cp -r server/docs/examples/model_repository/simple model_repository

步骤 3:启动 Triton 服务器#

# inside triton container
tritonserver --model-repository $(pwd)/model_repository &> server.log &

# confirm server is ready, look for 'HTTP/1.1 200 OK'
curl -v localhost:8000/v2/health/ready

# detach (CTRL-p CTRL-q)

步骤 4:启动 Triton SDK 容器#

docker pull nvcr.io/nvidia/tritonserver:${RELEASE}-py3-sdk

docker run --gpus all --rm -it --net host nvcr.io/nvidia/tritonserver:${RELEASE}-py3-sdk

步骤 5:运行 Perf Analyzer#

# inside sdk container
perf_analyzer -m simple

请参阅完整的快速入门指南,了解有关如何分析输出的其他提示。

文档#

贡献#

非常欢迎为 Triton Perf Analyzer 做出贡献。要贡献代码,请查看贡献指南,然后 Fork 并创建 pull request。

报告问题,提出问题#

我们感谢关于此项目的任何反馈、问题或错误报告。当需要代码帮助时,请遵循 Stack Overflow (https://stackoverflow.com/help/mcve) 文档中概述的流程。确保发布的示例是

  • 最小化 - 使用尽可能少的代码,仍然可以重现相同的问题

  • 完整 - 提供重现问题所需的所有部分。检查是否可以去除外部依赖项并仍然显示该问题。我们花在重现问题上的时间越少,我们就越有时间修复它

  • 可验证 - 测试您即将提供的代码,以确保它可以重现问题。删除所有其他与您的请求/问题无关的问题。