性能分析器#

Triton 性能分析器#

Triton 性能分析器是一个 CLI 工具，可以帮助您通过测量在使用不同优化策略时性能的变化，来优化在 Triton 推理服务器上运行的模型的推理性能。

特性#

推理负载模式#

并发模式通过维持到服务器的特定并发出站请求来模拟负载
请求速率模式通过以特定速率向服务器发送连续请求来模拟负载
自定义间隔模式通过以特定间隔向服务器发送连续请求来模拟负载

性能测量模式#

时间窗口模式在特定的时间间隔内重复测量模型性能，直到性能稳定
计数窗口模式在特定数量的请求上重复测量模型性能，直到性能稳定

其他特性#

序列模型、集成模型和解耦模型除了标准/无状态/耦合模型外，也可以进行分析
输入数据到模型推理可以是自动生成的或指定的，以及验证输出
TensorFlow Serving 和 TorchServe 除了默认的 Triton 服务器外，也可以用作推理服务器

快速开始#

以下步骤将指导您如何开始使用 Perf Analyzer。

步骤 1：启动 Triton 容器#

export RELEASE=<yy.mm> # e.g. to use the release from the end of February of 2023, do `export RELEASE=23.02`

docker pull nvcr.io/nvidia/tritonserver:${RELEASE}-py3

docker run --gpus all --rm -it --net host nvcr.io/nvidia/tritonserver:${RELEASE}-py3

步骤 2：下载 `simple` 模型#

# inside triton container
git clone --depth 1 https://github.com/triton-inference-server/server

mkdir model_repository ; cp -r server/docs/examples/model_repository/simple model_repository

步骤 3：启动 Triton 服务器#

# inside triton container
tritonserver --model-repository $(pwd)/model_repository &> server.log &

# confirm server is ready, look for 'HTTP/1.1 200 OK'
curl -v localhost:8000/v2/health/ready

# detach (CTRL-p CTRL-q)

步骤 4：启动 Triton SDK 容器#

docker pull nvcr.io/nvidia/tritonserver:${RELEASE}-py3-sdk

docker run --gpus all --rm -it --net host nvcr.io/nvidia/tritonserver:${RELEASE}-py3-sdk

步骤 5：运行 Perf Analyzer#

# inside sdk container
perf_analyzer -m simple

请参阅完整的快速入门指南，了解有关如何分析输出的其他提示。

文档#

贡献#

非常欢迎为 Triton Perf Analyzer 做出贡献。要贡献代码，请查看贡献指南，然后 Fork 并创建 pull request。

报告问题，提出问题#

我们感谢关于此项目的任何反馈、问题或错误报告。当需要代码帮助时，请遵循 Stack Overflow (https://stackoverflow.com/help/mcve) 文档中概述的流程。确保发布的示例是

最小化 - 使用尽可能少的代码，仍然可以重现相同的问题
完整 - 提供重现问题所需的所有部分。检查是否可以去除外部依赖项并仍然显示该问题。我们花在重现问题上的时间越少，我们就越有时间修复它
可验证 - 测试您即将提供的代码，以确保它可以重现问题。删除所有其他与您的请求/问题无关的问题。