Triton 性能分析器#

Triton 性能分析器是一个 CLI 工具，它可以帮助您优化在 Triton 推理服务器上运行的模型的推理性能，通过在您尝试不同的优化策略时测量性能变化。

功能#

推理负载模式#

并发模式通过维持特定并发的出站请求到服务器来模拟负载
请求速率模式通过以特定速率向服务器发送连续请求来模拟负载
自定义间隔模式通过以特定间隔向服务器发送连续请求来模拟负载

性能测量模式#

时间窗口模式在特定的时间间隔内重复测量模型性能，直到性能稳定
计数窗口模式在特定的请求数量内重复测量模型性能，直到性能稳定

其他功能#

序列模型, 集成模型, 和解耦模型除了标准/无状态/耦合模型外，还可以进行性能分析
输入数据模型推理的输入数据可以自动生成或指定，并可以验证输出
TensorFlow Serving 和 TorchServe 除了默认的 Triton 服务器外，可以用作推理服务器

快速开始#

以下步骤将指导您如何开始使用性能分析器。

步骤 1：启动 Triton 容器#

export RELEASE=<yy.mm> # e.g. to use the release from the end of February of 2023, do `export RELEASE=23.02`

docker pull nvcr.io/nvidia/tritonserver:${RELEASE}-py3

docker run --gpus all --rm -it --net host nvcr.io/nvidia/tritonserver:${RELEASE}-py3

步骤 2：下载 `simple` 模型#

# inside triton container
git clone --depth 1 https://github.com/triton-inference-server/server

mkdir model_repository ; cp -r server/docs/examples/model_repository/simple model_repository

步骤 3：启动 Triton 服务器#

# inside triton container
tritonserver --model-repository $(pwd)/model_repository &> server.log &

# confirm server is ready, look for 'HTTP/1.1 200 OK'
curl -v localhost:8000/v2/health/ready

# detach (CTRL-p CTRL-q)

步骤 4：启动 Triton SDK 容器#

docker pull nvcr.io/nvidia/tritonserver:${RELEASE}-py3-sdk

docker run --gpus all --rm -it --net host nvcr.io/nvidia/tritonserver:${RELEASE}-py3-sdk

步骤 5：运行性能分析器#

# inside sdk container
perf_analyzer -m simple

请参阅完整的快速入门指南，了解有关如何分析输出的其他提示。

文档#

贡献#

非常欢迎为 Triton 性能分析器做出贡献。要贡献代码，请查看贡献指南，然后 fork 并创建 pull request。

报告问题，提出问题#

我们感谢关于此项目的任何反馈、问题或错误报告。当需要代码方面的帮助时，请遵循 Stack Overflow (https://stackoverflow.com/help/mcve) 文档中概述的流程。确保发布的示例是

最小化 - 使用尽可能少的代码，但仍然可以重现相同的问题
完整 - 提供重现问题所需的所有部分。检查是否可以去除外部依赖项并仍然显示问题。我们花在重现问题上的时间越少，我们就有更多的时间来修复它
可验证 - 测试您即将提供的代码，以确保它可以重现问题。删除所有其他与您的请求/问题无关的问题。