Triton 性能分析器#
Triton 性能分析器是一个 CLI 工具,它可以帮助您优化在 Triton 推理服务器上运行的模型的推理性能,通过在您尝试不同的优化策略时测量性能变化。
功能#
推理负载模式#
性能测量模式#
其他功能#
输入数据 模型推理的输入数据可以自动生成或指定,并可以验证输出
TensorFlow Serving 和 TorchServe 除了默认的 Triton 服务器外,可以用作推理服务器
快速开始#
以下步骤将指导您如何开始使用性能分析器。
步骤 1:启动 Triton 容器#
export RELEASE=<yy.mm> # e.g. to use the release from the end of February of 2023, do `export RELEASE=23.02`
docker pull nvcr.io/nvidia/tritonserver:${RELEASE}-py3
docker run --gpus all --rm -it --net host nvcr.io/nvidia/tritonserver:${RELEASE}-py3
步骤 2:下载 simple
模型#
# inside triton container
git clone --depth 1 https://github.com/triton-inference-server/server
mkdir model_repository ; cp -r server/docs/examples/model_repository/simple model_repository
步骤 3:启动 Triton 服务器#
# inside triton container
tritonserver --model-repository $(pwd)/model_repository &> server.log &
# confirm server is ready, look for 'HTTP/1.1 200 OK'
curl -v localhost:8000/v2/health/ready
# detach (CTRL-p CTRL-q)
步骤 4:启动 Triton SDK 容器#
docker pull nvcr.io/nvidia/tritonserver:${RELEASE}-py3-sdk
docker run --gpus all --rm -it --net host nvcr.io/nvidia/tritonserver:${RELEASE}-py3-sdk
步骤 5:运行性能分析器#
# inside sdk container
perf_analyzer -m simple
请参阅完整的快速入门指南,了解有关如何分析输出的其他提示。
文档#
贡献#
非常欢迎为 Triton 性能分析器做出贡献。要贡献代码,请查看贡献指南,然后 fork 并创建 pull request。
报告问题,提出问题#
我们感谢关于此项目的任何反馈、问题或错误报告。当需要代码方面的帮助时,请遵循 Stack Overflow (https://stackoverflow.com/help/mcve) 文档中概述的流程。确保发布的示例是
最小化 - 使用尽可能少的代码,但仍然可以重现相同的问题
完整 - 提供重现问题所需的所有部分。检查是否可以去除外部依赖项并仍然显示问题。我们花在重现问题上的时间越少,我们就有更多的时间来修复它
可验证 - 测试您即将提供的代码,以确保它可以重现问题。删除所有其他与您的请求/问题无关的问题。