在 Jetson 上使用 Triton Inference Server 作为共享库执行#
概述#
本项目演示了如何使用 Triton Inference Server 作为共享库运行 C API 应用程序。我们还展示了如何在 Jetson 上构建和执行此类应用程序。
先决条件#
JetPack >= 4.6
OpenCV >= 4.1.1
TensorRT >= 8.0.1.6
安装#
按照 GitHub 发布页面上的安装说明进行操作 (triton-inference-server/server)。
在我们的示例中,我们将下载的发布目录的内容放在 /opt/tritonserver
下。
第 1 部分。并发推理和动态批处理#
位于 concurrency_and_dynamic_batching 下的示例的目的是演示 Triton Inference Server 的重要功能,例如并发模型执行和动态批处理。为了做到这一点,我们使用 C API 和 Triton Inference Server 作为共享库实现了一个人员检测应用程序。
第 2 部分。使用 perf_analyzer 分析模型性能#
为了分析 Jetson 上的模型性能,使用了 perf_analyzer 工具。perf_analyzer
包含在发布 tar 文件中,也可以从源代码编译。
从存储库的此目录中,执行以下命令来评估模型性能
./perf_analyzer -m peoplenet -b 2 --service-kind=triton_c_api --model-repo=$(pwd)/concurrency_and_dynamic_batching/trtis_model_repo_sample_1 --triton-server-directory=/opt/tritonserver --concurrency-range 1:6 -f perf_c_api.csv
在上面的示例中,我们将结果保存为 .csv
文件。要可视化这些结果,请按照 此处 描述的步骤进行操作。