在 Jetson 上使用 Triton Inference Server 作为共享库执行#

概述#

本项目演示了如何使用 Triton Inference Server 作为共享库运行 C API 应用程序。我们还展示了如何在 Jetson 上构建和执行此类应用程序。

先决条件#

JetPack >= 4.6
OpenCV >= 4.1.1
TensorRT >= 8.0.1.6

安装#

按照 GitHub 发布页面上的安装说明进行操作 (triton-inference-server/server)。

在我们的示例中，我们将下载的发布目录的内容放在 /opt/tritonserver 下。

第 1 部分。并发推理和动态批处理#

位于 concurrency_and_dynamic_batching 下的示例的目的是演示 Triton Inference Server 的重要功能，例如并发模型执行和动态批处理。为了做到这一点，我们使用 C API 和 Triton Inference Server 作为共享库实现了一个人员检测应用程序。

第 2 部分。使用 perf_analyzer 分析模型性能#

为了分析 Jetson 上的模型性能，使用了 perf_analyzer 工具。perf_analyzer 包含在发布 tar 文件中，也可以从源代码编译。

从存储库的此目录中，执行以下命令来评估模型性能

./perf_analyzer -m peoplenet -b 2 --service-kind=triton_c_api --model-repo=$(pwd)/concurrency_and_dynamic_batching/trtis_model_repo_sample_1 --triton-server-directory=/opt/tritonserver --concurrency-range 1:6 -f perf_c_api.csv

在上面的示例中，我们将结果保存为 .csv 文件。要可视化这些结果，请按照此处描述的步骤进行操作。