NIM LLM 延迟-吞吐量基准测试综合指南# 基准测试指南 概述 概要 LLM 推理基准测试简介 LLM 推理工作原理背景 指标 首个令牌时间 (TTFT) 端到端请求延迟 (e2e_latency) 令牌间延迟 (ITL) 每秒令牌数 (TPS) 每秒请求数 (RPS) 参数和最佳实践 用例 负载控制 其他参数 使用 GenAI-Perf 进行基准测试 步骤 1. 获取最新模型列表 步骤 2. 使用 NVIDIA NIM 设置 OpenAI 兼容的 LLama-3 推理服务 步骤 3. 设置 GenAI-Perf 和预热:基准测试单个用例 步骤 4. 遍历多个用例 步骤 5. 分析输出 步骤 6. 解释结果 LoRA 模型基准测试 Multi-LoRA 部署性能基准测试的最佳实践