LLM 推理基准测试简介#

过去几年见证了生成式 AI 和大型语言模型 (LLM) 的兴起,这是更广泛的 AI 革命的一部分。随着基于 LLM 的应用程序越来越多地在企业中推出,迫切需要对不同的服务解决方案进行基准测试并确保其成本效益。LLM 应用程序的成本取决于它可以处理多少查询,同时保持对最终用户的响应性和吸引力。请注意,所有成本衡量都应基于达到应用程序用例定义的可接受的准确性衡量标准。本指南侧重于成本衡量,不涵盖准确性衡量。

LLM 性能的标准化基准测试可以使用许多工具完成,包括长期使用的工具,例如 LocustK6,以及专门为 LLM 设计的新的开源工具,例如 NVIDIA GenAI-PerfLLMPerf。这些客户端工具为基于 LLM 的应用程序提供特定的指标,但在如何定义、衡量和计算不同的指标方面并不一致。本指南试图阐明通用指标及其差异和局限性。我们还提供有关使用我们首选工具 (GenAI-Perf) 对您的 LLM 应用程序进行基准测试的分步指南。

值得注意的是,性能基准测试和负载测试是评估大型语言模型部署的两种不同方法。负载测试(以 K6 等工具为例)侧重于模拟大量并发请求到模型,以评估其模拟真实世界流量和扩展的能力。这种类型的测试有助于识别与服务器容量、自动扩展策略、网络延迟和资源利用率相关的问题。相比之下,性能基准测试(如 NVIDIA 的 GenAI-Perf 工具所示)关注于衡量模型本身的实际性能,例如其吞吐量、延迟和令牌级指标。本文档侧重于这种类型的测试,并有助于识别与模型效率、优化和配置相关的问题。虽然负载测试对于确保模型可以处理大量请求至关重要,但性能测试对于理解模型有效处理请求的能力至关重要。通过结合这两种方法,开发人员可以全面了解其大型语言模型部署的功能,并确定需要改进的领域。

重要提示

要了解有关 LLMS 基准测试的更多信息,请参阅 NIM for LLMs 基准测试指南