跳到主要内容
Ctrl+K
NVIDIA NIM LLMs Benchmarking - Home

NVIDIA NIM LLMs 基准测试

NVIDIA NIM LLMs Benchmarking - Home

NVIDIA NIM LLMs 基准测试

目录

基准测试指南

  • 概述
  • 指标
  • 参数和最佳实践
  • 使用 GenAI-Perf 进行基准测试
  • LoRA 模型基准测试

NIM LLM 延迟-吞吐量基准测试综合指南#

基准测试指南

  • 概述
    • 概要
    • LLM 推理基准测试简介
    • LLM 推理工作原理背景
  • 指标
    • 首个令牌时间 (TTFT)
    • 端到端请求延迟 (e2e_latency)
    • 令牌间延迟 (ITL)
    • 每秒令牌数 (TPS)
    • 每秒请求数 (RPS)
  • 参数和最佳实践
    • 用例
    • 负载控制
    • 其他参数
  • 使用 GenAI-Perf 进行基准测试
    • 步骤 1. 获取最新模型列表
    • 步骤 2. 使用 NVIDIA NIM 设置 OpenAI 兼容的 LLama-3 推理服务
    • 步骤 3. 设置 GenAI-Perf 和预热:基准测试单个用例
    • 步骤 4. 遍历多个用例
    • 步骤 5. 分析输出
    • 步骤 6. 解释结果
  • LoRA 模型基准测试
    • Multi-LoRA 部署性能基准测试的最佳实践

下一步

概述

NVIDIA NVIDIA
隐私政策 | 管理我的隐私 | 请勿出售或分享我的数据 | 服务条款 | 无障碍功能 | 公司政策 | 产品安全 | 联系我们

版权所有 © 2024-2025,NVIDIA Corporation。

上次更新于 2025 年 1 月 9 日。

© . All rights reserved.