尺寸指南 - NVIDIA 文档

本尺寸指南旨在帮助客户大规模地使用 NVIDIA RTX 虚拟工作站 (vWS) 实施 RAG 应用程序。为了利用 NVIDIA RTX vWS，建议使用配备 NVIDIA Tensor Core GPU 的 NVIDIA 认证系统服务器。此服务器尺寸是最低可行尺寸，并且可以使用其他服务器进行扩展。

工作负载

本尺寸指南中使用的基准测试并非包罗万象；它们提供了一个代表性的工作流程，并作为一个起点，您可以根据您的环境在此基础上进行构建。此尺寸调整专门针对以下工作流程的单节点部署

大型语言模型

非门控模型: 这些模型可以访问、下载并在项目本地运行，无需额外的配置

门控模型: 可能需要在 AI Workbench 中进行一些额外的配置，但默认情况下，这些配置不会添加到项目中。具体而言，需要 Hugging Face API 令牌才能在本地运行门控模型。请参阅此处了解如何创建令牌。

以下模型为门控模型。请验证您是否已被授予访问权限，以访问模型卡上显示的您有兴趣在本地运行的任何模型

有关设置门控模型的详细信息，请参阅 Github 文档。

推理

为非门控或门控模型选择“本地系统”作为推理模式。对于量化，系统推荐的精度将为您预先选择，但目前支持 32 位（全精度）、8 位和 4 位 bits and bytes 精度级别。

使用 RAG

上传文档以用作向量数据库，并查询您的文档。

配置

服务器配置

2U NVIDIA 认证系统
Intel Xeon Platinum 8480+ @3.8GHz Turbo (Sapphire Rapids) HT 开启
105 MB 缓存
3.84 TB 固态硬盘 (NVMe)
Intel Ethernet Controller X710 for 10GBASE-T
1x NVIDIA GPU: L40S, L4, A10, T4
Hypervisor - VMware ESXi 8.0.3
NVIDIA 主机驱动程序 - 550.54.15

VM 配置

操作系统版本 - Ubuntu 22.04.2
112 个 vCPU
256GB vRAM
NVIDIA 访客驱动程序 - 550.54.15

尺寸调整

基于模型大小和量化的 vGPU 配置文件尺寸建议

vGPU 配置文件	参考模型大小	量化
16Q 配置文件	8B (默认)	4 位
24Q 配置文件	8B (默认)	8 位

性能

为了评估 NVIDIA Tensor Core 不同 GPU 架构的性能，进行了以下测试，以基于每秒 tokens 数进行比较分析

NVIDIA L40S 的吞吐量是 T4 的 3 倍，是 L4 的 1.7 倍。我们建议在此部署中使用 L40S GPU 以实现最佳性能。

在分析 vGPU 可扩展性性能时，以下测试评估了 GPU 共享对各种 GPU 分区选项（从完整 GPU 到 L40S GPU 的一半和三分之一）的总体吞吐量的影响。虚拟化 GPU 提供明显更高的总吞吐量，因为它们可以在多个虚拟机之间有效地共享资源。