尺寸指南
本尺寸指南旨在帮助客户大规模地使用 NVIDIA RTX 虚拟工作站 (vWS) 实施 RAG 应用程序。为了利用 NVIDIA RTX vWS,建议使用配备 NVIDIA Tensor Core GPU 的 NVIDIA 认证系统服务器。此服务器尺寸是最低可行尺寸,并且可以使用其他服务器进行扩展。
本尺寸指南中使用的基准测试并非包罗万象;它们提供了一个代表性的工作流程,并作为一个起点,您可以根据您的环境在此基础上进行构建。此尺寸调整专门针对以下工作流程的单节点部署
大型语言模型
- 非门控模型
这些模型可以访问、下载并在项目本地运行,无需额外的配置
- 门控模型
可能需要在 AI Workbench 中进行一些额外的配置,但默认情况下,这些配置不会添加到项目中。具体而言,需要 Hugging Face API 令牌才能在本地运行门控模型。请参阅此处了解如何创建令牌。
以下模型为门控模型。请验证您是否已被授予访问权限,以访问模型卡上显示的您有兴趣在本地运行的任何模型
有关设置门控模型的详细信息,请参阅 Github 文档。
推理
为非门控或门控模型选择“本地系统”作为推理模式。对于量化,系统推荐的精度将为您预先选择,但目前支持 32 位(全精度)、8 位和 4 位 bits and bytes 精度级别。
使用 RAG
上传文档以用作向量数据库,并查询您的文档。
服务器配置
2U NVIDIA 认证系统
Intel Xeon Platinum 8480+ @3.8GHz Turbo (Sapphire Rapids) HT 开启
105 MB 缓存
3.84 TB 固态硬盘 (NVMe)
Intel Ethernet Controller X710 for 10GBASE-T
1x NVIDIA GPU: L40S, L4, A10, T4
Hypervisor - VMware ESXi 8.0.3
NVIDIA 主机驱动程序 - 550.54.15
VM 配置
操作系统版本 - Ubuntu 22.04.2
112 个 vCPU
256GB vRAM
NVIDIA 访客驱动程序 - 550.54.15
基于模型大小和量化的 vGPU 配置文件尺寸建议
vGPU 配置文件 | 参考模型大小 | 量化 |
---|---|---|
16Q 配置文件 | 8B (默认) | 4 位 |
24Q 配置文件 | 8B (默认) | 8 位 |
为了评估 NVIDIA Tensor Core 不同 GPU 架构的性能,进行了以下测试,以基于每秒 tokens 数进行比较分析

NVIDIA L40S 的吞吐量是 T4 的 3 倍,是 L4 的 1.7 倍。我们建议在此部署中使用 L40S GPU 以实现最佳性能。
在分析 vGPU 可扩展性性能时,以下测试评估了 GPU 共享对各种 GPU 分区选项(从完整 GPU 到 L40S GPU 的一半和三分之一)的总体吞吐量的影响。虚拟化 GPU 提供明显更高的总吞吐量,因为它们可以在多个虚拟机之间有效地共享资源。
