AI vWS 工具包 - 使用 RTX 虚拟工作站构建 RAG 应用程序

尺寸指南

本尺寸指南旨在帮助客户大规模地使用 NVIDIA RTX 虚拟工作站 (vWS) 实施 RAG 应用程序。为了利用 NVIDIA RTX vWS,建议使用配备 NVIDIA Tensor Core GPU 的 NVIDIA 认证系统服务器。此服务器尺寸是最低可行尺寸,并且可以使用其他服务器进行扩展。

本尺寸指南中使用的基准测试并非包罗万象;它们提供了一个代表性的工作流程,并作为一个起点,您可以根据您的环境在此基础上进行构建。此尺寸调整专门针对以下工作流程的单节点部署

大型语言模型

非门控模型

这些模型可以访问、下载并在项目本地运行,无需额外的配置

门控模型

可能需要在 AI Workbench 中进行一些额外的配置,但默认情况下,这些配置不会添加到项目中。具体而言,需要 Hugging Face API 令牌才能在本地运行门控模型。请参阅此处了解如何创建令牌

以下模型为门控模型。请验证您是否已被授予访问权限,以访问模型卡上显示的您有兴趣在本地运行的任何模型

有关设置门控模型的详细信息,请参阅 Github 文档

推理

为非门控或门控模型选择“本地系统”作为推理模式。对于量化,系统推荐的精度将为您预先选择,但目前支持 32 位(全精度)、8 位和 4 位 bits and bytes 精度级别。

使用 RAG

上传文档以用作向量数据库,并查询您的文档。

服务器配置

  • 2U NVIDIA 认证系统

  • Intel Xeon Platinum 8480+ @3.8GHz Turbo (Sapphire Rapids) HT 开启

  • 105 MB 缓存

  • 3.84 TB 固态硬盘 (NVMe)

  • Intel Ethernet Controller X710 for 10GBASE-T

  • 1x NVIDIA GPU: L40S, L4, A10, T4

  • Hypervisor - VMware ESXi 8.0.3

  • NVIDIA 主机驱动程序 - 550.54.15

VM 配置

  • 操作系统版本 - Ubuntu 22.04.2

  • 112 个 vCPU

  • 256GB vRAM

  • NVIDIA 访客驱动程序 - 550.54.15

基于模型大小和量化的 vGPU 配置文件尺寸建议

vGPU 配置文件

参考模型大小

量化

16Q 配置文件 8B (默认) 4 位
24Q 配置文件 8B (默认) 8 位

为了评估 NVIDIA Tensor Core 不同 GPU 架构的性能,进行了以下测试,以基于每秒 tokens 数进行比较分析

ai-ws-0017.png

NVIDIA L40S 的吞吐量是 T4 的 3 倍,是 L4 的 1.7 倍。我们建议在此部署中使用 L40S GPU 以实现最佳性能。

在分析 vGPU 可扩展性性能时,以下测试评估了 GPU 共享对各种 GPU 分区选项(从完整 GPU 到 L40S GPU 的一半和三分之一)的总体吞吐量的影响。虚拟化 GPU 提供明显更高的总吞吐量,因为它们可以在多个虚拟机之间有效地共享资源。

ai-ws-0018.png

上一页 部署指南
© 版权所有 © 2013-2025, NVIDIA Corporation。 上次更新于 2025 年 1 月 23 日。