尺寸指南
本尺寸指南旨在帮助客户大规模地使用 NVIDIA RTX 虚拟工作站 (vWS) 实施大型语言模型的微调。为了利用 NVIDIA RTX vWS,建议使用配备 NVIDIA Tensor Core GPU 的 NVIDIA 认证系统服务器。此服务器尺寸是最低可行尺寸,并且可以使用其他服务器进行扩展。
本尺寸指南中使用的基准测试并非包罗万象;它们提供了一个代表性的工作流程,并作为一个起点,可以根据您的环境在此基础上构建。此尺寸调整专门针对以下工作流程的单节点部署。
大型语言模型
Llamafactory 支持许多 LLM,可以使用“模型名称”下拉菜单选择。 Llamafactory 通过 Hugging Face 获取这些模型。有些模型是开放的,而另一些模型,如 llama3-8b-instruct,是受限的。如果模型受限,您将需要请求访问该模型。一旦获得访问权限,您可以生成一个访问令牌,该令牌可与 AI Workbench 一起使用以下载模型。您可以支持的模型将取决于模型的参数大小(7B、8B 等)和您选择的量化(4 位、8 位等)。在大多数情况下,24Q 的 vGPU 配置文件可以支持高达 8B 参数和 16 位量化。您可以查看 Llamafactory 关于支持内容的指南,但这只是一般指南,因为其他因素(如批量大小和序列长度)会影响 vGPU 内存量。在 Llamafacotry 中,这些参数分别是“批量大小”和“截断长度”。如果您收到“内存不足”错误,则必须降低这些参数或将 vGPU 配置文件增加到 32Q。
有关所有受支持的大型语言模型及其支持的模型大小和要使用的模板的列表,请参考 office Llamafactory GitHub 存储库上的此图表。

数据集
Llamafactory 还支持许多数据集,每个数据集都针对特定目的进行训练。例如,我们使用的数据集 Codealpaca 是在编码和编程语言上训练的。您将需要选择一个与您的项目最密切相关的数据集。您可以使用 Llamafactory UI 中的“数据集”下拉菜单选择数据集。
您也可以使用您的自定义数据集。有关如何创建并将其导入到 Llamafactory 项目的详细信息,请参阅此参考文档。

服务器配置
2U NVIDIA 认证系统
Intel(R) Xeon(R) Gold 6354 CPU @ 3.00GHz HT 开启
39 MB 缓存
20 TB iSCSI LUN
Broadcom NextXtreme E 系列高级双端口以太网 OCP 适配器,用于 10GBASE-T
1 个 NVIDIA GPU:L40/S、L4、A10、T4
Hypervisor - VMware ESXi 8.0 U2
NVIDIA 主机驱动程序 - 550.127.05
VM 配置
操作系统版本 - Ubuntu 22.04.5 LTS
32 个 vCPU
128 GB vRAM
NVIDIA 客户机驱动程序 - 550.127.05
基于模型大小和量化的 vGPU 配置文件尺寸建议。这些仅为估计值,您应该查看 Hugging Face 上特定模型的模型卡。
vGPU 配置文件 | 参考模型大小 | 量化 |
---|---|---|
16Q 配置文件 | 8B - 12B | 4 位 |
24Q 配置文件 | 8B - 12B | 8 位 |
48Q 配置文件 | 8B - 12B | 16 位 |
衡量不同 GPU 和不同 vGPU 配置文件性能的一种方法是相对吞吐量。相对吞吐量衡量 GPU 在单位时间内可以处理多少训练单元(如样本或批次),相对于其峰值性能而言。它衡量 GPU 的计算资源被利用的效率。
相对性能对于更快的训练和优化资源非常重要。使用更强大的 GPU(如 L40S),可以更快地完成训练,通常比上一代硬件节省数小时或数天,具体取决于模型大小和数据集。了解吞吐量将有助于优化微调设置并最大限度地利用可用资源。

48Q 配置文件中的 NVIDIA L40S 提供的吞吐量是 L40S-16Q 的 4 倍,是 L4-24Q 的 2.5 倍以上。此外,由于 NVIDIA L4 的 GPU 内存增加了一倍,L40S 可以支持 48Q vGPU 配置文件,该配置文件能够微调更大的 LLM 并利用更精确的位精度,如 8 位和 16 位。因此,建议在此部署中使用 L40S GPU 以实现最佳性能。借助 NVIDIA vGPU,IT 组织可以随着所需吞吐量的增长而调整 GPU 资源。