部署指南
在 vCenter 中设置 Linux 虚拟机。
安装 Ubuntu 并设置下面列出的必要依赖项
open-vm-tool(安装后需要重启)
openssh-server
vim
net-tools
build-essential
dkms
fuse3
libfuse2
禁用 nouveau 驱动程序
$ sudo vim /etc/modprobe.d/blacklist.conf $ blacklist nouveau $ options nouveau modeset=0
更新 initramfs,然后重启。
$ sudo update-initramfs -u $ sudo reboot
安装您首选的远程协议(例如,NoMachine、Horizon、VNC)。本指南的其余部分将使用 NoMachine 作为远程协议。
下载并安装 NVIDIA vGPU 软件。
$ sudo chmod +x nvidia-linux-grid-xxx_xxx.xx.xx_amd64.deb $ sudo dpkg -i nvidia-linux-grid-xxx_xxx.xx.xx_amd64.deb
驱动程序实用程序完成安装后,重启,然后运行
nvidia-smi
命令以验证驱动程序是否已正确安装。
至此,VM 设置已完成。接下来,在 Ubuntu VW 上安装 AI Workbench。AI Workbench 可以从 NVIDIA 网站下载。Ubuntu 的安装指南可以在这里找到。
从 GitHub 克隆 Hybrid RAG 项目。在 AI Workbench 中,选择“克隆项目”,然后输入存储库 URL 以开始克隆过程。
AI Workbench 将需要一些时间来拉取存储库。您可以通过单击底部状态栏查看进度。
构建完成后,单击左侧的“环境”选项卡,然后向下滚动到“密钥”。要使用 VM 的计算能力进行 RAG 推理,您不需要访问 NGC,但可能需要在 NVCF_Run_Key 框中输入一个虚拟值(例如,“asdf”)。这样做,您将无法使用云进行推理。本指南还将使用 Llama-3-8B,一个门控 LLM。创建一个 HuggingFace 帐户并请求访问 LLM。完成后,您必须在“环境”下创建一个名为“HUGGING_FACE_HUB_TOKEN”的新条目,并输入您的 Huggingface 访问令牌。
输入密钥后,单击右上角的“启动环境”。这将为此模型启动容器服务。
容器启动后,选择“Jupyter Notebook”来配置模型,或运行“Chat”来启动推理服务器。您还可以通过单击右下角的状态栏来查看每个应用程序的状态。
借助 AI Workbench,您可以轻松使用 Jupyter Notebook 功能来更改和自定义 RAG 应用程序。在以下屏幕截图中,我们通过访问 Jupyter Notebook 中的start-local.sh 文件来调整最大令牌总数。增加最大令牌数量意味着 RAG 服务器可以支持更长的响应。
RAG 应用程序还有许多其他自定义选项。在此处了解有关此 RAG 应用程序的所有可用选项的更多信息此处。

现在,应用程序已准备就绪。它将在您首选的浏览器中作为网页打开。要初始化 RAG 服务器,请单击右侧的“设置 RAG 后端”,启动向量数据库。

我们将使用本地系统进行推理。在“推理模式”下选择“本地系统”,然后取消选中“非门控模型”框,选中“门控模型”框,并选择 meta-llama/Meta-Llama-3-8B-Instruct。量化将取决于您的系统配置。在本指南中,我们将使用 8 位量化。完成 RAG 服务器的配置后,单击“加载模型”。
使用本地推理模型还意味着一旦模型加载完成,就不需要互联网连接——所有推理和 RAG 过程都在 VM 内发生,并且虚拟 GPU 完全加速它们。
这将开始下载 Llama-3-8B 模型。此过程可能需要长达 90 分钟,具体取决于互联网连接。您还可以通过使用 AI Workbench 窗口底部的状态栏查看进度。

模型加载完成后,单击“启动服务器”以初始化 Chat 服务器。这可能需要一些时间。
一旦聊天服务器完全运行,您就可以使用聊天界面。首先,让我们询问有关 NVIDIA 最新的 Blackwell GPU 的信息。如前所述,由于 Llama3 是在 NVIDIA Blackwell 发布之前训练的,因此 Chat 服务器无法识别 Blackwell,也无法解决我们的查询。

现在,让我们通过下载 NVIDIA 关于 Blackwell GPU 的新闻稿 PDF 格式来为其提供更多上下文。完成后,返回 Chat 服务器界面,选择网页右侧的“在此处上传文档”选项卡,然后单击“上传”我们之前创建的 PDF 文件。
RAG 服务器可能需要一些时间来解析数据并将其馈送到向量数据库。一旦 RAG 服务器完成文档分析,我们就可以在聊天界面中提出相同的问题。

现在,聊天服务器可以正确描述 NVIDIA Blackwell GPU,并提供有关使其与前几代 GPU 区分开来的功能的详细信息。
启用向量数据库后,模型现在可以为我们的查询提供更相关的信息,而无需专门针对此数据进行训练。此外,“显示上下文”功能允许查看模型用于生成其响应的文档特定部分。
有关更多信息和教程,请访问 GitHub 页面。