AI vWS 工具包 - 使用 RTX 虚拟工作站构建 RAG 应用程序

部署指南

  1. 在 vCenter 中设置 Linux 虚拟机。

    ai-ws-001.png


  2. 安装 Ubuntu 并设置下面列出的必要依赖项

    • open-vm-tool(安装后需要重启)

    • openssh-server

    • vim

    • net-tools

    • build-essential

    • dkms

    • fuse3

    • libfuse2

    ai-ws-002.png


  3. 禁用 nouveau 驱动程序

    复制
    已复制!
                

    $ sudo vim /etc/modprobe.d/blacklist.conf $ blacklist nouveau $ options nouveau modeset=0

    ai-ws-003.png

  4. 更新 initramfs,然后重启。

    复制
    已复制!
                

    $ sudo update-initramfs -u $ sudo reboot


  5. 安装您首选的远程协议(例如,NoMachine、Horizon、VNC)。本指南的其余部分将使用 NoMachine 作为远程协议。

  6. 下载并安装 NVIDIA vGPU 软件。

    复制
    已复制!
                

    $ sudo chmod +x nvidia-linux-grid-xxx_xxx.xx.xx_amd64.deb $ sudo dpkg -i nvidia-linux-grid-xxx_xxx.xx.xx_amd64.deb

    ai-ws-004.png

  7. 驱动程序实用程序完成安装后,重启,然后运行 nvidia-smi 命令以验证驱动程序是否已正确安装。

    ai-ws-005.png


  8. 至此,VM 设置已完成。接下来,在 Ubuntu VW 上安装 AI Workbench。AI Workbench 可以从 NVIDIA 网站下载。Ubuntu 的安装指南可以在这里找到。

    警告

    在本地计算机上更新 AI Workbench 后,您还必须更新任何连接的远程位置。有关详细信息,请参阅在远程计算机上更新 AI Workbench

    ai-ws-006.png

  1. 从 GitHub 克隆 Hybrid RAG 项目。在 AI Workbench 中,选择“克隆项目”,然后输入存储库 URL 以开始克隆过程。

    ai-ws-007.png


  2. AI Workbench 将需要一些时间来拉取存储库。您可以通过单击底部状态栏查看进度。

    ai-ws-008.png


  3. 构建完成后,单击左侧的“环境”选项卡,然后向下滚动到“密钥”。要使用 VM 的计算能力进行 RAG 推理,您不需要访问 NGC,但可能需要在 NVCF_Run_Key 框中输入一个虚拟值(例如,“asdf”)。这样做,您将无法使用云进行推理。本指南还将使用 Llama-3-8B,一个门控 LLM。创建一个 HuggingFace 帐户并请求访问 LLM。完成后,您必须在“环境”下创建一个名为“HUGGING_FACE_HUB_TOKEN”的新条目,并输入您的 Huggingface 访问令牌。

    ai-ws-009.png


  4. 输入密钥后,单击右上角的“启动环境”。这将为此模型启动容器服务。

    ai-ws-0010.png


  5. 容器启动后,选择“Jupyter Notebook”来配置模型,或运行“Chat”来启动推理服务器。您还可以通过单击右下角的状态栏来查看每个应用程序的状态。

    ai-ws-0011.png


借助 AI Workbench,您可以轻松使用 Jupyter Notebook 功能来更改和自定义 RAG 应用程序。在以下屏幕截图中,我们通过访问 Jupyter Notebook 中的start-local.sh 文件来调整最大令牌总数。增加最大令牌数量意味着 RAG 服务器可以支持更长的响应。

RAG 应用程序还有许多其他自定义选项。在此处了解有关此 RAG 应用程序的所有可用选项的更多信息此处

ai-ws-0012.png

现在,应用程序已准备就绪。它将在您首选的浏览器中作为网页打开。要初始化 RAG 服务器,请单击右侧的“设置 RAG 后端”,启动向量数据库。

ai-ws-0013.png

我们将使用本地系统进行推理。在“推理模式”下选择“本地系统”,然后取消选中“非门控模型”框,选中“门控模型”框,并选择 meta-llama/Meta-Llama-3-8B-Instruct。量化将取决于您的系统配置。在本指南中,我们将使用 8 位量化。完成 RAG 服务器的配置后,单击“加载模型”。

注意

使用本地推理模型还意味着一旦模型加载完成,就不需要互联网连接——所有推理和 RAG 过程都在 VM 内发生,并且虚拟 GPU 完全加速它们。

这将开始下载 Llama-3-8B 模型。此过程可能需要长达 90 分钟,具体取决于互联网连接。您还可以通过使用 AI Workbench 窗口底部的状态栏查看进度。

ai-ws-0014.png

模型加载完成后,单击“启动服务器”以初始化 Chat 服务器。这可能需要一些时间。

一旦聊天服务器完全运行,您就可以使用聊天界面。首先,让我们询问有关 NVIDIA 最新的 Blackwell GPU 的信息。如前所述,由于 Llama3 是在 NVIDIA Blackwell 发布之前训练的,因此 Chat 服务器无法识别 Blackwell,也无法解决我们的查询。

ai-ws-0015.png

现在,让我们通过下载 NVIDIA 关于 Blackwell GPU 的新闻稿 PDF 格式来为其提供更多上下文。完成后,返回 Chat 服务器界面,选择网页右侧的“在此处上传文档”选项卡,然后单击“上传”我们之前创建的 PDF 文件。

RAG 服务器可能需要一些时间来解析数据并将其馈送到向量数据库。一旦 RAG 服务器完成文档分析,我们就可以在聊天界面中提出相同的问题。

ai-ws-0016.png

现在,聊天服务器可以正确描述 NVIDIA Blackwell GPU,并提供有关使其与前几代 GPU 区分开来的功能的详细信息。

启用向量数据库后,模型现在可以为我们的查询提供更相关的信息,而无需专门针对此数据进行训练。此外,“显示上下文”功能允许查看模型用于生成其响应的文档特定部分。

有关更多信息和教程,请访问 GitHub 页面

上一步 快速入门指南
下一步 尺寸指南
© 版权所有 © 2013-2025, NVIDIA Corporation。 上次更新时间:2025 年 1 月 23 日。