高级演练:混合 RAG#

如果您已熟悉 NVIDIA AI Workbench,请使用本文档以了解 NVIDIA 提供的示例项目简介。 有关快速入门的完整列表,请参阅快速入门指南

在本快速入门中,您将使用 NVIDIA 创建的混合检索增强生成 (RAG) 示例项目。 您将了解 AI Workbench 和 NVIDIA 的示例项目目录如何帮助您开始在您自己选择的硬件上开发 RAG 应用程序。

注意

此项目之所以命名为“混合”,是因为您可以在本地 Hugging Face TGI 服务器上、在云端使用 NVIDIA 推理端点或通过使用 NVIDIA Inference Microservices (NIM) 等微服务运行推理。

在本快速入门中,您将执行以下任务

  1. 克隆示例项目

  2. 输入您的 NVCF 运行密钥

  3. 启动 Gradio 聊天应用

  4. 上传文档

先决条件#

在您可以完成本快速入门中的步骤之前,您需要以下内容

  • NVIDIA AI Workbench 已安装在您的本地计算机上。 有关详细信息,请参阅安装 AI Workbench

  • 您拥有一个 NVIDIA NGC 帐户

  • 您需要一个 NVCF 运行密钥才能访问 NVIDIA 端点。 - 在此处创建运行密钥。 - 单击生成 API 密钥,并在出现提示时使用您的 NGC 凭据登录。

克隆示例项目#

  1. 导航到 NVIDIA 管理的此 Github 存储库,并将项目 Fork 到您自己的 Github 帐户。

  2. 打开 AI Workbench 桌面应用程序,然后选择您要工作的位置。

  3. 单击右上角附近的克隆项目。 将出现克隆项目窗口。

  4. 克隆项目窗口中,对于存储库 URL,输入您 Fork 的存储库的 URL。 对于路径,接受默认值。 然后单击克隆

  5. 存储库将克隆,AI Workbench 将构建容器,这可能需要几分钟时间。 在您的项目构建时,您可以执行以下操作

    1. 您可以在 AI Workbench 窗口的状态栏中跟踪构建进度。

    2. 您可以通过单击状态栏中的正在构建构建就绪来查看构建的日志。

    等待直到您在状态栏中看到构建就绪,然后继续下一节。

输入您的 NVCF 运行密钥#

  1. 选择环境 > 密钥 > NVCF_RUN_KEY > 配置,然后输入您的凭据。 这使您可以访问本快速入门的 NVIDIA 云端点。

启动 Gradio 聊天应用#

  1. 单击打开聊天。 Gradio 聊天应用将在浏览器中打开。

  2. 在 Gradio 聊天应用中,选择设置 RAG 后端。 这将触发一次性构建。 构建完成后,您将被重定向到设置面板。

  3. 在右侧的设置面板上选择 选项。

  4. 选择模型系列模型

  5. 提交查询。

您现在可以使用开箱即用的云端点生成推理响应。

上传文档#

  1. 要执行 RAG,请从聊天 UI 的右侧面板中选择在此处上传文档选项卡。

    注意

    您可能会看到一条警告,指示向量数据库尚未就绪。 如果是这样,请稍等片刻,等待其完成预热,然后重试。

  2. 数据库启动后,单击文件字段以选择要上传的文件,或拖放您的文档。

  3. 文件上传后,文本输入框旁边的切换以使用向量数据库默认情况下会打开。

  4. 您现在可以查询您的文档。 将使用向量数据库切换开关切换回关闭状态会将模型恢复为基本的开箱即用推理。

  5. 要更改端点,请导航回推理设置选项卡。 从下拉列表中选择其他模型,然后继续查询。

  6. 要清除数据库(不可逆),请在右侧面板上选择在此处上传文档选项卡,然后选择清除数据库

    警告

    清除数据库是不可逆的。

  7. 要编辑 gradio 应用或后端逻辑,请切换到 AI Workbench 项目窗口,从右上角的下拉列表中选择 JupyterLab。 您现在可以编辑源代码。

    您可以从 AI Workbench 窗口提交更改并将更改推送到 Github 上的 Fork 项目存储库。

后续步骤#