AI Workbench 疑难解答#

使用本文档中的信息来解决您在使用 NVIDIA AI Workbench 时出现的问题。通常,您可以在日志和运行时文件中找到问题。

获取以下问题的帮助

由于项目规范文件错误,克隆项目失败#

如果您尝试克隆项目但失败,您可能会看到诸如 Problem validating new project 的错误消息。要解决此问题,请验证您要克隆的项目中的规范文件是否具有有效的规范文件

克隆项目反复失败#

如果您尝试克隆项目,则可能会因网络故障等原因而失败。首次克隆失败后,项目将处于中间状态。首先,通过执行以下操作来清理项目。

  1. ~/.nvwb/ 文件夹中找到文件 inventory.json。如果您使用的是 Windows,请在文件资源管理器中的 Linux\NVIDIA-Workbench 中查找。

  2. 检查该文件以查看是否有新项目的条目。

    1. 从文件中删除新项目的条目。小心不要更改文件的 json 结构。

    2. 转到 ~/.nvwb/project-runtime-info 文件夹,并完全删除新项目的文件夹。有关更多信息,请参阅AI Workbench 项目运行时文件

  3. 再次克隆项目。

添加和删除无效软件包后,容器无法构建#

在您向 AI Workbench 项目添加软件包后,有时您的容器将无法构建。如果您添加了无效的软件包,然后将其删除,则会陷入快速构建循环。要解决此问题,请执行以下操作

  1. 在 AI Workbench 桌面应用程序中打开您的项目。

  2. 打开 环境 页面。

  3. 使用 软件包 列表删除软件包(或确认已删除)。

  4. 重新构建您的项目。

    • 要从桌面应用程序重新构建您的项目,请单击状态栏中的 构建,然后单击 清除缓存并构建

    • 要从 CLI 重新构建您的项目,请使用 --full-build 标志来构建您的项目。

Windows 上的 CUDA 和其他错误#

在 Windows 上,如果您的 NVIDIA GPU 驱动程序版本为 555 或更高版本,并且您的 Docker Desktop 版本早于 4.33.0,则当您运行笔记本电脑或执行其他使用 GPU 的操作时,您可能会看到 CUDA(或其他)错误消息。要解决此问题,请更新到Docker Desktop 版本 4.33.0 或更高版本。

macOS 上的 Docker 容器构建失败#

在 macOS 上,您的 Docker 容器 在 Docker 管理的 VM 中运行。如果分配给 VM 的资源不足,则您的容器构建将失败,并且您会看到一条消息,指出磁盘已满。要解决此问题,请在 Docker 桌面应用程序的设置中,增加分配给 Docker VM 的系统资源(CPU、内存、磁盘)。

Docker 安装不正确或缺少 buildx#

如果项目未构建或行为异常,则 Docker 可能未正确安装在您的计算机上。您可能会在输出窗口或日志文件中看到提及 buildxfailed to read dockerfile 的错误消息。这些错误表明 Docker 未正确安装在您的计算机上。要解决此问题,请从您的计算机上卸载 Docker,并让 AI Workbench 为您安装,或按照Docker 的说明进行操作。

macOS 上的 Podman 容器构建失败#

在 macOS 上,您的 Podman 容器 在 Podman 管理的 VM 中运行。如果您在 macOS 上使用 Podman,则您的容器可能无法构建或启动。要解决此问题,请尝试停止并重新启动 AI Workbench,这将停止并重新启动 podman VM。您可以使用 podman machine 命令来操作 podman VM。对于 macOS 上的 Podman,在安装期间,AI Workbench 会创建一个名为 nvidia-workbench 的机器。

Podman 容器首次启动速度缓慢#

使用 --userns=keep-id 标志和本机 overlay 驱动程序的无根 Podman 容器 存在一个已知问题,即在容器启动期间速度非常慢。在某些情况下,容器在首次构建后可能需要几分钟才能启动。

当使用具有不同 ID 映射的新用户命名空间时,为了确保容器镜像在新用户命名空间内呈现正确的所有权,podman 会创建镜像的副本,并将每个文件的所有权更改为预期的用户,对于中等大小的镜像(>10GB),这需要几分钟时间。除了启动容器所需的时间外,在镜像复制过程中还存在podman 中的锁定错误,这会导致所有 podman 命令挂起和冻结,直到复制过程完成并且容器启动。

此问题的解决方法是为使用 --userns=keep-id 标志的无根 podman 容器使用 fuse-overlayfs 而不是本机 overlayfs,直到从用户命名空间为无根容器支持 idmapped 挂载。但是,由于 fuse-overlayfs 是一个 FUSE 文件系统,因此它本质上比本机 overlayfs 慢。此外,在从本机 overlayfs 切换到 fuse overlayfs 以及反之亦然之前,所有 podman 卷和镜像都需要通过 podman 系统重置命令删除。通过在 podman 的 storage.conf 文件中将其作为 mount_program 启用来启用 fuse-overlayfs。

但是,由于 fuse-overlayfs 引入的构建时间显着增加(在某些情况下,构建时间慢 2-5 倍),podman 容器继续将本机 overlayfs 与 AI Workbench 一起使用。相反,作为临时修复,podman 容器在构建后会短暂启动和停止,以便 podman 创建每个层的 ID 映射副本的过程(在此期间 podman 命令可能会挂起)作为容器构建流程的一部分而不是容器启动流程的一部分运行。这缓解了 podman 容器启动缓慢或容器启动失败的问题。描述该问题的相应消息将通过构建输出显示给用户。

需要重启时,远程位置连接失败#

如果您的远程位置具有 GPU,则有时驱动程序更新或其他系统更新需要您重启计算机,然后 AI Workbench 才能连接到它。要验证此问题,请 SSH 进入远程计算机并运行 nvidia-smi。如果您看到错误,请重启远程计算机以解决该问题。

在本地更新 AI Workbench 后,远程位置无法访问#

安装在本地计算机上的 AI Workbench 版本必须与安装在您的远程位置上的 AI Workbench 版本匹配。如果您在本地计算机上更新了 AI Workbench,但未更新远程位置,然后尝试连接到远程位置,则会发生错误。

您可能会在 AI Workbench 桌面应用程序中看到以下错误。

  • 连接到 <远程位置名称> 时出错

您可能会在您的日志文件中看到以下错误。

1{
2 "level":"error",
3 "error":"service version (0.34.0) does not match expected version (0.34.1)",
4 ...
5 "message":"AI Workbench Server Incompatible"
6 }

要解决此问题,请参阅在远程计算机上更新 AI Workbench

Ubuntu 24.04 安装或运行失败#

如果您在 Ubuntu 24.04 上安装和运行 AI Workbench,您可能会看到诸如 The SUID sandbox helper binary was found, but is not configured correctly 的错误。您可以尝试运行以下代码来解决此问题。

1sudo sysctl -w kernel.apparmor_restrict_unprivileged_unconfined=0

VS Code 显示启动失败,但窗口打开时没有错误#

AI Workbench 具有对 VS Code 的内置支持。有时 VS Code 可能需要很长时间才能在项目容器内安装和初始化。尝试再次打开 VS Code 应用程序。为了防止 AI Workbench 在 VS Code 启动失败时关闭容器,请首先启动另一个应用程序,例如 JupyterLab。

VS Code 无法找到或连接到容器#

如果 VS Code 无法找到或连接到容器,请验证您是否为 AI Workbench 正确配置了 VS Code。Podman 和 Windows 都需要配置。有关说明,请参阅AI Workbench 中的 VS Code

Windows 安装配置 WSL 失败#

AI Workbench 使用适用于 Linux 2 的 Windows 子系统 (WSL)。安装程序配置 WSL 并安装 AI Workbench WSL 发行版。如果安装期间出现问题,请尝试以下步骤

  • 如果有任何 Windows 更新挂起,请重启您的计算机。

  • 在 Windows PowerShell 中手动运行 wsl --update。如果您的互联网连接不稳定,您可能需要多次运行此命令。

  • 您的公司 VPN 可能会阻止您从 Windows 商店下载 NVIDIA-Workbench WSL 发行版。

  • 如果您有旧版本的 WSL,请手动安装 WSL 2

Windows 安装导入 WSL 发行版失败#

AI Workbench 安装程序可能无法导入 WSL 发行版。在这种情况下,您可能会看到以下错误消息。

1[error]  (configure-distro)         importDistro Command failed: wsl --import NVIDIA-Workbench "C:\ProgramData\NVIDIA Corporation\workbench" "C:\Users\<user name>\AppData\Local\Temp\ubuntu-jammy-wsl-amd64-wsl.rootfs.tar.gz" --version 2
2[info]   (configure-distro)         importDistroResponse { success: false, error: 'import-error' }
3[info]   (configure-distro)         installDistroResponse(): error installDistroResponse.error import-error
4[error]  (configure-distro-channel) Unknown Error

如果您的计算机上的虚拟化存在问题,则可能会发生这种情况。要解决此问题,请执行以下操作

  1. 打开 Windows 终端并运行 systeminfo

  2. 找到项目 Hyper-V 要求

    1. 如果显示 已检测到虚拟机监控程序…,请停止并联系AI Workbench 支持

    2. 否则,请确保在您的计算机上正确安装了虚拟化。按照 Microsoft 的说明进行操作,例如在 Windows 上启用虚拟化

Windows 安装未能安装 Docker Desktop#

如果您想使用 Docker 作为您的容器运行时,您需要 Docker Desktop。当您在 Windows 上安装 AI Workbench时,在大多数情况下,安装程序可以为您安装 Docker Desktop。如果您以没有管理员权限的用户身份安装 AI Workbench,则 AI Workbench 安装程序将无法安装 Docker Desktop。使用 Docker 文档中的说明将用户添加到 docker-users 组,然后重新启动 AI Workbench 安装程序。