AI Workbench 疑难解答#

使用本文档中的信息来解决您在使用 NVIDIA AI Workbench 时出现的问题。通常，您可以在日志和运行时文件中找到问题。

获取以下问题的帮助

由于项目规范文件错误，克隆项目失败 #

如果您尝试克隆项目但失败，您可能会看到诸如 Problem validating new project 的错误消息。要解决此问题，请验证您要克隆的项目中的规范文件是否具有有效的规范文件。

克隆项目反复失败 #

如果您尝试克隆项目，则可能会因网络故障等原因而失败。首次克隆失败后，项目将处于中间状态。首先，通过执行以下操作来清理项目。

在 ~/.nvwb/ 文件夹中找到文件 inventory.json。如果您使用的是 Windows，请在文件资源管理器中的 Linux\NVIDIA-Workbench 中查找。
检查该文件以查看是否有新项目的条目。
1. 从文件中删除新项目的条目。小心不要更改文件的 json 结构。
2. 转到 ~/.nvwb/project-runtime-info 文件夹，并完全删除新项目的文件夹。有关更多信息，请参阅AI Workbench 项目运行时文件。
再次克隆项目。

添加和删除无效软件包后，容器无法构建 #

在您向 AI Workbench 项目添加软件包后，有时您的容器将无法构建。如果您添加了无效的软件包，然后将其删除，则会陷入快速构建循环。要解决此问题，请执行以下操作

在 AI Workbench 桌面应用程序中打开您的项目。
打开环境页面。
使用 软件包 列表删除软件包（或确认已删除）。
重新构建您的项目。
- 要从桌面应用程序重新构建您的项目，请单击状态栏中的构建，然后单击 清除缓存并构建。
- 要从 CLI 重新构建您的项目，请使用 --full-build 标志来构建您的项目。

Windows 上的 CUDA 和其他错误 #

在 Windows 上，如果您的 NVIDIA GPU 驱动程序版本为 555 或更高版本，并且您的 Docker Desktop 版本早于 4.33.0，则当您运行笔记本电脑或执行其他使用 GPU 的操作时，您可能会看到 CUDA（或其他）错误消息。要解决此问题，请更新到Docker Desktop 版本 4.33.0 或更高版本。

macOS 上的 Docker 容器构建失败 #

在 macOS 上，您的 Docker 容器在 Docker 管理的 VM 中运行。如果分配给 VM 的资源不足，则您的容器构建将失败，并且您会看到一条消息，指出磁盘已满。要解决此问题，请在 Docker 桌面应用程序的设置中，增加分配给 Docker VM 的系统资源（CPU、内存、磁盘）。

Docker 安装不正确或缺少 buildx #

如果项目未构建或行为异常，则 Docker 可能未正确安装在您的计算机上。您可能会在输出窗口或日志文件中看到提及 buildx 或 failed to read dockerfile 的错误消息。这些错误表明 Docker 未正确安装在您的计算机上。要解决此问题，请从您的计算机上卸载 Docker，并让 AI Workbench 为您安装，或按照Docker 的说明进行操作。

在 macOS 上，您的 Podman 容器在 Podman 管理的 VM 中运行。如果您在 macOS 上使用 Podman，则您的容器可能无法构建或启动。要解决此问题，请尝试停止并重新启动 AI Workbench，这将停止并重新启动 podman VM。您可以使用 podman machine 命令来操作 podman VM。对于 macOS 上的 Podman，在安装期间，AI Workbench 会创建一个名为 nvidia-workbench 的机器。

Podman 容器首次启动速度缓慢 #

使用 --userns=keep-id 标志和本机 overlay 驱动程序的无根 Podman 容器存在一个已知问题，即在容器启动期间速度非常慢。在某些情况下，容器在首次构建后可能需要几分钟才能启动。

当使用具有不同 ID 映射的新用户命名空间时，为了确保容器镜像在新用户命名空间内呈现正确的所有权，podman 会创建镜像的副本，并将每个文件的所有权更改为预期的用户，对于中等大小的镜像（>10GB），这需要几分钟时间。除了启动容器所需的时间外，在镜像复制过程中还存在podman 中的锁定错误，这会导致所有 podman 命令挂起和冻结，直到复制过程完成并且容器启动。

此问题的解决方法是为使用 --userns=keep-id 标志的无根 podman 容器使用 fuse-overlayfs 而不是本机 overlayfs，直到从用户命名空间为无根容器支持 idmapped 挂载。但是，由于 fuse-overlayfs 是一个 FUSE 文件系统，因此它本质上比本机 overlayfs 慢。此外，在从本机 overlayfs 切换到 fuse overlayfs 以及反之亦然之前，所有 podman 卷和镜像都需要通过 podman 系统重置命令删除。通过在 podman 的 storage.conf 文件中将其作为 mount_program 启用来启用 fuse-overlayfs。

但是，由于 fuse-overlayfs 引入的构建时间显着增加（在某些情况下，构建时间慢 2-5 倍），podman 容器继续将本机 overlayfs 与 AI Workbench 一起使用。相反，作为临时修复，podman 容器在构建后会短暂启动和停止，以便 podman 创建每个层的 ID 映射副本的过程（在此期间 podman 命令可能会挂起）作为容器构建流程的一部分而不是容器启动流程的一部分运行。这缓解了 podman 容器启动缓慢或容器启动失败的问题。描述该问题的相应消息将通过构建输出显示给用户。

需要重启时，远程位置连接失败 #

如果您的远程位置具有 GPU，则有时驱动程序更新或其他系统更新需要您重启计算机，然后 AI Workbench 才能连接到它。要验证此问题，请 SSH 进入远程计算机并运行 nvidia-smi。如果您看到错误，请重启远程计算机以解决该问题。

在本地更新 AI Workbench 后，远程位置无法访问 #

安装在本地计算机上的 AI Workbench 版本必须与安装在您的远程位置上的 AI Workbench 版本匹配。如果您在本地计算机上更新了 AI Workbench，但未更新远程位置，然后尝试连接到远程位置，则会发生错误。

您可能会在 AI Workbench 桌面应用程序中看到以下错误。

连接到 <远程位置名称> 时出错

您可能会在您的日志文件中看到以下错误。

{
 "level":"error",
 "error":"service version (0.34.0) does not match expected version (0.34.1)",
 ...
 "message":"AI Workbench Server Incompatible"
 }

要解决此问题，请参阅在远程计算机上更新 AI Workbench。

Ubuntu 24.04 安装或运行失败 #

如果您在 Ubuntu 24.04 上安装和运行 AI Workbench，您可能会看到诸如 The SUID sandbox helper binary was found, but is not configured correctly 的错误。您可以尝试运行以下代码来解决此问题。

1sudo sysctl -w kernel.apparmor_restrict_unprivileged_unconfined=0

VS Code 显示启动失败，但窗口打开时没有错误 #

AI Workbench 具有对 VS Code 的内置支持。有时 VS Code 可能需要很长时间才能在项目容器内安装和初始化。尝试再次打开 VS Code 应用程序。为了防止 AI Workbench 在 VS Code 启动失败时关闭容器，请首先启动另一个应用程序，例如 JupyterLab。

VS Code 无法找到或连接到容器 #

如果 VS Code 无法找到或连接到容器，请验证您是否为 AI Workbench 正确配置了 VS Code。Podman 和 Windows 都需要配置。有关说明，请参阅AI Workbench 中的 VS Code。

Windows 安装配置 WSL 失败 #

AI Workbench 使用适用于 Linux 2 的 Windows 子系统 (WSL)。安装程序配置 WSL 并安装 AI Workbench WSL 发行版。如果安装期间出现问题，请尝试以下步骤

如果有任何 Windows 更新挂起，请重启您的计算机。
在 Windows PowerShell 中手动运行 wsl --update。如果您的互联网连接不稳定，您可能需要多次运行此命令。
您的公司 VPN 可能会阻止您从 Windows 商店下载 NVIDIA-Workbench WSL 发行版。
如果您有旧版本的 WSL，请手动安装 WSL 2。

Windows 安装导入 WSL 发行版失败 #

AI Workbench 安装程序可能无法导入 WSL 发行版。在这种情况下，您可能会看到以下错误消息。

[error]  (configure-distro)         importDistro Command failed: wsl --import NVIDIA-Workbench "C:\ProgramData\NVIDIA Corporation\workbench" "C:\Users\<user name>\AppData\Local\Temp\ubuntu-jammy-wsl-amd64-wsl.rootfs.tar.gz" --version 2
[info]   (configure-distro)         importDistroResponse { success: false, error: 'import-error' }
[info]   (configure-distro)         installDistroResponse(): error installDistroResponse.error import-error
[error]  (configure-distro-channel) Unknown Error

如果您的计算机上的虚拟化存在问题，则可能会发生这种情况。要解决此问题，请执行以下操作

打开 Windows 终端并运行 systeminfo。
找到项目 Hyper-V 要求。
1. 如果显示 已检测到虚拟机监控程序…，请停止并联系AI Workbench 支持。
2. 否则，请确保在您的计算机上正确安装了虚拟化。按照 Microsoft 的说明进行操作，例如在 Windows 上启用虚拟化。

Windows 安装未能安装 Docker Desktop #

如果您想使用 Docker 作为您的容器运行时，您需要 Docker Desktop。当您在 Windows 上安装 AI Workbench时，在大多数情况下，安装程序可以为您安装 Docker Desktop。如果您以没有管理员权限的用户身份安装 AI Workbench，则 AI Workbench 安装程序将无法安装 Docker Desktop。使用 Docker 文档中的说明将用户添加到 docker-users 组，然后重新启动 AI Workbench 安装程序。