故障排除#

如需集群支持,请联系您的 NVIDIA TAM。或者,您可以直接在 NVIDIA 企业支持门户 提交工单;对于非紧急咨询,请使用您入职流程期间创建的共享 Slack 频道。

注意

NVIDIA 无法访问您的命名空间。如果您需要 NVIDIA 调试您的命名空间或节点中的问题,NVIDIA 将请求您的批准(通过 TAM),然后 NVIDIA 将加入一个管理员 DL,这将授予 NVIDIA 管理员权限,用于访问您的命名空间或节点。

常见问题和解决方案#

本节将尝试涵盖您在集群上工作时可能遇到的常见问题,以及这些问题的解决方案。

问题

解决方案

您无法在集群上执行操作,例如操作、部门或项目呈灰色或缺失。

这可能是由于缺少作用域访问权限或权限受限导致的问题,请联系您的集群管理员以调整您的用户角色和作用域。有关用户角色和作用域的更多信息,请参阅概述部分。

或者,您可能尝试访问 DGX Cloud 中未启用或不支持的功能。有关更多信息,请参阅限制部分。

您收到与集群的连接存在问题错误消息。

验证您是否在已添加到集群访问允许列表的网络上。请联系您的集群管理员,获取有关验证此项的说明。如果您是集群管理员,并且需要将其他网络添加到允许列表,请联系您的 NVIDIA TAM。

如果在验证网络后,您仍然收到此类错误消息,例如在尝试运行工作负载时,请提交支持工单或与您的 TAM 合作进行进一步调查。

运行作业时,您收到 library not found 错误消息。

验证 LD_LIBRARY_PATH 环境变量是否设置正确。默认情况下,DGX Cloud 将以下路径添加到此变量:/usr/lib/x86_64-linux-gnu/usr/local/nvidia/lib64。根据容器或工作负载,此变量的正确路径可能有所不同。

如果需要,请在 pod 的清单文件中或使用 Run:ai 的+环境变量选项(位于配置工作负载环境时)覆盖环境变量。

使用 K8s API 或 kubectl 创建的 PVC 在 Run:ai 中不可见或无法挂载。

这是设计使然,您需要在 Run:ai 中创建一个数据源,然后选择现有的 PVC,选择您手动创建的 PVC。然后,您将能够在您 Run:ai 提交的工作负载中选择和挂载此 PVC。

在 CLI 中提交和/或删除的工作负载在 UI 中不可见,和/或反之亦然。

或者,工作负载在 UI 中停止,但在 CLI 中仍在运行,或反之亦然。

当集群的 Run:ai 版本与控制平面的 Run:ai 版本不同步时,可能会发生这种情况。请联系您的 NVIDIA TAM 以获得将集群更新到最新版本的帮助。

工作负载卡在PendingFailed状态。

发生这种情况的原因有很多,但最常见的原因是工作负载不符合 DGX Cloud 集群上设置的安全策略的要求,或者正在尝试使用 DGX Cloud 当前不支持的功能。

有关这些策略的更多信息,请参阅Kubernetes 的安全限制部分和/或限制部分。为了解决这些卡住的作业,我们建议使用 kubectl 命令从集群获取更详细的信息。

无法挂载额外的共享内存

使用 Run:ai 提交的工作负载默认在容器内部的 /dev/shm 挂载 16 GB 共享内存 (SHM)。尝试通过手动指定清单文件中 /dev/shm 的 SHM 大小来挂载额外内存将导致错误,因为该目录已由 Run:ai 预先分配。如果需要额外的 SHM,请联系您的 NVIDIA TAM。

在附加新的数据源后,工作负载卡在Pending状态。

检查工作负载的事件历史记录(位于显示详情菜单下)中是否存在 FailedVolumeBinding 事件。如果您发现该事件,请尝试在不附加数据源的情况下启动工作负载。

如果新的作业启动,请确保您已遵循推荐的存储类中的指导。如果您已遵循,则可能是集群的已分配存储容量已耗尽。请联系您的 TAM 以获得进一步指导。

Jupyter 工作空间工作负载可能会抛出 403 错误

当运行工作空间类型的 Jupyter 工作负载时,您在浏览器中尝试连接到 Jupyter 时可能会遇到 403 错误。Run:ai 日志可能会显示以下错误

阻止 具有 非本地 'Host' 请求。 如果 服务器 应该 可以通过 名称 访问, 请设置 ServerApp.allow_remote_access 禁用 检查。

No web browser found: Error('could not locate runnable browser')

Jupyter Server 2.14.2 is running at: [I 2024-11-18 22:35:25.737 ServerApp] https://127.0.0.1:0 [I 2024-11-18 22:35:25.737 ServerApp] http://127.0.0.1:0

要解决此问题,请确保您在您创建的环境运行时命令和参数部分中,将 jupyter-lab 作为运行时命令,并将以下运行时参数 --NotebookApp.base_url=/${RUNAI_PROJECT}/${RUNAI_JOB_NAME} --NotebookApp.token='' --ServerApp.allow_remote_access=true --allow-root --port=8888 --no-browser 填入。

带有新 PVC 的 pod 创建时间过长

如果这是首次为特定存储类配置 PVC,则卷的初始创建可能会有较长的延迟。您可能会在 pod 描述中看到如下错误

error: binding volumes: timed out waiting for the condition

rpc error: code = DeadlineExceeded desc = context deadline exceeded

这是一个瞬时错误,PVC 最终应被配置,pod 最终应变为就绪状态并处于“正在运行”状态。这是一次性惩罚,将来的启动应该会更快。

项目的命名空间在项目删除后仍然存在

这是 Run:ai 中的已知行为。如果不再需要命名空间,客户管理员可以使用 kubectl delete ns <the-orphan> 删除它,并替换为实际的命名空间。