故障排除#
如需集群支持,请联系您的 NVIDIA TAM。或者,您可以直接在 NVIDIA 企业支持门户 提交工单;对于非紧急咨询,请使用您入职流程期间创建的共享 Slack 频道。
注意
NVIDIA 无法访问您的命名空间。如果您需要 NVIDIA 调试您的命名空间或节点中的问题,NVIDIA 将请求您的批准(通过 TAM),然后 NVIDIA 将加入一个管理员 DL,这将授予 NVIDIA 管理员权限,用于访问您的命名空间或节点。
常见问题和解决方案#
本节将尝试涵盖您在集群上工作时可能遇到的常见问题,以及这些问题的解决方案。
问题 |
解决方案 |
---|---|
您无法在集群上执行操作,例如操作、部门或项目呈灰色或缺失。 |
这可能是由于缺少作用域访问权限或权限受限导致的问题,请联系您的集群管理员以调整您的用户角色和作用域。有关用户角色和作用域的更多信息,请参阅概述部分。 或者,您可能尝试访问 DGX Cloud 中未启用或不支持的功能。有关更多信息,请参阅限制部分。 |
您收到与集群的连接存在问题错误消息。 |
验证您是否在已添加到集群访问允许列表的网络上。请联系您的集群管理员,获取有关验证此项的说明。如果您是集群管理员,并且需要将其他网络添加到允许列表,请联系您的 NVIDIA TAM。 如果在验证网络后,您仍然收到此类错误消息,例如在尝试运行工作负载时,请提交支持工单或与您的 TAM 合作进行进一步调查。 |
运行作业时,您收到 |
验证 如果需要,请在 pod 的清单文件中或使用 Run:ai 的+环境变量选项(位于配置工作负载的环境时)覆盖环境变量。 |
使用 K8s API 或 |
这是设计使然,您需要在 Run:ai 中创建一个数据源,然后选择现有的 PVC,选择您手动创建的 PVC。然后,您将能够在您 Run:ai 提交的工作负载中选择和挂载此 PVC。 |
在 CLI 中提交和/或删除的工作负载在 UI 中不可见,和/或反之亦然。 或者,工作负载在 UI 中停止,但在 CLI 中仍在运行,或反之亦然。 |
当集群的 Run:ai 版本与控制平面的 Run:ai 版本不同步时,可能会发生这种情况。请联系您的 NVIDIA TAM 以获得将集群更新到最新版本的帮助。 |
工作负载卡在Pending或Failed状态。 |
发生这种情况的原因有很多,但最常见的原因是工作负载不符合 DGX Cloud 集群上设置的安全策略的要求,或者正在尝试使用 DGX Cloud 当前不支持的功能。 有关这些策略的更多信息,请参阅Kubernetes 的安全限制部分和/或限制部分。为了解决这些卡住的作业,我们建议使用 |
无法挂载额外的共享内存 |
使用 Run:ai 提交的工作负载默认在容器内部的 |
在附加新的数据源后,工作负载卡在Pending状态。 |
检查工作负载的事件历史记录(位于显示详情菜单下)中是否存在 如果新的作业启动,请确保您已遵循推荐的存储类中的指导。如果您已遵循,则可能是集群的已分配存储容量已耗尽。请联系您的 TAM 以获得进一步指导。 |
Jupyter 工作空间工作负载可能会抛出 403 错误 |
当运行工作空间类型的 Jupyter 工作负载时,您在浏览器中尝试连接到 Jupyter 时可能会遇到 403 错误。Run:ai 日志可能会显示以下错误
或 或 要解决此问题,请确保您在您创建的环境的运行时命令和参数部分中,将 |
带有新 PVC 的 pod 创建时间过长 |
如果这是首次为特定存储类配置 PVC,则卷的初始创建可能会有较长的延迟。您可能会在 pod 描述中看到如下错误
或 这是一个瞬时错误,PVC 最终应被配置,pod 最终应变为就绪状态并处于“正在运行”状态。这是一次性惩罚,将来的启动应该会更快。 |
项目的命名空间在项目删除后仍然存在 |
这是 Run:ai 中的已知行为。如果不再需要命名空间,客户管理员可以使用 |