NVIDIA DGX Cloud Run:ai 文档# DGX Cloud 上的 Run:ai 手册 1. 产品概述 1.1. 集群架构 1.2. 责任共担模型 1.2.1. NVIDIA 责任 1.2.2. 最终用户责任 1.3. 集群入口和出口 1.4. 集群用户范围和用户角色 1.4.1. 用户范围 1.4.1.1. Run:ai 部门 1.4.1.2. Run:ai 项目 1.4.2. 集群用户 1.4.2.1. 客户管理员角色和 NVIDIA 管理员角色 1.4.2.1.1. 客户管理员角色 1.4.2.1.2. NVIDIA 管理员角色 1.4.2.2. 客户用户角色 1.5. 后续步骤 2. 集群引导指南 2.1. 简介 2.1.1. DGX Cloud 中的角色 2.2. 管理员步骤 2.2.1. 访问 DGX Cloud Run:ai 集群 2.2.2. 访问 NGC 2.2.3. 访问 NVIDIA 企业支持门户 2.2.4. 在 Run:ai 中创建部门 2.2.5. 在 Run:ai 中创建项目 2.2.6. 在 Run:ai 中分配用户角色 2.3. 用户步骤 2.3.1. 创建环境 2.3.2. 创建数据源 2.3.3. 运行示例工作负载 2.3.3.1. 运行单节点 NCCL 测试 2.3.3.1.1. 先决条件 2.3.3.1.2. 说明 2.3.3.2. 运行多节点 NCCL 测试 2.3.3.2.1. 先决条件 2.3.3.2.2. 说明 2.3.3.3. (可选)运行单节点 NeMo 交互式工作负载 2.3.3.4. (可选)将数据下载到数据源 2.3.4. 设置 CLI 2.4. (可选)私有访问 2.4.1. AWS PrivateLink 2.4.1.1. 简介 2.4.1.2. 假设 2.4.1.3. 配置 2.4.1.3.1. 验证 2.4.1.3.2. PrivateLink 端点 2.4.1.3.3. DNS 2.4.1.4. 用法 2.4.1.5. 资源 2.4.1.5.1. 所需权限 2.5. 结论 3. 集群管理员指南 3.1. 集群交接 3.2. 访问您的集群 3.2.1. 访问 Run:ai UI 3.3. 管理用户 3.3.1. 创建用户 3.3.1.1. 在 Run:ai 中分配角色 3.3.1.2. 在 Run:ai 中创建访问规则 3.3.1.2.1. 示例:分配访问角色 3.4. 管理员集群设置 3.4.1. 部门 3.4.1.1. 修改默认部门 3.4.1.2. 创建部门 3.4.2. 项目 3.4.2.1. 创建项目 3.4.2.2. 编辑项目 3.4.2.3. 更新项目访问权限 3.4.3. 计算资源 3.4.4. 集群更新和升级 4. 集群用户指南 4.1. 登录您的集群 4.1.1. 访问 Run:ai UI 4.2. 了解您的角色和范围 4.2.1. 了解您的用户角色 4.3. 浏览您在 DGX Cloud 上的 Run:ai 环境 4.3.1. 概述 4.3.2. 部门和项目 4.3.2.1. 部门 4.3.2.1.1. 创建部门 4.3.2.2. 项目 4.3.2.2.1. 创建项目 4.3.2.2.2. 编辑现有项目 4.3.3. 工作负载 4.3.4. 环境 4.3.4.1. 创建新环境 4.3.4.2. 编辑环境 4.3.5. 计算资源 4.3.5.1. 创建新的计算资源 4.3.6. 存储 4.3.6.1. 数据源 4.3.6.1.1. PVC 4.3.6.1.2. Git 4.3.6.1.3. ConfigMap 4.3.6.2. 卷 4.3.7. 凭据 4.3.7.1. 访问您的 NGC Org 4.3.7.2. 设置您的 NGC API 密钥 4.3.7.3. 将 NGC 凭据添加到 Run:ai 集群 4.3.7.4. 添加 Git 凭据 4.3.8. 模板 5. CLI 高级用法 5.1. 访问 Run:ai CLI 5.1.1. CLI 先决条件 5.1.2. 下载 Run:ai CLI 5.1.3. 设置您的 Kubernetes 配置文件 5.2. 研究人员的 Kubernetes 用法 5.3. 管理员的高级 Kubernetes 用法 5.4. Kubernetes 的安全限制 5.5. 管理您的存储利用率 5.5.1. 卷保护 5.6. 通过 CLI 检索 Kubernetes 配置文件 5.7. 配置集群的入口/出口 CIDR 教程 1. 数据下载示例 1.1. 在训练工作负载中从 S3 下载数据 1.1.1. 先决条件和要求 1.1.2. 创建凭据 1.1.3. 创建数据源 1.1.4. 创建训练工作负载 1.1.5. 清理环境 1.2. 使用来自 Google Cloud Storage 的数据 1.2.1. 示例:使用 GCS 将数据复制到 Run:ai 中的 PVC 1.2.2. 示例:直接在 Google Cloud Services 中使用数据 1.2.3. 示例:从 Google BigQuery 读取数据 1.2.4. 使用服务帐户密钥的替代方案 1.3. 使用来自 Amazon S3 的数据 1.3.1. 示例:使用 S3 将数据复制到 Run:ai 中的 PVC 1.3.2. 示例:直接在 AWS Services 中使用数据 2. 交互式工作负载示例 2.1. 交互式 NeMo 工作负载作业 2.1.1. 先决条件和要求 2.1.2. 创建数据源 2.1.3. 创建工作区 2.1.4. 运行 Notebook 2.1.5. 将模型持久化到存储 2.1.6. 清理环境 2.2. RAPIDS 和 Polars 工作区 2.2.1. 先决条件和要求 2.2.2. 创建工作区 2.2.3. 下载 Polars Notebook 2.2.4. 运行 Polars Notebook 2.2.5. 清理环境 2.3. 在工作负载中运行 Visual Studio Code 2.3.1. 先决条件和要求 2.3.2. 通过本地工作站上的 CLI 创建工作区 2.3.3. 清理环境 2.4. 将 WandB 与工作区一起使用 2.4.1. 先决条件和要求 2.4.2. 创建凭据 2.4.3. 创建工作区 2.4.4. 在 Jupyter Notebook 中连接到 WandB 2.4.5. 清理环境 2.5. 将 BioNeMo 框架用于 ESM-2nv 数据预处理和模型训练 2.5.1. 先决条件和要求 2.5.2. 创建数据源 2.5.3. 为预处理创建交互式工作区 2.5.4. 使用工作区为 ESM-2nv 预处理数据 2.5.5. 预训练 2.5.5.1. Jupyter Notebook 中的单 GPU 训练 2.5.5.2. 多节点分布式预训练 3. 分布式训练工作负载示例 3.1. 分布式 PyTorch 训练作业 3.1.1. 要求 3.1.2. 创建自定义 Docker 容器 3.1.3. 创建数据源 3.1.4. 通过 UI 创建工作负载 3.1.5. 监控作业 3.1.6. 获取检查点 3.1.7. 清理环境 3.2. 将零配额项目用于较低优先级的工作负载 3.2.1. 要求 3.2.2. 通过 UI 创建最大配额项目 3.2.3. 通过 UI 创建零配额项目 3.2.4. 通过 UI 创建较低优先级的交互式工作负载 3.2.5. 通过 UI 创建较高优先级的训练工作负载 3.2.6. 清理环境 4. Nemo 端到端工作流示例 4.1. 要求 4.2. 初始设置 4.2.1. Hugging Face 帐户创建 4.2.2. 接受 Mixtral-8x7B 许可证 4.2.3. 创建 Weights & Biases 帐户 4.2.4. 创建 PVC 4.3. 使用 JupyterLab 创建训练助手 4.4. 数据准备 4.4.1. 脚本设置 4.4.2. 启动数据准备 4.5. 预训练 4.5.1. 设置 4.6. 推理部署 4.6.1. 向已部署模型发送请求 4.6.2. 清理 5. 推理示例 5.1. 使用 UI 5.1.1. 先决条件和要求 5.1.2. 创建环境 5.1.3. 可选:创建 PVC 数据存储 5.1.4. 创建工作负载 6. MLOps 集成示例 6.1. Argo Workflows 集成 6.1.1. 先决条件和要求 6.1.2. 安装 Argo Workflows CLI 6.1.3. 配置目标命名空间 6.1.4. 安装 Argo Workflows(仅限管理员) 6.1.5. Argo Workflows 基本用法 6.1.5.1. Hello World 6.1.5.2. Hello GPU 6.1.6. 访问 Argo Workflows Web 界面 6.1.7. 清理 6.1.8. 后续步骤 6.2. Ray 集群集成 6.2.1. 先决条件和要求 6.2.2. 部署 KubeRay Operator 6.2.3. 部署 KubeRay 集群 6.2.4. 提交 Ray 作业 6.2.4.1. 在 Head Pod 中执行 Ray 作业 6.2.4.2. 通过 Ray 作业提交 SDK 向 Ray 集群提交 Ray 作业 6.2.5. 清理 附录 更多详情 Amazon Elastic Fabric Adapters 利用自动挂载的 EFA 故障排除 选择退出 故障排除 常见问题和解决方法 限制 声明 注意 商标 版权 文档反馈