在 NVIDIA Base Command Platform 上使用 Toolkit
NVIDIA Base Command™ Platform (BCP) 是一个综合平台,专为企业、数据科学家和 IT 团队设计,旨在加速 AI 计划的投资回报率 (ROI)。BCP 管理 AI 开发的整个生命周期,包括工作负载管理、资源共享,并提供带有集成监控和报告仪表板的图形用户界面和命令行 API。
在 BCP 上使用 NVIDIA MONAI Toolkit 具有以下优势
从单节点到多节点配置的无缝可扩展性
轻松访问高性能 GPU 资源
集成的数据管理和版本控制
用于团队协作项目的协作环境
本指南将引导您完成在 BCP 上设置和使用 NVIDIA MONAI Toolkit 的过程,从初始设置到运行您的第一个作业。
在继续之前,请确保您已被授予 BCP 平台的访问权限,并且是具有平台访问权限的组织或团队的成员。有关邀请用户、加入 NGC 组织或团队以及登录您的帐户的信息,请参阅 NVIDIA Base Command Platform 快速入门指南。
要启动 MONAI Toolkit 容器的 BCP 实例,我们将使用 NGC CLI。
NGC CLI(命令行界面)是 NVIDIA 提供的用于与 NGC 注册表交互的工具。它允许您从 NGC 注册表中拉取容器镜像、模型和其他资源,并将您自己的资源推送到您的私有注册表。
按照步骤 #5 安装 NGC CLI 并生成您的 NGC API 密钥,详情请见此处。在设置过程中,请确保您选择与您的 BCP 实例关联的相应组织和团队。
您现在可以在单节点或多节点上启动您的 MONAI Toolkit 实例,具体取决于您的 BCP 计算选项的规格。
创建作业以使用 MONAI Toolkit 启动服务器 - 快速入门
登录 NGC
登录 NGC 并选择与您的 BCP 访问权限关联的团队。登录后,您应该在左侧边栏上看到 Base Command 菜单。
访问作业子菜单
单击“作业”子菜单
创建新作业
接下来,您需要单击右上角的“创建作业”按钮。
设置节点类型和 ACE
您可以在此处选择启动作业所需的所有信息。我们将回顾一个示例作业,但请使用与您的用例相关的特定数据填写信息。
首先,选择“单节点”或“多节点”。在本例中,我们将使用单节点。
您需要选择将在其中运行实例的加速计算环境 (ACE)。
选择计算资源
下一步,选择您希望用于节点的计算资源。如果您是第一次使用 MONAI Toolkit,则单节点 A100 应该足以运行大多数或所有可用的 Notebook。
选择数据集
选择节点后,您可以选择任何您之前上传的数据集。在本例中,我选择了 BraTS21 数据集,并将挂载点设置为 /mount/data
。
设置结果挂载点
接下来,您需要设置结果挂载点。这将用于写出任何文件,或者在我们的例子中,一个日志文件,我们将在后续步骤中查看该文件以获取信息。
选择容器和暴露端口
接下来,您需要选择容器。在本例中,您将选择 nvidia/clara/monai-toolkit
并使用最新的标签,在本例中为 3.0
。
您还需要通过 HTTPS 暴露 8888 端口,以便我们可以访问 Jupyter Notebook 实例。
设置作业优先级和顺序
然后,您可以选择设置作业优先级和顺序。在这里,我们将保持默认设置 Normal
。
命名您的作业
接下来,是时候给您的作业命名了。使用一些有用的名称来提醒您此实例上正在运行的内容。您还将看到 ngc batch run
命令已使用上面所有字段填充。您可以在您之前设置的 CLI 上运行此命令并运行实例;但是,我们将使用 UI 启动实例。
启动您的作业
最后,您将能够启动您的作业!在屏幕顶部,您会找到一个绿色的“启动作业”按钮。单击此按钮将使用您在表单中输入的所有设置来启动具有这些配置的实例。
作业概览
您现在应该看到您的作业已排队,可以选择它以查看概览。此页面提供有关可用 GPU、CPU 核心、系统内存和 GPU 内存的信息。您还将有几个其他选项卡来提供有关您启动的实例的信息。
如果您选择“状态历史记录”选项卡,您将看到您的作业已排队。在我们访问服务器之前,我们需要等待作业处于“运行中”状态。这可能需要几分钟时间才能启动服务器。
服务器启动后,我们的下一步是检索外部 URL 以访问 Jupyter Notebook。
现在您已经可以访问 Jupyter Lab 实例,您将需要 Jupyter Lab token 才能访问您的 Notebook。
在包含有关您的实例的作业信息的页面中,单击“结果”选项卡。在这里,您应该看到一个名为 joblog.log
的文件。单击此文件以查看 MONAI Toolkit 容器的启动输出。您将在 Jupyter Lab 启动输出的末尾找到 token。复制 token=<token>
输出后的所有内容。您将在上一步的 Jupyter Lab 登录屏幕中输入此内容。
您现在已经启动了 MONAI Toolkit 容器并成功登录到 Jupyter Lab 实例。您现在应该看到 MONAI Toolkit 登陆页面。
您现在可以开始您的 MONAI Toolkit 之旅以及 Jupyter Lab 实例内的引导式体验。
当您完成使用 MONAI Toolkit 实例后,请务必记住关闭该实例以释放资源。以下是您可以执行此操作的方法
返回 BCP 仪表板并导航到“作业”选项卡。
在作业列表中找到与您的实例对应的作业。
单击作业条目右侧的“…”按钮,然后找到“Kill Job”(终止作业)。这将终止作业并释放它正在使用的资源。
请记住,NVIDIA 支持团队始终在那里为您提供在使用 NVIDIA Base Command Platform 和 MONAI Toolkit 时可能遇到的任何问题或疑问的帮助。
问:我可以在 MONAI Toolkit 中使用多节点实例吗?
答:是的,可以!该过程与我们在本指南中概述的过程基本相同,但您需要在设置期间选择“多节点”而不是“单节点”。当运行要求更高的工作负载(如 Auto3DSeg 或自监督学习)时,这尤其有用。
问:如果需要,如何打开其他端口?
答:就像您在设置期间为 Jupyter Lab 暴露了 8888 端口一样,您也可以以相同的方式暴露您需要的任何其他端口。只需在设置期间将它们添加到暴露端口列表中即可。
问:如何上传我自己的数据以与 MONAI Toolkit 一起使用?
答:您可以将您自己的数据集上传到 NGC。要查找更多信息,请阅读 Base Command Platform 用户指南中的“管理数据集”部分:https://docs.nvda.net.cn/base-command-platform/user-guide/index.html#managing-datasets。
问:如果我的作业卡在“已排队”状态,我该怎么办?
答:如果可用资源不足或队列中有更高优先级的作业,则作业可能会保持“已排队”状态。如果您的作业长时间保持此状态,请考虑联系您的管理员或支持人员寻求帮助。