运行和监控作业 (Run:ai UI)#

NVIDIA NGC TensorFlow 容器针对 GPU 加速进行了优化,并包含一组经过验证的库,这些库能够启用和优化 GPU 性能。在此示例中,Run:ai UI 用于提交一个使用 NGC TensorFlow 容器的无人值守 ResNet-50 训练作业。

  1. 转到仪表板,然后选择 作业 的下拉菜单。

  2. 在页面右上角选择 + 新建作业

    _images/runai-ui-01.png
  3. 在“新建作业”屏幕中,输入所需信息,例如项目名称作业名称GPU 数量镜像名称命令。然后,选择 提交

    以下镜像和命令参数用于启动此训练作业

    • 镜像: nvcr.io/nvidia/tensorflow:22.01-tf1-py3

    • 参数: ./nvidia-examples/cnn/resnet.py --layers=50 --precision=fp16 -i 100 -u epoch

    _images/runai-ui-02.png
  4. 使用 作业 屏幕监控作业状态。

    _images/runai-ui-03.png
  5. 当作业完成时,“状态”应为 成功

    _images/runai-ui-04.png