开发设置#

本指南介绍了如何为 ACE 工作流程设置您的开发环境,包括安装 NVIDIA 驱动程序、Docker、NVIDIA Container Toolkit 以及使用您的 NGC API 密钥登录 NVIDIA 的容器注册表。

先决条件#

本指南假定您正在使用带有 NVIDIA GPU 的 Linux 系统。这些说明已在 Ubuntu 22.04 上测试过,但也可能适用于其他 Linux 版本和发行版。

安装 NVIDIA 驱动程序#

运行以下命令检查是否已安装 NVIDIA 驱动程序

nvidia-smi

如果找不到该命令,或者 Driver Version 低于 535,请安装 NVIDIA 驱动程序

sudo apt update
sudo apt install nvidia-driver-535

重启您的机器,并再次运行 nvidia-smi 以验证驱动程序是否已正确设置。

安装 NGC 并设置 API 密钥#

本文档使用来自 NVIDIA 容器注册表的 Docker 镜像。如果尚未完成,请创建 NGC 帐户并检索您的 API 密钥

运行以下命令检查您是否已安装 ngc CLI

ngc config set

如果找不到该命令,请使用您的 API 密钥安装 NGC CLI,然后再次运行 ngc config set

安装 UCS Tools#

您将需要 UCS Tools 来构建 UCS 应用程序。运行以下命令检查是否已安装它们

ucf_app_builder_cli -h

如果该命令不存在,请按照 安装 UCS Tools 中的步骤操作。

然后,同步所有仓库

ucf_app_builder_cli registry repo sync

安装 Docker#

运行以下命令检查是否已安装 Docker

docker -v

如果找不到该命令,请安装 docker

登录到 nvcr.io 容器注册表#

确保您的 docker 安装已登录到 nvcr.io 容器注册表

docker login nvcr.io -u \$oauthtoken

当提示输入密码时,输入您的 NGC API 密钥。如果密钥被识别,则命令输出 Login Succeeded

安装 NVIDIA container toolkit#

运行以下命令检查是否已安装 NVIDIA Container Toolkit

sudo dpkg -l | grep nvidia-container-toolkit

如果命令没有返回任何内容

要验证 NVIDIA Container Toolkit 是否已正确配置和安装,请运行以下命令

docker run --rm --gpus all nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi

注意

注意:如果您尚未配置 Docker 以非 root 用户身份运行,您可能需要使用 sudo 运行该命令。

此命令应输出有关 NVIDIA 驱动程序版本、GPU 和更多信息。