开发设置#
本指南介绍了如何为 ACE 工作流程设置您的开发环境,包括安装 NVIDIA 驱动程序、Docker、NVIDIA Container Toolkit 以及使用您的 NGC API 密钥登录 NVIDIA 的容器注册表。
先决条件#
本指南假定您正在使用带有 NVIDIA GPU 的 Linux 系统。这些说明已在 Ubuntu 22.04 上测试过,但也可能适用于其他 Linux 版本和发行版。
安装 NVIDIA 驱动程序#
运行以下命令检查是否已安装 NVIDIA 驱动程序
nvidia-smi
如果找不到该命令,或者 Driver Version
低于 535,请安装 NVIDIA 驱动程序
sudo apt update
sudo apt install nvidia-driver-535
重启您的机器,并再次运行 nvidia-smi
以验证驱动程序是否已正确设置。
安装 NGC 并设置 API 密钥#
本文档使用来自 NVIDIA 容器注册表的 Docker 镜像。如果尚未完成,请创建 NGC 帐户并检索您的 API 密钥。
运行以下命令检查您是否已安装 ngc
CLI
ngc config set
如果找不到该命令,请使用您的 API 密钥安装 NGC CLI,然后再次运行 ngc config set
。
安装 UCS Tools#
您将需要 UCS Tools 来构建 UCS 应用程序。运行以下命令检查是否已安装它们
ucf_app_builder_cli -h
如果该命令不存在,请按照 安装 UCS Tools 中的步骤操作。
然后,同步所有仓库
ucf_app_builder_cli registry repo sync
安装 Docker#
运行以下命令检查是否已安装 Docker
docker -v
如果找不到该命令,请安装 docker。
登录到 nvcr.io 容器注册表#
确保您的 docker 安装已登录到 nvcr.io
容器注册表
docker login nvcr.io -u \$oauthtoken
当提示输入密码时,输入您的 NGC API 密钥。如果密钥被识别,则命令输出 Login Succeeded
。
安装 NVIDIA container toolkit#
运行以下命令检查是否已安装 NVIDIA Container Toolkit
sudo dpkg -l | grep nvidia-container-toolkit
如果命令没有返回任何内容
要验证 NVIDIA Container Toolkit 是否已正确配置和安装,请运行以下命令
docker run --rm --gpus all nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi
注意
注意:如果您尚未配置 Docker 以非 root 用户身份运行,您可能需要使用 sudo
运行该命令。
此命令应输出有关 NVIDIA 驱动程序版本、GPU 和更多信息。