开发系统

下表列出了开发 UCS Tools 的系统要求

平台

x86_64

操作系统

Ubuntu 22.04

GPU

支持 CUDA 的 GPU,iGPU 1,2

Helm

3.11

1(Alpha 版)仅限远程访问

2(Alpha 版)需要 Vulkan 支持(Intel Iris Graphics 540 或更高版本

这些说明要求您的系统上安装了 Ubuntu Server LTS 22.04。

安装 Ubuntu 操作系统

可以从 http://cdimage.ubuntu.com/releases/22.04/release/ 下载 Ubuntu Server。

有关安装 Ubuntu Server 的更多信息,请参阅 Ubuntu Server 安装指南。

安装 CUDA 驱动程序

CUDA 安装说明可从 https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=deb_local 获取。

安装 NVIDIA 驱动程序后,请重启系统并运行以下命令以验证 NVIDIA 驱动程序是否已加载

nvidia-smi

预期输出

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 4090        On  | 00000000:65:00.0 Off |                  Off |
|  0%   30C    P8               5W / 450W |    133MiB / 24564MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      1119      G   /usr/lib/xorg/Xorg                          107MiB |
|    0   N/A  N/A      1239      G   /usr/bin/gnome-shell                         13MiB |
+---------------------------------------------------------------------------------------+

安装 Docker CE

  1. 设置存储库并更新 apt 包索引

$ sudo apt-get update
  1. 安装软件包以允许 apt 通过 HTTPS 使用存储库

$ sudo apt-get install -y \
   apt-transport-https \
   ca-certificates \
   curl \
   gnupg-agent \
   software-properties-common
  1. 添加 Docker 的官方 GPG 密钥

$ curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
  1. 通过搜索指纹的最后 8 个字符,验证您现在是否拥有指纹为 9DC8 5822 9FC7 DD38 854A E2D8 8D81 803C 0EBF CD88 的密钥

$ sudo apt-key fingerprint 0EBFCD88

 pub   rsa4096 2017-02-22 [SCEA]
 9DC8 5822 9FC7 DD38 854A  E2D8 8D81 803C 0EBF CD88
uid           [ unknown] Docker Release (CE deb) <docker@docker.com>
sub   rsa4096 2017-02-22 [S]
  1. 使用以下命令设置稳定存储库

$ sudo add-apt-repository \
  "deb [arch=amd64] https://download.docker.com/linux/ubuntu \
  $(lsb_release -cs) \
  stable"
  1. 安装 Docker Engine - Community 更新 apt 包索引

$ sudo apt-get update
  1. 安装 Docker Engine

$ sudo apt-get install -y docker-ce docker-ce-cli containerd.io
  1. 通过运行 hello-world 镜像,验证 Docker Engine - Community 是否已正确安装

$ sudo docker run hello-world

有关如何安装 Docker 的更多信息,请访问 https://docs.docker.net.cn/install/linux/docker-ce/ubuntu/

安装 NVIDIA Container Toolkit

  1. 设置软件包存储库

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
     && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
     && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
           sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
           sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
  1. 更新软件包索引

sudo apt update
  1. 安装 NVIDIA Container Toolkit

sudo apt-get install -y nvidia-docker2
  1. 更新 Docker 默认运行时。

  2. 编辑 docker daemon 配置文件,添加以下行并保存文件

"default-runtime" : "nvidia"

示例

$ sudo nano /etc/docker/daemon.json

{
  "runtimes": {
       "nvidia": {
           "path": "nvidia-container-runtime",
          "runtimeArgs": []
       }
  },
  "default-runtime" : "nvidia"
}
  1. 现在执行以下命令以重启 docker daemon

sudo systemctl daemon-reload && sudo systemctl restart docker
  1. 验证 docker 默认运行时。

  2. 执行以下命令以验证 docker 默认运行时为 NVIDIA

$ sudo docker info | grep -i runtime

输出

Runtimes: nvidia runc
Default Runtime: nvidia

安装 Helm

执行以下命令以下载并安装 Helm 3.11.0

wget https://get.helm.sh/helm-v3.11.0-linux-amd64.tar.gz && \
tar -zxvf helm-v3.11.0-linux-amd64.tar.gz && \
sudo mv linux-amd64/helm /usr/local/bin/helm && \
rm -rf helm-v3.11.0-linux-amd64.tar.gz linux-amd64/

有关更多信息,请参阅 Helm 3.11.0 发行说明安装 Helm 指南