开启电源并配置云节点#

既然已完成所需的安装后配置,现在可以开启电源并配置公有云节点。公有云节点的行为与本地设备略有不同——系统在首次开启电源后才会在目标公有云中进行配置。此外,必须首先开启电源并配置 director 节点——在 director 节点完全配置之前,无法在其管理的区域中部署公有云节点。与本地部署一样,在安装过程中可以通过 ssh 访问公有云节点。

如果您不确定给定节点的部署状态,请观看 /var/log/messages/var/log/node-installer 日志文件,以验证一切是否顺利进行。

  1. 开启云 director 的电源。

    它将进入 [ PENDING ] 状态,然后转换为 [ DOWN ] 状态(实例已启动)。

    1cmsh
    2power on us-west-2-director
    

    由于必须将数百 GB 的软件镜像数据同步到公有云,因此云 director 的配置可能需要两小时或更长时间。当云 director 转换为 [ UP ] 状态时,该过程完成。

  2. 同时开启四个公有云节点的电源。

    在云 director 完全配置后,启动其他四个公有云节点会快得多,因为它们的 базовый 镜像已与云 director 一起存储在目标区域中。

    % power on -n us-west-2-knode00[1-3],us-west-2-gpu-node001
    
  3. 运行 device then list 以确保所有公有云节点都处于 [ UP ] 状态。

    _images/cloud-node-01.png

    忽略任何尾随的 Status 输出。

  4. us-west-2-gpu-node001 上安装 NVIDIA 驱动程序。

    使用 ssh 以 root 用户身份登录,并从 AWS 中的节点运行所有后续命令。

    1ssh us-west-2-gpu-node001
    2apt install linux-headers-$(uname -r)
    3distribution=$(. /etc/os-release;echo $ID$VERSION_ID | sed -e ‘s/\.//g’)
    4wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-keyring_1.0-1_all.deb
    5dpkg -I cuda-keyring_1.0-1_all.deb
    6apt update
    7apt install -y cuda-drivers –no-install-recommends
    8rm cuda-keyring_1.0-1_all.deb
    9nvidia-smi
    
  5. 查找 nvidia-smi 的输出,如下所示,表示安装成功。

    软件版本和设备利用率可能存在差异。

     1+-----------------------------------------------------------------------------+
     2| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
     3|-------------------------------+----------------------+----------------------+
     4| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
     5| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
     6|                               |                      |               MIG M. |
     7|===============================+======================+======================|
     8|   0  Tesla T4            On   | 00000000:00:1E.0 Off |                    0 |
     9| N/A   36C    P8    15W /  70W |      2MiB / 15360MiB |      0%      Default |
    10|                               |                      |                  N/A |
    11+-------------------------------+----------------------+----------------------+
    12
    13+-----------------------------------------------------------------------------+
    14| Processes:                                                                  |
    15|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
    16|        ID   ID                                                   Usage      |
    17|=============================================================================|
    18|  No running processes found                                                 |
    19+-----------------------------------------------------------------------------+
    
  6. 注销公有云 GPU 节点,然后返回到本地头节点。

  7. 执行以下命令以捕获对公有云 GPU 节点所做的修改,这些修改将存在于此环境中配置的任何其他公有云 GPU 节点的镜像中。

    1cmsh
    2device
    3use us-west-2-gpu-node001
    4grabimage -w