开启电源并配置云节点#
既然已完成所需的安装后配置,现在可以开启电源并配置公有云节点。公有云节点的行为与本地设备略有不同——系统在首次开启电源后才会在目标公有云中进行配置。此外,必须首先开启电源并配置 director 节点——在 director 节点完全配置之前,无法在其管理的区域中部署公有云节点。与本地部署一样,在安装过程中可以通过 ssh 访问公有云节点。
如果您不确定给定节点的部署状态,请观看 /var/log/messages 和 /var/log/node-installer 日志文件,以验证一切是否顺利进行。
开启云 director 的电源。
它将进入 [ PENDING ] 状态,然后转换为 [ DOWN ] 状态(实例已启动)。
1cmsh 2power on us-west-2-director
由于必须将数百 GB 的软件镜像数据同步到公有云,因此云 director 的配置可能需要两小时或更长时间。当云 director 转换为 [ UP ] 状态时,该过程完成。
同时开启四个公有云节点的电源。
在云 director 完全配置后,启动其他四个公有云节点会快得多,因为它们的 базовый 镜像已与云 director 一起存储在目标区域中。
% power on -n us-west-2-knode00[1-3],us-west-2-gpu-node001
运行 device then list 以确保所有公有云节点都处于 [ UP ] 状态。
忽略任何尾随的
Status
输出。在 us-west-2-gpu-node001 上安装 NVIDIA 驱动程序。
使用
ssh
以 root 用户身份登录,并从 AWS 中的节点运行所有后续命令。1ssh us-west-2-gpu-node001 2apt install linux-headers-$(uname -r) 3distribution=$(. /etc/os-release;echo $ID$VERSION_ID | sed -e ‘s/\.//g’) 4wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-keyring_1.0-1_all.deb 5dpkg -I cuda-keyring_1.0-1_all.deb 6apt update 7apt install -y cuda-drivers –no-install-recommends 8rm cuda-keyring_1.0-1_all.deb 9nvidia-smi
查找
nvidia-smi
的输出,如下所示,表示安装成功。软件版本和设备利用率可能存在差异。
1+-----------------------------------------------------------------------------+ 2| NVIDIA-SMI 525.85.12 Driver Version: 525.85.12 CUDA Version: 12.0 | 3|-------------------------------+----------------------+----------------------+ 4| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | 5| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | 6| | | MIG M. | 7|===============================+======================+======================| 8| 0 Tesla T4 On | 00000000:00:1E.0 Off | 0 | 9| N/A 36C P8 15W / 70W | 2MiB / 15360MiB | 0% Default | 10| | | N/A | 11+-------------------------------+----------------------+----------------------+ 12 13+-----------------------------------------------------------------------------+ 14| Processes: | 15| GPU GI CI PID Type Process name GPU Memory | 16| ID ID Usage | 17|=============================================================================| 18| No running processes found | 19+-----------------------------------------------------------------------------+
注销公有云 GPU 节点,然后返回到本地头节点。
执行以下命令以捕获对公有云 GPU 节点所做的修改,这些修改将存在于此环境中配置的任何其他公有云 GPU 节点的镜像中。
1cmsh 2device 3use us-west-2-gpu-node001 4grabimage -w