在 Google Cloud Platform 上运行 TAO
Google Cloud Platform 提供了 Compute Engine,这是一种计算和托管服务,可让您在 Google 基础设施上创建和运行虚拟机。Compute Engine 提供 Linux 或 Windows VM。要运行 TAO,您需要设置 Linux VM。
有关设置 VM 的说明,请参阅官方 Compute Engine 说明。
从控制台中的VM 实例选项中选择一个 Compute Engine。
使用创建实例选项卡创建一个新实例
将实例的机器系列设置为
GPU
。将启动镜像设置为 Ubuntu,并使用以下选项
启动磁盘类型
:平衡持久磁盘大小 (GB)
> 200选择您的默认网络。
单击创建以启动 VM。
NVIDIA 建议使用由 NVIDIA Tesla A100 GPU 驱动的 A2 系列 VM 实例,以获得最佳训练性能。
设置实例后,记下从控制台创建的 VM 的 IP 地址。
设置 SSH 访问
从您打算用于登录到已创建 VM 的终端生成 SSH 密钥。您可以通过运行以下命令并按照提示操作来完成此操作
ssh-keygen -t rsa -b 4096
复制
~/.ssh/id_rsa.pub
文件的内容,并将其添加到实例中。使用公钥中的登录 ID 登录到实例的公共 IP 地址。
准备操作系统依赖项并检查 GPU
sudo apt-get update sudo apt-get -y upgrade sudo apt-get install -y pciutils lspci | grep -i nvidia
安装 NVIDIA GPU 驱动程序
sudo apt-get -y install nvidia-driver-535 sudo apt-get -y docker.io sudo apt-get install -y python3-pip unzip
安装 NVIDIA Container Toolkit
按照安装 NVIDIA Container Toolkit <https://docs.nvda.net.cn/datacenter/cloud-native/container-toolkit/latest/install-guide.html> 中给出的说明安装 nvidia-docker。
通过运行以下命令登录到 docker 注册表
nvcr.io
docker login nvcr.io
此处的用户名是
$oauthtoken
,密码是NGC API 密钥
。您可以从 NGC 网站设置此 API 密钥。
将
python-pip
升级到最新版本pip3 install --upgrade pip
安装 virtualenv wrapper
pip3 install virtualenvwrapper
配置 virtualenv wrapper
export VIRTUALENVWRAPPER_PYTHON=/usr/bin/python3 export WORKON_HOME=/home/ubuntu/.virtualenvs export PATH=/home/ubuntu/.local/bin:$PATH source /home/ubuntu/.local/bin/virtualenvwrapper.sh
注意您还可以将这些命令添加到 VM 的
~/.bashrc
中,以便为多个会话保留它们。
使用以下命令为启动器创建一个 virtualenv
mkvirtualenv -p /usr/bin/python3 launcher
注意您只需在实例中创建一次 virtualenv。当您重启实例时,只需运行步骤 3 中的命令,并使用以下命令调用相同的 virtualenv
workon launcher
使用以下命令在 virtualenv 中安装 jupyterlab
pip3 install jupyterlab
现在您已经创建了一个 virtualenv 并安装了所有依赖项,您现在可以下载并在笔记本上运行 TAO 示例了。以下说明假设您正在运行 TAO 计算机视觉示例。
使用以下命令从 NGC 下载并解压缩笔记本
wget --content-disposition https://api.ngc.nvidia.com/v2/resources/nvidia/tao/tao-getting-started/versions/5.0.0/zip -O tao-getting-started_5.0.0.zip unzip -u tao-getting-started_5.0.0.zip -d ./tao-getting-started_5.0.0 && cd ./tao-getting-started_5.0.0
使用以下命令启动 jupyter notebook
jupyter notebook --ip 0.0.0.0 --port 8888 --allow-root --NotebookApp.token=<notebook_token>
这将在 VM 中启动 jupyter notebook 服务器。要访问此服务器,请导航到
http://<dns_name>:8888/
,并在出现提示时输入用于启动 notebook 服务器的<notebook_token>
。dns_name
此处是您之前记下的 VM 的公共 IPv4 DNS。