TAO v5.5.0

在 Google Cloud Platform 上运行 TAO

Google Cloud Platform 提供了 Compute Engine,这是一种计算和托管服务,可让您在 Google 基础设施上创建和运行虚拟机。Compute Engine 提供 Linux 或 Windows VM。要运行 TAO,您需要设置 Linux VM。

  1. 有关设置 VM 的说明,请参阅官方 Compute Engine 说明

  2. 从控制台中的VM 实例选项中选择一个 Compute Engine。

  3. 使用创建实例选项卡创建一个新实例

  4. 将实例的机器系列设置为 GPU

  5. 将启动镜像设置为 Ubuntu,并使用以下选项

    启动磁盘类型:平衡持久磁盘 大小 (GB) > 200

  6. 选择您的默认网络。

  7. 单击创建以启动 VM。

注意

NVIDIA 建议使用由 NVIDIA Tesla A100 GPU 驱动的 A2 系列 VM 实例,以获得最佳训练性能。

设置实例后,记下从控制台创建的 VM 的 IP 地址。

  1. 设置 SSH 访问

    1. 从您打算用于登录到已创建 VM 的终端生成 SSH 密钥。您可以通过运行以下命令并按照提示操作来完成此操作

      复制
      已复制!
                  

      ssh-keygen -t rsa -b 4096

    1. 复制 ~/.ssh/id_rsa.pub 文件的内容,并将其添加到实例中。

    2. 使用公钥中的登录 ID 登录到实例的公共 IP 地址。

  1. 准备操作系统依赖项并检查 GPU

    复制
    已复制!
                

    sudo apt-get update sudo apt-get -y upgrade sudo apt-get install -y pciutils lspci | grep -i nvidia


  2. 安装 NVIDIA GPU 驱动程序

    复制
    已复制!
                

    sudo apt-get -y install nvidia-driver-535 sudo apt-get -y docker.io sudo apt-get install -y python3-pip unzip


  3. 安装 NVIDIA Container Toolkit

    按照安装 NVIDIA Container Toolkit <https://docs.nvda.net.cn/datacenter/cloud-native/container-toolkit/latest/install-guide.html> 中给出的说明安装 nvidia-docker。

  4. 通过运行以下命令登录到 docker 注册表 nvcr.io

    复制
    已复制!
                

    docker login nvcr.io


    此处的用户名是 $oauthtoken,密码是 NGC API 密钥。您可以从 NGC 网站设置此 API 密钥。

  1. python-pip 升级到最新版本

    复制
    已复制!
                

    pip3 install --upgrade pip


  2. 安装 virtualenv wrapper

    复制
    已复制!
                

    pip3 install virtualenvwrapper


  3. 配置 virtualenv wrapper

    复制
    已复制!
                

    export VIRTUALENVWRAPPER_PYTHON=/usr/bin/python3 export WORKON_HOME=/home/ubuntu/.virtualenvs export PATH=/home/ubuntu/.local/bin:$PATH source /home/ubuntu/.local/bin/virtualenvwrapper.sh

    注意

    您还可以将这些命令添加到 VM 的 ~/.bashrc 中,以便为多个会话保留它们。


  4. 使用以下命令为启动器创建一个 virtualenv

    复制
    已复制!
                

    mkvirtualenv -p /usr/bin/python3 launcher

    注意

    您只需在实例中创建一次 virtualenv。当您重启实例时,只需运行步骤 3 中的命令,并使用以下命令调用相同的 virtualenv

    复制
    已复制!
                

    workon launcher


  5. 使用以下命令在 virtualenv 中安装 jupyterlab

    复制
    已复制!
                

    pip3 install jupyterlab


现在您已经创建了一个 virtualenv 并安装了所有依赖项,您现在可以下载并在笔记本上运行 TAO 示例了。以下说明假设您正在运行 TAO 计算机视觉示例。

  1. 使用以下命令从 NGC 下载并解压缩笔记本

    复制
    已复制!
                

    wget --content-disposition https://api.ngc.nvidia.com/v2/resources/nvidia/tao/tao-getting-started/versions/5.0.0/zip -O tao-getting-started_5.0.0.zip unzip -u tao-getting-started_5.0.0.zip -d ./tao-getting-started_5.0.0 && cd ./tao-getting-started_5.0.0

  2. 使用以下命令启动 jupyter notebook

    复制
    已复制!
                

    jupyter notebook --ip 0.0.0.0 --port 8888 --allow-root --NotebookApp.token=<notebook_token>

    这将在 VM 中启动 jupyter notebook 服务器。要访问此服务器,请导航到 http://<dns_name>:8888/,并在出现提示时输入用于启动 notebook 服务器的 <notebook_token>dns_name 此处是您之前记下的 VM 的公共 IPv4 DNS。

上一篇
下一篇 © 版权所有 2024, NVIDIA。 上次更新时间:2024 年 10 月 15 日。