NGC 认证公有云

NGC on Google Cloud Platform 虚拟机

NGC on Google Cloud Platform 虚拟机

本 NGC on Google Cloud Platform 云指南介绍了如何在 Google Cloud Platform 上设置 NVIDIA GPU 云映像,并提供了 NVIDIA 虚拟机映像每个版本的发行说明。

NVIDIA 在 Google Cloud Platform (GCP) 上为配备 NVIDIA A100、V100 或 T4 GPU 的 GCP VM 实例提供 GPU 优化的 VMI。

对于熟悉 GCP 的用户,启动实例的过程非常简单,只需登录 GCP 并使用 Google Cloud Launcher 创建部署解决方案即可。部署所选的 NVIDIA GPU 优化映像后,您可以 SSH 进入您的 VM,并通过利用 NGC 目录中提供的各种 GPU 加速容器、预训练模型和资源,开始构建大量深度学习、机器学习和数据科学中的 AI 应用程序。

本文档提供了完成此操作的分步说明,包括如何使用 gcloud CLI。

1.1. 安全最佳实践

云安全始于 CSP 帐户的安全策略。有关如何为您的 CSP 配置安全策略,请参阅以下链接

用户必须遵循其 CSP 的安全指南和最佳实践,以保护其 VM 和帐户。

1.2. 先决条件

  • 您拥有一个 Google Cloud 帐户 - https://console.cloud.google.com/

  • 浏览 NGC 网站 并确定可用的 NGC 容器以及要在虚拟机实例 (VMI) 上运行的容器。
  • 如果您计划使用 CLI,则已安装 gcloud SDK。请参阅下面的设置说明。
  • Windows 用户:CLI 代码片段适用于 Linux 或 Mac OS X 上的 bash。如果您使用的是 Windows 并想按原样使用代码片段,则可以使用 适用于 Linux 的 Windows 子系统 并使用 bash shell(您将在 Ubuntu Linux 中)。

1.3. 开始之前

在开始在 Google Cloud Platform (GCP) 上使用 NVIDIA GPU 云映像之前,请务必熟悉本章中的信息。

1.3.1. 设置 SSH 密钥

Google Compute Engine 会自动生成和管理 SSH 密钥,用于登录您的实例(请参阅 Google Cloud 文档 连接到实例)。但是,为了方便在首次连接到 VM 实例时登录 NGC 容器注册表,您需要 -

  1. 生成您自己的 SSH 密钥(请参阅 创建新的 SSH 密钥 获取说明),然后
  2. 将它们添加到项目的元数据中(请参阅 添加或删除项目级公共 SSH 密钥 获取说明)。

如果您在启动和连接到 VM 实例之前未准备好 SSH 密钥,则最初将无法访问 NGC。在这种情况下,您需要

  1. 在连接到实例后,将自己添加到 docker 组。
    复制
    已复制!
                

    sudo usermod -aG docker $USER

  2. 重启会话。

1.3.2. 设置防火墙规则

NVIDIA 建议设置防火墙规则,以允许外部访问端口 443 (HTTPS)、8888 (DIGITS) 和任何其他可能需要的端口。这应在启动实例之前完成,以避免稍后设置任何防火墙规则时必须停止实例。

  1. 登录 https://console.cloud.google.com
  2. 验证您是否在正确的项目中。
  3. 单击“产品和服务”菜单图标,然后向下滚动到网络部分,然后单击VPC 网络->防火墙规则

    ui-menu-firewall-rules.png

  4. 单击创建防火墙规则
  5. 输入以下信息以指定要创建的防火墙规则。
    • 名称:NVIDIA 建议使用以下命名格式

      对于 HTTPS:“default-allow-https”

      对于 DIGITS:“default-allow-digits”

      您还可以为其他 DIGITS 版本创建规则,例如 DIGITS4

    • 流量方向:“入口”
    • 匹配时执行的操作:“允许”
    • 目标:“网络中的所有实例”
    • 源过滤器:“IP 范围”
    • 源 IP 范围: "0.0.0.0/0"
    • 协议和端口:“指定的协议和端口”,然后输入

      对于 HTTPS:“tcp:443”

      对于 DIGITS:“tcp:8888”

      您也可以输入其他 DIGITS 版本的端口

    安全警告

    在授予访问权限或通过互联网共享 AMI 之前,务必采取适当的预防措施和安全保护措施。默认情况下,与 AMI 实例的互联网连接被阻止。您全权负责启用和保护对 AMI 的访问。请参阅 Google Cloud Platform 指南以了解如何管理安全组。

  6. 单击创建

    您的新防火墙规则应出现在“防火墙规则”页面上。

1.4. 使用 GCP 控制台创建 NGC 认证虚拟机

1.4.1. 登录并创建 VM

  1. 登录 https://console.cloud.google.com
  2. 验证您是否在正确的项目中。
  3. 打开 Google Cloud Platform Marketplace 页面。

    单击“产品和服务”菜单图标,然后选择 Marketplace

  4. 搜索“nvidia”。
  5. 选择 NVIDIA 发布的 NVIDIA GPU 优化映像的三种类型之一。
  6. 在映像信息页面中,单击启动

    ui-launch-on-compute-engine.png

  7. 配置 NVIDIA GPU 云映像部署。
    1. 在“名称”中,输入您的新部署名称。
    2. 在“区域”中,选择要创建实例的区域(选择 具有适当 GPU 的区域)。
    3. 在“机器类型”部分中,单击自定义以打开自定义视图。
    4. GPU 部分下,选择 GPU 类型和 GPU 数量。

      分配内核 (vCPU) 和内存。建议的比例为:1 个 GPU : 10 个 vCPU : 60 GB 内存

    5. 在“启动磁盘”部分中,选择标准永久性磁盘。
    6. 根据需要对网络、防火墙和 IP 进行其他更改。

    ui-gcp-ngc-image.png

  8. 从页面底部单击部署。部署过程可能需要几分钟才能完成。

1.4.2. 连接到您的 VM 实例

  • 如果您仍在“部署”页面上,则可以单击 SSH 连接到您的实例。

  • 如果您不再位于“部署”页面上,则可以返回到您的实例并按如下方式连接。
  1. 单击“产品和服务”菜单图标,然后向下滚动到“Compute Engine”部分,然后单击 VM 实例
  2. 单击您列出的已部署实例旁边的 SSH,或单击您的已部署实例,然后在 VM 实例详细信息页面中单击 SSH

    ui-deployment-manager.png

启动/停止您的 VM 实例

从“Deployment Manager”->您的部署页面或从 Compute Engine->VM 实例页面中选择您的 GPU 实例。

顶部菜单允许您编辑、停止正在运行的实例或启动已停止的实例。

删除 VM 和关联资源

从“Deployment Manager”->您的部署页面或从 Compute Engine->VM 实例页面中选择您的 GPU 实例,然后单击删除

1.5. 使用 gcloud CLI 创建 NGC 认证虚拟机

本节介绍如何使用 gcloud CLI 创建 GPU 云实例。

此流程和本节中的代码片段适用于 Linux 或 Mac OS X。如果您使用的是 Windows,则可以使用 适用于 Linux 的 Windows 子系统 并使用 bash shell(您将在 Ubuntu Linux 中)。许多这些 CLI 命令可能会有明显的延迟。

有关使用 gcloud CLI 创建部署的更多信息,请参阅 使用 gcloud 或 API 创建部署

1.5.1. 安装和设置 gcloud CLI

按照 https://cloud.google.com/sdk/docs/quickstarts 上的说明进行操作。其中包括 Linux、Mac 和 Windows 的说明。

这些说明将引导您完成特定于平台的安装和初始 gcloud 登录。

至少对于 Mac,您将获得一个大型附加 gcloud 组件列表,例如 GO、Python 和 Java 的扩展。您现在可以使用默认值,稍后使用 gcloud components 命令来列出、安装或删除它们。

设置完成后,启动一个新的 shell,因为您的环境已更新。

1.5.2. 设置实例选项

创建自定义 GPU 实例时,您需要指定以下选项。
选项 [1]注释
<实例名称>您选择的名称。例如“my-ngc-instance”必须全部为小写,且不含空格。允许使用连字符和数字。
--project“<我的项目 ID>”

这是将在其中创建 VM 的项目。

使用

gcloud projects list

查看此字段要使用的项目 ID。

--zone

包含 GPU 的以下区域之一

“us-west1-b”

“us-east1-c”

“us-east1-d”

“europe-west1-b”

“europe-west1-d”

“asia-east1-a”

“asia-east1-b”

选择离您最近且具有您要使用的 GPU 的区域。
--machine-type

以下之一

“custom-10-61440”(适用于 1 个 P100 或 V100)

“custom-20-122880”(适用于 2 个 P100)

“custom-40-212992”(适用于 4 个 P100)

“custom-80-491520”(适用于 8 个 V100)

VM 的 vCPU/内存配置,格式为“custom-<#vCPUs>-<memory MB>”。

建议的比例为 1 个 GPU : 10 个 vCPU : 60 GB 内存

--subnet“default”,或要使用的 VPC 网络的名称
--metadata“ssh-keys=<用户 ID>:ssh-rsa <ssh 密钥> <用户电子邮件>”
--maintenance-policy

“TERMINATE”

当 Google 对主机执行维护时,如何处理您的实例
--service-account

附加到实例的 Compute Engine 身份。

使用

复制
已复制!
            

gcloud iam service-accounts list

查看您的帐户的电子邮件。

--scope

“https://www.googleapis.com/auth/devstorage.read_only”,

“https://www.googleapis.com/auth/logging.write”,

“https://www.googleapis.com/auth/monitoring.write”,

“https://www.googleapis.com/auth/servicecontrol”,

“https://www.googleapis.com/auth/service.management.readonly”,

“https://www.googleapis.com/auth/trace.append”

默认值(推荐)。指定您的实例的权限。
--accelerator

nvidia-tesla-p100,count=[1,2,4]

要附加的 GPU 以及数量
--min-cpu-platform

“Intel Broadwell”

(对于 P100 实例)

--image最新的 NVIDIA GPU 云映像的名称(请参阅 NGC GCP VMI 发行说明 以获取当前名称。)
--image-project“nvidia-ngc-public”NVIDIA GPU 云映像所在的项目名称
--boot-disk-size32
--boot-disk-type“pd-standard”
--boot-disk-device-name您选择的名称建议使用与 VM 实例相同的名称,以便于关联

1.5.3. 启动您的 VM 实例

使用 https://github.com/nvidia/ngc-examples/tree/master/ncsp 上提供的 Python 脚本来创建您的自定义 GPU 实例。您也可以输入以下内容,使用上一节中收集的信息

复制
已复制!
            

gcloud compute \ --project "<project-id>" \ instances create "<instance-name>" \ --zone "<zone>" \ --machine-type "<vCPU-mem-config>" \ --subnet "<subnet-name>" \ --metadata "<your-public-ssh-key>" \ --maintenance-policy "<maintenance-policy>" \ --service-account "<service-account-email>" \ --scopes "https://www.googleapis.com/auth/devstorage.read_only","https://www.googleapis.com/auth/logging.write","https://www.googleapis.com/auth/monitoring.write","https://www.googleapis.com/auth/servicecontrol","https://www.googleapis.com/auth/service.management.readonly","https://www.googleapis.com/auth/trace.append" \ --accelerator type=<accelerator-type> \ --min-cpu-platform "<CPU-platform>" \ --image "<nvidia-gpu-cloud-image>" \ --image-project "<project-name>" \ --boot-disk-size "32" \ --boot-disk-type "pd-standard" \ --boot-disk-device-name "<boot-disk-name>"

1.5.4. 连接到您的 VM 实例

(在 Mac 或 Linux 上使用 CLI。Windows 用户:在 Windows PowerShell 上使用 OpenSSH on Windows PowerShell 或使用 适用于 Linux 的 Windows 子系统

如果您运行了 https://github.com/nvidia/ngc-examples/tree/master/ncsp 中的脚本,则应已连接到您的实例。否则,运行 ssh 以连接到您的 GPU 实例,或输入以下 gcloud 命令。

命令语法:

复制
已复制!
            

gcloud compute --project "<project-id>" ssh --zone "<zone>" "<instance-name>"


有关连接到 GPU 实例的更多信息,请参阅 https://cloud.google.com/compute/docs/instances/connecting-to-instance

停止/停止您的 VM 实例

实例运行后,您可以停止和(重新)启动您的实例。

停止

复制
已复制!
            

gcloud compute instances stop <instance-name>


启动或重启

复制
已复制!
            

gcloud compute instances start <instance-name> <zone>

访问 GPU 虚拟机中的 Jupyter Notebook

访问您在 Google Cloud 虚拟机中创建或从 NGC 目录下载的 Jupyter Notebook 非常简单直接。

按照以下步骤配置您的虚拟机实例,使其具有正确的网络设置,以便能够在您的 VM 上运行 JupyterLab 服务器,并通过本地计算机上的浏览器访问 Jupyter Notebook。

  1. 按照上面列出的步骤在 Google Cloud 上创建 NGC 认证虚拟机实例。(链接到上面的“使用 GOOGLE CLOUD 控制台创建 NGC 认证虚拟机”部分)请参阅 使用 GCP 控制台创建 NGC 认证虚拟机
  2. 创建静态外部 IP 地址。

    当您从本地浏览器访问 Jupyter Notebook 时,此静态外部 IP 地址将用作主机名。(示例:http://<外部 IP 地址>:8080)

    1. 导航到“网络”(从菜单)→“VPC 网络”→“外部 IP 地址”。

      ui-create-vpc-networks.png

    2. 找到您创建的虚拟机实例,并将类型从“临时”更改为“静态

      ui-external-ip-addresses.png

    3. 复制相应“外部地址”列中的外部 IP 以供稍后使用。
  3. 导航到“网络”(从菜单)→“VPC 网络”→“防火墙规则”,以创建具有以下参数的新防火墙规则(如果您已创建防火墙规则,则将新规则添加到现有 VPC)。
    • 名称:<输入防火墙名称>
    • 目标:网络中的所有实例
    • 源 IP 范围: 0.0.0.0/0
    • 协议和端口:选择“指定的协议和端口”选项。tcp: 8080 <您可以更改任何其他端口号>

    ui-create-firewall-rule.png

就这样!现在,您已准备好创建和编辑虚拟机实例中的 Jupyter Notebook。

现在,您可以从 NGC 中拉取任何容器,并从容器内访问 Jupyter Notebook。

在运行容器时,请确保包含您在创建 VPC 时为 JupyterLab 配置的端口(在本示例中,使用的端口为 8080)

例如

复制
已复制!
            

$ docker run --gpus '"device=1"' --rm -it \ -p 8080:8080 \ -p 6006:6006 \ --shm-size=1g \ --ulimit memlock=-1 \ --ulimit stack=67108864 \ --name bert_gcp \ $ docker pull nvcr.io/nvidia/tensorflow:20.08-tf1-py3


现在,您可以通过在本地计算机上的任何浏览器上导航到 https://<externalip>:8080 来访问 Google Cloud 虚拟机中的 Jupyter Notebook。(URL 中要包含的外部 IP 与您在步骤 2c 中记录的外部 IP 相同)

ui-jupyter-notebook.png

1.7. GCP 虚拟机的持久数据存储

GCP 建议对 Compute Engine 存储使用永久性 SSD 磁盘。建议至少使用 1 TB 的存储空间来存储深度学习数据集。但是,可以使用更大的磁盘或软件 RAID(使用 mdadm)来创建具有多个 SSD 永久性磁盘的卷,以实现 GCP 在 Compute Engine 实例上支持的最大 性能。请参阅 说明,了解如何在本地磁盘上设置软件 RAID。永久性 SSD 磁盘也可以使用相同的说明设置为软件 RAID。

1.7.1. 使用 GCP 控制台创建数据磁盘

您可以从 GCP 控制台创建永久性 SSD 数据集磁盘,如下所示。

  1. 登录到 Google Cloud Platform
  2. 创建 SSD 磁盘。
    1. 单击左侧导航窗格中的 Compute Engine->磁盘
    2. 从页面顶部单击创建磁盘

      ui-create-disk.png

    3. 指定以下内容,然后在完成后单击创建
      • 区域:选择与您创建的 VM 实例相同的区域。
      • 磁盘类型:SSD 永久性磁盘
      • 源类型:无(空白磁盘)
      • 大小:至少 1024 GB

      如果您选择提供自己的加密密钥,则必须提供一个以 RFC 4648 标准 base64 编码的 256 位字符串给 Compute Engine。请参阅 客户提供的加密密钥,了解有关如何为您的所有操作全局提供自定义加密密钥的详细信息。

  3. 将磁盘附加到 VM 实例。
    1. 转到 Compute Engine->VM 实例页面。
    2. 从列表中单击您的 VM 实例。
    3. 单击停止

      您必须停止正在运行的 VM 实例,因为在实例运行时无法执行更改。

    4. 单击编辑
    5. 向下滚动到附加磁盘,然后单击 + 添加项
    6. 在“名称”下,选择您创建的且要附加到 VM 实例的磁盘。
    7. 单击保存
    8. 启动 VM 实例。

1.7.2. 使用 gcloud CLI 创建数据磁盘

  1. 使用以下命令创建磁盘。
    复制
    已复制!
                

    $ gcloud compute disks create ngc-ssd --zone <zone> --description “<your-description>” --type=pd-ssd --size=1000GM

  2. 使用以下命令将磁盘附加到 VM 实例。
    复制
    已复制!
                

    $ gcloud compute instances attach-disk <instance-name> --disk ngc-ssd --zone <zone>

1.7.3. 删除数据磁盘

请注意,一旦删除永久性 SSD 磁盘,您将无法撤消删除。

gcloud CLI

复制
已复制!
            

$ gcloud compute instances detach-disk <instance-name> --disk ngc-ssd --zone <zone>

GCP 控制台

  1. Compute Engine->磁盘页面中单击要删除的磁盘。
  2. 在页面顶部,单击删除
  3. 在“删除磁盘”确认对话框中单击删除

NVIDIA 在 Google Cloud Platform 上提供针对 NVIDIA® Volta™ GPU 优化的定制 NVIDIA 虚拟机映像。在此实例上运行 NVIDIA GPU 云容器可为深度学习作业提供最佳性能。

请参阅 NGC with Google Cloud Platform 设置指南,了解有关设置和使用 VMI 的说明。

NVIDIA AI Enterprise

信息

NVIDIA AI Enterprise 是一套安全、端到端、云原生的 AI 软件套件,使组织能够解决新的挑战,同时提高运营效率。它加速了数据科学管道,并简化了预测性 AI 模型的开发、部署和管理,以自动化基本流程并从数据中快速获得洞察力。它拥有广泛的全栈软件库,包括 AI 解决方案工作流程、框架、预训练模型和基础设施优化。全球企业支持和定期安全审查确保业务连续性,并确保 AI 项目成功并保持在正轨上。

借助 NVIDIA AI Enterprise,客户可以获得以下支持和访问权限

  • NVIDIA AI 工作流程,预先打包的参考应用程序,包括 Helm Charts、Jupyter Notebook 和文档,可快速实现智能虚拟助手、音频转录和网络安全数字指纹识别等联系中心的生产。仅在 NVIDIA AI Enterprise 订阅中可用。
  • 用于 AI 可解释性的未加密预训练模型,用于理解模型权重和偏差,以及更快的调试和自定义。仅在 NVIDIA AI Enterprise 订阅中可用。
  • 用于加速 AI 开发的框架和工具(PyTorch、TensorFlow、NVIDIA RAPIDS、TAO Toolkit、TensorRT 和 Triton 推理服务器)。
  • 特定于医疗保健的框架和应用程序,包括 NVIDIA Clara MONAI 和 NVIDIA Clara Parabricks。
  • NVIDIA AI Enterprise 包括对 NGC 公共目录上发布的所有标记为“NVIDIA AI Enterprise Supported”的 NVIDIA AI 软件的支持。超过 50 个预训练模型、框架和开发工具。
  • NVIDIA AI Enterprise Marketplace 产品还包括 VMI,它为轻松访问上述 NVIDIA AI Enterprise 软件提供了标准的优化运行时,并确保云和本地基础设施之间的开发兼容性。一次开发,随处运行。

填写此处的表格,联系 NVIDIA 了解有关 Google Cloud 上的 NVIDIA AI Enterprise 的更多信息以及私人定价。

要开始使用,请参阅 Google Cloud Marketplace 上的 NVIDIA AI Enterprise 快速入门指南

发行说明

版本 24.12.1-NVAIE 5.2

  • Ubuntu Server 22.04 LTS (x86)
  • NVIDIA vGPU 驱动程序 550.127.05
  • Docker CE 27.4.0
  • NVIDIA Container Toolkit 1.17.3-1
  • GCP CLI(最新版本)
  • Miniconda
  • JupyterLab(最新版本)和核心 Jupyter 包
  • NGC CLI 3.56.0
  • Git、Python3 和 pip

版本 24.11.2-NVAIE 5.2

  • Ubuntu Server 22.04 LTS (x86)
  • NVIDIA vGPU 驱动程序 550.127.05
  • Docker CE 27.3.1
  • NVIDIA Container Toolkit 1.17.1-1
  • GCP CLI(最新版本)
  • Miniconda
  • JupyterLab(最新版本)和核心 Jupyter 包
  • NGC CLI 3.54.0
  • Git、Python3 和 pip

版本 24.07.3-NVAIE 5.1

  • Ubuntu Server 22.04 (x86)
  • NVIDIA vGPU 驱动程序 550.90.07
  • Docker-CE 26.1.4
  • NVIDIA Container Toolkit 1.15.0-1
  • 最新 GCP CLI
  • Miniconda
  • 最新 JupyterLab 和其他 Jupyter 核心包
  • NGC CLI 3.43.0
  • Git、Python3-PIP

版本 24.03-NVAIE 5.0

  • Ubuntu Server 22.04 (x86)
  • NVIDIA vGPU 驱动程序 550.54.14
  • Docker-CE 26.0.0
  • NVIDIA Container Toolkit 1.14.6-1
  • 最新 GCP CLI

  • Miniconda

  • 最新 JupyterLab 和其他 Jupyter 核心包
  • NGC CLI 3.41.1
  • Git、Python3-PIP

版本 24.01-NVAIE 4.2

  • Ubuntu Server 22.04 (x86)
  • NVIDIA vGPU 驱动程序 535.154.05
  • Docker-CE 25.0.3
  • NVIDIA Container Toolkit 1.14.5-1
  • 最新 GCP CLI

  • Miniconda

  • 最新 JupyterLab 和其他 Jupyter 核心包
  • NGC CLI 3.38
  • Git、Python3-PIP

版本 23.11-NVAIE 4.1

  • Ubuntu Server 22.04 (x86)
  • NVIDIA vGPU 驱动程序 535.129.03
  • Docker-CE 24.0.7
  • NVIDIA Container Toolkit 1.14.3-1
  • 最新 GCP CLI

  • Miniconda

  • 最新 JupyterLab 和其他 Jupyter 核心包
  • NGC CLI 3.22.0
  • Git、Python3-PIP

版本 23.09.2-NVAIE 4.0

  • Ubuntu Server 22.04
  • NVIDIA AI Enterprise Catalog 访问脚本
  • NVIDIA vGPU 驱动程序 535.54.03 (v16.0)
  • Docker-CE 24.0.5
  • NVIDIA Container Toolkit 1.13.5
  • NGC CLI 3.22.0

  • Miniconda

  • JupyterLab(在 miniconda 中)

版本 22.12-NVAIE 3.0

  • Ubuntu Server 20.04
  • NVIDIA vGPU 驱动程序 525.60.13
  • Docker-ce 20.10.21
  • NVIDIA Container Toolkit 1.11.0-1
  • Google Cloud CLI 411.0.0
  • NGC CLI 3.10.0
  • Miniconda 22.9.0
  • JupyterLab(在 conda base env 中)3.5.01
  • Git 2.25.1
  • NVIDIA AI Enterprise 访问脚本

NVIDIA Riva VMI

信息

NVIDIA® Riva 是一个 GPU 加速的软件开发工具包 (SDK),用于构建和部署完全可定制的实时多语言语音和翻译 AI 管道,包括自动语音识别 (ASR)、神经机器翻译 (NMT) 和文本转语音 (TTS)。Riva 提供世界一流、开箱即用、准确的转录和翻译以及引人入胜的专业声音。它可以部署在本地、任何云环境、嵌入式系统和边缘。

借助 NVIDIA Riva,客户可以针对不同的语言、口音、领域、词汇和上下文进行自定义,以针对其用例实现最佳准确性,以及所需的品牌声音和语调。与现有技术相比,它可以为数十万个输入流提供一致的体验,并具有更高的推理性能。为了加速构建基于语音 AI 的 AI 解决方案,Riva 为音频转录和智能虚拟助手提供预先打包的 AI 工作流程,其中包括预训练模型和资源,例如 Helm Charts、Jupyter Notebook 和文档。

Riva 是 NVIDIA AI Enterprise 软件平台的优质版本,对于 NVIDIA A100 等高性能 GPU,每 GPU 小时收费 60 美元。联系 NVIDIA 获取替代 GPU 选项或私人优惠的特殊定价。

发行说明

版本 24.05

  • Ubuntu Server 22.04 (x86)
  • NVIDIA GRID 驱动程序 550.54.14 (vGPU 17.0)
  • Docker-ce 26.1.1
  • NVIDIA Container Toolkit 1.15.0-1
  • 最新 Google Cloud SDK
  • 最新 Miniconda 和 JupyterLab
  • NGC CLI 3.41.4

版本 2023.06.2-riva

  • Ubuntu Server 22.04
  • NVIDIA vGPU 驱动程序 525.60.13
  • Docker-CE 24.0.2

  • NVIDIA Container Toolkit 1.11.0-1
  • GCP CLI
  • NGC CLI 3.22.0

  • Miniconda 23.5.0
  • JupyterLab(在 conda base env 中)34.0.2
  • Git 2.34.1

NVIDIA GPU 优化 VMI

信息

NVIDIA GPU 优化 VMI 是一个虚拟机映像,用于加速您的机器学习、深度学习、数据科学和 HPC 工作负载。使用此 AMI,您可以在几分钟内启动一个 GPU 加速的 Compute Engine VM 实例,其中预装了 Ubuntu OS、GPU 驱动程序、Docker 和 NVIDIA 容器工具包。

此外,此 VMI 还提供对 NVIDIA NGC 目录的轻松访问,NGC 目录是 GPU 优化软件的中心,用于拉取和运行性能调整、测试和 NVIDIA 认证的 docker 容器。NGC 提供对容器化 AI、数据科学和 HPC 应用程序、预训练模型、AI SDK 和其他资源的免费访问,使数据科学家、开发人员和研究人员能够专注于构建解决方案、收集见解和交付业务价值。

此 GPU 优化 VMI 免费提供给开发人员,并提供企业支持选项。有关企业支持的更多信息,请访问 NVIDIA AI Enterprise

发行说明

版本 24.10.1

  • Ubuntu Server 22.04 LTS (x86)
  • NVIDIA TRD 驱动程序 550.127.05
  • Docker CE 27.3.1
  • NVIDIA Container Toolkit 1.16.2-1
  • GCP CLI(最新版本)
  • Miniconda(最新版本)
  • JupyterLab(最新版本)和核心 Jupyter 包
  • NGC CLI 3.53.0
  • Git、Python3 和 pip

版本 24.05

  • Ubuntu Server 22.04 (x86)
  • NVIDIA TRD 驱动程序 550.54.15
  • Docker-ce 26.1.2
  • NVIDIA Container Toolkit 1.15.0
  • 最新 GCP CLI
  • Miniconda
  • 最新 JupyterLab 和其他 Jupyter 核心包
  • NGC CLI 3.41.4
  • Git、Python3-PIP

版本 24.03.4

  • Ubuntu Server 22.04 (x86)
  • NVIDIA TRD 驱动程序 535.161.07
  • Docker-ce 26.0.0
  • NVIDIA Container Toolkit 1.14.6
  • 最新 GCP CLI
  • Miniconda
  • 最新 JupyterLab 和其他 Jupyter 核心包
  • NGC CLI 3.40.0
  • Git、Python3-PIP

版本 23.09.1

  • Ubuntu Server 22.04 (x86)
  • NVIDIA TRD 驱动程序 535.54.03
  • Docker-ce 24.0.6
  • NVIDIA Container Toolkit 1.13.5
  • 最新 GCP CLI
  • Miniconda
  • 最新 JupyterLab 和其他 Jupyter 核心包
  • NGC CLI 3.22.0
  • Git、Python3-PIP

版本 23.02.0

  • Ubuntu Server 20.04
  • NVIDIA 驱动程序 525.85.12
  • Docker-ce 20.10.23
  • NVIDIA Container Toolkit 1.12.0-1
  • NVIDIA Container Runtime 3.12.0-1
  • GCP 命令行界面 (CLI)
  • Miniconda(最新)
  • JupyterLab 3.5.4 和其他 Jupyter 核心包
  • NGC-CLI 3.14.0
  • Git、Python3-PIP

主要更改

  • 更新 NVIDIA 驱动程序至 525.85.12
  • 更新 Docker-ce 至 20.10.23
  • 更新 NVIDIA Container Toolkit 至版本 1.12.0-1
  • 更新 NVIDIA Container Runtime 至版本 3.12.0-1
  • 更新 NGC-CLI 至 3.14.0
  • 修复 CVE-2022-3515

版本 22.06.0

  • Ubuntu Server 20.04
  • NVIDIA 驱动程序 515.48.07
  • Docker-ce 20.10.17
  • NVIDIA Container Toolkit 1.10.0-1
  • NVIDIA Container Runtime 3.10.0-1
  • GCP 命令行界面 (CLI)
  • Miniconda 4.13.0
  • JupyterLab 3.4.3 和其他 Jupyter 核心包
  • NGC-CLI 3.0.0
  • Git、Python3-PIP

主要更改

  • 更新 NVIDIA 驱动程序至 515.48.07
  • 更新 Docker-ce 至 20.10.17
  • 更新 Nvidia Container Toolkit 至版本 1.10.0-1
  • 更新 Nvidia Container Runtime 至版本 3.10.0-1
  • 打包了其他工具:Miniconda、JupyterLab、NGC-CLI、Git、Python3-PIP

NVIDIA HPC SDK GPU 优化映像

信息

NVIDIA HPC SDK C、C++ 和 Fortran 编译器通过标准 C++ 和 Fortran、OpenACC 指令和 CUDA 支持 HPC 建模和仿真应用程序的 GPU 加速。GPU 加速的数学库最大限度地提高了常见 HPC 算法的性能,而优化的通信库支持基于标准的多 GPU 和可扩展系统编程。性能分析和调试工具简化了 HPC 应用程序的移植和优化,而容器化工具则可以轻松地在本地或云中进行部署。适用于 Linux 的 NVIDIA HPC SDK 的主要功能包括:

  • 支持 NVIDIA Ampere 架构 GPU,具有 FP16、TF32 和 FP64 tensor core
  • NVC++ ISO C++17 编译器,具有 GPU 上的并行算法加速、OpenACC 和 OpenMP
  • NVFORTRAN ISO Fortran 2003 编译器,具有 GPU 上的数组内部函数加速、CUDA Fortran、OpenACC 和 OpenMP
  • NVC ISO C11 编译器,具有 OpenACC 和 OpenMP
  • NVCC NVIDIA CUDA C++ 编译器
  • NVIDIA 数学库,包括 cuBLAS、cuSOLVER、cuSPARSE、cuFFT、cuTENSOR 和 cuRAND
  • Thrust、CUB 和 libcu++ GPU 加速的 C++ 并行算法和数据结构库
  • NCCL、NVSHMEM 和 Open MPI 库,用于快速多 GPU/多节点通信
  • NVIDIA Nsight Systems/Compute,用于交互式 HPC 应用程序性能分析器

发行说明

版本 23.11

  • Ubuntu Server 22.04 (x86)
  • NVIDIA 驱动程序 535.129.03
  • Docker-ce 24.0.7
  • NVIDIA 容器工具包版本: 1.14.3-1
  • 最新 GCP CLI

  • Miniconda 最新版
  • 最新 JupyterLab 和其他 Jupyter 核心包
  • NGC-CLI 3.35.0

  • Git
  • 已更新 HPC SDK 23.11

版本 23.03.0

  • Ubuntu Server 20.04
  • NVIDIA 驱动程序 525.85.12
  • Docker-ce 23.0.1
  • NVIDIA 容器工具包版本: 1.12.1-1
  • AWS CLI, NGC-CLI 3.16.0
  • Miniconda 最新版
  • JupyterLab 和其他 Jupyter 核心包
  • Git、Python3-PIP
  • HPC SDK 23.1
  • NVIDIA 对等内存: 1.3
  • MOFED: 5.8-1.0.1.1

主要更改

  • 更新 NVIDIA 驱动程序至 525.85.12
  • 已更新 Docker-ce 至 23.0.1
  • 已更新 Nvidia 容器工具包至版本 1.12.1-1
  • 已更新 Nvidia 容器运行时至版本 3.12.0-1
  • 已更新 NGC-CLI 至 3.16.0
  • 已更新 HPC SDK 至 23.1

版本 23.02.0

  • Ubuntu Server 20.04
  • NVIDIA 驱动程序 525.85.12
  • Docker-ce 20.10.23
  • NVIDIA 容器工具包版本: 1.11.1-1
  • NVIDIA 容器运行时版本: 3.12.0-1
  • GCP 命令行界面 (CLI)
  • Miniconda(最新)

  • JupyterLab 3.5.4 和其他 Jupyter 核心包
  • NGC-CLI 3.14.0

  • Git、Python3-PIP

  • HPC SDK 23.1
  • NVIDIA 对等内存

  • MOFED 5.8-1.0.1.1

主要更改

  • 更新 NVIDIA 驱动程序至 525.85.12
  • 更新 Docker-ce 至 20.10.23
  • 已更新 NVIDIA 容器工具包至版本 1.20.0-1
  • 更新 NVIDIA Container Runtime 至版本 3.12.0-1
  • 更新 NGC-CLI 至 3.14.0

  • 修复 CVE-2022-3515

  • 已更新 HPC SDK 至 23.1

版本 22.08.0

  • Ubuntu Server 20.04
  • NVIDIA 驱动程序 515.65.01
  • Docker-ce 20.10.17
  • NVIDIA 容器工具包版本: 1.10.1-1
  • NVIDIA 容器运行时版本: 3.10.0-1
  • GCP 命令行界面 (CLI)

主要更改

  • 更新 NVIDIA 驱动程序至 515.48.07
  • 更新 Docker-ce 至 20.10.17
  • 已更新 NVIDIA 容器工具包至版本 1.10.0-1
  • 已更新 NVIDIA 容器运行时至版本 3.10.0-1

已知问题

  • 与 HPC SDK 22.7 捆绑的 Nsight Systems 版本在某些实例类型上失败,并显示错误“Agent launcher failed”。此问题已在 Nsight Systems 2022.3.4 及更高版本中修复,可以从 Nsight Systems 下载页面单独安装。有关更多信息,请参阅 Nsight Systems 文档

NVIDIA 云原生堆栈虚拟机镜像

信息

NVIDIA 云原生堆栈 VMI 是一个 GPU 加速的 VMI,预装了云原生堆栈,云原生堆栈是一个参考架构,包括上游 Kubernetes 和 NVIDIA GPU 及网络 Operator。NVIDIA 云原生堆栈 VMI 允许开发人员构建、测试和运行由 Kubernetes 编排的 GPU 加速容器化应用程序。

发行说明

版本 6.2

  • Ubuntu Server 20.04
  • Containerd 1.6.5
  • Kubernetes 1.23.8
  • Helm 3.8.2
  • GPU Operator 1.11.0
  • NVIDIA 驱动程序 515.65.01

NVIDIA cuQuantum Appliance VMI

信息

NVIDIA cuQuantum Appliance 是一个高性能多 GPU 多节点解决方案,用于量子电路模拟。它包含 NVIDIA cuStateVec 和 cuTensorNet 库,分别优化状态向量和张量网络模拟。cuTensorNet 库功能可通过 Python 用于张量网络操作。NVIDIA 提供以下带有 cuStateVec 库的模拟器

  • IBM Qiskit Aer 前端,通过 cusvaer,NVIDIA 分布式状态向量后端求解器。
  • 多 GPU 优化 Google Cirq 前端,通过 qsim,Google 状态向量模拟器。

发行说明

版本 23.03

  • Ubuntu Server 22.04
  • NVIDIA 驱动程序 525.105.17
  • NVIDIA cuQuantum Appliance Docker 容器 23.03
  • Docker-ce 24.0.1
  • NVIDIA 容器工具包 1.13.0-1
  • GCP CLI, NGC CLI
  • Miniconda, JupyterLab(在 conda base env 中), Git: 最新版

版本 22.11

  • Ubuntu Server 20.04
  • NVIDIA 驱动程序 525.85.12
  • NVIDIA cuQuantum Appliance Docker 容器 22.11
  • Docker-ce 23.0.1
  • NVIDIA Container Toolkit 1.12.0-1
  • GCP CLI, NGC CLI
  • Miniconda, JupyterLab(在 conda base env 中), Git: 最新版

已知问题

  • Azure 上的某些实例(特别是 ND40rs v2)可能会在登录时发出“不支持的实例类型”警告。这是一个已知问题,将在下一个版本中解决。

NVIDIA GPU 优化 VMI 默认包含 conda,以便使用 jupyter-lab 笔记本。内部 Python 依赖项可能在新版本的 Python 中得到修补,但 conda 必须使用 VMI 中的特定版本。除非 conda 本身存在漏洞,否则这些漏洞不会被直接利用。攻击者需要获得对运行 conda 的 VM 的访问权限,因此必须保护 VM 访问权限。请参阅安全最佳实践部分。

以下版本受漏洞影响

  • NVIDIA GPU 优化 VMI 22.06
  • NVIDIA GPU 优化 VMI (ARM64) 22.06

漏洞列表如下

  • GHSA-3gh2-xw74-jmcw: 高危; Django 2.1; SQL 注入
  • GHSA-6r97-cj55-9hrq: 严重; Django 2.1; SQL 注入
  • GHSA-c4qh-4vgv-qc6g: 高危; Django 2.1; 不受控制的资源消耗
  • GHSA-h5jv-4p7w-64jg: 高危; Django 2.1; 不受控制的资源消耗
  • GHSA-hmr4-m2h5-33qx: 严重; Django 2.1; SQL 注入
  • GHSA-v6rh-hp5x-86rv: 高危; Django 2.1; 访问控制绕过
  • GHSA-v9qg-3j8p-r63v: 高危; Django 2.1; 不受控制的递归
  • GHSA-vfq6-hq5r-27r6: 严重; Django 2.1; 通过密码重置表单的账户劫持
  • GHSA-wh4h-v3f2-r2pp: 高危; Django 2.1; 不受控制的内存消耗
  • GHSA-32gv-6cf3-wcmq: 严重; Twisted 18.7.0; HTTP/2 DoS 攻击
  • GHSA-65rm-h285-5cc5: 高危; Twisted 18.7.0; 不正确的证书验证
  • GHSA-92x2-jw7w-xvvx: 高危; Twisted 18.7.0; Cookie 和 header 泄露
  • GHSA-c2jg-hw38-jrqq: 高危; Twisted 18.7.0; HTTP 请求走私
  • GHSA-h96w-mmrf-2h6v: 严重; Twisted 18.7.0; 不正确的输入验证
  • GHSA-p5xh-vx83-mxcj: 严重; Twisted 18.7.0; HTTP 请求走私
  • GHSA-5545-2q6w-2gh6: 高危; numpy 1.15.1; NULL 指针解引用
  • CVE-2019-6446: 严重; numpy 1.15.1; 不受信任数据的反序列化
  • GHSA-h4m5-qpfp-3mpv: 高危; Babel 2.6.0; 任意代码执行
  • GHSA-ffqj-6fqr-9h24: 高危; PyJWT 1.6.4; 通过非黑名单公钥格式的密钥混淆
  • GHSA-h7wm-ph43-c39p: 高危; Scrapy 1.5.1; 不受控制的内存消耗
  • CVE-2022-39286: 高危; jupyter_core 4.11.2; 任意代码执行
  • GHSA-55x5-fj6c-h6m8: 高危; lxml 4.2.4; 通过 lxml HTML 清理器允许的恶意代码
  • GHSA-wrxv-2j5q-m38w: 高危; lxml 4.2.4; NULL 指针解引用
  • GHSA-gpvv-69j7-gwj8: 高危; pip 8.1.2; 路径遍历
  • GHSA-hj5v-574p-mj7c: 高危; py 1.6.0; 正则表达式 DoS
  • GHSA-x84v-xcm2-53pg: 高危; requests 2.19.1; 凭据保护不足
  • GHSA-mh33-7rrq-662w: 高危; urllib3 1.23; 不正确的证书验证
  • CVE-2021-33503: 高危; urllib3 1.23; 拒绝服务攻击
  • GHSA-2m34-jcjv-45xf: 中危; Django 2.1; Django 中的 XSS
  • GHSA-337x-4q8g-prc5: 中危; Django 2.1; 不正确的输入验证
  • GHSA-68w8-qjq3-2gfm: 中危; Django 2.1; 路径遍历
  • GHSA-6c7v-2f49-8h26: 中危; Django 2.1; 敏感信息明文传输
  • GHSA-6mx3-3vqg-hpp2: 中危; Django 2.1; Django 允许非特权用户读取任意账户的密码哈希值
  • GHSA-7rp2-fm2h-wchj: 中危; Django 2.1; Django 中的 XSS
  • GHSA-hvmf-r92r-27hr: 中危; Django 2.1; Django 允许意外的模型编辑
  • GHSA-wpjr-j57x-wxfw: 中危; Django 2.1; 通过 Django 中的缓存键冲突导致的数据泄露
  • GHSA-9x8m-2xpf-crp3: 中危; Scrapy 1.5.1; 使用 HTTP 代理时凭据泄露
  • GHSA-cjvr-mfj7-j4j8: 中危; Scrapy 1.5.1; 不正确的授权和信息泄露
  • GHSA-jwqp-28gf-p498: 中危; Scrapy 1.5.1; 凭据泄露
  • GHSA-mfjm-vh54-3f96: 中危; Scrapy 1.5.1; Cookie 设置未受限制
  • GHSA-6cc5-2vg4-cc7m: 中危; Twisted 18.7.0; URI/方法中注入无效字符
  • GHSA-8r99-h8j2-rw64: 中危; Twisted 18.7.0; HTTP 请求走私
  • GHSA-vg46-2rrj-3647: 中危; Twisted 18.7.0; NameVirtualHost Host header 注入
  • GHSA-39hc-v87j-747x: 中危; cryptography 37.0.2; cryptography wheels 中包含存在漏洞的 OpenSSL
  • GHSA-hggm-jpg3-v476: 中危; cryptography 2.3.1; RSA 解密易受 Bleichenbacher timing 漏洞攻击
  • GHSA-jq4v-f5q6-mjqq: 中危; lxml 4.2.4; XSS
  • GHSA-pgww-xf46-h92r: 中危; lxml 4.2.4; XSS
  • GHSA-xp26-p53h-6h2p: 中危; lxml 4.2.4; LXML 中 Web 页面生成期间输入未正确中和
  • GHSA-6p56-wp2h-9hxr: 中危; numpy 1.15.1; NumPy 缓冲区溢出,极不可能被非特权用户利用
  • GHSA-f7c7-j99h-c22f: 中危; numpy 1.15.1; NumPy 中缓冲区复制未检查输入大小
  • GHSA-fpfv-jqm9-f5jm: 中危; numpy 1.15.1; NumPy 中不正确的比较
  • GHSA-5xp3-jfq3-5q8x: 中危; pip 8.1.2; pip 中不正确的输入验证
  • GHSA-w596-4wvx-j9j6: 中危; py 1.6.0; 与 subversion 一起使用时 py 库中的 ReDoS
  • GHSA-hwfp-hg2m-9vr2: 中危; pywin32 223; pywin32 中的整数溢出
  • GHSA-r64q-w8jr-g9qp: 中危; urllib3 1.23; CRLF 序列未正确中和
  • GHSA-wqvq-5m8c-6g24: 中危; urllib3 1.23; CRLF 注入

声明

本指南中的信息以及本指南中引用的 NVIDIA 文档中包含的所有其他信息均“按原样”提供。NVIDIA 不对产品信息作出任何明示、暗示、法定或其他方面的保证,并且明确否认所有关于不侵权、适销性和针对特定用途适用性的暗示保证。尽管客户可能因任何原因遭受任何损失,但 NVIDIA 对本指南中描述的产品的客户承担的累计总责任应根据 NVIDIA 产品销售条款和条件进行限制。

本指南中描述的 NVIDIA 产品并非容错产品,并非设计、制造或旨在用于与任何系统的设计、建造、维护和/或操作相关的用途,如果此类系统的使用或故障可能导致威胁人类生命安全或严重人身伤害或财产损失的情况(包括但不限于与任何核、航空电子、生命支持或其他生命攸关的应用相关的用途)。NVIDIA 明确否认对如此高风险用途的任何明示或暗示的适用性保证。NVIDIA 不对客户或任何第三方承担任何全部或部分因如此高风险用途引起的索赔或损害赔偿责任。

NVIDIA 不作任何陈述或保证,保证本指南中描述的产品在未经进一步测试或修改的情况下适用于任何特定用途。NVIDIA 不一定对每个产品的所有参数进行测试。客户全权负责确保产品适用于客户计划的应用,并为该应用进行必要的测试,以避免应用或产品出现故障。客户产品设计中的缺陷可能会影响 NVIDIA 产品的质量和可靠性,并可能导致超出本指南中包含的附加或不同条件和/或要求。对于因以下原因导致或归因于的任何故障、损坏、成本或问题,NVIDIA 不承担任何责任:(i) 以任何违反本指南的方式使用 NVIDIA 产品,或 (ii) 客户产品设计。

除客户有权将本指南中的信息与产品一起使用外,本指南未授予 NVIDIA 的任何其他明示或暗示许可。只有在获得 NVIDIA 书面批准、未经修改地复制且附带所有相关的条件、限制和声明的情况下,才允许复制本指南中的信息。

商标

NVIDIA 和 NVIDIA 徽标是 NVIDIA Corporation 在美国和其他国家/地区的商标和/或注册商标。其他公司和产品名称可能是与其相关的各自公司的商标。

版权

© 2025 NVIDIA CORPORATION & AFFILIATES。保留所有权利。

© 版权所有 2025,NVIDIA。 上次更新时间:2025 年 1 月 7 日。