Azure 虚拟机上的 NGC
Azure 虚拟机上的 NGC
本 NGC on Azure Virtual Machnies 指南介绍了如何在 Microsoft Azure 平台上设置 NVIDIA GPU 云机器镜像,并包含每个 NVIDIA 虚拟机镜像版本的发行说明。
NVIDIA GPU 优化虚拟机镜像可在 Microsoft Azure 计算实例上使用,这些实例配备了 NVIDIA A100、T4 和 V100 GPU。
对于熟悉 Azure 平台的用户来说,启动实例的过程非常简单,只需登录 Azure,选择所需的 NVIDIA GPU 优化镜像,根据需要配置设置,然后启动 VM。启动 VM 后,您可以 SSH 登录到 VM,并开始构建各种 AI 应用程序,这些应用程序涉及深度学习、机器学习和数据科学,并利用来自 NGC 的大量 GPU 加速容器、预训练模型和资源。
本文档提供了完成此操作的分步说明,包括如何使用 Azure CLI。
1.1. 安全最佳实践
云安全始于您的 CSP 帐户的安全策略。有关如何为您的 CSP 配置安全策略,请参阅以下链接
用户必须遵循其 CSP 的安全指南和最佳实践,以保护其 VM 和帐户的安全。
1.2. 先决条件
-
您拥有一个 Azure 帐户 - https://portal.azure.com,并且拥有创建资源组的权限,或者已经拥有可供您使用的资源组。
- 浏览 NGC 网站 并确定要在虚拟机实例 (VMI) 上运行的可用 NGC 容器和标签。
- 如果您计划使用 Azure CLI 或 Terraform,则必须安装 Azure CLI 2.0。
-
Windows 用户:CLI 代码片段适用于 Linux 或 Mac OS X 上的 bash。如果您使用的是 Windows 并且想要按原样使用这些片段,则可以使用 Windows Linux 子系统 并使用 bash shell(您将位于 Ubuntu Linux 中)。
1.3. 开始之前
在开始在 Microsoft Azure 上使用 NVIDIA GPU 云机器镜像之前,请务必熟悉本章中的信息。
1.3.1. 设置 SSH 密钥
如果您尚未专门为 Azure 设置 SSH 密钥,则需要设置一个密钥,并将其放在您将用于 SSH 连接到 VM 的计算机上。在示例中,密钥名为“azure-key”。
在 Linux 或 OS X 上,使用以下命令生成新密钥
ssh-keygen -t rsa -b 2048 -f ~/.ssh/azure-key
在 Windows 上,位置将取决于您使用的 SSH 客户端,因此请在代码片段或 SSH 客户端配置中修改上面的路径。
或者,您也可以选择使用用户名和密码进行身份验证,这可以在创建 VM 时进行设置。但是,SSH 密钥方法可确保最佳安全性。
https://docs.microsoft.com/en-us/azure/virtual-machines/linux/mac-create-ssh-keys
1.3.2. 设置安全组
创建 NVIDIA GPU 云 VM 时,Azure 会为 VM 设置网络安全组,您应选择允许外部访问入站端口 22(用于 SSH)和 443(用于 HTTPS)。您可以稍后根据需要为其他端口(例如用于 DIGITS 的端口 8888)向网络安全组添加入站规则。
您还可以设置一个单独的网络安全组,以便在您创建新的 NVIDIA GPU 云 VM 时随时可用。这可以提前完成。请参阅 Microsoft 说明以创建、更改或删除网络安全组 向您的网络安全组添加以下入站规则:
- SSH
- 目标端口范围:22
- 协议:TCP
- 名称:SSH
- HTTPS
- 目标端口范围:443
- 协议:TCP
- 名称:HTTPS
- 其他根据需要
示例:DIGITS
- 目标端口范围:8888
- 协议:TCP
- 名称:DIGITS
安全警告
在授予访问权限或通过互联网共享您的 AMI 之前,务必采取适当的预防措施和安全措施。默认情况下,与 AMI 实例的互联网连接被阻止。您全权负责启用和保护对您的 AMI 的访问。请参阅 Azure 指南以了解如何管理安全组。
1.4. 使用 Azure 控制台创建 NGC 认证虚拟机
1.4.1. 登录并启动 VM
- 登录到 Azure 门户 (https://portal.azure.com)。
- 从 Azure 服务菜单中选择创建资源。
- 在新建窗格上,搜索“nvidia”,然后选择您要使用的 NVIDIA 虚拟机镜像。请注意,您可以在 NVIDIA AI Enterprise 镜像或各种 NVIDIA GPU 优化镜像之间进行选择。
- 根据您的选择,您将有两条略有不同的路径。
- 选择按需付费的 NVIDIA AI Enterprise 镜像
- 在列表页面上,单击立即获取。
- 在 Azure 应用创建对话框中,根据您要启动的 GPU 数量选择您的计划,然后单击继续。
- 在 VMI 部署页面上,验证您的计划选择和定价,然后单击创建。
- 从创建虚拟机页面开始,其余过程对于所有选项都是类似的。您可以在下面提供的步骤 5 中找到此过程的详细说明。
- 在列表页面上,单击立即获取。
- 选择免费的 GPU 优化镜像
- 在列表页面上,单击立即获取。
- 在 Azure 应用创建对话框中,查看信息并单击继续。
- 在 VMI 部署页面上,从软件计划菜单中选择您所需的发行版本,然后单击创建。
- 从创建虚拟机页面开始,其余过程对于所有选项都是类似的。您可以在下面提供的步骤 5 中找到此过程的详细说明。
- 在列表页面上,单击立即获取。
- 选择按需付费的 NVIDIA AI Enterprise 镜像
- 从软件计划菜单中选择最新的发行版本(或如果您需要,则选择您选择的版本),然后单击创建
- 完成基本选项卡下的设置,如下所示:
- 订阅和资源组:选择与您的订阅相关的选项
- 虚拟机名称:您选择的名称
- 区域:选择一个区域,其中包含具有最新 NVIDIA GPU(NC-v3 系列)的实例类型。在本示例中,我们使用(美国)东部美国区域。按区域划分的可用实例类型列表可以在此处找到
- 身份验证选项:SSH,使用您选择的用户名
- SSH 公钥:粘贴您之前生成的 SSH 公钥
- 单击下一步以选择高级 SSH 并添加数据磁盘。
- 在“网络”部分中,在配置网络安全组选项下选择您先前创建的网络安全组。
- 根据需要进行其他设置选择,然后单击确定。
验证通过后,门户将显示您的新镜像的详细信息,您可以将其下载为模板以供以后自动部署。
- 单击部署以部署镜像。部署开始,警报图标下方的移动条指示了部署过程。完成可能需要几分钟时间。
1.4.2. 连接到您的 VM 实例
- 打开您创建的 VM 实例。
- 导航到 Azure 门户主页,然后单击 Azure 服务菜单下的虚拟机。
- 选择您创建并想要连接的 VM。
- 从顶部的操作栏中单击连接,然后选择 SSH。
如果通过 SSH 登录的说明不起作用,请参阅 Azure Linux VM 的 SSH 连接失败、出错或被拒绝的故障排除 文档以进行进一步的故障排除。
启动/停止您的 VM 实例
1.4.4. 删除 VM 和关联资源
当您创建 VM 时,会自动为您创建该实例的其他资源,例如网络接口、公共 IP 地址和启动磁盘。如果您删除了 VM,您还需要删除这些资源。
- 打开您创建的 VM 实例。
- 导航到 Azure 门户主页,然后单击 Azure 服务菜单下的虚拟机。
- 选择您创建并想要删除的 VM。
- 从顶部的操作栏中单击删除,然后在弹出的左侧窗格中键入“yes”以确认您的选择。
1.5. 使用 Azure CLI 启动 NVIDIA GPU 云 VM
如果您计划使用 Azure CLI,则必须安装 CLI。
这些说明中的某些 CLI 代码片段使用了 jq,应将其安装在您将从中运行 CLI 的计算机上。您可以将这些代码片段粘贴到您自己的 bash 脚本中,或者在命令行中键入它们。
1.5.1. 设置环境变量
使用下表作为指南,确定创建 GPU 云 VM 所需的值。变量名称是任意的,在后续说明中使用。
变量 | 描述 | 示例 |
AZ_VM_NAME | 您的 GPU 云 VM 的名称 | my-nvgpu-vmi |
AZ_RESOURCE_GROUP | 您的资源组 | ACME_RG |
AZ_IMAGE | NVIDIA GPU 优化镜像。有关最新版本,请参阅发行说明 Azure 上的 NVIDIA 虚拟机镜像。 | NVIDIA-GPU-Cloud-Image |
AZ_LOCATION | 包含 GPU 的区域。请参阅 https://azure.microsoft.com/en-us/global-infrastructure/services/ 以查看 NCv2 和 NCv3 系列 SKU 的可用位置。 |
|
AZ_SIZE | 由 vCPU 数量、RAM 和 GPU 指定的 SKU。请参阅 https://docs.microsoft.com/en-us/azure/virtual-machines/linux/sizes-gpu 以获取 P40、P100 和 V100 SKU 的列表以供选择。 | NC6s_v2 |
AZ_SSH_KEY | <路径>/<public-azure-key.pub> | ~/.ssh/azure-key.pub |
AZ_USER | 您的用户名 | jsmith |
AZ_NSG | 您的网络安全组 |
|
1.5.2. 启动您的 VM 实例
确保您已安装 Azure CLI,并且已准备好设置环境变量部分中列出的 VM 设置信息。然后,您可以手动替换本节命令中的变量名称,或者提前定义变量。
- 登录到 Azure CLI。
az login
- 输入以下内容
az vm create \ --name ${AZ_VM_NAME} \ --resource-group ${AZ_RESOURCE_GROUP} \ --image ${AZ_IMAGE} \ --location ${AZ_LOCATION} \ --size ${AZ_SIZE} \ --ssh-key-value ${AZ_SSH_KEY} \ --admin-username ${AZ_USER} \ --nsg ${AZ_NSG}
AZ_JSON=$(az vm create \ --name ${AZURE_VM_NAME} \ --resource-group ${AZ_RESOURCE_GROUP} \ --image ${AZ_IMAGE} \ --location ${AZ_LOCATION} \ --size ${AZ_SIZE} \ --ssh-key-value ${AZ_SSH_KEY} \ --admin-username ${AZ_USER} \ --nsg ${AZ_NSG}) AZ_PUBLIC_IP=$(echo $AZ_JSON | jq .publicIpAddress | sed 's/\"//g') && \ echo $AZ_JSON && echo AZ_PUBLIC_IP=$AZ_PUBLIC_IP
Azure 为每个 VM 设置一个非持久性临时磁盘。有关为您的数据集设置备用存储的说明,请参阅Azure 虚拟机的持久性数据存储部分。
1.5.3. 连接到您的 VM 实例
在 Mac 或 Linux 上使用 CLI(Windows 用户:使用 Windows PowerShell 上的 OpenSSH 或使用 Windows Linux 子系统),运行 ssh
以连接到您的 GPU VM 实例。
ssh -i $AZ_SSH_KEY $AZ_USER@$AZ_PUBLIC_IP
启动/停止您的 VM 实例
VM 可以停止并重新启动,而不会丢失任何存储和其他资源。
要停止并取消分配正在运行的 VM
az vm deallocate --resource-group $AZ_RESOURCE_GROUP --name $AZ_VM_NAME
要启动已停止的 VM
az vm start --resource-group $AZ_RESOURCE_GROUP --name $AZ_VM_NAME
启动已停止的 VM 时,您需要更新公共 IP 变量,因为它会随着新启动的 VM 而更改。
AZ_PUBLIC_IP=$(az network public-ip show \
--resource-group $AZ_RESOURCE_GROUP \
--name $AZ_VM_NAME\PublicIP | jq .ipAddress | sed 's/\"//g') && \
echo AZ_PUBLIC_IP=$AZ_PUBLIC_IP
1.5.5. 删除 VM 和关联资源
当您创建 VM 时,会自动为您创建该实例的其他资源,例如网络接口、公共 IP 地址和启动磁盘。如果您删除了您的实例,您还需要删除这些资源。
- 删除您的 VM。
az vm delete -g $AZ_RESOURCE_GROUP -n $AZ_VM_NAME
- 删除 VM OS 磁盘。
- 列出您的资源组中的磁盘。
az disk list -g $AZ_RESOURCE_GROUP
- 删除 OS 磁盘。
az disk delete -g $AZ_RESOURCE_GROUP -n MyDisk
有关详细信息,请参阅 https://docs.microsoft.com/en-us/cli/azure/disk?view=azure-cli-latest#az-disk-delete。
- 列出您的资源组中的磁盘。
- 删除 VM 网络接口。
- 列出您的资源组中的网络接口资源。
az network nic list -g $AZ_RESOURCE_GROUP
- 删除网络接口资源。
az network nic delete -g $AZ_RESOURCE_GROUP -n MyNic
有关详细信息,请参阅 https://docs.microsoft.com/en-us/cli/azure/network/nic?view=azure-cli-latest#az-network-nic-delete。
- 列出您的资源组中的网络接口资源。
- 删除 VM 公共 IP 地址。
- 列出您的资源组中的公共 IP。
az network public-ip list -g $AZ_RESOURCE_GROUP
- 删除公共 IP。
az network public-ip delete -g $AZ_RESOURCE_GROUP -n MyIp
- 列出您的资源组中的公共 IP。
1.6. 将高级存储 SSD 用于数据集
您可以从 Azure 仪表板创建高级存储 SSD。高级存储 SSD 非常适合持久存储大量数据集,并提供更好的性能。
1.6.1. 使用 Azure 控制台创建数据磁盘
- 打开您创建的 VM 实例。
- 导航到 Azure 门户主页,然后单击 Azure 服务菜单下的虚拟机。
- 选择您创建并想要管理的 VM。
- 在左侧控制面板的“设置”类别下选择“磁盘”。
- 单击添加磁盘,然后在单击“名称”后,在下拉菜单中单击创建磁盘。
- 在“创建托管磁盘”窗格上,输入磁盘名称,选择资源组,为“帐户类型”选择“高级 SSD”,输入磁盘大小
- 单击创建。
- 验证完成后,单击保存。
1.6.2. 使用 Azure CLI 创建数据磁盘
要创建新的数据磁盘并将其附加到您的 VM,请在 az vm create
命令中包含以下选项。
--data-disk-sizes-gb <data-disk-size>
要在创建 VM 时将现有数据磁盘附加到您的 VM,请在 az vm create
命令中包含以下选项。
-- attach-data-disks <data-disk-name>
1.6.2.1. 挂载数据磁盘
- 创建数据磁盘后,建立与您的 VM 的 SSH 连接。
- 在数据磁盘上创建文件系统。
您可以通过运行 lsblk 命令查看卷。
:~# lsblk NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT sdb 8:16 0 1.5T 0 disk └─sdb1 8:17 0 1.4T 0 part /mnt sr0 11:0 1 628K 0 rom sdc 8:32 0 2T 0 disk └─sdc1 8:33 0 2T 0 part sda 8:0 0 240G 0 disk └─sda1 8:1 0 240G 0 part / :`# mkfs.ext4 /dev/sdc1
- 将卷挂载到挂载目录。
~# mount /dev/sdc1 /data
要使卷在每次 VM 停止并重新启动时自动挂载,请向
/etc/fstab
添加一个条目。向
/etc/fstab
添加条目时,请使用基于 UUID 的设备路径(有关详细信息,请参阅 device-names-problem)。例如:。
UUID=33333333-3b3b-3c3c-3d3d-3e3e3e3e3e3e /data ext4 defaults,nofail 1 2
1.6.3. 删除数据磁盘
只有在数据磁盘未附加到 VM 时,您才能删除数据磁盘。请注意,一旦您删除了数据磁盘,您将无法撤消该操作。
- 打开 Azure 仪表板,然后从左侧菜单中单击所有资源。
- 按磁盘类型筛选,然后找到并选中您的数据磁盘的复选框。
- 单击删除。
- 输入“yes”以确认,然后单击删除。
NVIDIA 在 Microsoft Azure 平台上提供基于 NVIDIA® Tesla Volta™ 和 Pascal™ GPU 的自定义机器镜像。在此实例上运行 NVIDIA GPU 云容器可为深度学习、机器学习和 HPC 工作负载提供最佳性能。
有关设置和使用 VMI 的说明,请参阅 使用 NGC with Azure 设置指南。
NVIDIA AI Enterprise VMI
信息
NVIDIA AI Enterprise 是一个安全、端到端的云原生 AI 软件套件,使组织能够在提高运营效率的同时解决新的挑战。它加速了数据科学管道,并简化了预测性 AI 模型的开发、部署和管理,以自动化基本流程并从数据中快速获得见解。它拥有广泛的全栈软件库,包括 AI 解决方案工作流程、框架、预训练模型和基础设施优化。全球企业支持和定期的安全审查确保业务连续性,并确保 AI 项目成功并保持在轨道上。
借助 NVIDIA AI Enterprise,客户可以获得以下方面的支持和访问权限
- NVIDIA AI 工作流程,预先打包的参考应用程序,包括 Helm Charts、Jupyter Notebooks 和文档,可实现联络中心智能虚拟助手、音频转录和网络安全数字指纹识别以检测异常的快速投产时间。仅适用于 NVIDIA AI Enterprise 订阅。
- 用于 AI 可解释性的未加密预训练模型,了解模型权重和偏差,以及更快的调试和自定义。仅适用于 NVIDIA AI Enterprise 订阅。
- 用于加速 AI 开发的框架和工具(PyTorch、TensorFlow、NVIDIA RAPIDS、TAO Toolkit、TensorRT 和 Triton 推理服务器)。
- 特定于医疗保健的框架和应用程序,包括 NVIDIA Clara MONAI 和 NVIDIA Clara Parabricks。
- NVIDIA AI Enterprise 包括对 NGC 公共目录上标记为“NVIDIA AI Enterprise Supported”的所有 NVIDIA AI 软件的支持。超过 50 个预训练模型、框架和开发工具。
- NVIDIA AI Enterprise Marketplace 产品还包括 VMI,它为轻松访问上述 NVIDIA AI Enterprise 软件提供了标准的优化运行时,并确保了云和本地基础设施之间的开发兼容性。一次开发,随处运行。
要了解有关 Azure 上的 NVIDIA AI Enterprise 的更多信息以及私人定价,请填写此处的表格联系 NVIDIA。
要开始使用,请参阅Azure Marketplace 上的 NVIDIA AI Enterprise 快速入门指南。
发行说明
版本 24.12.1-NVAIE 5.2
- Ubuntu Server 22.04 LTS (x86)
- NVIDIA vGPU 驱动程序 550.127.05
- Docker CE 27.4.0
- NVIDIA Container Toolkit 1.17.3-1
- Azure CLI(最新版本)
- Miniconda
- JupyterLab(最新版本)和核心 Jupyter 包
- NGC CLI 3.56.0
- Git、Python3 和 pip
版本 24.11.2-NVAIE 5.2
- Ubuntu Server 22.04 LTS (x86)
- NVIDIA vGPU 驱动程序 550.127.05
- Docker CE 27.3.1
- NVIDIA Container Toolkit 1.17.1-1
- Azure CLI(最新版本)
- Miniconda
- JupyterLab(最新版本)和核心 Jupyter 包
- NGC CLI 3.54.0
- Git、Python3 和 pip
版本 24.07.3-NVAIE 5.1
- Ubuntu Server 22.04 (x86)
- NVIDIA vGPU 驱动程序 550.90.07
- Docker-CE 26.1.4
- NVIDIA Container Toolkit 1.15.0-1
- 最新 Azure CLI
- Miniconda
- 最新 JupyterLab 和其他 Jupyter 核心包
- NGC CLI 3.43.0
- Git、Python3-PIP
版本 24.03-NVAIE 5.0
- Ubuntu Server 22.04 (x86)
- NVIDIA vGPU 驱动程序 550.54.14
- Docker-CE 26.0.0
- NVIDIA Container Toolkit 1.14.6-1
-
最新 Azure CLI
-
Miniconda
- 最新 JupyterLab 和其他 Jupyter 核心包
- NGC CLI 3.41.1
-
Git、Python3-PIP
版本 24.01-NVAIE 4.2
- Ubuntu Server 22.04 (x86)
- NVIDIA vGPU 驱动程序 535.154.05
- Docker-CE 25.0.3
- NVIDIA Container Toolkit 1.14.5-1
-
最新 Azure CLI
-
Miniconda
- 最新 JupyterLab 和其他 Jupyter 核心包
- NGC CLI 3.38
-
Git、Python3-PIP
版本 23.11-NVAIE 4.1
- Ubuntu Server 22.04 (x86)
- NVIDIA vGPU 驱动程序 535.129.03
- Docker-CE 24.0.7
- NVIDIA Container Toolkit 1.14.3-1
-
最新 Azure CLI
-
Miniconda
- 最新 JupyterLab 和其他 Jupyter 核心包
- NGC CLI 3.22.0
-
Git、Python3-PIP
版本 23.09.2-NVAIE 4.0
- Ubuntu Server 22.04
- NVIDIA AI Enterprise Catalog 访问脚本
- NVIDIA vGPU 驱动程序 535.54.03 (v16.0)
- Docker-CE 24.0.5
- NVIDIA Container Toolkit 1.13.5
-
NGC CLI 3.22.0
-
Miniconda
- JupyterLab(在 miniconda 中)
版本 23.04.0-NVAIE 3.1
- Ubuntu Server 20.04
- NVIDIA AI Enterprise Catalog 访问脚本
- NVIDIA vGPU 驱动程序 525.105.17
- Docker-CE 23.0.3
- NVIDIA Container Toolkit 1.13.0-1
- Azure Cloud CLI 2.48.1
- NGC CLI 3.20.0
- Miniconda 23.3.1
- JupyterLab(在 conda base env 中) 3.5.3
- Git 2.25.1
NVIDIA Riva VMI
信息
NVIDIA® Riva 是一个 GPU 加速的软件开发工具包 (SDK),用于构建和部署完全可定制的实时多语言语音和翻译 AI 管道——包括自动语音识别 (ASR)、神经机器翻译 (NMT) 和文本到语音 (TTS)。 Riva 提供世界一流、开箱即用、准确的转录和翻译以及引人入胜的专业声音。 它可以部署在本地、任何云环境、嵌入式系统和边缘。
借助 NVIDIA Riva,客户可以针对不同的语言、口音、领域、词汇和上下文进行自定义,以针对其用例实现尽可能最佳的准确性,以及所需的品牌声音和语调。与现有技术相比,它可以为数十万个输入流提供一致的体验,并具有更高的推理性能。为了加速构建基于语音 AI 的 AI 解决方案,Riva 为音频转录和智能虚拟助手提供预先打包的 AI 工作流程,其中包括预训练模型和资源,例如 Helm Charts、Jupyter Notebooks 和文档。
Riva 是 NVIDIA AI Enterprise 软件平台的优质版本,对于 NVIDIA A100 等高性能 GPU,每 GPU 小时收费 60 美元。联系 NVIDIA 以获取替代 GPU 选项或私人优惠的特殊定价。
发行说明
版本 24.05
- Ubuntu Server 22.04 (x86)
- NVIDIA GRID 驱动程序 550.54.14 (vGPU 17.0)
- Docker-ce 26.1.1
- NVIDIA Container Toolkit 1.15.0-1
- 最新 Azure CLI
- 最新 Miniconda 和 JupyterLab
- NGC CLI 3.41.4
版本 2023.06.2-riva
- Ubuntu Server 22.04
- NVIDIA vGPU 驱动程序 525.60.13
- Docker-ce 24.0.2
- NVIDIA Container Toolkit 1.11.0-1
- Azure CLI
- NGC CLI 3.22.0
- Miniconda 23.5.0
- JupyterLab(在 conda base env 中) 34.0.2
- Git 2.34.1
NVIDIA GPU 优化 VMI
信息
NVIDIA GPU 优化 VMI 是一个虚拟机镜像,用于加速您的机器学习、深度学习、数据科学和 HPC 工作负载。使用此 AMI,您可以在几分钟内启动一个 GPU 加速的 Azure 计算 VM 实例,其中预装了 Ubuntu 操作系统、GPU 驱动程序、Docker 和 NVIDIA 容器工具包。
此外,此 VMI 还提供对 NVIDIA 的 NGC Catalog 的轻松访问,NGC Catalog 是 GPU 优化软件的中心,用于拉取和运行性能调整、测试和 NVIDIA 认证的 docker 容器。NGC 提供对容器化的 AI、数据科学和 HPC 应用程序、预训练模型、AI SDK 和其他资源的免费访问,使数据科学家、开发人员和研究人员能够专注于构建解决方案、收集见解和交付业务价值。
此 GPU 优化 VMI 免费提供给开发人员,并提供企业支持选项。有关企业支持的更多信息,请访问 NVIDIA AI Enterprise。
发行说明
版本 24.10.1
- Ubuntu Server 22.04 LTS (x86)
- NVIDIA TRD 驱动程序 550.127.05
- Docker CE 27.3.1
- NVIDIA Container Toolkit 1.16.2-1
- Azure CLI(最新版本)
- Miniconda(最新版本)
- JupyterLab(最新版本)和核心 Jupyter 包
- NGC CLI 3.53.0
- Git、Python3 和 pip
版本 24.05
- Ubuntu Server 22.04 (x86)
- NVIDIA TRD 驱动程序 550.54.15
- Docker-ce 26.1.2
- NVIDIA Container Toolkit 1.15.0
- 最新 Azure CLI
- Miniconda
- 最新 JupyterLab 和其他 Jupyter 核心包
- NGC CLI 3.41.4
- Git、Python3-PIP
版本 24.03.4
- Ubuntu Server 22.04 (x86)
- NVIDIA TRD 驱动程序 535.161.07
- Docker-ce 26.0.0
- NVIDIA Container Toolkit 1.14.6
- 最新 Azure CLI
- Miniconda
- 最新 JupyterLab 和其他 Jupyter 核心包
- NGC CLI 3.40.0
- Git、Python3-PIP
版本 23.09.1
- Ubuntu Server 22.04 (x86)
- NVIDIA TRD 驱动程序 535.54.03
- Docker-ce 24.0.6
- NVIDIA Container Toolkit 1.13.5
- 最新 Azure CLI
- Miniconda
- 最新 JupyterLab 和其他 Jupyter 核心包
- NGC CLI 3.22.0
- Git、Python3-PIP
版本 23.03.0
- Ubuntu Server 20.04
- NVIDIA 驱动程序 525.85.12
- Docker-ce 23.0.1
- NVIDIA Container Toolkit 1.21.1-1
- Azure 命令行界面 (CLI), NGC-CLI 3.16.0
- Miniconda 23.1.0
- JupyterLab 和其他 Jupyter 核心包
- Git、Python3-PIP
主要更改
- 更新 NVIDIA 驱动程序至 525.85.12
- 更新 Docker-ce 至 23.0.1
- 更新 Nvidia Container Toolkit 至版本 1.12.1-1
- 更新 Miniconda、JupyterLab、NGC-CLI、Git、Python3-PIP 至最新版本
版本 22.06.0
- Ubuntu Server 20.04
- NVIDIA 驱动程序 515.48.07
- Docker-ce 20.10.17
- NVIDIA Container Toolkit 1.10.0-1
- NVIDIA Container Runtime 3.10.0-1
- Azure 命令行界面 (CLI)
- Miniconda 4.13.0
- JupyterLab 3.4.3 和其他 Jupyter 核心包
- NGC-CLI 3.0.0
- Git、Python3-PIP
主要更改
- 更新 NVIDIA 驱动程序至 515.48.07
- 更新 Docker-ce 至 20.10.17
- 更新 Nvidia Container Toolkit 至版本 1.10.0-1
- 更新 Nvidia Container Runtime 至版本 3.10.0-1
- 打包了其他工具:Miniconda、JupyterLab、NGC-CLI、Git、Python3-PIP
NVIDIA GPU 优化 VMI,带有适用于 A10 实例的 vGPU 驱动程序
信息
适用于 A10 实例的 NVIDIA GPU 优化 VMI(带有 vGPU 驱动程序)是一个虚拟机镜像,用于加速您在 Azure 的 NVadsA10 v5 系列 实例上的机器学习、深度学习、数据科学和 HPC 工作负载。使用此 AMI,您可以在几分钟内启动一个 GPU 加速的 Azure 计算 VM 实例,其中包含 NVIDIA A10 GPU,并预装了 Ubuntu 操作系统、虚拟 GPU 驱动程序、Docker 和 NVIDIA 容器工具包以及其他 CLI 工具。
发行说明
版本 22.08.0
- Ubuntu Server 20.04
- NVIDIA 驱动程序 510.73.08
- Docker-ce 20.10.17
- NVIDIA Container Toolkit 1.10.0-1
- NVIDIA Container Runtime 3.10.0-1
- Azure 命令行界面 (CLI)
- Miniconda 4.13.0
- JupyterLab 3.4.3 和其他 Jupyter Core 包
- NGC CLI 3.4.1
- Git、Python3-PIP
NVIDIA HPC SDK GPU 优化 VM 镜像
信息
NVIDIA HPC SDK C、C++ 和 Fortran 编译器通过标准 C++ 和 Fortran、OpenACC 指令和 CUDA 支持 HPC 建模和仿真应用程序的 GPU 加速。GPU 加速的数学库最大限度地提高了常用 HPC 算法的性能,优化的通信库实现了基于标准的多 GPU 和可扩展系统编程。性能分析和调试工具简化了 HPC 应用程序的移植和优化,容器化工具实现了在本地部署或云端轻松部署。适用于 Linux 的 NVIDIA HPC SDK 的主要功能包括:
- 支持 NVIDIA Ampere 架构 GPU,具有 FP16、TF32 和 FP64 张量核心
- NVC++ ISO C++17 编译器,在 GPU、OpenACC 和 OpenMP 上具有并行算法加速
- NVFORTRAN ISO Fortran 2003 编译器,在 GPU、CUDA Fortran、OpenACC 和 OpenMP 上具有数组内函数加速
- NVC ISO C11 编译器,具有 OpenACC 和 OpenMP
- NVCC NVIDIA CUDA C++ 编译器
- NVIDIA 数学库,包括 cuBLAS、cuSOLVER、cuSPARSE、cuFFT、cuTENSOR 和 cuRAND
- Thrust、CUB 和 libcu++ GPU 加速的 C++ 并行算法和数据结构库
- NCCL、NVSHMEM 和 Open MPI 库,用于快速多 GPU/多节点通信
- NVIDIA Nsight Systems/Compute,用于交互式 HPC 应用程序性能分析器
发行说明
版本 23.11
- Ubuntu Server 22.04 (x86)
- NVIDIA 驱动程序 535.129.03
- Docker-ce 24.0.7
- NVIDIA Container Toolkit 版本:1.14.3-1
-
最新 Azure CLI
- Miniconda 最新版
- 最新 JupyterLab 和其他 Jupyter 核心包
-
NGC-CLI 3.35.0
- Git
- 更新的 HPC SDK 23.11
版本 23.03.0
- Ubuntu Server 20.04
- NVIDIA 驱动程序 525.85.12
- Docker-ce 23.0.1
- NVIDIA Container Toolkit 版本:1.12.1-1
- Azure CLI,NGC-CLI 3.16.0
- Miniconda 最新版
- JupyterLab 和其他 Jupyter 核心包
- Git、Python3-PIP
- HPC SDK 23.1
- NVIDIA Peer Memory: 1.3
- MOFED: 5.8-1.0.1.1
主要更改
- 更新 NVIDIA 驱动程序至 525.85.12
- 更新 Docker-ce 至 23.0.1
- 更新 Nvidia Container Toolkit 至版本 1.12.1-1
- 更新的 Nvidia Container Runtime 至版本 3.12.0-1
- 更新的 NGC-CLI 至 3.16.0
- 更新的 HPC SDK 至 23.1
版本 22.08.0
- Ubuntu Server 20.04
- NVIDIA 驱动程序 515.65.01
- Docker-ce 20.10.17
- NVIDIA Container Toolkit 版本:1.10.1-1
- NVIDIA Container Runtime 版本:3.10.0-1
- Azure 命令行界面 (CLI)
主要更改
- 更新 NVIDIA 驱动程序至 515.48.07
- 更新 Docker-ce 至 20.10.17
- 更新的 NVIDIA Container Toolkit 至版本 1.10.0-1
- 更新的 NVIDIA Container Runtime 至版本 3.10.0-1
已知问题
- 与 HPC SDK 22.7 捆绑的 Nsight Systems 版本在某些实例类型上会失败,并显示错误“Agent launcher failed”。此问题已在 Nsight Systems 2022.3.4 及更高版本中修复,可以从 Nsight Systems 下载页面单独安装。有关更多信息,请参阅 Nsight Systems 文档。
NVIDIA 云原生堆栈 VM 镜像
信息
NVIDIA 云原生堆栈 VMI 是一个 GPU 加速的 VMI,预装了云原生堆栈,云原生堆栈是一个参考架构,其中包括上游 Kubernetes 以及 NVIDIA GPU 和网络 Operator。NVIDIA 云原生堆栈 VMI 允许开发人员构建、测试和运行由 Kubernetes 编排的 GPU 加速的容器化应用程序。
发行说明
版本 6.2
- Ubuntu Server 20.04
- Containerd 1.6.5
- Kubernetes 1.23.8
- Helm 3.8.2
- GPU Operator 1.11.0
- NVIDIA 驱动程序 515.65.01
NVIDIA cuQuantum Appliance VMI
信息
NVIDIA cuQuantum Appliance 是一个用于量子电路模拟的高性能多 GPU 多节点解决方案。它包含 NVIDIA cuStateVec 和 cuTensorNet 库,分别优化状态向量和张量网络模拟。cuTensorNet 库功能可通过 Python 用于张量网络运算。NVIDIA 通过 cuStateVec 库提供以下模拟器
- IBM Qiskit Aer 前端,通过 cusvaer,NVIDIA 分布式状态向量后端求解器。
- 多 GPU 优化 Google Cirq 前端,通过 qsim,Google 状态向量模拟器。
发行说明
版本 23.03
- Ubuntu Server 22.04
- NVIDIA 驱动程序 525.105.17
- NVIDIA cuQuantum Appliance Docker 容器 23.03
- Docker-ce 24.0.1
- NVIDIA Container Toolkit 1.13.0-1
- Azure CLI,NGC CLI
- Miniconda,JupyterLab(在 conda base 环境中),Git:最新版
版本 22.11
- Ubuntu Server 20.04
- NVIDIA 驱动程序 525.85.12
- NVIDIA cuQuantum Appliance Docker 容器 22.11
- Docker-ce 23.0.1
- NVIDIA Container Toolkit 1.12.0-1
- Azure CLI,NGC CLI
- Miniconda,JupyterLab(在 conda base 环境中),Git:最新版
已知问题
- Azure 上的某些实例(特别是 ND40rs v2)可能会在登录时发出“unsupported instance type”警告。这是一个已知问题,将在下一个版本中解决。
NVIDIA GPU 优化的 VMI 默认包含 conda,以便使用 jupyter-lab 笔记本。内部 Python 依赖项可能在新版本的 Python 中已修补,但 conda 必须使用 VMI 中的特定版本。除非 conda 本身存在漏洞,否则这些漏洞不会被直接利用。攻击者需要获得对运行 conda 的虚拟机的访问权限,因此必须保护虚拟机访问权限。请参阅安全最佳实践部分。
以下版本受漏洞影响
- NVIDIA GPU 优化的 VMI 22.06
- NVIDIA GPU 优化的 VMI (ARM64) 22.06
漏洞列表如下
- GHSA-3gh2-xw74-jmcw:高危;Django 2.1;SQL 注入
- GHSA-6r97-cj55-9hrq:严重;Django 2.1;SQL 注入
- GHSA-c4qh-4vgv-qc6g:高危;Django 2.1;不受控制的资源消耗
- GHSA-h5jv-4p7w-64jg:高危;Django 2.1;不受控制的资源消耗
- GHSA-hmr4-m2h5-33qx:严重;Django 2.1;SQL 注入
- GHSA-v6rh-hp5x-86rv:高危;Django 2.1;访问控制绕过
- GHSA-v9qg-3j8p-r63v:高危;Django 2.1;不受控制的递归
- GHSA-vfq6-hq5r-27r6:严重;Django 2.1;通过密码重置表单进行账户劫持
- GHSA-wh4h-v3f2-r2pp:高危;Django 2.1;不受控制的内存消耗
- GHSA-32gv-6cf3-wcmq:严重;Twisted 18.7.0;HTTP/2 DoS 攻击
- GHSA-65rm-h285-5cc5:高危;Twisted 18.7.0;不正确的证书验证
- GHSA-92x2-jw7w-xvvx:高危;Twisted 18.7.0;Cookie 和标头泄露
- GHSA-c2jg-hw38-jrqq:高危;Twisted 18.7.0;HTTP 请求走私
- GHSA-h96w-mmrf-2h6v:严重;Twisted 18.7.0;不正确的输入验证
- GHSA-p5xh-vx83-mxcj:严重;Twisted 18.7.0;HTTP 请求走私
- GHSA-5545-2q6w-2gh6:高危;numpy 1.15.1;空指针解引用
- CVE-2019-6446:严重;numpy 1.15.1;反序列化不受信任的数据
- GHSA-h4m5-qpfp-3mpv:高危;Babel 2.6.0;任意代码执行
- GHSA-ffqj-6fqr-9h24:高危;PyJWT 1.6.4;通过非黑名单公钥格式造成的密钥混淆
- GHSA-h7wm-ph43-c39p:高危;Scrapy 1.5.1;不受控制的内存消耗
- CVE-2022-39286:高危;jupyter_core 4.11.2;任意代码执行
- GHSA-55x5-fj6c-h6m8:高危;lxml 4.2.4;通过 lxml HTML 清理器允许恶意代码
- GHSA-wrxv-2j5q-m38w:高危;lxml 4.2.4;空指针解引用
- GHSA-gpvv-69j7-gwj8:高危;pip 8.1.2;路径遍历
- GHSA-hj5v-574p-mj7c:高危;py 1.6.0;正则表达式 DoS
- GHSA-x84v-xcm2-53pg:高危;requests 2.19.1;凭据保护不足
- GHSA-mh33-7rrq-662w:高危;urllib3 1.23;不正确的证书验证
- CVE-2021-33503:高危;urllib3 1.23;拒绝服务攻击
- GHSA-2m34-jcjv-45xf:中危;Django 2.1;Django 中的 XSS
- GHSA-337x-4q8g-prc5:中危;Django 2.1;不正确的输入验证
- GHSA-68w8-qjq3-2gfm:中危;Django 2.1;路径遍历
- GHSA-6c7v-2f49-8h26:中危;Django 2.1;明文传输敏感信息
- GHSA-6mx3-3vqg-hpp2:中危;Django 2.1;Django 允许非特权用户读取任意账户的密码哈希值
- GHSA-7rp2-fm2h-wchj:中危;Django 2.1;Django 中的 XSS
- GHSA-hvmf-r92r-27hr:中危;Django 2.1;Django 允许意外的模型编辑
- GHSA-wpjr-j57x-wxfw:中危;Django 2.1;通过 Django 中的缓存键冲突导致的数据泄露
- GHSA-9x8m-2xpf-crp3:中危;Scrapy 1.5.1;使用 HTTP 代理时凭据泄露
- GHSA-cjvr-mfj7-j4j8:中危;Scrapy 1.5.1;不正确的授权和信息泄露
- GHSA-jwqp-28gf-p498:中危;Scrapy 1.5.1;凭据泄露
- GHSA-mfjm-vh54-3f96:中危;Scrapy 1.5.1;Cookie 设置不受限制
- GHSA-6cc5-2vg4-cc7m:中危;Twisted 18.7.0;在 URI/方法中注入无效字符
- GHSA-8r99-h8j2-rw64:中危;Twisted 18.7.0;HTTP 请求走私
- GHSA-vg46-2rrj-3647:中危;Twisted 18.7.0;NameVirtualHost Host 标头注入
- GHSA-39hc-v87j-747x:中危;cryptography 37.0.2;cryptography wheels 中包含易受攻击的 OpenSSL
- GHSA-hggm-jpg3-v476:中危;cryptography 2.3.1;RSA 解密易受 Bleichenbacher 时序漏洞攻击
- GHSA-jq4v-f5q6-mjqq:中危;lxml 4.2.4;XSS
- GHSA-pgww-xf46-h92r:中危;lxml 4.2.4;XSS
- GHSA-xp26-p53h-6h2p:中危;lxml 4.2.4;LXML 中网页生成期间输入中和不当
- GHSA-6p56-wp2h-9hxr:中危;numpy 1.15.1;NumPy 缓冲区溢出,极不可能被非特权用户利用
- GHSA-f7c7-j99h-c22f:中危;numpy 1.15.1;NumPy 中不检查输入大小的缓冲区复制
- GHSA-fpfv-jqm9-f5jm:中危;numpy 1.15.1;NumPy 中不正确的比较
- GHSA-5xp3-jfq3-5q8x:中危;pip 8.1.2;pip 中不正确的输入验证
- GHSA-w596-4wvx-j9j6:中危;py 1.6.0;当与 subversion 一起使用时,py 库中的 ReDoS
- GHSA-hwfp-hg2m-9vr2:中危;pywin32 223;pywin32 中的整数溢出
- GHSA-r64q-w8jr-g9qp:中危;urllib3 1.23;CRLF 序列中和不当
- GHSA-wqvq-5m8c-6g24:中危;urllib3 1.23;CRLF 注入
声明
本指南中的信息以及本指南中引用的 NVIDIA 文档中包含的所有其他信息均按“原样”提供。NVIDIA 不对产品信息的完整性做出任何明示、暗示、法定或其他方面的保证,并且明确声明不对非侵权性、适销性和特定用途适用性的所有暗示保证承担责任。 尽管客户可能因任何原因遭受任何损失,但 NVIDIA 对客户就本指南中描述的产品承担的总体和累积责任应根据 NVIDIA 产品销售条款和条件进行限制。
本指南中描述的 NVIDIA 产品不具有容错性,并非设计、制造或旨在用于与以下任何系统的设计、建造、维护和/或操作相关的用途,在这些系统中,此类系统的使用或故障可能会导致威胁人类生命安全或严重的身体伤害或财产损失的情况(包括但不限于用于任何核、航空电子、生命支持或其他生命攸关的应用)。NVIDIA 明确否认对如此高风险用途的适用性做出任何明示或暗示的保证。对于因如此高风险用途引起的任何索赔或损害,NVIDIA 不对客户或任何第三方承担全部或部分责任。
NVIDIA 不保证或声明本指南中描述的产品在未经进一步测试或修改的情况下适用于任何特定用途。NVIDIA 不一定对每个产品的所有参数进行测试。客户全权负责确保产品适用于客户计划的应用,并为该应用进行必要的测试,以避免应用或产品的默认设置。客户产品设计中的缺陷可能会影响 NVIDIA 产品的质量和可靠性,并可能导致超出本指南中包含的额外或不同的条件和/或要求。对于因以下原因引起或归因于以下原因的任何默认设置、损坏、成本或问题,NVIDIA 不承担任何责任:(i) 以任何违反本指南的方式使用 NVIDIA 产品,或 (ii) 客户产品设计。
除客户有权将本指南中的信息与产品一起使用外,NVIDIA 在本指南中未授予任何其他明示或暗示的许可。只有在获得 NVIDIA 书面批准、未经修改地复制且附带所有相关的条件、限制和声明的情况下,才允许复制本指南中的信息。
商标
NVIDIA 和 NVIDIA 徽标是 NVIDIA Corporation 在美国和其他国家/地区的商标和/或注册商标。其他公司和产品名称可能是与其相关的各自公司的商标。
版权
© 2025 NVIDIA CORPORATION & AFFILIATES。保留所有权利。