安装 AI 和数据科学应用程序及框架#

访问 AI 和数据科学工具及框架#

AI 和数据科学应用程序及框架通过 NVIDIA NGC 目录以 NGC 容器镜像的形式分发。每个容器镜像都包含运行应用程序或框架所需的完整用户空间软件堆栈;即 CUDA 库、cuDNN、任何必需的 Magnum IO 组件、TensorRT 和框架。

在您希望将 AI 和数据科学容器拉取到的环境中执行以下工作流程步骤。

首先,您需要使用您的 NVIDIA 帐户和密码登录 NGC

_images/ngc1.png

转到设置。

_images/ngc2.png

选择“获取 API 密钥”。

_images/ngc3.png

生成您的 API 密钥。

_images/ngc4.png

确认生成新的 API 密钥。

_images/ngc5.png

将您的 API 密钥复制到剪贴板

注意

选择“确认”将生成一个新的 API 密钥,并且您旧的 API 密钥将失效(如果适用)。

_images/ngc6.png

当您从命令行与存储库交互时,如果您想拉取锁定的容器镜像或推送回注册表,则需要使用 API 密钥。API 密钥对您是唯一的,并且与您的帐户关联。

重要提示

请将您的 API 密钥保密并存放在安全的地方。不要共享它或将其存储在其他人可以看到或复制它的地方。

返回到 SSH 会话和/或环境终端,登录 Docker 并开始从 NVIDIA AI NGC 目录中拉取容器。

登录到 NGC 容器注册表。

docker login nvcr.io

当提示您输入用户名时,输入以下文本

$oauthtoken

注意

$oauthtoken 用户名是一个特殊的用户名,它表明您将使用 API 密钥而不是用户名和密码进行身份验证。

当提示您输入密码时,粘贴您的 NGC API 密钥,如下例所示。

Username: $oauthtoken
Password: my-api-key

注意

当您按照 生成您的 NGC API 密钥 中所述获取 API 密钥后,将其复制到剪贴板,以便在提示您输入密码时,您可以将 API 密钥粘贴到命令 shell 中。

生产分支旨在为构建在 NVIDIA AI 上的应用程序提供稳定性和安全性,提供 9 个月的支持、API 稳定性以及针对高危和严重软件漏洞的每月修复。生产分支提供了一个稳定且安全的环境,以维持关键任务 AI 应用程序的正常运行时间。

功能分支和模型提供最新的 AI 框架、库、工作流程、模型和工具,用于性能优化的 AI 开发和部署软件。

NVIDIA AI Enterprise 的基础设施版本为 IT 专业人员提供了基础设施优化和管理软件,以有效管理和扩展 AI 工作负载。

下面的章节提供了使用 Tensorflow 的容器拉取的示例以及详细步骤。我们将使用“拉取标签”功能,以便轻松地将我们的容器拉取命令复制并粘贴到所需的环境中。

NVIDIA AI Enterprise 搜索过滤器#

通过使用 NVIDIA AI Enterprise 搜索过滤器,用户可以通过 NGC 目录访问针对深度学习、机器学习和 HPC 优化的 GPU 软件,该目录提供容器、模型、模型脚本和行业解决方案。

_images/ngc-12.png

下面的章节提供了使用 NVIDIA RAPIDS 生产分支的容器拉取的示例,并提供了使用 NVIDIA AI Enterprise 搜索过滤器的详细步骤。我们将使用“拉取标签”功能,以便轻松地将我们的容器拉取命令复制并粘贴到所需的环境中。

导航到搜索过滤器并选择“NVIDIA AI Enterprise 支持”、“NVIDIA AI Enterprise Essentials”、“Container”和“Rapids”,如下图所示。

_images/ngc-13.png

导航到获取容器并将命令复制到剪贴板。

_images/ngc-14.png

将命令粘贴到您的 SSH 会话中

sudo docker pull nvcr.io/nvidia/rapids-pb23h2:23.06.04-runtime

对于您感兴趣的每个 AI 或数据科学应用程序,使用拉取命令功能加载容器。

为了参考,下面详细列出了下载每个应用程序或框架的容器的 Docker 拉取命令,其中上下文为 <NVAIE-CONTAINER-TAG>

NVIDIA TensorRT#

NVIDIA TensorRT 是一个 C++ 库,它有助于在 NVIDIA 图形处理单元 (GPU) 上进行高性能推理。TensorRT 接受一个训练好的网络,并生成一个高度优化的运行时引擎,该引擎为该网络执行推理。

sudo docker pull nvcr.io/nvidia/tensorrt:<NVAIE-CONTAINER-TAG>

NVIDIA Triton 推理服务器#

Triton 推理服务器是一个开源软件,它使团队能够从任何框架、本地或云存储以及云、数据中心或嵌入式设备中任何基于 GPU 或 CPU 的基础设施部署训练好的 AI 模型。

  • xx.yy-py3 镜像包含 Triton 推理服务器,并支持 Tensorflow、PyTorch、TensorRT、ONNX 和 OpenVINO 模型。

sudo docker pull nvcr.io/nvidia/tritonserver:<CONTAINER-TAG>

NVIDIA RAPIDS#

NVIDIA RAPIDS 软件库套件使您可以自由地完全在 GPU 上执行端到端的数据科学、机器学习和分析管道。

sudo docker nvcr.io/nvidia/rapidsai/notebooks:<CONTAINER-TAG>

PyTorch#

PyTorch 是一个 GPU 加速的张量计算框架。可以使用常见的 Python 库(如 NumPy 和 SciPy)扩展功能。自动微分是通过基于磁带的系统在功能层和神经网络层级别完成的。

sudo docker pull nvcr.io/nvidia/pytorch:<NVAIE-CONTAINER-TAG>

TensorFlow#

TensorFlow 是一个用于机器学习的开源平台。它在灵活的架构中提供全面的工具和库,可以轻松地跨各种平台和设备进行部署。

1sudo docker pull nvcr.io/nvidia/tensorflow:<CONTAINER-TAG>
2sudo docker pull nvcr.io/nvidia/tensorflow:<CONTAINER-TAG>

TAO 工具包#

在 2.0 版本中添加。

Train Adapt Optimize (TAO) 工具包是一个基于 Python 的 AI 工具包,用于获取专门构建的预训练 AI 模型并使用您自己的数据对其进行自定义。TAO 使流行的网络架构和骨干适应您的数据,使您可以训练、微调和导出高度优化且准确的 AI 模型以进行部署。

1sudo docker pull nvcr.io/nvidia/tao-toolkit-lm:<NVAIE-CONTAINER-TAG>
2sudo docker pull nvcr.io/nvidia/tao-toolkit-pyt:<NVAIE-CONTAINER-TAG>
3sudo docker pull nvcr.io/nvidia/tao-toolkit-tf:<NVAIE-CONTAINER-TAG>