概述#

本文档是 NVIDIA DGX BasePOD:部署指南,以 NVIDIA DGX A100 系统为例 的一部分。

人工智能 (AI) 基础设施需要大量的计算资源来高效地训练最新的先进模型,通常需要多个节点在分布式集群中运行。

虽然云计算为训练 AI 模型提供了便捷的途径,但许多企业出于各种技术或业务原因需要本地数据中心。

在本地构建 AI 基础设施可能是一个复杂且令人困惑的过程。仔细的规划和协调将使集群部署以及集群管理员的日常运营工作更加轻松。

NVIDIA DGX BasePOD™ 提供底层基础设施和软件,以加速这些新型 AI 工作负载的部署和执行。DGX BasePOD 基于 NVIDIA DGX™ 系统的成功经验构建,是面向企业的规范性 AI 基础设施,消除了传统上与扩展 AI 基础设施相关的设计挑战、漫长的部署周期和管理复杂性。

DGX BasePOD 构建于 NVIDIA DGX A100 系统之上,该系统通过八个 NVIDIA A100 Tensor Core GPU 以及 NVIDIA NVLink® 和 NVIDIA NVSwitch™ 技术提供前所未有的计算性能,以实现快速的 GPU 间通信。

在 NVIDIA Base Command™ 的驱动下,DGX BasePOD 为针对企业优化的 AI 开发提供了必要的基础。