DGX BasePOD 概述#
DGX BasePOD 是一种集成解决方案,由 NVIDIA 硬件和软件组件、MLOps 解决方案和第三方存储组成。通过利用 NVIDIA 产品和经过验证的合作伙伴解决方案的横向扩展系统设计的最佳实践,客户可以为 AI 开发实施高效且可管理的平台。此 DGX BasePOD 参考架构 (RA) 中的设计支持开发人员的需求,简化 IT 管理,并支持基础设施从两个节点扩展到数十个节点,并采用来自行业领先生态系统的经过认证的存储平台。可选的 MLOps 解决方案可以与 DGX BasePOD 集成,以实现完整的堆栈解决方案,从而缩短 AI 模型开发周期并加快 AI 计划的投资回报率。
图 1 重点介绍了 NVIDIA DGX BasePOD 的各种组件。这些层中的每一层都是一个集成点,用户通常必须在部署应用程序之前构建和调整这些集成点。RA 中的设计使用经过验证的规范性架构简化了系统部署和优化。

图 1. DGX BasePOD 的集成层#
NVIDIA 网络#
InfiniBand 和以太网技术支持 DGX BasePOD 中的网络功能。适当的网络对于确保 DGX BasePOD 没有瓶颈或 AI 工作负载的性能下降至关重要。有关支持此功能的产品和技术的更多信息,请参阅NVIDIA 网络。
合作伙伴存储设备#
DGX BasePOD 构建在经过验证的存储技术生态系统之上。随着 NVIDIA 验证的存储合作伙伴将新的存储技术引入市场,他们将使用 DGX BasePOD 对这些新产品进行认证,以确保设计兼容性和已知工作负载的预期性能。每个存储合作伙伴都进行了严格的测试,以确保应用程序在使用 DGX BasePOD 部署时获得最高的性能和吞吐量。
NVIDIA 软件#
NVIDIA Base Command#
NVIDIA Base Command(图 2)为每个 DGX BasePOD 提供支持,使组织能够充分利用 NVIDIA 软件创新的优势。企业可以通过经过验证的平台充分发挥其投资潜力,该平台包括企业级编排和集群管理、加速计算、存储和网络基础设施的库以及针对 AI 工作负载优化的操作系统 (OS)。

图 2. NVIDIA Base Command 功能和特性与 DGX BasePOD#
DGX BasePOD 硬件通过加速库进一步优化,这些加速库知道如何最大化 GPU、DGX 系统和整个 DGX 集群中 AI 工作负载的性能,从而加快从系统 I/O 到存储再到网络结构的数据访问、移动和管理。
Base Command 提供集成的集群管理,从安装和配置到对系统的持续监控(从一台到数百台 DGX 系统)。Base Command 还支持多种工作流程管理方法。Slurm 或 Kubernetes 都可以用于在多用户环境中实现系统资源的最佳调度和管理。
NVIDIA NGC#
NVIDIA NGC™(图 3)提供软件,以满足具有不同 AI 专业水平的数据科学家、开发人员和研究人员的需求。

图 3. NGC 目录概述#
NGC 上托管的软件会针对一组聚合的常见漏洞和风险 (CVE)、加密和私钥进行扫描。它经过测试并设计为可扩展到多个 GPU,在许多情况下,可扩展到多节点,从而确保用户最大程度地利用其在 DGX 系统上的投资。
NVIDIA AI Enterprise#
NVIDIA AI Enterprise 是端到端软件平台,可让每家企业都能触及生成式 AI,为使用 NVIDIA DGX 平台开发的生成式 AI 基础模型提供最快、最高效的运行时。凭借生产级安全性、稳定性和可管理性,它简化了生成式 AI 解决方案的开发。NVIDIA AI Enterprise 随 DGX SuperPOD 一起提供,供企业开发人员访问预训练模型、优化框架、微服务、加速库和企业支持。