DGX SuperPOD 软件#

DGX SuperPOD 是一种集成的硬件和软件解决方案。随附的软件 (图 13) 从上到下都针对 AI 进行了优化。从加速框架和工作流程管理,到系统管理和底层操作系统 (OS) 优化,堆栈的每个部分都旨在最大限度地提高 DGX SuperPOD 的性能和价值。

_images/image16.png

图 13 DGX SuperPOD 高级软件架构#

NVIDIA Base Command#

NVIDIA Base Command 为每个 DGX SuperPOD 提供支持,使组织能够充分利用 NVIDIA 软件创新的优势。企业可以通过经过验证的平台充分发挥其投资潜力,该平台包括企业级编排和集群管理、加速计算、存储和网络基础设施的库以及针对 AI 工作负载优化的操作系统。

NVIDIA NGC#

NGC 提供软件以满足具有不同 AI 专业知识水平的数据科学家、开发人员和研究人员的需求。

NGC 上托管的软件会针对一组聚合的常见漏洞和暴露 (CVE)、加密和私钥进行扫描。

来自 NGC 目录的软件经过测试,确保可以扩展到多个 GPU,在某些情况下,可以扩展到多节点,从而确保用户最大限度地利用其 DGX SuperPOD。

NVIDIA AI Enterprise#

NVIDIA AI Enterprise 是端到端软件平台,使每个企业都能触手可及地使用生成式 AI,为使用 NVIDIA DGX 平台开发的生成式 AI 基础模型提供最快、最高效的运行时。凭借生产级安全性、稳定性和可管理性,它简化了生成式 AI 解决方案的开发。DGX SuperPOD 随附 NVIDIA AI Enterprise,供企业开发人员访问预训练模型、优化框架、微服务、加速库和企业支持。

Run:ai#

Run:ai 是云原生 AI 工作负载和 GPU 编排平台,通过动态资源分配、全面的 AI 生命周期支持、战略资源管理和高级调度,简化并加速 DGX SuperPOD 上的 AI 和机器学习。Run:ai 最大限度地提高了 GPU 效率和工作负载容量。其策略引擎、开放式架构以及对 AI 工作负载的可见性促进了与业务目标的战略对齐。这提高了集群效率和利用率,所有这些都无需手动资源干预,从而加速了创新,并为企业提供了可扩展、敏捷且经济高效的解决方案。