摘要#
企业内部人工智能的用例数量持续快速增长,包括语言建模、网络安全、自主系统和医疗保健等示例。不仅用例数量增长,模型复杂性和数据源也在增长。处理、训练和服务这些下一代模型所需的系统也必须随之增长。训练模型通常使用数十个 GPU 来评估和优化不同的模型配置和参数。训练数据必须易于所有 GPU 访问,以用于这些新的工作负载。此外,组织拥有许多人工智能研究人员,他们必须同时训练多个模型。企业需要灵活性,以便多个开发人员和研究人员在改进其 AI 堆栈并将其投入生产时共享这些资源。

NVIDIA DGX BasePOD™ 提供底层基础设施和软件,以加速这些 AI 工作负载的部署和执行。通过构建在 NVIDIA DGX 系统的成功基础之上,DGX BasePOD 成为面向企业的指导性 AI 基础设施,消除了传统上与扩展 AI 基础设施相关的设计挑战、漫长的部署周期和管理复杂性。DGX BasePOD 由 NVIDIA Base Command™ 提供支持,为针对企业优化的 AI 开发提供了必要的基础。
本参考架构讨论了 DGX BasePOD 的关键组件,并为 DGX BasePOD 解决方案提供了指导性设计。