摘要#
作为 NVIDIA DGX™ 平台的一部分,NVIDIA DGX BasePOD™ 为人工智能 (AI) 工作负载提供本地基础设施。此基础设施非常适合稳定的用例和资源需求。
然而,需求有时可能会超出资源可用性,或者用户可能需要访问与其 DGX 基础设施提供的资源不同的资源。
管理单独的资源池以支持不断变化的需求通常需要开发云管理工具和接口方面的丰富专业知识。单独的资源池通常需要用户教育才能请求适当的系统或环境,从而导致次优的资源利用率和用户困惑。
现在,通过 NVIDIA Base Command™ Manager (BCM) 软件的功能,这些场景已得到解决。管理员现在可以将按需公共云资源直接与本地 DGX BasePOD 私有云环境集成,并在多云架构中透明地提供组合资源。
本文档介绍如何使用 Amazon Web Services (AWS) 中的额外 NVIDIA GPU 扩展 DGX BasePOD,并从统一的用户界面管理整个基础设施。鉴于 AWS 为通用计算和使用 NVIDIA GPU 的加速计算提供了广泛的实例,它是用作 BCM 中云资源集成基础的绝佳选择。
通过现有基础设施提供对本地和公共云资源的协调访问,极大地简化了管理员和用户体验,并使为任何工作轻松使用正确的工具。