配置和集群管理
集群管理工具超越了资源管理器和作业调度器,管理整个集群中每个节点的状态。它们通常包括配置集群中节点的机制(安装操作系统镜像、固件和驱动程序)、部署作业调度器、监控和管理硬件、配置用户访问以及修改软件堆栈。
DGX 系统的配置和集群管理可以使用 DeepOps 进行引导。DeepOps 是开源且高度模块化的。它具有可以配置以满足组织需求的默认设置,并融入了部署 GPU 加速的 Kubernetes 和 Slurm 的最佳实践。
或者,Bright Cluster Manager 可以通过裸金属部署完整的 DGX POD 并有效地管理它们。它为整个 DGX POD 提供管理,包括硬件、操作系统和用户。它甚至管理数据分析软件、NGC、Bright Data Science、Kubernetes、Docker 和 Singularity 容器。借助 Bright Cluster Manager,系统管理员可以快速启动 DGX POD,并在其整个生命周期内保持它们可靠运行——所有这些都以功能齐全的企业级集群管理器的简易性和优雅性实现。