头节点

头节点是集群中非常有用的服务器。通常,它运行集群管理软件、资源管理器以及使用的任何监控工具。对于较小的集群,它也用作用户创建和提交作业的登录节点。

对于任何规模的集群,包括 DGX-2DGX-1 甚至一组 DGX Stations,头节点都非常有帮助。它允许 DGX 系统专注于计算,而不是用户可能正在进行的任何交互式登录或后处理。随着集群中节点数量的增加,建议使用头节点。

建议根据以下事项调整头节点的大小:
  • 交互式用户登录
  • 资源管理(运行作业调度器)
  • 图形预处理和后处理
    • 考虑在头节点中使用 GPU 进行可视化
  • 集群监控
  • 集群管理

由于头节点成为集群运行的重要组成部分,请考虑对头节点中的操作系统驱动器使用 RAID-1 以及冗余电源。这有助于提高头节点的正常运行时间。

对于较小的集群,您还可以通过在头节点中添加存储和更多内存,并将存储 NFS 导出到集群客户端,从而将头节点用作 NFS 服务器。对于较大的集群,建议使用专用存储,无论是 NFS 还是并行文件系统。

对于 InfiniBand 网络,头节点也可以用于运行软件 SM。如果您希望 SM 具有一些 HA,请在头节点上运行主 SM,并在 IB 交换机上使用 SM 作为辅助 SM(硬件 SM)。

随着集群的增长,建议考虑将登录和数据处理功能从头节点拆分到一个或多个专用登录节点。随着用户数量的增长,情况也是如此。您可以在头节点上运行主 SM,在登录节点上运行其他 SM。您甚至可以使用交换机上的硬件 SM 作为备份。