管理高速 Fabric#

高速 InfiniBand Fabric 通过 NVIDIA Unified Fabric Manager (UFM) 进行管理。UFM 是一个强大的平台,用于管理横向扩展计算环境。UFM 使数据中心运营商能够高效地监控和运行整个 Fabric,提升应用程序性能,并最大限度地提高 Fabric 资源利用率。

虽然其他工具以设备为中心并涉及手动流程,但 UFM 自动化和以应用程序为中心的方法弥合了服务器、应用程序和 Fabric 元素之间的差距,从而使管理员能够管理和优化从最小到最大和性能要求最高的集群。

UFM 的仪表板如图 图 14 所示。

图 14. UFM 仪表板

_images/monitoring-cluster-07.png

验证 UFM 是否正在运行#

使用 ufmha status 服务命令验证 UFM 是否正在运行

 1ufm001# service ufmha status
 2ufmha status
 3========================================
 4Local Host
 5Server               ufm001
 6Kernel               3.10.0-1127.19.1.el7.x86_64
 7IP Address           10.166.130.31
 8HA Interface         bond0
 9DRBD Partition       /dev/sda6
10Heartbeat            Master
11Mysql                Running
12UFM Server           Running
13DRBD State           Primary
14DRBD Device State    UpToDate
15========================================
16Remote Host
17Server               ufm002
18Kernel               3.10.0-1127.19.1.el7.x86_64
19IP Address           10.166.130.32
20HA Interface         bond0
21DRBD Partition       /dev/sda6
22Heartbeat            Slave
23Mysql                Stopped
24UFM Server           Stopped
25DRBD State           Secondary
26DRBD Device State    UpToDate
27========================================
28Virtual IP           10.166.130.58/24
29Broadcast IP         10.166.130.255
30========================================

有关完整文档,请参阅 https://support.mellanox.com/s/productdetails/a2v50000000XcP4AAK/ufm