1. 概述
2. Fabric Manager 入门
3. 裸金属模式
4. 虚拟化模型
5. Fabric Manager SDK
6. 完全直通虚拟化模型
7. 共享 NVSwitch 虚拟化模型
8. vGPU 虚拟化模型
9. 支持的高可用性模式
10. NVLink 拓扑
11. GPU 分区
12. 弹性
13. 错误处理
14. 通知
NVIDIA NVSwitch 系统 Fabric Manager
»
目录
v560 |
PDF
|
目录
1. 概述
1.1. 简介
1.2. 基于 NVSwitch 的系统
1.3. 术语
1.4. NVSwitch 核心软件堆栈
1.5. 什么是 Fabric Manager?
2. Fabric Manager 入门
2.1. 基本组件
2.1.1. Fabric Manager 服务
2.1.2. 软件开发工具包
2.2. NVSwitch 和 NVLink 初始化
2.3. 支持的平台
2.3.1. 硬件架构
2.3.2. NVIDIA 服务器架构
2.3.3. 操作系统环境
2.4. 支持的部署模型
2.5. 其他 NVIDIA 软件包
2.6. 安装
2.6.1. 在基于 NVSwitch 的 DGX 服务器系统上
2.6.2. 在基于 NVSwitch 的 NVIDIA HGX 服务器系统上
2.7. 管理 Fabric Manager 服务
2.7.1. 启动 Fabric Manager
2.7.2. 停止 Fabric Manager
2.7.3. 检查 Fabric Manager 状态
2.7.4. 启用 Fabric Manager 服务以在启动时自动启动
2.7.5. 禁用 Fabric Manager 服务在启动时自动启动
2.7.6. 检查 Fabric Manager 系统日志消息
2.8. Fabric Manager 启动选项
2.9. Fabric Manager 服务文件
2.9.1. 在基于 Linux 的系统上
2.10. 以非 Root 用户身份运行 Fabric Manager
2.11. Fabric Manager 配置选项
2.11.1. 与日志相关的配置项
2.11.1.1. 设置日志文件位置和名称
2.11.1.2. 设置所需的日志级别
2.11.1.3. 设置日志文件追加行为
2.11.1.4. 设置日志文件大小
2.11.1.5. 将日志重定向到 Syslog
2.11.1.6. 轮换设置
2.11.2. 与操作模式相关的配置项
2.11.2.1. Fabric Manager 操作模式
2.11.2.2. Fabric Manager 重启模式
2.11.2.3. Fabric Manager API 接口
2.11.2.4. Fabric Manager API TCP 端口
2.11.2.5. Fabric Manager 域套接字接口
2.11.2.6. Fabric Manager 状态
2.11.3. 其他配置项
2.11.3.1. 阻止 Fabric Manager 守护进程化
2.11.3.2. Fabric Manager 通信套接字接口
2.11.3.3. Fabric Manager 通信 TCP 端口
2.11.3.4. 用于 Fabric Manager 通信的 Unix 域套接字
2.11.3.5. Fabric Manager 系统拓扑文件位置
2.11.4. 与高可用性模式相关的配置项
2.11.4.1. 控制 Fabric Manager 在初始化失败时的行为
2.11.4.2. GPU 访问 NVLink 故障模式
2.11.4.3. NVSwitch 中继 NVLink 故障模式
2.11.4.4. NVSwitch 故障模式
2.11.4.5. 当 Fabric Manager 服务停止或终止时 CUDA 作业的行为
3. 裸金属模式
3.1. 简介
3.2. Fabric Manager 安装
3.2.1. 在基于 NVSwitch 的 DGX 服务器系统上
3.2.2. 在基于 NVSwitch 的 NVIDIA HGX 服务器系统上
3.3. 运行时 NVSwitch 和 GPU 错误
3.3.1. NVSwitch SXid 错误
3.3.1.1. NVSwitch 非致命 SXid 错误
3.3.1.2. NVSwitch 致命 SXid 错误
3.3.2. GPU Xid 错误
3.4. 与 MIG 的互操作性
4. 虚拟化模型
4.1. 简介
4.2. 支持的虚拟化模型
5. Fabric Manager SDK
5.1. 数据结构
5.2. 初始化 Fabric Manager API 接口
5.3. 关闭 Fabric Manager API 接口
5.4. 连接到正在运行的 Fabric Manager 实例
5.5. 断开与正在运行的 Fabric Manager 实例的连接
5.6. 获取支持的分区
5.7. 激活 GPU 分区
5.8. 使用虚拟功能激活 GPU 分区
5.9. 停用 GPU 分区
5.10. 在 Fabric Manager 重启后设置激活的分区列表
5.11. 获取 NVLink 失败的设备
5.12. 获取不支持的分区
6. 完全直通虚拟化模型
6.1. 支持的虚拟机配置
6.2. 具有 16 个 GPU 的虚拟机
6.3. 具有 8 个 GPU 的虚拟机
6.4. 具有 4 个 GPU 的虚拟机
6.5. 具有 2 个 GPU 的虚拟机
6.6. 具有 1 个 GPU 的虚拟机
6.7. 其他要求
6.8. Hypervisor 序列
6.9. 监控错误
6.10. 限制
7. 共享 NVSwitch 虚拟化模型
7.1. 软件堆栈
7.2. Guest VM 到 Service VM 的交互
7.3. 准备服务虚拟机
7.3.1. 操作系统镜像
7.3.2. 资源需求
7.3.3. NVIDIA 软件包
7.3.4. Fabric Manager 配置文件修改
7.3.5. 其他 NVIDIA 软件包
7.4. FM 共享库和 API
7.4.1. 示例代码
7.5. Fabric Manager 弹性
7.6. 服务虚拟机生命周期管理
7.6.1. 用于共享 NVSwitch 虚拟化模式的 GPU 分区
7.6.2. 构建 GPU 到分区的映射
7.6.3. 启动服务虚拟机
7.6.4. 重启服务虚拟机
7.6.5. 关闭服务
7.7. Guest 虚拟机生命周期管理
7.7.1. Guest 虚拟机 NVIDIA 驱动程序包
7.7.2. 启动 Guest 虚拟机
7.7.3. 关闭 Guest 虚拟机
7.7.4. 重启 Guest 虚拟机
7.7.5. 验证 GPU 路由
7.8. 错误处理
7.8.1. Guest 虚拟机 GPU 错误
7.8.2. 处理服务虚拟机崩溃
7.9. 与多实例 GPU 的互操作性
7.9.1. 初始化服务虚拟机
7.9.2. 激活 Guest 虚拟机
8. vGPU 虚拟化模型
8.1. 软件堆栈
8.2. 准备 vGPU 主机
8.2.1. 操作系统镜像
8.2.2. NVIDIA 软件包
8.2.3. Fabric Manager 配置文件修改
8.3. Fabric Manager 共享库和 API
8.4. Fabric Manager 弹性
8.5. vGPU 分区
8.6. Guest 虚拟机生命周期管理
8.6.1. 激活分区并启动虚拟机
8.6.2. 停用分区
8.6.3. 迁移虚拟机
8.6.4. 在 GPU 模式下验证 NVSwitch 路由
8.7. 错误处理
8.7.1. Guest 虚拟机 GPU 错误
8.8. GPU 重置
8.9. 与 MIG 的互操作性
8.9.1. 在启动 Fabric Manager 服务之前启用 MIG
8.9.2. 在启动 Fabric Manager 服务之后启用 MIG
9. 支持的高可用性模式
9.1. 常用术语
9.2. GPU 访问 NVLink 故障
9.2.1. Fabric Manager 配置项
9.2.2. 裸金属行为
9.2.3. 共享 NVSwitch 和 vGPU 虚拟化行为
9.3. 中继 NVLink 故障
9.3.1. Fabric Manager 配置项
9.3.2. 裸金属行为
9.3.3. 共享 NVSwitch 和 vGPU 虚拟化行为
9.4. NVSwitch 故障
9.4.1. Fabric Manager 配置项
9.4.2. 裸金属行为
9.4.3. 共享 NVSwitch 和 vGPU 虚拟化行为
9.5. GPU 故障
9.5.1. 裸金属行为
9.5.2. 共享 NVSwitch 和 vGPU 虚拟化行为
9.6. 手动降级
9.6.1. GPU 排除
9.6.1.1. GPU 排除流程
9.6.1.2. 运行应用程序错误处理
9.6.1.3. 诊断 GPU 故障
9.6.1.4. 带内 GPU 排除机制
9.6.1.5. 内核模块参数
9.6.1.6. 从排除候选列表中添加/删除 GPU
9.6.1.7. 列出排除的 GPU
9.6.1.8. nvidia-smi
9.6.1.9. Procfs
9.6.1.10. 带外查询
9.6.1.11. 运行 GPU 排除脚本
9.6.1.12. 裸金属和 vGPU 配置
9.6.1.13. 完全直通虚拟化配置
9.6.1.14. 共享 NVSwitch 虚拟化配置
9.6.2. NVSwitch 排除
9.6.2.1. 带内 NVSwitch 排除
9.6.2.2. 内核模块参数
9.6.2.3. 带外 NVSwitch 排除
10. NVLink 拓扑
10.1. NVIDIA HGX-2 GPU 基板
10.2. NVIDIA HGX A100 GPU 基板
10.3. NVIDIA HGX H100 GPU 基板
11. GPU 分区
11.1. DGX-2 和 NVIDIA HGX-2
11.2. DGX A100 和 NVIDIA HGX A100
11.2.1. 默认 GPU 分区
11.2.2. 支持的 GPU 分区
11.3. DGX H100 和 HGX H100
11.3.1. 默认 GPU 分区
11.3.2. 支持的 GPU 分区
12. 弹性
12.1. 高级流程
12.2. 详细的弹性流程
13. 错误处理
13.1. FM 初始化错误
13.2. 分区生命周期错误
13.3. 运行时 NVSwitch 错误
13.4. 非致命 NVSwitch SXid 错误
13.5. 致命 NVSwitch SXid 错误
13.6. 始终致命 NVSwitch SXid 错误
13.7. 其他值得注意的 NVSwitch SXid 错误
13.8. 高可用性模式比较
13.9. GPU/VM/系统重置功能和限制
14. 通知
14.1. 通知
14.2. OpenCL
14.3. 商标