NVIDIA DGX H100/H200 系统用户指南# NVIDIA DGX H100/H200 系统用户指南 也可作为 PDF 文件提供。 NVIDIA DGX H100/H200 系统简介 硬件概述 DGX H100/H200 组件描述 机械规格 电源规格 支持 PSU 冗余和持续运行 DGX H100/H200 锁定电源线规格 使用锁定电源线 环境规格 前面板连接和控制 带挡板 移除挡板后 后面板模块 主板连接和控制 主板托盘组件 GPU 托盘组件 网络连接、线缆和适配器 网络端口 计算和存储网络 网络模块 BMC 端口 LED 支持的网络线缆和适配器 DGX H100/200 系统拓扑 DGX OS 软件 客户支持 连接到 DGX H100/H200 连接到控制台 直接连接 通过 BMC 远程连接 SSH 连接到操作系统 首次启动设置 系统设置 设置后任务 获取软件更新 启用 SRP 守护程序 快速入门和基本操作 安装和配置 注册 获取 NGC 帐户 开启和关闭 DGX H100/H200 启动注意事项 关机注意事项 验证功能 - 快速健康检查 运行预检测试 运行支持 GPU 的 NGC 容器 使用原生 GPU 支持 使用 NVIDIA Container Runtime for Docker 管理 CPU 缓解措施 确定 DGX 系统的 CPU 缓解状态 禁用 CPU 缓解措施 重新启用 CPU 缓解措施 SBIOS 设置 访问 SBIOS 设置 配置启动顺序 配置本地终端 Linux Windows 和 MacOS 开启电源或重启系统 使用 BMC 连接到 BMC BMC 控制概述 开放端口 为 BMC 配置静态 IP 地址 使用 ipmitool 配置 BMC 静态地址 使用系统 BIOS 配置 BMC 静态 IP 地址 更改 BMC 登录凭据 用户名和密码要求 步骤 使用远程控制台 设置 Active Directory、LDAP 或 E-Directory 配置平台事件过滤器 上传或生成 SSL 证书 查看 SSL 证书 生成 SSL 证书 上传 SSL 证书 更新 SBIOS 证书 管理功耗限制 管理 N+N 配置 (IPMI) 使用 Redfish API 管理功耗限制 安全性 用户安全措施 保护 BMC 端口 系统安全措施 安全刷写 DGX H100/H200 固件 加密 NVIDIA 系统管理器安全性 安全数据删除 先决条件 步骤 Redfish API 支持 支持的 Redfish 功能 主机和 BMC 之间的连接 Redfish 示例 BMC 管理器 固件更新 BIOS 设置 使用 Redfish 修改 DGX H100/H200 上的启动顺序 更改 UEFI 安全启动平台密钥 遥测 机箱 SEL 日志 虚拟镜像 备份和恢复 BMC 配置 备份 BMC 配置 恢复 BMC 配置 收集 BMC 调试数据 清除 BIOS 并重置为出厂默认设置 查询 GPU 功耗限制 功耗限制 服务 域 自定义策略 PSU 策略 安全 安全信息 安全警告和注意事项 预期应用用途 场地选择 设备操作规范 电气预防措施 电源和电气警告 电源线警告 系统访问警告 机架安装警告 静电放电 其他危害 加利福尼亚州有毒物质控制部门 镍 电池更换 散热和气流 法律信息 合规性 美国 美国/加拿大 加拿大 CE 澳大利亚和新西兰 巴西 日本 韩国 中国 台湾 俄罗斯/哈萨克斯坦/白俄罗斯 以色列 印度 南非 英国(英格兰、威尔士和苏格兰) 第三方许可声明 Micron msecli Mellanox (OFED) 声明 注意 商标