附加功能和说明#
本章介绍 DGX A100 服务器在设置和操作期间需要考虑的特定功能。
管理 DGX 崩溃转储功能#
DGX 操作系统包含一个脚本来管理此功能。
使用脚本#
本节提供有关如何使用脚本管理 DGX 崩溃转储的信息。
要仅启用 dmesg 崩溃转储,请输入以下命令
$ sudo /usr/sbin/nvidia-kdump-config enable-dmesg-dump
此选项为崩溃内核保留内存。
要同时启用 dmesg 和 vmcore 崩溃转储,请输入以下命令
$ sudo /usr/sbin/nvidia-kdump-config enable-vmcore-dump
此选项为崩溃内核保留内存。
要禁用崩溃转储,请输入以下内容
$ sudo /usr/sbin/nvidia-kdump-config disable
此选项禁用 kdump 的使用,并确保没有内存为崩溃内核保留。
连接到 LAN 上的串行端口以查看控制台#
在转储 vmcore 时,BMC 屏幕控制台会在崩溃转储开始后大约 11 分钟变为空白。 要在崩溃转储期间查看控制台输出,请按如下方式连接到 LAN 上的串行端口
$ ipmitool -I lanplus -H <bmc-ip-address> -U <bmc-username> -P <bmc-password> \
sol activate