GPU 功率上限设置(仅限经过培训的技术人员)
请参阅以下章节了解有关 GPU 功率上限的更多信息。此过程仅适用于经过培训的技术人员。
GPU 功率上限工具
可以通过 XCC IPMI 命令设置 GPU 功率上限。请参阅以下几节以了解 IPMI 命令。
确保 XCC 固件版本为 QGX312Q 或更高版本。要更新 XCC 固件,请参阅更新固件。
更换主板后设置 GPU 功率上限
要沿用与被替换 GPU 相同的 GPU 功率上限值,请执行以下操作:
关闭服务器电源之前,读取 GPU 功率上限值。请参阅读取 GPU 功率上限值。
打开服务器电源后,配置 GPU 功率上限值。请参阅使用 IPMI 命令配置 GPU 功率上限。
要设置新的功率上限值,请转到使用 IPMI 命令配置 GPU 功率上限。
读取 GPU 功率上限值
使用 IPMI 命令读取 GPU 功率上限值。请参阅以下内容以了解更多详细信息。
步骤:
- 使用以下命令行读取用户定义的 GPU 功率上限值:
返回值如下:ipmitool raw 0x3a 0x6 0xc0 [Slot]
ipmitool raw 0x3a 0x6 0xc0 [Slot]
[x] [y]其中[Slot] 是 GPU 编号 — GPU 1:[Slot] = [3]、GPU 2:[Slot] = [4]、GPU 3:[Slot] = [5]、GPU 4:[Slot] = [6]
[x] 代表三位十六进制数的第一位,[y] 代表第二位和第三位。将十六进制数转换为十进制数,这个十进制数就是功率上限值。
例如,下面的返回值显示 GPU 3 的功率上限值为 600 W(从十六进制数 258 转换而来)。ipmitool raw 0x3a 0x6 0xc0 3
02 58读取每个 GPU 功率上限值并记下该功率上限值。
如果返回的值为
fail
,请继续执行步骤 2。 (如果在步骤 1 中成功读取了功率上限值,请跳过步骤 2。)
使用以下命令行读取默认的 GPU 功率上限值:ipmitool raw 0x3a 0x0b 0xf2 0x0 0x10 0x02
返回值如下:ipmitool raw 0x3a 0x0b 0xf2 0x0 0x10 0x02
[x] [y]其中 [x] 代表三位十六进制数的第一位,[y] 代表第二位和第三位。将十六进制数转换为十进制数,这个十进制数就是功率上限值。
例如,下面的返回值显示 GPU 功率上限值为 600 W(从十六进制数 258 转换而来)。ipmitool raw 0x3a 0x0b 0xf2 0x0 0x10 0x02
02 58记下功率上限值。
使用 IPMI 命令配置 GPU 功率上限
所有四个 GPU 的功率上限瓦数值均相同。
GPU 可以配置为以下三个功率上限值:
TGP 最大模式:700 W(默认模式,机柜中最多可安装 4 个托盘)
TGP 用户选择最佳:600 W(机柜中最多可安装 5 个托盘)
TGP 用户选择最小:500 W(机柜中最多可安装 6 个托盘)
步骤:
将功率上限瓦数值从十进制数转换为十六进制数。
以 600 W 为例,十进制数 600 转换为十六进制数为:258
- 使用以下命令行设置功率上限:
ipmitool raw 0x3a 0x6 0xc0 0xff [x] [y]
其中 [slot] 是 GPU 编号;[x] 代表转换后的十六进制数的第一位,[y] 代表第二位和第三位。
例如,将 GPU 功率上限设置为 600 W 的命令行如下:ipmitool raw 0x3a 0x6 0xc0 0xff 0x2 0x58
- 经过 30 到 50 秒后,使用以下命令读取功率上限值:
ipmitool raw 0x3a 0x6 0xc0 [Slot]
返回值如下:ipmitool raw 0x3a 0x6 0xc0 [Slot]
[x] [y]其中[Slot] 是 GPU 编号 — GPU 1:[Slot] = [3]、GPU 2:[Slot] = [4]、GPU 3:[Slot] = [5]、GPU 4:[Slot] = [6]
[x] 代表三位十六进制数的第一位,[y] 代表第二位和第三位。将十六进制数转换为十进制数,这个十进制数就是功率上限值。
例如,下面的返回值显示 GPU 3 的功率上限值为 600 W(从十六进制数 258 转换而来)。ipmitool raw 0x3a 0x6 0xc0 3
02 58 读取每个 GPU 功率上限值。如果响应功率上限值不正确,请关闭再打开系统的直流电源,然后重复步骤 2 来验证该值。如果问题仍然存在,请关闭再打开交流电源或执行模拟插拔,然后再次验证。