跳到主要内容

GPU 功率上限设置(仅限经过培训的技术人员)

请参阅以下章节了解有关 GPU 功率上限的更多信息。此过程仅适用于经过培训的技术人员。

GPU 功率上限工具

可以通过 XCC IPMI 命令设置 GPU 功率上限。请参阅以下几节以了解 IPMI 命令。

XCC 和固件版本

确保 XCC 固件版本为 QGX312Q 或更高版本。要更新 XCC 固件,请参阅更新固件

更换主板后设置 GPU 功率上限

更换主板后,请确保配置 GPU 功率上限。

读取 GPU 功率上限值

使用 IPMI 命令读取 GPU 功率上限值。请参阅以下内容以了解更多详细信息。

步骤:

  1. 使用以下命令行读取用户定义的 GPU 功率上限值:
    ipmitool raw 0x3a 0x6 0xc0 [Slot]
    返回值如下:
    ipmitool raw 0x3a 0x6 0xc0 [Slot]
    [x] [y]
    其中
    • [Slot] 是 GPU 编号 — GPU 1:[Slot] = [3]、GPU 2:[Slot] = [4]、GPU 3:[Slot] = [5]、GPU 4:[Slot] = [6]

    • [x] 代表三位十六进制数的第一位,[y] 代表第二位和第三位。将十六进制数转换为十进制数,这个十进制数就是功率上限值。

    例如,下面的返回值显示 GPU 3 的功率上限值为 600 W(从十六进制数 258 转换而来)。
    ipmitool raw 0x3a 0x6 0xc0 3
    02 58

    读取每个 GPU 功率上限值并记下该功率上限值。

    如果返回的值为fail,请继续执行步骤 2。

  2. (如果在步骤 1 中成功读取了功率上限值,请跳过步骤 2。)

    使用以下命令行读取默认的 GPU 功率上限值:
    ipmitool raw 0x3a 0x0b 0xf2 0x0 0x10 0x02
    返回值如下:
    ipmitool raw 0x3a 0x0b 0xf2 0x0 0x10 0x02
    [x] [y]

    其中 [x] 代表三位十六进制数的第一位,[y] 代表第二位和第三位。将十六进制数转换为十进制数,这个十进制数就是功率上限值。

    例如,下面的返回值显示 GPU 功率上限值为 600 W(从十六进制数 258 转换而来)。
    ipmitool raw 0x3a 0x0b 0xf2 0x0 0x10 0x02
    02 58

    记下功率上限值。

使用 IPMI 命令配置 GPU 功率上限

  • 所有四个 GPU 的功率上限瓦数值均相同。

  • GPU 可以配置为以下三个功率上限值:

    • TGP 最大模式:700 W(默认模式,机柜中最多可安装 4 个托盘)

    • TGP 用户选择最佳:600 W(机柜中最多可安装 5 个托盘)

    • TGP 用户选择最小:500 W(机柜中最多可安装 6 个托盘)

步骤:

  1. 将功率上限瓦数值从十进制数转换为十六进制数。

    以 600 W 为例,十进制数 600 转换为十六进制数为:258

  2. 使用以下命令行设置功率上限:
    ipmitool raw 0x3a 0x6 0xc0 0xff [x] [y]

    其中 [slot] 是 GPU 编号;[x] 代表转换后的十六进制数的第一位,[y] 代表第二位和第三位。

    例如,将 GPU 功率上限设置为 600 W 的命令行如下:
    ipmitool raw 0x3a 0x6 0xc0 0xff 0x2 0x58
  3. 经过 30 到 50 秒后,使用以下命令读取功率上限值:
    ipmitool raw 0x3a 0x6 0xc0 [Slot]
    返回值如下:
    ipmitool raw 0x3a 0x6 0xc0 [Slot]
    [x] [y]
    其中
    • [Slot] 是 GPU 编号 — GPU 1:[Slot] = [3]、GPU 2:[Slot] = [4]、GPU 3:[Slot] = [5]、GPU 4:[Slot] = [6]

    • [x] 代表三位十六进制数的第一位,[y] 代表第二位和第三位。将十六进制数转换为十进制数,这个十进制数就是功率上限值。

    例如,下面的返回值显示 GPU 3 的功率上限值为 600 W(从十六进制数 258 转换而来)。
    ipmitool raw 0x3a 0x6 0xc0 3
    02 58
  4. 读取每个 GPU 功率上限值。如果响应功率上限值不正确,请关闭再打开系统的直流电源,然后重复步骤 2 来验证该值。如果问题仍然存在,请关闭再打开交流电源或执行模拟插拔,然后再次验证。