跳到主要内容

GPU 问题

按以下信息解决与 GPU 和 GPU 板相关的问题。

确保更新 GPU 驱动程序,其中包括确定 GPU 问题所需的 nvidia-smi 实用程序。最新驱动程序位于 ThinkSystem SD650-N V3 驱动程序和软件下载网站

GPU 和 GPU 板的运行状况检查

ipmitool 显示的以下传感器状态指示 GPU 和 GPU 板处于正常状态。

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
nvidia-smi 实用程序的摘要中指示有 4 个 GPU 联机。
图 1. nvidia-smi

系统未能检测到 GPU 板

当事件 Sensor GPU Board has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到 GPU 板。请完成以下步骤以解决该问题。

  1. 关闭再打开系统电源。
  2. 检查 XCC 和 SMM2 中与电源输入有关的事件(请参阅 SMM2 - 电源)。
  3. 检查系统温度和水流量。查找是否出现泄漏,断开水冷系统的连接,然后重新连接水冷系统。
  4. 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
  5. 显示以下内容之一即表明问题已得到解决:
    • XCC 消息中显示 FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
    • Web 日志中显示 Sensor GPU Board has transitioned to normal state
    但是,如果问题仍然存在,请完成以下步骤:
    1. 收集 XCC 服务数据(请参阅收集服务数据)。
    2. 请与 Lenovo 服务机构联系。

系统未能检测到特定 GPU

当事件 Sensor GPU CPUs has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到一个或多个特定 GPU。请完成以下步骤以解决该问题。

  1. 检查 XCC 事件中是否有重定时器过热问题,如果是,请跳过下一步。
  2. 从数据中心支援站点(针对 ThinkSystem SD650-N V3 的 Lenovo 数据中心支援)下载最新固件,并更新固件。
  3. 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
  4. 如果事件 Sensor GPU Board has transitioned to normal state 出现在 XCC Web 事件日志中,表明问题已得到解决。

    但是,如果问题仍然存在,请完成以下步骤。
    1. 检查 XCC Web 事件日志以识别有缺陷的单元和问题类型(请参阅XCC GPU 传感器规格)。
    2. 收集 XCC 服务数据(请参阅收集服务数据)。
    3. 运行 nvidia-smi 进行诊断(请参阅 NVIDIA 系统管理接口 了解详细信息)
      确保更新 GPU 驱动程序,其中包括确定 GPU 问题所需的 nvidia-smi 实用程序。最新驱动程序位于 ThinkSystem SD650-N V3 驱动程序和软件下载网站
    4. 运行 nvidia-bug-report.sh(NVIDIA 驱动程序中的嵌入式工具)。
    5. 请与 Lenovo 服务机构联系。

XCC GPU 传感器规格

在 XCC Web 事件日志中看到某个事件时,请参阅下表以识别有缺陷的单元和问题类型。例如:

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
表 1. XCC GPU 传感器规格 1/2
传感器名称传感器编号传感器类型传感器读数类型实体标识实例/类型读取掩码(应用于传感器的数据集)
GPU 板E9h17h07h0Bh01h

00h – 转变到正常状态

02h – 从次严重状态转变到紧急状态

  • 事件数据 2:1
    • F1h:GPU 电源制动(无事件 3)

    • F2h:PIB 热断路装置(无事件 3)

    • F6h:GPU 核心散热警报

    • F8h:PIB 温度过高

  • 事件数据 3:

    • XXh:GPU 核心索引,01h:核心 1

    • 07h:核心 1 + 核心 2 + 核心 3

GPU CPUEAh17h07h0Bh02h

02h – 从次严重状态转变到紧急状态

  • 事件数据 2:

    • B#h:散热警报

    • BBh:存在状态和电源状态

    • 21h:PCIe 链路状态

    • E0h:SMBIOS 中的 GPU 数量

    • 3Ah:卡运行状况传感器

  • 事件数据 3:

    • XXh:GPU 核心索引,01h:核心 1

    • 0Ch:核心 3 + 核心 4

    • ED2:B#h,ED3:VR id。

表 2. XCC GPU 传感器规格 2/2
传感器名称SEL 记录生效SEL 记录失效可设置阈值(B20)

生效时的 LED“ON”请求

F = 故障 LED

失效时的 LED“OFF”请求

F = 故障 LED

GPU 板02h02h不适用

00h - 无

02h - F

00h - 无

02h - F

GPU CPU02h02h不适用02h-F02h-F
1

事件数据 2 可以进行汇总,例如,F7h:F1+F2+F4,F3:F1+F2。