跳到主要内容

GPU 问题

按以下信息解决与 GPU 和 GPU 板相关的问题。

确保更新 GPU 驱动程序,其中包括确定 GPU 问题所需的 nvidia-smi 实用程序。最新驱动程序位于 ThinkSystem SD665-N V3 驱动程序和软件下载网站

GPU 和 GPU 板的运行状况检查

ipmitool 显示的以下传感器状态指示 GPU 和 GPU 板处于正常状态。

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
nvidia-smi 实用程序的摘要中指示有 4 个 GPU 联机。
图 1. nvidia-smi

系统未能检测到 GPU 板

当事件 Sensor GPU Board has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到 GPU 板。请完成以下步骤以解决该问题。

  1. 关闭再打开系统电源。
  2. 检查 XCC 和 SMM2 中与电源输入有关的事件(请参阅 SMM2 - 电源)。
  3. 检查系统温度和水流量。查找是否出现泄漏,断开水冷系统的连接,然后重新连接水冷系统。
  4. 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
  5. 显示以下内容之一即表明问题已得到解决:
    • XCC 消息中显示 FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
    • Web 日志中显示 Sensor GPU Board has transitioned to normal state
    但是,如果问题仍然存在,请完成以下步骤:
    1. 收集 XCC 服务数据(请参阅收集服务数据)。
    2. 请与 Lenovo 服务机构联系。

系统未能检测到特定 GPU

当事件 Sensor GPU CPUs has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到一个或多个特定 GPU。请完成以下步骤以解决该问题。

  1. 检查 XCC 事件中是否有重定时器过热问题,如果是,请跳过下一步。
  2. 从数据中心支援站点(Lenovo 数据中心支援 - ThinkSystem SD665-N V3)下载最新固件,并更新固件。
  3. 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
  4. 如果事件 Sensor GPU Board has transitioned to normal state 出现在 XCC Web 事件日志中,表明问题已得到解决。

    但是,如果问题仍然存在,请完成以下步骤。
    1. 检查 XCC Web 事件日志以识别有缺陷的单元和问题类型(请参阅XCC GPU 传感器规格)。
    2. 收集 XCC 服务数据(请参阅收集服务数据)。
    3. 运行 nvidia-smi 进行诊断(请参阅 NVIDIA 系统管理接口 了解详细信息)
      确保更新 GPU 驱动程序,其中包括确定 GPU 问题所需的 nvidia-smi 实用程序。最新驱动程序位于 ThinkSystem SD665-N V3 驱动程序和软件下载网站
    4. 运行 nvidia-bug-report.sh(NVIDIA 驱动程序中的嵌入式工具)。
    5. 请与 Lenovo 服务机构联系。

XCC GPU 传感器规格

在 XCC Web 事件日志中看到某个事件时,请参阅下表以识别有缺陷的单元和问题类型。例如:

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
表 1. XCC GPU 传感器规格
传感器名称数据
GPU CPU传感器编号EAh

02h - 从次严重状态转变到紧急状态

事件数据 2:

  • B0h:散热警报
  • BBh:存在状态和电源状态
  • B1h:GPU 中断信息
  • 21h:PCIe 链路状态
  • E0h:SMBIOS 中的 GPU 数量

事件数据 3:

  • XXh:GPU 核心索引,01h:核心 1
  • 07h:核心 3 + 核心 4
传感器类型17h
传感器读数类型07h
实体标识0Bh
实例/类型02h
SEL 记录生效02h
SEL 记录失效02h
阈值失效 

生效时的 LED“ON”请求

F = 故障 KED

02h - F

失效时的 LED“OFF”请求

F = 故障 KED

02h - F
GPU 板传感器编号EAh

00h - 转变到正常状态

02h - 从次严重状态转变到紧急状态

事件数据 2:

  • F1h:GPU 热断路装置(无事件 3)
  • F2h:PIB 热断路装置(无事件 3)
  • F6h:GPU 核心散热警报

事件数据 3:

  • XXh:GPU 核心索引,01h:核心 1
  • 07h:核心 3 + 核心 4
  • 如果事件 2:F4h,01h:温度过高标志已生效
传感器类型17h
传感器读数类型07h
实体标识0Bh
实例/类型01h
SEL 记录生效02h
SEL 记录失效02h
阈值失效不适用

生效时的 LED“ON”请求

F = 故障 LED

00h - 无

02h - F

失效时的 LED“OFF”请求

F = 故障 LED

00h - 无

02h - F