GPU 问题
按以下信息解决与 GPU 和 GPU 板相关的问题。
GPU 和 GPU 板的运行状况检查
ipmitool 显示的以下传感器状态指示 GPU 和 GPU 板处于正常状态。
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
要检查 GPU 运行状况,可以使用 Intel® XPU Manager。Intel® XPU Manager 是一款 GPU 监控和管理工具,可简化 GPU 管理。可从以下网址获取 Intel® XPU Manager 下载和信息:Intel® XPU Manager。
系统未能检测到 GPU 板
当事件 Sensor GPU Board has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到 GPU 板。请完成以下步骤以解决该问题。
- 关闭再打开系统电源。
- 检查 XCC 和 SMM2 中与电源输入有关的事件(请参阅SMM2 - 电源)。
- 检查系统温度和水流量。查找是否出现泄漏,断开水冷系统的连接,然后重新连接水冷系统。
- 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
- 显示以下内容之一即表明问题已得到解决:
- XCC 消息中显示 FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
- Web 日志中显示 Sensor GPU Board has transitioned to normal state
但是,如果问题仍然存在,请完成以下步骤:- 收集 XCC 服务数据(请参阅收集服务数据)。
- 请与 Lenovo 服务机构联系。
系统未能检测到特定 GPU
当事件 Sensor GPU CPUs has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到一个或多个特定 GPU。请完成以下步骤以解决该问题。
- 检查 XCC 事件中是否有重定时器过热问题,如果是,请跳过下一步。
- 从数据中心支援站点(针对 ThinkSystem SD650-I V3 的 Lenovo 数据中心支援)下载最新固件,并更新固件。
- 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
如果事件 Sensor GPU Board has transitioned to normal state 出现在 XCC Web 事件日志中,表明问题已得到解决。
但是,如果问题仍然存在,请完成以下步骤。- 检查 XCC Web 事件日志以识别有缺陷的单元和问题类型(请参阅XCC GPU 传感器规格)。
- 收集 XCC 服务数据(请参阅收集服务数据)。
- 运行 xpu-smi 进行诊断(请参阅 Intel® XPU Manager 了解详细信息)
- 请与 Lenovo 服务机构联系。
XCC GPU 传感器规格
在 XCC Web 事件日志中看到某个事件时,请参阅下表以识别有缺陷的单元和问题类型。例如:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
传感器名称 | 数据 | ||
GPU CPU | 传感器编号 | EAh | 02h - 从不太严重状态转变到紧急状态 事件数据 2:
事件数据 3:
|
传感器类型 | 17h | ||
传感器读数类型 | 07h | ||
实体标识 | 0Bh | ||
实例/类型 | 02h | ||
SEL 记录生效 | 02h | ||
SEL 记录失效 | 02h | ||
阈值失效 | 不适用 | ||
生效时的 LED“ON”请求 F = 故障 KED | 02h - F | ||
失效时的 LED“OFF”请求 F = 故障 KED | 02h - F | ||
GPU 板 | 传感器编号 | EAh | 00h - 转变到正常状态 02h - 从不太严重状态转变到紧急状态 事件数据 2:
事件数据 3:
|
传感器类型 | 17h | ||
传感器读数类型 | 07h | ||
实体标识 | 0Bh | ||
实例/类型 | 01h | ||
SEL 记录生效 | 02h | ||
SEL 记录失效 | 02h | ||
阈值失效 | 不适用 | ||
生效时的 LED“ON”请求 F = 故障 LED | 00h - 无 02h - F | ||
失效时的 LED“OFF”请求 F = 故障 LED | 00h - 无 02h - F |