GPU 问题
按以下信息解决与 GPU 和 GPU 板相关的问题。
GPU 和 GPU 板的运行状况检查
ipmitool 显示的以下传感器状态指示 GPU 和 GPU 板处于正常状态。
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
系统未能检测到 GPU 板
当事件 Sensor GPU Board has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到 GPU 板。请完成以下步骤以解决该问题。
- 关闭再打开系统电源。
- 检查 XCC 和 SMM2 中与电源输入有关的事件(请参阅 SMM2 - 电源)。
- 检查系统温度和水流量。查找是否出现泄漏,断开水冷系统的连接,然后重新连接水冷系统。
- 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
- 显示以下内容之一即表明问题已得到解决:
- XCC 消息中显示 FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
- Web 日志中显示 Sensor GPU Board has transitioned to normal state
但是,如果问题仍然存在,请完成以下步骤:- 收集 XCC 服务数据(请参阅收集服务数据)。
- 请与 Lenovo 服务机构联系。
系统未能检测到特定 GPU
当事件 Sensor GPU CPUs has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到一个或多个特定 GPU。请完成以下步骤以解决该问题。
- 检查 XCC 事件中是否有重定时器过热问题,如果是,请跳过下一步。
- 从数据中心支援站点(针对 ThinkSystem SD650-N V3 的 Lenovo 数据中心支援)下载最新固件,并更新固件。
- 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
如果事件 Sensor GPU Board has transitioned to normal state 出现在 XCC Web 事件日志中,表明问题已得到解决。
但是,如果问题仍然存在,请完成以下步骤。- 检查 XCC Web 事件日志以识别有缺陷的单元和问题类型(请参阅XCC GPU 传感器规格)。
- 收集 XCC 服务数据(请参阅收集服务数据)。
- 运行 nvidia-smi 进行诊断(请参阅 NVIDIA 系统管理接口 了解详细信息)注确保更新 GPU 驱动程序,其中包括确定 GPU 问题所需的
nvidia-smi 实用程序。最新驱动程序位于 ThinkSystem SD650-N V3 驱动程序和软件下载网站。 - 运行 nvidia-bug-report.sh(NVIDIA 驱动程序中的嵌入式工具)。
- 请与 Lenovo 服务机构联系。
XCC GPU 传感器规格
在 XCC Web 事件日志中看到某个事件时,请参阅下表以识别有缺陷的单元和问题类型。例如:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
传感器名称 | 传感器编号 | 传感器类型 | 传感器读数类型 | 实体标识 | 实例/类型 | 读取掩码(应用于传感器的数据集) |
---|---|---|---|---|---|---|
GPU 板 | E9h | 17h | 07h | 0Bh | 01h | 00h – 转变到正常状态 02h – 从次严重状态转变到紧急状态
|
GPU CPU | EAh | 17h | 07h | 0Bh | 02h | 02h – 从次严重状态转变到紧急状态
|
传感器名称 | SEL 记录生效 | SEL 记录失效 | 可设置阈值(B20) | 生效时的 LED“ON”请求 F = 故障 LED | 失效时的 LED“OFF”请求 F = 故障 LED |
---|---|---|---|---|---|
GPU 板 | 02h | 02h | 不适用 | 00h - 无 02h - F | 00h - 无 02h - F |
GPU CPU | 02h | 02h | 不适用 | 02h-F | 02h-F |
事件数据 2 可以进行汇总,例如,F7h:F1+F2+F4,F3:F1+F2。