GPU 问题
按以下信息解决与 GPU 和 GPU 板相关的问题。
GPU 和 GPU 板的运行状况检查
ipmitool 显示的以下传感器状态指示 GPU 和 GPU 板处于正常状态。
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
nvidia-smi 实用程序的摘要中指示有 4 个 GPU 联机。
图 1. nvidia-smi
系统未能检测到 GPU 板
当事件 Sensor GPU Board has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到 GPU 板。请完成以下步骤以解决该问题。
- 关闭再打开系统电源。
- 检查 XCC 和 SMM2 中与电源输入有关的事件(请参阅SMM2 - 电源)。
- 检查系统温度和水流量。查找是否出现泄漏,断开水冷系统的连接,然后重新连接水冷系统。
- 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
- 显示以下内容之一即表明问题已得到解决:
- XCC 消息中显示 FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
- Web 日志中显示 Sensor GPU Board has transitioned to normal state
但是,如果问题仍然存在,请完成以下步骤:- 收集 XCC 服务数据(请参阅收集服务数据)。
- 请与 Lenovo 服务机构联系。
系统未能检测到特定 GPU
当事件 Sensor GPU CPUs has transitioned to critical from a less severe state 出现在 XCC Web 事件日志中时,表明系统未能检测到一个或多个特定 GPU。请完成以下步骤以解决该问题。
- 检查 XCC 事件中是否有重定时器过热问题,如果是,请跳过下一步。
- 从数据中心支援站点(https://datacentersupport.lenovo.com/products/servers/thinksystem/SD650v2)下载最新固件,并更新固件。
- 重新启动系统,然后运行 ipmi 运行状况检查(请参阅GPU 和 GPU 板的运行状况检查)。
如果事件 Sensor GPU Board has transitioned to normal state 出现在 XCC Web 事件日志中,表明问题已得到解决。
但是,如果问题仍然存在,请完成以下步骤。- 检查 XCC Web 事件日志以识别有缺陷的单元和问题类型(请参阅XCC GPU 传感器规格)。
- 收集 XCC 服务数据(请参阅收集服务数据)。
- 运行 nvidia-smi 进行诊断(请参阅 NVIDIA 系统管理接口 了解详细信息)
- 运行 nvidia-bug-report.sh(NVIDIA 驱动程序中的嵌入式工具)。
- 请与 Lenovo 服务机构联系。
XCC GPU 传感器规格
在 XCC Web 事件日志中看到某个事件时,请参阅下表以识别有缺陷的单元和问题类型。例如:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
传感器名称 | 数据 | ||
GPU CPU | 传感器编号 | EAh | 02h - 从不太严重状态转变到紧急状态 事件数据 2:
事件数据 3:
|
传感器类型 | 17h | ||
传感器读数类型 | 07h | ||
实体标识 | 0Bh | ||
实例/类型 | 02h | ||
SEL 记录生效 | 02h | ||
SEL 记录失效 | 02h | ||
阈值失效 | |||
生效时的 LED“ON”请求 F = 故障 KED | 02h - F | ||
失效时的 LED“OFF”请求 F = 故障 KED | 02h - F | ||
GPU 板 | 传感器编号 | EAh | 00h - 转变到正常状态 02h - 从不太严重状态转变到紧急状态 事件数据 2:
事件数据 3:
|
传感器类型 | 17h | ||
传感器读数类型 | 07h | ||
实体标识 | 0Bh | ||
实例/类型 | 01h | ||
SEL 记录生效 | 02h | ||
SEL 记录失效 | 02h | ||
阈值失效 | 不适用 | ||
生效时的 LED“ON”请求 F = 故障 LED | 00h - 无 02h - F | ||
失效时的 LED“OFF”请求 F = 故障 LED | 00h - 无 02h - F |
提供反馈