GPU 性能问题
如果温度高,GPU 将自行调速,这可能导致性能下降。正常运行时应该始终不会出现这种情况,因为 XCC 会主动监控 GPU 温度并相应调整系统风扇的速度。
但是,其他情况将导致 GPU 进入功率紧急降低(功率制动)状态,这会影响性能:
断电。
电源模块调节生效(通常在电源模块过热时发生)。
入口温度超出支持的 ASHRAE 规格(ASHRAE A2 的为 35°C)。
入口温度超出 27°C,并且风扇发生了故障。
要监控是否发生了这些情况,请检查系统错误 LED 和 XClarity Controller 事件日志以查找与冗余、降级状态或 PCIe 电源制动有关的错误。
请完成以下步骤以解决问题:
确保装有两个 2000 W 电源模块,并且这些电源模块已开启且正在运行(无错误)。
检查 XClarity Controller 事件日志中是否有与风扇故障有关的事件。如果出错,请更换故障风扇。
请检查装有服务器的数据中心的环境温度。
检查 PCIe 电源制动模式。
提供反馈