跳到主要内容

GPU 性能问题

如果温度高,GPU 将自行调速,这可能导致性能下降。正常运行时应该始终不会出现这种情况,因为 XCC 会主动监控 GPU 温度并相应调整系统风扇的速度。

但是,其他情况将导致 GPU 进入功率紧急降低(功率制动)状态,这会影响性能:
  • 断电。

  • 电源模块调节生效(通常在电源模块过热时发生)。

  • 入口温度超出支持的 ASHRAE 规格(ASHRAE A2 的为 35°C)。

  • 入口温度超出 27°C,并且风扇发生了故障。

要监控是否发生了这些情况,请检查系统错误 LED 和 XClarity Controller 事件日志以查找与冗余、降级状态或 PCIe 电源制动有关的错误。

请完成以下步骤以解决问题:
  1. 确保装有两个 2000 W 电源模块,并且这些电源模块已开启且正在运行(无错误)。

  2. 检查 XClarity Controller 事件日志中是否有与风扇故障有关的事件。如果出错,请更换故障风扇。

  3. 请检查装有服务器的数据中心的环境温度。

  4. 检查 PCIe 电源制动模式。