Zum Hauptinhalt springen

GPU-Leistungsprobleme

Bei hohen Temperaturen drosseln sich die GPUs selbst, was zu Leistungseinbußen führen kann. Im Normalbetrieb sollte dies niemals vorkommen, da der XCC die GPU-Temperaturen aktiv überwacht und die Systemlüfter entsprechend anpasst.

Andere Szenarien führen jedoch dazu, dass die GPUs in einen Notstromreduzierungszustand (Power Brake) übergehen, was sich auf die Leistung auswirkt:
  • Stromverlust.

  • Eine Meldung zum Netzteil mit Drossel (wird typischerweise verwendet, wenn ein Netzteil zu heiß ist).

  • Eingangstemperatur überschreitet die unterstützte ASHRAE-Spezifikation (z. B. 35 °C für ASHRAE A2).

  • Eingangstemperatur überschreitet 27 °C in Kombination mit einem Lüfterausfall.

Um zu überwachen, ob eines dieser Szenarien aufgetreten ist, überprüfen Sie die Systemfehler-LED und das Ereignisprotokoll des XClarity Controller auf Fehler im Zusammenhang mit Redundanz, einem verschlechterten Zustand oder einer Drosselung der PCIe-Stromversorgung.

Führen Sie zur Lösung des Problems die folgenden Schritte aus:
  1. Stellen Sie sicher, dass zwei 2.000-W-Netzteile installiert, betriebsbereit und eingeschaltet sind (ohne Fehler).

  2. Prüfen Sie das Ereignisprotokoll des XClarity Controller auf alle Ereignisse im Zusammenhang mit Lüfterausfällen. Wenn Fehler auftreten, ersetzen Sie den fehlerhaften Lüfter.

  3. Überprüfen Sie die Umgebungstemperatur des Rechenzentrums, in dem der Server installiert ist.

  4. Überprüfen Sie den Drosselungsmodus der PCIe-Stromversorgung.