Zum Hauptinhalt springen

GPU-Probleme

Mithilfe der Informationen in diesem Abschnitt können Sie Probleme im Zusammenhang mit GPUs und der GPU-Platine beheben.

Anmerkung
Stellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er das Dienstprogramm nvidia-smi enthält, das für die GPU-Fehlerbestimmung erforderlich ist. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für ThinkSystem SD650-N V3.

Zustandsprüfung für GPUs und GPU-Platine

Der folgende Sensorstatus von ipmitool gibt an, dass sich die GPUs und die GPU-Platine im normalen Zustand befinden.

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
Die Zusammenfassung des nvidia-smi Dienstprogramms gibt an, dass vier GPUs online sind.
Abbildung 1. nvidia-smi

System kann die GPU-Platine nicht erkennen

Wenn das Ereignis Sensor GPU Board has transitioned to critical from a less severe state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System die GPU-Platine nicht erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.

  1. Schalten Sie das System aus und wieder ein.
  2. Überprüfen Sie Ereignisse im Zusammenhang mit der Stromversorgung in XCC und SMM2 (siehe SMM2 – Stromversorgung).
  3. Überprüfen Sie die Systemtemperatur und den Wasserdurchfluss. Suchen Sie nach Lecks, trennen Sie die Verbindung zum Wasserkühlungssystem und schließen Sie es wieder an.
  4. Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe Zustandsprüfung für GPUs und GPU-Platine).
  5. Die folgenden Meldungen weisen darauf hin, dass der Fehler behoben wurde:
    • FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) in XCC-Nachrichten
    • Sensor GPU Board has transitioned to normal state im Webprotokoll
    Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor:
    1. Erfassen Sie die XCC-Servicedaten (siehe Servicedaten erfassen).
    2. Wenden Sie sich an den Lenovo Support.

System erkennt keine bestimmte GPU

Wenn das Ereignis Sensor GPU CPUs has transitioned to critical from a less severe state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System mindestens eine bestimmte GPU nicht erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.

  1. Überprüfen Sie, ob der Retimer eine Temperaturüberschreitung vom XCC-Ereignis angibt. Wenn ja, überspringen Sie den nächsten Schritt.
  2. Laden Sie die aktuelle Firmware von der Supportseite für Rechenzentren (Lenovo Support für Rechenzentrum für ThinkSystem SD650-N V3) herunter und aktualisieren Sie die Firmware.
  3. Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe Zustandsprüfung für GPUs und GPU-Platine).
  4. Wenn das Ereignis Sensor GPU Board has transitioned to normal state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass der Fehler behoben wurde.

    Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor.
    1. Prüfen Sie das XCC-Webereignisprotokoll, um die fehlerhafte Einheit und den Problemtyp zu ermitteln (siehe XCC GPU-Sensor – Technische Daten).
    2. Erfassen Sie die XCC-Servicedaten (siehe Servicedaten erfassen).
    3. Führen Sie nvidia-smi zur Diagnose aus (Details siehe NVIDIA-Systemverwaltungsschnittstelle).
      Anmerkung
      Stellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er das Dienstprogramm nvidia-smi enthält, das für die GPU-Fehlerbestimmung erforderlich ist. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für ThinkSystem SD650-N V3.
    4. Führen Sie nvidia-bug-report.sh aus (integriertes Tool im NVIDIA-Treiber).
    5. Wenden Sie sich an den Lenovo Support.

XCC GPU-Sensor – Technische Daten

Wenn ein Ereignis im XCC-Webereignisprotokoll angezeigt wird, finden Sie in der folgenden Tabelle Informationen zum Identifizieren der fehlerhaften Einheit und des Problemtyps. Beispiel:

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
Tabelle 1. XCC GPU-Sensor – Technische Daten 1/2
SensornameSensornummerSensortypSensorlesetypEntitäts-IDInstanz/TypLesemaske (Datensatz auf Sensor)
GPU-PlatineE9h17h07h0Bh01h

00h – Übergang zu OK

02h – Übergang vom weniger schwerwiegenden Zustand in einen kritischen Zustand

  • Evt Data: 21
    • F1h: Drosselung der GPU-Stromversorgung (kein evt3)

    • F2h: PIB-Thermoschalter (kein evt3)

    • F6h: GPU-Kern-Temperaturalarm

    • F8h: PIB-Übertemperatur

  • Evt Data3:

    • XXh: GPU CORE-Index, 01h: Kern 1

    • 07h: Kern 1 + Kern 2 + Kern 3

GPU-CPUsEAh17h07h0Bh02h

02h – Übergang vom weniger schwerwiegenden Zustand in einen kritischen Zustand

  • Evt Data2:

    • B#h: Temperaturalarm

    • BBh: Präsenz‑ und Stromversorgungsstatus

    • 21h: PCIe-Verbindungsstatus

    • E0h: GPU-Anzahl von SMBIOS

    • 3Ah: Card-Health-Sensor

  • Evt Data3:

    • XXh: GPU CORE-Index, 01h: Kern 1

    • 0Ch: Kern 3 + Kern 4

    • ED2: B#h, ED3: VR-ID.

Tabelle 2. XCC GPU-Sensor – Technische Daten 2/2
SensornameIn SEL protokollierte AssertionenIn SEL protokollierte De-AssertionenSchwellenwerte festlegbar (B20)

LED „EIN“-Anforderung bei Assertion

F = Fehleranzeige

LED „AUS“-Anforderung bei De-Assertion

F = Fehleranzeige

GPU-Platine02h02hNicht zutreffend

00h – Keine

02h – F

00h – Keine

02h – F

GPU-CPUs02h02hNicht zutreffend02h-F02h-F
1

Evt Data2 kann zusammengefasst werden, z. B. F7h: F1+F2+F4, F3: F1+F2.