Zum Hauptinhalt springen

GPU-Probleme

Mithilfe der Informationen in diesem Abschnitt können Sie Probleme im Zusammenhang mit GPUs und der GPU-Platine beheben.

Zustandsprüfung für GPUs und GPU-Platine

Der folgende Sensorstatus von ipmitool gibt an, dass sich die GPUs und die GPU-Platine im normalen Zustand befinden.

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
Die Zusammenfassung des nvidia-smi Dienstprogramms gibt an, dass vier GPUs online sind.
Abbildung 1. nvidia-smi

System kann die GPU-Platine nicht erkennen

Wenn das Ereignis Sensor GPU Board has transitioned to critical from a less severe state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System die GPU-Platine nicht erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.

  1. Schalten Sie das System aus und wieder ein.
  2. Überprüfen Sie Ereignisse im Zusammenhang mit der Stromversorgung in XCC und SMM2 (siehe SMM2 – Stromversorgung).
  3. Überprüfen Sie die Systemtemperatur und den Wasserdurchfluss. Suchen Sie nach Lecks, trennen Sie die Verbindung zum Wasserkühlungssystem und schließen Sie es wieder an.
  4. Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe Zustandsprüfung für GPUs und GPU-Platine).
  5. Die folgenden Meldungen weisen darauf hin, dass der Fehler behoben wurde:
    • FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) in XCC-Nachrichten
    • Sensor GPU Board has transitioned to normal state im Webprotokoll
    Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor:
    1. Erfassen Sie die XCC-Servicedaten (siehe Servicedaten erfassen).
    2. Wenden Sie sich an den Lenovo Support.

System erkennt keine bestimmte GPU

Wenn das Ereignis Sensor GPU CPUs has transitioned to critical from a less severe state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System mindestens eine bestimmte GPU nicht erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.

  1. Überprüfen Sie, ob der Retimer eine Temperaturüberschreitung vom XCC-Ereignis angibt. Wenn ja, überspringen Sie den nächsten Schritt.
  2. Laden Sie die aktuelle Firmware von der Supportseite für Rechenzentren (https://datacentersupport.lenovo.com/products/servers/thinksystem/SD650v2) herunter und aktualisieren Sie die Firmware.
  3. Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe Zustandsprüfung für GPUs und GPU-Platine).
  4. Wenn das Ereignis Sensor GPU Board has transitioned to normal state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass der Fehler behoben wurde.

    Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor.
    1. Prüfen Sie das XCC-Webereignisprotokoll, um die fehlerhafte Einheit und den Problemtyp zu ermitteln (siehe XCC GPU-Sensor – Technische Daten).
    2. Erfassen Sie die XCC-Servicedaten (siehe Servicedaten erfassen).
    3. Führen Sie nvidia-smi zur Diagnose aus (Details siehe NVIDIA-Systemverwaltungsschnittstelle).
    4. Führen Sie nvidia-bug-report.sh aus (integriertes Tool im NVIDIA-Treiber).
    5. Wenden Sie sich an den Lenovo Support.

XCC GPU-Sensor – Technische Daten

Wenn ein Ereignis im XCC-Webereignisprotokoll angezeigt wird, finden Sie in der folgenden Tabelle Informationen zum Identifizieren der fehlerhaften Einheit und des Problemtyps. Beispiel:

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
Tabelle 1. XCC GPU-Sensor – Technische Daten
SensornameDaten
GPU-CPUsSensornummerEAh

02h – Übergang vom weniger schwerwiegenden Zustand in einen kritischen Zustand

Evt Data2:

  • B0h: Temperaturalarm
  • BBh: Präsenz‑ und Stromversorgungsstatus
  • B1h: GPU-Interrupt-Informationen
  • 21h: PCIe-Verbindungsstatus
  • E0h: GPU-Anzahl von SMBIOS

Evt Data3:

  • XXh: GPU CORE-Index, 01h: Kern 1
  • 07h: Kern 3 + Kern 4
Sensortyp17h
Sensorlesetyp07h
Entitäts-ID0Bh
Instanz/Typ02h
In SEL protokollierte Assertionen02h
In SEL protokollierte De-Assertionen02h
De-Assertionen für Schwellenwerte 

LED „EIN“-Anforderung bei Assertion

F = Fehleranzeige

02h – F

LED „AUS“-Anforderung bei De-Assertion

F = Fehleranzeige

02h – F
GPU-PlatineSensornummerEAh

00h – Übergang zu OK

02h – Übergang vom weniger schwerwiegenden Zustand in einen kritischen Zustand

Evt Data2:

  • F1h: GPU-Thermoschalter (kein evt3)
  • F2h: PIB-Thermoschalter (kein evt3)
  • F4h: Retimer-Thermoschalter
  • F6h: GPU-Kern-Temperaturalarm

Evt Data3:

  • XXh: GPU CORE-Index, 01h: Kern 1
  • 07h: Kern 3 + Kern 4
  • Wenn Evt2: F4h, 01h: Übertemperatur-Flag angezeigt
Sensortyp17h
Sensorlesetyp07h
Entitäts-ID0Bh
Instanz/Typ01h
In SEL protokollierte Assertionen02h
In SEL protokollierte De-Assertionen02h
De-Assertionen für SchwellenwerteNicht zutreffend

LED „EIN“-Anforderung bei Assertion

F = Fehleranzeige

00h – Keine

02h – F

LED „AUS“-Anforderung bei De-Assertion

F = Fehleranzeige

00h – Keine

02h – F