GPU-Probleme
Mithilfe der Informationen in diesem Abschnitt können Sie Probleme im Zusammenhang mit GPUs und der GPU-Platine beheben.
- Zustandsprüfung für GPUs und GPU-Platine
- System kann die GPU-Platine nicht erkennen
- System erkennt keine bestimmte GPU
- XCC GPU-Sensor – Technische Daten
Zustandsprüfung für GPUs und GPU-Platine
Der folgende Sensorstatus von ipmitool gibt an, dass sich die GPUs und die GPU-Platine im normalen Zustand befinden.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
System kann die GPU-Platine nicht erkennen
Wenn das Ereignis Sensor GPU Board has transitioned to critical from a less severe state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System die GPU-Platine nicht erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.
- Schalten Sie das System aus und wieder ein.
- Überprüfen Sie Ereignisse im Zusammenhang mit der Stromversorgung in XCC und SMM2 (siehe SMM2 – Stromversorgung).
- Überprüfen Sie die Systemtemperatur und den Wasserdurchfluss. Suchen Sie nach Lecks, trennen Sie die Verbindung zum Wasserkühlungssystem und schließen Sie es wieder an.
- Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe Zustandsprüfung für GPUs und GPU-Platine).
- Die folgenden Meldungen weisen darauf hin, dass der Fehler behoben wurde:
- FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) in XCC-Nachrichten
- Sensor GPU Board has transitioned to normal state im Webprotokoll
Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor:- Erfassen Sie die XCC-Servicedaten (siehe Servicedaten erfassen).
- Wenden Sie sich an den Lenovo Support.
System erkennt keine bestimmte GPU
Wenn das Ereignis Sensor GPU CPUs has transitioned to critical from a less severe state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System mindestens eine bestimmte GPU nicht erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.
- Überprüfen Sie, ob der Retimer eine Temperaturüberschreitung vom XCC-Ereignis angibt. Wenn ja, überspringen Sie den nächsten Schritt.
- Laden Sie die aktuelle Firmware von der Supportseite für Rechenzentren (Lenovo Support für Rechenzentrum für ThinkSystem SD665-N V3) herunter und aktualisieren Sie die Firmware.
- Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe Zustandsprüfung für GPUs und GPU-Platine).
Wenn das Ereignis Sensor GPU Board has transitioned to normal state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass der Fehler behoben wurde.
Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor.- Prüfen Sie das XCC-Webereignisprotokoll, um die fehlerhafte Einheit und den Problemtyp zu ermitteln (siehe XCC GPU-Sensor – Technische Daten).
- Erfassen Sie die XCC-Servicedaten (siehe Servicedaten erfassen).
- Führen Sie nvidia-smi zur Diagnose aus (Details siehe NVIDIA-Systemverwaltungsschnittstelle).AnmerkungStellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er das Dienstprogramm
nvidia-smi enthält, das für die GPU-Fehlerbestimmung erforderlich ist. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für ThinkSystem SD665-N V3. - Führen Sie nvidia-bug-report.sh aus (integriertes Tool im NVIDIA-Treiber).
- Wenden Sie sich an den Lenovo Support.
XCC GPU-Sensor – Technische Daten
Wenn ein Ereignis im XCC-Webereignisprotokoll angezeigt wird, finden Sie in der folgenden Tabelle Informationen zum Identifizieren der fehlerhaften Einheit und des Problemtyps. Beispiel:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
Sensorname | Daten | ||
GPU-CPUs | Sensornummer | EAh | 02h – Übergang vom weniger schwerwiegenden Zustand in einen kritischen Zustand Evt Data2:
Evt Data3:
|
Sensortyp | 17h | ||
Sensorlesetyp | 07h | ||
Entitäts-ID | 0Bh | ||
Instanz/Typ | 02h | ||
In SEL protokollierte Assertionen | 02h | ||
In SEL protokollierte De-Assertionen | 02h | ||
De-Assertionen für Schwellenwerte | |||
LED „EIN“-Anforderung bei Assertion F = Fehleranzeige | 02h – F | ||
LED „AUS“-Anforderung bei De-Assertion F = Fehleranzeige | 02h – F | ||
GPU-Platine | Sensornummer | EAh | 00h – Übergang zu OK 02h – Übergang vom weniger schwerwiegenden Zustand in einen kritischen Zustand Evt Data2:
Evt Data3:
|
Sensortyp | 17h | ||
Sensorlesetyp | 07h | ||
Entitäts-ID | 0Bh | ||
Instanz/Typ | 01h | ||
In SEL protokollierte Assertionen | 02h | ||
In SEL protokollierte De-Assertionen | 02h | ||
De-Assertionen für Schwellenwerte | Nicht zutreffend | ||
LED „EIN“-Anforderung bei Assertion F = Fehleranzeige | 00h – Keine 02h – F | ||
LED „AUS“-Anforderung bei De-Assertion F = Fehleranzeige | 00h – Keine 02h – F |