GPU-Probleme
Mithilfe der Informationen in diesem Abschnitt können Sie Probleme im Zusammenhang mit GPUs und der GPU-Platine beheben.
- Zustandsprüfung für GPUs und GPU-Platine
- System kann die GPU-Platine nicht erkennen
- System erkennt keine bestimmte GPU
- XCC GPU-Sensor – Technische Daten
Zustandsprüfung für GPUs und GPU-Platine
Der folgende Sensorstatus von ipmitool gibt an, dass sich die GPUs und die GPU-Platine im normalen Zustand befinden.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
System kann die GPU-Platine nicht erkennen
Wenn das Ereignis Sensor GPU Board has transitioned to critical from a less severe state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System die GPU-Platine nicht erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.
- Schalten Sie das System aus und wieder ein.
- Überprüfen Sie Ereignisse im Zusammenhang mit der Stromversorgung in XCC und SMM2 (siehe SMM2 – Stromversorgung).
- Überprüfen Sie die Systemtemperatur und den Wasserdurchfluss. Suchen Sie nach Lecks, trennen Sie die Verbindung zum Wasserkühlungssystem und schließen Sie es wieder an.
- Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe Zustandsprüfung für GPUs und GPU-Platine).
- Die folgenden Meldungen weisen darauf hin, dass der Fehler behoben wurde:
- FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) in XCC-Nachrichten
- Sensor GPU Board has transitioned to normal state im Webprotokoll
Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor:- Erfassen Sie die XCC-Servicedaten (siehe Servicedaten erfassen).
- Wenden Sie sich an den Lenovo Support.
System erkennt keine bestimmte GPU
Wenn das Ereignis Sensor GPU CPUs has transitioned to critical from a less severe state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass das System mindestens eine bestimmte GPU nicht erkannt hat. Gehen Sie wie folgt vor, um das Problem zu beheben.
- Überprüfen Sie, ob der Retimer eine Temperaturüberschreitung vom XCC-Ereignis angibt. Wenn ja, überspringen Sie den nächsten Schritt.
- Laden Sie die aktuelle Firmware von der Supportseite für Rechenzentren (Lenovo Support für Rechenzentrum für ThinkSystem SD650-N V3) herunter und aktualisieren Sie die Firmware.
- Starten Sie das System neu und führen Sie die IPMI-Zustandsprüfung durch (siehe Zustandsprüfung für GPUs und GPU-Platine).
Wenn das Ereignis Sensor GPU Board has transitioned to normal state im XCC-Webereignisprotokoll angezeigt wird, bedeutet dies, dass der Fehler behoben wurde.
Wenn das Problem jedoch weiterhin auftritt, gehen Sie wie folgt vor.- Prüfen Sie das XCC-Webereignisprotokoll, um die fehlerhafte Einheit und den Problemtyp zu ermitteln (siehe XCC GPU-Sensor – Technische Daten).
- Erfassen Sie die XCC-Servicedaten (siehe Servicedaten erfassen).
- Führen Sie nvidia-smi zur Diagnose aus (Details siehe NVIDIA-Systemverwaltungsschnittstelle).AnmerkungStellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er das Dienstprogramm
nvidia-smi enthält, das für die GPU-Fehlerbestimmung erforderlich ist. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für ThinkSystem SD650-N V3. - Führen Sie nvidia-bug-report.sh aus (integriertes Tool im NVIDIA-Treiber).
- Wenden Sie sich an den Lenovo Support.
XCC GPU-Sensor – Technische Daten
Wenn ein Ereignis im XCC-Webereignisprotokoll angezeigt wird, finden Sie in der folgenden Tabelle Informationen zum Identifizieren der fehlerhaften Einheit und des Problemtyps. Beispiel:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
Sensorname | Sensornummer | Sensortyp | Sensorlesetyp | Entitäts-ID | Instanz/Typ | Lesemaske (Datensatz auf Sensor) |
---|---|---|---|---|---|---|
GPU-Platine | E9h | 17h | 07h | 0Bh | 01h | 00h – Übergang zu OK 02h – Übergang vom weniger schwerwiegenden Zustand in einen kritischen Zustand
|
GPU-CPUs | EAh | 17h | 07h | 0Bh | 02h | 02h – Übergang vom weniger schwerwiegenden Zustand in einen kritischen Zustand
|
Sensorname | In SEL protokollierte Assertionen | In SEL protokollierte De-Assertionen | Schwellenwerte festlegbar (B20) | LED „EIN“-Anforderung bei Assertion F = Fehleranzeige | LED „AUS“-Anforderung bei De-Assertion F = Fehleranzeige |
---|---|---|---|---|---|
GPU-Platine | 02h | 02h | Nicht zutreffend | 00h – Keine 02h – F | 00h – Keine 02h – F |
GPU-CPUs | 02h | 02h | Nicht zutreffend | 02h-F | 02h-F |
Evt Data2 kann zusammengefasst werden, z. B. F7h: F1+F2+F4, F3: F1+F2.