MI300X GPU – Probleme
Mithilfe dieser Informationen können Sie Probleme im Zusammenhang mit GPU- und Kühlkörpermodulen sowie dem GPU-Baseboard beheben.
GPU-Integritätsprüfung
Verwenden Sie eines der folgenden Dienstprogramme, um den GPU-Integritätsstatus zu überprüfen. Stellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er die folgenden erforderlichen Dienstprogramme enthält. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für ThinkSystem SR685a V3.
Weitere Informationen zur SMI (System Management Interface, Systemverwaltungsschnittstelle) finden Sie unter AMD-Systemverwaltungsschnittstelle.
rocm-smi
Führen Sie das Dienstprogramm rocm-smi aus, um die acht GPUs online anzuzeigen.
Abbildung 1. rocm-smirocm-smi --showrasinfo
Führen Sie das Dienstprogramm rocm-smi --showrasinfo aus, um Hardwaredetails der acht GPUs anzuzeigen.
Abbildung 2. rocm-smi --showrasinforocm-smi --showhw
Führen Sie das Dienstprogramm rocm-smi --showhw aus, um Fehlerzähler der acht GPUs anzuzeigen.
Abbildung 3. rocm-smi --showhwrocm-smi -a
Führen Sie das Dienstprogramm rocm-smi -a aus, um den Status der acht GPUs anzuzeigen.
Abbildung 4. rocm-smi -a
System erkennt keine bestimmte GPU
Wenn eines der Ereignisse im XCC-Webereignisprotokoll angezeigt wird, weist dies darauf hin, dass das System eine oder mehrere bestimmte GPUs nicht erkennen kann.
- Wenn das Ereignis FQXSPIO0015M: Fehler an Steckplatz [PhysicalConnectorSystemElementName] im System [ComputerSystemElementName]. angezeigt wird, finden Sie in FQXSPIO0015M weitere Informationen für die Behebung des Problems.
- Wenn das Ereignis FQXSFIO0010M: Für Bus [arg1] Gerät [arg2] Funktion [arg3] ist ein nicht behebbarer PCIe-Fehler aufgetreten. Die Hersteller-ID für das Gerät ist [arg4] und die Geräte-ID ist [arg5]. Die physische [arg6] Nummer ist [arg7]. angezeigt wird, finden Sie in FQXSFIO0010M weitere Informationen für die Behebung des Problems.AnmerkungParameter:
- [arg1] Bus
- [arg2] Einheit
- [arg3] Funktion
- [arg4] VID
- [arg5] DID
- [arg6] Steckplatz/Position
- [arg7] Instanznummer
- Wenn das Ereignis FQXSPUN0019M: Sensor [SensorElementName] ist von einem weniger schwerwiegenden in den kritischen Zustand übergegangen. angezeigt wird, finden Sie in FQXSPUN0019M weitere Informationen für die Behebung des Problems.
Steckplatznummerierung in XCC | Physische GPU-Sockel | Position der GPU-Sockel |
---|---|---|
Steckplatz 17 | OAM 7 | ![]() |
Steckplatz 18 | OAM 6 | |
Steckplatz 19 | OAM 4 | |
Steckplatz 20 | OAM 5 | |
Steckplatz 21 | OAM 3 | |
Steckplatz 22 | OAM 2 | |
Steckplatz 23 | OAM 0 | |
Steckplatz 24 | OAM 1 |