Zum Hauptinhalt springen

MI300X GPU – Probleme

Mithilfe dieser Informationen können Sie Probleme im Zusammenhang mit GPU- und Kühlkörpermodulen sowie dem GPU-Baseboard beheben.

GPU-Integritätsprüfung

Anmerkung

Verwenden Sie eines der folgenden Dienstprogramme, um den GPU-Integritätsstatus zu überprüfen. Stellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er die folgenden erforderlichen Dienstprogramme enthält. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für ThinkSystem SR685a V3.

Weitere Informationen zur SMI (System Management Interface, Systemverwaltungsschnittstelle) finden Sie unter AMD-Systemverwaltungsschnittstelle.

  • rocm-smi

    Führen Sie das Dienstprogramm rocm-smi aus, um die acht GPUs online anzuzeigen.

    Abbildung 1. rocm-smi
    rocm-smi
  • rocm-smi --showrasinfo

    Führen Sie das Dienstprogramm rocm-smi --showrasinfo aus, um Hardwaredetails der acht GPUs anzuzeigen.

    Abbildung 2. rocm-smi --showrasinfo
    rocm-smi --showrasinfo
  • rocm-smi --showhw

    Führen Sie das Dienstprogramm rocm-smi --showhw aus, um Fehlerzähler der acht GPUs anzuzeigen.

    Abbildung 3. rocm-smi --showhw
    rocm-smi --showhw
  • rocm-smi -a

    Führen Sie das Dienstprogramm rocm-smi -a aus, um den Status der acht GPUs anzuzeigen.

    Abbildung 4. rocm-smi -a
    rocm-smi -a

    rocm-smi -a

System erkennt keine bestimmte GPU

Wenn eines der Ereignisse im XCC-Webereignisprotokoll angezeigt wird, weist dies darauf hin, dass das System eine oder mehrere bestimmte GPUs nicht erkennen kann.

  • Wenn das Ereignis FQXSPIO0015M: Fehler an Steckplatz [PhysicalConnectorSystemElementName] im System [ComputerSystemElementName]. angezeigt wird, finden Sie in FQXSPIO0015M weitere Informationen für die Behebung des Problems.
  • Wenn das Ereignis FQXSFIO0010M: Für Bus [arg1] Gerät [arg2] Funktion [arg3] ist ein nicht behebbarer PCIe-Fehler aufgetreten. Die Hersteller-ID für das Gerät ist [arg4] und die Geräte-ID ist [arg5]. Die physische [arg6] Nummer ist [arg7]. angezeigt wird, finden Sie in FQXSFIO0010M weitere Informationen für die Behebung des Problems.
    Anmerkung
    Parameter:
    • [arg1] Bus
    • [arg2] Einheit
    • [arg3] Funktion
    • [arg4] VID
    • [arg5] DID
    • [arg6] Steckplatz/Position
    • [arg7] Instanznummer
  • Wenn das Ereignis FQXSPUN0019M: Sensor [SensorElementName] ist von einem weniger schwerwiegenden in den kritischen Zustand übergegangen. angezeigt wird, finden Sie in FQXSPUN0019M weitere Informationen für die Behebung des Problems.
Anmerkung
In der folgenden Tabelle sind die Zuordnungsinformationen zwischen der Steckplatznummerierung in XCC und physischen GPU-Sockeln aufgeführt.
Steckplatznummerierung in XCCPhysische GPU-SockelPosition der GPU-Sockel
Steckplatz 17OAM 7

Steckplatz 18OAM 6
Steckplatz 19OAM 4
Steckplatz 20OAM 5
Steckplatz 21OAM 3
Steckplatz 22OAM 2
Steckplatz 23OAM 0
Steckplatz 24OAM 1