Passa al contenuto principale

Problemi relativi alle GPU MI300X

Utilizzare queste informazioni per risolvere i problemi correlati ai moduli della GPU e del dissipatore di calore e alla scheda di base della GPU.

Controllo dell'integrità delle GPU

Nota

Utilizzare una delle seguenti utilità per controllare lo stato di integrità delle GPU. Assicurarsi di aggiornare il driver delle GPU, che include le seguenti utilità richieste. Il driver più recente è disponibile all'indirizzo Sito Web per il download di driver e software per ThinkSystem SR685a V3.

Per ulteriori informazioni su SMI (System Management Interface), vedere Interfaccia di gestione del sistema AMD.

  • rocm-smi

    Eseguire l'utilità rocm-smi per visualizzare le otto GPU online.

    Figura 1. rocm-smi
    rocm-smi
  • rocm-smi --showrasinfo

    Eseguire l'utilità rocm-smi --showrasinfo per visualizzare i dettagli hardware delle otto GPU.

    Figura 2. rocm-smi --showrasinfo
    rocm-smi --showrasinfo
  • rocm-smi --showhw

    Eseguire l'utilità rocm-smi --showhw per visualizzare i contatori degli errori delle otto GPU.

    Figura 3. rocm-smi --showhw
    rocm-smi --showhw
  • rocm-smi -a

    Eseguire l'utilità rocm-smi -a per visualizzare lo stato delle otto GPU.

    Figura 4. rocm-smi -a
    rocm-smi -a

    rocm-smi -a

Il sistema non riesce a rilevare una GPU specifica

Quando uno degli eventi viene visualizzato nel registro eventi Web XCC, indica che il sistema non è in grado di rilevare una o più GPU specifiche.

  • Quando viene visualizzato l'evento FQXSPIO0015M: Errore nello slot [PhysicalConnectorSystemElementName] nel sistema [ComputerSystemElementName]., vedere FQXSPIO0015M per risolvere il problema.
  • Quando viene visualizzato l'evento FQXSFIO0010M: Si è verificato un errore PCIe non correggibile sul bus [arg1] dispositivo [arg2] funzione [arg3]. L'ID fornitore per il dispositivo è [arg4] e l'ID dispositivo è [arg5]. Il numero fisico [arg6] è [arg7]., vedere FQXSFIO0010M per risolvere il problema.
    Nota
    Parametri:
    • [arg1] Bus
    • [arg2] Dispositivo
    • [arg3] Funzione
    • [arg4] VID
    • [arg5] DID
    • [arg6] Slot/Vano
    • [arg7] Numero di istanza
  • Quando viene visualizzato l'evento FQXSPUN0019M: Il sensore [SensorElementName] è passato a uno stato critico da uno stato meno grave., vedere FQXSPUN0019M per risolvere il problema.
Nota
La tabella che segue mostra le informazioni di associazione tra la numerazione degli slot in XCC e i socket fisici delle GPU.
Numerazione degli slot in XCCSocket fisici delle GPUPosizione dei socket delle GPU
Slot 17OAM 7

Slot 18OAM 6
Slot 19OAM 4
Slot 20OAM 5
Slot 21OAM 3
Slot 22OAM 2
Slot 23OAM 0
Slot 24OAM 1