Problemi relativi alle GPU MI300X
Utilizzare queste informazioni per risolvere i problemi correlati ai moduli della GPU e del dissipatore di calore e alla scheda di base della GPU.
Controllo dell'integrità delle GPU
Utilizzare una delle seguenti utilità per controllare lo stato di integrità delle GPU. Assicurarsi di aggiornare il driver delle GPU, che include le seguenti utilità richieste. Il driver più recente è disponibile all'indirizzo Sito Web per il download di driver e software per ThinkSystem SR685a V3.
Per ulteriori informazioni su SMI (System Management Interface), vedere Interfaccia di gestione del sistema AMD.
rocm-smi
Eseguire l'utilità rocm-smi per visualizzare le otto GPU online.
Figura 1. rocm-smirocm-smi --showrasinfo
Eseguire l'utilità rocm-smi --showrasinfo per visualizzare i dettagli hardware delle otto GPU.
Figura 2. rocm-smi --showrasinforocm-smi --showhw
Eseguire l'utilità rocm-smi --showhw per visualizzare i contatori degli errori delle otto GPU.
Figura 3. rocm-smi --showhwrocm-smi -a
Eseguire l'utilità rocm-smi -a per visualizzare lo stato delle otto GPU.
Figura 4. rocm-smi -a
Il sistema non riesce a rilevare una GPU specifica
Quando uno degli eventi viene visualizzato nel registro eventi Web XCC, indica che il sistema non è in grado di rilevare una o più GPU specifiche.
- Quando viene visualizzato l'evento FQXSPIO0015M: Errore nello slot [PhysicalConnectorSystemElementName] nel sistema [ComputerSystemElementName]., vedere FQXSPIO0015M per risolvere il problema.
- Quando viene visualizzato l'evento FQXSFIO0010M: Si è verificato un errore PCIe non correggibile sul bus [arg1] dispositivo [arg2] funzione [arg3]. L'ID fornitore per il dispositivo è [arg4] e l'ID dispositivo è [arg5]. Il numero fisico [arg6] è [arg7]., vedere FQXSFIO0010M per risolvere il problema.NotaParametri:
- [arg1] Bus
- [arg2] Dispositivo
- [arg3] Funzione
- [arg4] VID
- [arg5] DID
- [arg6] Slot/Vano
- [arg7] Numero di istanza
- Quando viene visualizzato l'evento FQXSPUN0019M: Il sensore [SensorElementName] è passato a uno stato critico da uno stato meno grave., vedere FQXSPUN0019M per risolvere il problema.
Numerazione degli slot in XCC | Socket fisici delle GPU | Posizione dei socket delle GPU |
---|---|---|
Slot 17 | OAM 7 | ![]() |
Slot 18 | OAM 6 | |
Slot 19 | OAM 4 | |
Slot 20 | OAM 5 | |
Slot 21 | OAM 3 | |
Slot 22 | OAM 2 | |
Slot 23 | OAM 0 | |
Slot 24 | OAM 1 |