Problemi relativi alla GPU H100/H200
Utilizzare queste informazioni per risolvere i problemi correlati alle GPU.
Controllo dell'integrità delle GPU
Utilizzare una delle seguenti utilità per controllare lo stato di integrità delle GPU. Assicurarsi di aggiornare il driver delle GPU, che include le seguenti utilità richieste. Il driver più recente è disponibile all'indirizzo Sito Web per il download di driver e software per ThinkSystem SR780a V3.
Per ulteriori informazioni su SMI (System Management Interface), vedere Interfaccia di gestione del sistema NVIDIA.
nvidia-smi
Eseguire l'utilità nvidia-smi per visualizzare le otto GPU online.
NotaI numeri GPU (da 0 a 7) nell'output sono i numeri logici. La tabella seguente mostra le informazioni di associazione tra i numeri logici e i socket fisici delle GPU.Numero logico Socket fisico della GPU Posizione del socket della GPU 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 Figura 1. nvidia-sminvidia-smi -L
Eseguire l'utilità nvidia-smi -L per visualizzare le otto GPU online con UUID.
NotaI numeri GPU (da 0 a 7) nell'output sono i numeri logici. La tabella seguente mostra le informazioni di associazione tra i numeri logici e i socket fisici delle GPU.Numero logico Socket fisico della GPU Posizione del socket della GPU 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 Figura 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
Eseguire l'utilità nvidia-smi -q --id=1 -f <output file name> per esportare le informazioni sull'inventario della GPU.
Digitare il nome del file desiderato in <output file name> per memorizzare l'output. Ad esempio: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Figura 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Eseguire l'utilità nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT per esportare gli errori ECC (Error Checking and Correction) e lo stato delle pagine ritirate.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Eseguire l'utilità nvidia-smi pci --getErrorCounters per visualizzare i contatori degli errori delle otto GPU.
Figura 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
Eseguire l'utilità nvidia-smi pci --getErrorCounters --id=<id number> per visualizzare i contatori degli errori di una GPU specifica.
Digitare il numero ID di una GPU specifica in <id number>. Ad esempio: nvidia-smi pci --getErrorCounters --id=2.
Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>
Il sistema non riesce a rilevare una GPU specifica
Quando uno degli eventi viene visualizzato nel registro eventi Web XCC, indica che il sistema non è in grado di rilevare una o più GPU specifiche.
- Quando viene visualizzato l'evento FQXSPIO0015M: Errore nello slot [PhysicalConnectorSystemElementName] nel sistema [ComputerSystemElementName]., vedere FQXSPIO0015M per risolvere il problema.
- Quando viene visualizzato l'evento FQXSFIO0010M: Si è verificato un errore PCIe non correggibile sul bus [arg1] dispositivo [arg2] funzione [arg3]. L'ID fornitore per il dispositivo è [arg4] e l'ID dispositivo è [arg5]. Il numero fisico [arg6] è [arg7]., vedere FQXSFIO0010M per risolvere il problema.NotaParametri:
- [arg1] Bus
- [arg2] Dispositivo
- [arg3] Funzione
- [arg4] VID
- [arg5] DID
- [arg6] Slot/Vano
- [arg7] Numero di istanza
- Quando viene visualizzato l'evento FQXSPUN0019M: Il sensore [SensorElementName] è passato a uno stato critico da uno stato meno grave., vedere FQXSPUN0019M per risolvere il problema.
Numerazione degli slot in XCC | Socket fisici delle GPU | Posizione dei socket delle GPU |
---|---|---|
Slot 17 | GPU 5 | ![]() |
Slot 18 | GPU 7 | |
Slot 19 | GPU 8 | |
Slot 20 | GPU 6 | |
Slot 21 | GPU 1 | |
Slot 22 | GPU 3 | |
Slot 23 | GPU 4 | |
Slot 24 | GPU 2 |