Problemi relativi alla GPU
Utilizzare queste informazioni per risolvere i problemi correlati alle GPU.
Controllo dell'integrità delle GPU
Utilizzare una delle seguenti utilità per controllare lo stato di integrità delle GPU. Assicurarsi di aggiornare il driver delle GPU, che include le seguenti utilità richieste. Il driver più recente è disponibile all'indirizzo Sito Web per il download di driver e software per ThinkSystem SR680a V4.
Per ulteriori informazioni su SMI (System Management Interface), vedere Interfaccia di gestione del sistema NVIDIA.
nvidia-smi
Eseguire l'utilità nvidia-smi per visualizzare le otto GPU online.
Figura 1. nvidia-smi
nvidia-smi -L
Eseguire l'utilità nvidia-smi -L per visualizzare le otto GPU online con UUID.
Figura 2. nvidia-smi -L
nvidia-smi -q --id=1 -f <output file name>
Eseguire l'utilità nvidia-smi -q --id=1 -f <output file name> per esportare le informazioni sull'inventario della GPU.
Digitare il nome del file desiderato in <output file name> per memorizzare l'output. Ad esempio: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Figura 3. nvidia-smi -q --id=1 -f <output file name>
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Eseguire l'utilità nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT per esportare gli errori ECC (Error Checking and Correction) e lo stato delle pagine ritirate.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Eseguire l'utilità nvidia-smi pci --getErrorCounters per visualizzare i contatori degli errori delle otto GPU.
Figura 4. nvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters --id=<id number>
Eseguire l'utilità nvidia-smi pci --getErrorCounters --id=<id number> per visualizzare i contatori degli errori di una GPU specifica.
Digitare il numero ID di una GPU specifica in <id number>. Ad esempio: nvidia-smi pci --getErrorCounters --id=2.
Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>