Problèmes liés au GPU
Les informations suivantes vous indiquent comment résoudre les problèmes liés aux GPU.
Contrôle d’intégrité des GPU
Utilisez l’un des utilitaires suivants pour vérifier l’état d’intégrité des GPU. Assurez-vous de mettre à jour le pilote du GPU, qui comprend les utilitaires requis suivants. Le pilote le plus récent est disponible à l’adresse suivante : Site Web de téléchargement des pilotes et logiciels pour ThinkSystem SR680a V4.
Pour plus d’informations sur l’interface de surveillance du système, voir Interface de gestion de système NVIDIA.
nvidia-smi
Exécutez l’utilitaire nvidia-smi pour afficher les huit GPU en ligne.
Figure 1. nvidia-smi
nvidia-smi -L
Exécutez l’utilitaire nvidia-smi -L pour afficher les huit GPU en ligne avec UUID.
Figure 2. nvidia-smi -L
nvidia-smi -q --id=1 -f <output file name>
Exécutez l’utilitaire nvidia-smi -q --id=1 -f <output file name> pour exporter les informations d’inventaire GPU.
Saisissez le nom de fichier souhaité dans <output file name> pour stocker la sortie. Par exemple : nvidia-smi -q --id=1 -f /tmp/queryoam1.txt
Figure 3. nvidia-smi -q --id=1 -f <output file name>
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Exécutez l’utilitaire nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT pour exporter les erreurs de vérification et de correction des erreurs (ECC) et l’état des anciennes pages.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Exécutez l’utilitaire nvidia-smi pci --getErrorCounters pour afficher les compteurs d’erreurs des huit GPU.
Figure 4. nvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters --id=<id number>
Exécutez l’utilitaire nvidia-smi pci --getErrorCounters --id=<id number> pour afficher les compteurs d’erreurs d’un GPU spécifique.
Saisissez le numéro d’identification d’un GPU spécifique dans <id number>. Par exemple : nvidia-smi pci --getErrorCounters --id=2
Figure 5. nvidia-smi pci --getErrorCounters --id=<id number>