Problèmes associés au GPU H100/H200
Les informations suivantes vous indiquent comment résoudre les problèmes liés aux GPU.
Contrôle d’intégrité des GPU
Utilisez l’un des utilitaires suivants pour vérifier l’état d’intégrité des GPU. Assurez-vous de mettre à jour le pilote du GPU, qui comprend les utilitaires requis suivants. Le pilote le plus récent est disponible à l’adresse suivante : Site Web de téléchargement des pilotes et logiciels pour ThinkSystem SR780a V3.
Pour plus d’informations sur l’interface de surveillance du système, voir Interface de gestion de système NVIDIA.
nvidia-smi
Exécutez l’utilitaire nvidia-smi pour afficher les huit GPU en ligne.
RemarqueLes numéros de GPU (0 à 7) dans la sortie sont les numéros logiques. Le tableau suivant présente les informations de mappage entre les numéros logiques et les sockets GPU physiques.Numéro logique Socket GPU physique Emplacement du socket GPU 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 Figure 1. nvidia-sminvidia-smi -L
Exécutez l’utilitaire nvidia-smi -L pour afficher les huit GPU en ligne avec UUID.
RemarqueLes numéros de GPU (0 à 7) dans la sortie sont les numéros logiques. Le tableau suivant présente les informations de mappage entre les numéros logiques et les sockets GPU physiques.Numéro logique Socket GPU physique Emplacement du socket GPU 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 Figure 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
Exécutez l’utilitaire nvidia-smi -q --id=1 -f <output file name> pour exporter les informations d’inventaire GPU.
Tapez le nom de fichier souhaité dans <output file name> pour stocker la sortie. Par exemple : nvidia-smi -q --id=1 -f /tmp/queryoam1.txt
Figure 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Exécutez l’utilitaire nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT pour exporter les erreurs de vérification et de correction des erreurs (ECC) et l’état des anciennes pages.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Exécutez l’utilitaire nvidia-smi pci --getErrorCounters pour afficher les compteurs d’erreurs des huit GPU.
Figure 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
Exécutez l’utilitaire nvidia-smi pci --getErrorCounters --id=<id number> pour afficher les compteurs d’erreurs d’un GPU spécifique.
Tapez le numéro d’identification d’un GPU spécifique dans <id number>. Par exemple : nvidia-smi pci --getErrorCounters --id=2
Figure 5. nvidia-smi pci --getErrorCounters --id=<id number>
Le système ne parvient pas à détecter une unité GPU spécifique
Lorsque l’un des événements apparaît dans le journal des événements Web XCC, cela indique que le système ne parvient pas à détecter un ou plusieurs GPU spécifiques.
- Lorsque l’événement FQXSPIO0015M : Erreur dans l’emplacement [PhysicalConnectorSystemElementName] sur le système [ComputerSystemElementName]. s’affiche, voir FQXSPIO0015M pour résoudre le problème.
- Lorsque l’événement FQXSFIO0010M : Une erreur PCIe irrémédiable s’est produite sur le bus [arg1], périphérique [arg2], fonction [arg3]. L’ID de fournisseur pour l’unité est [arg4] et l’ID d’unité est [arg5]. Le numéro [arg6] physique est [arg7]. s’affiche, voir FQXSFIO0010M pour résoudre le problème.RemarqueParamètres :
- [arg1] Bus
- [arg2] Périphérique
- [arg3] Fonction
- [arg4] VID
- [arg5] DID
- [arg6] Emplacement/Baie
- [arg7] Numéro d’instance
- Lorsque l’événement FQXSPUN0019M : Le détecteur [SensorElementName] est passé à l’état critique à partir d’un état moins grave. s’affiche, voir FQXSPUN0019M pour résoudre le problème.
Numérotation des emplacements dans XCC | Sockets GPU physiques | Emplacement des sockets GPU |
---|---|---|
Emplacement 17 | GPU 5 | ![]() |
Emplacement 18 | GPU 7 | |
Emplacement 19 | GPU 8 | |
Emplacement 20 | GPU 6 | |
Emplacement 21 | GPU 1 | |
Emplacement 22 | GPU 3 | |
Emplacement 23 | GPU 4 | |
Emplacement 24 | GPU 2 |