Aller au contenu principal

Problèmes associés au GPU H100/H200

Les informations suivantes vous indiquent comment résoudre les problèmes liés aux GPU.

Contrôle d’intégrité des GPU

Remarque

Utilisez l’un des utilitaires suivants pour vérifier l’état d’intégrité des GPU. Assurez-vous de mettre à jour le pilote du GPU, qui comprend les utilitaires requis suivants. Le pilote le plus récent est disponible à l’adresse suivante : Site Web de téléchargement des pilotes et logiciels pour ThinkSystem SR780a V3.

Pour plus d’informations sur l’interface de surveillance du système, voir Interface de gestion de système NVIDIA.

  • nvidia-smi

    Exécutez l’utilitaire nvidia-smi pour afficher les huit GPU en ligne.

    Remarque
    Les numéros de GPU (0 à 7) dans la sortie sont les numéros logiques. Le tableau suivant présente les informations de mappage entre les numéros logiques et les sockets GPU physiques.
    Numéro logiqueSocket GPU physiqueEmplacement du socket GPU
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    Figure 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Exécutez l’utilitaire nvidia-smi -L pour afficher les huit GPU en ligne avec UUID.

    Remarque
    Les numéros de GPU (0 à 7) dans la sortie sont les numéros logiques. Le tableau suivant présente les informations de mappage entre les numéros logiques et les sockets GPU physiques.
    Numéro logiqueSocket GPU physiqueEmplacement du socket GPU
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    Figure 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Exécutez l’utilitaire nvidia-smi -q --id=1 -f <output file name> pour exporter les informations d’inventaire GPU.

    Tapez le nom de fichier souhaité dans <output file name> pour stocker la sortie. Par exemple : nvidia-smi -q --id=1 -f /tmp/queryoam1.txt

    Figure 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Exécutez l’utilitaire nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT pour exporter les erreurs de vérification et de correction des erreurs (ECC) et l’état des anciennes pages.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Exécutez l’utilitaire nvidia-smi pci --getErrorCounters pour afficher les compteurs d’erreurs des huit GPU.

    Figure 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Exécutez l’utilitaire nvidia-smi pci --getErrorCounters --id=<id number> pour afficher les compteurs d’erreurs d’un GPU spécifique.

    Tapez le numéro d’identification d’un GPU spécifique dans <id number>. Par exemple : nvidia-smi pci --getErrorCounters --id=2

    Figure 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

Le système ne parvient pas à détecter une unité GPU spécifique

Lorsque l’un des événements apparaît dans le journal des événements Web XCC, cela indique que le système ne parvient pas à détecter un ou plusieurs GPU spécifiques.

  • Lorsque l’événement FQXSPIO0015M : Erreur dans l’emplacement [PhysicalConnectorSystemElementName] sur le système [ComputerSystemElementName]. s’affiche, voir FQXSPIO0015M pour résoudre le problème.
  • Lorsque l’événement FQXSFIO0010M : Une erreur PCIe irrémédiable s’est produite sur le bus [arg1], périphérique [arg2], fonction [arg3]. L’ID de fournisseur pour l’unité est [arg4] et l’ID d’unité est [arg5]. Le numéro [arg6] physique est [arg7]. s’affiche, voir FQXSFIO0010M pour résoudre le problème.
    Remarque
    Paramètres :
    • [arg1] Bus
    • [arg2] Périphérique
    • [arg3] Fonction
    • [arg4] VID
    • [arg5] DID
    • [arg6] Emplacement/Baie
    • [arg7] Numéro d’instance
  • Lorsque l’événement FQXSPUN0019M : Le détecteur [SensorElementName] est passé à l’état critique à partir d’un état moins grave. s’affiche, voir FQXSPUN0019M pour résoudre le problème.
Remarque
Le tableau suivant présente les informations de mappage entre la numérotation des emplacements dans XCC et les sockets GPU physiques.
Numérotation des emplacements dans XCCSockets GPU physiquesEmplacement des sockets GPU
Emplacement 17GPU 5

Emplacement 18GPU 7
Emplacement 19GPU 8
Emplacement 20GPU 6
Emplacement 21GPU 1
Emplacement 22GPU 3
Emplacement 23GPU 4
Emplacement 24GPU 2