Aller au contenu principal

Problèmes GPU

Les informations ci-après vont vous aider à résoudre les problèmes liés aux GPU et à la carte GPU.

Remarque
Assurez-vous de mettre à jour le pilote du GPU, qui inclut l’utilitaire nvidia-smi requis pour l’identification des problèmes du GPU. Le pilote le plus récent est disponible à l’adresse suivante : Site Web de téléchargement des pilotes et logiciels pour ThinkSystem SD650-N V3.

Contrôle d’intégrité des GPU et de la carte GPU

L’état suivant du détecteur signalé par ipmitool indique que les GPU et la carte GPU sont dans un état normal.

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
Le récapitulatif de l’utilitaire nvidia-smi indique qu’il y a 4 GPU en ligne.
Figure 1. nvidia-smi

Le système ne détecte pas la carte GPU.

Lorsqu’un événement Sensor GPU Board has transitioned to critical from a less severe state apparaît dans le journal des événements XCC Web, cela signifie que le système ne détecte pas la carte GPU. Pour résoudre ce problème, procédez comme ci-après.

  1. Mettez le système hors tension, puis redémarrez-le.
  2. Vérifiez les événements associés à l’alimentation au niveau du XCC et du module SMM2 (voir SMM2 - Alimentation).
  3. Vérifiez la température du système et le débit d’eau. Recherchez la présence d’une fuite, puis déconnectez et reconnectez le système de refroidissement par eau.
  4. Redémarrez le système, puis exécutez le contrôle d’intégrité ipmi (voir Contrôle d’intégrité des GPU et de la carte GPU).
  5. L’un des éléments suivants indique que le problème a été résolu :
    • FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) dans les messages XCC
    • Sensor GPU Board has transitioned to normal state dans le journal Web
    Toutefois, si le problème persiste, procédez comme suit :
    1. Collectez les données de maintenance XCC (voir Collecte des données de maintenance).
    2. Contactez le service de maintenance Lenovo.

Le système ne parvient pas à détecter une unité GPU spécifique

Lorsque l’événement Sensor GPU CPUs has transitioned to critical from a less severe state apparaît dans le journal des événements XCC Web, cela signifie que le système ne parvient pas à détecter un ou plusieurs GPU particuliers. Pour résoudre ce problème, procédez comme ci-après.

  1. Vérifiez si le resynchroniseur présente une température trop élevée d’après un événement XCC. Si oui, vous pouvez ignorer l’étape suivante.
  2. Téléchargez le microprogramme le plus récent à partir du site Assistance centre de données (Assistance centre de données Lenovo pour ThinkSystem SD650-N V3), puis mettez à jour le microprogramme.
  3. Redémarrez le système, puis exécutez le contrôle d’intégrité ipmi (voir Contrôle d’intégrité des GPU et de la carte GPU).
  4. Si l’événement Sensor GPU Board has transitioned to normal state apparaît dans le journal des événements XCC Web, cela signifie que le problème a été résolu.

    Toutefois, si le problème persiste, procédez comme suit.
    1. Consultez le journal des événements XCC Web pour identifier l’unité défectueuse et le type de problème (voir Spécifications du détecteur de GPU XCC).
    2. Collectez les données de maintenance XCC (voir Collecte des données de maintenance).
    3. Exécutez nvidia-smi pour obtenir un diagnostic (voir Interface de gestion de système NVIDIA pour plus de détails)
      Remarque
      Assurez-vous de mettre à jour le pilote du GPU, qui inclut l’utilitaire nvidia-smi requis pour l’identification des problèmes du GPU. Le pilote le plus récent est disponible à l’adresse suivante : Site Web de téléchargement des pilotes et logiciels pour ThinkSystem SD650-N V3.
    4. Exécutez nvidia-bug-report.sh (outil intégré dans le pilote NVIDIA).
    5. Contactez le service de maintenance Lenovo.

Spécifications du détecteur de GPU XCC

Lorsque vous voyez un événement dans le journal des événements XCC Web, reportez-vous au tableau suivant pour identifier l’unité défectueuse et le type de problème. Par exemple :

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
Tableau 1. Spécifications du détecteur de GPU XCC 1/2
Nom du détecteurNuméro de détecteurType de détecteurType de mesure du détecteurID d’entitéInstance/typeMasque de lecture (ensemble de données du détecteur)
Carte GPUE9h17h07h0Bh01h

00h - Passage à l’état OK

02h - Passage d’un état moins grave à l’état critique

  • Evt Data : 21
    • F1h : Limitation d’alimentation du GPU (sans evt3)

    • F2h : Déclenchement thermique du PIB (sans evt3)

    • F6h : Alerte thermique de cœur GPU

    • F8h : PIB surchauffe

  • Evt Data3 :

    • XXh : Index CORE GPU, 01h : cœur 1

    • 07h : cœur 1 + cœur 2 + cœur 3

Processeurs de GPUEAh17h07h0Bh02h

02h - Passage d’un état moins grave à l’état critique

  • Evt Data2 :

    • B#h : Alerte thermique

    • BBh : État de présence et d’alimentation

    • 21h : État de la liaison PCIe

    • E0h : Décompte GPU à partir du SMBIOS

    • 3Ah : Détecteur d’intégrité de carte

  • Evt Data3 :

    • XXh : Index CORE GPU, 01h : cœur 1

    • 0Ch : cœur 3 + cœur 4

    • ED2 : B#h, ED3 : VR id.

Tableau 2. Spécifications du détecteur de GPU XCC 2/2
Nom du détecteurAssertions consignées par le journal SELAnnulations consignées par le journal SELSeuils paramétrables (B20)

Requête de voyant allumé en cas d’assertion

F = Voyant de défaillance

Requête de voyant éteint en cas d’annulation

F = Voyant de défaillance

Carte GPU02h02hN/A

00h - Aucun

02h - F

00h - Aucun

02h - F

Processeurs de GPU02h02hN/A02h-F02h-F
1

Les Evt data2 peuvent être résumées, par exemple : F7h : F1+F2+F4, F3 : F1+F2.