Aller au contenu principal

Problèmes GPU

Les informations ci-après vont vous aider à résoudre les problèmes liés aux GPU et à la carte GPU.

Contrôle d’intégrité des GPU et de la carte GPU

L’état suivant du détecteur signalé par ipmitool indique que les GPU et la carte GPU sont dans un état normal.

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
Le récapitulatif de l’utilitaire nvidia-smi indique qu’il y a 4 GPU en ligne.
Figure 1. nvidia-smi

Le système ne détecte pas la carte GPU.

Lorsqu’un événement Sensor GPU Board has transitioned to critical from a less severe state apparaît dans le journal des événements XCC Web, cela signifie que le système ne détecte pas la carte GPU. Pour résoudre ce problème, procédez comme ci-après.

  1. Mettez le système hors tension, puis redémarrez-le.
  2. Vérifiez les événements associés à l’alimentation au niveau du XCC et du module SMM2 (voir SMM2 - Alimentation).
  3. Vérifiez la température du système et le débit d’eau. Recherchez la présence d’une fuite, puis déconnectez et reconnectez le système de refroidissement par eau.
  4. Redémarrez le système, puis exécutez le contrôle d’intégrité ipmi (voir Contrôle d’intégrité des GPU et de la carte GPU).
  5. L’un des éléments suivants indique que le problème a été résolu :
    • FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) dans les messages XCC
    • Sensor GPU Board has transitioned to normal state dans le journal Web
    Toutefois, si le problème persiste, procédez comme suit :
    1. Collectez les données de maintenance XCC (voir Collecte des données de maintenance).
    2. Contactez le service de maintenance Lenovo.

Le système ne parvient pas à détecter une unité GPU spécifique

Lorsque l’événement Sensor GPU CPUs has transitioned to critical from a less severe state apparaît dans le journal des événements XCC Web, cela signifie que le système ne parvient pas à détecter un ou plusieurs GPU particuliers. Pour résoudre ce problème, procédez comme ci-après.

  1. Vérifiez si le resynchroniseur présente une température trop élevée d’après un événement XCC. Si oui, vous pouvez ignorer l’étape suivante.
  2. Téléchargez le microprogramme le plus récent à partir du site Assistance centre de données (https://datacentersupport.lenovo.com/products/servers/thinksystem/SD650v2), puis mettez à jour le microprogramme.
  3. Redémarrez le système, puis exécutez le contrôle d’intégrité ipmi (voir Contrôle d’intégrité des GPU et de la carte GPU).
  4. Si l’événement Sensor GPU Board has transitioned to normal state apparaît dans le journal des événements XCC Web, cela signifie que le problème a été résolu.

    Toutefois, si le problème persiste, procédez comme suit.
    1. Consultez le journal des événements XCC Web pour identifier l’unité défectueuse et le type de problème (voir Spécifications du détecteur de GPU XCC).
    2. Collectez les données de maintenance XCC (voir Collecte des données de maintenance).
    3. Exécutez nvidia-smi pour obtenir un diagnostic (voir Interface de gestion de système NVIDIA pour plus de détails)
    4. Exécutez nvidia-bug-report.sh (outil intégré dans le pilote NVIDIA).
    5. Contactez le service de maintenance Lenovo.

Spécifications du détecteur de GPU XCC

Lorsque vous voyez un événement dans le journal des événements XCC Web, reportez-vous au tableau suivant pour identifier l’unité défectueuse et le type de problème. Par exemple :

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
Tableau 1. Spécifications du détecteur de GPU XCC
Nom du détecteurDonnées
Processeurs de GPUNuméro de détecteurEAh

02h - Passage d’un état moins grave à l’état critique

Evt Data2 :

  • B0h : Alerte thermique
  • BBh : État de présence et d’alimentation
  • B1h : Informations sur les interruptions GPU
  • 21h : État de la liaison PCIe
  • E0h : Décompte GPU à partir du SMBIOS

Evt Data3 :

  • XXh : Index CORE GPU, 01h : cœur 1
  • 07h : cœur 3 + cœur 4
Type de détecteur17h
Type de mesure du détecteur07h
ID d’entité0Bh
Instance/type02h
Assertions consignées par le journal SEL02h
Annulations consignées par le journal SEL02h
Annulations de seuils 

Requête de voyant allumé en cas d’assertion

F = Voyant de défaillance

02h - F

Requête de voyant éteint en cas d’annulation

F = Voyant de défaillance

02h - F
Carte GPUNuméro de détecteurEAh

00h - Passage à l’état OK

02h - Passage d’un état moins grave à l’état critique

Evt Data2 :

  • F1h : Déclenchement thermique du GPU (sans evt3)
  • F2h : Déclenchement thermique du PIB (sans evt3)
  • F4h : Déclenchement thermique du resynchroniseur
  • F6h : Alerte thermique de cœur GPU

Evt Data3 :

  • XXh : Index CORE GPU, 01h : cœur 1
  • 07h : cœur 3 + cœur 4
  • Si Evt2 : F4h, 01h : assertion de l’indicateur de surchauffe
Type de détecteur17h
Type de mesure du détecteur07h
ID d’entité0Bh
Instance/type01h
Assertions consignées par le journal SEL02h
Annulations consignées par le journal SEL02h
Annulations de seuilsN/A

Requête de voyant allumé en cas d’assertion

F = Voyant de défaillance

00h - Aucun

02h - F

Requête de voyant éteint en cas d’annulation

F = Voyant de défaillance

00h - Aucun

02h - F