Problèmes GPU
Les informations ci-après vont vous aider à résoudre les problèmes liés aux GPU et à la carte GPU.
- Contrôle d’intégrité des GPU et de la carte GPU
- Le système ne détecte pas la carte GPU.
- Le système ne parvient pas à détecter une unité GPU spécifique
- Spécifications du détecteur de GPU XCC
Contrôle d’intégrité des GPU et de la carte GPU
L’état suivant du détecteur signalé par ipmitool indique que les GPU et la carte GPU sont dans un état normal.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
Le système ne détecte pas la carte GPU.
Lorsqu’un événement Sensor GPU Board has transitioned to critical from a less severe state apparaît dans le journal des événements XCC Web, cela signifie que le système ne détecte pas la carte GPU. Pour résoudre ce problème, procédez comme ci-après.
- Mettez le système hors tension, puis redémarrez-le.
- Vérifiez les événements associés à l’alimentation au niveau du XCC et du module SMM2 (voir SMM2 - Alimentation).
- Vérifiez la température du système et le débit d’eau. Recherchez la présence d’une fuite, puis déconnectez et reconnectez le système de refroidissement par eau.
- Redémarrez le système, puis exécutez le contrôle d’intégrité ipmi (voir Contrôle d’intégrité des GPU et de la carte GPU).
- L’un des éléments suivants indique que le problème a été résolu :
- FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) dans les messages XCC
- Sensor GPU Board has transitioned to normal state dans le journal Web
Toutefois, si le problème persiste, procédez comme suit :- Collectez les données de maintenance XCC (voir Collecte des données de maintenance).
- Contactez le service de maintenance Lenovo.
Le système ne parvient pas à détecter une unité GPU spécifique
Lorsque l’événement Sensor GPU CPUs has transitioned to critical from a less severe state apparaît dans le journal des événements XCC Web, cela signifie que le système ne parvient pas à détecter un ou plusieurs GPU particuliers. Pour résoudre ce problème, procédez comme ci-après.
- Vérifiez si le resynchroniseur présente une température trop élevée d’après un événement XCC. Si oui, vous pouvez ignorer l’étape suivante.
- Téléchargez le microprogramme le plus récent à partir du site Assistance centre de données (Assistance centre de données Lenovo pour ThinkSystem SD650-N V3), puis mettez à jour le microprogramme.
- Redémarrez le système, puis exécutez le contrôle d’intégrité ipmi (voir Contrôle d’intégrité des GPU et de la carte GPU).
Si l’événement Sensor GPU Board has transitioned to normal state apparaît dans le journal des événements XCC Web, cela signifie que le problème a été résolu.
Toutefois, si le problème persiste, procédez comme suit.- Consultez le journal des événements XCC Web pour identifier l’unité défectueuse et le type de problème (voir Spécifications du détecteur de GPU XCC).
- Collectez les données de maintenance XCC (voir Collecte des données de maintenance).
- Exécutez nvidia-smi pour obtenir un diagnostic (voir Interface de gestion de système NVIDIA pour plus de détails)RemarqueAssurez-vous de mettre à jour le pilote du GPU, qui inclut l’utilitaire
nvidia-smi requis pour l’identification des problèmes du GPU. Le pilote le plus récent est disponible à l’adresse suivante : Site Web de téléchargement des pilotes et logiciels pour ThinkSystem SD650-N V3. - Exécutez nvidia-bug-report.sh (outil intégré dans le pilote NVIDIA).
- Contactez le service de maintenance Lenovo.
Spécifications du détecteur de GPU XCC
Lorsque vous voyez un événement dans le journal des événements XCC Web, reportez-vous au tableau suivant pour identifier l’unité défectueuse et le type de problème. Par exemple :
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
Nom du détecteur | Numéro de détecteur | Type de détecteur | Type de mesure du détecteur | ID d’entité | Instance/type | Masque de lecture (ensemble de données du détecteur) |
---|---|---|---|---|---|---|
Carte GPU | E9h | 17h | 07h | 0Bh | 01h | 00h - Passage à l’état OK 02h - Passage d’un état moins grave à l’état critique
|
Processeurs de GPU | EAh | 17h | 07h | 0Bh | 02h | 02h - Passage d’un état moins grave à l’état critique
|
Nom du détecteur | Assertions consignées par le journal SEL | Annulations consignées par le journal SEL | Seuils paramétrables (B20) | Requête de voyant allumé en cas d’assertion F = Voyant de défaillance | Requête de voyant éteint en cas d’annulation F = Voyant de défaillance |
---|---|---|---|---|---|
Carte GPU | 02h | 02h | N/A | 00h - Aucun 02h - F | 00h - Aucun 02h - F |
Processeurs de GPU | 02h | 02h | N/A | 02h-F | 02h-F |
Les Evt data2 peuvent être résumées, par exemple : F7h : F1+F2+F4, F3 : F1+F2.