Problèmes liés aux GPU MI300X
Reportez-vous aux informations ci-après afin de résoudre les problèmes associés aux modules GPU et dissipateur thermique et à la carte mère du GPU.
Contrôle d’intégrité des GPU
Utilisez l’un des utilitaires suivants pour vérifier l’état d’intégrité des GPU. Assurez-vous de mettre à jour le pilote du GPU, qui comprend les utilitaires requis suivants. Le pilote le plus récent est disponible à l’adresse suivante : Site Web de téléchargement des pilotes et logiciels pour ThinkSystem SR685a V3.
Pour plus d’informations sur l’interface de surveillance du système, voir Interface de gestion de système AMD.
rocm-smi
Exécutez l’utilitaire rocm-smi pour afficher les huit GPU en ligne.
Figure 1. rocm-smirocm-smi --showrasinfo
Exécutez l’utilitaire rocm-smi --showrasinfo pour afficher les détails matériels des huit GPU.
Figure 2. rocm-smi --showrasinforocm-smi --showhw
Exécutez l’utilitaire rocm-smi --showhw pour afficher les compteurs d’erreurs des huit GPU.
Figure 3. rocm-smi --showhwrocm-smi -a
Exécutez l’utilitaire rocm-smi -a pour afficher l’état des huit GPU.
Figure 4. rocm-smi -a
Le système ne parvient pas à détecter une unité GPU spécifique
Lorsque l’un des événements apparaît dans le journal des événements Web XCC, cela indique que le système ne parvient pas à détecter un ou plusieurs GPU spécifiques.
- Lorsque l’événement FQXSPIO0015M : Erreur dans l’emplacement [PhysicalConnectorSystemElementName] sur le système [ComputerSystemElementName]. s’affiche, voir FQXSPIO0015M pour résoudre le problème.
- Lorsque l’événement FQXSFIO0010M : Une erreur PCIe irrémédiable s’est produite sur le bus [arg1], périphérique [arg2], fonction [arg3]. L’ID de fournisseur pour l’unité est [arg4] et l’ID d’unité est [arg5]. Le numéro [arg6] physique est [arg7]. s’affiche, voir FQXSFIO0010M pour résoudre le problème.RemarqueParamètres :
- [arg1] Bus
- [arg2] Périphérique
- [arg3] Fonction
- [arg4] VID
- [arg5] DID
- [arg6] Emplacement/Baie
- [arg7] Numéro d’instance
- Lorsque l’événement FQXSPUN0019M : Le détecteur [SensorElementName] est passé à l’état critique à partir d’un état moins grave. s’affiche, voir FQXSPUN0019M pour résoudre le problème.
Numérotation des emplacements dans XCC | Sockets GPU physiques | Emplacement des sockets GPU |
---|---|---|
Emplacement 17 | OAM 7 | ![]() |
Emplacement 18 | OAM 6 | |
Emplacement 19 | OAM 4 | |
Emplacement 20 | OAM 5 | |
Emplacement 21 | OAM 3 | |
Emplacement 22 | OAM 2 | |
Emplacement 23 | OAM 0 | |
Emplacement 24 | OAM 1 |