Aller au contenu principal

Problèmes liés aux GPU MI300X

Reportez-vous aux informations ci-après afin de résoudre les problèmes associés aux modules GPU et dissipateur thermique et à la carte mère du GPU.

Contrôle d’intégrité des GPU

Remarque

Utilisez l’un des utilitaires suivants pour vérifier l’état d’intégrité des GPU. Assurez-vous de mettre à jour le pilote du GPU, qui comprend les utilitaires requis suivants. Le pilote le plus récent est disponible à l’adresse suivante : Site Web de téléchargement des pilotes et logiciels pour ThinkSystem SR685a V3.

Pour plus d’informations sur l’interface de surveillance du système, voir Interface de gestion de système AMD.

  • rocm-smi

    Exécutez l’utilitaire rocm-smi pour afficher les huit GPU en ligne.

    Figure 1. rocm-smi
    rocm-smi
  • rocm-smi --showrasinfo

    Exécutez l’utilitaire rocm-smi --showrasinfo pour afficher les détails matériels des huit GPU.

    Figure 2. rocm-smi --showrasinfo
    rocm-smi --showrasinfo
  • rocm-smi --showhw

    Exécutez l’utilitaire rocm-smi --showhw pour afficher les compteurs d’erreurs des huit GPU.

    Figure 3. rocm-smi --showhw
    rocm-smi --showhw
  • rocm-smi -a

    Exécutez l’utilitaire rocm-smi -a pour afficher l’état des huit GPU.

    Figure 4. rocm-smi -a
    rocm-smi -a

    rocm-smi -a

Le système ne parvient pas à détecter une unité GPU spécifique

Lorsque l’un des événements apparaît dans le journal des événements Web XCC, cela indique que le système ne parvient pas à détecter un ou plusieurs GPU spécifiques.

  • Lorsque l’événement FQXSPIO0015M : Erreur dans l’emplacement [PhysicalConnectorSystemElementName] sur le système [ComputerSystemElementName]. s’affiche, voir FQXSPIO0015M pour résoudre le problème.
  • Lorsque l’événement FQXSFIO0010M : Une erreur PCIe irrémédiable s’est produite sur le bus [arg1], périphérique [arg2], fonction [arg3]. L’ID de fournisseur pour l’unité est [arg4] et l’ID d’unité est [arg5]. Le numéro [arg6] physique est [arg7]. s’affiche, voir FQXSFIO0010M pour résoudre le problème.
    Remarque
    Paramètres :
    • [arg1] Bus
    • [arg2] Périphérique
    • [arg3] Fonction
    • [arg4] VID
    • [arg5] DID
    • [arg6] Emplacement/Baie
    • [arg7] Numéro d’instance
  • Lorsque l’événement FQXSPUN0019M : Le détecteur [SensorElementName] est passé à l’état critique à partir d’un état moins grave. s’affiche, voir FQXSPUN0019M pour résoudre le problème.
Remarque
Le tableau suivant présente les informations de mappage entre la numérotation des emplacements dans XCC et les sockets GPU physiques.
Numérotation des emplacements dans XCCSockets GPU physiquesEmplacement des sockets GPU
Emplacement 17OAM 7

Emplacement 18OAM 6
Emplacement 19OAM 4
Emplacement 20OAM 5
Emplacement 21OAM 3
Emplacement 22OAM 2
Emplacement 23OAM 0
Emplacement 24OAM 1