Aller au contenu principal

Problèmes liés aux performances GPU

En cas de températures élevées, les GPU se réguleront automariquement, ce qui peut entraver les performances. Cela ne devrait jamais se produire dans le cadre d'un fonctionnement normal, car XCC suit activement les températures du GPU et ajuste les ventilateurs système en conséquence.

Toutefois, des scénarios supplémentaires peuvent provoquer l'entrée des GPU dans le mode Réduction de l'alimentation de secours (Interruption d'alimentation), lesquels auront un impact sur les performances :
  • Perte du courant.

  • Confirmation de la limitation de bloc d’alimentation (généralement détectée si un bloc d’alimentation est trop chaud).

  • La température entrante dépasse les spécifications ASHRAE pris en charge (par exemple, 35 °C pour ASHRAE A2).

  • La température entrante excède les 27 °C et une panne du ventilateur s'est produite.

Pour vérifier si l'un de ces scénarios s'est produit, vérifiez le voyant d'erreur du système et le journal des événements XClarity Controller afin de vérifier si des erreurs liées à la redondance, à un état dégradé ou à une coupure d'alimentation PCIe se sont produites.

Procédez comme suit pour résoudre le problème :
  1. Vérifiez que les deux blocs d’alimentation de 2 000 W sont installés, mis sous tension et opérationnels (sans erreur).

  2. Recherchez dans le journal des événements XClarity Controller tout événement lié à une panne du ventilateur. Si des erreurs se produisent, remplacez le ventilateur défectueux.

  3. Vérifiez la température ambiante du datacenter lorsque le serveur est installé.

  4. Vérifiez le mode de limitation d’alimentation PCIe.