Saltar al contenido principal

Problemas de rendimiento de GPU

En caso de altas temperaturas, las GPU se autorregularán, lo que puede provocar una reducción en el rendimiento. Es funcionamiento normal esto nunca debería ocurrir porque XCC supervisa activamente las temperaturas de la GPU y ajusta los ventiladores del sistema según corresponda.

Sin embargo, los escenarios adicionales provocarán que la GPU entre en estado de reducción de alimentación de emergencia (freno de potencia), lo que afectará el rendimiento:
  • Una pérdida de alimentación.

  • Una declaración de regulación de fuente de alimentación (normalmente se encuentra si una fuente de alimentación está demasiado caliente).

  • La temperatura de admisión excede la especificación de ASHRAE admitida (por ejemplo, 35 °C para ASHRAE A2).

  • La temperatura de admisión excede los 27 °C en combinación con la falla del ventilador.

Para monitorear si alguno de estos escenarios ocurriera, compruebe el LED de error del sistema y el registro de eventos de XClarity Controller para detectar errores relacionados con la redundancia, un estado degradado o un freno de alimentación de PCIe.

Complete los siguientes pasos para resolver el problema:
  1. Asegúrese de que dos fuentes de alimentación de 2000 W estén instalados, alimentados y operacionales (sin errores).

  2. Compruebe el registro de eventos de XClarity Controller para ver si hay eventos relacionados con las fallas del ventilador. Si se producen errores, sustituya el ventilador en mal estado.

  3. Compruebe la temperatura ambiente del centro de datos donde se instale el servidor.

  4. Compruebe el modo de freno de alimentación de PCIe.