Problemas de rendimiento de GPU
En caso de altas temperaturas, las GPU se autorregularán, lo que puede provocar una reducción en el rendimiento. Es funcionamiento normal esto nunca debería ocurrir porque XCC supervisa activamente las temperaturas de la GPU y ajusta los ventiladores del sistema según corresponda.
Una pérdida de alimentación.
Una declaración de regulación de fuente de alimentación (normalmente se encuentra si una fuente de alimentación está demasiado caliente).
La temperatura de admisión excede la especificación de ASHRAE admitida (por ejemplo, 35 °C para ASHRAE A2).
La temperatura de admisión excede los 27 °C en combinación con la falla del ventilador.
Para monitorear si alguno de estos escenarios ocurriera, compruebe el LED de error del sistema y el registro de eventos de XClarity Controller para detectar errores relacionados con la redundancia, un estado degradado o un freno de alimentación de PCIe.
Asegúrese de que dos fuentes de alimentación de 2000 W estén instalados, alimentados y operacionales (sin errores).
Compruebe el registro de eventos de XClarity Controller para ver si hay eventos relacionados con las fallas del ventilador. Si se producen errores, sustituya el ventilador en mal estado.
Compruebe la temperatura ambiente del centro de datos donde se instale el servidor.
Compruebe el modo de freno de alimentación de PCIe.