Pular para o conteúdo principal

Problemas de desempenho da GPU

No caso de altas temperaturas, as GPUs serão reguladas automaticamente, o que pode causar uma redução no desempenho. Em operação normal isso jamais deve ocorrer porque o XCC monitora ativamente as temperaturas de GPU e ajusta os ventiladores do sistema adequadamente.

No entanto, cenários adicionais farão com que as GPUs entrem em um estado de Redução de energia de emergência (Freio de energia), que afetará o desempenho:
  • Uma perda de energia.

  • Uma asserção do regulador da fonte de alimentação (geralmente encontrada se uma fonte de alimentação estiver quente demais).

  • A temperatura de entrada excede as especificações suportadas da ASHRAE (por exemplo, 35 °C para ASHRAE A2).

  • A temperatura de entrada excede 27 °C em combinação com falha do ventilador.

Para monitorar se qualquer um desses cenários ocorreu, verifique o LED de Erro do Sistema e o log de eventos do XClarity Controller para erros relacionados à redundância, a um estado degradado ou a um freio de energia de PCIe.

Conclua as etapas a seguir para resolver o problema:
  1. Certifique-se de que as duas fontes de alimentação de 2.000 W estejam instaladas, ativadas e operacionais (sem erros).

  2. Verifique no log de eventos do XClarity Controller se há eventos relacionados a falhas do ventilador. Se ocorrer erro, substitua o ventilador com falha.

  3. Verifique a temperatura ambiente do datacenter na qual o servidor está instalado.

  4. Verifique o modo de freio de energia de PCIe.