Saltar al contenido principal

Problemas de GPU

Utilice esta información para resolver problemas relacionados con la GPU y la placa de GPU.

Nota
Asegúrese de actualizar el controlador de GPU, que incluye la utilidad nvidia-smi necesaria para la determinación de problemas de GPU. Puede encontrar el controlador más reciente en Sitio web de descarga de controladores y software de ThinkSystem SD650-N V3.

Comprobación de estado de GPU y placa de GPU

El siguiente estado del sensor por ipmitool indica que el estado de las GPU y de la placa de la GPU es normal.

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
El resumen de la utilidad nvidia-smi indica que hay 4 GPU en línea.
Figura 1. nvidia-smi

El sistema no puede detectar la placa de la GPU

Cuando el suceso Sensor GPU Board has transitioned to critical from a less severe state aparece en el registro de sucesos web de XCC, indica que el sistema no puede detectar la placa de la GPU. Siga estos pasos para resolver el problema.

  1. Realice un ciclo de alimentación del sistema.
  2. Compruebe los sucesos relacionados con la entrada de alimentación en XCC y SMM2 (consulte SMM2 - Alimentación).
  3. Compruebe la temperatura del sistema y el flujo de agua. Compruebe si hay fugas y desconecte y vuelva a conectar el sistema de refrigeración por agua.
  4. Reinicie el sistema y ejecute la comprobación de estado de ipmi (consulte Comprobación de estado de GPU y placa de GPU).
  5. Uno de los siguientes elementos indica que el problema se ha resuelto:
    • FQXSPUN0017I (Sensor GPU Board has transitioned to normal state) en los mensajes de XCC
    • Sensor GPU Board has transitioned to normal state en el registro web
    No obstante, si el problema persiste, siga estos pasos:
    1. Recopile los datos de servicio de XCC (consulte Recopilación de datos de servicio).
    2. Póngase en contacto con el servicio de Lenovo.

El sistema no puede detectar una GPU específica

Cuando el suceso Sensor GPU CPUs has transitioned to critical from a less severe state aparece en el registro de sucesos web de XCC, indica que el sistema no puede detectar una o más GPU específicas. Siga estos pasos para resolver el problema.

  1. Compruebe en el suceso de XCC si la temperatura del retemporizador es excesiva, si es así, omita el siguiente paso.
  2. Descargue el firmware más reciente desde el sitio de Soporte del Centro de Datos (Soporte del Centro de Datos de Lenovo para ThinkSystem SD650-N V3) y actualice el firmware.
  3. Reinicie el sistema y ejecute la comprobación de estado de ipmi (consulte Comprobación de estado de GPU y placa de GPU).
  4. Si el suceso Sensor GPU Board has transitioned to normal state aparece en el registro de sucesos web de XCC, indica que el problema se ha resuelto.

    No obstante, si el problema persiste, siga estos pasos.
    1. Compruebe el registro de sucesos web de XCC para identificar la unidad defectuosa y el tipo de problema (consulte Especificaciones del sensor de la GPU de XCC).
    2. Recopile los datos de servicio de XCC (consulte Recopilación de datos de servicio).
    3. Ejecute nvidia-smi para realizar el diagnóstico (consulte Interfaz de gestión del sistema NVIDIA para obtener más detalles)
      Nota
      Asegúrese de actualizar el controlador de GPU, que incluye la utilidad nvidia-smi necesaria para la determinación de problemas de GPU. Puede encontrar el controlador más reciente en Sitio web de descarga de controladores y software de ThinkSystem SD650-N V3.
    4. Ejecute nvidia-bug-report.sh (herramienta integrada en el controlador NVIDIA).
    5. Póngase en contacto con el servicio de Lenovo.

Especificaciones del sensor de la GPU de XCC

Cuando vea un suceso en el registro de sucesos web de XCC, consulte la siguiente tabla para identificar la unidad defectuosa y el tipo de problema. Por ejemplo:

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
Tabla 1. Especificaciones del sensor de la GPU de XCC 1/2
Nombre del sensorNúmero de sensorTipo de sensorTipo de lectura del sensorID de entidadInstancia/TipoMáscara de lectura (conjunto de datos en el sensor)
Placa de GPUE9h17h07h0Bh01h

00h - Transición a correcto

02h - Transición de menos grave a crítico

  • Evt Data: 21
    • F1h: Freno de alimentación de la GPU (sin evt3)

    • F2h: Thermaltrip de PIB (sin evt3)

    • F6h: Alerta térmica del núcleo de GPU

    • F8h: Exceso de temperatura de PIB

  • Evt Data3:

    • XXh: Índice CORE de GPU, 01h: núcleo 1

    • 07h: núcleo 1 + núcleo 2 + núcleo 3

CPU de GPUEAh17h07h0Bh02h

02h - Transición de menos grave a crítico

  • Evt Data2:

    • B#h: Alerta térmica

    • BBh: Estado de presencia y alimentación

    • 21h: Estado de enlace de PCIe

    • E0h: Recuento de GPU desde SMBIOS

    • 3Ah: Sensor de estado de la tarjeta

  • Evt Data3:

    • XXh: Índice CORE de GPU, 01h: núcleo 1

    • 0Ch: núcleo 3 + núcleo 4

    • ED2:B#h, ED3:VR id.

Tabla 2. Especificaciones del sensor de la GPU de XCC 2/2
Nombre del sensorDeclaraciones registradas de SELCancelaciones de declaraciones registradas de SELValores de umbrales establecidos (B20)

Solicitud de LED 'ON' cuando se hace una declaración

F = LED con error

Solicitud de LED 'OFF' cuando se cancela una declaración

F = LED con error

Placa de GPU02h02hN/A

00h - Ninguno

02h - F

00h - Ninguno

02h - F

CPU de GPU02h02hN/A02h-F02h-F
1

Los datos 2 de Evt se pueden resumir, por ejemplo F7h: F1+F2+F4, F3: F1+F2.