Saltar al contenido principal

Problemas de GPU MI300X

Utilice esta información para resolver problemas relacionados con los módulos de disipador de calor y GPU y la placa base de GPU.

Comprobación de estado de las GPU

Nota

Utilice una de las siguientes utilidades para comprobar el estado de las GPU. Asegúrese de actualizar el controlador de GPU, que incluye las siguientes utilidades requeridas. Puede encontrar el controlador más reciente en Sitio web de descarga de controladores y software del chasis ThinkSystem SR685a V3.

Para obtener más información acerca de la interfaz de gestión del sistema (SMI), consulte Interfaz de gestión del sistema AMD.

  • rocm-smi

    Ejecute la utilidad rocm-smi para mostrar las ocho GPU en línea.

    Figura 1. rocm-smi
    rocm-smi
  • rocm-smi --showrasinfo

    Ejecute la utilidad rocm-smi --showrasinfo para mostrar los detalles del hardware de las ocho GPU.

    Figura 2. rocm-smi --showrasinfo
    rocm-smi --showrasinfo
  • rocm-smi --showhw

    Ejecute la utilidad rocm-smi --showhw para mostrar los contadores de errores de las ocho GPU.

    Figura 3. rocm-smi --showhw
    rocm-smi --showhw
  • rocm-smi -a

    Ejecute la utilidad rocm-smi -a para mostrar el estado de las ocho GPU.

    Figura 4. rocm-smi -a
    rocm-smi -a

    rocm-smi -a

El sistema no puede detectar una GPU específica

Cuando uno de los eventos aparece en el registro de eventos web de XCC, indica que el sistema no puede detectar una o más GPU específicas.

  • Cuando aparezca el evento FQXSPIO0015M: Error en la ranura [PhysicalConnectorSystemElementName] del sistema [ComputerSystemElementName], consulte FQXSPIO0015M para solucionar el problema.
  • Cuando aparezca el evento FQXSFIO0010M: Se ha producido un error incorregible de PCIe en el bus [arg1] dispositivo [arg2] función [arg3]. El Id. del proveedor del dispositivo es [arg4] y el Id. del dispositivo es [arg5]. El número de la [arg6] física es [arg7]., consulte FQXSFIO0010M para solucionar el problema.
    Nota
    Parámetros:
    • [arg1] Bus
    • [arg2] Dispositivo
    • [arg3] Función
    • [arg4] VID
    • [arg5] DID
    • [arg6] Ranura/bahía
    • [arg7] Número de instancia
  • Cuando aparezca el evento FQXSPUN0019M: El sensor [SensorElementName] ha cambiado al estado crítico desde un estado de menor gravedad, consulte FQXSPUN0019M para solucionar el problema.
Nota
En la tabla siguiente, se muestra la información de asignación entre la numeración de las ranuras en XCC y los zócalos de GPU físicos.
Numeración de ranuras en XCCZócalos de GPU físicosUbicación de los zócalos de GPU
Ranura 17OAM 7

Ranura 18OAM 6
Ranura 19OAM 4
Ranura 20OAM 5
Ranura 21OAM 3
Ranura 22OAM 2
Ranura 23OAM 0
Ranura 24OAM 1