Problemas de GPU MI300X
Utilice esta información para resolver problemas relacionados con los módulos de disipador de calor y GPU y la placa base de GPU.
Comprobación de estado de las GPU
Utilice una de las siguientes utilidades para comprobar el estado de las GPU. Asegúrese de actualizar el controlador de GPU, que incluye las siguientes utilidades requeridas. Puede encontrar el controlador más reciente en Sitio web de descarga de controladores y software del chasis ThinkSystem SR685a V3.
Para obtener más información acerca de la interfaz de gestión del sistema (SMI), consulte Interfaz de gestión del sistema AMD.
rocm-smi
Ejecute la utilidad rocm-smi para mostrar las ocho GPU en línea.
Figura 1. rocm-smirocm-smi --showrasinfo
Ejecute la utilidad rocm-smi --showrasinfo para mostrar los detalles del hardware de las ocho GPU.
Figura 2. rocm-smi --showrasinforocm-smi --showhw
Ejecute la utilidad rocm-smi --showhw para mostrar los contadores de errores de las ocho GPU.
Figura 3. rocm-smi --showhwrocm-smi -a
Ejecute la utilidad rocm-smi -a para mostrar el estado de las ocho GPU.
Figura 4. rocm-smi -a
El sistema no puede detectar una GPU específica
Cuando uno de los eventos aparece en el registro de eventos web de XCC, indica que el sistema no puede detectar una o más GPU específicas.
- Cuando aparezca el evento FQXSPIO0015M: Error en la ranura [PhysicalConnectorSystemElementName] del sistema [ComputerSystemElementName], consulte FQXSPIO0015M para solucionar el problema.
- Cuando aparezca el evento FQXSFIO0010M: Se ha producido un error incorregible de PCIe en el bus [arg1] dispositivo [arg2] función [arg3]. El Id. del proveedor del dispositivo es [arg4] y el Id. del dispositivo es [arg5]. El número de la [arg6] física es [arg7]., consulte FQXSFIO0010M para solucionar el problema.NotaParámetros:
- [arg1] Bus
- [arg2] Dispositivo
- [arg3] Función
- [arg4] VID
- [arg5] DID
- [arg6] Ranura/bahía
- [arg7] Número de instancia
- Cuando aparezca el evento FQXSPUN0019M: El sensor [SensorElementName] ha cambiado al estado crítico desde un estado de menor gravedad, consulte FQXSPUN0019M para solucionar el problema.
Numeración de ranuras en XCC | Zócalos de GPU físicos | Ubicación de los zócalos de GPU |
---|---|---|
Ranura 17 | OAM 7 | ![]() |
Ranura 18 | OAM 6 | |
Ranura 19 | OAM 4 | |
Ranura 20 | OAM 5 | |
Ranura 21 | OAM 3 | |
Ranura 22 | OAM 2 | |
Ranura 23 | OAM 0 | |
Ranura 24 | OAM 1 |