Problemas relacionados à GPU MI300X
Use estas informações para resolver problemas relacionados à GPU e aos módulos do dissipador de calor e à placa-base da GPU.
Verificação de funcionamento de GPUs
Use um dos utilitários a seguir para verificar o status de funcionamento da GPU. Atualize o driver da GPU, que inclui os utilitários necessários a seguir. O driver mais recente pode ser localizado em Site de download de drivers e software para o ThinkSystem SR685a V3.
Para obter mais informações sobre informações da SMI (System Management Interface), consulte Interface de Gerenciamento do Sistema AMD.
rocm-smi
Execute o utilitário rocm-smi para exibir as oito GPUs online.
Figura 1. rocm-smirocm-smi --showrasinfo
Execute o utilitário rocm-smi --showrasinfo para exibir detalhes de hardware das oito GPUs.
Figura 2. rocm-smi --showrasinforocm-smi --showhw
Execute o utilitário rocm-smi --showhw para exibir contadores de erro das oito GPUs.
Figura 3. rocm-smi --showhwrocm-smi -a
Execute o utilitário rocm-smi -a para exibir o status das oito GPUs.
Figura 4. rocm-smi -a
O sistema não consegue detectar uma GPU específica
Quando um dos eventos é exibido no log de eventos da Web XCC, isso indica que o sistema não consegue detectar uma ou mais GPUs específicas.
- Quando o evento FQXSPIO0015M: Falha no slot [PhysicalConnectorSystemElementName] no sistema [ComputerSystemElementName]. é exibido, consulte FQXSPIO0015M para resolver o problema.
- Quando o evento FQXSFIO0010M: Ocorreu um erro PCIe incorrigível no barramento [arg1] dispositivo [arg2] função [arg3]. O ID do Fornecedor do dispositivo é [arg4] e o ID do Dispositivo é [arg5]. O número físico [arg6] é [arg7]. é exibido, consulte FQXSFIO0010M para resolver o problema.NotaParâmetros:
- [arg1] Barramento
- [arg2] Dispositivo
- [arg3] Função
- [arg4] VID
- [arg5] DID
- [arg6] Slot/compartimento
- [arg7] Número da instância
- Quando o evento FQXSPUN0019M : Sensor [SensorElementName] fez a transição de um estado menos grave para crítico. é exibido, consulte FQXSPUN0019M para resolver o problema.
Numeração de slot no XCC | Soquetes de GPU físicos | Local dos soquetes de GPU |
---|---|---|
Slot 17 | OAM 7 | ![]() |
Slot 18 | OAM 6 | |
Slot 19 | OAM 4 | |
Slot 20 | OAM 5 | |
Slot 21 | OAM 3 | |
Slot 22 | OAM 2 | |
Slot 23 | OAM 0 | |
Slot 24 | OAM 1 |