Pular para o conteúdo principal

Problemas relacionados à GPU MI300X

Use estas informações para resolver problemas relacionados à GPU e aos módulos do dissipador de calor e à placa-base da GPU.

Verificação de funcionamento de GPUs

Nota

Use um dos utilitários a seguir para verificar o status de funcionamento da GPU. Atualize o driver da GPU, que inclui os utilitários necessários a seguir. O driver mais recente pode ser localizado em Site de download de drivers e software para o ThinkSystem SR685a V3.

Para obter mais informações sobre informações da SMI (System Management Interface), consulte Interface de Gerenciamento do Sistema AMD.

  • rocm-smi

    Execute o utilitário rocm-smi para exibir as oito GPUs online.

    Figura 1. rocm-smi
    rocm-smi
  • rocm-smi --showrasinfo

    Execute o utilitário rocm-smi --showrasinfo para exibir detalhes de hardware das oito GPUs.

    Figura 2. rocm-smi --showrasinfo
    rocm-smi --showrasinfo
  • rocm-smi --showhw

    Execute o utilitário rocm-smi --showhw para exibir contadores de erro das oito GPUs.

    Figura 3. rocm-smi --showhw
    rocm-smi --showhw
  • rocm-smi -a

    Execute o utilitário rocm-smi -a para exibir o status das oito GPUs.

    Figura 4. rocm-smi -a
    rocm-smi -a

    rocm-smi -a

O sistema não consegue detectar uma GPU específica

Quando um dos eventos é exibido no log de eventos da Web XCC, isso indica que o sistema não consegue detectar uma ou mais GPUs específicas.

  • Quando o evento FQXSPIO0015M: Falha no slot [PhysicalConnectorSystemElementName] no sistema [ComputerSystemElementName]. é exibido, consulte FQXSPIO0015M para resolver o problema.
  • Quando o evento FQXSFIO0010M: Ocorreu um erro PCIe incorrigível no barramento [arg1] dispositivo [arg2] função [arg3]. O ID do Fornecedor do dispositivo é [arg4] e o ID do Dispositivo é [arg5]. O número físico [arg6] é [arg7]. é exibido, consulte FQXSFIO0010M para resolver o problema.
    Nota
    Parâmetros:
    • [arg1] Barramento
    • [arg2] Dispositivo
    • [arg3] Função
    • [arg4] VID
    • [arg5] DID
    • [arg6] Slot/compartimento
    • [arg7] Número da instância
  • Quando o evento FQXSPUN0019M : Sensor [SensorElementName] fez a transição de um estado menos grave para crítico. é exibido, consulte FQXSPUN0019M para resolver o problema.
Nota
A tabela a seguir mostra as informações de mapeamento entre a numeração de slot no XCC e os soquetes de GPU físicos.
Numeração de slot no XCCSoquetes de GPU físicosLocal dos soquetes de GPU
Slot 17OAM 7

Slot 18OAM 6
Slot 19OAM 4
Slot 20OAM 5
Slot 21OAM 3
Slot 22OAM 2
Slot 23OAM 0
Slot 24OAM 1