Pular para o conteúdo principal

Problemas relacionados ao GPU B200

Use essas informações para resolver problemas relacionados a GPUs.

Verificação de funcionamento de GPUs

Nota

Use um dos utilitários a seguir para verificar o status de funcionamento da GPU. Atualize o driver da GPU, que inclui os utilitários necessários a seguir. O driver mais recente pode ser localizado em Site de download de drivers e software para o ThinkSystem SR780a V3.

Para obter mais informações sobre informações da SMI (System Management Interface), consulte Interface de Gerenciamento do Sistema NVIDIA.

  • nvidia-smi

    Execute o utilitário nvidia-smi para exibir as oito GPUs online.

    Nota
    Os números de GPU (0 a 7) na saída correspondem aos números lógicos. A tabela a seguir mostra as informações de mapeamento entre os números lógicos e os soquetes de GPU físicos.
    Número lógicoSoquete de GPU físicoLocal do soquete de GPU
    0GPU 5
    B200 GPU numbering
    1GPU 7
    2GPU 8
    3GPU 6
    4GPU 1
    5GPU 3
    6GPU 4
    7GPU 2
    Figura 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Execute o utilitário nvidia-smi -L para exibir as oito GPUs online com UUID.

    Nota
    Os números de GPU (0 a 7) na saída correspondem aos números lógicos. A tabela a seguir mostra as informações de mapeamento entre os números lógicos e os soquetes de GPU físicos.
    Número lógicoSoquete de GPU físicoLocal do soquete de GPU
    0GPU 5
    B200 GPU numbering
    1GPU 7
    2GPU 8
    3GPU 6
    4GPU 1
    5GPU 3
    6GPU 4
    7GPU 2
    Figura 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Execute o utilitário nvidia-smi -q --id=1 -f <output file name> para exportar informações de inventário de GPU.

    Digite o nome do arquivo desejado em <output file name> para armazenar a saída. Por exemplo: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Figura 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Execute o utilitário nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT para exportar erros ECC (Verificação e Correção de Erros) e status de páginas desativadas.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Execute o utilitário nvidia-smi pci --getErrorCounters para exibir contadores de erro das oito GPUs.

    Figura 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Execute o utilitário nvidia-smi pci --getErrorCounters --id=<id number> para exibir contadores de erro de uma GPU específica.

    Digite o número de ID de uma GPU específica em <id number>. Por exemplo: nvidia-smi pci --getErrorCounters --id=2.

    Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

O sistema não consegue detectar uma GPU específica

Quando um dos eventos é exibido no log de eventos da Web XCC, isso indica que o sistema não consegue detectar uma ou mais GPUs específicas.

  • Quando o evento FQXSPIO0015M: Falha no slot [PhysicalConnectorSystemElementName] no sistema [ComputerSystemElementName]. é exibido, consulte FQXSPIO0015M para resolver o problema.
  • Quando o evento FQXSFIO0010M: Ocorreu um erro PCIe incorrigível no barramento [arg1] dispositivo [arg2] função [arg3]. O ID do Fornecedor do dispositivo é [arg4] e o ID do Dispositivo é [arg5]. O número físico [arg6] é [arg7]. é exibido, consulte FQXSFIO0010M para resolver o problema.
    Nota
    Parâmetros:
    • [arg1] Barramento
    • [arg2] Dispositivo
    • [arg3] Função
    • [arg4] VID
    • [arg5] DID
    • [arg6] Slot/compartimento
    • [arg7] Número da instância
  • Quando o evento FQXSPUN0019M : Sensor [SensorElementName] fez a transição de um estado menos grave para crítico. é exibido, consulte FQXSPUN0019M para resolver o problema.
Nota
A tabela a seguir mostra as informações de mapeamento entre a numeração de slot no XCC e os soquetes de GPU físicos.
Numeração de slot no XCCSoquetes de GPU físicosLocal dos soquetes de GPU
Slot 17GPU 5
B200 GPU numbering
Slot 18GPU 7
Slot 19GPU 8
Slot 20GPU 6
Slot 21GPU 1
Slot 22GPU 3
Slot 23GPU 4
Slot 24GPU 2