Problemas relacionados ao GPU B200
Use essas informações para resolver problemas relacionados a GPUs.
Verificação de funcionamento de GPUs
Use um dos utilitários a seguir para verificar o status de funcionamento da GPU. Atualize o driver da GPU, que inclui os utilitários necessários a seguir. O driver mais recente pode ser localizado em Site de download de drivers e software para o ThinkSystem SR780a V3.
Para obter mais informações sobre informações da SMI (System Management Interface), consulte Interface de Gerenciamento do Sistema NVIDIA.
nvidia-smi
Execute o utilitário nvidia-smi para exibir as oito GPUs online.
NotaOs números de GPU (0 a 7) na saída correspondem aos números lógicos. A tabela a seguir mostra as informações de mapeamento entre os números lógicos e os soquetes de GPU físicos.Número lógico Soquete de GPU físico Local do soquete de GPU 0 GPU 5 1 GPU 7 2 GPU 8 3 GPU 6 4 GPU 1 5 GPU 3 6 GPU 4 7 GPU 2 Figura 1. nvidia-sminvidia-smi -L
Execute o utilitário nvidia-smi -L para exibir as oito GPUs online com UUID.
NotaOs números de GPU (0 a 7) na saída correspondem aos números lógicos. A tabela a seguir mostra as informações de mapeamento entre os números lógicos e os soquetes de GPU físicos.Número lógico Soquete de GPU físico Local do soquete de GPU 0 GPU 5 1 GPU 7 2 GPU 8 3 GPU 6 4 GPU 1 5 GPU 3 6 GPU 4 7 GPU 2 Figura 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
Execute o utilitário nvidia-smi -q --id=1 -f <output file name> para exportar informações de inventário de GPU.
Digite o nome do arquivo desejado em <output file name> para armazenar a saída. Por exemplo: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Figura 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Execute o utilitário nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT para exportar erros ECC (Verificação e Correção de Erros) e status de páginas desativadas.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Execute o utilitário nvidia-smi pci --getErrorCounters para exibir contadores de erro das oito GPUs.
Figura 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
Execute o utilitário nvidia-smi pci --getErrorCounters --id=<id number> para exibir contadores de erro de uma GPU específica.
Digite o número de ID de uma GPU específica em <id number>. Por exemplo: nvidia-smi pci --getErrorCounters --id=2.
Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>
O sistema não consegue detectar uma GPU específica
Quando um dos eventos é exibido no log de eventos da Web XCC, isso indica que o sistema não consegue detectar uma ou mais GPUs específicas.
- Quando o evento FQXSPIO0015M: Falha no slot [PhysicalConnectorSystemElementName] no sistema [ComputerSystemElementName]. é exibido, consulte FQXSPIO0015M para resolver o problema.
- Quando o evento FQXSFIO0010M: Ocorreu um erro PCIe incorrigível no barramento [arg1] dispositivo [arg2] função [arg3]. O ID do Fornecedor do dispositivo é [arg4] e o ID do Dispositivo é [arg5]. O número físico [arg6] é [arg7]. é exibido, consulte FQXSFIO0010M para resolver o problema.NotaParâmetros:
- [arg1] Barramento
- [arg2] Dispositivo
- [arg3] Função
- [arg4] VID
- [arg5] DID
- [arg6] Slot/compartimento
- [arg7] Número da instância
- Quando o evento FQXSPUN0019M : Sensor [SensorElementName] fez a transição de um estado menos grave para crítico. é exibido, consulte FQXSPUN0019M para resolver o problema.
Numeração de slot no XCC | Soquetes de GPU físicos | Local dos soquetes de GPU |
---|---|---|
Slot 17 | GPU 5 | ![]() |
Slot 18 | GPU 7 | |
Slot 19 | GPU 8 | |
Slot 20 | GPU 6 | |
Slot 21 | GPU 1 | |
Slot 22 | GPU 3 | |
Slot 23 | GPU 4 | |
Slot 24 | GPU 2 |