Pular para o conteúdo principal

Problemas de GPU

Use estas informações para resolver problemas relacionados a GPUs na bandeja de cálculo.

Utilize um dos comandos a seguir para verificar o status de integridade da GPU. Atualize o driver da GPU, que inclui os utilitários necessários a seguir. O driver mais recente pode ser localizado em Site de download de drivers e software para Lenovo NVIDIA GB300 NVL72.

Para obter mais informações sobre a Interface de Gerenciamento do Sistema (SMI), consulte Interface de Gerenciamento do Sistema NVIDIA.

  • nvidia-smi

    Execute o comando nvidia-smi para exibir as quatro GPUs online.

    Figura 1. nvidia-smi
    nvidia-smi
  • nvidia-smi topo –p2p n

    Execute o comando nvidia-smi topo –p2p n para exibir o estado da conexão interna entre GPUs dentro de uma única bandeja de cálculo.
    Nota
    Um status Unknown em qualquer link de GPU indica um possível problema de hardware na GPU, na bandeja do comutador NVLink ou no cartucho de cabos.
    Figura 2. nvidia-smi topo –p2p n
    nvidia-smi topo –p2p nL
  • nvidia-smi -q --id=1 -f <output file name>

    Execute o comando nvidia-smi -q --id=1 -f <output file name> para exportar informações de inventário de GPU.

    Digite o nome do arquivo desejado em <output file name> para armazenar a saída. Por exemplo: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Figura 3. nvidia-smi -q --id=1 -f <output file name>
    ==============NVSMI LOG==============

    Timestamp : Mon Mar 30 02:14:58 2026
    Driver Version : 580.105.08
    CUDA Version : 13.0

    Attached GPUs : 4
    GPU 00000009:06:00.0
    Product Name : NVIDIA GB300
    Product Brand : NVIDIA
    Product Architecture : Blackwell
    Display Mode : Requested functionality has been deprecated
    Display Attached : No
    Display Active : Disabled
    Persistence Mode : Enabled
    Addressing Mode : ATS
    MIG Mode
    Current : Disabled
    Pending : Disabled
    Accounting Mode : Disabled
    Accounting Mode Buffer Size : 4000
    Driver Model
    Current : N/A
    Pending : N/A
    Serial Number : 1652725032738
    GPU UUID : GPU-29255b40-4ad2-6e15-a7e2-634503314135
    GPU PDI : 0xca89506c512681b3
    Minor Number : 1
    VBIOS Version : 97.10.4A.00.1F
    MultiGPU Board : No
    Board ID : 0x90600
    Board Part Number : 900-2G548-0081-000
    GPU Part Number : 31C2-893-A1
    FRU Part Number : N/A
    Platform Info
    Chassis Serial Number : 1822725187334
    Slot Number : 26
    Tray Index : 16
    Host ID : 1
    Peer Type : Switch Connected
    Module Id : 1
    GPU Fabric GUID : 0xca89506c512681b3
    Inforom Version
    Image Version : G548.0301.00.03
    OEM Object : 2.1
    ECC Object : 7.16
    Power Management Object : N/A
    Inforom BBX Object Flush
    Latest Timestamp : 2026/03/29 08:57:08.426
    Latest Duration : 56215 us
    GPU Operation Mode
    Current : N/A
    Pending : N/A
    GPU C2C Mode : Enabled