Zum Hauptinhalt springen

GPU-Probleme

Mithilfe dieser Informationen können Sie Probleme im Zusammenhang mit GPUs im Einbaurahmen beheben.

Verwenden Sie einen der folgenden Befehle, um den Integritätsstatus der GPU zu überprüfen. Stellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er die folgenden erforderlichen Dienstprogramme enthält. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für Lenovo NVIDIA GB300 NVL72.

Weitere Informationen zur Systemverwaltungsschnittstelle (System Management Interface, SMI) finden Sie unter NVIDIA-Systemverwaltungsschnittstelle.

  • nvidia-smi

    Führen Sie den Befehl nvidia-smi aus, um die vier GPUs anzuzeigen, die online sind.

    Abbildung 1. nvidia-smi
    nvidia-smi
  • nvidia-smi topo –p2p n

    Führen Sie den Befehl nvidia-smi topo –p2p n aus, um den Status der internen Verbindung zwischen GPUs innerhalb eines einzelnen Einbaurahmens anzuzeigen.
    Anmerkung
    Ein Unknown-Status für eine GPU-Verbindung weist auf ein potenzielles Hardwareproblem mit der GPU, dem NVLink-Switch-Einbaurahmen oder der Kabelkassette hin.
    Abbildung 2. nvidia-smi topo –p2p n
    nvidia-smi topo –p2p nL
  • nvidia-smi -q --id=1 -f <output file name>

    Führen Sie den Befehl nvidia-smi -q --id=1 -f <output file name> aus, um GPU-Bestandsinformationen zu exportieren.

    Geben Sie in <output file name> den gewünschten Dateinamen ein, um die Ausgabe zu speichern. Beispiel: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Abbildung 3. nvidia-smi -q --id=1 -f <output file name>
    ==============NVSMI LOG==============

    Timestamp : Mon Mar 30 02:14:58 2026
    Driver Version : 580.105.08
    CUDA Version : 13.0

    Attached GPUs : 4
    GPU 00000009:06:00.0
    Product Name : NVIDIA GB300
    Product Brand : NVIDIA
    Product Architecture : Blackwell
    Display Mode : Requested functionality has been deprecated
    Display Attached : No
    Display Active : Disabled
    Persistence Mode : Enabled
    Addressing Mode : ATS
    MIG Mode
    Current : Disabled
    Pending : Disabled
    Accounting Mode : Disabled
    Accounting Mode Buffer Size : 4000
    Driver Model
    Current : N/A
    Pending : N/A
    Serial Number : 1652725032738
    GPU UUID : GPU-29255b40-4ad2-6e15-a7e2-634503314135
    GPU PDI : 0xca89506c512681b3
    Minor Number : 1
    VBIOS Version : 97.10.4A.00.1F
    MultiGPU Board : No
    Board ID : 0x90600
    Board Part Number : 900-2G548-0081-000
    GPU Part Number : 31C2-893-A1
    FRU Part Number : N/A
    Platform Info
    Chassis Serial Number : 1822725187334
    Slot Number : 26
    Tray Index : 16
    Host ID : 1
    Peer Type : Switch Connected
    Module Id : 1
    GPU Fabric GUID : 0xca89506c512681b3
    Inforom Version
    Image Version : G548.0301.00.03
    OEM Object : 2.1
    ECC Object : 7.16
    Power Management Object : N/A
    Inforom BBX Object Flush
    Latest Timestamp : 2026/03/29 08:57:08.426
    Latest Duration : 56215 us
    GPU Operation Mode
    Current : N/A
    Pending : N/A
    GPU C2C Mode : Enabled