GPU-Probleme
Mithilfe dieser Informationen können Sie Probleme im Zusammenhang mit GPUs im Einbaurahmen beheben.
Weitere Informationen zur Systemverwaltungsschnittstelle (System Management Interface, SMI) finden Sie unter NVIDIA-Systemverwaltungsschnittstelle.
nvidia-smi
Führen Sie den Befehl nvidia-smi aus, um die vier GPUs anzuzeigen, die online sind.
Abbildung 1. nvidia-smi
nvidia-smi topo –p2p n
Führen Sie den Befehl nvidia-smi topo –p2p n aus, um den Status der internen Verbindung zwischen GPUs innerhalb eines einzelnen Einbaurahmens anzuzeigen.AnmerkungEinUnknown-Status für eine GPU-Verbindung weist auf ein potenzielles Hardwareproblem mit der GPU, dem NVLink-Switch-Einbaurahmen oder der Kabelkassette hin. Abbildung 2. nvidia-smi topo –p2p n
nvidia-smi -q --id=1 -f <output file name>
Führen Sie den Befehl nvidia-smi -q --id=1 -f <output file name> aus, um GPU-Bestandsinformationen zu exportieren.
Geben Sie in <output file name> den gewünschten Dateinamen ein, um die Ausgabe zu speichern. Beispiel: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Abbildung 3. nvidia-smi -q --id=1 -f <output file name>==============NVSMI LOG==============
Timestamp : Mon Mar 30 02:14:58 2026
Driver Version : 580.105.08
CUDA Version : 13.0
Attached GPUs : 4
GPU 00000009:06:00.0
Product Name : NVIDIA GB300
Product Brand : NVIDIA
Product Architecture : Blackwell
Display Mode : Requested functionality has been deprecated
Display Attached : No
Display Active : Disabled
Persistence Mode : Enabled
Addressing Mode : ATS
MIG Mode
Current : Disabled
Pending : Disabled
Accounting Mode : Disabled
Accounting Mode Buffer Size : 4000
Driver Model
Current : N/A
Pending : N/A
Serial Number : 1652725032738
GPU UUID : GPU-29255b40-4ad2-6e15-a7e2-634503314135
GPU PDI : 0xca89506c512681b3
Minor Number : 1
VBIOS Version : 97.10.4A.00.1F
MultiGPU Board : No
Board ID : 0x90600
Board Part Number : 900-2G548-0081-000
GPU Part Number : 31C2-893-A1
FRU Part Number : N/A
Platform Info
Chassis Serial Number : 1822725187334
Slot Number : 26
Tray Index : 16
Host ID : 1
Peer Type : Switch Connected
Module Id : 1
GPU Fabric GUID : 0xca89506c512681b3
Inforom Version
Image Version : G548.0301.00.03
OEM Object : 2.1
ECC Object : 7.16
Power Management Object : N/A
Inforom BBX Object Flush
Latest Timestamp : 2026/03/29 08:57:08.426
Latest Duration : 56215 us
GPU Operation Mode
Current : N/A
Pending : N/A
GPU C2C Mode : Enabled
nvidia-smi nvlink -s
Führen Sie den Befehl nvidia-smi nvlink -s aus, um den Status der NVLink-Verbindung anzuzeigen.
Abbildung 4. nvidia-smi nvlink -s