Problèmes liés au GPU
Les informations de la présente section vous permettent de résoudre les problèmes relatifs aux GPU du plateau de calcul.
Utilisez l’une des commandes suivantes afin de vérifier l’état d’intégrité des GPU. Assurez-vous de mettre à jour le pilote du GPU, qui comprend les utilitaires requis suivants. Le pilote le plus récent est disponible à l’adresse suivante : Site Web de téléchargement des pilotes et logiciels pour Lenovo NVIDIA GB300 NVL72.
Pour en savoir plus sur l’interface de gestion du système (SMI), voir Interface de gestion de système NVIDIA.
nvidia-smi
Exécutez la commande nvidia-smi afin d’afficher les quatre GPU en ligne.
Figure 1. nvidia-smi
nvidia-smi topo –p2p n
Exécutez la commande nvidia-smi topo –p2p n afin d’afficher l’état de la connexion interne entre les GPU dans un même plateau de calcul.RemarqueSi le statutUnknown s’affiche pour n’importe quel lien entre des GPU, cela signifie un potentiel problème matériel concernant un GPU, un plateau du commutateur NVLink ou une cartouche de câbles. Figure 2. nvidia-smi topo –p2p n
nvidia-smi -q --id=1 -f <output file name>
Exécutez la commande nvidia-smi -q --id=1 -f <output file name> afin d’exporter les informations sur l’inventaire GPU.
Saisissez le nom de fichier souhaité dans <output file name> pour stocker la sortie. Par exemple : nvidia-smi -q --id=1 -f /tmp/queryoam1.txt
Figure 3. nvidia-smi -q --id=1 -f <output file name>==============NVSMI LOG==============
Timestamp : Mon Mar 30 02:14:58 2026
Driver Version : 580.105.08
CUDA Version : 13.0
Attached GPUs : 4
GPU 00000009:06:00.0
Product Name : NVIDIA GB300
Product Brand : NVIDIA
Product Architecture : Blackwell
Display Mode : Requested functionality has been deprecated
Display Attached : No
Display Active : Disabled
Persistence Mode : Enabled
Addressing Mode : ATS
MIG Mode
Current : Disabled
Pending : Disabled
Accounting Mode : Disabled
Accounting Mode Buffer Size : 4000
Driver Model
Current : N/A
Pending : N/A
Serial Number : 1652725032738
GPU UUID : GPU-29255b40-4ad2-6e15-a7e2-634503314135
GPU PDI : 0xca89506c512681b3
Minor Number : 1
VBIOS Version : 97.10.4A.00.1F
MultiGPU Board : No
Board ID : 0x90600
Board Part Number : 900-2G548-0081-000
GPU Part Number : 31C2-893-A1
FRU Part Number : N/A
Platform Info
Chassis Serial Number : 1822725187334
Slot Number : 26
Tray Index : 16
Host ID : 1
Peer Type : Switch Connected
Module Id : 1
GPU Fabric GUID : 0xca89506c512681b3
Inforom Version
Image Version : G548.0301.00.03
OEM Object : 2.1
ECC Object : 7.16
Power Management Object : N/A
Inforom BBX Object Flush
Latest Timestamp : 2026/03/29 08:57:08.426
Latest Duration : 56215 us
GPU Operation Mode
Current : N/A
Pending : N/A
GPU C2C Mode : Enabled
nvidia-smi nvlink -s
Exécutez la commande nvidia-smi nvlink -s afin d’afficher le statut de la connexion NVLink.
Figure 4. nvidia-smi nvlink -s
Envoyer des commentaires