Problemas de GPU
Utilice esta información para resolver problemas relacionados con las GPU en la bandeja de computación.
Utilice uno de los siguientes comandos para comprobar el estado las GPU. Asegúrese de actualizar el controlador de GPU, que incluye las siguientes utilidades requeridas. Puede encontrar el controlador más reciente en Sitio web de descarga de controladores y software para Lenovo NVIDIA GB300 NVL72.
Para obtener más información acerca de la interfaz de gestión del sistema (SMI), consulte Interfaz de gestión del sistema NVIDIA.
nvidia-smi
Ejecute el comando nvidia-smi para mostrar las cuatro GPU en línea.
Figura 1. nvidia-smi
nvidia-smi topo –p2p n
Ejecute el comando nvidia-smi topo –p2p n para mostrar el estado de la conexión interna entre las GPU dentro de una sola bandeja de computación.NotaUn estadoUnknown para cualquier enlace de GPU indica un posible problema de hardware en la GPU, la bandeja del conmutador NVLink o el cartucho de cables. Figura 2. nvidia-smi topo –p2p n
nvidia-smi -q --id=1 -f <output file name>
Ejecute el comando nvidia-smi -q --id=1 -f <output file name> para exportar la información del inventario de GPU.
Escriba el nombre de archivo deseado en <output file name> para almacenar la salida. Por ejemplo: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Figura 3. nvidia-smi -q --id=1 -f <output file name>==============NVSMI LOG==============
Timestamp : Mon Mar 30 02:14:58 2026
Driver Version : 580.105.08
CUDA Version : 13.0
Attached GPUs : 4
GPU 00000009:06:00.0
Product Name : NVIDIA GB300
Product Brand : NVIDIA
Product Architecture : Blackwell
Display Mode : Requested functionality has been deprecated
Display Attached : No
Display Active : Disabled
Persistence Mode : Enabled
Addressing Mode : ATS
MIG Mode
Current : Disabled
Pending : Disabled
Accounting Mode : Disabled
Accounting Mode Buffer Size : 4000
Driver Model
Current : N/A
Pending : N/A
Serial Number : 1652725032738
GPU UUID : GPU-29255b40-4ad2-6e15-a7e2-634503314135
GPU PDI : 0xca89506c512681b3
Minor Number : 1
VBIOS Version : 97.10.4A.00.1F
MultiGPU Board : No
Board ID : 0x90600
Board Part Number : 900-2G548-0081-000
GPU Part Number : 31C2-893-A1
FRU Part Number : N/A
Platform Info
Chassis Serial Number : 1822725187334
Slot Number : 26
Tray Index : 16
Host ID : 1
Peer Type : Switch Connected
Module Id : 1
GPU Fabric GUID : 0xca89506c512681b3
Inforom Version
Image Version : G548.0301.00.03
OEM Object : 2.1
ECC Object : 7.16
Power Management Object : N/A
Inforom BBX Object Flush
Latest Timestamp : 2026/03/29 08:57:08.426
Latest Duration : 56215 us
GPU Operation Mode
Current : N/A
Pending : N/A
GPU C2C Mode : Enabled
nvidia-smi nvlink -s
Ejecute el comando nvidia-smi nvlink -s para mostrar el estado de la conexión de NVLink.
Figura 4. nvidia-smi nvlink -s
Entregar comentarios