GPU 문제
이 내용을 사용하여 컴퓨팅 트레이의 GPU와 관련된 문제를 해결하십시오.
GPU 상태를 확인하려면 다음 명령 중 하나를 사용하십시오. 다음의 필수 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 드라이버 및 소프트웨어 다운로드 웹 사이트(Lenovo NVIDIA GB300 NVL72용)에서 확인 가능합니다.
시스템 관리 인터페이스(SMI)에 대한 자세한 내용은 NVIDIA 시스템 관리 인터페이스의 내용을 참조하십시오.
nvidia-smi
nvidia-smi 명령을 실행하여 온라인 상태인 GPU 4개를 표시합니다.
그림 1. nvidia-smi
nvidia-smi topo –p2p n
nvidia-smi topo –p2p n 명령을 실행하여 단일 컴퓨팅 트레이 내 GPU 간 내부 연결 상태를 표시합니다.주GPU 링크에서Unknown 상태가 표시되면 GPU, NVLink 스위치 트레이 또는 케이블 카트리지에 하드웨어 문제가 있을 수 있습니다. 그림 2. nvidia-smi topo –p2p n
nvidia-smi -q --id=1 -f <output file name>
nvidia-smi -q --id=1 -f <output file name> 명령을 실행하여 GPU 인벤토리 정보를 내보냅니다.
출력을 저장할 원하는 파일 이름을 <output file name>에 입력합니다. 예: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
그림 3. nvidia-smi -q --id=1 -f <output file name>==============NVSMI LOG==============
Timestamp : Mon Mar 30 02:14:58 2026
Driver Version : 580.105.08
CUDA Version : 13.0
Attached GPUs : 4
GPU 00000009:06:00.0
Product Name : NVIDIA GB300
Product Brand : NVIDIA
Product Architecture : Blackwell
Display Mode : Requested functionality has been deprecated
Display Attached : No
Display Active : Disabled
Persistence Mode : Enabled
Addressing Mode : ATS
MIG Mode
Current : Disabled
Pending : Disabled
Accounting Mode : Disabled
Accounting Mode Buffer Size : 4000
Driver Model
Current : N/A
Pending : N/A
Serial Number : 1652725032738
GPU UUID : GPU-29255b40-4ad2-6e15-a7e2-634503314135
GPU PDI : 0xca89506c512681b3
Minor Number : 1
VBIOS Version : 97.10.4A.00.1F
MultiGPU Board : No
Board ID : 0x90600
Board Part Number : 900-2G548-0081-000
GPU Part Number : 31C2-893-A1
FRU Part Number : N/A
Platform Info
Chassis Serial Number : 1822725187334
Slot Number : 26
Tray Index : 16
Host ID : 1
Peer Type : Switch Connected
Module Id : 1
GPU Fabric GUID : 0xca89506c512681b3
Inforom Version
Image Version : G548.0301.00.03
OEM Object : 2.1
ECC Object : 7.16
Power Management Object : N/A
Inforom BBX Object Flush
Latest Timestamp : 2026/03/29 08:57:08.426
Latest Duration : 56215 us
GPU Operation Mode
Current : N/A
Pending : N/A
GPU C2C Mode : Enabled
nvidia-smi nvlink -s
nvidia-smi nvlink -s 명령을 실행하여 NVLink 연결 상태를 표시합니다.
그림 4. nvidia-smi nvlink -s
피드백 보내기