メインコンテンツまでスキップ

GPU の問題

コンピュート・トレイ内の GPU に関連する問題を解決するには、この情報を使用します。

次のいずれかのコマンドを使用して、GPU ヘルス・ステータスを確認します。必ず、以下の必要なユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、Lenovo NVIDIA GB300 NVL72 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。

システム管理インターフェース (SMI) について詳しくは、NVIDIA システム管理インターフェースを参照してください。

  • nvidia-smi

    nvidia-smi コマンドを実行して、4 つの GPU をオンラインで表示します。

    図 1. nvidia-smi
    nvidia-smi
  • nvidia-smi topo –p2p n

    nvidia-smi topo –p2p n コマンドを実行し、単一のコンピュート・トレイ内の GPU 間の内部接続ステータスを表示します。
    GPU リンクのステータスが Unknown になっている場合、GPU、NVLink スイッチ・トレイ、またはケーブル・カートリッジにハードウェアの問題がある可能性を示しています。
    図 2. nvidia-smi topo –p2p n
    nvidia-smi topo –p2p nL
  • nvidia-smi -q --id=1 -f <output file name>

    GPU インベントリー情報をエクスポートするには、nvidia-smi -q --id=1 -f <output file name> コマンドを実行します。

    目的のファイル名を <output file name> に入力して、出力を保存します。例: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt

    図 3. nvidia-smi -q --id=1 -f <output file name>
    ==============NVSMI LOG==============

    Timestamp : Mon Mar 30 02:14:58 2026
    Driver Version : 580.105.08
    CUDA Version : 13.0

    Attached GPUs : 4
    GPU 00000009:06:00.0
    Product Name : NVIDIA GB300
    Product Brand : NVIDIA
    Product Architecture : Blackwell
    Display Mode : Requested functionality has been deprecated
    Display Attached : No
    Display Active : Disabled
    Persistence Mode : Enabled
    Addressing Mode : ATS
    MIG Mode
    Current : Disabled
    Pending : Disabled
    Accounting Mode : Disabled
    Accounting Mode Buffer Size : 4000
    Driver Model
    Current : N/A
    Pending : N/A
    Serial Number : 1652725032738
    GPU UUID : GPU-29255b40-4ad2-6e15-a7e2-634503314135
    GPU PDI : 0xca89506c512681b3
    Minor Number : 1
    VBIOS Version : 97.10.4A.00.1F
    MultiGPU Board : No
    Board ID : 0x90600
    Board Part Number : 900-2G548-0081-000
    GPU Part Number : 31C2-893-A1
    FRU Part Number : N/A
    Platform Info
    Chassis Serial Number : 1822725187334
    Slot Number : 26
    Tray Index : 16
    Host ID : 1
    Peer Type : Switch Connected
    Module Id : 1
    GPU Fabric GUID : 0xca89506c512681b3
    Inforom Version
    Image Version : G548.0301.00.03
    OEM Object : 2.1
    ECC Object : 7.16
    Power Management Object : N/A
    Inforom BBX Object Flush
    Latest Timestamp : 2026/03/29 08:57:08.426
    Latest Duration : 56215 us
    GPU Operation Mode
    Current : N/A
    Pending : N/A
    GPU C2C Mode : Enabled