メインコンテンツまでスキップ

H100/H200 GPU の問題

GPU に関連した問題を解決するには、この情報を使用します。

GPU のヘルス・チェック

次のいずれかのユーティリティーを使用して、GPU ヘルス・ステータスを確認します。必ず、以下の必要なユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、ThinkSystem SR780a V3 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。

システム管理インターフェース (SMI) 情報について詳しくは、NVIDIA システム管理インターフェースを参照してください。

  • nvidia-smi

    nvidia-smi ユーティリティーを実行して、8 つの GPU をオンラインで表示します。

    出力の GPU 番号 (0 ~ 7) は論理番号です。次の表は、論理番号と物理 GPU ソケット間のマッピング情報を示しています。
    論理番号物理 GPU ソケットGPU ソケットの位置
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    図 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    nvidia-smi -L ユーティリティーを実行して、8 つの GPU を UUID でオンラインで表示します。

    出力の GPU 番号 (0 ~ 7) は論理番号です。次の表は、論理番号と物理 GPU ソケット間のマッピング情報を示しています。
    論理番号物理 GPU ソケットGPU ソケットの位置
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    図 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    nvidia-smi -q --id=1 -f <output file name> ユーティリティーを実行して、GPU システム一覧情報をエクスポートします。

    目的のファイル名を <output file name> に入力して、出力を保存します。例: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt

    図 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT ユーティリティーを実行して、ECC (エラー検出および訂正) エラーとリタイア・ページのステータスをエクスポートします。

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    nvidia-smi pci --getErrorCounters ユーティリティーを実行して、8 つの GPU のエラー・カウンターを表示します。

    図 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    nvidia-smi pci --getErrorCounters --id=<id number> ユーティリティーを実行して、特定の GPU のエラー・カウンターを表示します。

    特定の GPU の ID 番号を <id number> に入力します。例: nvidia-smi pci --getErrorCounters --id=2

    図 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

システムが特定の GPU の検出に失敗する

いずれかのイベントが XCC Web イベント・ログに表示される場合は、システムが 1 つ以上の特定の GPU の検出に失敗したことを示します。

  • イベント FQXSPIO0015M: システム [ComputerSystemElementName] のスロット [PhysicalConnectorSystemElementName] で障害が発生しました。 が表示される場合は、FQXSPIO0015Mを参照して問題を解決してください。
  • イベント FQXSFIO0010M: 訂正不能 PCIe エラーがバス [arg1] デバイス [arg2] 機能 [arg3] で発生しました。デバイスのベンダー ID は [arg4] で、デバイス ID は [arg5] です。物理 [arg6] 番号は [arg7] です。 が表示される場合は、FQXSFIO0010Mを参照して問題を解決してください。
    パラメーター:
    • [arg1] バス
    • [arg2] デバイス
    • [arg3] 機能
    • [arg4] VID
    • [arg5] DID
    • [arg6] スロット/ベイ
    • [arg7] インスタンス番号
  • イベント FQXSPUN0019M: センサー [SensorElementName] が重大度の低い状態から重大に遷移しました が表示される場合は、FQXSPUN0019Mを参照して問題を解決してください。
次の表は、XCC のスロット番号付けと物理 GPU ソケット間のマッピング情報を示しています。
XCC のスロット番号付け物理 GPU ソケットGPU ソケットの位置
スロット 17GPU 5

スロット 18GPU 7
スロット 19GPU 8
スロット 20GPU 6
スロット 21GPU 1
スロット 22GPU 3
スロット 23GPU 4
スロット 24GPU 2