H100/H200 GPU の問題
GPU に関連した問題を解決するには、この情報を使用します。
GPU のヘルス・チェック
次のいずれかのユーティリティーを使用して、GPU ヘルス・ステータスを確認します。必ず、以下の必要なユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、ThinkSystem SR780a V3 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。
システム管理インターフェース (SMI) 情報について詳しくは、NVIDIA システム管理インターフェースを参照してください。
nvidia-smi
nvidia-smi ユーティリティーを実行して、8 つの GPU をオンラインで表示します。
注出力の GPU 番号 (0 ~ 7) は論理番号です。次の表は、論理番号と物理 GPU ソケット間のマッピング情報を示しています。論理番号 物理 GPU ソケット GPU ソケットの位置 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 図 1. nvidia-sminvidia-smi -L
nvidia-smi -L ユーティリティーを実行して、8 つの GPU を UUID でオンラインで表示します。
注出力の GPU 番号 (0 ~ 7) は論理番号です。次の表は、論理番号と物理 GPU ソケット間のマッピング情報を示しています。論理番号 物理 GPU ソケット GPU ソケットの位置 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 図 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
nvidia-smi -q --id=1 -f <output file name> ユーティリティーを実行して、GPU システム一覧情報をエクスポートします。
目的のファイル名を <output file name> に入力して、出力を保存します。例: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt。
図 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT ユーティリティーを実行して、ECC (エラー検出および訂正) エラーとリタイア・ページのステータスをエクスポートします。
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters ユーティリティーを実行して、8 つの GPU のエラー・カウンターを表示します。
図 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
nvidia-smi pci --getErrorCounters --id=<id number> ユーティリティーを実行して、特定の GPU のエラー・カウンターを表示します。
特定の GPU の ID 番号を <id number> に入力します。例: nvidia-smi pci --getErrorCounters --id=2。
図 5. nvidia-smi pci --getErrorCounters --id=<id number>
システムが特定の GPU の検出に失敗する
いずれかのイベントが XCC Web イベント・ログに表示される場合は、システムが 1 つ以上の特定の GPU の検出に失敗したことを示します。
- イベント FQXSPIO0015M: システム [ComputerSystemElementName] のスロット [PhysicalConnectorSystemElementName] で障害が発生しました。 が表示される場合は、FQXSPIO0015Mを参照して問題を解決してください。
- イベント FQXSFIO0010M: 訂正不能 PCIe エラーがバス [arg1] デバイス [arg2] 機能 [arg3] で発生しました。デバイスのベンダー ID は [arg4] で、デバイス ID は [arg5] です。物理 [arg6] 番号は [arg7] です。 が表示される場合は、FQXSFIO0010Mを参照して問題を解決してください。注パラメーター:
- [arg1] バス
- [arg2] デバイス
- [arg3] 機能
- [arg4] VID
- [arg5] DID
- [arg6] スロット/ベイ
- [arg7] インスタンス番号
- イベント FQXSPUN0019M: センサー [SensorElementName] が重大度の低い状態から重大に遷移しました が表示される場合は、FQXSPUN0019Mを参照して問題を解決してください。
XCC のスロット番号付け | 物理 GPU ソケット | GPU ソケットの位置 |
---|---|---|
スロット 17 | GPU 5 | ![]() |
スロット 18 | GPU 7 | |
スロット 19 | GPU 8 | |
スロット 20 | GPU 6 | |
スロット 21 | GPU 1 | |
スロット 22 | GPU 3 | |
スロット 23 | GPU 4 | |
スロット 24 | GPU 2 |