H100/H200 GPU の問題
GPU に関連した問題を解決するには、この情報を使用します。
GPU のヘルス・チェック
次のいずれかのユーティリティーを使用して、GPU ヘルス・ステータスを確認します。必ず、以下の必要なユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、ThinkSystem SR685a V3 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。
システム管理インターフェース (SMI) 情報について詳しくは、NVIDIA システム管理インターフェースを参照してください。
次の表は、モジュール ID と物理 GPU ソケット間のマッピング情報を示しています。
モジュール ID 物理 GPU ソケット GPU ソケットの位置 1 SXM 1 2 SXM 2 3 SXM 3 4 SXM 4 5 SXM 5 6 SXM 6 7 SXM 7 8 SXM 8
nvidia-smi
nvidia-smi ユーティリティーを実行して、8 つの GPU をオンラインで表示します。
注出力の GPU 番号 (0 ~ 7) は論理番号です。次の表は、論理番号と物理 GPU ソケット間のマッピング情報を示しています。図 1. nvidia-sminvidia-smi -L
nvidia-smi -L ユーティリティーを実行して、8 つの GPU を UUID でオンラインで表示します。
図 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
nvidia-smi -q --id=1 -f <output file name> ユーティリティーを実行して、GPU システム一覧情報をエクスポートします。
目的のファイル名を <output file name> に入力して、出力を保存します。例: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt。
図 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT ユーティリティーを実行して、ECC (エラー検出および訂正) エラーとリタイア・ページのステータスをエクスポートします。
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters ユーティリティーを実行して、8 つの GPU のエラー・カウンターを表示します。
図 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
nvidia-smi pci --getErrorCounters --id=<id number> ユーティリティーを実行して、特定の GPU のエラー・カウンターを表示します。
特定の GPU の ID 番号を <id number> に入力します。例: nvidia-smi pci --getErrorCounters --id=2。
図 5. nvidia-smi pci --getErrorCounters --id=<id number>
システムが特定の GPU の検出に失敗する
いずれかのイベントが XCC Web イベント・ログに表示される場合は、システムが 1 つ以上の特定の GPU の検出に失敗したことを示します。
- イベント FQXSPIO0015M: システム [ComputerSystemElementName] のスロット [PhysicalConnectorSystemElementName] で障害が発生しました。 が表示される場合は、FQXSPIO0015Mを参照して問題を解決してください。
- イベント FQXSFIO0010M: 訂正不能 PCIe エラーがバス [arg1] デバイス [arg2] 機能 [arg3] で発生しました。デバイスのベンダー ID は [arg4] で、デバイス ID は [arg5] です。物理 [arg6] 番号は [arg7] です。 が表示される場合は、FQXSFIO0010Mを参照して問題を解決してください。注パラメーター:
- [arg1] バス
- [arg2] デバイス
- [arg3] 機能
- [arg4] VID
- [arg5] DID
- [arg6] スロット/ベイ
- [arg7] インスタンス番号
- イベント FQXSPUN0019M: センサー [SensorElementName] が重大度の低い状態から重大に遷移しました が表示される場合は、FQXSPUN0019Mを参照して問題を解決してください。
XCC のスロット番号付け | 物理 GPU ソケット | GPU ソケットの位置 |
---|---|---|
スロット 17 | SXM 5 | ![]() |
スロット 18 | SXM 7 | |
スロット 19 | SXM 8 | |
スロット 20 | SXM 6 | |
スロット 21 | SXM 1 | |
スロット 22 | SXM 3 | |
スロット 23 | SXM 4 | |
スロット 24 | SXM 2 |