GPU の問題
GPU および GPU ボードに関連した問題を解決するには、この情報を使用します。
GPU および GPU ボードのヘルス・チェック
ipmitool による以下のセンサー・ステータスは、GPU および GPU ボードが正常な状態であることを示します。
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
システムが GPU ボードの検出に失敗する
イベント Sensor GPU Board has transitioned to critical from a less severe state が XCC Web イベント・ログに表示される場合は、システムが GPU ボードの検出に失敗したことを示します。問題を解決するには、以下のステップを実行してください。
- システムの電源サイクルを実行します。
- XCC および SMM2 の電源入力関連イベントを確認します (SMM2 - 電源 を参照)。
- システム温度および水流量を確認します。漏れがないか探し、水冷却システムを切り離してから再接続します。
- システムをリブートし、ipmi ヘルス・チェックを実行します (GPU および GPU ボードのヘルス・チェック を参照)。
- 以下のいずれかは、問題が解決されたことを示します。
- XCC メッセージの FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
- Web ログの Sensor GPU Board has transitioned to normal state
ただし、問題が解決しない場合は、以下の手順を実行してください。- XCC サービス・データを収集します (サービス・データの収集 を参照)。
- Lenovo サービスに連絡します。
システムが特定の GPU の検出に失敗する
XCC Web イベント・ログにイベント Sensor GPU CPUs has transitioned to critical from a less severe state が表示される場合は、システムが 1 つ以上の特定の GPU の検出に失敗したことを示します。問題を解決するには、以下のステップを実行してください。
- XCC イベントからリタイマーが温度を超えているかを確認し、超えている場合は、次の手順をスキップします。
- データセンターサポート・サイト (ThinkSystem SD650-N V3 の Lenovo データセンターサポート) から最新のファームウェアをダウンロードし、ファームウェアを更新します。
- システムをリブートし、ipmi ヘルス・チェックを実行します (GPU および GPU ボードのヘルス・チェック を参照)。
XCC Web イベント・ログにイベント Sensor GPU Board has transitioned to normal state が表示される場合は、問題が解決されたことを示します。
ただし、問題が解決しない場合は、以下の手順を実行してください。- XCC Web イベント・ログを確認し、障害のある装置ユニットおよび問題のタイプを識別します (XCC GPU センサー仕様 を参照)。
- XCC サービス・データを収集します (サービス・データの収集 を参照)。
- 診断のために nvidia-smi を実行します (詳しくは、NVIDIA システム管理インターフェース を参照)注必ず、GPU の問題判別に必要な
nvidia-smi ユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、ThinkSystem SD650-N V3 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。 - nvidia-bug-report.sh を実行します (NVIDIA ドライバーの組み込みツール)。
- Lenovo サービスに連絡します。
XCC GPU センサー仕様
XCC Web イベント・ログにイベントが表示される場合は、以下の表を参照して、障害のある装置ユニットおよび問題のタイプを識別します。例:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
センサー名 | センサー番号 | センサー・タイプ | センサーの読み取りタイプ | エンティティー ID | インスタンス/タイプ | マスクの読み取り (センサーに設定されたデータ) |
---|---|---|---|---|---|---|
GPU ボード | E9h | 17h | 07h | 0Bh | 01h | 00h – OK への移行 02h – さほど重大でない状態からクリティカルな状態への遷移
|
GPU CPU | EAh | 17h | 07h | 0Bh | 02h | 02h – さほど重大でない状態からクリティカルな状態への遷移
|
センサー名 | SEL のログに記録されたアサーション | SEL のログに記録されたアサーション解除 | しきい値設定可能 (B20) | アサーション時のLED「オン」要求 F = 障害 LED | アサーション解除時のLED「オフ」要求 F = 障害 LED |
---|---|---|---|---|---|
GPU ボード | 02h | 02h | 該当なし | 00h - なし 02h - F | 00h - なし 02h - F |
GPU CPU | 02h | 02h | 該当なし | 02h - F | 02h - F |
Evt data2 は要約できます。例:F7h: F1 + F2 + F4、F3: F1 + F2。