GPU の問題
GPU および GPU ボードに関連した問題を解決するには、この情報を使用します。
GPU および GPU ボードのヘルス・チェック
ipmitool による以下のセンサー・ステータスは、GPU および GPU ボードが正常な状態であることを示します。
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
GPU の正常性を確認するには、Intel® XPU Manager を使用します。Intel® XPU Manager は、GPU 監視および管理ツールで、GPU 管理を単純化します。Intel® XPU Manager のダウンロードおよび情報については、「Intel® XPU Manager」を参照してください。
システムが GPU ボードの検出に失敗する
イベント Sensor GPU Board has transitioned to critical from a less severe state が XCC Web イベント・ログに表示される場合は、システムが GPU ボードの検出に失敗したことを示します。問題を解決するには、以下のステップを実行してください。
- システムの電源サイクルを実行します。
- XCC および SMM2 の電源入力関連イベントを確認します (SMM2 - 電源 を参照)。
- システム温度および水流量を確認します。漏れがないか探し、水冷却システムを切り離してから再接続します。
- システムをリブートし、ipmi ヘルス・チェックを実行します (GPU および GPU ボードのヘルス・チェック を参照)。
- 以下のいずれかは、問題が解決されたことを示します。
- XCC メッセージの FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
- Web ログの Sensor GPU Board has transitioned to normal state
ただし、問題が解決しない場合は、以下の手順を実行してください。- XCC サービス・データを収集します (サービス・データの収集 を参照)。
- Lenovo サービスに連絡します。
システムが特定の GPU の検出に失敗する
XCC Web イベント・ログにイベント Sensor GPU CPUs has transitioned to critical from a less severe state が表示される場合は、システムが 1 つ以上の特定の GPU の検出に失敗したことを示します。問題を解決するには、以下のステップを実行してください。
- XCC イベントからリタイマーが温度を超えているかを確認し、超えている場合は、次の手順をスキップします。
- データセンターサポート・サイト (ThinkSystem SD650-I V3 の Lenovo データセンターサポート) から最新のファームウェアをダウンロードし、ファームウェアを更新します。
- システムをリブートし、ipmi ヘルス・チェックを実行します (GPU および GPU ボードのヘルス・チェック を参照)。
XCC Web イベント・ログにイベント Sensor GPU Board has transitioned to normal state が表示される場合は、問題が解決されたことを示します。
ただし、問題が解決しない場合は、以下の手順を実行してください。- XCC Web イベント・ログを確認し、障害のある装置ユニットおよび問題のタイプを識別します (XCC GPU センサー仕様 を参照)。
- XCC サービス・データを収集します (サービス・データの収集 を参照)。
- 診断のために xpu-smi を実行します (詳しくは、Intel® XPU Manager を参照)
- Lenovo サービスに連絡します。
XCC GPU センサー仕様
XCC Web イベント・ログにイベントが表示される場合は、以下の表を参照して、障害のある装置ユニットおよび問題のタイプを識別します。例:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
センサー名 | データ | ||
GPU CPU | センサー番号 | EAh | 02h - さほど重大でない状態からクリティカルな状態への遷移 Evt Data2:
Evt Data3:
|
センサー・タイプ | 17h | ||
センサーの読み取りタイプ | 07h | ||
エンティティー ID | 0Bh | ||
インスタンス/タイプ | 02h | ||
SEL のログに記録されたアサーション | 02h | ||
SEL のログに記録されたアサーション解除 | 02h | ||
しきい値のアサーション解除 | 該当なし | ||
アサーション時のLED「オン」要求 F = 障害 KED | 02h - F | ||
アサーション解除時のLED「オフ」要求 F = 障害 KED | 02h - F | ||
GPU ボード | センサー番号 | EAh | 00h - OK への移行 02h - さほど重大でない状態からクリティカルな状態への遷移 Evt Data2:
Evt Data3:
|
センサー・タイプ | 17h | ||
センサーの読み取りタイプ | 07h | ||
エンティティー ID | 0Bh | ||
インスタンス/タイプ | 01h | ||
SEL のログに記録されたアサーション | 02h | ||
SEL のログに記録されたアサーション解除 | 02h | ||
しきい値のアサーション解除 | 該当なし | ||
アサーション時のLED「オン」要求 F = 障害 LED | 00h - なし 02h - F | ||
アサーション解除時のLED「オフ」要求 F = 障害 LED | 00h - なし 02h - F |