メインコンテンツまでスキップ

GPU の問題

GPU および GPU ボードに関連した問題を解決するには、この情報を使用します。

必ず、GPU の問題判別に必要な nvidia-smi ユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、ThinkSystem SD650-N V3 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。

GPU および GPU ボードのヘルス・チェック

ipmitool による以下のセンサー・ステータスは、GPU および GPU ボードが正常な状態であることを示します。

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
nvidia-smi ユーティリティーの要約は、4 つの GPU をオンラインで示します。
図 1. nvidia-smi

システムが GPU ボードの検出に失敗する

イベント Sensor GPU Board has transitioned to critical from a less severe state が XCC Web イベント・ログに表示される場合は、システムが GPU ボードの検出に失敗したことを示します。問題を解決するには、以下のステップを実行してください。

  1. システムの電源サイクルを実行します。
  2. XCC および SMM2 の電源入力関連イベントを確認します (SMM2 - 電源 を参照)。
  3. システム温度および水流量を確認します。漏れがないか探し、水冷却システムを切り離してから再接続します。
  4. システムをリブートし、ipmi ヘルス・チェックを実行します (GPU および GPU ボードのヘルス・チェック を参照)。
  5. 以下のいずれかは、問題が解決されたことを示します。
    • XCC メッセージの FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
    • Web ログの Sensor GPU Board has transitioned to normal state
    ただし、問題が解決しない場合は、以下の手順を実行してください。
    1. XCC サービス・データを収集します (サービス・データの収集 を参照)。
    2. Lenovo サービスに連絡します。

システムが特定の GPU の検出に失敗する

XCC Web イベント・ログにイベント Sensor GPU CPUs has transitioned to critical from a less severe state が表示される場合は、システムが 1 つ以上の特定の GPU の検出に失敗したことを示します。問題を解決するには、以下のステップを実行してください。

  1. XCC イベントからリタイマーが温度を超えているかを確認し、超えている場合は、次の手順をスキップします。
  2. データセンターサポート・サイト (ThinkSystem SD650-N V3 の Lenovo データセンターサポート) から最新のファームウェアをダウンロードし、ファームウェアを更新します。
  3. システムをリブートし、ipmi ヘルス・チェックを実行します (GPU および GPU ボードのヘルス・チェック を参照)。
  4. XCC Web イベント・ログにイベント Sensor GPU Board has transitioned to normal state が表示される場合は、問題が解決されたことを示します。

    ただし、問題が解決しない場合は、以下の手順を実行してください。
    1. XCC Web イベント・ログを確認し、障害のある装置ユニットおよび問題のタイプを識別します (XCC GPU センサー仕様 を参照)。
    2. XCC サービス・データを収集します (サービス・データの収集 を参照)。
    3. 診断のために nvidia-smi を実行します (詳しくは、NVIDIA システム管理インターフェース を参照)
      必ず、GPU の問題判別に必要な nvidia-smi ユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、ThinkSystem SD650-N V3 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。
    4. nvidia-bug-report.sh を実行します (NVIDIA ドライバーの組み込みツール)。
    5. Lenovo サービスに連絡します。

XCC GPU センサー仕様

XCC Web イベント・ログにイベントが表示される場合は、以下の表を参照して、障害のある装置ユニットおよび問題のタイプを識別します。例:

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
表 1. XCC GPU センサー仕様 1/2
センサー名センサー番号センサー・タイプセンサーの読み取りタイプエンティティー IDインスタンス/タイプマスクの読み取り (センサーに設定されたデータ)
GPU ボードE9h17h07h0Bh01h

00h – OK への移行

02h – さほど重大でない状態からクリティカルな状態への遷移

  • Evt Data: 21
    • F1h: GPU 電源ブレーキ (evt3 なし)

    • F2h: PIB Thermaltrip (evt3 なし)

    • F6h: GPU コア温度アラート

    • F8h: 温度の PIB

  • Evt Data3:

    • XXh: GPU コア・インデックス、01h: コア 1

    • 07h: コア 1 + コア 2 + コア 3

GPU CPUEAh17h07h0Bh02h

02h – さほど重大でない状態からクリティカルな状態への遷移

  • Evt Data2:

    • B#h: 温度アラート

    • BBh: プレゼンスおよび電源ステータス

    • 21h: PCIe リンクのステータス

    • E0h: SMBIOS からの GPU カウント

    • 3Ah: カード正常性センサー

  • Evt Data3:

    • XXh: GPU コア・インデックス、01h: コア 1

    • 0Ch: コア 3 + コア 4

    • ED2: B#h、ED3: VR ID。

表 2. XCC GPU センサー仕様 2/2
センサー名SEL のログに記録されたアサーションSEL のログに記録されたアサーション解除しきい値設定可能 (B20)

アサーション時のLED「オン」要求

F = 障害 LED

アサーション解除時のLED「オフ」要求

F = 障害 LED

GPU ボード02h02h該当なし

00h - なし

02h - F

00h - なし

02h - F

GPU CPU02h02h該当なし02h - F02h - F
1

Evt data2 は要約できます。例:F7h: F1 + F2 + F4、F3: F1 + F2。