メインコンテンツまでスキップ

GPU の問題

GPU および GPU ボードに関連した問題を解決するには、この情報を使用します。

必ず、GPU の問題判別に必要な nvidia-smi ユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、ThinkSystem SD665-N V3 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。

GPU および GPU ボードのヘルス・チェック

ipmitool による以下のセンサー・ステータスは、GPU および GPU ボードが正常な状態であることを示します。

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
nvidia-smi ユーティリティーの要約は、4 つの GPU をオンラインで示します。
図 1. nvidia-smi

システムが GPU ボードの検出に失敗する

イベント Sensor GPU Board has transitioned to critical from a less severe state が XCC Web イベント・ログに表示される場合は、システムが GPU ボードの検出に失敗したことを示します。問題を解決するには、以下のステップを実行してください。

  1. システムの電源サイクルを実行します。
  2. XCC および SMM2 の電源入力関連イベントを確認します (SMM2 - 電源 を参照)。
  3. システム温度および水流量を確認します。漏れがないか探し、水冷却システムを切り離してから再接続します。
  4. システムをリブートし、ipmi ヘルス・チェックを実行します (GPU および GPU ボードのヘルス・チェック を参照)。
  5. 以下のいずれかは、問題が解決されたことを示します。
    • XCC メッセージの FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
    • Web ログの Sensor GPU Board has transitioned to normal state
    ただし、問題が解決しない場合は、以下の手順を実行してください。
    1. XCC サービス・データを収集します (サービス・データの収集 を参照)。
    2. Lenovo サービスに連絡します。

システムが特定の GPU の検出に失敗する

XCC Web イベント・ログにイベント Sensor GPU CPUs has transitioned to critical from a less severe state が表示される場合は、システムが 1 つ以上の特定の GPU の検出に失敗したことを示します。問題を解決するには、以下のステップを実行してください。

  1. XCC イベントからリタイマーが温度を超えているかを確認し、超えている場合は、次の手順をスキップします。
  2. データセンターサポート・サイト (ThinkSystem SD665-N V3 の Lenovo データセンターサポート) から最新のファームウェアをダウンロードし、ファームウェアを更新します。
  3. システムをリブートし、ipmi ヘルス・チェックを実行します (GPU および GPU ボードのヘルス・チェック を参照)。
  4. XCC Web イベント・ログにイベント Sensor GPU Board has transitioned to normal state が表示される場合は、問題が解決されたことを示します。

    ただし、問題が解決しない場合は、以下の手順を実行してください。
    1. XCC Web イベント・ログを確認し、障害のある装置ユニットおよび問題のタイプを識別します (XCC GPU センサー仕様 を参照)。
    2. XCC サービス・データを収集します (サービス・データの収集 を参照)。
    3. 診断のために nvidia-smi を実行します (詳しくは、NVIDIA システム管理インターフェース を参照)
      必ず、GPU の問題判別に必要な nvidia-smi ユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、ThinkSystem SD665-N V3 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。
    4. nvidia-bug-report.sh を実行します (NVIDIA ドライバーの組み込みツール)。
    5. Lenovo サービスに連絡します。

XCC GPU センサー仕様

XCC Web イベント・ログにイベントが表示される場合は、以下の表を参照して、障害のある装置ユニットおよび問題のタイプを識別します。例:

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
表 1. XCC GPU センサー仕様
センサー名データ
GPU CPUセンサー番号EAh

02h - さほど重大でない状態からクリティカルな状態への遷移

Evt Data2:

  • B0h: 温度アラート
  • BBh: プレゼンスおよび電源ステータス
  • B1h: GPU 割り込み情報
  • 21h: PCIe リンクのステータス
  • E0h: SMBIOS からの GPU カウント

Evt Data3:

  • XXh: GPU コア・インデックス、01h: コア 1
  • 07h: コア 3 + コア 4
センサー・タイプ17h
センサーの読み取りタイプ07h
エンティティー ID0Bh
インスタンス/タイプ02h
SEL のログに記録されたアサーション02h
SEL のログに記録されたアサーション解除02h
しきい値のアサーション解除 

アサーション時のLED「オン」要求

F = 障害 KED

02h - F

アサーション解除時のLED「オフ」要求

F = 障害 KED

02h - F
GPU ボードセンサー番号EAh

00h - OK への移行

02h - さほど重大でない状態からクリティカルな状態への遷移

Evt Data2:

  • F1h: GPU Thermaltrip (evt3 なし)
  • F2h: PIB Thermaltrip (evt3 なし)
  • F6h: GPU コア温度アラート

Evt Data3:

  • XXh: GPU コア・インデックス、01h: コア 1
  • 07h: コア 3 + コア 4
  • Evt2: F4h、01h: 温度加熱フラグ・アサート済み
センサー・タイプ17h
センサーの読み取りタイプ07h
エンティティー ID0Bh
インスタンス/タイプ01h
SEL のログに記録されたアサーション02h
SEL のログに記録されたアサーション解除02h
しきい値のアサーション解除該当なし

アサーション時のLED「オン」要求

F = 障害 LED

00h - なし

02h - F

アサーション解除時のLED「オフ」要求

F = 障害 LED

00h - なし

02h - F