メインコンテンツまでスキップ

MI300X GPU の問題

GPU とヒートシンク・モジュール、および GPU ベースボードに関連する問題を解決するには、この情報を使用します。

GPU のヘルス・チェック

次のいずれかのユーティリティーを使用して、GPU ヘルス・ステータスを確認します。必ず、以下の必要なユーティリティーを含む GPU ドライバーを更新してください。最新のドライバーは、ThinkSystem SR685a V3 用のドライバーおよびソフトウェアのダウンロード Web サイト で入手することができます。

システム管理インターフェース (SMI) 情報について詳しくは、AMD システム管理インターフェースを参照してください。

  • rocm-smi

    rocm-smi ユーティリティーを実行して、8 つの GPU をオンラインで表示します。

    図 1. rocm-smi
    rocm-smi
  • rocm-smi --showrasinfo

    rocm-smi --showrasinfo ユーティリティーを実行して、8 つの GPU のハードウェアの詳細を表示します。

    図 2. rocm-smi --showrasinfo
    rocm-smi --showrasinfo
  • rocm-smi --showhw

    rocm-smi --showhw ユーティリティーを実行して、8 つの GPU のエラー・カウンターを表示します。

    図 3. rocm-smi --showhw
    rocm-smi --showhw
  • rocm-smi -a

    ユーティリティ rocm-smi -a を実行して、8 つの GPU のステータスを表示します。

    図 4. rocm-smi -a
    rocm-smi -a

    rocm-smi -a

システムが特定の GPU の検出に失敗する

いずれかのイベントが XCC Web イベント・ログに表示される場合は、システムが 1 つ以上の特定の GPU の検出に失敗したことを示します。

  • イベント FQXSPIO0015M: システム [ComputerSystemElementName] のスロット [PhysicalConnectorSystemElementName] で障害が発生しました。 が表示される場合は、FQXSPIO0015Mを参照して問題を解決してください。
  • イベント FQXSFIO0010M: 訂正不能 PCIe エラーがバス [arg1] デバイス [arg2] 機能 [arg3] で発生しました。デバイスのベンダー ID は [arg4] で、デバイス ID は [arg5] です。物理 [arg6] 番号は [arg7] です。 が表示される場合は、FQXSFIO0010Mを参照して問題を解決してください。
    パラメーター:
    • [arg1] バス
    • [arg2] デバイス
    • [arg3] 機能
    • [arg4] VID
    • [arg5] DID
    • [arg6] スロット/ベイ
    • [arg7] インスタンス番号
  • イベント FQXSPUN0019M: センサー [SensorElementName] が重大度の低い状態から重大に遷移しました が表示される場合は、FQXSPUN0019Mを参照して問題を解決してください。
次の表は、XCC のスロット番号付けと物理 GPU ソケット間のマッピング情報を示しています。
XCC のスロット番号付け物理 GPU ソケットGPU ソケットの位置
スロット 17OAM 7

スロット 18OAM 6
スロット 19OAM 4
スロット 20OAM 5
スロット 21OAM 3
スロット 22OAM 2
スロット 23OAM 0
スロット 24OAM 1