跳至主要内容

MI300X GPU 問題

請參考此資訊以解決與 GPU、散熱槽模組及 GPU 基板相關的問題。

GPU 的性能狀態檢查

使用下列其中一個公用程式可檢查 GPU 運作狀態。請務必更新 GPU 驅動程式,包括以下所需的公用程式。最新的驅動程式可以在以下位置找到:ThinkSystem SR685a V3 驅動程式和軟體下載網站

有關系統管理介面 (SMI) 資訊的詳細資訊,請參閱 AMD 系統管理介面

  • rocm-smi

    執行 rocm-smi 公用程式可顯示線上的八個 GPU。

    圖 1. rocm-smi
    rocm-smi
  • rocm-smi --showrasinfo

    執行 rocm-smi --showrasinfo 公用程式,以顯示八個 GPU 的硬體詳細資料。

    圖 2. rocm-smi --showrasinfo
    rocm-smi --showrasinfo
  • rocm-smi --showhw

    執行 rocm-smi --showhw 公用程式可顯示八個 GPU 的錯誤計數器。

    圖 3. rocm-smi --showhw
    rocm-smi --showhw
  • rocm-smi -a

    執行 rocm-smi -a 公用程式,以顯示八個 GPU 的狀態。

    圖 4. rocm-smi -a
    rocm-smi -a

    rocm-smi -a

系統無法偵測到特定的 GPU

當其中一個事件出現在 XCC Web 事件日誌中時,表示系統無法偵測到一個或多個特定的 GPU。

  • 出現事件 FQXSPIO0015M:系統 [ComputerSystemElementName] 的插槽 [PhysicalConnectorSystemElementName] 故障。時,請參閱FQXSPIO0015M以解決問題。
  • 出現事件 FQXSFIO0010M:發生無法更正的 PCIe 錯誤,位置在匯流排 [arg1] 裝置 [arg2] 功能 [arg3]。裝置的「供應商 ID」為 [arg4],「裝置 ID」為 [arg5]。實體 [arg6] 號碼為 [arg7]。時,請參閱FQXSFIO0010M以解決問題。
    參數:
    • [arg1] 匯流排
    • [arg2] 裝置
    • [arg3] 功能
    • [arg4] VID
    • [arg5] DID
    • [arg6] 插槽/機槽
    • [arg7] 實例號碼
  • 出現事件 FQXSPUN0019M:感應器 [SensorElementName] 的狀態已從較不嚴重轉變成嚴重。時,請參閱FQXSPUN0019M以解決問題。
下表顯示了 XCC 中的插槽編號與實體 GPU 插座之間的對映資訊。
XCC 中的插槽編號實體 GPU 插座GPU 插座的位置
插槽 17OAM 7

插槽 18OAM 6
插槽 19OAM 4
插槽 20OAM 5
插槽 21OAM 3
插槽 22OAM 2
插槽 23OAM 0
插槽 24OAM 1