MI300X GPU 問題
請參考此資訊以解決與 GPU、散熱槽模組及 GPU 基板相關的問題。
GPU 的性能狀態檢查
註
使用下列其中一個公用程式可檢查 GPU 運作狀態。請務必更新 GPU 驅動程式,包括以下所需的公用程式。最新的驅動程式可以在以下位置找到:ThinkSystem SR685a V3 驅動程式和軟體下載網站。
有關系統管理介面 (SMI) 資訊的詳細資訊,請參閱 AMD 系統管理介面。
rocm-smi
執行 rocm-smi 公用程式可顯示線上的八個 GPU。
圖 1. rocm-smirocm-smi --showrasinfo
執行 rocm-smi --showrasinfo 公用程式,以顯示八個 GPU 的硬體詳細資料。
圖 2. rocm-smi --showrasinforocm-smi --showhw
執行 rocm-smi --showhw 公用程式可顯示八個 GPU 的錯誤計數器。
圖 3. rocm-smi --showhwrocm-smi -a
執行 rocm-smi -a 公用程式,以顯示八個 GPU 的狀態。
圖 4. rocm-smi -a
系統無法偵測到特定的 GPU
當其中一個事件出現在 XCC Web 事件日誌中時,表示系統無法偵測到一個或多個特定的 GPU。
- 出現事件 FQXSPIO0015M:系統 [ComputerSystemElementName] 的插槽 [PhysicalConnectorSystemElementName] 故障。時,請參閱FQXSPIO0015M以解決問題。
- 出現事件 FQXSFIO0010M:發生無法更正的 PCIe 錯誤,位置在匯流排 [arg1] 裝置 [arg2] 功能 [arg3]。裝置的「供應商 ID」為 [arg4],「裝置 ID」為 [arg5]。實體 [arg6] 號碼為 [arg7]。時,請參閱FQXSFIO0010M以解決問題。註參數:
- [arg1] 匯流排
- [arg2] 裝置
- [arg3] 功能
- [arg4] VID
- [arg5] DID
- [arg6] 插槽/機槽
- [arg7] 實例號碼
- 出現事件 FQXSPUN0019M:感應器 [SensorElementName] 的狀態已從較不嚴重轉變成嚴重。時,請參閱FQXSPUN0019M以解決問題。
註
下表顯示了 XCC 中的插槽編號與實體 GPU 插座之間的對映資訊。
XCC 中的插槽編號 | 實體 GPU 插座 | GPU 插座的位置 |
---|---|---|
插槽 17 | OAM 7 | ![]() |
插槽 18 | OAM 6 | |
插槽 19 | OAM 4 | |
插槽 20 | OAM 5 | |
插槽 21 | OAM 3 | |
插槽 22 | OAM 2 | |
插槽 23 | OAM 0 | |
插槽 24 | OAM 1 |
提供意見回饋