ปัญหา GPU MI300X
ใช้ข้อมูลนี้เพื่อแก้ไขปัญหาที่เกี่ยวข้องกับโมดูล GPU และโมดูลตัวระบายความร้อน รวมถึงแผงวงจรหลัก GPU
การตรวจความสมบูรณ์ของ GPU
ใช้หนึ่งในยูทิลิตี้ต่อไปนี้เพื่อตรวจสอบสถานะความสมบูรณ์ของ GPU ตรวจสอบให้แน่ใจว่าได้อัปเดตไดรเวอร์ GPU ซึ่งจำเป็นต้องใช้ยูทิลิตี้ต่อไปนี้ ไดรเวอร์ล่าสุดสามารถพบได้ที่ เว็บไซต์ดาวน์โหลดไดรเวอร์และซอฟต์แวร์สำหรับ ThinkSystem SR685a V3
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อมูล System Management Interface (SMI) โปรดดู AMD System Management Interface
rocm-smi
เรียกใช้ยูทิลิตี้ rocm-smi เพื่อแสดง GPU แปดตัวออนไลน์
รูปที่ 1. rocm-smirocm-smi --showrasinfo
เรียกใช้ยูทิลิตี้ rocm-smi --showrasinfo เพื่อแสดงรายละเอียดฮาร์ดแวร์ของ GPU แปดตัว
รูปที่ 2. rocm-smi --showrasinforocm-smi --showhw
เรียกใช้ยูทิลิตี้ rocm-smi --showhw เพื่อแสดงตัวนับข้อผิดพลาดของ GPU แปดตัว
รูปที่ 3. rocm-smi --showhwrocm-smi -a
เรียกใช้ยูทิลิตี้ rocm-smi -a เพื่อแสดงสถานะของ GPU แปดตัว
รูปที่ 4. rocm-smi -a
ระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจง
เมื่อเหตุการณ์ใดเหตุการณ์หนึ่งปรากฏในบันทึกเหตุการณ์บนเว็บ XCC แสดงว่าระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจงอย่างน้อยหนึ่งตัว
- เมื่อเหตุการณ์ FQXSPIO0015M: ข้อผิดพลาดในช่องเสียบ [PhysicalConnectorSystemElementName] ในระบบ [ComputerSystemElementName] ปรากฏขึ้น โปรดดู FQXSPIO0015M ข้อความและรหัส เพื่อแก้ไขปัญหา
- เมื่อเหตุการณ์ FQXSFIO0010M: เกิดข้อผิดพลาด PCIe ที่ไม่สามารถแก้ไขได้ที่บัส [arg1] อุปกรณ์ [arg2] ฟังก์ชัน [arg3] ID ผู้แทนจำหน่ายสำหรับอุปกรณ์คือ [arg4] และ ID อุปกรณ์คือ [arg5] หมายเลข [arg6] จริงคือ [arg7] ปรากฏขึ้น โปรดดู FQXSFIO0010M เพื่อแก้ไขปัญหาหมายเหตุพารามิเตอร์:
- บัส [arg1]
- อุปกรณ์ [arg2]
- ฟังก์ชัน [arg3]
- VID [arg4]
- DID [arg5]
- ช่องเสียบ/ช่องใส่ [arg6]
- หมายเลขอินสแตนซ์ [arg7]
- เมื่อเหตุการณ์ FQXSPUN0019M: เซนเซอร์ [SensorElementName] เปลี่ยนจากสถานะที่ไม่รุนแรงเป็นร้ายแรงปรากฏขึ้น โปรดดู FQXSPUN0019M เพื่อแก้ไขปัญหา
หมายเลขช่องเสียบใน XCC | ซ็อกเก็ต GPU จริง | ตำแหน่งของซ็อกเก็ต GPU |
---|---|---|
ช่องเสียบที่ 17 | OAM 7 | ![]() |
ช่องเสียบที่ 18 | OAM 6 | |
ช่องเสียบที่ 19 | OAM 4 | |
ช่องเสียบที่ 20 | OAM 5 | |
ช่องเสียบ 21 | OAM 3 | |
ช่องเสียบ 22 | OAM 2 | |
ช่องเสียบ 23 | OAM 0 | |
ช่องเสียบ 24 | OAM 1 |