Skip to main content

ปัญหา GPU MI300X

ใช้ข้อมูลนี้เพื่อแก้ไขปัญหาที่เกี่ยวข้องกับโมดูล GPU และโมดูลตัวระบายความร้อน รวมถึงแผงวงจรหลัก GPU

การตรวจความสมบูรณ์ของ GPU

หมายเหตุ

ใช้หนึ่งในยูทิลิตี้ต่อไปนี้เพื่อตรวจสอบสถานะความสมบูรณ์ของ GPU ตรวจสอบให้แน่ใจว่าได้อัปเดตไดรเวอร์ GPU ซึ่งจำเป็นต้องใช้ยูทิลิตี้ต่อไปนี้ ไดรเวอร์ล่าสุดสามารถพบได้ที่ เว็บไซต์ดาวน์โหลดไดรเวอร์และซอฟต์แวร์สำหรับ ThinkSystem SR685a V3

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อมูล System Management Interface (SMI) โปรดดู AMD System Management Interface

  • rocm-smi

    เรียกใช้ยูทิลิตี้ rocm-smi เพื่อแสดง GPU แปดตัวออนไลน์

    รูปที่ 1. rocm-smi
    rocm-smi
  • rocm-smi --showrasinfo

    เรียกใช้ยูทิลิตี้ rocm-smi --showrasinfo เพื่อแสดงรายละเอียดฮาร์ดแวร์ของ GPU แปดตัว

    รูปที่ 2. rocm-smi --showrasinfo
    rocm-smi --showrasinfo
  • rocm-smi --showhw

    เรียกใช้ยูทิลิตี้ rocm-smi --showhw เพื่อแสดงตัวนับข้อผิดพลาดของ GPU แปดตัว

    รูปที่ 3. rocm-smi --showhw
    rocm-smi --showhw
  • rocm-smi -a

    เรียกใช้ยูทิลิตี้ rocm-smi -a เพื่อแสดงสถานะของ GPU แปดตัว

    รูปที่ 4. rocm-smi -a
    rocm-smi -a

    rocm-smi -a

ระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจง

เมื่อเหตุการณ์ใดเหตุการณ์หนึ่งปรากฏในบันทึกเหตุการณ์บนเว็บ XCC แสดงว่าระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจงอย่างน้อยหนึ่งตัว

  • เมื่อเหตุการณ์ FQXSPIO0015M: ข้อผิดพลาดในช่องเสียบ [PhysicalConnectorSystemElementName] ในระบบ [ComputerSystemElementName] ปรากฏขึ้น โปรดดู FQXSPIO0015M ข้อความและรหัส เพื่อแก้ไขปัญหา
  • เมื่อเหตุการณ์ FQXSFIO0010M: เกิดข้อผิดพลาด PCIe ที่ไม่สามารถแก้ไขได้ที่บัส [arg1] อุปกรณ์ [arg2] ฟังก์ชัน [arg3] ID ผู้แทนจำหน่ายสำหรับอุปกรณ์คือ [arg4] และ ID อุปกรณ์คือ [arg5] หมายเลข [arg6] จริงคือ [arg7] ปรากฏขึ้น โปรดดู FQXSFIO0010M เพื่อแก้ไขปัญหา
    หมายเหตุ
    พารามิเตอร์:
    • บัส [arg1]
    • อุปกรณ์ [arg2]
    • ฟังก์ชัน [arg3]
    • VID [arg4]
    • DID [arg5]
    • ช่องเสียบ/ช่องใส่ [arg6]
    • หมายเลขอินสแตนซ์ [arg7]
  • เมื่อเหตุการณ์ FQXSPUN0019M: เซนเซอร์ [SensorElementName] เปลี่ยนจากสถานะที่ไม่รุนแรงเป็นร้ายแรงปรากฏขึ้น โปรดดู FQXSPUN0019M เพื่อแก้ไขปัญหา
หมายเหตุ
ตารางต่อไปนี้แสดงข้อมูลการแมประหว่างหมายเลขช่องเสียบใน XCC และซ็อกเก็ต GPU จริง
หมายเลขช่องเสียบใน XCCซ็อกเก็ต GPU จริงตำแหน่งของซ็อกเก็ต GPU
ช่องเสียบที่ 17OAM 7

ช่องเสียบที่ 18OAM 6
ช่องเสียบที่ 19OAM 4
ช่องเสียบที่ 20OAM 5
ช่องเสียบ 21OAM 3
ช่องเสียบ 22OAM 2
ช่องเสียบ 23OAM 0
ช่องเสียบ 24OAM 1