ปัญหา GPU H100/H200
ใช้ข้อมูลนี้ในการแก้ไขปัญหาที่เกี่ยวข้องกับ GPU
การตรวจความสมบูรณ์ของ GPU
ใช้หนึ่งในยูทิลิตี้ต่อไปนี้เพื่อตรวจสอบสถานะความสมบูรณ์ของ GPU ตรวจสอบให้แน่ใจว่าได้อัปเดตไดรเวอร์ GPU ซึ่งจำเป็นต้องใช้ยูทิลิตี้ต่อไปนี้ ไดรเวอร์ล่าสุดสามารถพบได้ที่ เว็บไซต์ดาวน์โหลดไดรเวอร์และซอฟต์แวร์สำหรับ ThinkSystem SR685a V3
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อมูล System Management Interface (SMI) โปรดดู NVIDIA System Management Interface
ตารางต่อไปนี้จะแสดงข้อมูลการแมประหว่าง ID โมดูลกับช่องเสียบ GPU จริง
ID โมดูล ซ็อกเก็ต GPU จริง ตำแหน่งของซ็อกเก็ต GPU 1 SXM 1 2 SXM 2 3 SXM 3 4 SXM 4 5 SXM 5 6 SXM 6 7 SXM 7 8 SXM 8
nvidia-smi
เรียกใช้ยูทิลิตี้ nvidia-smi เพื่อแสดง GPU แปดตัวออนไลน์
หมายเหตุหมายเลข GPU (0 ถึง 7) ในเอาต์พุตคือตัวเลขลอจิคัล ตารางต่อไปนี้แสดงข้อมูลการแมประหว่างหมายเลขลอจิคัลและซ็อกเก็ต GPU จริงรูปที่ 1. nvidia-sminvidia-smi -L
เรียกใช้ยูทิลิตี้ nvidia-smi -L เพื่อแสดง GPU แปดตัวออนไลน์ด้วย UUID
รูปที่ 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
เรียกใช้ยูทิลิตี้ nvidia-smi -q --id=1 -f <output file name> เพื่อส่งออกข้อมูลสินค้าคงคลัง GPU
พิมพ์ชื่อไฟล์ที่ต้องการใน <output file name> เพื่อจัดเก็บเอาต์พุต ตัวอย่าง: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt
รูปที่ 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
เรียกใช้ยูทิลิตี้ nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT เพื่อส่งออกข้อผิดพลาด ECC (การตรวจสอบและแก้ไขข้อผิดพลาด) และสถานะของหน้าที่เลิกใช้
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
เรียกใช้ยูทิลิตี้ nvidia-smi pci --getErrorCounters เพื่อแสดงตัวนับข้อผิดพลาดของ GPU แปดตัว
รูปที่ 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
เรียกใช้ยูทิลิตี้ nvidia-smi pci --getErrorCounters --id=<id number> เพื่อแสดงตัวนับข้อผิดพลาดของ GPU เฉพาะ
พิมพ์หมายเลข ID ของ GPU ที่ระบุใน <id number> ตัวอย่าง: nvidia-smi pci --getErrorCounters --id=2
รูปที่ 5. nvidia-smi pci --getErrorCounters --id=<id number>
ระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจง
เมื่อเหตุการณ์ใดเหตุการณ์หนึ่งปรากฏในบันทึกเหตุการณ์บนเว็บ XCC แสดงว่าระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจงอย่างน้อยหนึ่งตัว
- เมื่อเหตุการณ์ FQXSPIO0015M: ข้อผิดพลาดในช่องเสียบ [PhysicalConnectorSystemElementName] ในระบบ [ComputerSystemElementName] ปรากฏขึ้น โปรดดู FQXSPIO0015M ข้อความและรหัส เพื่อแก้ไขปัญหา
- เมื่อเหตุการณ์ FQXSFIO0010M: เกิดข้อผิดพลาด PCIe ที่ไม่สามารถแก้ไขได้ที่บัส [arg1] อุปกรณ์ [arg2] ฟังก์ชัน [arg3] ID ผู้แทนจำหน่ายสำหรับอุปกรณ์คือ [arg4] และ ID อุปกรณ์คือ [arg5] หมายเลข [arg6] จริงคือ [arg7] ปรากฏขึ้น โปรดดู FQXSFIO0010M เพื่อแก้ไขปัญหาหมายเหตุพารามิเตอร์:
- บัส [arg1]
- อุปกรณ์ [arg2]
- ฟังก์ชัน [arg3]
- VID [arg4]
- DID [arg5]
- ช่องเสียบ/ช่องใส่ [arg6]
- หมายเลขอินสแตนซ์ [arg7]
- เมื่อเหตุการณ์ FQXSPUN0019M: เซนเซอร์ [SensorElementName] เปลี่ยนจากสถานะที่ไม่รุนแรงเป็นร้ายแรงปรากฏขึ้น โปรดดู FQXSPUN0019M เพื่อแก้ไขปัญหา
หมายเลขช่องเสียบใน XCC | ซ็อกเก็ต GPU จริง | ตำแหน่งของซ็อกเก็ต GPU |
---|---|---|
ช่องเสียบที่ 17 | SXM 5 | ![]() |
ช่องเสียบที่ 18 | SXM 7 | |
ช่องเสียบที่ 19 | SXM 8 | |
ช่องเสียบที่ 20 | SXM 6 | |
ช่องเสียบ 21 | SXM 1 | |
ช่องเสียบ 22 | SXM 3 | |
ช่องเสียบ 23 | SXM 4 | |
ช่องเสียบ 24 | SXM 2 |