ปัญหา GPU H100/H200
ใช้ข้อมูลนี้ในการแก้ไขปัญหาที่เกี่ยวข้องกับ GPU
การตรวจความสมบูรณ์ของ GPU
ใช้หนึ่งในยูทิลิตี้ต่อไปนี้เพื่อตรวจสอบสถานะความสมบูรณ์ของ GPU ตรวจสอบให้แน่ใจว่าได้อัปเดตไดรเวอร์ GPU ซึ่งจำเป็นต้องใช้ยูทิลิตี้ต่อไปนี้ ไดรเวอร์ล่าสุดสามารถพบได้ที่ เว็บไซต์ดาวน์โหลดไดรเวอร์และซอฟต์แวร์สำหรับ ThinkSystem SR780a V3
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อมูล System Management Interface (SMI) โปรดดู NVIDIA System Management Interface
nvidia-smi
เรียกใช้ยูทิลิตี้ nvidia-smi เพื่อแสดง GPU แปดตัวออนไลน์
หมายเหตุหมายเลข GPU (0 ถึง 7) ในเอาต์พุตคือตัวเลขลอจิคัล ตารางต่อไปนี้แสดงข้อมูลการแมประหว่างหมายเลขลอจิคัลและซ็อกเก็ต GPU จริงหมายเลขลอจิคัล ซ็อกเก็ต GPU จริง ตำแหน่งของซ็อกเก็ต GPU 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 รูปที่ 1. nvidia-sminvidia-smi -L
เรียกใช้ยูทิลิตี้ nvidia-smi -L เพื่อแสดง GPU แปดตัวออนไลน์ด้วย UUID
หมายเหตุหมายเลข GPU (0 ถึง 7) ในเอาต์พุตคือตัวเลขลอจิคัล ตารางต่อไปนี้แสดงข้อมูลการแมประหว่างหมายเลขลอจิคัลและซ็อกเก็ต GPU จริงหมายเลขลอจิคัล ซ็อกเก็ต GPU จริง ตำแหน่งของซ็อกเก็ต GPU 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 รูปที่ 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
เรียกใช้ยูทิลิตี้ nvidia-smi -q --id=1 -f <output file name> เพื่อส่งออกข้อมูลสินค้าคงคลัง GPU
พิมพ์ชื่อไฟล์ที่ต้องการใน <output file name> เพื่อจัดเก็บเอาต์พุต ตัวอย่าง: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt
รูปที่ 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
เรียกใช้ยูทิลิตี้ nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT เพื่อส่งออกข้อผิดพลาด ECC (การตรวจสอบและแก้ไขข้อผิดพลาด) และสถานะของหน้าที่เลิกใช้
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
เรียกใช้ยูทิลิตี้ nvidia-smi pci --getErrorCounters เพื่อแสดงตัวนับข้อผิดพลาดของ GPU แปดตัว
รูปที่ 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
เรียกใช้ยูทิลิตี้ nvidia-smi pci --getErrorCounters --id=<id number> เพื่อแสดงตัวนับข้อผิดพลาดของ GPU เฉพาะ
พิมพ์หมายเลข ID ของ GPU ที่ระบุใน <id number> ตัวอย่าง: nvidia-smi pci --getErrorCounters --id=2
รูปที่ 5. nvidia-smi pci --getErrorCounters --id=<id number>
ระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจง
เมื่อเหตุการณ์ใดเหตุการณ์หนึ่งปรากฏในบันทึกเหตุการณ์บนเว็บ XCC แสดงว่าระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจงอย่างน้อยหนึ่งตัว
- เมื่อเหตุการณ์ FQXSPIO0015M: ข้อผิดพลาดในช่องเสียบ [PhysicalConnectorSystemElementName] ในระบบ [ComputerSystemElementName] ปรากฏขึ้น โปรดดู FQXSPIO0015M ข้อความและรหัส เพื่อแก้ไขปัญหา
- เมื่อเหตุการณ์ FQXSFIO0010M: เกิดข้อผิดพลาด PCIe ที่ไม่สามารถแก้ไขได้ที่บัส [arg1] อุปกรณ์ [arg2] ฟังก์ชัน [arg3] ID ผู้แทนจำหน่ายสำหรับอุปกรณ์คือ [arg4] และ ID อุปกรณ์คือ [arg5] หมายเลข [arg6] จริงคือ [arg7] ปรากฏขึ้น โปรดดู FQXSFIO0010M เพื่อแก้ไขปัญหาหมายเหตุพารามิเตอร์:
- บัส [arg1]
- อุปกรณ์ [arg2]
- ฟังก์ชัน [arg3]
- VID [arg4]
- DID [arg5]
- ช่องเสียบ/ช่องใส่ [arg6]
- หมายเลขอินสแตนซ์ [arg7]
- เมื่อเหตุการณ์ FQXSPUN0019M: เซนเซอร์ [SensorElementName] เปลี่ยนจากสถานะที่ไม่รุนแรงเป็นร้ายแรงปรากฏขึ้น โปรดดู FQXSPUN0019M เพื่อแก้ไขปัญหา
หมายเลขช่องเสียบใน XCC | ซ็อกเก็ต GPU จริง | ตำแหน่งของซ็อกเก็ต GPU |
---|---|---|
ช่องเสียบที่ 17 | GPU 5 | ![]() |
ช่องเสียบที่ 18 | GPU 7 | |
ช่องเสียบที่ 19 | GPU 8 | |
ช่องเสียบที่ 20 | GPU 6 | |
ช่องเสียบ 21 | GPU 1 | |
ช่องเสียบ 22 | GPU 3 | |
ช่องเสียบ 23 | GPU 4 | |
ช่องเสียบ 24 | GPU 2 |