Skip to main content

ปัญหา GPU H100/H200

ใช้ข้อมูลนี้ในการแก้ไขปัญหาที่เกี่ยวข้องกับ GPU

การตรวจความสมบูรณ์ของ GPU

หมายเหตุ

ใช้หนึ่งในยูทิลิตี้ต่อไปนี้เพื่อตรวจสอบสถานะความสมบูรณ์ของ GPU ตรวจสอบให้แน่ใจว่าได้อัปเดตไดรเวอร์ GPU ซึ่งจำเป็นต้องใช้ยูทิลิตี้ต่อไปนี้ ไดรเวอร์ล่าสุดสามารถพบได้ที่ เว็บไซต์ดาวน์โหลดไดรเวอร์และซอฟต์แวร์สำหรับ ThinkSystem SR780a V3

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อมูล System Management Interface (SMI) โปรดดู NVIDIA System Management Interface

  • nvidia-smi

    เรียกใช้ยูทิลิตี้ nvidia-smi เพื่อแสดง GPU แปดตัวออนไลน์

    หมายเหตุ
    หมายเลข GPU (0 ถึง 7) ในเอาต์พุตคือตัวเลขลอจิคัล ตารางต่อไปนี้แสดงข้อมูลการแมประหว่างหมายเลขลอจิคัลและซ็อกเก็ต GPU จริง
    หมายเลขลอจิคัลซ็อกเก็ต GPU จริงตำแหน่งของซ็อกเก็ต GPU
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    รูปที่ 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    เรียกใช้ยูทิลิตี้ nvidia-smi -L เพื่อแสดง GPU แปดตัวออนไลน์ด้วย UUID

    หมายเหตุ
    หมายเลข GPU (0 ถึง 7) ในเอาต์พุตคือตัวเลขลอจิคัล ตารางต่อไปนี้แสดงข้อมูลการแมประหว่างหมายเลขลอจิคัลและซ็อกเก็ต GPU จริง
    หมายเลขลอจิคัลซ็อกเก็ต GPU จริงตำแหน่งของซ็อกเก็ต GPU
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    รูปที่ 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    เรียกใช้ยูทิลิตี้ nvidia-smi -q --id=1 -f <output file name> เพื่อส่งออกข้อมูลสินค้าคงคลัง GPU

    พิมพ์ชื่อไฟล์ที่ต้องการใน <output file name> เพื่อจัดเก็บเอาต์พุต ตัวอย่าง: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt

    รูปที่ 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    เรียกใช้ยูทิลิตี้ nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT เพื่อส่งออกข้อผิดพลาด ECC (การตรวจสอบและแก้ไขข้อผิดพลาด) และสถานะของหน้าที่เลิกใช้

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    เรียกใช้ยูทิลิตี้ nvidia-smi pci --getErrorCounters เพื่อแสดงตัวนับข้อผิดพลาดของ GPU แปดตัว

    รูปที่ 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    เรียกใช้ยูทิลิตี้ nvidia-smi pci --getErrorCounters --id=<id number> เพื่อแสดงตัวนับข้อผิดพลาดของ GPU เฉพาะ

    พิมพ์หมายเลข ID ของ GPU ที่ระบุใน <id number> ตัวอย่าง: nvidia-smi pci --getErrorCounters --id=2

    รูปที่ 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

ระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจง

เมื่อเหตุการณ์ใดเหตุการณ์หนึ่งปรากฏในบันทึกเหตุการณ์บนเว็บ XCC แสดงว่าระบบตรวจไม่พบ GPU ที่เฉพาะเจาะจงอย่างน้อยหนึ่งตัว

  • เมื่อเหตุการณ์ FQXSPIO0015M: ข้อผิดพลาดในช่องเสียบ [PhysicalConnectorSystemElementName] ในระบบ [ComputerSystemElementName] ปรากฏขึ้น โปรดดู FQXSPIO0015M ข้อความและรหัส เพื่อแก้ไขปัญหา
  • เมื่อเหตุการณ์ FQXSFIO0010M: เกิดข้อผิดพลาด PCIe ที่ไม่สามารถแก้ไขได้ที่บัส [arg1] อุปกรณ์ [arg2] ฟังก์ชัน [arg3] ID ผู้แทนจำหน่ายสำหรับอุปกรณ์คือ [arg4] และ ID อุปกรณ์คือ [arg5] หมายเลข [arg6] จริงคือ [arg7] ปรากฏขึ้น โปรดดู FQXSFIO0010M เพื่อแก้ไขปัญหา
    หมายเหตุ
    พารามิเตอร์:
    • บัส [arg1]
    • อุปกรณ์ [arg2]
    • ฟังก์ชัน [arg3]
    • VID [arg4]
    • DID [arg5]
    • ช่องเสียบ/ช่องใส่ [arg6]
    • หมายเลขอินสแตนซ์ [arg7]
  • เมื่อเหตุการณ์ FQXSPUN0019M: เซนเซอร์ [SensorElementName] เปลี่ยนจากสถานะที่ไม่รุนแรงเป็นร้ายแรงปรากฏขึ้น โปรดดู FQXSPUN0019M เพื่อแก้ไขปัญหา
หมายเหตุ
ตารางต่อไปนี้แสดงข้อมูลการแมประหว่างหมายเลขช่องเสียบใน XCC และซ็อกเก็ต GPU จริง
หมายเลขช่องเสียบใน XCCซ็อกเก็ต GPU จริงตำแหน่งของซ็อกเก็ต GPU
ช่องเสียบที่ 17GPU 5

ช่องเสียบที่ 18GPU 7
ช่องเสียบที่ 19GPU 8
ช่องเสียบที่ 20GPU 6
ช่องเสียบ 21GPU 1
ช่องเสียบ 22GPU 3
ช่องเสียบ 23GPU 4
ช่องเสียบ 24GPU 2