ปัญหาเกี่ยวกับ GPU
ใช้ข้อมูลนี้ในการแก้ไขปัญหาที่เกี่ยวข้องกับ GPU
การตรวจความสมบูรณ์ของ GPU
ใช้หนึ่งในยูทิลิตี้ต่อไปนี้เพื่อตรวจสอบสถานะความสมบูรณ์ของ GPU ตรวจสอบให้แน่ใจว่าได้อัปเดตไดรเวอร์ GPU ซึ่งจำเป็นต้องใช้ยูทิลิตี้ต่อไปนี้ ไดรเวอร์ล่าสุดสามารถพบได้ที่ เว็บไซต์ดาวน์โหลดไดรเวอร์และซอฟต์แวร์สำหรับ ThinkSystem SR680a V4
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อมูล System Management Interface (SMI) โปรดดู NVIDIA System Management Interface
nvidia-smi
เรียกใช้ยูทิลิตี้ nvidia-smi เพื่อแสดง GPU แปดตัวออนไลน์
รูปที่ 1. nvidia-smi
nvidia-smi -L
เรียกใช้ยูทิลิตี้ nvidia-smi -L เพื่อแสดง GPU แปดตัวออนไลน์ด้วย UUID
รูปที่ 2. nvidia-smi -L
nvidia-smi -q --id=1 -f <output file name>
เรียกใช้ยูทิลิตี้ nvidia-smi -q --id=1 -f <output file name> เพื่อส่งออกข้อมูลสินค้าคงคลัง GPU
พิมพ์ชื่อไฟล์ที่ต้องการใน <output file name> เพื่อจัดเก็บเอาต์พุต ตัวอย่าง: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt
รูปที่ 3. nvidia-smi -q --id=1 -f <output file name>
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
เรียกใช้ยูทิลิตี้ nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT เพื่อส่งออกข้อผิดพลาด ECC (การตรวจสอบและแก้ไขข้อผิดพลาด) และสถานะของหน้าที่เลิกใช้
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
เรียกใช้ยูทิลิตี้ nvidia-smi pci --getErrorCounters เพื่อแสดงตัวนับข้อผิดพลาดของ GPU แปดตัว
รูปที่ 4. nvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters --id=<id number>
เรียกใช้ยูทิลิตี้ nvidia-smi pci --getErrorCounters --id=<id number> เพื่อแสดงตัวนับข้อผิดพลาดของ GPU เฉพาะ
พิมพ์หมายเลข ID ของ GPU ที่ระบุใน <id number> ตัวอย่าง: nvidia-smi pci --getErrorCounters --id=2
รูปที่ 5. nvidia-smi pci --getErrorCounters --id=<id number>