GPU 問題
使用此資訊可解決與 GPU 相關的問題。
GPU 的性能狀態檢查
使用下列其中一個公用程式可檢查 GPU 運作狀態。請務必更新 GPU 驅動程式,包括以下所需的公用程式。最新的驅動程式可以在以下位置找到:ThinkSystem SR680a V4 驅動程式和軟體下載網站。
有關系統管理介面 (SMI) 資訊的詳細資訊,請參閱 NVIDIA 系統管理介面。
nvidia-smi
執行 nvidia-smi 公用程式可顯示線上的八個 GPU。
圖 1. nvidia-smi
nvidia-smi -L
執行 nvidia-smi -L 公用程式可顯示線上的八個 GPU 與 UUID。
圖 2. nvidia-smi -L
nvidia-smi -q --id=1 -f <output file name>
執行 nvidia-smi -q --id=1 -f <output file name> 公用程式可匯出 GPU 庫存資訊。
在 <output file name> 中輸入所需的檔案名稱以儲存輸出。例如:nvidia-smi -q --id=1 -f /tmp/queryoam1.txt。
圖 3. nvidia-smi -q --id=1 -f <output file name>
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
執行 nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT 公用程式可匯出 ECC(錯誤檢查及更正)錯誤和已淘汰頁面的狀態。
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
執行 nvidia-smi pci --getErrorCounters 公用程式可顯示八個 GPU 的錯誤計數器。
圖 4. nvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters --id=<id number>
執行 nvidia-smi pci --getErrorCounters --id=<id number> 公用程式可顯示特定 GPU 的錯誤計數器。
在 <id number> 中輸入特定 GPU 的 ID 編號。例如:nvidia-smi pci --getErrorCounters --id=2。
圖 5. nvidia-smi pci --getErrorCounters --id=<id number>