跳至主要内容

GPU 問題

使用此資訊可解決與 GPU 相關的問題。

GPU 的性能狀態檢查

  • nvidia-smi

    執行 nvidia-smi 公用程式可顯示線上的八個 GPU。

    圖 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    執行 nvidia-smi -L 公用程式可顯示線上的八個 GPU 與 UUID。

    圖 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    執行 nvidia-smi -q --id=1 -f <output file name> 公用程式可匯出 GPU 庫存資訊。

    <output file name> 中輸入所需的檔案名稱以儲存輸出。例如:nvidia-smi -q --id=1 -f /tmp/queryoam1.txt

    圖 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    執行 nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT 公用程式可匯出 ECC(錯誤檢查及更正)錯誤和已淘汰頁面的狀態。

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    執行 nvidia-smi pci --getErrorCounters 公用程式可顯示八個 GPU 的錯誤計數器。

    圖 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    執行 nvidia-smi pci --getErrorCounters --id=<id number> 公用程式可顯示特定 GPU 的錯誤計數器。

    <id number> 中輸入特定 GPU 的 ID 編號。例如:nvidia-smi pci --getErrorCounters --id=2

    圖 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>