跳至主要内容

H100/H200 GPU 問題

使用此資訊可解決與 GPU 相關的問題。

GPU 的性能狀態檢查

使用下列其中一個公用程式可檢查 GPU 運作狀態。請務必更新 GPU 驅動程式,包括以下所需的公用程式。最新的驅動程式可以在以下位置找到:ThinkSystem SR780a V3 驅動程式和軟體下載網站

有關系統管理介面 (SMI) 資訊的詳細資訊,請參閱 NVIDIA 系統管理介面

  • nvidia-smi

    執行 nvidia-smi 公用程式可顯示線上的八個 GPU。

    輸出中的 GPU 編號(0 到 7)是邏輯編號。下表顯示了邏輯編號和實體 GPU 插座之間的對映資訊。
    邏輯編號實體 GPU 插座GPU 插座的位置
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    圖 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    執行 nvidia-smi -L 公用程式可顯示線上的八個 GPU 與 UUID。

    輸出中的 GPU 編號(0 到 7)是邏輯編號。下表顯示了邏輯編號和實體 GPU 插座之間的對映資訊。
    邏輯編號實體 GPU 插座GPU 插座的位置
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    圖 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    執行 nvidia-smi -q --id=1 -f <output file name> 公用程式可匯出 GPU 庫存資訊。

    <output file name> 中輸入所需的檔案名稱以儲存輸出。例如:nvidia-smi -q --id=1 -f /tmp/queryoam1.txt

    圖 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    執行 nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT 公用程式可匯出 ECC(錯誤檢查及更正)錯誤和已淘汰頁面的狀態。

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    執行 nvidia-smi pci --getErrorCounters 公用程式可顯示八個 GPU 的錯誤計數器。

    圖 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    執行 nvidia-smi pci --getErrorCounters --id=<id number> 公用程式可顯示特定 GPU 的錯誤計數器。

    <id number> 中輸入特定 GPU 的 ID 編號。例如:nvidia-smi pci --getErrorCounters --id=2

    圖 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

系統無法偵測到特定的 GPU

當其中一個事件出現在 XCC Web 事件日誌中時,表示系統無法偵測到一個或多個特定的 GPU。

  • 出現事件 FQXSPIO0015M:系統 [ComputerSystemElementName] 的插槽 [PhysicalConnectorSystemElementName] 故障。時,請參閱FQXSPIO0015M以解決問題。
  • 出現事件 FQXSFIO0010M:發生無法更正的 PCIe 錯誤,位置在匯流排 [arg1] 裝置 [arg2] 功能 [arg3]。裝置的「供應商 ID」為 [arg4],「裝置 ID」為 [arg5]。實體 [arg6] 號碼為 [arg7]。時,請參閱FQXSFIO0010M以解決問題。
    參數:
    • [arg1] 匯流排
    • [arg2] 裝置
    • [arg3] 功能
    • [arg4] VID
    • [arg5] DID
    • [arg6] 插槽/機槽
    • [arg7] 實例號碼
  • 出現事件 FQXSPUN0019M:感應器 [SensorElementName] 的狀態已從較不嚴重轉變成嚴重。時,請參閱FQXSPUN0019M以解決問題。
下表顯示了 XCC 中的插槽編號與實體 GPU 插座之間的對映資訊。
XCC 中的插槽編號實體 GPU 插座GPU 插座的位置
插槽 17GPU 5

插槽 18GPU 7
插槽 19GPU 8
插槽 20GPU 6
插槽 21GPU 1
插槽 22GPU 3
插槽 23GPU 4
插槽 24GPU 2