H100/H200 GPU 問題
使用此資訊可解決與 GPU 相關的問題。
GPU 的性能狀態檢查
使用下列其中一個公用程式可檢查 GPU 運作狀態。請務必更新 GPU 驅動程式,包括以下所需的公用程式。最新的驅動程式可以在以下位置找到:ThinkSystem SR780a V3 驅動程式和軟體下載網站。
有關系統管理介面 (SMI) 資訊的詳細資訊,請參閱 NVIDIA 系統管理介面。
nvidia-smi
執行 nvidia-smi 公用程式可顯示線上的八個 GPU。
註輸出中的 GPU 編號(0 到 7)是邏輯編號。下表顯示了邏輯編號和實體 GPU 插座之間的對映資訊。邏輯編號 實體 GPU 插座 GPU 插座的位置 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 圖 1. nvidia-sminvidia-smi -L
執行 nvidia-smi -L 公用程式可顯示線上的八個 GPU 與 UUID。
註輸出中的 GPU 編號(0 到 7)是邏輯編號。下表顯示了邏輯編號和實體 GPU 插座之間的對映資訊。邏輯編號 實體 GPU 插座 GPU 插座的位置 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 圖 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
執行 nvidia-smi -q --id=1 -f <output file name> 公用程式可匯出 GPU 庫存資訊。
在 <output file name> 中輸入所需的檔案名稱以儲存輸出。例如:nvidia-smi -q --id=1 -f /tmp/queryoam1.txt。
圖 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
執行 nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT 公用程式可匯出 ECC(錯誤檢查及更正)錯誤和已淘汰頁面的狀態。
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
執行 nvidia-smi pci --getErrorCounters 公用程式可顯示八個 GPU 的錯誤計數器。
圖 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
執行 nvidia-smi pci --getErrorCounters --id=<id number> 公用程式可顯示特定 GPU 的錯誤計數器。
在 <id number> 中輸入特定 GPU 的 ID 編號。例如:nvidia-smi pci --getErrorCounters --id=2。
圖 5. nvidia-smi pci --getErrorCounters --id=<id number>
系統無法偵測到特定的 GPU
當其中一個事件出現在 XCC Web 事件日誌中時,表示系統無法偵測到一個或多個特定的 GPU。
- 出現事件 FQXSPIO0015M:系統 [ComputerSystemElementName] 的插槽 [PhysicalConnectorSystemElementName] 故障。時,請參閱FQXSPIO0015M以解決問題。
- 出現事件 FQXSFIO0010M:發生無法更正的 PCIe 錯誤,位置在匯流排 [arg1] 裝置 [arg2] 功能 [arg3]。裝置的「供應商 ID」為 [arg4],「裝置 ID」為 [arg5]。實體 [arg6] 號碼為 [arg7]。時,請參閱FQXSFIO0010M以解決問題。註參數:
- [arg1] 匯流排
- [arg2] 裝置
- [arg3] 功能
- [arg4] VID
- [arg5] DID
- [arg6] 插槽/機槽
- [arg7] 實例號碼
- 出現事件 FQXSPUN0019M:感應器 [SensorElementName] 的狀態已從較不嚴重轉變成嚴重。時,請參閱FQXSPUN0019M以解決問題。
XCC 中的插槽編號 | 實體 GPU 插座 | GPU 插座的位置 |
---|---|---|
插槽 17 | GPU 5 | ![]() |
插槽 18 | GPU 7 | |
插槽 19 | GPU 8 | |
插槽 20 | GPU 6 | |
插槽 21 | GPU 1 | |
插槽 22 | GPU 3 | |
插槽 23 | GPU 4 | |
插槽 24 | GPU 2 |