NVLink 交換器匣問題
使用此資訊可解決與 NVLink 交換器匣相關的問題。
NVLink 交換器使用 NVOS 做為交換器 CLI 管理介面。使用以下 NVOS 指令監視單一 NVLink 交換器匣的狀態:
此外,在運算匣上執行以下 nvidia-smi 指令,以驗證其與 NVLink 交換器匣的連接狀態。
如需系統管理介面 (SMI) 的相關資訊,請參閱 NVIDIA 系統管理介面。
nv show system health
執行 nv show system health 指令以顯示 NVLink 交換器匣性能狀態。
圖 1. nv show system health
nv show cluster apps running
執行 nv show cluster apps running 指令,以顯示目前在 NVOS 叢集中執行的所有作用中叢集應用程式。
圖 2. nv show cluster apps running
nvidia-smi-q | grep -A4 Fabric
執行 nvidia-smi-q | grep -A4 Fabric 指令,以顯示叢集連接狀態。
圖 3. nvidia-smi-q | grep -A4 Fabric
nvidia-smi topo –p2p n
執行 nvidia-smi topo –p2p n 指令以顯示 GPU 連接拓撲狀態。
圖 4. nvidia-smi topo –p2p n
nvidia-smi nvlink -s
執行 nvidia-smi nvlink -s 指令,以顯示 NVLink 連線狀態。
圖 5. nvidia-smi nvlink -s
nvidia-smi-q | grep Platform -A 6
執行 nvidia-smi-q | grep Platform -A 6 指令以顯示運算匣網路連接狀態。
圖 6. nvidia-smi-q | grep Platform -A 6
提供意見回饋