運算匣問題
本節提供擷取運算匣日誌的指示,包括 FFDC 資訊、系統庫存和感應器狀態。
當 GB300 NVL72 機架發生問題時,如果運算匣和 NVLink 交換器匣的 BMC 和作業系統仍可存取,請透過單一運算匣收集以下日誌,以便進行問題提報:
運算匣 BMC FFDC 日誌
- 瀏覽至運算匣 BMC 內的頁面。
- 按下載伺服器資料,以下載 FFDC 日誌資訊進行問題提報。這些日誌包含單一運算匣的以下資料:
- 系統庫存資訊
- 系統事件日誌 (SEL)
- 感應器狀態
圖 1. 運算匣 BMC FFDC 日誌


NVDebug 日誌
使用 NVDebug 工具從一個或多個運算匣、NVLink 交換器匣或電源架收集 OOB 診斷日誌。該工具會與裝置 BMC 介接,以擷取資料進行提報。在執行之前,請使用目標裝置連線資訊更新工具套件中包含的配置檔案。
如需 NVDebug 的相關資訊,請參閱以下資訊:
- 透過集線器,使用兩條纜線將用戶端裝置連接到運算匣上的 RJ-45 OS 管理埠 (1) 和 RJ-45 BMC 管理埠 (2),以將該匣設為 NVDebug 主機。

從 NVOnline 下載工具,並將其複製到用戶端裝置。
- 使用以下兩個指令將套件解壓縮:
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz註在筆記型電腦環境中使用 AMD64。 - 使用以下指令編輯 tool_config.yaml 檔案:
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - 選擇在單一運算匣或多個運算匣上同時執行除錯工具:
- 單一運算匣:執行以下指令:
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"註如需完整的平台參數定義,請參閱 NVDebug 使用手冊(位於工具的 ZIP 檔中)。 - 同時執行多個運算匣:
- 先準備好配置檔案。這些檔案位於解壓縮的工具套件資料夾中。使用文字編輯器更新以下內容:
- config.yaml
- dut_config.yaml
- 在 config.yaml 檔案中,將 PLATFORM 設定為 arm64,並將 TargetBaseboard 設定為對應的裝置類型。使用下列值:
- GB300 NVL 適用於運算匣
- GB300 NVSwitchTray 適用於 NVLink 交換器匣
- PowerShelfController 適用於電源架
然後,將 SKIP_BMC_SSH_LOGS 設定為 false。
- 在 config.yaml 檔案中,更新目標運算匣的 BMC IP 位址和認證。

- 在主機裝置上執行以下五個指令以設定環境:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - 在用戶端裝置上執行以下兩個指令以設定主機環境:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - 執行以下指令以編輯 OpenSSH 伺服器常駐程式配置檔案:
sudo vim /etc/ssh/sshd_config然後,將以下參數新增到檔案中:- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- 在主機上,執行以下指令以編輯 sudo 配置檔案:
sudo vim /etc/sudoers在檔案中新增以下項目:nvidiaALL=(ALL) NOPASSWD:ALL
- 使用以下指令執行 NVDebug 工具:
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
註單一運算匣的日誌收集約需十分鐘。完成後,工具會在其目錄中產生一個 ZIP 檔案;請使用此檔案進行問題提報。
提供意見回饋