跳至主要内容

運算匣問題

本節提供擷取運算匣日誌的指示,包括 FFDC 資訊、系統庫存和感應器狀態。

當 GB300 NVL72 機架發生問題時,如果運算匣和 NVLink 交換器匣的 BMC 和作業系統仍可存取,請透過單一運算匣收集以下日誌,以便進行問題提報:

運算匣 BMC FFDC 日誌

  1. 瀏覽至運算匣 BMC 內的維護 > 儲存伺服器資料頁面。
  2. 下載伺服器資料,以下載 FFDC 日誌資訊進行問題提報。這些日誌包含單一運算匣的以下資料:
    • 系統庫存資訊
    • 系統事件日誌 (SEL)
    • 感應器狀態
圖 1. 運算匣 BMC FFDC 日誌
Compute tray BMC FFDC logs

NVDebug 日誌

使用 NVDebug 工具從一個或多個運算匣、NVLink 交換器匣或電源架收集 OOB 診斷日誌。該工具會與裝置 BMC 介接,以擷取資料進行提報。在執行之前,請使用目標裝置連線資訊更新工具套件中包含的配置檔案

  1. 透過集線器,使用兩條纜線將用戶端裝置連接到運算匣上的 RJ-45 OS 管理埠 (1) 和 RJ-45 BMC 管理埠 (2),以將該匣設為 NVDebug 主機。
    RJ-45 BMC and OS management ports
  2. NVOnline 下載工具,並將其複製到用戶端裝置。

  3. 使用以下兩個指令將套件解壓縮:
    sudo unzip <NV Debug tool file name>.zip
    sudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz
    在筆記型電腦環境中使用 AMD64。
  4. 使用以下指令編輯 tool_config.yaml 檔案:
    vim tool_config.yaml
    SKIP_BMC_SSH_LOGS: false
  5. 選擇在單一運算匣或多個運算匣上同時執行除錯工具:
    • 單一運算匣:執行以下指令:
      sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"
      如需完整的平台參數定義,請參閱 NVDebug 使用手冊(位於工具的 ZIP 檔中)。
    • 同時執行多個運算匣:
      1. 先準備好配置檔案。這些檔案位於解壓縮的工具套件資料夾中。使用文字編輯器更新以下內容:
        • config.yaml
        • dut_config.yaml
      2. config.yaml 檔案中,將 PLATFORM 設定為 arm64,並將 TargetBaseboard 設定為對應的裝置類型。使用下列值:
        • GB300 NVL 適用於運算匣
        • GB300 NVSwitchTray 適用於 NVLink 交換器匣
        • PowerShelfController 適用於電源架
        然後,將 SKIP_BMC_SSH_LOGS 設定為 false

      3. config.yaml 檔案中,更新目標運算匣的 BMC IP 位址和認證。

      4. 在主機裝置上執行以下五個指令以設定環境:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm
        sudo apt install nvidia-fabricmanager-580
        ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_key
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address>
      5. 在用戶端裝置上執行以下兩個指令以設定主機環境:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsm
        sudo apt install nvidia-fabricmanager-580
      6. 執行以下指令以編輯 OpenSSH 伺服器常駐程式配置檔案:
        sudo vim /etc/ssh/sshd_config
        然後,將以下參數新增到檔案中:
        • PubkeyAuthenticationyes
        • AuthorizedKeysFile.ssh/authorized_keys


      7. 在主機上,執行以下指令以編輯 sudo 配置檔案:
        sudo vim /etc/sudoers
        在檔案中新增以下項目:
        nvidiaALL=(ALL) NOPASSWD:ALL


      8. 使用以下指令執行 NVDebug 工具:
        sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .


        單一運算匣的日誌收集約需十分鐘。完成後,工具會在其目錄中產生一個 ZIP 檔案;請使用此檔案進行問題提報。