メインコンテンツまでスキップ

サービス・データの収集

ラック・ソリューションの問題の根本原因をはっきり特定するため、または Lenovo サポートの依頼によって、詳細な分析に使用できるサービス・データを収集する必要がある場合があります。サービス・データには、イベント・ログやハードウェア・インベントリーなどの情報が含まれています。

サービス・データは以下のツールを使用して収集できます。

コンピュート・トレイ BMC FFDC ログ

  1. コンピュート・トレイ BMC 内の保守 > サーバー・データの保存ページに移動します。
  2. サーバー・データのダウンロード」をクリックし、問題のエスカレーション用の FFDC ログ情報をダウンロードします。これらのログには、単一のコンピュート・トレイの次のデータが含まれています。
    • システム・インベントリー情報
    • システム・イベント・ログ (SEL)
    • センサー・ステータス
図 1. コンピュート・トレイ BMC FFDC ログ
Compute tray BMC FFDC logs

NVDebug ログ

1 個以上のコンピュート・トレイ、NVLink スイッチ・トレイ、またはパワー・シェルフから OOB 診断ログを収集するには、NVDebug ツールを使用します。このツールは、デバイス BMC と接続して、エスカレーション用データをキャプチャーします。実行前に、(ツール・パッケージに含まれている) 構成ファイルをターゲット・デバイスの接続情報で更新します。

  1. ハブを介してクライアント・デバイスを、2 本のケーブルを使用してコンピュート・トレイ上の RJ-45 OS 管理ポート (1) と RJ-45 BMC 管理ポート (2) に接続し、トレイを NVDebug ホストとして確立します。
    RJ-45 BMC and OS management ports
  2. NVOnline からツールをダウンロードし、クライアント・デバイスにコピーします。

  3. 次の 2 つのコマンドを使用してパッケージを解凍します。
    sudo unzip <NV Debug tool file name>.zip
    sudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz
    ノート PC 環境では AMD64 を使用します。
  4. 次のコマンドを使用して、tool_config.yaml ファイルを編集します。
    vim tool_config.yaml
    SKIP_BMC_SSH_LOGS: false
  5. デバッグ・ツールを単一のコンピュート・トレイで実行するか、複数のトレイで同時に実行するかを選択します。
    • 単一のコンピュート:トレイ:次のコマンドを実行します。
      sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"
      詳細なプラットフォーム・パラメーター定義については、(ツールの ZIP ファイルに含まれている)『NVDebug ユーザー・ガイド』を参照してください。
    • 複数のコンピュート・トレイで同時実行:
      1. まず構成ファイルを準備します。これらのファイルは、解凍されたツール・パッケージ・フォルダーにあります。テキスト・エディターを使用して、以下を更新します。
        • config.yaml
        • dut_config.yaml
      2. config.yaml ファイルで、PLATFORMarm64 に、TargetBaseboard を対応するデバイス・タイプに設定します。次の値を使用します。
        • GB300 NVL (コンピュート・トレイ)
        • GB300 NVSwitchTray (NVLink スイッチ・トレイ)
        • PowerShelfController (パワー・シェルフ)
        次に、SKIP_BMC_SSH_LOGSfalse に設定します。

      3. config.yaml ファイル内で、ターゲットのコンピュート・トレイの BMC IP アドレスと資格情報を更新します。

      4. ホスト・デバイスで以下の 5 つのコマンドを実行し、環境を設定します。
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm
        sudo apt install nvidia-fabricmanager-580
        ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_key
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address>
      5. クライアント・デバイスで次の 2 つのコマンドを実行し、ホスト環境を設定します。
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsm
        sudo apt install nvidia-fabricmanager-580
      6. OpenSSH サーバー・デーモンの構成ファイルを編集するには、次のコマンドを実行します。
        sudo vim /etc/ssh/sshd_config
        次に、以下のパラメーターをファイルに追加します。
        • PubkeyAuthenticationyes
        • AuthorizedKeysFile.ssh/authorized_keys


      7. ホストで次のコマンドを実行して、sudo 構成ファイルを編集します。
        sudo vim /etc/sudoers
        ファイルに次のエントリを追加します。
        nvidiaALL=(ALL) NOPASSWD:ALL


      8. 次のコマンドを使用して、NVDebug ツールを実行します。
        sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .


        単一のコンピュート・トレイのログ収集は、完了するまでに約 10 分かかります。完了後、ツールにより自身のディレクトリ内に ZIP ファイルが生成されます。問題のエスカレーションにはこのファイルを使用してください。