コンピュート・トレイの問題
このセクションでは、FFDC 情報、システム・インベントリー、センサー・ステータスなど、コンピュート・トレイのログを取得する方法について説明します。
GB300 NVL72 ラックで問題が発生した場合、コンピュート・トレイと NVLink スイッチ・トレイの BMC および OS にアクセスできる状態であれば、問題のエスカレーションのために、単一のコンピュート・トレイを介して以下のログを収集してください。
コンピュート・トレイ BMC FFDC ログ
- コンピュート・トレイ BMC 内のページに移動します。
- 「サーバー・データのダウンロード」をクリックし、問題のエスカレーション用の FFDC ログ情報をダウンロードします。これらのログには、単一のコンピュート・トレイの次のデータが含まれています。
- システム・インベントリー情報
- システム・イベント・ログ (SEL)
- センサー・ステータス
図 1. コンピュート・トレイ BMC FFDC ログ


NVDebug ログ
1 個以上のコンピュート・トレイ、NVLink スイッチ・トレイ、またはパワー・シェルフから OOB 診断ログを収集するには、NVDebug ツールを使用します。このツールは、デバイス BMC と接続して、エスカレーション用データをキャプチャーします。実行前に、(ツール・パッケージに含まれている) 構成ファイルをターゲット・デバイスの接続情報で更新します。
NVDebug の詳細については、次の情報を参照してください。
- ハブを介してクライアント・デバイスを、2 本のケーブルを使用してコンピュート・トレイ上の RJ-45 OS 管理ポート (1) と RJ-45 BMC 管理ポート (2) に接続し、トレイを NVDebug ホストとして確立します。

NVOnline からツールをダウンロードし、クライアント・デバイスにコピーします。
- 次の 2 つのコマンドを使用してパッケージを解凍します。
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz注ノート PC 環境では AMD64 を使用します。 - 次のコマンドを使用して、tool_config.yaml ファイルを編集します。
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - デバッグ・ツールを単一のコンピュート・トレイで実行するか、複数のトレイで同時に実行するかを選択します。
- 単一のコンピュート:トレイ:次のコマンドを実行します。
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"注詳細なプラットフォーム・パラメーター定義については、(ツールの ZIP ファイルに含まれている)『NVDebug ユーザー・ガイド』を参照してください。 - 複数のコンピュート・トレイで同時実行:
- まず構成ファイルを準備します。これらのファイルは、解凍されたツール・パッケージ・フォルダーにあります。テキスト・エディターを使用して、以下を更新します。
- config.yaml
- dut_config.yaml
- config.yaml ファイルで、PLATFORM を arm64 に、TargetBaseboard を対応するデバイス・タイプに設定します。次の値を使用します。
- GB300 NVL (コンピュート・トレイ)
- GB300 NVSwitchTray (NVLink スイッチ・トレイ)
- PowerShelfController (パワー・シェルフ)
次に、SKIP_BMC_SSH_LOGS を false に設定します。
- config.yaml ファイル内で、ターゲットのコンピュート・トレイの BMC IP アドレスと資格情報を更新します。

- ホスト・デバイスで以下の 5 つのコマンドを実行し、環境を設定します。
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - クライアント・デバイスで次の 2 つのコマンドを実行し、ホスト環境を設定します。
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - OpenSSH サーバー・デーモンの構成ファイルを編集するには、次のコマンドを実行します。
sudo vim /etc/ssh/sshd_config次に、以下のパラメーターをファイルに追加します。- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- ホストで次のコマンドを実行して、sudo 構成ファイルを編集します。
sudo vim /etc/sudoersファイルに次のエントリを追加します。nvidiaALL=(ALL) NOPASSWD:ALL
- 次のコマンドを使用して、NVDebug ツールを実行します。
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
注単一のコンピュート・トレイのログ収集は、完了するまでに約 10 分かかります。完了後、ツールにより自身のディレクトリ内に ZIP ファイルが生成されます。問題のエスカレーションにはこのファイルを使用してください。
フィードバックを送る