Servicedaten erfassen
Um die Ursache eines Rack-Lösungsproblems eindeutig ausmachen zu können, oder auch auf Anforderung des Lenovo Supports hin müssen Sie möglicherweise Servicedaten erfassen, die für weiterführende Analysen verwendet werden können. Servicedaten enthalten Informationen wie Ereignisprotokolle und Hardwarebestand.
FFDC-Protokolle des Einbaurahmen-BMC
- Navigieren Sie zur Seite im Einbaurahmen-BMC.
- Klicken Sie auf Serverdaten herunterladen, um FFDC-Protokolle für die Problemeskalation herunterzuladen. Diese Protokolle enthalten die folgenden Daten für einen einzelnen Einbaurahmen:
- Informationen zum Systembestand
- System-Ereignisprotokolle (SEL)
- Sensorstatus

NVDebug-Protokolle
Verwenden Sie das NVDebug-Tool, um OOB-Diagnoseprotokolle von einem oder mehreren Einbaurahmen, NVLink-Switch-Einbaurahmen oder Stromversorgungseinschüben zu sammeln. Das Tool stellt eine Schnittstelle zum BMC des Geräts her, um Daten für die Eskalation zu erfassen. Aktualisieren Sie vor der Ausführung die Konfigurationsdatei (im Toolpaket enthalten) mit den Verbindungsinformationen des Zielgeräts.
- Schließen Sie ein Client-Gerät über einen Hub mit zwei Kabeln an den RJ-45 BS-Verwaltungsanschluss (1) und an den RJ-45 BMC-Verwaltungsanschluss (2) eines Einbaurahmens an, um den Einbaurahmen als NVDebug-Host zu konfigurieren.

Laden Sie das Tool von NVOnline herunter und kopieren Sie es auf das Client-Gerät.
- Entpacken Sie das Paket mit den folgenden zwei Befehlen:
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gzAnmerkungVerwenden Sie die AMD64-Version für Laptop-Umgebungen. - Bearbeiten Sie die Datei tool_config.yaml mit den folgenden Befehlen:
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - Wählen Sie aus, ob Sie das Debug-Tool auf einem einzelnen Einbaurahmen oder auf mehreren Einbaurahmen gleichzeitig ausführen möchten:
- Einzelner Einbaurahmen:Führen Sie den folgenden Befehl aus:
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"AnmerkungSiehe NVDebug-Benutzerhandbuch (in der ZIP-Datei des Tools enthalten) für vollständige Definitionen der Plattformparameter. - Mehrere Einbaurahmen gleichzeitig:
- Bereiten Sie zunächst die Konfigurationsdateien vor. Diese Dateien befinden sich im entpackten Ordner des Tool-Pakets. Verwenden Sie einen Texteditor, um Folgendes zu aktualisieren:
- config.yaml
- dut_config.yaml
- Setzen Sie in der config.yaml-Datei PLATFORM auf arm64 und TargetBaseboard auf den entsprechenden Gerätetyp. Verwenden Sie die folgenden Werte:
- GB300 NVL für Einbaurahmen
- GB300 NVSwitchTray für NVLink-Switch-Einbaurahmen
- PowerShelfController für Stromversorgungseinschübe
Setzen Sie dann SKIP_BMC_SSH_LOGS auf false.
- Aktualisieren Sie in der config.yaml-Datei die BMC-IP-Adresse und die Anmeldeinformationen für den Ziel-Einbaurahmen.

- Führen Sie die folgenden fünf Befehle auf dem Host aus, um die Umgebung einzurichten:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - Führen Sie die folgenden zwei Befehle auf dem Client aus, um die Host-Umgebung einzurichten:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - Führen Sie den folgenden Befehl aus, um die OpenSSH-Server-Daemon-Konfigurationsdatei zu bearbeiten:
sudo vim /etc/ssh/sshd_configFügen Sie anschließend die folgenden Parameter zur Datei hinzu:- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- Führen Sie auf dem Host den folgenden Befehl aus, um die sudo-Konfigurationsdatei zu bearbeiten:
sudo vim /etc/sudoersFügen Sie den folgenden Eintrag in die Datei ein:nvidiaALL=(ALL) NOPASSWD:ALL
- Verwenden Sie den folgenden Befehl, um das NVDebug-Tool auszuführen:
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
AnmerkungDie Protokollerfassung für einen einzelnen Einbaurahmen nimmt etwa zehn Minuten in Anspruch. Nach Abschluss des Vorgangs generiert das Tool eine ZIP-Datei in seinem Verzeichnis. Verwenden Sie diese Datei zur Eskalation des Problems.