Raccolta dei dati di servizio
Per individuare con precisione la causa principale di un problema relativo alla soluzione rack in autonomia o su richiesta del supporto Lenovo, può essere necessario raccogliere dati di servizio da usare per ulteriori analisi. I dati di servizio includono informazioni quali i log eventi e l'inventario hardware.
Log FFDC del BMC del vassoio di elaborazione
- Passare alla pagina all'interno del BMC del vassoio di elaborazione.
- Fare clic su Scarica dati server per scaricare i log FFDC per la riassegnazione del problema. Questi log contengono i dati seguenti per un singolo vassoio di elaborazione:
- Informazioni sull'inventario del sistema
- Log eventi di sistema (SEL)
- Stato dei sensori

Log NVDebug
Usare lo strumento NVDebug per raccogliere i log di diagnostica OOB da uno o più vassoi di elaborazione, vassoi per switch NVLink o ripiani di alimentazione. Lo strumento si interfaccia con il BMC del dispositivo per acquisire i dati per la riassegnazione del problema. Prima dell'esecuzione, aggiornare il file di configurazione (incluso nel pacchetto dello strumento) con le informazioni di connessione del dispositivo di destinazione.
- Collegare un dispositivo client tramite un hub alla porta RJ-45 di gestione del sistema operativo (1) e alla porta RJ-45 di gestione del BMC (2) su un vassoio di elaborazione usando due cavi per configurare il vassoio come host NVDebug.

Scaricare lo strumento da NVOnline e copiarlo nel dispositivo client.
- Decomprimere il pacchetto tramite questi due comandi:
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gzNotaUsare AMD64 per gli ambienti notebook. - Modificare il file tool_config.yaml tramite questi comandi:
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - Scegliere se eseguire lo strumento di debug su un singolo vassoio di elaborazione o su più vassoi contemporaneamente:
- Singolo vassoio di elaborazione:Eseguire questo comando:
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"NotaConsultare la Guida per l'utente di NVDebug (inclusa nel file ZIP dello strumento) per informazioni complete sulle definizioni dei parametri della piattaforma. - Più vassoi di elaborazione contemporaneamente:
- Preparare prima di tutto i file di configurazione. Questi file si trovano nella cartella decompressa del pacchetto dello strumento. Usare un editor di testo per aggiornare gli elementi seguenti:
- config.yaml
- dut_config.yaml
- Nel file config.yaml impostare PLATFORM su arm64 e TargetBaseboard sul tipo di dispositivo corrispondente. Usare i valori seguenti:
- GB300 NVL per i vassoi di elaborazione
- GB300 NVSwitchTray per i vassoi per switch NVLink
- PowerShelfController per i ripiani di alimentazione
Impostare quindi SKIP_BMC_SSH_LOGS su false.
- Nel file config.yaml aggiornare l'indirizzo IP del BMC e le credenziali per il vassoio di elaborazione di destinazione.

- Eseguire i cinque comandi seguenti sul dispositivo host per configurare l'ambiente:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - Eseguire i due comandi seguenti sul dispositivo client per configurare l'ambiente host:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - Eseguire questo comando per modificare il file di configurazione del daemon del server OpenSSH:
sudo vim /etc/ssh/sshd_configAggiungere quindi i parametri seguenti al file:- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- Nell'host eseguire questo comando per modificare il file di configurazione sudo:
sudo vim /etc/sudoersAggiungere questa voce al file:nvidiaALL=(ALL) NOPASSWD:ALL
- Eseguire lo strumento NVDebug tramite questo comando:
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
NotaLa raccolta dei log per un singolo vassoio di elaborazione richiede circa dieci minuti. Al termine, lo strumento genera un file ZIP all'interno della propria directory. Usare questo file per la riassegnazione del problema.