Problemi relativi al vassoio di elaborazione
Questa sezione fornisce istruzioni per l'acquisizione dei log del vassoio di elaborazione, tra cui i dati FFDC, l'inventario del sistema e lo stato dei sensori.
Quando si verifica un problema in un rack GB300 NVL72, se il BMC e il sistema operativo del vassoio di elaborazione e del vassoio per switch NVLink restano accessibili, raccogliere i log seguenti tramite un singolo vassoio di elaborazione per consentire la riassegnazione del problema.
Log FFDC del BMC del vassoio di elaborazione
- Passare alla pagina all'interno del BMC del vassoio di elaborazione.
- Fare clic su Scarica dati server per scaricare i log FFDC per la riassegnazione del problema. Questi log contengono i dati seguenti per un singolo vassoio di elaborazione:
- Informazioni sull'inventario del sistema
- Log eventi di sistema (SEL)
- Stato dei sensori
Figura 1. Log FFDC del BMC del vassoio di elaborazione


Log NVDebug
Usare lo strumento NVDebug per raccogliere i log di diagnostica OOB da uno o più vassoi di elaborazione, vassoi per switch NVLink o ripiani di alimentazione. Lo strumento si interfaccia con il BMC del dispositivo per acquisire i dati per la riassegnazione del problema. Prima dell'esecuzione, aggiornare il file di configurazione (incluso nel pacchetto dello strumento) con le informazioni di connessione del dispositivo di destinazione.
Per altre informazioni su NVDebug, consultare le informazioni seguenti:
- Collegare un dispositivo client tramite un hub alla porta RJ-45 di gestione del sistema operativo (1) e alla porta RJ-45 di gestione del BMC (2) su un vassoio di elaborazione usando due cavi per configurare il vassoio come host NVDebug.

Scaricare lo strumento da NVOnline e copiarlo nel dispositivo client.
- Decomprimere il pacchetto tramite questi due comandi:
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gzNotaUsare AMD64 per gli ambienti notebook. - Modificare il file tool_config.yaml tramite questi comandi:
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - Scegliere se eseguire lo strumento di debug su un singolo vassoio di elaborazione o su più vassoi contemporaneamente:
- Singolo vassoio di elaborazione:Eseguire questo comando:
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"NotaConsultare la Guida per l'utente di NVDebug (inclusa nel file ZIP dello strumento) per informazioni complete sulle definizioni dei parametri della piattaforma. - Più vassoi di elaborazione contemporaneamente:
- Preparare prima di tutto i file di configurazione. Questi file si trovano nella cartella decompressa del pacchetto dello strumento. Usare un editor di testo per aggiornare gli elementi seguenti:
- config.yaml
- dut_config.yaml
- Nel file config.yaml impostare PLATFORM su arm64 e TargetBaseboard sul tipo di dispositivo corrispondente. Usare i valori seguenti:
- GB300 NVL per i vassoi di elaborazione
- GB300 NVSwitchTray per i vassoi per switch NVLink
- PowerShelfController per i ripiani di alimentazione
Impostare quindi SKIP_BMC_SSH_LOGS su false.
- Nel file config.yaml aggiornare l'indirizzo IP del BMC e le credenziali per il vassoio di elaborazione di destinazione.

- Eseguire i cinque comandi seguenti sul dispositivo host per configurare l'ambiente:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - Eseguire i due comandi seguenti sul dispositivo client per configurare l'ambiente host:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - Eseguire questo comando per modificare il file di configurazione del daemon del server OpenSSH:
sudo vim /etc/ssh/sshd_configAggiungere quindi i parametri seguenti al file:- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- Nell'host eseguire questo comando per modificare il file di configurazione sudo:
sudo vim /etc/sudoersAggiungere questa voce al file:nvidiaALL=(ALL) NOPASSWD:ALL
- Eseguire lo strumento NVDebug tramite questo comando:
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
NotaLa raccolta dei log per un singolo vassoio di elaborazione richiede circa dieci minuti. Al termine, lo strumento genera un file ZIP all'interno della propria directory. Usare questo file per la riassegnazione del problema.
Envoyer des commentaires