Recopilación de datos de servicio
Para identificar claramente la causa raíz de un problema de solución de bastidor o para atender a una petición del soporte de Lenovo, es posible que deba recopilar datos de servicio que se pueden utilizar para un análisis posterior. Los datos de servicio incluyen información como registros de eventos e inventario de hardware.
Registros de FFDC del BMC de la bandeja de computación
- Navegue a la página dentro del BMC de la bandeja de computación.
- Haga clic en Descargar datos del servidor para descargar la información de los registros de FFDC para escalar el problema. Estos registros contienen los siguientes datos para una sola bandeja de computación:
- Información del inventario del sistema
- Registros de eventos del sistema (SEL)
- Estado de los sensores

Registros de NVDebug
Utilice la herramienta NVDebug para recopilar registros de diagnóstico OOB de una o más bandejas de computación, bandejas del conmutador NVLink o estantes de alimentación. La herramienta interactúa con el BMC del dispositivo para capturar datos para su escalación. Antes de la ejecución, actualice el archivo de configuración (incluido en el paquete de herramientas) con la información de conexión del dispositivo de destino.
- Conecte un dispositivo cliente mediante un concentrador a los puertos de gestión RJ-45 del sistema operativo (1) y del BMC (2) en una bandeja de computación con dos cables para establecer la bandeja como el host de NVDebug.

Descargue la herramienta desde NVOnline y cópiela al dispositivo cliente.
- Descomprima el paquete con los dos comandos siguientes:
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gzNotaUtilice el AMD64 para entornos de equipos portátiles. - Edite el archivo tool_config.yaml con los siguientes comandos:
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - Elija ejecutar la herramienta de depuración en una sola bandeja de computación o en varias bandejas de forma simultánea:
- Bandeja de computación única:Ejecute el siguiente comando:
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"NotaConsulte la Guía del usuario de NVDebug (que se encuentra en el archivo ZIP de la herramienta) para obtener definiciones completas de los parámetros de la plataforma. - Varias bandejas de computación a la vez:
- Prepare primero los archivos de configuración. Estos archivos se encuentran en la carpeta del paquete descomprimido de la herramienta. Utilice un editor de texto para actualizar lo siguiente:
- config.yaml
- dut_config.yaml
- En el archivo config.yaml, establezca PLATFORM en arm64 y TargetBaseboard en el tipo de dispositivo correspondiente. Utilice los siguientes valores:
- GB300 NVL para bandejas de computación
- GB300 NVSwitchTray para bandejas del conmutador NVLink
- PowerShelfController para estantes de alimentación
Luego, establezca SKIP_BMC_SSH_LOGS en false.
- En el archivo config.yaml, actualice la dirección IP del BMC y las credenciales para la bandeja de computación de destino.

- En el dispositivo host, ejecute los siguientes cinco comandos para configurar el entorno:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - Ejecute los siguientes dos comandos en el dispositivo cliente para configurar el entorno del host:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - Ejecute el siguiente comando para editar el archivo de configuración del demonio del servidor OpenSSH:
sudo vim /etc/ssh/sshd_configA continuación, añada los siguientes parámetros al archivo:- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- En el host, ejecute el siguiente comando para editar el archivo de configuración de sudo:
sudo vim /etc/sudoersAñada la siguiente entrada al archivo:nvidiaALL=(ALL) NOPASSWD:ALL
- Ejecute la herramienta NVDebug con el siguiente comando:
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
NotaLa recopilación de registros para una sola bandeja de computación tarda aproximadamente diez minutos en completarse. Al finalizar, la herramienta genera un archivo ZIP dentro de su directorio. Utilice este archivo para escalar el problema.