Saltar al contenido principal

Recopilación de datos de servicio

Para identificar claramente la causa raíz de un problema de solución de bastidor o para atender a una petición del soporte de Lenovo, es posible que deba recopilar datos de servicio que se pueden utilizar para un análisis posterior. Los datos de servicio incluyen información como registros de eventos e inventario de hardware.

Los datos de servicio se pueden recopilar a través de las siguientes herramientas:

Registros de FFDC del BMC de la bandeja de computación

  1. Navegue a la página Mantenimiento > Guardar datos del servidor dentro del BMC de la bandeja de computación.
  2. Haga clic en Descargar datos del servidor para descargar la información de los registros de FFDC para escalar el problema. Estos registros contienen los siguientes datos para una sola bandeja de computación:
    • Información del inventario del sistema
    • Registros de eventos del sistema (SEL)
    • Estado de los sensores
Figura 1. Registros de FFDC del BMC de la bandeja de computación
Compute tray BMC FFDC logs

Registros de NVDebug

Utilice la herramienta NVDebug para recopilar registros de diagnóstico OOB de una o más bandejas de computación, bandejas del conmutador NVLink o estantes de alimentación. La herramienta interactúa con el BMC del dispositivo para capturar datos para su escalación. Antes de la ejecución, actualice el archivo de configuración (incluido en el paquete de herramientas) con la información de conexión del dispositivo de destino.

Para obtener más información sobre NVDebug, consulte la siguiente información:
  1. Conecte un dispositivo cliente mediante un concentrador a los puertos de gestión RJ-45 del sistema operativo (1) y del BMC (2) en una bandeja de computación con dos cables para establecer la bandeja como el host de NVDebug.
    RJ-45 BMC and OS management ports
  2. Descargue la herramienta desde NVOnline y cópiela al dispositivo cliente.

  3. Descomprima el paquete con los dos comandos siguientes:
    sudo unzip <NV Debug tool file name>.zip
    sudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz
    Nota
    Utilice el AMD64 para entornos de equipos portátiles.
  4. Edite el archivo tool_config.yaml con los siguientes comandos:
    vim tool_config.yaml
    SKIP_BMC_SSH_LOGS: false
  5. Elija ejecutar la herramienta de depuración en una sola bandeja de computación o en varias bandejas de forma simultánea:
    • Bandeja de computación única:Ejecute el siguiente comando:
      sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"
      Nota
      Consulte la Guía del usuario de NVDebug (que se encuentra en el archivo ZIP de la herramienta) para obtener definiciones completas de los parámetros de la plataforma.
    • Varias bandejas de computación a la vez:
      1. Prepare primero los archivos de configuración. Estos archivos se encuentran en la carpeta del paquete descomprimido de la herramienta. Utilice un editor de texto para actualizar lo siguiente:
        • config.yaml
        • dut_config.yaml
      2. En el archivo config.yaml, establezca PLATFORM en arm64 y TargetBaseboard en el tipo de dispositivo correspondiente. Utilice los siguientes valores:
        • GB300 NVL para bandejas de computación
        • GB300 NVSwitchTray para bandejas del conmutador NVLink
        • PowerShelfController para estantes de alimentación
        Luego, establezca SKIP_BMC_SSH_LOGS en false.

      3. En el archivo config.yaml, actualice la dirección IP del BMC y las credenciales para la bandeja de computación de destino.

      4. En el dispositivo host, ejecute los siguientes cinco comandos para configurar el entorno:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm
        sudo apt install nvidia-fabricmanager-580
        ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_key
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address>
      5. Ejecute los siguientes dos comandos en el dispositivo cliente para configurar el entorno del host:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsm
        sudo apt install nvidia-fabricmanager-580
      6. Ejecute el siguiente comando para editar el archivo de configuración del demonio del servidor OpenSSH:
        sudo vim /etc/ssh/sshd_config
        A continuación, añada los siguientes parámetros al archivo:
        • PubkeyAuthenticationyes
        • AuthorizedKeysFile.ssh/authorized_keys


      7. En el host, ejecute el siguiente comando para editar el archivo de configuración de sudo:
        sudo vim /etc/sudoers
        Añada la siguiente entrada al archivo:
        nvidiaALL=(ALL) NOPASSWD:ALL


      8. Ejecute la herramienta NVDebug con el siguiente comando:
        sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .


        Nota
        La recopilación de registros para una sola bandeja de computación tarda aproximadamente diez minutos en completarse. Al finalizar, la herramienta genera un archivo ZIP dentro de su directorio. Utilice este archivo para escalar el problema.