Saltar al contenido principal

Problemas de la bandeja de computación

Esta sección proporciona instrucciones para capturar los registros de la bandeja de computación, incluida la información de FFDC, el inventario del sistema y el estado de los sensores.

Cuando se produce un problema en un bastidor GB300 NVL72, si el BMC y el SO de la bandeja del conmutador NVLink y la bandeja de computación siguen siendo accesibles, recopile los siguientes registros mediante una sola bandeja de computación para escalar el problema:

Registros de FFDC del BMC de la bandeja de computación

  1. Navegue a la página Mantenimiento > Guardar datos del servidor dentro del BMC de la bandeja de computación.
  2. Haga clic en Descargar datos del servidor para descargar la información de los registros de FFDC para escalar el problema. Estos registros contienen los siguientes datos para una sola bandeja de computación:
    • Información del inventario del sistema
    • Registros de eventos del sistema (SEL)
    • Estado de los sensores
Figura 1. Registros de FFDC del BMC de la bandeja de computación
Compute tray BMC FFDC logs

Registros de NVDebug

Utilice la herramienta NVDebug para recopilar registros de diagnóstico OOB de una o más bandejas de computación, bandejas del conmutador NVLink o estantes de alimentación. La herramienta interactúa con el BMC del dispositivo para capturar datos para su escalación. Antes de la ejecución, actualice el archivo de configuración (incluido en el paquete de herramientas) con la información de conexión del dispositivo de destino.

Para obtener más información sobre NVDebug, consulte la siguiente información:
  1. Conecte un dispositivo cliente mediante un concentrador a los puertos de gestión RJ-45 del sistema operativo (1) y del BMC (2) en una bandeja de computación con dos cables para establecer la bandeja como el host de NVDebug.
    RJ-45 BMC and OS management ports
  2. Descargue la herramienta desde NVOnline y cópiela al dispositivo cliente.

  3. Descomprima el paquete con los dos comandos siguientes:
    sudo unzip <NV Debug tool file name>.zip
    sudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz
    Nota
    Utilice el AMD64 para entornos de equipos portátiles.
  4. Edite el archivo tool_config.yaml con los siguientes comandos:
    vim tool_config.yaml
    SKIP_BMC_SSH_LOGS: false
  5. Elija ejecutar la herramienta de depuración en una sola bandeja de computación o en varias bandejas de forma simultánea:
    • Bandeja de computación única:Ejecute el siguiente comando:
      sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"
      Nota
      Consulte la Guía del usuario de NVDebug (que se encuentra en el archivo ZIP de la herramienta) para obtener definiciones completas de los parámetros de la plataforma.
    • Varias bandejas de computación a la vez:
      1. Prepare primero los archivos de configuración. Estos archivos se encuentran en la carpeta del paquete descomprimido de la herramienta. Utilice un editor de texto para actualizar lo siguiente:
        • config.yaml
        • dut_config.yaml
      2. En el archivo config.yaml, establezca PLATFORM en arm64 y TargetBaseboard en el tipo de dispositivo correspondiente. Utilice los siguientes valores:
        • GB300 NVL para bandejas de computación
        • GB300 NVSwitchTray para bandejas del conmutador NVLink
        • PowerShelfController para estantes de alimentación
        Luego, establezca SKIP_BMC_SSH_LOGS en false.

      3. En el archivo config.yaml, actualice la dirección IP del BMC y las credenciales para la bandeja de computación de destino.

      4. En el dispositivo host, ejecute los siguientes cinco comandos para configurar el entorno:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm
        sudo apt install nvidia-fabricmanager-580
        ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_key
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address>
      5. Ejecute los siguientes dos comandos en el dispositivo cliente para configurar el entorno del host:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsm
        sudo apt install nvidia-fabricmanager-580
      6. Ejecute el siguiente comando para editar el archivo de configuración del demonio del servidor OpenSSH:
        sudo vim /etc/ssh/sshd_config
        A continuación, añada los siguientes parámetros al archivo:
        • PubkeyAuthenticationyes
        • AuthorizedKeysFile.ssh/authorized_keys


      7. En el host, ejecute el siguiente comando para editar el archivo de configuración de sudo:
        sudo vim /etc/sudoers
        Añada la siguiente entrada al archivo:
        nvidiaALL=(ALL) NOPASSWD:ALL


      8. Ejecute la herramienta NVDebug con el siguiente comando:
        sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .


        Nota
        La recopilación de registros para una sola bandeja de computación tarda aproximadamente diez minutos en completarse. Al finalizar, la herramienta genera un archivo ZIP dentro de su directorio. Utilice este archivo para escalar el problema.