Pular para o conteúdo principal

Coletando dados de serviço

Para identificar claramente a causa raiz de um problema em uma solução de rack ou mediante solicitação do Suporte Lenovo, talvez seja necessário coletar dados de serviço que podem ser usados para análise técnica posterior. Os dados de serviço incluem informações como logs de eventos e inventário de hardware.

Os dados de serviço podem ser coletados pelas seguintes ferramentas:

Logs FFDC do BMC da bandeja de computação

  1. Acesse a página Manutenção > Salvar dados do servidor no BMC da bandeja de computação.
  2. Clique em Baixar dados do servidor para baixar os logs FFDC para encaminhamento de problemas. Esses logs incluem as seguintes informações para uma única bandeja de computação:
    • Informações de inventário do sistema
    • Log de eventos do sistema (SEL)
    • Status do sensor
Figura 1. Logs FFDC do BMC da bandeja de computação
Compute tray BMC FFDC logs

Logs de NVDebug

Use a ferramenta NVDebug para coletar logs de diagnóstico OOB de uma ou mais bandejas de computação, bandejas de comutador NVLink ou prateleiras de energia. A ferramenta faz interface com o BMC do dispositivo para capturar dados para encaminhamento. Antes de executar, atualize o arquivo de configuração (incluído no pacote da ferramenta) com as informações de conexão do dispositivo de destino.

Para obter mais informações sobre o NVDebug, consulte as seguintes informações:
  1. Conecte um dispositivo cliente via um hub à porta de gerenciamento RJ-45 do sistema operacional (1) e à porta de gerenciamento RJ-45 do BMC (2) em uma bandeja de computação usando dois cabos para estabelecer a bandeja como o host do NVDebug.
    RJ-45 BMC and OS management ports
  2. Baixe a ferramenta em NVOnline e copie-a para o dispositivo cliente.

  3. Descompacte o pacote com estes dois comandos:
    sudo unzip <NV Debug tool file name>.zip
    sudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz
    Nota
    Use o AMD64 para ambientes de notebook.
  4. Edite o arquivo tool_config.yaml com os seguintes comandos:
    vim tool_config.yaml
    SKIP_BMC_SSH_LOGS: false
  5. Escolha executar a ferramenta de depuração em apenas uma bandeja de computação ou em várias bandejas simultaneamente:
    • Bandeja de computação única:Execute o seguinte comando:
      sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"
      Nota
      Consulte o Guia do Usuário do NVDebug (localizado no arquivo ZIP da ferramenta) para definições completas dos parâmetros da plataforma.
    • Várias bandejas de computação simultaneamente:
      1. Primeiro, prepare os arquivos de configuração. Esses arquivos estão localizados na pasta do pacote de ferramentas descompactado. Use um editor de texto para atualizar os seguintes itens:
        • config.yaml
        • dut_config.yaml
      2. No arquivo config.yaml, defina PLATFORM como arm64 e TargetBaseboard como o tipo de dispositivo correspondente. Utilize os seguintes valores:
        • GB300 NVL para bandejas de computação
        • GB300 NVSwitchTray para bandejas de comutador NVLink
        • PowerShelfController para prateleiras de energia
        Em seguida, defina SKIP_BMC_SSH_LOGS como false.

      3. No arquivo config.yaml, atualize o endereço IP do BMC e as credenciais para a bandeja de computação de destino.

      4. No dispositivo host, execute estes cinco comandos para configurar o ambiente:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm
        sudo apt install nvidia-fabricmanager-580
        ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_key
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address>
      5. Execute os dois comandos abaixo no dispositivo cliente para configurar o ambiente do host:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsm
        sudo apt install nvidia-fabricmanager-580
      6. Execute o seguinte comando para editar o arquivo de configuração do daemon do servidor OpenSSH:
        sudo vim /etc/ssh/sshd_config
        Em seguida, adicione os seguintes parâmetros ao arquivo:
        • PubkeyAuthenticationyes
        • AuthorizedKeysFile.ssh/authorized_keys


      7. No host, execute o seguinte comando para editar o arquivo de configuração sudo:
        sudo vim /etc/sudoers
        Adicione a seguinte entrada ao arquivo:
        nvidiaALL=(ALL) NOPASSWD:ALL


      8. Execute o NVDebug com o seguinte comando:
        sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .


        Nota
        A coleta de logs para uma única bandeja de computação leva aproximadamente dez minutos para ser concluída. Ao concluir, a ferramenta gera um arquivo ZIP dentro de seu diretório; utilize este arquivo para o encaminhamento de problemas.