Coletando dados de serviço
Para identificar claramente a causa raiz de um problema em uma solução de rack ou mediante solicitação do Suporte Lenovo, talvez seja necessário coletar dados de serviço que podem ser usados para análise técnica posterior. Os dados de serviço incluem informações como logs de eventos e inventário de hardware.
Logs FFDC do BMC da bandeja de computação
- Acesse a página no BMC da bandeja de computação.
- Clique em Baixar dados do servidor para baixar os logs FFDC para encaminhamento de problemas. Esses logs incluem as seguintes informações para uma única bandeja de computação:
- Informações de inventário do sistema
- Log de eventos do sistema (SEL)
- Status do sensor

Logs de NVDebug
Use a ferramenta NVDebug para coletar logs de diagnóstico OOB de uma ou mais bandejas de computação, bandejas de comutador NVLink ou prateleiras de energia. A ferramenta faz interface com o BMC do dispositivo para capturar dados para encaminhamento. Antes de executar, atualize o arquivo de configuração (incluído no pacote da ferramenta) com as informações de conexão do dispositivo de destino.
- Conecte um dispositivo cliente via um hub à porta de gerenciamento RJ-45 do sistema operacional (1) e à porta de gerenciamento RJ-45 do BMC (2) em uma bandeja de computação usando dois cabos para estabelecer a bandeja como o host do NVDebug.

Baixe a ferramenta em NVOnline e copie-a para o dispositivo cliente.
- Descompacte o pacote com estes dois comandos:
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gzNotaUse o AMD64 para ambientes de notebook. - Edite o arquivo tool_config.yaml com os seguintes comandos:
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - Escolha executar a ferramenta de depuração em apenas uma bandeja de computação ou em várias bandejas simultaneamente:
- Bandeja de computação única:Execute o seguinte comando:
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"NotaConsulte o Guia do Usuário do NVDebug (localizado no arquivo ZIP da ferramenta) para definições completas dos parâmetros da plataforma. - Várias bandejas de computação simultaneamente:
- Primeiro, prepare os arquivos de configuração. Esses arquivos estão localizados na pasta do pacote de ferramentas descompactado. Use um editor de texto para atualizar os seguintes itens:
- config.yaml
- dut_config.yaml
- No arquivo config.yaml, defina PLATFORM como arm64 e TargetBaseboard como o tipo de dispositivo correspondente. Utilize os seguintes valores:
- GB300 NVL para bandejas de computação
- GB300 NVSwitchTray para bandejas de comutador NVLink
- PowerShelfController para prateleiras de energia
Em seguida, defina SKIP_BMC_SSH_LOGS como false.
- No arquivo config.yaml, atualize o endereço IP do BMC e as credenciais para a bandeja de computação de destino.

- No dispositivo host, execute estes cinco comandos para configurar o ambiente:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - Execute os dois comandos abaixo no dispositivo cliente para configurar o ambiente do host:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - Execute o seguinte comando para editar o arquivo de configuração do daemon do servidor OpenSSH:
sudo vim /etc/ssh/sshd_configEm seguida, adicione os seguintes parâmetros ao arquivo:- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- No host, execute o seguinte comando para editar o arquivo de configuração sudo:
sudo vim /etc/sudoersAdicione a seguinte entrada ao arquivo:nvidiaALL=(ALL) NOPASSWD:ALL
- Execute o NVDebug com o seguinte comando:
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
NotaA coleta de logs para uma única bandeja de computação leva aproximadamente dez minutos para ser concluída. Ao concluir, a ferramenta gera um arquivo ZIP dentro de seu diretório; utilize este arquivo para o encaminhamento de problemas.