Problemas na bandeja de computação
Esta seção fornece instruções para capturar logs da bandeja de computação, incluindo informações FFDC, inventário do sistema e status dos sensores.
Quando ocorrer um problema em um rack GB300 NVL72, se o BMC e o sistema operacional da bandeja de computação e da bandeja do comutador NVLink permanecerem acessíveis, você deverá coletar os seguintes logs por meio de uma única bandeja de computação para encaminhamento do problema:
Logs FFDC do BMC da bandeja de computação
- Acesse a página no BMC da bandeja de computação.
- Clique em Baixar dados do servidor para baixar os logs FFDC para encaminhamento de problemas. Esses logs incluem as seguintes informações para uma única bandeja de computação:
- Informações de inventário do sistema
- Log de eventos do sistema (SEL)
- Status do sensor
Figura 1. Logs FFDC do BMC da bandeja de computação


Logs de NVDebug
Use a ferramenta NVDebug para coletar logs de diagnóstico OOB de uma ou mais bandejas de computação, bandejas de comutador NVLink ou prateleiras de energia. A ferramenta faz interface com o BMC do dispositivo para capturar dados para encaminhamento. Antes de executar, atualize o arquivo de configuração (incluído no pacote da ferramenta) com as informações de conexão do dispositivo de destino.
Para obter mais informações sobre o NVDebug, consulte as seguintes informações:
- Conecte um dispositivo cliente via um hub à porta de gerenciamento RJ-45 do sistema operacional (1) e à porta de gerenciamento RJ-45 do BMC (2) em uma bandeja de computação usando dois cabos para estabelecer a bandeja como o host do NVDebug.

Baixe a ferramenta em NVOnline e copie-a para o dispositivo cliente.
- Descompacte o pacote com estes dois comandos:
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gzNotaUse o AMD64 para ambientes de notebook. - Edite o arquivo tool_config.yaml com os seguintes comandos:
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - Escolha executar a ferramenta de depuração em apenas uma bandeja de computação ou em várias bandejas simultaneamente:
- Bandeja de computação única:Execute o seguinte comando:
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"NotaConsulte o Guia do Usuário do NVDebug (localizado no arquivo ZIP da ferramenta) para definições completas dos parâmetros da plataforma. - Várias bandejas de computação simultaneamente:
- Primeiro, prepare os arquivos de configuração. Esses arquivos estão localizados na pasta do pacote de ferramentas descompactado. Use um editor de texto para atualizar os seguintes itens:
- config.yaml
- dut_config.yaml
- No arquivo config.yaml, defina PLATFORM como arm64 e TargetBaseboard como o tipo de dispositivo correspondente. Utilize os seguintes valores:
- GB300 NVL para bandejas de computação
- GB300 NVSwitchTray para bandejas de comutador NVLink
- PowerShelfController para prateleiras de energia
Em seguida, defina SKIP_BMC_SSH_LOGS como false.
- No arquivo config.yaml, atualize o endereço IP do BMC e as credenciais para a bandeja de computação de destino.

- No dispositivo host, execute estes cinco comandos para configurar o ambiente:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - Execute os dois comandos abaixo no dispositivo cliente para configurar o ambiente do host:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - Execute o seguinte comando para editar o arquivo de configuração do daemon do servidor OpenSSH:
sudo vim /etc/ssh/sshd_configEm seguida, adicione os seguintes parâmetros ao arquivo:- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- No host, execute o seguinte comando para editar o arquivo de configuração sudo:
sudo vim /etc/sudoersAdicione a seguinte entrada ao arquivo:nvidiaALL=(ALL) NOPASSWD:ALL
- Execute o NVDebug com o seguinte comando:
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
NotaA coleta de logs para uma única bandeja de computação leva aproximadamente dez minutos para ser concluída. Ao concluir, a ferramenta gera um arquivo ZIP dentro de seu diretório; utilize este arquivo para o encaminhamento de problemas.
Enviar feedback