Aller au contenu principal

Collecte des données de maintenance

Afin d’identifier clairement la cause principale d’un problème lié à la solution avec armoire, ou à la demande du support Lenovo, vous devrez peut-être recueillir des données de maintenance pouvant être utilisées dans le cadre d’une analyse plus approfondie. Les données de maintenance contiennent des informations telles que les journaux des événements et l’inventaire matériel.

Les données de maintenance peuvent être collectées avec les outils suivants :

Journaux FFDC du BMC du plateau de calcul

  1. Accédez à la page Maintenance > Enregistrer les données du serveur dans le BMC du plateau de calcul.
  2. Cliquez sur Télécharger les données du serveur afin de télécharger les informations du journal FFDC pour faire remonter les problèmes. Ces journaux contiennent les données suivantes pour un seul plateau de calcul :
    • Informations sur l’inventaire du système
    • Journal des événements système (SEL)
    • État du capteur
Figure 1. Journaux FFDC du BMC du plateau de calcul
Compute tray BMC FFDC logs

Journaux de NVDebug

Utilisez l’outil NVDebug afin de collecter des journaux de diagnostic hors bande à partir d’un ou de plusieurs plateaux de calcul, plateaux du commutateur NVLink ou étagères d’alimentation. L’outil se connecte au BMC de l’appareil afin de capturer les données en vue de faire remonter des informations. Avant l’exécution, mettez à jour le fichier de configuration (dans le module d’outils) grâce aux informations de connexion du dispositif cible.

  1. Reliez un appareil client par le biais d’un hub au port de gestion du système d’exploitation RJ-45 (1) et au port de gestion BMC RJ-45 (2) sur un plateau de calcul à l’aide de deux câbles, pour en faire l’hôte NVDebug.
    RJ-45 BMC and OS management ports
  2. Téléchargez l’outil depuis NVOnline et copiez-le sur l’appareil client.

  3. Utilisez les deux commandes suivantes pour décompresser le module :
    sudo unzip <NV Debug tool file name>.zip
    sudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz
    Remarque
    Utilisez AMD64 pour les appareils portables.
  4. Utilisez les commandes suivantes pour modifier le fichier tool_config.yaml :
    vim tool_config.yaml
    SKIP_BMC_SSH_LOGS: false
  5. Exécutez l’outil de débogage sur un seul plateau de calcul ou sur plusieurs plateaux en même temps :
    • Sur un seul plateau de calcul :Exécutez la commande suivante :
      sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"
      Remarque
      Consultez le Guide d’utilisation de NVDebug (dans le fichier ZIP de l’outil) pour en savoir plus sur les paramètres de la plateforme.
    • Sur plusieurs plateaux de calcul en même temps :
      1. Préparez d’abord les fichiers de configuration. Ces fichiers sont dans le dossier du module d’outils décompressé. Utilisez un éditeur de texte afin de mettre à jour les éléments suivants :
        • config.yaml
        • dut_config.yaml
      2. Dans le fichier config.yaml, définissez PLATFORM sur arm64 et TargetBaseboard sur le type d’appareil correspondant. Utilisez les valeurs suivantes :
        • GB300 NVL pour les plateaux de calcul
        • GB300 NVSwitchTray pour les plateaux du commutateur NVLink
        • PowerShelfController pour les étagères d’alimentation
        Ensuite, définissez SKIP_BMC_SSH_LOGS sur false.

      3. Dans le fichier config.yaml, mettez à jour l’adresse IP BMC et les informations d’identification pour le plateau de calcul cible.

      4. Exécutez les cinq commandes suivantes sur le périphérique hôte afin de configurer l’environnement :
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm
        sudo apt install nvidia-fabricmanager-580
        ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_key
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address>
      5. Exécutez les deux commandes ci-après sur la machine cliente pour configurer l’environnement hôte :
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsm
        sudo apt install nvidia-fabricmanager-580
      6. Exécutez la commande suivante afin de modifier le fichier de configuration du daemon serveur OpenSSH :
        sudo vim /etc/ssh/sshd_config
        Ajoutez ensuite les paramètres suivants au fichier :
        • PubkeyAuthenticationyes
        • AuthorizedKeysFile.ssh/authorized_keys


      7. Sur l’hôte, exécutez la commande suivante afin de modifier le fichier de configuration sudo :
        sudo vim /etc/sudoers
        Ajoutez l’entrée suivante au fichier :
        nvidiaALL=(ALL) NOPASSWD:ALL


      8. Utilisez la commande suivante pour exécuter l’outil NVDebug :
        sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .


        Remarque
        La collecte des journaux pour un seul plateau de calcul prend environ dix minutes. Une fois la collecte terminée, l’outil génère un fichier ZIP dans son répertoire. Utilisez-le pour faire remonter les problèmes.