Zum Hauptinhalt springen

Probleme mit dem Einbaurahmen

Dieser Abschnitt enthält Anweisungen zum Erfassen von Einbaurahmen-Protokollen, einschließlich FFDC-Informationen, Systembestand und Sensorstatus.

Wenn in einem GB300 NVL72-Rack ein Problem auftritt und der Einbaurahmen sowie der NVLink-Switch-Einbaurahmen-BMC und das Betriebssystem weiterhin zugänglich sind, erfassen Sie die folgenden Protokolle über einen einzelnen Einbaurahmen zur Problemeskalation:

FFDC-Protokolle des Einbaurahmen-BMC

  1. Navigieren Sie zur Seite Wartung > Serverdaten speichern im Einbaurahmen-BMC.
  2. Klicken Sie auf Serverdaten herunterladen, um FFDC-Protokolle für die Problemeskalation herunterzuladen. Diese Protokolle enthalten die folgenden Daten für einen einzelnen Einbaurahmen:
    • Informationen zum Systembestand
    • System-Ereignisprotokolle (SEL)
    • Sensorstatus
Abbildung 1. FFDC-Protokolle des Einbaurahmen-BMC
Compute tray BMC FFDC logs

NVDebug-Protokolle

Verwenden Sie das NVDebug-Tool, um OOB-Diagnoseprotokolle von einem oder mehreren Einbaurahmen, NVLink-Switch-Einbaurahmen oder Stromversorgungseinschüben zu sammeln. Das Tool stellt eine Schnittstelle zum BMC des Geräts her, um Daten für die Eskalation zu erfassen. Aktualisieren Sie vor der Ausführung die Konfigurationsdatei (im Toolpaket enthalten) mit den Verbindungsinformationen des Zielgeräts.

  1. Schließen Sie ein Client-Gerät über einen Hub mit zwei Kabeln an den RJ-45 BS-Verwaltungsanschluss (1) und an den RJ-45 BMC-Verwaltungsanschluss (2) eines Einbaurahmens an, um den Einbaurahmen als NVDebug-Host zu konfigurieren.
    RJ-45 BMC and OS management ports
  2. Laden Sie das Tool von NVOnline herunter und kopieren Sie es auf das Client-Gerät.

  3. Entpacken Sie das Paket mit den folgenden zwei Befehlen:
    sudo unzip <NV Debug tool file name>.zip
    sudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz
    Anmerkung
    Verwenden Sie die AMD64-Version für Laptop-Umgebungen.
  4. Bearbeiten Sie die Datei tool_config.yaml mit den folgenden Befehlen:
    vim tool_config.yaml
    SKIP_BMC_SSH_LOGS: false
  5. Wählen Sie aus, ob Sie das Debug-Tool auf einem einzelnen Einbaurahmen oder auf mehreren Einbaurahmen gleichzeitig ausführen möchten:
    • Einzelner Einbaurahmen:Führen Sie den folgenden Befehl aus:
      sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"
      Anmerkung
      Siehe NVDebug-Benutzerhandbuch (in der ZIP-Datei des Tools enthalten) für vollständige Definitionen der Plattformparameter.
    • Mehrere Einbaurahmen gleichzeitig:
      1. Bereiten Sie zunächst die Konfigurationsdateien vor. Diese Dateien befinden sich im entpackten Ordner des Tool-Pakets. Verwenden Sie einen Texteditor, um Folgendes zu aktualisieren:
        • config.yaml
        • dut_config.yaml
      2. Setzen Sie in der config.yaml-Datei PLATFORM auf arm64 und TargetBaseboard auf den entsprechenden Gerätetyp. Verwenden Sie die folgenden Werte:
        • GB300 NVL für Einbaurahmen
        • GB300 NVSwitchTray für NVLink-Switch-Einbaurahmen
        • PowerShelfController für Stromversorgungseinschübe
        Setzen Sie dann SKIP_BMC_SSH_LOGS auf false.

      3. Aktualisieren Sie in der config.yaml-Datei die BMC-IP-Adresse und die Anmeldeinformationen für den Ziel-Einbaurahmen.

      4. Führen Sie die folgenden fünf Befehle auf dem Host aus, um die Umgebung einzurichten:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm
        sudo apt install nvidia-fabricmanager-580
        ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_key
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address>
      5. Führen Sie die folgenden zwei Befehle auf dem Client aus, um die Host-Umgebung einzurichten:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsm
        sudo apt install nvidia-fabricmanager-580
      6. Führen Sie den folgenden Befehl aus, um die OpenSSH-Server-Daemon-Konfigurationsdatei zu bearbeiten:
        sudo vim /etc/ssh/sshd_config
        Fügen Sie anschließend die folgenden Parameter zur Datei hinzu:
        • PubkeyAuthenticationyes
        • AuthorizedKeysFile.ssh/authorized_keys


      7. Führen Sie auf dem Host den folgenden Befehl aus, um die sudo-Konfigurationsdatei zu bearbeiten:
        sudo vim /etc/sudoers
        Fügen Sie den folgenden Eintrag in die Datei ein:
        nvidiaALL=(ALL) NOPASSWD:ALL


      8. Verwenden Sie den folgenden Befehl, um das NVDebug-Tool auszuführen:
        sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .


        Anmerkung
        Die Protokollerfassung für einen einzelnen Einbaurahmen nimmt etwa zehn Minuten in Anspruch. Nach Abschluss des Vorgangs generiert das Tool eine ZIP-Datei in seinem Verzeichnis. Verwenden Sie diese Datei zur Eskalation des Problems.