본문으로 건너뛰기

서비스 데이터 수집

랙 솔루션 문제의 근본 원인을 분명히 식별하거나 Lenovo 지원의 요청이 있을 때 심층 분석에 사용할 수 있는 서비스 데이터를 수집해야 할 수도 있습니다. 서비스 데이터에는 이벤트 로그 및 하드웨어 인벤토리 같은 정보가 포함됩니다.

서비스 데이터는 다음 도구를 통해 수집할 수 있습니다.

컴퓨팅 트레이 BMC FFDC 로그

  1. 컴퓨팅 트레이 BMC에서 유지보수 > 서버 데이터 저장 페이지로 이동하십시오.
  2. 서버 데이터 다운로드를 클릭하여 문제를 에스컬레이션하기 위한 FFDC 로그 정보를 다운로드하십시오. 이 로그에는 단일 컴퓨팅 트레이 관련 다음 데이터가 포함됩니다.
    • 시스템 인벤토리 정보
    • 시스템 이벤트 로그(SEL)
    • 센서 상태
그림 1. 컴퓨팅 트레이 BMC FFDC 로그
Compute tray BMC FFDC logs

NVDebug 로그

NVDebug 도구를 사용하여 하나 이상의 컴퓨팅 트레이, NVLink 스위치 트레이 또는 전원 선반에서 OOB 진단 로그를 수집합니다. 이 도구는 장치 BMC와 연결하여 에스컬레이션용 데이터를 확보합니다. 실행하기 전에 도구 패키지에 포함된 구성 파일을 대상 장치 연결 정보로 업데이트해야 합니다.

  1. 허브를 통해 케이블 2개를 사용하여 클라이언트 장치를 컴퓨팅 트레이의 RJ-45 OS 관리 포트(1)와 RJ-45 BMC 관리 포트(2)에 연결하면 트레이가 NVDebug 호스트로 설정됩니다.
    RJ-45 BMC and OS management ports
  2. NVOnline에서 도구를 다운로드하여 클라이언트 장치로 복사합니다.

  3. 다음 명령 2개로 패키지의 압축을 해제합니다.
    sudo unzip <NV Debug tool file name>.zip
    sudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz
    노트북 환경에서는 AMD64를 사용하십시오.
  4. 다음 명령을 사용하여 tool_config.yaml 파일을 편집하십시오.
    vim tool_config.yaml
    SKIP_BMC_SSH_LOGS: false
  5. 단일 컴퓨팅 트레이 또는 여러 트레이에서 동시에 디버그 도구를 실행할지 선택하십시오.
    • 단일 컴퓨팅 트레이:다음 명령을 실행하십시오.
      sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"
      전체 플랫폼 매개 변수의 정의는 도구의 ZIP 파일에 포함된 NVDebug 사용 설명서를 참조하십시오.
    • 여러 컴퓨팅 트레이 동시 실행:
      1. 먼저 구성 파일을 준비하십시오. 이 파일은 압축 해제된 도구 패키지 폴더에 있습니다. 텍스트 편집기를 사용하여 다음 사항을 업데이트하십시오.
        • config.yaml
        • dut_config.yaml
      2. config.yaml 파일에서 PLATFORMarm64로 설정하고, TargetBaseboard를 해당 장치 유형으로 설정하십시오. 다음 값을 사용하십시오.
        • GB300 NVL(컴퓨팅 트레이용)
        • GB300 NVSwitchTray(NVLink 스위치 트레이용)
        • PowerShelfController(전원 선반용)
        그런 다음 SKIP_BMC_SSH_LOGSfalse로 설정합니다.

      3. config.yaml 파일에서 대상 컴퓨팅 트레이에 대한 BMC IP 주소 및 자격 증명을 업데이트합니다.

      4. 호스트 장치에서 다음 명령 5개를 실행하여 환경을 설정합니다.
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm
        sudo apt install nvidia-fabricmanager-580
        ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_key
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address>
      5. 클라이언트 장치에서 다음 명령 2개를 실행하여 호스트 환경을 설정하십시오.
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsm
        sudo apt install nvidia-fabricmanager-580
      6. 다음 명령을 실행하여 OpenSSH 서버 데몬 구성 파일을 편집하십시오.
        sudo vim /etc/ssh/sshd_config
        그런 다음, 파일에 다음 매개 변수를 추가하십시오.
        • PubkeyAuthenticationyes
        • AuthorizedKeysFile.ssh/authorized_keys


      7. 호스트에서 다음 명령을 실행하여 sudo 구성 파일을 편집하십시오.
        sudo vim /etc/sudoers
        파일에 다음 항목을 추가하십시오.
        nvidiaALL=(ALL) NOPASSWD:ALL


      8. 다음 명령을 사용하여 NVDebug 도구를 실행하십시오.
        sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .


        단일 컴퓨팅 트레이의 로그 수집에는 약 10분이 소요됩니다. 완료되면 도구는 해당 디렉토리 내에 ZIP 파일을 생성합니다. 문제를 에스컬레이션하는 데 이 파일을 사용합니다.