서비스 데이터 수집
랙 솔루션 문제의 근본 원인을 분명히 식별하거나 Lenovo 지원의 요청이 있을 때 심층 분석에 사용할 수 있는 서비스 데이터를 수집해야 할 수도 있습니다. 서비스 데이터에는 이벤트 로그 및 하드웨어 인벤토리 같은 정보가 포함됩니다.
서비스 데이터는 다음 도구를 통해 수집할 수 있습니다.
컴퓨팅 트레이 BMC FFDC 로그
- 컴퓨팅 트레이 BMC에서 페이지로 이동하십시오.
- 서버 데이터 다운로드를 클릭하여 문제를 에스컬레이션하기 위한 FFDC 로그 정보를 다운로드하십시오. 이 로그에는 단일 컴퓨팅 트레이 관련 다음 데이터가 포함됩니다.
- 시스템 인벤토리 정보
- 시스템 이벤트 로그(SEL)
- 센서 상태
그림 1. 컴퓨팅 트레이 BMC FFDC 로그


NVDebug 로그
NVDebug 도구를 사용하여 하나 이상의 컴퓨팅 트레이, NVLink 스위치 트레이 또는 전원 선반에서 OOB 진단 로그를 수집합니다. 이 도구는 장치 BMC와 연결하여 에스컬레이션용 데이터를 확보합니다. 실행하기 전에 도구 패키지에 포함된 구성 파일을 대상 장치 연결 정보로 업데이트해야 합니다.
NVDebug에 대한 자세한 내용은 다음 정보를 참조하십시오.
- 허브를 통해 케이블 2개를 사용하여 클라이언트 장치를 컴퓨팅 트레이의 RJ-45 OS 관리 포트(1)와 RJ-45 BMC 관리 포트(2)에 연결하면 트레이가 NVDebug 호스트로 설정됩니다.

NVOnline에서 도구를 다운로드하여 클라이언트 장치로 복사합니다.
- 다음 명령 2개로 패키지의 압축을 해제합니다.
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz주노트북 환경에서는 AMD64를 사용하십시오. - 다음 명령을 사용하여 tool_config.yaml 파일을 편집하십시오.
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - 단일 컴퓨팅 트레이 또는 여러 트레이에서 동시에 디버그 도구를 실행할지 선택하십시오.
- 단일 컴퓨팅 트레이:다음 명령을 실행하십시오.
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"주전체 플랫폼 매개 변수의 정의는 도구의 ZIP 파일에 포함된 NVDebug 사용 설명서를 참조하십시오. - 여러 컴퓨팅 트레이 동시 실행:
- 먼저 구성 파일을 준비하십시오. 이 파일은 압축 해제된 도구 패키지 폴더에 있습니다. 텍스트 편집기를 사용하여 다음 사항을 업데이트하십시오.
- config.yaml
- dut_config.yaml
- config.yaml 파일에서 PLATFORM을 arm64로 설정하고, TargetBaseboard를 해당 장치 유형으로 설정하십시오. 다음 값을 사용하십시오.
- GB300 NVL(컴퓨팅 트레이용)
- GB300 NVSwitchTray(NVLink 스위치 트레이용)
- PowerShelfController(전원 선반용)
그런 다음 SKIP_BMC_SSH_LOGS를 false로 설정합니다.
- config.yaml 파일에서 대상 컴퓨팅 트레이에 대한 BMC IP 주소 및 자격 증명을 업데이트합니다.

- 호스트 장치에서 다음 명령 5개를 실행하여 환경을 설정합니다.
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - 클라이언트 장치에서 다음 명령 2개를 실행하여 호스트 환경을 설정하십시오.
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - 다음 명령을 실행하여 OpenSSH 서버 데몬 구성 파일을 편집하십시오.
sudo vim /etc/ssh/sshd_config그런 다음, 파일에 다음 매개 변수를 추가하십시오.- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- 호스트에서 다음 명령을 실행하여 sudo 구성 파일을 편집하십시오.
sudo vim /etc/sudoers파일에 다음 항목을 추가하십시오.nvidiaALL=(ALL) NOPASSWD:ALL
- 다음 명령을 사용하여 NVDebug 도구를 실행하십시오.
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
주단일 컴퓨팅 트레이의 로그 수집에는 약 10분이 소요됩니다. 완료되면 도구는 해당 디렉토리 내에 ZIP 파일을 생성합니다. 문제를 에스컬레이션하는 데 이 파일을 사용합니다.
피드백 보내기