การรวบรวมข้อมูลการซ่อมบำรุง
เพื่อระบุสาเหตุที่แท้จริงของปัญหาโซลูชันแร็คอย่างชัดเจน หรือเมื่อได้รับคำขอจากบริการสนับสนุนของ Lenovo คุณอาจต้องรวบรวมข้อมูลการซ่อมบำรุง ซึ่งจะสามารถนำไปใช้ในการวิเคราะห์ต่อไปได้ ข้อมูลการซ่อมบำรุงประกอบด้วยข้อมูล เช่น บันทึกเหตุการณ์และรายการฮาร์ดแวร์
ข้อมูลการซ่อมบำรุงสามารถรวบรวมโดยใช้เครื่องมือดังต่อไปนี้:
บันทึก BMC FFDC ของถาดคอมพิวท์
- ไปที่หน้า ภายใน BMC ของถาดคอมพิวท์
- คลิก Download Server Data เพื่อดาวน์โหลดข้อมูลบันทึก FFDC สำหรับการยกระดับปัญหา บันทึกเหล่านี้ประกอบด้วยข้อมูลต่อไปนี้สำหรับถาดคอมพิวท์หนึ่งถาด:
- ข้อมูลรายการระบบ
- บันทึกเหตุการณ์ของระบบ (SEL)
- สถานะเซนเซอร์
รูปที่ 1. บันทึก BMC FFDC ของถาดคอมพิวท์


บันทึก NVDebug
ใช้เครื่องมือ NVDebug เพื่อรวบรวมบันทึกการวินิจฉัย OOB จากถาดคอมพิวท์ ถาดสวิตช์ NVLink หรือชั้นจ่ายไฟจำนวนหนึ่งตัวหรือมากกว่า เครื่องมือนี้เชื่อมต่อกับ BMC ของอุปกรณ์เพื่อรวบรวมข้อมูลสำหรับการส่งต่อเพื่อการแก้ไขปัญหา ก่อนเริ่มใช้งาน ให้อัปเดตไฟล์การกำหนดค่า (ซึ่งรวมอยู่ในชุดเครื่องมือ) ด้วยข้อมูลการเชื่อมต่อของอุปกรณ์เป้าหมาย
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ NVDebug โปรดดูข้อมูลต่อไปนี้:
- เชื่อมต่ออุปกรณ์ไคลเอ็นต์ผ่านฮับเข้ากับพอร์ตการจัดการระบบปฏิบัติการ RJ-45 (1) และพอร์ตการจัดการ BMC RJ-45 (2) บนถาดคอมพิวท์โดยใช้สายสองเส้น เพื่อกำหนดถาดให้เป็นโฮสต์ NVDebug

ดาวน์โหลดเครื่องมือจาก NVOnline แล้วคัดลอกไปยังอุปกรณ์ไคลเอ็นต์
- แตกไฟล์แพ็คเกจด้วยสองคำสั่งต่อไปนี้:
sudo unzip <NV Debug tool file name>.zipsudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gzหมายเหตุใช้ AMD64 สำหรับสภาพแวดล้อมแล็ปท็อป - แก้ไขไฟล์ tool_config.yaml ด้วยคำสั่งต่อไปนี้:
vim tool_config.yamlSKIP_BMC_SSH_LOGS: false - เลือกเพื่อใช้งานเครื่องมือดีบักกับถาดคอมพิวท์เดี่ยวหรือหลายถาดพร้อมกัน:
- ถาดคอมพิวท์เดี่ยว:เรียกใช้คำสั่งต่อไปนี้:
sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"หมายเหตุดูคู่มือผู้ใช้ NVDebug (อยู่ในไฟล์ ZIP ของเครื่องมือ) สำหรับการกำหนดพารามิเตอร์ของแพลตฟอร์มทั้งหมด - ถาดคอมพิวท์หลายถาดพร้อมกัน:
- เตรียมไฟล์การกำหนดค่าก่อน ไฟล์เหล่านี้อยู่ในโฟลเดอร์แพ็คเกจเครื่องมือที่คลายซิป ใช้ตัวแก้ไขข้อความเพื่ออัปเดตรายการต่อไปนี้:
- config.yaml
- dut_config.yaml
- ในไฟล์ config.yaml ให้ตั้งค่า PLATFORM เป็น arm64 และ TargetBaseboard ตามประเภทอุปกรณ์ที่เกี่ยวข้อง ใช้ค่าต่อไปนี้:
- GB300 NVL สำหรับถาดคอมพิวท์
- GB300 NVSwitchTray สำหรับถาดสวิตช์ NVLink
- PowerShelfController สำหรับชั้นจ่ายไฟ
จากนั้นตั้งค่า SKIP_BMC_SSH_LOGS เป็น false
- ในไฟล์ config.yaml ให้อัปเดตที่อยู่ IP ของ BMC และข้อมูลประจำตัวสำหรับถาดคอมพิวท์เป้าหมาย

- เรียกใช้ห้าคำสั่งต่อไปนี้บนอุปกรณ์โฮสต์เพื่อตั้งค่าสภาพแวดล้อม:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensmsudo apt install nvidia-fabricmanager-580ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_keyssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address> - เรียกใช้สองคำสั่งต่อไปนี้บนอุปกรณ์ไคลเอ็นต์เพื่อกำหนดค่าสภาพแวดล้อมของโฮสต์:
sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsmsudo apt install nvidia-fabricmanager-580 - เรียกใช้คำสั่งต่อไปนี้เพื่อแก้ไขไฟล์การกำหนดค่า daemon ของเซิร์ฟเวอร์ OpenSSH:
sudo vim /etc/ssh/sshd_configจากนั้น เพิ่มพารามิเตอร์ต่อไปนี้ลงในไฟล์:- PubkeyAuthentication → yes
- AuthorizedKeysFile → .ssh/authorized_keys

- บนโฮสต์ เรียกใช้คำสั่งต่อไปนี้เพื่อแก้ไขไฟล์การกำหนดค่า sudo:
sudo vim /etc/sudoersเพิ่มรายการต่อไปนี้ลงในไฟล์:nvidiaALL=(ALL) NOPASSWD:ALL
- เรียกใช้เครื่องมือ NVDebug ด้วยคำสั่งต่อไปนี้:
sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .
หมายเหตุการรวบรวมบันทึกสำหรับถาดคอมพิวท์หนึ่งถาดใช้เวลาประมาณ 10 นาที เมื่อกระบวนการเสร็จสิ้น เครื่องมือจะสร้างไฟล์ ZIP ไว้ในไดเรกทอรีของตนเอง ให้ใช้ไฟล์นี้สำหรับการยกระดับปัญหา
ส่งคำติชม