Skip to main content

ปัญหาถาดคอมพิวท์

ส่วนนี้ให้คำแนะนำสำหรับการบันทึกล็อกจากถาดคอมพิวท์ รวมถึงข้อมูล FFDC รายการระบบ และสถานะเซนเซอร์

เมื่อเกิดปัญหาในแร็ค GB300 NVL72 หากยังสามารถเข้าถึง BMC และ OS ของถาดคอมพิวท์และถาดสวิตช์ NVLink ได้ ให้รวบรวมบันทึกต่อไปนี้ผ่านถาดคอมพิวท์เดียวเพื่อยกระดับปัญหา:

บันทึก BMC FFDC ของถาดคอมพิวท์

  1. ไปที่หน้า Maintenance > Save Server Data ภายใน BMC ของถาดคอมพิวท์
  2. คลิก Download Server Data เพื่อดาวน์โหลดข้อมูลบันทึก FFDC สำหรับการยกระดับปัญหา บันทึกเหล่านี้ประกอบด้วยข้อมูลต่อไปนี้สำหรับถาดคอมพิวท์หนึ่งถาด:
    • ข้อมูลรายการระบบ
    • บันทึกเหตุการณ์ของระบบ (SEL)
    • สถานะเซนเซอร์
รูปที่ 1. บันทึก BMC FFDC ของถาดคอมพิวท์
Compute tray BMC FFDC logs

บันทึก NVDebug

ใช้เครื่องมือ NVDebug เพื่อรวบรวมบันทึกการวินิจฉัย OOB จากถาดคอมพิวท์ ถาดสวิตช์ NVLink หรือชั้นจ่ายไฟจำนวนหนึ่งตัวหรือมากกว่า เครื่องมือนี้เชื่อมต่อกับ BMC ของอุปกรณ์เพื่อรวบรวมข้อมูลสำหรับการส่งต่อเพื่อการแก้ไขปัญหา ก่อนเริ่มใช้งาน ให้อัปเดตไฟล์การกำหนดค่า (ซึ่งรวมอยู่ในชุดเครื่องมือ) ด้วยข้อมูลการเชื่อมต่อของอุปกรณ์เป้าหมาย

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ NVDebug โปรดดูข้อมูลต่อไปนี้:
  1. เชื่อมต่ออุปกรณ์ไคลเอ็นต์ผ่านฮับเข้ากับพอร์ตการจัดการระบบปฏิบัติการ RJ-45 (1) และพอร์ตการจัดการ BMC RJ-45 (2) บนถาดคอมพิวท์โดยใช้สายสองเส้น เพื่อกำหนดถาดให้เป็นโฮสต์ NVDebug
    RJ-45 BMC and OS management ports
  2. ดาวน์โหลดเครื่องมือจาก NVOnline แล้วคัดลอกไปยังอุปกรณ์ไคลเอ็นต์

  3. แตกไฟล์แพ็คเกจด้วยสองคำสั่งต่อไปนี้:
    sudo unzip <NV Debug tool file name>.zip
    sudo tar zxvf nvdebug-linux-arm64-<version name>.tar.gz
    หมายเหตุ
    ใช้ AMD64 สำหรับสภาพแวดล้อมแล็ปท็อป
  4. แก้ไขไฟล์ tool_config.yaml ด้วยคำสั่งต่อไปนี้:
    vim tool_config.yaml
    SKIP_BMC_SSH_LOGS: false
  5. เลือกเพื่อใช้งานเครื่องมือดีบักกับถาดคอมพิวท์เดี่ยวหรือหลายถาดพร้อมกัน:
    • ถาดคอมพิวท์เดี่ยว:เรียกใช้คำสั่งต่อไปนี้:
      sudo ./nvdebug collect -i <target node BMC IP address> -u <BMC Username> -p <BMC Password> -b "GB300 NVL" -I <target node OS IP address> -U <OS Username> -H <OS Password> -r <BMC Username> -w <BMC Password>"
      หมายเหตุ
      ดูคู่มือผู้ใช้ NVDebug (อยู่ในไฟล์ ZIP ของเครื่องมือ) สำหรับการกำหนดพารามิเตอร์ของแพลตฟอร์มทั้งหมด
    • ถาดคอมพิวท์หลายถาดพร้อมกัน:
      1. เตรียมไฟล์การกำหนดค่าก่อน ไฟล์เหล่านี้อยู่ในโฟลเดอร์แพ็คเกจเครื่องมือที่คลายซิป ใช้ตัวแก้ไขข้อความเพื่ออัปเดตรายการต่อไปนี้:
        • config.yaml
        • dut_config.yaml
      2. ในไฟล์ config.yaml ให้ตั้งค่า PLATFORM เป็น arm64 และ TargetBaseboard ตามประเภทอุปกรณ์ที่เกี่ยวข้อง ใช้ค่าต่อไปนี้:
        • GB300 NVL สำหรับถาดคอมพิวท์
        • GB300 NVSwitchTray สำหรับถาดสวิตช์ NVLink
        • PowerShelfController สำหรับชั้นจ่ายไฟ
        จากนั้นตั้งค่า SKIP_BMC_SSH_LOGS เป็น false

      3. ในไฟล์ config.yaml ให้อัปเดตที่อยู่ IP ของ BMC และข้อมูลประจำตัวสำหรับถาดคอมพิวท์เป้าหมาย

      4. เรียกใช้ห้าคำสั่งต่อไปนี้บนอุปกรณ์โฮสต์เพื่อตั้งค่าสภาพแวดล้อม:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm
        sudo apt install nvidia-fabricmanager-580
        ssh-keygen -t rsa-b 4096 -f ~/.ssh/nvdebug_key
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub nvidia@<host IP address>
        ssh-copy-id -i ~/.ssh/nvdebug_key.pub sysadmin@<target node BMC IP address>
      5. เรียกใช้สองคำสั่งต่อไปนี้บนอุปกรณ์ไคลเอ็นต์เพื่อกำหนดค่าสภาพแวดล้อมของโฮสต์:
        sudo apt install ipmitool nvme-cli pciutils dmidecode lshw opensm nvlsm
        sudo apt install nvidia-fabricmanager-580
      6. เรียกใช้คำสั่งต่อไปนี้เพื่อแก้ไขไฟล์การกำหนดค่า daemon ของเซิร์ฟเวอร์ OpenSSH:
        sudo vim /etc/ssh/sshd_config
        จากนั้น เพิ่มพารามิเตอร์ต่อไปนี้ลงในไฟล์:
        • PubkeyAuthenticationyes
        • AuthorizedKeysFile.ssh/authorized_keys


      7. บนโฮสต์ เรียกใช้คำสั่งต่อไปนี้เพื่อแก้ไขไฟล์การกำหนดค่า sudo:
        sudo vim /etc/sudoers
        เพิ่มรายการต่อไปนี้ลงในไฟล์:
        nvidiaALL=(ALL) NOPASSWD:ALL


      8. เรียกใช้เครื่องมือ NVDebug ด้วยคำสั่งต่อไปนี้:
        sudo ./nvdebug -i <BMC IP address> -u <username> -p <password> -t arm64 -b “<hardware platform>" -I <host IP address> -U nvidia-H nvidia -o .


        หมายเหตุ
        การรวบรวมบันทึกสำหรับถาดคอมพิวท์หนึ่งถาดใช้เวลาประมาณ 10 นาที เมื่อกระบวนการเสร็จสิ้น เครื่องมือจะสร้างไฟล์ ZIP ไว้ในไดเรกทอรีของตนเอง ให้ใช้ไฟล์นี้สำหรับการยกระดับปัญหา