跳至主要内容

安裝 H100/H200 GPU 和散熱槽模組

請依照本節中的指示安裝 H100/H200 GPU 和散熱槽模組。此程序必須由經過培訓的維修技術人員執行。

關於此作業

小心
  • 閱讀安裝準則安全檢驗核對清單,確保工作時安全無虞。
  • 將裝有元件的防靜電保護袋與伺服器上任何未上漆的金屬表面接觸;然後,從保護袋中取出元件,將它放在防靜電表面上。
  • 執行此程序時,現場需要兩個人和一台最大可承重 400 磅(181 公斤)的起重設備。如果您還沒有可用的起重設備,Lenovo 提供了 Genie Lift GL-8 material lift,可在 Data Center Solution Configurator。訂購 Genie Lift GL-8 material lift 時,請確保包含腳踏釋放煞車和負荷平台。
  • 確保檢查 GPU 和 GPU 基板上的接頭和插座。如果 GPU 或 GPU 基板上的接頭損壞或遺失,或插座中有碎屑,請勿使用。更換新的 GPU 或 GPU 基板,然後再繼續安裝程序。
  • GPU 和散熱槽是一個零件。請勿從 GPU 卸下散熱槽。
  • 下表顯示關於實體 GPU 插座、XCC 中的插槽編號,以及 nvidia-smi 中的模組 ID 對應資訊。


    實體 GPU 插座XCC 中的插槽編號nvidia-smi 中的模組 ID
    SXM 1插槽 211
    SXM 2插槽 242
    SXM 3插槽 223
    SXM 4插槽 234
    SXM 5插槽 175
    SXM 6插槽 206
    SXM 7插槽 187
    SXM 8插槽 198
確定您已備妥下列所需工具,以便正確更換元件:
  • 扭矩螺絲起子,可設定為 0.1-0.62 牛頓米、0.9-5.5 英吋磅
  • Torx T15 加長起子頭 (長度 200 公釐)
  • H100/H200 夾具
韌體和驅動程式下載:更換元件後,您可能需要更新韌體或驅動程式。

程序

  1. (選用)為新的 GPU 和散熱槽模組完成下列步驟。
    • 移除底部的接頭蓋。


    • 附上 FRU 零件編號標籤。
      1. 移除塑膠蓋上的保護膜。
      2. 將 FRU 零件編號標籤貼在塑膠蓋上。


    • 從散熱槽移除塑膠蓋。


  2. 用雙手抓住 GPU 和散熱槽模組;然後,將 GPU 和散熱槽模組對齊 GPU 基板上的兩個導孔,並輕輕地將其放在 GPU 基板上。
    圖 1. 安裝 GPU 和散熱槽模組
    GPU 和散熱槽模組 installation
  3. 將夾具與 GPU 散熱槽對齊,並小心地安裝到 GPU 散熱槽上。
    圖 2. 安裝夾具
    Jig installation
  4. 將扭矩螺絲起子插入夾具上的指定孔位,並依下圖所示順序鎖緊四顆 Torx T15 螺絲 ( > > > )。
    首先將扭矩螺絲起子設定為 0.1-0.12 牛頓米、0.9-1.1 英吋磅,以鎖上螺絲幾輪。然後將扭矩螺絲起子設定為 0.58-0.62 牛頓米、5-5.5 英吋磅以完全鎖緊螺絲。
    圖 3. 螺絲鎖緊順序
    Screw tightening sequence
  5. 從 GPU 散熱槽取下夾具。
    圖 4. 取下夾具
    Jig removal
  6. 將塑膠蓋放在 GPU 和散熱槽模組上,直到其固定到位。
    圖 5. 安裝塑膠蓋
    Plastic cover installation

在您完成之後

  1. (僅限 GPU 和散熱槽模組 2、4、5 和 7)重新安裝 GPU 空氣導管。請參閱安裝 H100/H200 GPU 空氣導管
  2. 重新安裝電源複合體。請參閱安裝電源複合體
  3. 重新安裝 8U GPU 滑動箱。請參閱安裝 8U GPU 滑動箱
  4. 將所有 2.5 吋熱抽換硬碟或機槽填充板(如果有的話)重新安裝在機槽中。請參閱安裝 2.5 吋熱抽換硬碟
  5. 重新安裝所有前方風扇。請參閱安裝熱抽換風扇(前方和後方)
  6. 重新安裝所有電源供應器。請參閱安裝熱抽換電源供應器
  7. 完成零件更換。請參閱完成零件更換