跳至主要内容

卸下 H100/H200 GPU 複合體

請依照本節中的指示卸下 H100/H200 GPU 複合體。此程序必須由經過培訓的維修技術人員執行。

關於此作業

S036




18 - 32 公斤(39 - 70 磅)32 - 55 公斤(70 - 121 磅)
注意
抬動時,請遵循安全技術規範操作。
小心
  • 閱讀安裝準則安全檢驗核對清單,確保工作時安全無虞。
  • 關閉伺服器和週邊裝置的電源,並拔掉電源線和所有外部纜線。請參閱關閉伺服器電源
  • 執行此程序時,現場需要兩個人和一台最大可承重 400 磅(181 公斤)的起重設備。如果您還沒有可用的起重設備,Lenovo 提供了 Genie Lift GL-8 material lift,可在 Data Center Solution Configurator。訂購 Genie Lift GL-8 material lift 時,請確保包含腳踏釋放煞車和負荷平台。
確定您已備妥下列所需工具,以便正確更換元件:
  • Torx T10 螺絲起子
  • Torx T15 螺絲起子
  • 1 號十字螺絲起子
  • 2 號十字螺絲起子
  • 平頭螺絲起子
  • 酒精清潔布
  • 2 x H100/H200 PCM 套件
  • 2 x SR780a V3 H100/H200 水迴路油灰墊套件
  • SR780a V3 H100/H200 水迴路維護套件
  • H100/H200 GPU 維修固定工具組
  • H100/H200 NVSwitch PCM 套件
  • H100/H200 NVSwitch 油灰墊套件
  • H100/H200 GPU 基板把手套件
  • Torx T25 150 公釐延長起子頭(適用於 GPU 基板把手)
H100/H200 水迴路維護套件和固定工具組可重複使用,在維修 GPU 和 GPU 水冷板模組時是必要的工具。建議將它們保存在伺服器運作的設施中,以備將來更換需要。
確定您已備妥下列所需工具,以便正確更換元件:
  • 可設定為 0.6 牛頓米、5.3 英吋磅的扭矩螺絲起子
下圖顯示了 GPU 編號和 XCC 中對應的插槽編號。
圖 1. GPU 編號
GPU numbering
實體 GPU 插座XCC 中的插槽編號nvidia-smi 中的邏輯編號

GPU 1

插槽 21

1

GPU 2

插槽 24

2

GPU 3

插槽 22

0

GPU 4

插槽 23

3

GPU 5

插槽 17

5

GPU 6

插槽 20

6

GPU 7

插槽 18

4

GPU 8

插槽 19

7

程序

  1. 為此作業做好準備。
    1. 卸下前方上蓋。請參閱卸下前方上蓋
    2. 卸下後方上蓋。請參閱卸下後方上蓋
    3. 卸下風扇機盒。請參閱卸下風扇機盒(僅限經過培訓的維修技術人員)
    4. 卸下 CPU 複合體。請參閱卸下 CPU 複合體
    5. 卸下電源複合體。請參閱卸下電源複合體
    6. GPU 基板拔掉纜線。
    7. 如有必要,拔掉並移除穿過 GPU 複合體的纜線。在拔掉纜線之前,請使用清單記錄每條纜線和纜線所連接的接頭。請參閱內部纜線佈線
    8. 卸下後方 GPU 水冷板模組。請參閱卸下後方 H100/H200 GPU 水冷板模組
    9. 卸下前方 GPU 水冷板模組。請參閱卸下前方 H100/H200 GPU 水冷板模組
    10. 卸下 NVSwitch 水冷板模組或 NVSwitch 和重定時器水冷板模組。請參閱卸下 H100/H200 NVSwitch 水冷板模組
  2. 從機箱鬆開 PCIe 交換器滑動箱。
    1. 按下兩個藍色鬆開閂鎖。
    2. 轉動兩個鬆開拉桿,直到其與 PCIe 交換器滑動箱垂直。
    3. 向前拉動 PCIe 交換器滑動箱,直到其停止。
      重要
      拉出 PCIe 交換器滑動箱後,請將兩個鬆開拉桿向後推,直到其鎖入定位,以免損壞。
      圖 2. 將 PCIe 交換器滑動箱從停止位置卸下
      PCIe switch shuttle removal to stop position
  3. 鬆開兩個 M3 螺絲以卸下 GPU 接頭保護托架。
    圖 3. 卸下 GPU 接頭保護托架
    Removing the GPU connector protective bracket
  4. 鬆開 GPU 基板上的十七個 Torx T15 緊固螺絲。
    使用設定為適當扭矩的扭矩螺絲起子鬆開或鎖緊螺絲。將螺絲完全鬆開或鎖緊所需的扭矩為 0.6±0.024 牛頓米、5.3±0.212 英吋磅,供您參考。
    圖 4. 卸下螺絲
    Screw removal
  5. 卸下 GPU 複合體。
    1. 按下把手側面的按鈕。
    2. 調整把手,為螺絲起子建立空間。
      圖 5. 調整把手
      Adjusting the handle
    3. 將把手對齊螺絲孔,並將其向下放到 GPU 基板上;然後鎖緊五個 M3 螺絲(5 x M3、0.5 牛頓米、4.3 英吋磅),將把手固定到 GPU 基板。
      圖 6. 安裝把手
      Installing the handles
    4. 握住兩個把手 (1),然後將 GPU 複合體從機箱中取出。
    小心
    確保 GPU 複合體兩側各站一人,握住兩個把手將其抬起。
    圖 7. 卸下 GPU 複合體
    Removing the GPU complex
    如果要運送 GPU 複合體進行 RMA 程序,請將把手固定在 GPU 基板上。

在您完成之後

  1. 安裝替換裝置。請參閱安裝 H100/H200 GPU 複合體
  2. 如果指示您送回元件或選配裝置,請遵循所有包裝指示,並使用提供給您的任何包裝材料來運送。