跳到主要内容

安装 GPU OAM

按以下信息安装 GPU OAM。此过程仅适用于经过培训的技术人员。

关于本任务

必备工具

请确保您手头有下列必备工具,以便妥善更换组件。

  • 水循环模块套件

    • SD650-I V3 水循环模块维护套件

    • SD650-I V3 间隙垫套件

    • SD650-I V3 水循环模块油灰垫套件

  • 螺钉和螺丝刀

    为确保可以正确安装和卸下相应的螺钉,请准备好以下螺丝刀。
    螺丝刀类型螺钉类型
    T10 内六角螺丝刀T10 内六角螺钉
    1 号十字螺丝刀1 号十字螺钉
    2 号十字螺丝刀2 号十字螺钉
重要
间隙垫/油灰垫更换准则
  • 要确定间隙垫/油灰垫的位置和方向,请参阅间隙垫和油灰垫的标识和位置

  • 在更换间隙垫/油灰垫之前,请使用酒精清洁垫轻轻地清洁接口板或硬件表面。

  • 小心地握住间隙垫/油灰垫,以免变形。确保间隙垫/油灰垫材料不会遮挡螺钉孔或开口。

  • 请勿使用过期的油灰垫。检查油灰垫包装上的有效期。如果油灰垫过期,请购买新的油灰垫以进行妥善更换。

重要
注意
  • 请阅读安装准则安全检查核对表以确保操作安全。

  • 关闭要执行任务的相应 DWC 托盘。

  • 从机柜上拔下所有外部线缆。

  • 如果 QSFP 线缆已连接至解决方案,请用力将这些线缆拔下。

  • 为避免损坏水循环模块,卸下、安装或折叠水循环模块时请始终使用水循环模块载板。

  • 更新 XCC 固件后,通过 SMM2 进行模拟插拔以优化系统,请参阅 SMM2 用户指南

下图显示了 GPU OAM 编号。
图 1. GPU OAM 编号
GPU OAM numbering
固件和驱动程序下载:更换组件后,可能需要更新固件或驱动程序。
观看操作过程
  • 可通过以下链接观看关于此过程的 YouTube 视频:YouTube

过程

  1. 轻轻将 GPU OAM 向下放在承载基板(CBB)上,然后使用设置到适当扭矩的扭矩螺丝刀安装四颗内六角 T15 螺钉。
    注意
    遵循 GPU OAM 的三步安装法:
    1. 按照下图所示的顺序拧紧螺钉。

    2. 第一步,将扭矩螺丝刀的扭矩设置为 0.0981 N-M(0.868 lbf.in),以稍微拧紧螺钉。

    3. 第二步,将扭矩螺丝刀的扭矩设置为 0.8829 N-M(7.8 lbf.in),以完全拧紧螺钉。

    4. 最后一步,将扭矩螺丝刀的扭矩设置为 0.8829 N-M(7.8 lbf.in),并拧紧每颗螺钉,以确保所有螺钉均完全拧紧。

    图 2. 安装 GPU OAM 时的螺钉拧紧顺序
    Screw tightening sequence for GPU OAM installation
  2. 如果四个 GPU OAM 和冷却板上有任何残留的导热油脂,请使用酒精清洁垫轻轻地清洁四个 GPU OAM 和冷却板的顶部。
  3. 用海绵在四个 GPU OAM 的顶部涂抹导热油脂,形成如图所示分布的四个点,每个点包含大约 0.15 毫升导热油脂。
    图 3. 涂抹导热油脂
    Thermal grease application
  4. 检查水循环模块上的间隙垫,如果有任何间隙垫损坏或脱落,请更换新的间隙垫。
    图 4. 水循环模块间隙垫
    Water loop gap pads

请确保遵循间隙垫/油灰垫更换准则

  1. 在水循环模块上更换新的油灰垫。
    将油灰垫贴到 GPU 冷却板上时,请将油灰垫与 GPU 冷却板上的标记对齐。
    图 5. 油灰垫位置
    Putty pad locations

请确保遵循间隙垫/油灰垫更换准则

  1. 如图所示展开并安装水循环模块。
    图 6. 安装水循环模块
    Water loop installation
  2. 拧松水循环模块载板的螺钉(19 颗 2 号十字螺钉)。
    图 7. 拧松水循环模块载板的螺钉
    Loosening water loop carrier screws
  3. 小心地提起水循环模块载板并使其脱离水循环模块。
    图 8. 卸下水循环模块载板
    Water loop carrier removal
  4. 使用设置到适当扭矩的扭矩螺丝刀,安装水循环模块螺钉(14 颗内六角 T10 螺钉)。
    (供参考)将螺钉完全拧紧或卸下所需的扭矩为 5.0+/- 0.5 磅·英寸,即 0.55+/- 0.05 牛·米。
    图 9. 安装水循环模块螺钉
    Water loop screws installation
  5. 安装以下螺钉,以便固定快接件。
    • 用于固定快接件的两颗内六角 T10 螺钉。

    • 节点背面的四颗内六角 T10 螺钉。

    图 10. 安装快接件螺钉
    Quick connect screw installation
  6. 安装 GPU OAM 冷却板螺钉(16 颗内六角 15 螺钉)。
    图 11. 安装 GPU OAM 冷却板螺钉
    GPU OAM cold plate screw installation
    1. 用手掌向下按压 GPU OAM 冷却板,以缩小 GPU OAM 冷却板和 GPU OAM 之间的间隙。
    2. 用扭矩螺丝刀按住螺钉,使螺钉与 GPU OAM 啮合。
    3. 按照 GPU OAM 冷却板标签上指定的螺钉顺序,使用设置到适当扭矩和 rpm 的扭矩螺丝刀将每颗螺钉拧紧 720 度。
      (供参考)将螺钉完全拧紧或卸下所需的扭矩为 0.9 +/- 0.06 牛·米,即 8 +/- 0.5 英寸·磅。rpm 设置为低速 200 rpm。
      图 12. 将 GPU OAM 冷却板螺钉拧紧 720 度
      Fastening GPU OAM cold plate screws for 720 degrees
    4. 确保将 GPU OAM 冷却板向下放入到节点中,并且保持平面无倾斜。如果 GPU OAM 冷却板倾斜,请松开螺钉,重复步骤 1 至步骤 3。
    5. 重复步骤 3,直到螺钉完全拧紧。
    6. 确保每个螺钉的高度为 11.5±0.3 毫米(0.45±0.01 英寸)并且已完全压紧。如果没有倾斜,请重复 GPU OAM 冷却板安装步骤。
      图 13. 正确安装的 GPU OAM 冷却板螺钉的高度
      Height of properly installed GPU OAM cold plate screw
完成之后
  1. 在托盘中连接和布放线缆。请参阅GPU 节点线缆布放

  2. 安装横梁。请参阅安装横梁

  3. 安装托盘外盖。请参阅安装托盘外盖

  4. 将托盘装入机柜。请参阅在机柜中安装 DWC 托盘

  5. 将所有需要的外部线缆连接到解决方案。
    用力将 QSFP 线缆连接到解决方案。
  6. 检查各节点上的电源 LED,确保其从快速闪烁转变为缓慢闪烁,表示所有节点已准备好打开电源。

  7. 安装 GPU OAM 后,请完成以下步骤以正确安装 GPU OAM。(仅限经过培训的技术人员)
    • 将 AMC 和 IFWI 固件更新到最新版本。

      1. 检查新安装的 GPU OAM 的 AMC 和 IFWI 固件版本。在 XCC Web GUI 中查看 AMC 固件版本,并通过 Intel® XPU Manager 查看 IFWI 固件版本。

      2. 最新的 AMC 和 IFWI 固件位于:ThinkSystem SD650-I V3 驱动程序和软件下载网站。如果 GPU OAM 的 AMC 和 IFWI 固件版本不是最新版本,请继续下一步。

      3. 更新 AMC 和 IFWI 固件:

        • 通过 XCC Web GUI 更新 AMC 固件,或者通过 OneCLI 使用以下命令进行更新,其中 FW_FILE_NAME 是 AMC 固件文件名。确保将 FW_FILE_NAME 放在路径 /flash/ 下,并且文件必须包含 .zip 和 .json 文件。
          OneCli update flash --forceid FW_FILE_NAME --checkdevice --dir /flash/ --output /flash/result

          更新 AMC 固件后,进行模拟插拔,请参阅 SMM2 用户指南

        • 通过 Intel® XPU Manager 更新 IFWI 固件。