跳到主要内容

灾难类型和恢复方法

需要熟悉不同类型的故障和灾难,以便能够使用 MetroCluster 配置进行适当的响应。

  • 单节点故障

    本地 HA 对中的单个组件发生故障。

    在四节点 MetroCluster 配置中,此故障可能导致自动或协商接管受影响节点,具体取决于发生故障的组件。《高可用性配置指南》介绍了数据恢复。

    高可用性配置指南

  • 站点范围的控制器故障

    由于断电、更换设备或发生灾难,站点的所有控制器模块都发生故障。通常,MetroCluster 配置无法区分故障和灾难。但是,见证软件(例如 MetroCluster Tiebreaker 软件)可以区分它们。如果交换机间链路(ISL)链路和交换机为 up 状态且存储可访问,则站点范围的控制器故障情况可引起自动切换。

    《高可用性配置指南》详细介绍了如何从站点范围的控制器故障(不包含控制器故障)以及包含一个或多个控制器的故障中恢复。

  • ISL 故障

    站点之间的链路发生故障。MetroCluster 配置不执行任何操作。每个节点继续正常提供数据,但镜像不会写入到相应的灾难恢复站点,因为无法访问它们。

  • 多个连续故障

    多个组件按顺序发生故障。例如,控制器模块、交换机光纤网和磁盘架按顺序发生故障并导致存储故障转移,由光纤网冗余和 SyncMirror 按顺序防止停机和数据丢失。

下表显示了故障类型以及相应的灾难恢复(DR)机制和恢复方法:

MetroCluster IP 配置不支持 AUSO(自动计划外切换)。
故障类型DR 机制恢复方法摘要
四节点配置四节点配置
单节点故障本地 HA 故障转移如果启用了自动故障转移和交还,则不需要。
站点故障MetroCluster 切换恢复节点后,需要使用 metrocluster healingmetrocluster switchback 命令进行手动修复和切回。
运行 ONTAP 9.5 的 MetroCluster IP 配置不需要 metrocluster heal 命令。
站点范围的控制器故障AUSO

仅当灾难站点的存储可访问时。

多个连续故障本地 HA 故障转移后使用 metrocluster switchover -forced-on-disaster 命令进行 MetroCluster 强制切换。
根据发生故障的组件,可能不需要强制切换。
ISL 故障不进行 MetroCluster 切换;两个集群独立提供自己的数据这种类型的故障不需要。恢复连接后,存储会自动再同步。