灾难类型和恢复方法
需要熟悉不同类型的故障和灾难,以便能够使用 MetroCluster 配置进行适当的响应。
单节点故障
本地 HA 对中的单个组件发生故障。
在四节点 MetroCluster 配置中,此故障可能导致自动或协商接管受影响节点,具体取决于发生故障的组件。《高可用性配置指南》介绍了数据恢复。
站点范围的控制器故障
由于断电、更换设备或发生灾难,站点的所有控制器模块都发生故障。通常,MetroCluster 配置无法区分故障和灾难。但是,见证软件(例如 MetroCluster Tiebreaker 软件)可以区分它们。如果交换机间链路(ISL)链路和交换机为 up 状态且存储可访问,则站点范围的控制器故障情况可引起自动切换。
《高可用性配置指南》详细介绍了如何从站点范围的控制器故障(不包含控制器故障)以及包含一个或多个控制器的故障中恢复。
ISL 故障
站点之间的链路发生故障。MetroCluster 配置不执行任何操作。每个节点继续正常提供数据,但镜像不会写入到相应的灾难恢复站点,因为无法访问它们。
多个连续故障
多个组件按顺序发生故障。例如,控制器模块、交换机光纤网和磁盘架按顺序发生故障并导致存储故障转移,由光纤网冗余和 SyncMirror 按顺序防止停机和数据丢失。
下表显示了故障类型以及相应的灾难恢复(DR)机制和恢复方法:
注
MetroCluster IP 配置不支持 AUSO(自动计划外切换)。
故障类型 | DR 机制 | 恢复方法摘要 |
---|---|---|
四节点配置 | 四节点配置 | |
单节点故障 | 本地 HA 故障转移 | 如果启用了自动故障转移和交还,则不需要。 |
站点故障 | MetroCluster 切换 | 恢复节点后,需要使用 metrocluster healing 和 metrocluster switchback 命令进行手动修复和切回。 注 运行 ONTAP 9.5 的 MetroCluster IP 配置不需要 |
站点范围的控制器故障 | AUSO 仅当灾难站点的存储可访问时。 | |
多个连续故障 | 本地 HA 故障转移后使用 metrocluster switchover -forced-on-disaster 命令进行 MetroCluster 强制切换。 注 根据发生故障的组件,可能不需要强制切换。 | |
ISL 故障 | 不进行 MetroCluster 切换;两个集群独立提供自己的数据 | 这种类型的故障不需要。恢复连接后,存储会自动再同步。 |
提供反馈