不同的灾难类型如何影响 Tiebreaker 软件的检测时间
为了更好地规划灾难恢复,MetroCluster Tiebreaker 软件需要一些时间来检测灾难。这段时间称为灾难检测时间
。MetroCluster Tiebreaker 软件会在发生灾难后 30 秒内检测到站点灾难,并触发灾难恢复操作以通知您发生了灾难。
检测时间还取决于灾难类型,在某些情况下可能超过 30 秒,大多数情况下称为滚动灾难
。滚动灾难的主要类型如下:
断电
混乱
停止或重新启动
灾难站点丢失 FC 交换机
断电
当节点停止运行时,Tiebreaker 软件会立即触发警报。断电时,所有连接和更新(例如集群间对等、NV 互连和邮箱磁盘)都会停止。集群变得无法访问、检测到灾难以及触发(包括 5 秒的默认静默时间)之间的时间不应超过 30 秒。
混乱
当站点之间的 NV 互连连接为 down 状态且幸存站点指示AllLinksSevered
状态时,Tiebreaker 软件会触发警报。仅在核心转储过程完成后才会发生此问题。在这种情况下,集群变得无法访问和检测到灾难之间的时间可能比核心转储过程所花费的时间更长或大致相等。在许多情况下,检测时间超过 30 秒。
如果节点停止运行但未生成核心转储过程的文件,则检测时间不应超过 30 秒。
停止或重新启动
仅当节点为 down 状态且幸存站点指示AllLinksSevered
状态时,Tiebreaker 软件才会触发警报。集群变得无法访问和检测到灾难之间的时间可能超过 30 秒。在这种情况下,检测灾难所需的时间取决于关闭灾难站点上的节点所需的时间。
灾难站点丢失 FC 交换机(光纤网连接的 MetroCluster 配置)
当节点停止运行时,Tiebreaker 软件会触发警报。如果 FC 交换机丢失,则节点会尝试恢复磁盘路径大约 30 秒。在此期间,节点为 up 状态并能在对等网络上响应。当两台 FC 交换机均为 down 状态且无法恢复磁盘路径时,节点会产生 MultiDiskFailure 错误并停止。FC 交换机故障与节点产生 MultiDiskFailure 错误的时间之间的时间约为 30 秒。必须将此额外的 30 秒时间添加到灾难检测时间中。