跳到主要内容

Tiebreaker 软件如何检测站点故障

Lenovo MetroCluster Tiebreaker 软件会检查 MetroCluster 配置和集群中的节点可访问性,从而确定是否发生了站点故障。Tiebreaker 软件还会在某些条件下触发警报。

Tiebreaker 软件监控的组件

Tiebreaker 软件通过多条与节点管理 LIF 和集群管理 LIF(两者都托管在 IP 网络上)的路径建立冗余连接,从而监控 MetroCluster 配置中的每个控制器。

Tiebreaker 软件监控 MetroCluster 配置中的以下组件:

  • 通过本地节点接口监控节点

  • 通过集群指定的接口监控集群

  • 监控幸存集群以评估其是否与灾难站点连接(NV 互连、存储和集群间对等)

当 Tiebreaker 软件与集群中的所有节点之间以及与集群本身之间的连接断开时,集群将被 Tiebreaker 软件声明为无法访问。检测到连接失败大约需要三到五秒钟。如果无法从 Tiebreaker 软件访问集群,则在 Tiebreaker 软件触发警报之前,幸存集群(仍可访问的集群)必须指示所有与伙伴集群的链路都已断开。

如果幸存集群无法再通过 FC(NV 互连和存储)和集群间对等来与灾难站点的集群进行通信,则表示所有链路已断开。

Tiebreaker 软件触发警报的故障情形

当灾难站点的集群(所有节点)为 down 状态或无法访问且幸存站点的集群指示AllLinksSevered状态时,Tiebreaker 软件将触发警报。

在以下情形中,Tiebreaker 软件不会触发警报(或警报被否决):

  • 在八节点 MetroCluster 配置中,灾难站点的一个 HA 对为 down 状态

  • 在灾难站点的所有节点都是 down 状态的集群中,幸存站点的一个 HA 对为 down 状态,且幸存站点的集群指示AllLinksSevered状态

    Tiebreaker 软件会触发警报,但 ONTAP 会否决警报。在这种情况下,手动切换也会被否决

  • 以下任何情形:Tiebreaker 软件可以访问灾难站点的至少一个节点或集群接口,或者幸存站点仍然可以通过 FC(NV 互连和存储)或集群间对等来访问灾难站点的任一节点