跳到主要内容

响应集群失衡性能事件

当集群中的一个节点以远高于其他节点的负载运行,并可能影响工作负载延迟时,Unified Manager 会生成集群失衡警告事件。这些系统定义的事件可让您在延迟影响到工作负载之前,及时纠正潜在的性能问题。

您必须具有操作员、应用程序管理员或存储管理员角色。

Unified Manager 通过比较集群中所有节点的已用性能容量值来查看任意节点之间的负载差异是否达到 30%,然后针对违反集群失衡阈值策略的情况,生成警告事件。

这些步骤有助于识别以下资源,以便将高性能工作负载移动到利用率较低的节点:

  • 同一集群上利用率较低的节点
  • 新节点上利用率最低的聚合
  • 当前节点上的高性能卷
  1. 显示“Event(事件)”详细信息页面以查看有关事件的信息。
  2. 查看“Description(描述)”,了解导致事件发生的阈值违反情况。
    例如,消息“根据已用性能容量计数器,集群 Dallas-1-8 上节点之间的负载差异达到了 62%,由于系统阈值为 30%,因此已触发警告事件”表示,其中一个节点的性能容量正被过度使用,并影响到了节点性能。
  3. 查看 Suggested Actions(建议操作) 中的文本,将高性能卷从已用性能容量值较大的节点移动到已用性能容量值最小的节点。
  4. 确定已用性能容量值最大和最小的节点:
    1. Event Information(事件信息) 部分中,单击源集群的名称。
    2. Cluster / Performance Summary(集群/性能摘要) 页面上,单击 Managed Objects(受管对象) 区域的 Nodes(节点)
    3. Nodes(节点) 清单页面,按 Performance Capacity Used(已用性能容量) 列对节点进行排序。
    4. 确定已用性能容量值最大和最小的节点,然后记录下这些名称。
  5. 识别在已用性能容量值最大的节点上使用 IOPS 最多的卷:
    1. 单击已用性能容量值最大的节点。
    2. Node / Performance Explorer(节点/性能资源管理器) 页面上,从 View and Compare(查看和比较) 菜单中选择 Aggregates on this Node(此节点上的聚合)
    3. 单击已用性能容量值最大的聚合。
    4. Aggregate / Performance Explorer(聚合/性能资源管理器) 页面上,从 View and Compare(查看和比较) 菜单中选择 Volumes on this Aggregate(此聚合上的卷)
    5. “IOPS” 列对卷进行排序,然后记录下使用 IOPS 最多的卷的名称以及该卷所在的聚合名称。
  6. 识别已用性能容量值最小的节点上利用率最低的聚合:
    1. 单击 Storage(存储) > Aggregates(聚合)以显示“Aggregates(聚合)”清单页面。
    2. 选择“Performance: All Aggregates(性能:所有聚合)”视图
    3. 单击筛选条件按钮,按步骤 4 中记录的已用性能容量值最小的节点名称在“节点”中添加该筛选条件。
    4. 记录下已用性能容量值最小的聚合名称。
  7. 将卷从过载节点移动到新节点上利用率较低的聚合。
    可使用 ThinkSystem DM 系列存储管理软件Workflow Automation、ONTAP 命令或这些工具的组合执行移动操作。

几天后,检查是否从该集群收到相同的集群失衡事件。