集群组件及其处于争用状态的原因
当某个集群组件进入争用状态时,可以确定集群性能问题。使用该组件的工作负载的性能会变慢,它们对客户端请求的响应时间(延迟)增加,这会在 Unified Manager 中触发一个事件。
处于争用状态的组件无法发挥出最佳性能水平。该组件的性能会下降,而其他集群组件和工作负载(称为 受害者)的性能延迟可能会增加。要使组件脱离争用状态,必须减少其工作负载或增加其处理更多工作的能力,使性能恢复到正常水平。由于 Unified Manager 每五分钟收集并分析一次工作负载性能,因此只会检测集群组件是否持续被过度使用。在五分钟的间隔时间内仅持续很短时间的瞬时过度使用峰值不会被检测到。
例如,一个存储聚合处于争用状态的原因可能是该聚合上的一个或多个工作负载在争取资源以满足其 I/O 请求。聚合上的其他工作负载可能会受到影响,从而导致其性能下降。为了减少聚合上的活动量,可以采取不同的步骤,例如将一个或多个工作负载移动到不太繁忙的聚合或节点上,从而减少当前聚合上的总体工作负载需求。对于 QoS 策略组,可以调整吞吐量限制,或将工作负载移动到其他策略组,使工作负载不再受到限速。
Unified Manager 会监控以下集群组件以便在出现争用时发出警报:
- 网络
- 表示集群上由外部网络协议发出的 I/O 请求的等待时间。等待时间是在集群可以响应 I/O 请求之前等待“传输就绪”事务完成所需的时间。如果网络组件处于争用状态,意味着协议层的较长等待时间正在影响一个或多个工作负载的延迟。
- 网络处理
- 表示集群中涉及协议层与集群之间 I/O 处理的软件组件。自检测到事件以来,执行网络处理的节点可能已更改。如果网络处理组件处于争用状态,意味着网络处理节点的高利用率正在影响一个或多个工作负载的延迟。
- QoS 限制最大值
- 表示分配给工作负载的存储服务质量(QoS)策略组的吞吐量最大值(峰值)设置。如果策略组组件处于争用状态,意味着策略组中的所有工作负载都会由已设置的吞吐量限制进行调速,因此会影响其中一个或多个工作负载的延迟。
- QoS 限制最小值
- 表示因分配给其他工作负载的 QoS 吞吐量最小值(预期)设置而导致的工作负载延迟。如果特定工作负载上的 QoS 最小值设置占用了大部分带宽以保证承诺的吞吐量,则其他工作负载将会被调速,延迟也会增加。
- 集群互连
- 表示与集群节点进行物理连接的线缆和适配器。如果集群互连组件处于争用状态,意味着集群互连中的 I/O 请求的较长等待时间正在影响一个或多个工作负载的延迟。
- 数据处理
- 表示集群中涉及集群与包含工作负载的存储聚合之间 I/O 处理的软件组件。自检测到事件以来,执行数据处理的节点可能已更改。如果数据处理组件处于争用状态,意味着数据处理节点的高利用率正在影响一个或多个工作负载的延迟。
- 卷激活
- 表示跟踪所有活动卷使用情况的过程。在活动卷数量超过 1000 个的大型环境中,此过程将跟踪同时通过节点访问资源所需的关键卷的数量。当并发活动卷的数量超过推荐的最大阈值时,部分非关键卷将出现此处所述的延迟。
- MetroCluster 资源
- 表示 MetroCluster 资源,包括 NVRAM 和交换机间链路(ISL),用于在 MetroCluster 配置中的集群之间镜像数据。如果 MetroCluster 组件处于争用状态,意味着本地集群上工作负载的高写入吞吐量或链路运行状况问题正在影响本地集群上的一个或多个工作负载的延迟。如果集群未采用 MetroCluster 配置,不会显示该图标。
- 聚合或固态硬盘聚合操作
- 表示正在运行工作负载的存储聚合。如果聚合组件处于争用状态,意味着聚合的高利用率正在影响一个或多个工作负载的延迟。聚合包括所有硬盘或者硬盘和固态硬盘的组合(Flash Pool 聚合)。“固态硬盘聚合”包含所有固态硬盘(全闪存聚合)或者固态硬盘和云层的组合(FabricPool 聚合)。
- 云延迟
- 表示集群中涉及集群与存储用户数据的云层之间 I/O 处理的软件组件。如果云延迟组件处于争用状态,意味着对云层上托管的卷进行的大量读取正在影响一个或多个工作负载的延迟。
- 同步 SnapMirror
- 表示集群中涉及在 SnapMirror 同步关系中将用户数据从主卷复制到辅助卷的软件组件。如果同步 SnapMirror 组件处于争用状态,意味着来自 SnapMirror 同步操作的活动正在影响一个或多个工作负载的延迟。
提供反馈