Unified Manager 如何利用工作负载延迟识别性能问题

工作负载延迟（响应时间）是集群上的卷响应客户端应用程序 I/O 请求所花费的时间。Unified Manager 可利用延迟来检测性能事件，并发出相关警报。

高延迟意味着集群上的卷响应应用程序请求的时间比通常要长。高延迟可能是集群上一个或多个组件的争用所致。高延迟也可能由集群外的问题导致，如网络瓶颈、正在托管该应用程序的客户端问题或该应用程序本身的问题。

注

Unified Manager 仅监控集群上的工作负载活动。它不监控应用程序、客户端或应用程序与集群之间的路径。

集群上的操作（如备份或重复数据删除）会增加对由其他工作负载共享的集群组件的需求，导致高延迟。如果实际延迟超过预期范围（延迟预测值）的动态性能阈值，Unified Manager 将分析该事件以确定其是否为可能需要解决的性能事件。延迟的测量单位为每次操作的毫秒数（ms/op）。

在“Workload Analysis（工作负载分析）”页面的“延迟汇总”图上，可查看对延迟统计信息的分析，以了解各进程活动（如读写请求）与总体延迟统计信息的比较结果。该比较有助于确定哪些操作的活动性最高，或特定操作是否具有影响卷延迟的异常活动。分析性能事件时，可使用延迟统计信息来确定某一事件是否由集群上的问题导致。此外，还可确定事件中涉及的特定工作负载活动或集群组件。

以上示例为“Latency（延迟）”图。蓝线表示实际响应时间（延迟），绿线表示延迟预测值（预期范围）。

注

如果 Unified Manager 无法收集数据，则蓝线可能会有空隙。发生这种情况的原因可能是无法访问集群或卷、在此期间关闭了 Unified Manager 或收集持续时间超过了 5 分钟的收集期。

提供反馈