Unified Manager 如何利用工作负载延迟识别性能问题
工作负载延迟(响应时间)是集群上的卷响应客户端应用程序 I/O 请求所花费的时间。Unified Manager 可利用延迟来检测性能事件,并发出相关警报。
高延迟意味着集群上的卷响应应用程序请求的时间比通常要长。高延迟可能是集群上一个或多个组件的争用所致。高延迟也可能由集群外的问题导致,如网络瓶颈、正在托管该应用程序的客户端问题或该应用程序本身的问题。
注
Unified Manager 仅监控集群上的工作负载活动。它不监控应用程序、客户端或应用程序与集群之间的路径。
集群上的操作(如备份或重复数据删除)会增加对由其他工作负载共享的集群组件的需求,导致高延迟。如果实际延迟超过预期范围(延迟预测值)的动态性能阈值,Unified Manager 将分析该事件以确定其是否为可能需要解决的性能事件。延迟的测量单位为每次操作的毫秒数(ms/op)。
在“Workload Analysis(工作负载分析)”页面的“延迟汇总”图上,可查看对延迟统计信息的分析,以了解各进程活动(如读写请求)与总体延迟统计信息的比较结果。该比较有助于确定哪些操作的活动性最高,或特定操作是否具有影响卷延迟的异常活动。分析性能事件时,可使用延迟统计信息来确定某一事件是否由集群上的问题导致。此外,还可确定事件中涉及的特定工作负载活动或集群组件。

以上示例为“Latency(延迟)”图。蓝线表示实际响应时间(延迟),绿线表示延迟预测值(预期范围)。
注
如果 Unified Manager 无法收集数据,则蓝线可能会有空隙。发生这种情况的原因可能是无法访问集群或卷、在此期间关闭了 Unified Manager 或收集持续时间超过了 5 分钟的收集期。
提供反馈