Unified Manager 如何确定事件造成的性能影响
Unified Manager 利用工作负载活动、利用率、写入吞吐量、集群组件使用量或 I/O 延迟(响应时间)的偏差,来确定事件对工作负载性能的影响级别。此信息有助于确定事件中每个工作负载的角色,以及它们在“Event details(事件详细信息)”页面中的排序。
Unified Manager 会对工作负载的最后分析值与预期值范围(延迟预测值)进行比较。通过比较最后分析值与预期值范围之间的差异,可确定性能受事件影响最大的工作负载。
例如,假设一个集群包含两个工作负载:工作负载 A 和工作负载 B。工作负载 A 的延迟预测值为每次操作 5-10 毫秒(ms/op),其实际延迟通常在 7 ms/op 左右。工作负载 B 的延迟预测值为 10-20 ms/op,其实际延迟通常在 15 ms/op 左右。这两种工作负载都在其延迟预测值范围之内。由于集群上出现争用情况,这两个工作负载的延迟都增加到了 40 ms/op,超出了动态性能阈值,即延迟预测值的上限,进而触发了事件。工作负载 A 预期值与超出性能阈值的实际值之间的延迟偏差约为 33 ms/op,工作负载 B 约为 25 ms/op。虽然这两个工作负载的延迟都激增至 40 ms/op,但工作负载 A 对性能的影响更大,因为它的延迟偏差要更高,达到了 33 ms/op。
在“Event details(事件详细信息)”页面的“System Diagnosis(系统诊断)”部分,可按工作负载在集群组件上的活动、利用率或吞吐量偏差对其进行排序。也可按延迟对工作负载进行排序。在选择排序选项时,Unified Manager 会分析根据预期值检测到事件以来的活动、利用率、吞吐量或延迟偏差,以确定工作负载的排序顺序。在延迟中,红点()表示受害者工作负载超出了性能阈值,且随后对延迟造成了影响。每个红点都表示更高级别的延迟偏差,这有助于您确定延迟受事件影响最大的受害者工作负载。