Unified Manager 如何确定事件造成的性能影响

Unified Manager 利用工作负载活动、利用率、写入吞吐量、集群组件使用量或 I/O 延迟（响应时间）的偏差，来确定事件对工作负载性能的影响级别。此信息有助于确定事件中每个工作负载的角色，以及它们在“Event details（事件详细信息）”页面中的排序。

Unified Manager 会对工作负载的最后分析值与预期值范围（延迟预测值）进行比较。通过比较最后分析值与预期值范围之间的差异，可确定性能受事件影响最大的工作负载。

例如，假设一个集群包含两个工作负载：工作负载 A 和工作负载 B。工作负载 A 的延迟预测值为每次操作 5-10 毫秒（ms/op），其实际延迟通常在 7 ms/op 左右。工作负载 B 的延迟预测值为 10-20 ms/op，其实际延迟通常在 15 ms/op 左右。这两种工作负载都在其延迟预测值范围之内。由于集群上出现争用情况，这两个工作负载的延迟都增加到了 40 ms/op，超出了动态性能阈值，即延迟预测值的上限，进而触发了事件。工作负载 A 预期值与超出性能阈值的实际值之间的延迟偏差约为 33 ms/op，工作负载 B 约为 25 ms/op。虽然这两个工作负载的延迟都激增至 40 ms/op，但工作负载 A 对性能的影响更大，因为它的延迟偏差要更高，达到了 33 ms/op。

在“Event details（事件详细信息）”页面的“System Diagnosis（系统诊断）”部分，可按工作负载在集群组件上的活动、利用率或吞吐量偏差对其进行排序。也可按延迟对工作负载进行排序。在选择排序选项时，Unified Manager 会分析根据预期值检测到事件以来的活动、利用率、吞吐量或延迟偏差，以确定工作负载的排序顺序。在延迟中，红点（ Performance Manager 警告图标）表示受害者工作负载超出了性能阈值，且随后对延迟造成了影响。每个红点都表示更高级别的延迟偏差，这有助于您确定延迟受事件影响最大的受害者工作负载。

提供反馈