跳到主要内容

响应由磁盘故障引起的动态性能事件

可使用 Unified Manager 来调查因工作负载过度利用聚合而导致的性能事件。还可使用 Unified Manager 检查聚合的运行状况,以确定聚合上检测到的近期运行状况事件是否为导致该性能事件的原因。

  • 您必须具有操作员、应用程序管理员或存储管理员角色。
  • 必须有、已确认或废弃性能事件。
  1. 显示“Event details(事件详细信息)”页面以查看有关事件的信息。
  2. 阅读“Description(描述)”,其中说明了事件中涉及的工作负载以及处于争用状态的集群组件。
    多个受害者卷的延迟都因集群组件处于争用状态而受到影响。位于 RAID 重建中间、以备用磁盘来替换故障磁盘的聚合为处于争用状态的集群组件。在“Component in Contention(争用中的组件)”下,“聚合”图标以红色突出显示,聚合名称括于括号内。
  3. 在工作负载利用率图表中,选择Bully Workloads(抢夺者工作负载)
  4. 将光标悬停在图表上以查看影响该组件的主要抢夺者工作负载。
    自检测到事件之后峰值利用率达到最高的主要工作负载将显示在图表顶部。主要工作负载包括系统定义的工作负载磁盘运行状况,它表示 RAID 重建。重建是通过备用磁盘重新建立聚合的内部流程。磁盘运行状况工作负载,以及聚合上的其他工作负载很可能会导致聚合争用和相关事件。
  5. 确认事件是由磁盘运行状况工作负载的活动导致后,请等待大约 30 分钟,以供完成重建及让 Unified Manager 分析事件并检测聚合是否仍处于争用状态。
  6. 刷新“Event details(事件详细信息)”
    RAID 重建完成后,请检查“State(状态)”是否为废弃,这表示事件已解决。
  7. 在工作负载利用率图表中,选择Bully Workloads(抢夺者工作负载),以按峰值利用率查看聚合上的工作负载。
  8. “Suggested Actions(建议的操作)”区域中,单击主要工作负载的 分析工作负载按钮
  9. “Workload Analysis(工作负载分析)”页面中,设置“时间范围”以显示所选卷在最近 24 小时(1 天)内的数据。
    “Event Timeline(事件时间轴)”中,红点(Performance Manager 事件图标)表示发生磁盘故障事件。
  10. 在节点和聚合利用率图表中,隐藏节点统计信息行,以仅显示聚合行。
  11. 将此图表中的数据与“Latency(延迟)”图表中事件发生时的数据进行比较。
    事件发生时,由于正在执行 RAID 重建流程,聚合利用率显示出大量读取和写入活动,从而增加了所选卷的延迟。事件发生几小时后,读取、写入和延迟都已减少,这表示聚合不再处于争用状态。