跳到主要内容

事件与阈值概览

您可在“事件和阈值”界面查看数据中心管理的预定义事件或自定义事件和所有实体的阈值。“事件和阈值”界面显示所有事件和阈值,事件列表可以进一步以时间或严重等级等为标准进行筛选。等级定义如下:

严重等级

图标

说明

自定义

包含所有的自定义事件

严重

可能导致Energy Manager无法正常工作的事件

错误

引发在特定节点上的错误,或者Energy Manager的非关键性错误的事件

警告

可能会很快引发错误的事件

信息

不报告错误的事件

Note
Energy Manager的各个显示界面中共有三处“事件”列表:
  • “事件”页面列出了所有的预定义事件以及关于自定义事件。

  • “信息中心”界面内的“事件”列表只列出了“严重”等级和基于阈值的事件。

  • “数据中心管理”页面内“概要信息”页签的“事件”列表列出了指定实体上的所有事件。

Note

以下列出了一些典型事件的内容, 以及解决此类事件的小贴示。

事件类型

内容描述

解决方法

PLATFORM_OPERATION_FAILED

这个事件类型可能是由平台问题引起的,包括平台错误,平台不稳定或者平台忙碌。典型的事件描述包括如下内容:

  1. Plugin Operation Exception: command code: 34, completion code: ffffff83, failure reason: ERROR_COMPLETION_CODE, detailed message: Response for command: 0x34, NetFn[LUN: 0x1C. Completion code: 0x83 Unknown completion code-125. Additional data 0 bytes: …

  2. Platform operation failed: System is on, but ME power measurement is suspended.

  3. Platform operation failed: Thermal is not supported in the node: …

  4. Platform operation failed: NM3.0 get cups data error. Plugin Operation Exception: ……

  5. Platform operation failed: NM 3.0 get cups data error. Receive timeout, state =TIMEOUT

  6. Platform operation failed: NM Airflow temperature measurement is pending in the node: …

首先检查一下设备的能耗和温度的状态和走势,如果这两个数据显示正常,你可以忽略该事件。如果这两个数据显示异常,你可以试着通过下述的方法解决:

  • 断电重启被管设备。

  • 更新固件BIOS/BMC到最新的版本。

INTERNAL_ERROR

这个事件类型可能是由平台问题引起的,包括平台错误,平台暂时忙碌和一些不支持的行为。典型的事件描述包括如下内容:

Set average period for POWER with value: 60 failed!

  • 断电重启被管设备。

  • 更新固件BIOS/BMC到最新的版本。

COMMUNICATION_WITH_NODE_FAILED

这个事件类型可能是由通讯问题引起的,典型的事件描述包括如下内容:

  1. Receive timeout, state = TIMEOUT

  2. IPMI session has not been created!

你可以试着通过下述的方法解决:

  • 检查网络状态,例如NIC端口情况和网线情况,确定设备可以被监测。

  • 重置BMC。

CANT_SET_NODE_EVENT

这个时间类型可能是由通讯问题和平台问题引起的,典型的事件描述包括如下内容:

Failed to subscribe Predefined-Events with node Id: 46 Error: Failed to receive test event from node…

你可以试着通过下述的方法解决:

  • 检查网络状态,例如NIC端口情况和网线情况,确定设备可以被监测。

  • 更新固件BMC到最新的版本。