判断错误的原因
使用以下诊断过程找出并解决受管环境中可能发生的问题。
过程
- 登录到 Operations Manager 控制台。
- 单击 Monitoring(监控)。
- 要查看具有 Windows 操作系统的所有受管系统的状态,请单击 Lenovo Hardware > Windows on Lenovo servers(Lenovo 服务器上的 Windows)。
- 检查顶部结果窗格中显示的系统的运行状况。缺省情况下,新发现的所有对象均处于正常运行状态。运行状况检查监视任务根据缺省间隔设置,定期更新对象的状态。可使用 override-controlled 参数配置监控频率。有关 override-controlled 参数的详细信息,请参阅 Microsoft System Center Operations Manager 文档。
- 选择某个显示 Critical 或 Warning 状态的系统。
- 判断错误与硬件还是软件相关。
与硬件相关的故障:检查 All Windows on Lenovo server Group(Lenovo 服务器组上的所有 Windows)窗格中的 Lenovo Hardware Components(Lenovo 硬件组件)以选择系统。滚动至右侧以查看所有组件状态和数据。可使此视图个性化。
此窗格包含基于硬件组件类别的状态视图。此视图的用途是访问每个组件实例的详细属性。在 Detail View(详细信息视图)窗格中查找其他系统信息。
与软件相关的故障:检查 All Windows on Lenovo server Group(Lenovo 服务器组上的所有 Windows)窗格中的 Windows Computer(Windows 计算机)。此窗格包含基于软件组件类别的状态视图和信息。选择某个具有 Critical 或 Warning 运行状况状态的系统。
这些视图的用途是访问每个组件实例的详细属性。Detail View(详细信息视图)显示系统软件的所有实例以及四个运行状况方面之一的运行状况状态。
- 要获取有关故障的更多信息和详细信息,请通过单击 BladeCenter Chassis and Modules(BladeCenter 机箱和模块),访问所需的 BladeCenter 模块或硬件系统组件的硬件信息。
- 可选: 例如,如果已知某个电源组件发生故障,则选择相关视图 Lenovo BladeCenter Power Modules(Lenovo BladeCenter 电源模块)以判断电源的问题。
- 单击某个 Critical(紧急)电源模块并查看其相关数据。
- 查看在 Detail View(详细信息视图)窗格中显示的信息和数据。检查该模块类型的所有实例及其四个运行状况方面中的每个方面。
- 右键单击所选模块,然后单击 open(打开) > Health Explorer(运行状况资源管理器)。
- 选择该警报并查看 State Change Events(状态更改事件)页面上的信息。
- 根据所具有的警报类型,可单击 View Alert(查看警报)以了解详细信息。
- 单击 Knowledge(知识)选项卡以阅读 Knowledge(知识)页面及与警报相关的一篇或多篇知识库文章。重要除了对于每个对象可获得的运行状况信息之外,还可从其他在不同角度与运行状况相关的对象获取相关信息。例如,通过其 Platform Agent 受到带内监控的刀片服务器显示一种运行状况状态,但
BladeCenter Chassis Management Module 对于该刀片服务器也显示一种运行状况状态。 其他 BladeCenter 机箱模块可能会影响该刀片服务器运行状况,如向该刀片服务器供电的电源模块。同样,管理模块角度下刀片服务器的运行状况可能包括该刀片服务器上运行的操作系统的运行状况和其他信息。
例如,以下 BladeCenter 简单网络管理协议(SNMP)警报的事件说明字段为 1.3.6.1.4.1.2.6.158.3.1.1.8,而事件标识为 1.3.6.1.4.1.2.6.158.3.1.1.14。将十进制事件标识值转换为十六进制数以查找《高级管理模块消息指南》中的消息。
图 1. System x Windows Management Instrumentation(WMI)事件对于 System x WMI 事件,Details(详细信息)窗格包括事件标识和说明。图 2. State Change Events(状态更改事件)选项卡详细信息的示例
提供反馈