跳到主要内容

刀片服务器显示看守程序超时消息

看守程序超时消息显示在高级管理模块事件日志中。如果 BladeCenter S 机箱中有多台刀片服务器,而您只看到其中某台刀片服务器的此类消息,请使用以下过程。

问题

高级管理模块事件日志显示有关 BladeCenter S 机箱中某台刀片服务器的看守程序超时消息。

研究

执行以下步骤解决问题:
  1. 查找刀片服务器和服务处理器的固件更新。查看固件更改历史记录中是否存在与看守程序超时错误相关的信息,必要时更新固件。

    通过访问软件和设备驱动程序 - IBM BladeCenter 并选择所安装的刀片服务器,您可以找到相应的固件。它通常列在 Advanced Systems Management 之下。

  2. 查找高级管理模块的固件更新。查看固件更改历史记录中是否存在与看守程序超时错误相关的信息,必要时更新固件。
  3. 验证刀片服务器是否正常运行。如果它可以响应,问题可能是假错情况。
    1. 验证刀片服务器上是否安装了 IBM 服务器自动重启(ASR)驱动程序。
    2. 更新刀片服务器上的服务处理器固件。
  4. 如果刀片服务器没有响应,请确定问题的原因:
    • 如果事件日志中存在此刀片服务器的 POST 看守程序超时消息,那么刀片服务器上的 BIOS 闪存映像可能受损。
      1. 如果刀片服务器中安装了 I/O 扩展卡,请将其卸下并重新引导刀片服务器。
        • 如果刀片服务器正确引导,请更换 I/O 扩展卡。
        • 如果刀片服务器仍然没有响应,请强制刀片服务器从备份闪存映像引导。您需要将刀片服务器从 BladeCenter S 机箱中卸下,打开外盖,并移动某个跳线。有关此过程的信息,请参阅刀片服务器随附的文档。
          • 如果刀片服务器从备份闪存映像引导,请更新刀片服务器的固件。
          • 如果刀片服务器仍然没有响应,请更换刀片服务器。
    • 如果事件日志中存在此刀片服务器的 OS 看守程序超时消息,请访问操作系统日志,以确定刀片服务器没有响应的原因。
      • 确定没有响应是由软件驱动程序引起,还是由模块错误导致。
      • 在事件日志中查找机器检查或内存错误。
      • 验证磁盘驱动程序和通信驱动程序是否最新。
  5. 检查事件日志中是否存在其他硬件相关的错误,如 CPU 或 DIMM 错误。如果看到看守程序超时发生之前有硬件故障发生,问题可能出在某台刀片服务器硬件组件中。按照常规调试过程进行操作,确定发生故障的硬件组件并对其进行更换。
    硬盘驱动器、I/O 卡和 I/O扩展模块可能因总线错误而导致 CPU 故障。