可靠性、可用性和可维护性
计算机设计中有三个重要特性,即可靠性、可用性和可维护性(RAS)。RAS 功能有助于确保服务器上存储的数据的完整性、当需要服务器时它的可用性以及诊断和纠正问题的简便性。
您的服务器具有以下 RAS 功能:
- 3 年部件和 3 年人工有限保修(机器类型 类型 3633)
- 1 年部件和 1 年人工有限保修(机器类型 类型 3943)
- 在 Integrated Management Module 2.1 (IMM2.1) 的控制下切换备份 BIOS
- 24 小时支持中心
- Call Home 服务
- 用于确定故障根本原因的首次故障数据捕获(FFDC)
- 针对 PCIe 主机和根机群、PCIe 链路和 PCIe 适配器故障的扩展错误处理(EEH)
电源模块错误检测
VRD 故障检测
I/O 故障处理
微处理器内部错误检测
微处理器内部热断路
- 纠错码(ECC)二级高速缓存和系统内存
- 冗余的热插拔电源模块
- 热插拔硬盘
- 高级内存功能:
单位内存错误检测
单位内存错误硬件纠正
多单位内存错误检测
- 微处理器调速
- 内存过热调速
- 故障预警分析(PFA)警报
Integrated Management Module(IMM)
- 通过集成电路(IC)间协议总线进行系统管理监控
- 用于系统管理功能部件和监控的备用电压
- 电源受管理,并且符合高级配置和电源接口(ACPI)规范
- 开机自检(POST)
- 系统错误日志记录(POST 和 IMM)
- 错误代码和消息
信息和 light path 诊断程序 LED 面板
内存 SPD 和 TruDDR4 倡议
支持 NIC 故障转移
当发生不可屏蔽中断(NMI)时自动重新启动
- 强制操作系统转储(NMI 按钮)
从 USB 设备引导
远程系统重新启动
自动错误重试和恢复
从温度过高恢复正常
恢复缺省 CMOS 设置按钮
刀片服务器有重要产品数据(VPD)唯一标识符,并且所有主要电子元件的信息均存储在非易失性存储器中供远程查看
环境温度监控器和警报
内存温度监控器和警报
处理器温度监控器和警报
可本地升级或通过 LAN 升级 POST、UEFI、诊断程序、IMM 固件和只读存储器(ROM)中驻留的代码
板载 Pre-Boot 诊断
以太网诊断
RAID 诊断
《安装和维护指南》
提供反馈