Fiabilidad, disponibilidad y capacidad de servicio

Este tema proporciona una descripción general de las funciones de fiabilidad, disponibilidad y capacidad de servicio (RAS, del inglés reliability, availability y serviceability) del servidor.

Tres importantes características del diseño del sistema son la fiabilidad, disponibilidad y capacidad de servicio (RAS, del inglés reliability, availability y serviceability). Las características RAS ayudan a asegurar la integridad de los datos almacenados en el servidor, la disponibilidad del servidor cuando lo necesita y la facilidad con la que es posible diagnosticar y corregir problemas.

El servidor tiene las características RAS siguientes:

Garantía limitada de tres (3) años para piezas y (3) años para mano de obra
Centro de soporte disponible las 24 horas
Recuperación y reintento automático de errores
Reinicio automático con interrupciones no enmascarables (NMI)
Reinicio automático después de una falla de alimentación
Conmutación del Basic Input/Output System de copia de seguridad bajo control del Integrated Management Module (IMM)
Supervisión incorporada para redundancia de ventilador, alimentación, voltaje y fuente de alimentación
Detección de presencia de cables en la mayoría de los conectores
Protección de memoria chipkill
Interrupción de comprobación de equipo corregido (CMCI)
Corrección de datos de dispositivo simple (SDDC) para DIMM con tecnología x4 DRAM (únicamente disponible para DIMM de 16 Gb) Garantiza que los datos estén disponibles en un DIMM simple x4 DRAM después del fallo de hasta dos DIMM DRAM. Se reserva un DIMM x4 DRAM en cada fila como un dispositivo de espacio.
Soporte de diagnósticos para adaptadores ServeRAID y Ethernet
Corrección de datos de dispositivo simple DRAM (SDDC)
Migración de memoria dinámica
Corrección de datos de dispositivo simple DRAM mejorada (SDDC+1)
Corrección de datos de dispositivo doble DRAM mejorada (SDDC+1)
Mensajes y códigos de error
Memoria del sistema y memoria caché L3 con código de corrección de error (ECC)
La identificación de DIMM ha fallado
Redundancia de duplicación de memoria de matriz completa (FAMM)
Ventiladores de refrigeración de intercambio en caliente con funciones de sensor de velocidad
Unidades de disco duro de intercambio en caliente
Fuentes de alimentación redundantes y de intercambio en caliente
Subsistema de controlador de gestión de placa base integrado (BMC)
Integrated Management Module (IMM)
Panel de la pantalla LCD de visualización de información del sistema
LED de light path para DIMM, microprocesadores, adaptadores PCIe, unidades de disco duro, unidades de estado sólido, fuentes de alimentación, ventiladores, módulos de PCIe y módulos de E/S
Protección de paridad de dirección de memoria
Limpieza de memoria a demanda y limpieza de datos continua
Prueba de paridad y de código de corrección de error de memoria
Reducción del tamaño de la memoria (memoria no duplicada) Luego de reiniciar el servidor después de que el controlador de memoria detecta un error incorregible no duplicado y el controlador de memoria no puede recuperarse en funcionamiento, el IMM registra el error incorregible e informa al POST. POST realiza un mapeo lógico de la memoria con el error incorregible. El servidor se reinicia con la memoria instalada restante.
Soporte técnico para recambio de memoria y recambio de memoria
Regulación térmica de memoria
Programas de configuración controlada por menús, configuración del sistema y configuración de batería redundante de discos independientes (RAID)
Autoprueba incorporada de microprocesador (BIST), supervisión de señales de error interno, supervisión de señal de recorrido térmico interno, comprobación de configuración e identificación de anomalía del módulo de regulador de voltaje y microprocesador mediante diagnósticos de light path
Botón de interrupción no enmascarable (NMI)
Puesta en línea de la memoria del sistema operativo (cambio de capacidad)
Comprobación de paridad en los buses de PCIe
Soporte para agregado en caliente y extracción de PCIe
Conexión en caliente de PCIe (únicamente microprocesadores 2 y 3)
Gestión de la alimentación: conformidad con configuración avanzada e interfaz de alimentación (ACPI)
Autoprueba de encendido (POST)
Alertas de análisis predictivo de falla (PFA) en la memoria, unidades de disco duro SAS/SATA unidades de estado sólido y ventiladores
Capacidades Ethernet redundantes con soporte de conmutación por error
Fuentes de alimentación de intercambio en caliente redundantes y ventiladores de intercambio en caliente redundantes
Soporte de tarjeta de interfaz de red (NIC) redundante
Botón de recordatorio para apagar temporalmente el LED de error del sistema
Soporte para determinación de problemas del sistema remoto
Diagnóstico basado en ROM y actualización del código flash basado en ROM y diagnósticos
Sumas de comprobación de la ROM
Detección de presencia serie (SPD) en memoria, VPD en placa del sistema, fuente de alimentación, placas posteriores de las unidades de disco duro o unidad de estado sólido, microprocesador y bandeja de expansión de la memoria y adaptadores Ethernet
Aislamiento de DIMM único de error corregible excesivo o error de varios bits de UEFI (Unified Extensible Firmware Interface)
Conmutación por error del reloj de SMI
Conmutación por error de ruta SMI
Reintento del paquete SMI
Unidades de estado sólido
Voltaje en espera para las características de gestión de sistemas y supervisión
Inicio (arranque) desde la LAN a través de la carga de programa inicial remota (RIPL) o protocolo de arranque/protocolo de configuración de host dinámico (DHCP/BOOTP)
Configuración automática del sistema desde el menú de configuración
Registro de errores del sistema (UEFI/POST e IMM)
Supervisión de gestión de sistemas mediante el bus de protocolo Inter-Integrated Circuit (I2C)
Supervisión de la temperatura y ventilador
Detección de error incorregible (UE)
POST actualizable, UEFI (Unified Extensible Firmware Interface), diagnósticos, firmware de IMM y código residente de memoria de solo lectura (ROM), de forma local o a través de LAN
Datos de producto fundamentales (VPD) en los módulos de expansión de la memoria y microprocesador, módulos de expansión de PCIe, módulo de E/S de base, módulo de E/S y de almacenamiento, fuentes de alimentación y placas posteriores de SAS/SATA (unidad de disco duro de intercambio en caliente o unidad de estado sólido)
Capacidad Wake on LAN

Entregar comentarios