Fiabilidad, disponibilidad y capacidad de servicio

Tres importantes características del diseño del sistema son la fiabilidad, disponibilidad y capacidad de servicio (RAS, del inglés reliability, availability y serviceability). Las características RAS ayudan a asegurar la integridad de los datos almacenados en el servidor, la disponibilidad del servidor cuando lo necesita y la facilidad con la que es posible diagnosticar y corregir problemas.

El servidor tiene las características RAS siguientes:

Garantía limitada de piezas de 3 año y de mano de obra de 3 año o de piezas de 5 años y de mano de obra de 5 años (Tipo de máquina 8693)
Centro de soporte disponible las 24 horas
Recuperación y reintento automático de errores
Reinicio automático con interrupciones no enmascarables (NMI)
Reinicio automático después de una falla de alimentación
Conmutación del Basic Input/Output System de copia de seguridad bajo control del Integrated Management Module (IMM)
Supervisión incorporada para redundancia de ventilador, alimentación, voltaje y fuente de alimentación
Detección de presencia de cables en la mayoría de los conectores
Protección de memoria chipkill
Corrección de datos de dispositivo doble (DDDC) para DIMM con tecnología x4 DRAM (únicamente disponible para DIMM de 16 Gb) Garantiza que los datos estén disponibles en un DIMM simple x4 DRAM después del fallo de hasta dos DIMM DRAM. Se reserva un DIMM x4 DRAM en cada fila como un dispositivo de espacio.
Soporte de diagnósticos para adaptadores Ethernet
Mensajes y códigos de error
Memoria del sistema y memoria caché L3 con código de corrección de error (ECC)
Redundancia de duplicación de memoria de matriz completa (FAMM)
Ventiladores de refrigeración de intercambio en caliente con funciones de sensor de velocidad
Unidades de disco duro de intercambio en caliente
Integrated Management Module (IMM)
Soporte para recambio de memoria y duplicación de memoria
Prueba de paridad y de código de corrección de error de memoria
Reducción del tamaño de la memoria (memoria no duplicada). Luego de reiniciar el servidor después de que el controlador de memoria detectó un error incorregible no duplicado y el controlador de memoria no puede recuperarse en funcionamiento, el IMM registra el error incorregible e informa al POST. POST realiza un mapeo lógico de la memoria con el error incorregible. El servidor se reinicia con la memoria instalada restante.
Programas de configuración controlada por menús, configuración del sistema y configuración de batería redundante de discos independientes (RAID)
Autoprueba incorporada de microprocesador (BIST), supervisión de señales de error interno, supervisión de señal de recorrido térmico interno, comprobación de configuración e identificación de anomalía del módulo de regulador de voltaje y microprocesador mediante diagnósticos de light path
Botón de interrupción no enmascarable (NMI)
Comprobación de paridad en el bus SCSI (Small Computer System Interface) y buses PCI-E y PCI
Gestión de alimentación: conformidad con la configuración avanzada y interfaz de alimentación (ACPI)
Autoprueba de encendido (POST)
Alertas proactivas de plataforma (incluye alertas de análisis de error predictivo y autosupervisión y tecnologías de análisis y de creación de informes) : microprocesadores, reguladores de voltaje, memoria, almacenamiento interno (unidades de disco duro y unidades de estado sólido SAS/SATA, unidades de estado sólido NVMe, almacenamiento M.2, adaptadores de almacenamiento flash), ventiladores, fuentes de alimentación, controladores de RAID y temperatura de ambiente de servidores y subcomponentes
Capacidades Ethernet redundantes con soporte de conmutación por error
Fuentes de alimentación de intercambio en caliente redundantes y ventiladores de intercambio en caliente redundantes
Soporte de tarjeta de interfaz de red (NIC) redundante
Botón de recordatorio para apagar temporalmente el LED de error del sistema
Soporte para determinación de problemas del sistema remoto
Diagnósticos basados en la ROM
Sumas de comprobación de la ROM
Detección de presencia serie (SPD) en memoria, VPD en placa del sistema, fuente de alimentación, placas posteriores de las unidades de disco duro o unidad de estado sólido, microprocesador y bandeja de expansión de la memoria y tarjetas Ethernet
Aislamiento de DIMM único de error corregible excesivo o error de varios bits de UEFI (Unified Extensible Firmware Interface)
Unidades de estado sólido
Voltaje en espera para las características de gestión de sistema y de supervisión
Inicio (arranque) desde la LAN a través de la carga de programa inicial remota (RIPL) o protocolo de arranque/protocolo de configuración de host dinámico (DHCP/BOOTP)
Configuración automática del sistema desde el menú de configuración
Registro de errores del sistema (POST e IMM)
Supervisión de gestión de sistema mediante el bus de protocolo Inter-Integrated Circuit (IC)
Detección de error incorregible (UE)
POST actualizable, UEFI (Unified Extensible Firmware Interface), diagnósticos, firmware de IMM y código residente de memoria de solo lectura (ROM), de forma local o a través de LAN
Datos vitales del producto (VPD) en microprocesadores, la placa del sistema, las fuentes de alimentación y la placa posterior SAS/SATA (unidad de disco duro de intercambio en caliente o unidad de estado sólido)
Capacidad Wake on LAN

Entregar comentarios