Saltar al contenido principal

Fiabilidad, disponibilidad y capacidad de servicio

Tres importantes características del diseño del sistema son la fiabilidad, disponibilidad y capacidad de servicio (RAS, del inglés reliability, availability y serviceability). Las características RAS ayudan a asegurar la integridad de los datos almacenados en el servidor, la disponibilidad del servidor cuando lo necesita y la facilidad con la que es posible diagnosticar y corregir problemas.

El servidor tiene las características RAS siguientes:
  • Garantía limitada de piezas de 3 año y de mano de obra de 3 año o de piezas de 5 años y de mano de obra de 5 años (Tipo de máquina 8693)
  • Centro de soporte disponible las 24 horas
  • Recuperación y reintento automático de errores
  • Reinicio automático con interrupciones no enmascarables (NMI)
  • Reinicio automático después de una falla de alimentación
  • Conmutación del Basic Input/Output System de copia de seguridad bajo control del Integrated Management Module (IMM)
  • Supervisión incorporada para redundancia de ventilador, alimentación, voltaje y fuente de alimentación
  • Detección de presencia de cables en la mayoría de los conectores
  • Protección de memoria chipkill
  • Corrección de datos de dispositivo doble (DDDC) para DIMM con tecnología x4 DRAM (únicamente disponible para DIMM de 16 Gb) Garantiza que los datos estén disponibles en un DIMM simple x4 DRAM después del fallo de hasta dos DIMM DRAM. Se reserva un DIMM x4 DRAM en cada fila como un dispositivo de espacio.
  • Soporte de diagnósticos para adaptadores Ethernet
  • Mensajes y códigos de error
  • Memoria del sistema y memoria caché L3 con código de corrección de error (ECC)
  • Redundancia de duplicación de memoria de matriz completa (FAMM)
  • Ventiladores de refrigeración de intercambio en caliente con funciones de sensor de velocidad
  • Unidades de disco duro de intercambio en caliente
  • Integrated Management Module (IMM)
  • Soporte para recambio de memoria y duplicación de memoria
  • Prueba de paridad y de código de corrección de error de memoria
  • Reducción del tamaño de la memoria (memoria no duplicada). Luego de reiniciar el servidor después de que el controlador de memoria detectó un error incorregible no duplicado y el controlador de memoria no puede recuperarse en funcionamiento, el IMM registra el error incorregible e informa al POST. POST realiza un mapeo lógico de la memoria con el error incorregible. El servidor se reinicia con la memoria instalada restante.
  • Programas de configuración controlada por menús, configuración del sistema y configuración de batería redundante de discos independientes (RAID)
  • Autoprueba incorporada de microprocesador (BIST), supervisión de señales de error interno, supervisión de señal de recorrido térmico interno, comprobación de configuración e identificación de anomalía del módulo de regulador de voltaje y microprocesador mediante diagnósticos de light path
  • Botón de interrupción no enmascarable (NMI)
  • Comprobación de paridad en el bus SCSI (Small Computer System Interface) y buses PCI-E y PCI
  • Gestión de alimentación: conformidad con la configuración avanzada y interfaz de alimentación (ACPI)
  • Autoprueba de encendido (POST)
  • Alertas proactivas de plataforma (incluye alertas de análisis de error predictivo y autosupervisión y tecnologías de análisis y de creación de informes) : microprocesadores, reguladores de voltaje, memoria, almacenamiento interno (unidades de disco duro y unidades de estado sólido SAS/SATA, unidades de estado sólido NVMe, almacenamiento M.2, adaptadores de almacenamiento flash), ventiladores, fuentes de alimentación, controladores de RAID y temperatura de ambiente de servidores y subcomponentes
  • Capacidades Ethernet redundantes con soporte de conmutación por error
  • Fuentes de alimentación de intercambio en caliente redundantes y ventiladores de intercambio en caliente redundantes
  • Soporte de tarjeta de interfaz de red (NIC) redundante
  • Botón de recordatorio para apagar temporalmente el LED de error del sistema
  • Soporte para determinación de problemas del sistema remoto
  • Diagnósticos basados en la ROM
  • Sumas de comprobación de la ROM
  • Detección de presencia serie (SPD) en memoria, VPD en placa del sistema, fuente de alimentación, placas posteriores de las unidades de disco duro o unidad de estado sólido, microprocesador y bandeja de expansión de la memoria y tarjetas Ethernet
  • Aislamiento de DIMM único de error corregible excesivo o error de varios bits de UEFI (Unified Extensible Firmware Interface)
  • Unidades de estado sólido
  • Voltaje en espera para las características de gestión de sistema y de supervisión
  • Inicio (arranque) desde la LAN a través de la carga de programa inicial remota (RIPL) o protocolo de arranque/protocolo de configuración de host dinámico (DHCP/BOOTP)
  • Configuración automática del sistema desde el menú de configuración
  • Registro de errores del sistema (POST e IMM)
  • Supervisión de gestión de sistema mediante el bus de protocolo Inter-Integrated Circuit (IC)
  • Detección de error incorregible (UE)
  • POST actualizable, UEFI (Unified Extensible Firmware Interface), diagnósticos, firmware de IMM y código residente de memoria de solo lectura (ROM), de forma local o a través de LAN
  • Datos vitales del producto (VPD) en microprocesadores, la placa del sistema, las fuentes de alimentación y la placa posterior SAS/SATA (unidad de disco duro de intercambio en caliente o unidad de estado sólido)
  • Capacidad Wake on LAN