Saltar al contenido principal

Fiabilidad, disponibilidad y capacidad de servicio

Este tema proporciona una descripción general de las funciones de fiabilidad, disponibilidad y capacidad de servicio (RAS, del inglés reliability, availability y serviceability) del servidor.

Tres importantes características del diseño del sistema son la fiabilidad, disponibilidad y capacidad de servicio (RAS, del inglés reliability, availability y serviceability). Las características RAS ayudan a asegurar la integridad de los datos almacenados en el servidor, la disponibilidad del servidor cuando lo necesita y la facilidad con la que es posible diagnosticar y corregir problemas.

El servidor tiene las características RAS siguientes:
  • Garantía limitada de tres (3) años para piezas y (3) años para mano de obra
  • Centro de soporte disponible las 24 horas
  • Recuperación y reintento automático de errores
  • Reinicio automático con interrupciones no enmascarables (NMI)
  • Reinicio automático después de una falla de alimentación
  • Conmutación del Basic Input/Output System de copia de seguridad bajo control del Integrated Management Module (IMM)
  • Supervisión incorporada para redundancia de ventilador, alimentación, voltaje y fuente de alimentación
  • Detección de presencia de cables en la mayoría de los conectores
  • Protección de memoria chipkill
  • Interrupción de comprobación de equipo corregido (CMCI)
  • Corrección de datos de dispositivo simple (SDDC) para DIMM con tecnología x4 DRAM (únicamente disponible para DIMM de 16 Gb) Garantiza que los datos estén disponibles en un DIMM simple x4 DRAM después del fallo de hasta dos DIMM DRAM. Se reserva un DIMM x4 DRAM en cada fila como un dispositivo de espacio.
  • Soporte de diagnósticos para adaptadores ServeRAID y Ethernet
  • Corrección de datos de dispositivo simple DRAM (SDDC)
  • Migración de memoria dinámica
  • Corrección de datos de dispositivo simple DRAM mejorada (SDDC+1)
  • Corrección de datos de dispositivo doble DRAM mejorada (SDDC+1)
  • Mensajes y códigos de error
  • Memoria del sistema y memoria caché L3 con código de corrección de error (ECC)
  • La identificación de DIMM ha fallado
  • Redundancia de duplicación de memoria de matriz completa (FAMM)
  • Ventiladores de refrigeración de intercambio en caliente con funciones de sensor de velocidad
  • Unidades de disco duro de intercambio en caliente
  • Fuentes de alimentación redundantes y de intercambio en caliente
  • Subsistema de controlador de gestión de placa base integrado (BMC)
  • Integrated Management Module (IMM)
  • Panel de la pantalla LCD de visualización de información del sistema
  • LED de light path para DIMM, microprocesadores, adaptadores PCIe, unidades de disco duro, unidades de estado sólido, fuentes de alimentación, ventiladores, módulos de PCIe y módulos de E/S
  • Protección de paridad de dirección de memoria
  • Limpieza de memoria a demanda y limpieza de datos continua
  • Prueba de paridad y de código de corrección de error de memoria
  • Reducción del tamaño de la memoria (memoria no duplicada) Luego de reiniciar el servidor después de que el controlador de memoria detecta un error incorregible no duplicado y el controlador de memoria no puede recuperarse en funcionamiento, el IMM registra el error incorregible e informa al POST. POST realiza un mapeo lógico de la memoria con el error incorregible. El servidor se reinicia con la memoria instalada restante.
  • Soporte técnico para recambio de memoria y recambio de memoria
  • Regulación térmica de memoria
  • Programas de configuración controlada por menús, configuración del sistema y configuración de batería redundante de discos independientes (RAID)
  • Autoprueba incorporada de microprocesador (BIST), supervisión de señales de error interno, supervisión de señal de recorrido térmico interno, comprobación de configuración e identificación de anomalía del módulo de regulador de voltaje y microprocesador mediante diagnósticos de light path
  • Botón de interrupción no enmascarable (NMI)
  • Puesta en línea de la memoria del sistema operativo (cambio de capacidad)
  • Comprobación de paridad en los buses de PCIe
  • Soporte para agregado en caliente y extracción de PCIe
  • Conexión en caliente de PCIe (únicamente microprocesadores 2 y 3)
  • Gestión de la alimentación: conformidad con configuración avanzada e interfaz de alimentación (ACPI)
  • Autoprueba de encendido (POST)
  • Alertas de análisis predictivo de falla (PFA) en la memoria, unidades de disco duro SAS/SATA unidades de estado sólido y ventiladores
  • Capacidades Ethernet redundantes con soporte de conmutación por error
  • Fuentes de alimentación de intercambio en caliente redundantes y ventiladores de intercambio en caliente redundantes
  • Soporte de tarjeta de interfaz de red (NIC) redundante
  • Botón de recordatorio para apagar temporalmente el LED de error del sistema
  • Soporte para determinación de problemas del sistema remoto
  • Diagnóstico basado en ROM y actualización del código flash basado en ROM y diagnósticos
  • Sumas de comprobación de la ROM
  • Detección de presencia serie (SPD) en memoria, VPD en placa del sistema, fuente de alimentación, placas posteriores de las unidades de disco duro o unidad de estado sólido, microprocesador y bandeja de expansión de la memoria y adaptadores Ethernet
  • Aislamiento de DIMM único de error corregible excesivo o error de varios bits de UEFI (Unified Extensible Firmware Interface)
  • Conmutación por error del reloj de SMI
  • Conmutación por error de ruta SMI
  • Reintento del paquete SMI
  • Unidades de estado sólido
  • Voltaje en espera para las características de gestión de sistemas y supervisión
  • Inicio (arranque) desde la LAN a través de la carga de programa inicial remota (RIPL) o protocolo de arranque/protocolo de configuración de host dinámico (DHCP/BOOTP)
  • Configuración automática del sistema desde el menú de configuración
  • Registro de errores del sistema (UEFI/POST e IMM)
  • Supervisión de gestión de sistemas mediante el bus de protocolo Inter-Integrated Circuit (I2C)
  • Supervisión de la temperatura y ventilador
  • Detección de error incorregible (UE)
  • POST actualizable, UEFI (Unified Extensible Firmware Interface), diagnósticos, firmware de IMM y código residente de memoria de solo lectura (ROM), de forma local o a través de LAN
  • Datos de producto fundamentales (VPD) en los módulos de expansión de la memoria y microprocesador, módulos de expansión de PCIe, módulo de E/S de base, módulo de E/S y de almacenamiento, fuentes de alimentación y placas posteriores de SAS/SATA (unidad de disco duro de intercambio en caliente o unidad de estado sólido)
  • Capacidad Wake on LAN