Saltar al contenido principal

Problemas de GPU H100/H200

Utilice esta información para resolver problemas relacionados con las GPU.

Comprobación de estado de las GPU

Nota

Utilice una de las siguientes utilidades para comprobar el estado de las GPU. Asegúrese de actualizar el controlador de GPU, que incluye las siguientes utilidades requeridas. Puede encontrar el controlador más reciente en Sitio web de descarga de controladores y software de ThinkSystem SR780a V3.

Para obtener más información acerca de la interfaz de gestión del sistema (SMI), consulte Interfaz de gestión del sistema NVIDIA.

  • nvidia-smi

    Ejecute la utilidad nvidia-smi para mostrar las ocho GPU en línea.

    Nota
    Los números de GPU (de 0 a 7) de la salida son los números lógicos. En la tabla siguiente, se muestra la información de asignación entre los números lógicos y los zócalos de GPU físicos.
    Número lógicoZócalo de GPU físicoUbicación del zócalo de GPU
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    Figura 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Ejecute la utilidad nvidia-smi -L para mostrar las ocho GPU en línea con UUID.

    Nota
    Los números de GPU (de 0 a 7) de la salida son los números lógicos. En la tabla siguiente, se muestra la información de asignación entre los números lógicos y los zócalos de GPU físicos.
    Número lógicoZócalo de GPU físicoUbicación del zócalo de GPU
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    Figura 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Ejecute la utilidad nvidia-smi -q --id=1 -f <output file name> para exportar información de inventario de GPU.

    Escriba el nombre de archivo deseado en <output file name> para almacenar la salida. Por ejemplo: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Figura 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Ejecute la utilidad nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT para exportar los errores ECC (comprobación y corrección de errores) y el estado de las páginas retiradas.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Ejecute la utilidad nvidia-smi pci --getErrorCounters para mostrar los contadores de errores de las ocho GPU.

    Figura 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Ejecute la utilidad nvidia-smi pci --getErrorCounters --id=<id number> para mostrar los contadores de errores de una GPU específica.

    Escriba el número de ID de una GPU específica en <id number>. Por ejemplo: nvidia-smi pci --getErrorCounters --id=2.

    Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

El sistema no puede detectar una GPU específica

Cuando uno de los eventos aparece en el registro de eventos web de XCC, indica que el sistema no puede detectar una o más GPU específicas.

  • Cuando aparezca el evento FQXSPIO0015M: Error en la ranura [PhysicalConnectorSystemElementName] del sistema [ComputerSystemElementName], consulte FQXSPIO0015M para solucionar el problema.
  • Cuando aparezca el evento FQXSFIO0010M: Se ha producido un error incorregible de PCIe en el bus [arg1] dispositivo [arg2] función [arg3]. El Id. del proveedor del dispositivo es [arg4] y el Id. del dispositivo es [arg5]. El número de la [arg6] física es [arg7]., consulte FQXSFIO0010M para solucionar el problema.
    Nota
    Parámetros:
    • [arg1] Bus
    • [arg2] Dispositivo
    • [arg3] Función
    • [arg4] VID
    • [arg5] DID
    • [arg6] Ranura/bahía
    • [arg7] Número de instancia
  • Cuando aparezca el evento FQXSPUN0019M: El sensor [SensorElementName] ha cambiado al estado crítico desde un estado de menor gravedad, consulte FQXSPUN0019M para solucionar el problema.
Nota
En la tabla siguiente, se muestra la información de asignación entre la numeración de las ranuras en XCC y los zócalos de GPU físicos.
Numeración de ranuras en XCCZócalos de GPU físicosUbicación de los zócalos de GPU
Ranura 17GPU 5

Ranura 18GPU 7
Ranura 19GPU 8
Ranura 20GPU 6
Ranura 21GPU 1
Ranura 22GPU 3
Ranura 23GPU 4
Ranura 24GPU 2