Problemas de GPU H100/H200
Utilice esta información para resolver problemas relacionados con las GPU.
Comprobación de estado de las GPU
Utilice una de las siguientes utilidades para comprobar el estado de las GPU. Asegúrese de actualizar el controlador de GPU, que incluye las siguientes utilidades requeridas. Puede encontrar el controlador más reciente en Sitio web de descarga de controladores y software de ThinkSystem SR780a V3.
Para obtener más información acerca de la interfaz de gestión del sistema (SMI), consulte Interfaz de gestión del sistema NVIDIA.
nvidia-smi
Ejecute la utilidad nvidia-smi para mostrar las ocho GPU en línea.
NotaLos números de GPU (de 0 a 7) de la salida son los números lógicos. En la tabla siguiente, se muestra la información de asignación entre los números lógicos y los zócalos de GPU físicos.Número lógico Zócalo de GPU físico Ubicación del zócalo de GPU 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 Figura 1. nvidia-sminvidia-smi -L
Ejecute la utilidad nvidia-smi -L para mostrar las ocho GPU en línea con UUID.
NotaLos números de GPU (de 0 a 7) de la salida son los números lógicos. En la tabla siguiente, se muestra la información de asignación entre los números lógicos y los zócalos de GPU físicos.Número lógico Zócalo de GPU físico Ubicación del zócalo de GPU 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 Figura 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
Ejecute la utilidad nvidia-smi -q --id=1 -f <output file name> para exportar información de inventario de GPU.
Escriba el nombre de archivo deseado en <output file name> para almacenar la salida. Por ejemplo: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Figura 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Ejecute la utilidad nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT para exportar los errores ECC (comprobación y corrección de errores) y el estado de las páginas retiradas.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Ejecute la utilidad nvidia-smi pci --getErrorCounters para mostrar los contadores de errores de las ocho GPU.
Figura 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
Ejecute la utilidad nvidia-smi pci --getErrorCounters --id=<id number> para mostrar los contadores de errores de una GPU específica.
Escriba el número de ID de una GPU específica en <id number>. Por ejemplo: nvidia-smi pci --getErrorCounters --id=2.
Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>
El sistema no puede detectar una GPU específica
Cuando uno de los eventos aparece en el registro de eventos web de XCC, indica que el sistema no puede detectar una o más GPU específicas.
- Cuando aparezca el evento FQXSPIO0015M: Error en la ranura [PhysicalConnectorSystemElementName] del sistema [ComputerSystemElementName], consulte FQXSPIO0015M para solucionar el problema.
- Cuando aparezca el evento FQXSFIO0010M: Se ha producido un error incorregible de PCIe en el bus [arg1] dispositivo [arg2] función [arg3]. El Id. del proveedor del dispositivo es [arg4] y el Id. del dispositivo es [arg5]. El número de la [arg6] física es [arg7]., consulte FQXSFIO0010M para solucionar el problema.NotaParámetros:
- [arg1] Bus
- [arg2] Dispositivo
- [arg3] Función
- [arg4] VID
- [arg5] DID
- [arg6] Ranura/bahía
- [arg7] Número de instancia
- Cuando aparezca el evento FQXSPUN0019M: El sensor [SensorElementName] ha cambiado al estado crítico desde un estado de menor gravedad, consulte FQXSPUN0019M para solucionar el problema.
Numeración de ranuras en XCC | Zócalos de GPU físicos | Ubicación de los zócalos de GPU |
---|---|---|
Ranura 17 | GPU 5 | ![]() |
Ranura 18 | GPU 7 | |
Ranura 19 | GPU 8 | |
Ranura 20 | GPU 6 | |
Ranura 21 | GPU 1 | |
Ranura 22 | GPU 3 | |
Ranura 23 | GPU 4 | |
Ranura 24 | GPU 2 |