Problemas de GPU
Utilice esta información para resolver problemas relacionados con las GPU.
Comprobación de estado de las GPU
Utilice una de las siguientes utilidades para comprobar el estado de las GPU. Asegúrese de actualizar el controlador de GPU, que incluye las siguientes utilidades requeridas. Puede encontrar el controlador más reciente en Sitio web de descarga de controladores y software para ThinkSystem SR680a V4.
Para obtener más información acerca de la interfaz de gestión del sistema (SMI), consulte Interfaz de gestión del sistema NVIDIA.
nvidia-smi
Ejecute la utilidad nvidia-smi para mostrar las ocho GPU en línea.
Figura 1. nvidia-smi
nvidia-smi -L
Ejecute la utilidad nvidia-smi -L para mostrar las ocho GPU en línea con UUID.
Figura 2. nvidia-smi -L
nvidia-smi -q --id=1 -f <output file name>
Ejecute la utilidad nvidia-smi -q --id=1 -f <output file name> para exportar información de inventario de GPU.
Escriba el nombre de archivo deseado en <output file name> para almacenar la salida. Por ejemplo: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Figura 3. nvidia-smi -q --id=1 -f <output file name>
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Ejecute la utilidad nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT para exportar los errores ECC (comprobación y corrección de errores) y el estado de las páginas retiradas.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Ejecute la utilidad nvidia-smi pci --getErrorCounters para mostrar los contadores de errores de las ocho GPU.
Figura 4. nvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters --id=<id number>
Ejecute la utilidad nvidia-smi pci --getErrorCounters --id=<id number> para mostrar los contadores de errores de una GPU específica.
Escriba el número de ID de una GPU específica en <id number>. Por ejemplo: nvidia-smi pci --getErrorCounters --id=2.
Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>