Problemas de GPU
Use essas informações para resolver problemas relacionados a GPUs.
Verificação de funcionamento de GPUs
Use um dos utilitários a seguir para verificar o status de funcionamento da GPU. Atualize o driver da GPU, que inclui os utilitários necessários a seguir. O driver mais recente pode ser localizado em Site de download de drivers e software para ThinkSystem SR680a V4.
Para obter mais informações sobre informações da SMI (System Management Interface), consulte Interface de Gerenciamento do Sistema NVIDIA.
nvidia-smi
Execute o utilitário nvidia-smi para exibir as oito GPUs online.
Figura 1. nvidia-smi
nvidia-smi -L
Execute o utilitário nvidia-smi -L para exibir as oito GPUs online com UUID.
Figura 2. nvidia-smi -L
nvidia-smi -q --id=1 -f <output file name>
Execute o utilitário nvidia-smi -q --id=1 -f <output file name> para exportar informações de inventário de GPU.
Digite o nome do arquivo desejado em <output file name> para armazenar a saída. Por exemplo: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Figura 3. nvidia-smi -q --id=1 -f <output file name>
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Execute o utilitário nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT para exportar erros ECC (Verificação e Correção de Erros) e status de páginas desativadas.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Execute o utilitário nvidia-smi pci --getErrorCounters para exibir contadores de erro das oito GPUs.
Figura 4. nvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters --id=<id number>
Execute o utilitário nvidia-smi pci --getErrorCounters --id=<id number> para exibir contadores de erro de uma GPU específica.
Digite o número de ID de uma GPU específica em <id number>. Por exemplo: nvidia-smi pci --getErrorCounters --id=2.
Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>