GPU-Probleme
Verwenden Sie diese Informationen, um Probleme im Zusammenhang mit GPUs zu beheben.
GPU-Integritätsprüfung
Verwenden Sie eines der folgenden Dienstprogramme, um den GPU-Integritätsstatus zu überprüfen. Stellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er die folgenden erforderlichen Dienstprogramme enthält. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für ThinkSystem SR680a V4.
Weitere Informationen zur SMI (System Management Interface, Systemverwaltungsschnittstelle) finden Sie unter NVIDIA-Systemverwaltungsschnittstelle.
nvidia-smi
Führen Sie das Dienstprogramm nvidia-smi aus, um die acht GPUs online anzuzeigen.
Abbildung 1. nvidia-smi
nvidia-smi -L
Führen Sie das Dienstprogramm nvidia-smi -L aus, um die acht GPUs online mit UUID anzuzeigen.
Abbildung 2. nvidia-smi -L
nvidia-smi -q --id=1 -f <output file name>
Führen Sie das Dienstprogramm nvidia-smi -q --id=1 -f <output file name> aus, um GPU-Bestandsinformationen zu exportieren.
Geben Sie in <output file name> den gewünschten Dateinamen ein, um die Ausgabe zu speichern. Beispiel: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Abbildung 3. nvidia-smi -q --id=1 -f <output file name>
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Führen Sie das Dienstprogramm nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT aus, um ECC-Fehler (ECC – Error Checking and Correction, Fehlerüberprüfung und -korrektur) und den Status stillgelegter Seiten zu exportieren.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Führen Sie das Dienstprogramm nvidia-smi pci --getErrorCounters aus, um Fehlerzähler der acht GPUs anzuzeigen.
Abbildung 4. nvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters --id=<id number>
Führen Sie das Dienstprogramm nvidia-smi pci --getErrorCounters --id=<id number> aus, um Fehlerzähler für eine bestimmte GPU anzuzeigen.
Geben Sie die ID-Nummer einer bestimmten GPU in <id number> ein. Beispiel: nvidia-smi pci --getErrorCounters --id=2.
Abbildung 5. nvidia-smi pci --getErrorCounters --id=<id number>