Zum Hauptinhalt springen

GPU-Probleme

Verwenden Sie diese Informationen, um Probleme im Zusammenhang mit GPUs zu beheben.

GPU-Integritätsprüfung

Anmerkung
  • nvidia-smi

    Führen Sie das Dienstprogramm nvidia-smi aus, um die acht GPUs online anzuzeigen.

    Abbildung 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Führen Sie das Dienstprogramm nvidia-smi -L aus, um die acht GPUs online mit UUID anzuzeigen.

    Abbildung 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Führen Sie das Dienstprogramm nvidia-smi -q --id=1 -f <output file name> aus, um GPU-Bestandsinformationen zu exportieren.

    Geben Sie in <output file name> den gewünschten Dateinamen ein, um die Ausgabe zu speichern. Beispiel: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Abbildung 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Führen Sie das Dienstprogramm nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT aus, um ECC-Fehler (ECC – Error Checking and Correction, Fehlerüberprüfung und -korrektur) und den Status stillgelegter Seiten zu exportieren.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Führen Sie das Dienstprogramm nvidia-smi pci --getErrorCounters aus, um Fehlerzähler der acht GPUs anzuzeigen.

    Abbildung 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Führen Sie das Dienstprogramm nvidia-smi pci --getErrorCounters --id=<id number> aus, um Fehlerzähler für eine bestimmte GPU anzuzeigen.

    Geben Sie die ID-Nummer einer bestimmten GPU in <id number> ein. Beispiel: nvidia-smi pci --getErrorCounters --id=2.

    Abbildung 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>