Passa al contenuto principale

Problemi relativi alla GPU

Utilizzare queste informazioni per risolvere i problemi correlati alle GPU.

Controllo dell'integrità delle GPU

Nota
  • nvidia-smi

    Eseguire l'utilità nvidia-smi per visualizzare le otto GPU online.

    Figura 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Eseguire l'utilità nvidia-smi -L per visualizzare le otto GPU online con UUID.

    Figura 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Eseguire l'utilità nvidia-smi -q --id=1 -f <output file name> per esportare le informazioni sull'inventario della GPU.

    Digitare il nome del file desiderato in <output file name> per memorizzare l'output. Ad esempio: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Figura 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Eseguire l'utilità nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT per esportare gli errori ECC (Error Checking and Correction) e lo stato delle pagine ritirate.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Eseguire l'utilità nvidia-smi pci --getErrorCounters per visualizzare i contatori degli errori delle otto GPU.

    Figura 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Eseguire l'utilità nvidia-smi pci --getErrorCounters --id=<id number> per visualizzare i contatori degli errori di una GPU specifica.

    Digitare il numero ID di una GPU specifica in <id number>. Ad esempio: nvidia-smi pci --getErrorCounters --id=2.

    Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>