Aller au contenu principal

Problèmes liés au GPU

Les informations suivantes vous indiquent comment résoudre les problèmes liés aux GPU.

Contrôle d’intégrité des GPU

Remarque
  • nvidia-smi

    Exécutez l’utilitaire nvidia-smi pour afficher les huit GPU en ligne.

    Figure 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Exécutez l’utilitaire nvidia-smi -L pour afficher les huit GPU en ligne avec UUID.

    Figure 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Exécutez l’utilitaire nvidia-smi -q --id=1 -f <output file name> pour exporter les informations d’inventaire GPU.

    Saisissez le nom de fichier souhaité dans <output file name> pour stocker la sortie. Par exemple : nvidia-smi -q --id=1 -f /tmp/queryoam1.txt

    Figure 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Exécutez l’utilitaire nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT pour exporter les erreurs de vérification et de correction des erreurs (ECC) et l’état des anciennes pages.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Exécutez l’utilitaire nvidia-smi pci --getErrorCounters pour afficher les compteurs d’erreurs des huit GPU.

    Figure 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Exécutez l’utilitaire nvidia-smi pci --getErrorCounters --id=<id number> pour afficher les compteurs d’erreurs d’un GPU spécifique.

    Saisissez le numéro d’identification d’un GPU spécifique dans <id number>. Par exemple : nvidia-smi pci --getErrorCounters --id=2

    Figure 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>