Saltar al contenido principal

Problemas de GPU

Utilice esta información para resolver problemas relacionados con las GPU.

Comprobación de estado de las GPU

Nota
  • nvidia-smi

    Ejecute la utilidad nvidia-smi para mostrar las ocho GPU en línea.

    Figura 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Ejecute la utilidad nvidia-smi -L para mostrar las ocho GPU en línea con UUID.

    Figura 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Ejecute la utilidad nvidia-smi -q --id=1 -f <output file name> para exportar información de inventario de GPU.

    Escriba el nombre de archivo deseado en <output file name> para almacenar la salida. Por ejemplo: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Figura 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Ejecute la utilidad nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT para exportar los errores ECC (comprobación y corrección de errores) y el estado de las páginas retiradas.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Ejecute la utilidad nvidia-smi pci --getErrorCounters para mostrar los contadores de errores de las ocho GPU.

    Figura 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Ejecute la utilidad nvidia-smi pci --getErrorCounters --id=<id number> para mostrar los contadores de errores de una GPU específica.

    Escriba el número de ID de una GPU específica en <id number>. Por ejemplo: nvidia-smi pci --getErrorCounters --id=2.

    Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>