Passa al contenuto principale

Problemi relativi alla GPU

Utilizzare queste informazioni per risolvere i problemi correlati alle GPU.

Controllo dell'integrità delle GPU

Nota
  • Utilizzare una delle seguenti utilità per controllare lo stato di integrità delle GPU. Assicurarsi di aggiornare il driver delle GPU, che include le seguenti utilità richieste. Il driver più recente è disponibile all'indirizzo Sito Web per il download di driver e software per ThinkSystem SR680a V3.

    Per ulteriori informazioni su SMI (System Management Interface), vedere Interfaccia di gestione del sistema NVIDIA.

  • La tabella seguente mostra le informazioni di associazione tra gli ID dei moduli e i socket fisici delle GPU.

    ID moduloSocket fisico della GPUPosizione del socket della GPU
    1SXM 1

    2SXM 2
    3SXM 3
    4SXM 4
    5SXM 5
    6SXM 6
    7SXM 7
    8SXM 8
  • nvidia-smi

    Eseguire l'utilità nvidia-smi per visualizzare le otto GPU online.

    Figura 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Eseguire l'utilità nvidia-smi -L per visualizzare le otto GPU online con UUID.

    Figura 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Eseguire l'utilità nvidia-smi -q --id=1 -f <output file name> per esportare le informazioni sull'inventario della GPU.

    Digitare il nome del file desiderato in <output file name> per memorizzare l'output. Ad esempio: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Figura 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Eseguire l'utilità nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT per esportare gli errori ECC (Error Checking and Correction) e lo stato delle pagine ritirate.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Eseguire l'utilità nvidia-smi pci --getErrorCounters per visualizzare i contatori degli errori delle otto GPU.

    Figura 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Eseguire l'utilità nvidia-smi pci --getErrorCounters --id=<id number> per visualizzare i contatori degli errori di una GPU specifica.

    Digitare il numero ID di una GPU specifica in <id number>. Ad esempio: nvidia-smi pci --getErrorCounters --id=2.

    Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

Il sistema non riesce a rilevare una GPU specifica

Quando uno degli eventi viene visualizzato nel registro eventi Web XCC, indica che il sistema non è in grado di rilevare una o più GPU specifiche.

  • Quando viene visualizzato l'evento FQXSPIO0015M: Errore nello slot [PhysicalConnectorSystemElementName] nel sistema [ComputerSystemElementName]., vedere FQXSPIO0015M per risolvere il problema.
  • Quando viene visualizzato l'evento FQXSFIO0010M: Si è verificato un errore PCIe non correggibile sul bus [arg1] dispositivo [arg2] funzione [arg3]. L'ID fornitore per il dispositivo è [arg4] e l'ID dispositivo è [arg5]. Il numero fisico [arg6] è [arg7]., vedere FQXSFIO0010M per risolvere il problema.
    Nota
    Parametri:
    • [arg1] Bus
    • [arg2] Dispositivo
    • [arg3] Funzione
    • [arg4] VID
    • [arg5] DID
    • [arg6] Slot/Vano
    • [arg7] Numero di istanza
  • Quando viene visualizzato l'evento FQXSPUN0019M: Il sensore [SensorElementName] è passato a uno stato critico da uno stato meno grave., vedere FQXSPUN0019M per risolvere il problema.
  • Quando viene visualizzato l'evento FQXSPPW4001I: La Limitazione dell'alimentazione PCIe per [arg1] è stata [arg2]., vedere FQXSPPW4001I per risolvere il problema.
Nota
La tabella che segue mostra le informazioni di associazione tra la numerazione degli slot in XCC e i socket fisici delle GPU.
Numerazione degli slot in XCCSocket fisici delle GPUPosizione dei socket delle GPU
Slot 17SXM 5

Slot 18SXM 7
Slot 19SXM 8
Slot 20SXM 6
Slot 21SXM 1
Slot 22SXM 3
Slot 23SXM 4
Slot 24SXM 2