Passa al contenuto principale

Problemi relativi alla GPU H100/H200

Utilizzare queste informazioni per risolvere i problemi correlati alle GPU.

Controllo dell'integrità delle GPU

Nota

Utilizzare una delle seguenti utilità per controllare lo stato di integrità delle GPU. Assicurarsi di aggiornare il driver delle GPU, che include le seguenti utilità richieste. Il driver più recente è disponibile all'indirizzo Sito Web per il download di driver e software per ThinkSystem SR780a V3.

Per ulteriori informazioni su SMI (System Management Interface), vedere Interfaccia di gestione del sistema NVIDIA.

  • nvidia-smi

    Eseguire l'utilità nvidia-smi per visualizzare le otto GPU online.

    Nota
    I numeri GPU (da 0 a 7) nell'output sono i numeri logici. La tabella seguente mostra le informazioni di associazione tra i numeri logici e i socket fisici delle GPU.
    Numero logicoSocket fisico della GPUPosizione del socket della GPU
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    Figura 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Eseguire l'utilità nvidia-smi -L per visualizzare le otto GPU online con UUID.

    Nota
    I numeri GPU (da 0 a 7) nell'output sono i numeri logici. La tabella seguente mostra le informazioni di associazione tra i numeri logici e i socket fisici delle GPU.
    Numero logicoSocket fisico della GPUPosizione del socket della GPU
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    Figura 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Eseguire l'utilità nvidia-smi -q --id=1 -f <output file name> per esportare le informazioni sull'inventario della GPU.

    Digitare il nome del file desiderato in <output file name> per memorizzare l'output. Ad esempio: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Figura 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Eseguire l'utilità nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT per esportare gli errori ECC (Error Checking and Correction) e lo stato delle pagine ritirate.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Eseguire l'utilità nvidia-smi pci --getErrorCounters per visualizzare i contatori degli errori delle otto GPU.

    Figura 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Eseguire l'utilità nvidia-smi pci --getErrorCounters --id=<id number> per visualizzare i contatori degli errori di una GPU specifica.

    Digitare il numero ID di una GPU specifica in <id number>. Ad esempio: nvidia-smi pci --getErrorCounters --id=2.

    Figura 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

Il sistema non riesce a rilevare una GPU specifica

Quando uno degli eventi viene visualizzato nel registro eventi Web XCC, indica che il sistema non è in grado di rilevare una o più GPU specifiche.

  • Quando viene visualizzato l'evento FQXSPIO0015M: Errore nello slot [PhysicalConnectorSystemElementName] nel sistema [ComputerSystemElementName]., vedere FQXSPIO0015M per risolvere il problema.
  • Quando viene visualizzato l'evento FQXSFIO0010M: Si è verificato un errore PCIe non correggibile sul bus [arg1] dispositivo [arg2] funzione [arg3]. L'ID fornitore per il dispositivo è [arg4] e l'ID dispositivo è [arg5]. Il numero fisico [arg6] è [arg7]., vedere FQXSFIO0010M per risolvere il problema.
    Nota
    Parametri:
    • [arg1] Bus
    • [arg2] Dispositivo
    • [arg3] Funzione
    • [arg4] VID
    • [arg5] DID
    • [arg6] Slot/Vano
    • [arg7] Numero di istanza
  • Quando viene visualizzato l'evento FQXSPUN0019M: Il sensore [SensorElementName] è passato a uno stato critico da uno stato meno grave., vedere FQXSPUN0019M per risolvere il problema.
Nota
La tabella che segue mostra le informazioni di associazione tra la numerazione degli slot in XCC e i socket fisici delle GPU.
Numerazione degli slot in XCCSocket fisici delle GPUPosizione dei socket delle GPU
Slot 17GPU 5

Slot 18GPU 7
Slot 19GPU 8
Slot 20GPU 6
Slot 21GPU 1
Slot 22GPU 3
Slot 23GPU 4
Slot 24GPU 2