Zum Hauptinhalt springen

H100/H200 GPU-Probleme

Verwenden Sie diese Informationen, um Probleme im Zusammenhang mit GPUs zu beheben.

GPU-Integritätsprüfung

Anmerkung

Verwenden Sie eines der folgenden Dienstprogramme, um den GPU-Integritätsstatus zu überprüfen. Stellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er die folgenden erforderlichen Dienstprogramme enthält. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für ThinkSystem SR780a V3.

Weitere Informationen zur SMI (System Management Interface, Systemverwaltungsschnittstelle) finden Sie unter NVIDIA-Systemverwaltungsschnittstelle.

  • nvidia-smi

    Führen Sie das Dienstprogramm nvidia-smi aus, um die acht GPUs online anzuzeigen.

    Anmerkung
    Bei den GPU-Nummern (0 bis 7) in der Ausgabe handelt es sich um die logischen Nummern. In der folgenden Tabelle finden Sie Angaben für die Zuordnung zwischen den logischen Nummern und den physischen GPU-Sockeln.
    Logische NummerPhysischer GPU-SockelPosition des GPU-Sockels
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    Abbildung 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    Führen Sie das Dienstprogramm nvidia-smi -L aus, um die acht GPUs online mit UUID anzuzeigen.

    Anmerkung
    Bei den GPU-Nummern (0 bis 7) in der Ausgabe handelt es sich um die logischen Nummern. In der folgenden Tabelle finden Sie Angaben für die Zuordnung zwischen den logischen Nummern und den physischen GPU-Sockeln.
    Logische NummerPhysischer GPU-SockelPosition des GPU-Sockels
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    Abbildung 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    Führen Sie das Dienstprogramm nvidia-smi -q --id=1 -f <output file name> aus, um GPU-Bestandsinformationen zu exportieren.

    Geben Sie in <output file name> den gewünschten Dateinamen ein, um die Ausgabe zu speichern. Beispiel: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    Abbildung 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    Führen Sie das Dienstprogramm nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT aus, um ECC-Fehler (ECC – Error Checking and Correction, Fehlerüberprüfung und -korrektur) und den Status stillgelegter Seiten zu exportieren.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    Führen Sie das Dienstprogramm nvidia-smi pci --getErrorCounters aus, um Fehlerzähler der acht GPUs anzuzeigen.

    Abbildung 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    Führen Sie das Dienstprogramm nvidia-smi pci --getErrorCounters --id=<id number> aus, um Fehlerzähler für eine bestimmte GPU anzuzeigen.

    Geben Sie die ID-Nummer einer bestimmten GPU in <id number> ein. Beispiel: nvidia-smi pci --getErrorCounters --id=2.

    Abbildung 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

System erkennt keine bestimmte GPU

Wenn eines der Ereignisse im XCC-Webereignisprotokoll angezeigt wird, weist dies darauf hin, dass das System eine oder mehrere bestimmte GPUs nicht erkennen kann.

  • Wenn das Ereignis FQXSPIO0015M: Fehler an Steckplatz [PhysicalConnectorSystemElementName] im System [ComputerSystemElementName]. angezeigt wird, finden Sie in FQXSPIO0015M weitere Informationen für die Behebung des Problems.
  • Wenn das Ereignis FQXSFIO0010M: Für Bus [arg1] Gerät [arg2] Funktion [arg3] ist ein nicht behebbarer PCIe-Fehler aufgetreten. Die Hersteller-ID für das Gerät ist [arg4] und die Geräte-ID ist [arg5]. Die physische [arg6] Nummer ist [arg7]. angezeigt wird, finden Sie in FQXSFIO0010M weitere Informationen für die Behebung des Problems.
    Anmerkung
    Parameter:
    • [arg1] Bus
    • [arg2] Einheit
    • [arg3] Funktion
    • [arg4] VID
    • [arg5] DID
    • [arg6] Steckplatz/Position
    • [arg7] Instanznummer
  • Wenn das Ereignis FQXSPUN0019M: Sensor [SensorElementName] ist von einem weniger schwerwiegenden in den kritischen Zustand übergegangen. angezeigt wird, finden Sie in FQXSPUN0019M weitere Informationen für die Behebung des Problems.
Anmerkung
In der folgenden Tabelle sind die Zuordnungsinformationen zwischen der Steckplatznummerierung in XCC und physischen GPU-Sockeln aufgeführt.
Steckplatznummerierung in XCCPhysische GPU-SockelPosition der GPU-Sockel
Steckplatz 17GPU 5

Steckplatz 18GPU 7
Steckplatz 19GPU 8
Steckplatz 20GPU 6
Steckplatz 21GPU 1
Steckplatz 22GPU 3
Steckplatz 23GPU 4
Steckplatz 24GPU 2