H100/H200 GPU-Probleme
Verwenden Sie diese Informationen, um Probleme im Zusammenhang mit GPUs zu beheben.
GPU-Integritätsprüfung
Verwenden Sie eines der folgenden Dienstprogramme, um den GPU-Integritätsstatus zu überprüfen. Stellen Sie sicher, dass Sie den GPU-Treiber aktualisieren, da er die folgenden erforderlichen Dienstprogramme enthält. Den neuesten Treiber finden Sie unter Website zum Herunterladen von Treibern und Software für ThinkSystem SR780a V3.
Weitere Informationen zur SMI (System Management Interface, Systemverwaltungsschnittstelle) finden Sie unter NVIDIA-Systemverwaltungsschnittstelle.
nvidia-smi
Führen Sie das Dienstprogramm nvidia-smi aus, um die acht GPUs online anzuzeigen.
AnmerkungBei den GPU-Nummern (0 bis 7) in der Ausgabe handelt es sich um die logischen Nummern. In der folgenden Tabelle finden Sie Angaben für die Zuordnung zwischen den logischen Nummern und den physischen GPU-Sockeln.Logische Nummer Physischer GPU-Sockel Position des GPU-Sockels 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 Abbildung 1. nvidia-sminvidia-smi -L
Führen Sie das Dienstprogramm nvidia-smi -L aus, um die acht GPUs online mit UUID anzuzeigen.
AnmerkungBei den GPU-Nummern (0 bis 7) in der Ausgabe handelt es sich um die logischen Nummern. In der folgenden Tabelle finden Sie Angaben für die Zuordnung zwischen den logischen Nummern und den physischen GPU-Sockeln.Logische Nummer Physischer GPU-Sockel Position des GPU-Sockels 0 GPU 3 1 GPU 1 2 GPU 2 3 GPU 4 4 GPU 7 5 GPU 5 6 GPU 6 7 GPU 8 Abbildung 2. nvidia-smi -Lnvidia-smi -q --id=1 -f <output file name>
Führen Sie das Dienstprogramm nvidia-smi -q --id=1 -f <output file name> aus, um GPU-Bestandsinformationen zu exportieren.
Geben Sie in <output file name> den gewünschten Dateinamen ein, um die Ausgabe zu speichern. Beispiel: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
Abbildung 3. nvidia-smi -q --id=1 -f <output file name>nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
Führen Sie das Dienstprogramm nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT aus, um ECC-Fehler (ECC – Error Checking and Correction, Fehlerüberprüfung und -korrektur) und den Status stillgelegter Seiten zu exportieren.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
Führen Sie das Dienstprogramm nvidia-smi pci --getErrorCounters aus, um Fehlerzähler der acht GPUs anzuzeigen.
Abbildung 4. nvidia-smi pci --getErrorCountersnvidia-smi pci --getErrorCounters --id=<id number>
Führen Sie das Dienstprogramm nvidia-smi pci --getErrorCounters --id=<id number> aus, um Fehlerzähler für eine bestimmte GPU anzuzeigen.
Geben Sie die ID-Nummer einer bestimmten GPU in <id number> ein. Beispiel: nvidia-smi pci --getErrorCounters --id=2.
Abbildung 5. nvidia-smi pci --getErrorCounters --id=<id number>
System erkennt keine bestimmte GPU
Wenn eines der Ereignisse im XCC-Webereignisprotokoll angezeigt wird, weist dies darauf hin, dass das System eine oder mehrere bestimmte GPUs nicht erkennen kann.
- Wenn das Ereignis FQXSPIO0015M: Fehler an Steckplatz [PhysicalConnectorSystemElementName] im System [ComputerSystemElementName]. angezeigt wird, finden Sie in FQXSPIO0015M weitere Informationen für die Behebung des Problems.
- Wenn das Ereignis FQXSFIO0010M: Für Bus [arg1] Gerät [arg2] Funktion [arg3] ist ein nicht behebbarer PCIe-Fehler aufgetreten. Die Hersteller-ID für das Gerät ist [arg4] und die Geräte-ID ist [arg5]. Die physische [arg6] Nummer ist [arg7]. angezeigt wird, finden Sie in FQXSFIO0010M weitere Informationen für die Behebung des Problems.AnmerkungParameter:
- [arg1] Bus
- [arg2] Einheit
- [arg3] Funktion
- [arg4] VID
- [arg5] DID
- [arg6] Steckplatz/Position
- [arg7] Instanznummer
- Wenn das Ereignis FQXSPUN0019M: Sensor [SensorElementName] ist von einem weniger schwerwiegenden in den kritischen Zustand übergegangen. angezeigt wird, finden Sie in FQXSPUN0019M weitere Informationen für die Behebung des Problems.
Steckplatznummerierung in XCC | Physische GPU-Sockel | Position der GPU-Sockel |
---|---|---|
Steckplatz 17 | GPU 5 | ![]() |
Steckplatz 18 | GPU 7 | |
Steckplatz 19 | GPU 8 | |
Steckplatz 20 | GPU 6 | |
Steckplatz 21 | GPU 1 | |
Steckplatz 22 | GPU 3 | |
Steckplatz 23 | GPU 4 | |
Steckplatz 24 | GPU 2 |