본문으로 건너뛰기

H100/H200 GPU 문제

다음 정보를 사용하여 GPU와 관련된 문제점을 해결하십시오.

GPU 상태 확인

GPU 상태를 확인하려면 다음 유틸리티 중 하나를 사용합니다. 다음의 필수 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 드라이버 및 소프트웨어 다운로드 웹사이트(ThinkSystem SR780a V3용)에서 확인 가능합니다.

SMI(System Management Interface) 정보에 대한 자세한 내용은 NVIDIA 시스템 관리 인터페이스의 내용을 참조하십시오.

  • nvidia-smi

    nvidia-smi 유틸리티를 실행하여 온라인 상태인 GPU 8개를 표시합니다.

    출력에 표시된 GPU 숫자(0~7)는 논리 번호입니다. 다음 표에는 논리 번호와 실제 GPU 소켓 간의 매핑 정보를 보여 줍니다.
    논리 번호물리적 GPU 소켓GPU 소켓의 위치
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    그림 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    nvidia-smi -L 유틸리티를 실행하여 온라인 상태인 GPU 8개를 UUID와 함께 표시합니다.

    출력에 표시된 GPU 숫자(0~7)는 논리 번호입니다. 다음 표에는 논리 번호와 실제 GPU 소켓 간의 매핑 정보를 보여 줍니다.
    논리 번호물리적 GPU 소켓GPU 소켓의 위치
    0GPU 3

    1GPU 1
    2GPU 2
    3GPU 4
    4GPU 7
    5GPU 5
    6GPU 6
    7GPU 8
    그림 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    nvidia-smi -q --id=1 -f <output file name> 유틸리티를 실행하여 GPU 인벤토리 정보를 내보냅니다.

    출력을 저장할 원하는 파일 이름을 <output file name>에 입력합니다. 예: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    그림 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT 유틸리티를 실행하여 ECC(Error Checking and Correction) 오류 및 사용 중지된 페이지의 상태를 내보냅니다.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    nvidia-smi pci --getErrorCounters 유틸리티를 실행하여 8개 GPU의 오류 카운터를 표시합니다.

    그림 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    nvidia-smi pci --getErrorCounters --id=<id number> 유틸리티를 실행하여 특정 GPU의 오류 카운터를 표시합니다.

    <id number>에 특정 GPU의 ID 번호를 입력합니다. 예: nvidia-smi pci --getErrorCounters --id=2.

    그림 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

시스템에서 특정 GPU를 감지하지 못함

이벤트 중 하나가 XCC 웹 이벤트 로그에 나타나면 시스템이 하나 이상의 특정 GPU를 감지하지 못했음을 나타냅니다.

  • FQXSPIO0015M: [ComputerSystemElementName] 시스템의 [PhysicalConnectorSystemElementName] 슬롯에 결함이 있습니다. 이벤트가 나타나면 FQXSPIO0015M를 참조하여 문제를 해결하십시오.
  • FQXSFIO0010M: 정정할 수 없는 PCIe 오류가 버스 [arg1] 장치 [arg2] 기능 [arg3]에서 발생했습니다. 장치의 공급업체 ID는 [arg4]이고 장치 ID는 [arg5]입니다. 실제 [arg6] 번호는 [arg7]입니다. 이벤트가 나타나면 FQXSFIO0010M를 참조하여 문제를 해결하십시오.
    매개 변수:
    • [arg1] 버스
    • [arg2] 장치
    • [arg3] 기능
    • [arg4] VID
    • [arg5] DID
    • [arg6] 슬롯/베이
    • [arg7] 인스턴스 번호
  • FQXSPUN0019M: [SensorElementName] 센서가 약간 심각한 상태에서 위험한 상태로 전환되었습니다. 이벤트가 나타나면 FQXSPUN0019M를 참조하여 문제를 해결하십시오.
다음 표에서는 XCC의 슬롯 번호와 실제 GPU 소켓 간의 매핑 정보를 보여 줍니다.
XCC의 슬롯 번호물리적 GPU 소켓GPU 소켓의 위치
슬롯 17GPU 5

슬롯 18GPU 7
슬롯 19GPU 8
슬롯 20GPU 6
슬롯 21GPU 1
슬롯 22GPU 3
슬롯 23GPU 4
슬롯 24GPU 2