본문으로 건너뛰기

GPU 문제

다음 정보를 사용하여 GPU와 관련된 문제점을 해결하십시오.

GPU 상태 확인

  • GPU 상태를 확인하려면 다음 유틸리티 중 하나를 사용합니다. 다음의 필수 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 드라이버 및 소프트웨어 다운로드 웹사이트(ThinkSystem SR680a V3)에서 확인 가능합니다.

    SMI(System Management Interface) 정보에 대한 자세한 내용은 NVIDIA 시스템 관리 인터페이스의 내용을 참조하십시오.

  • 다음 표에서는 모듈 ID와 실제 GPU 소켓 간의 매핑 정보를 보여 줍니다.

    모듈 ID물리적 GPU 소켓GPU 소켓의 위치
    1SXM 1

    2SXM 2
    3SXM 3
    4SXM 4
    5SXM 5
    6SXM 6
    7SXM 7
    8SXM 8
  • nvidia-smi

    nvidia-smi 유틸리티를 실행하여 온라인 상태인 GPU 8개를 표시합니다.

    그림 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    nvidia-smi -L 유틸리티를 실행하여 온라인 상태인 GPU 8개를 UUID와 함께 표시합니다.

    그림 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    nvidia-smi -q --id=1 -f <output file name> 유틸리티를 실행하여 GPU 인벤토리 정보를 내보냅니다.

    출력을 저장할 원하는 파일 이름을 <output file name>에 입력합니다. 예: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    그림 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT 유틸리티를 실행하여 ECC(Error Checking and Correction) 오류 및 사용 중지된 페이지의 상태를 내보냅니다.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    nvidia-smi pci --getErrorCounters 유틸리티를 실행하여 8개 GPU의 오류 카운터를 표시합니다.

    그림 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    nvidia-smi pci --getErrorCounters --id=<id number> 유틸리티를 실행하여 특정 GPU의 오류 카운터를 표시합니다.

    <id number>에 특정 GPU의 ID 번호를 입력합니다. 예: nvidia-smi pci --getErrorCounters --id=2.

    그림 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>

시스템에서 특정 GPU를 감지하지 못함

이벤트 중 하나가 XCC 웹 이벤트 로그에 나타나면 시스템이 하나 이상의 특정 GPU를 감지하지 못했음을 나타냅니다.

  • FQXSPIO0015M: [ComputerSystemElementName] 시스템의 [PhysicalConnectorSystemElementName] 슬롯에 결함이 있습니다. 이벤트가 나타나면 FQXSPIO0015M를 참조하여 문제를 해결하십시오.
  • FQXSFIO0010M: 정정할 수 없는 PCIe 오류가 버스 [arg1] 장치 [arg2] 기능 [arg3]에서 발생했습니다. 장치의 공급업체 ID는 [arg4]이고 장치 ID는 [arg5]입니다. 실제 [arg6] 번호는 [arg7]입니다. 이벤트가 나타나면 FQXSFIO0010M를 참조하여 문제를 해결하십시오.
    매개 변수:
    • [arg1] 버스
    • [arg2] 장치
    • [arg3] 기능
    • [arg4] VID
    • [arg5] DID
    • [arg6] 슬롯/베이
    • [arg7] 인스턴스 번호
  • FQXSPUN0019M: [SensorElementName] 센서가 약간 심각한 상태에서 위험한 상태로 전환되었습니다. 이벤트가 나타나면 FQXSPUN0019M를 참조하여 문제를 해결하십시오.
  • FQXSPPW4001I: [arg1]의 PCIe 파워 브레이크가 [arg2](으)로 처리되었습니다. 이벤트가 나타나면 FQXSPPW4001I를 참조하여 문제를 해결하십시오.
다음 표에서는 XCC의 슬롯 번호와 실제 GPU 소켓 간의 매핑 정보를 보여 줍니다.
XCC의 슬롯 번호물리적 GPU 소켓GPU 소켓의 위치
슬롯 17SXM 5

슬롯 18SXM 7
슬롯 19SXM 8
슬롯 20SXM 6
슬롯 21SXM 1
슬롯 22SXM 3
슬롯 23SXM 4
슬롯 24SXM 2