본문으로 건너뛰기

GPU 문제

다음 정보를 사용하여 GPU와 관련된 문제점을 해결하십시오.

GPU 상태 확인

  • nvidia-smi

    nvidia-smi 유틸리티를 실행하여 온라인 상태인 GPU 8개를 표시합니다.

    그림 1. nvidia-smi
    nvidia-smi
  • nvidia-smi -L

    nvidia-smi -L 유틸리티를 실행하여 온라인 상태인 GPU 8개를 UUID와 함께 표시합니다.

    그림 2. nvidia-smi -L
    nvidia-smi -L
  • nvidia-smi -q --id=1 -f <output file name>

    nvidia-smi -q --id=1 -f <output file name> 유틸리티를 실행하여 GPU 인벤토리 정보를 내보냅니다.

    출력을 저장할 원하는 파일 이름을 <output file name>에 입력합니다. 예: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.

    그림 3. nvidia-smi -q --id=1 -f <output file name>
    nvidia-smi -q --id=1 -f <output file name>
  • nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT

    nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT 유틸리티를 실행하여 ECC(Error Checking and Correction) 오류 및 사용 중지된 페이지의 상태를 내보냅니다.

    ECC Mode
    Current : Enabled
    Pending : Enabled
    Ecc Errirs
    Volatile
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable: : 0
    Aggregate
    SRAM Correctable : 0
    SRAM Uncorrectable Parity : 0
    SRAM Uncorrectable SEC-DED : 0
    DRAM Correctable : 0
    DRAM Uncorrectable : 0
    SRAM Threshold Exceeded : No
    Aggregate Uncorrectable SRAM Sources
    SRAM L2 : 0
    SRAM SM : 0
    SRAM Microcontroller : 0
    SRAM PCIE : 0
    SRAM Other : 0
    Retired Pages
    Single Bit ECC : N/A
    Double Bit ECC : N/A
    Pending Page Blacklist : N/A
  • nvidia-smi pci --getErrorCounters

    nvidia-smi pci --getErrorCounters 유틸리티를 실행하여 8개 GPU의 오류 카운터를 표시합니다.

    그림 4. nvidia-smi pci --getErrorCounters
    nvidia-smi pci --getErrorCounters
  • nvidia-smi pci --getErrorCounters --id=<id number>

    nvidia-smi pci --getErrorCounters --id=<id number> 유틸리티를 실행하여 특정 GPU의 오류 카운터를 표시합니다.

    <id number>에 특정 GPU의 ID 번호를 입력합니다. 예: nvidia-smi pci --getErrorCounters --id=2.

    그림 5. nvidia-smi pci --getErrorCounters --id=<id number>
    nvidia-smi pci --getErrorCounters --id=<id number>