GPU 문제
다음 정보를 사용하여 GPU와 관련된 문제점을 해결하십시오.
GPU 상태 확인
GPU 상태를 확인하려면 다음 유틸리티 중 하나를 사용합니다. 다음의 필수 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 ThinkSystem SR680a V4용 드라이버 및 소프트웨어 다운로드 웹 사이트에서 확인 가능합니다.
SMI(System Management Interface) 정보에 대한 자세한 내용은 NVIDIA 시스템 관리 인터페이스의 내용을 참조하십시오.
nvidia-smi
nvidia-smi 유틸리티를 실행하여 온라인 상태인 GPU 8개를 표시합니다.
그림 1. nvidia-smi
nvidia-smi -L
nvidia-smi -L 유틸리티를 실행하여 온라인 상태인 GPU 8개를 UUID와 함께 표시합니다.
그림 2. nvidia-smi -L
nvidia-smi -q --id=1 -f <output file name>
nvidia-smi -q --id=1 -f <output file name> 유틸리티를 실행하여 GPU 인벤토리 정보를 내보냅니다.
출력을 저장할 원하는 파일 이름을 <output file name>에 입력합니다. 예: nvidia-smi -q --id=1 -f /tmp/queryoam1.txt.
그림 3. nvidia-smi -q --id=1 -f <output file name>
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT
nvidia-smi --id=0 -q -d ECC,PAGE_RETIREMENT 유틸리티를 실행하여 ECC(Error Checking and Correction) 오류 및 사용 중지된 페이지의 상태를 내보냅니다.
ECC Mode
Current : Enabled
Pending : Enabled
Ecc Errirs
Volatile
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable: : 0
Aggregate
SRAM Correctable : 0
SRAM Uncorrectable Parity : 0
SRAM Uncorrectable SEC-DED : 0
DRAM Correctable : 0
DRAM Uncorrectable : 0
SRAM Threshold Exceeded : No
Aggregate Uncorrectable SRAM Sources
SRAM L2 : 0
SRAM SM : 0
SRAM Microcontroller : 0
SRAM PCIE : 0
SRAM Other : 0
Retired Pages
Single Bit ECC : N/A
Double Bit ECC : N/A
Pending Page Blacklist : N/Anvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters 유틸리티를 실행하여 8개 GPU의 오류 카운터를 표시합니다.
그림 4. nvidia-smi pci --getErrorCounters
nvidia-smi pci --getErrorCounters --id=<id number>
nvidia-smi pci --getErrorCounters --id=<id number> 유틸리티를 실행하여 특정 GPU의 오류 카운터를 표시합니다.
<id number>에 특정 GPU의 ID 번호를 입력합니다. 예: nvidia-smi pci --getErrorCounters --id=2.
그림 5. nvidia-smi pci --getErrorCounters --id=<id number>