GPU 문제
다음 정보를 사용하여 GPU 및 GPU 보드와 관련된 문제를 해결하십시오.
GPU 및 GPU 보드 상태 확인
ipmitool의 다음 센서 상태는 GPU 및 GPU 보드가 정상 상태임을 나타냅니다.
$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
시스템에서 GPU 보드를 감지하지 못함
Sensor GPU Board has transitioned to critical from a less severe state 이벤트가 XCC 웹 이벤트 로그에 표시되면 시스템에서 GPU 보드를 감지하지 못했음을 나타냅니다. 문제를 해결하려면 다음 단계를 완료하십시오.
- 시스템 전원을 껐다가 다시 켜십시오.
- XCC 및 SMM2의 전원 입력 관련 이벤트를 확인하십시오(SMM2 - 전원 참조).
- 시스템 온도와 유수를 확인하십시오. 누수가 있는지 확인하고 수냉 시스템을 분리했다가 다시 연결하십시오.
- 시스템을 재부팅하고 ipmi 상태 검사를 실행하십시오(GPU 및 GPU 보드 상태 확인 참조).
- 다음 중 하나가 나타나면 문제가 해결된 것입니다.
- XCC 메시지의 FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
- 웹 로그의 Sensor GPU Board has transitioned to normal state
그러나 문제가 계속되면 다음 단계를 완료하십시오.- XCC 서비스 데이터를 수집하십시오(서비스 데이터 수집 참조).
- Lenovo Services에 문의하십시오.
시스템에서 특정 GPU를 감지하지 못함
Sensor GPU CPUs has transitioned to critical from a less severe state 이벤트가 XCC 웹 이벤트 로그에 표시되면 시스템에서 특정 GPU를 하나 이상 감지하지 못했음을 나타냅니다. 문제를 해결하려면 다음 단계를 완료하십시오.
- XCC 이벤트에서 리타이머가 과열되었는지 확인하고, 그렇다면 다음 단계를 건너뛰십시오.
- 데이터 센터 지원 사이트(ThinkSystem SD665-N V3에 대한 Lenovo 데이터 센터 지원)에서 최신 펌웨어를 다운로드하고 펌웨어를 업데이트하십시오.
- 시스템을 재부팅하고 ipmi 상태 검사를 실행하십시오(GPU 및 GPU 보드 상태 확인 참조).
Sensor GPU Board has transitioned to normal state 이벤트가 XCC 웹 이벤트 로그에 표시되면 문제가 해결된 것입니다.
그러나 문제가 계속되면 다음 단계를 완료하십시오.- XCC 웹 이벤트 로그를 확인하여 결함이 있는 장치와 문제 유형을 식별하십시오(XCC GPU 센서 사양 참조).
- XCC 서비스 데이터를 수집하십시오(서비스 데이터 수집 참조).
- 진단에 필요한 nvidia-smi를 실행하십시오(자세한 내용은 NVIDIA 시스템 관리 인터페이스 참조).주GPU 문제 확인에 필요한
nvidia-smi 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 ThinkSystem SD665-N V3용 드라이버 및 소프트웨어 다운로드 웹 사이트에서 확인 가능합니다. - nvidia-bug-report.sh를 실행하십시오(NVIDIA 드라이버에 내장된 도구).
- Lenovo Services에 문의하십시오.
XCC GPU 센서 사양
XCC 웹 이벤트 로그에서 이벤트를 볼 때 다음 표를 참조하여 결함이 있는 장치와 문제 유형을 식별하십시오. 예:
6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F
센서 이름 | 데이터 | ||
GPU CPU | 센서 번호 | EAh | 02h - 약간 심각한 상태에서 위험한 상태로 전환 Evt 데이터2:
Evt 데이터3:
|
센서 유형 | 17h | ||
센서 판독 유형 | 07h | ||
엔터티 ID | 0Bh | ||
인스턴스/유형 | 02h | ||
SEL 로그 어설션 | 02h | ||
SEL 로그 디어설션 | 02h | ||
임계값 디어설션 | |||
어설션 시 LED 'ON' 요청 F = 장애 KED | 02h - F | ||
디어설션 시 LED 'OFF' 요청 F = 장애 KED | 02h - F | ||
GPU 보드 | 센서 번호 | EAh | 00h - 양호한 상태로 전환 02h - 약간 심각한 상태에서 위험한 상태로 전환 Evt 데이터2:
Evt 데이터3:
|
센서 유형 | 17h | ||
센서 판독 유형 | 07h | ||
엔터티 ID | 0Bh | ||
인스턴스/유형 | 01h | ||
SEL 로그 어설션 | 02h | ||
SEL 로그 디어설션 | 02h | ||
임계값 디어설션 | 해당사항 없음 | ||
어설션 시 LED 'ON' 요청 F = 장애 LED | 00h - 없음 02h - F | ||
디어설션 시 LED 'OFF' 요청 F = 장애 LED | 00h - 없음 02h - F |