본문으로 건너뛰기

GPU 문제

다음 정보를 사용하여 GPU 및 GPU 보드와 관련된 문제를 해결하십시오.

GPU 문제 확인에 필요한 nvidia-smi 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 ThinkSystem SD665-N V3용 드라이버 및 소프트웨어 다운로드 웹 사이트에서 확인 가능합니다.

GPU 및 GPU 보드 상태 확인

ipmitool의 다음 센서 상태는 GPU 및 GPU 보드가 정상 상태임을 나타냅니다.

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
nvidia-smi 유틸리티 요약은 GPU 4개가 온라인 상태임을 나타냅니다.
그림 1. nvidia-smi

시스템에서 GPU 보드를 감지하지 못함

Sensor GPU Board has transitioned to critical from a less severe state 이벤트가 XCC 웹 이벤트 로그에 표시되면 시스템에서 GPU 보드를 감지하지 못했음을 나타냅니다. 문제를 해결하려면 다음 단계를 완료하십시오.

  1. 시스템 전원을 껐다가 다시 켜십시오.
  2. XCC 및 SMM2의 전원 입력 관련 이벤트를 확인하십시오(SMM2 - 전원 참조).
  3. 시스템 온도와 유수를 확인하십시오. 누수가 있는지 확인하고 수냉 시스템을 분리했다가 다시 연결하십시오.
  4. 시스템을 재부팅하고 ipmi 상태 검사를 실행하십시오(GPU 및 GPU 보드 상태 확인 참조).
  5. 다음 중 하나가 나타나면 문제가 해결된 것입니다.
    • XCC 메시지의 FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
    • 웹 로그의 Sensor GPU Board has transitioned to normal state
    그러나 문제가 계속되면 다음 단계를 완료하십시오.
    1. XCC 서비스 데이터를 수집하십시오(서비스 데이터 수집 참조).
    2. Lenovo Services에 문의하십시오.

시스템에서 특정 GPU를 감지하지 못함

Sensor GPU CPUs has transitioned to critical from a less severe state 이벤트가 XCC 웹 이벤트 로그에 표시되면 시스템에서 특정 GPU를 하나 이상 감지하지 못했음을 나타냅니다. 문제를 해결하려면 다음 단계를 완료하십시오.

  1. XCC 이벤트에서 리타이머가 과열되었는지 확인하고, 그렇다면 다음 단계를 건너뛰십시오.
  2. 데이터 센터 지원 사이트(ThinkSystem SD665-N V3에 대한 Lenovo 데이터 센터 지원)에서 최신 펌웨어를 다운로드하고 펌웨어를 업데이트하십시오.
  3. 시스템을 재부팅하고 ipmi 상태 검사를 실행하십시오(GPU 및 GPU 보드 상태 확인 참조).
  4. Sensor GPU Board has transitioned to normal state 이벤트가 XCC 웹 이벤트 로그에 표시되면 문제가 해결된 것입니다.

    그러나 문제가 계속되면 다음 단계를 완료하십시오.
    1. XCC 웹 이벤트 로그를 확인하여 결함이 있는 장치와 문제 유형을 식별하십시오(XCC GPU 센서 사양 참조).
    2. XCC 서비스 데이터를 수집하십시오(서비스 데이터 수집 참조).
    3. 진단에 필요한 nvidia-smi를 실행하십시오(자세한 내용은 NVIDIA 시스템 관리 인터페이스 참조).
      GPU 문제 확인에 필요한 nvidia-smi 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 ThinkSystem SD665-N V3용 드라이버 및 소프트웨어 다운로드 웹 사이트에서 확인 가능합니다.
    4. nvidia-bug-report.sh를 실행하십시오(NVIDIA 드라이버에 내장된 도구).
    5. Lenovo Services에 문의하십시오.

XCC GPU 센서 사양

XCC 웹 이벤트 로그에서 이벤트를 볼 때 다음 표를 참조하여 결함이 있는 장치와 문제 유형을 식별하십시오. 예:

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
표 1. XCC GPU 센서 사양
센서 이름데이터
GPU CPU센서 번호EAh

02h - 약간 심각한 상태에서 위험한 상태로 전환

Evt 데이터2:

  • B0h: 열 경고
  • BBh: 실제 존재 상태 및 전원 상태
  • B1h: GPU 인터럽트 정보
  • 21h: PCIe 링크 상태
  • E0h: SMBIOS의 GPU 수

Evt 데이터3:

  • XXh: GPU CORE 색인, 01h: 코어 1
  • 07h: 코어 3 + 코어 4
센서 유형17h
센서 판독 유형07h
엔터티 ID0Bh
인스턴스/유형02h
SEL 로그 어설션02h
SEL 로그 디어설션02h
임계값 디어설션 

어설션 시 LED 'ON' 요청

F = 장애 KED

02h - F

디어설션 시 LED 'OFF' 요청

F = 장애 KED

02h - F
GPU 보드센서 번호EAh

00h - 양호한 상태로 전환

02h - 약간 심각한 상태에서 위험한 상태로 전환

Evt 데이터2:

  • F1h: GPU Thermaltrip(evt3 없음)
  • F2h: PIB Thermaltrip(evt3 없음)
  • F6h: GPU 코어 열 경고

Evt 데이터3:

  • XXh: GPU CORE 색인, 01h: 코어 1
  • 07h: 코어 3 + 코어 4
  • If Evt2: F4h, 01h: 온도 이상 플래그가 어설션됨
센서 유형17h
센서 판독 유형07h
엔터티 ID0Bh
인스턴스/유형01h
SEL 로그 어설션02h
SEL 로그 디어설션02h
임계값 디어설션해당사항 없음

어설션 시 LED 'ON' 요청

F = 장애 LED

00h - 없음

02h - F

디어설션 시 LED 'OFF' 요청

F = 장애 LED

00h - 없음

02h - F