본문으로 건너뛰기

GPU 문제

다음 정보를 사용하여 GPU 및 GPU 보드와 관련된 문제를 해결하십시오.

GPU 문제 확인에 필요한 nvidia-smi 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 ThinkSystem SD650-N V3용 드라이버 및 소프트웨어 다운로드 웹 사이트에서 확인 가능합니다.

GPU 및 GPU 보드 상태 확인

ipmitool의 다음 센서 상태는 GPU 및 GPU 보드가 정상 상태임을 나타냅니다.

$ ipmitool -I lanplus -H 192.168.70.125 -U USERID -P PASSW0RD 
sdr elist | grep GPU
GPU Board Power | 8Ch | ok | 21.4 | 250 Watts
GPU Board | E9h | ok | 11.8 | Transition to OK
GPU CPUs | EAh | ok | 11.9 | Transition to OK
nvidia-smi 유틸리티 요약은 GPU 4개가 온라인 상태임을 나타냅니다.
그림 1. nvidia-smi

시스템에서 GPU 보드를 감지하지 못함

Sensor GPU Board has transitioned to critical from a less severe state 이벤트가 XCC 웹 이벤트 로그에 표시되면 시스템에서 GPU 보드를 감지하지 못했음을 나타냅니다. 문제를 해결하려면 다음 단계를 완료하십시오.

  1. 시스템 전원을 껐다가 다시 켜십시오.
  2. XCC 및 SMM2의 전원 입력 관련 이벤트를 확인하십시오(SMM2 - 전원 참조).
  3. 시스템 온도와 유수를 확인하십시오. 누수가 있는지 확인하고 수냉 시스템을 분리했다가 다시 연결하십시오.
  4. 시스템을 재부팅하고 ipmi 상태 검사를 실행하십시오(GPU 및 GPU 보드 상태 확인 참조).
  5. 다음 중 하나가 나타나면 문제가 해결된 것입니다.
    • XCC 메시지의 FQXSPUN0017I (Sensor GPU Board has transitioned to normal state)
    • 웹 로그의 Sensor GPU Board has transitioned to normal state
    그러나 문제가 계속되면 다음 단계를 완료하십시오.
    1. XCC 서비스 데이터를 수집하십시오(서비스 데이터 수집 참조).
    2. Lenovo Services에 문의하십시오.

시스템에서 특정 GPU를 감지하지 못함

Sensor GPU CPUs has transitioned to critical from a less severe state 이벤트가 XCC 웹 이벤트 로그에 표시되면 시스템에서 특정 GPU를 하나 이상 감지하지 못했음을 나타냅니다. 문제를 해결하려면 다음 단계를 완료하십시오.

  1. XCC 이벤트에서 리타이머가 과열되었는지 확인하고, 그렇다면 다음 단계를 건너뛰십시오.
  2. 데이터 센터 지원 사이트(ThinkSystem SD650-N V3에 대한 Lenovo 데이터 센터 지원)에서 최신 펌웨어를 다운로드하고 펌웨어를 업데이트하십시오.
  3. 시스템을 재부팅하고 ipmi 상태 검사를 실행하십시오(GPU 및 GPU 보드 상태 확인 참조).
  4. Sensor GPU Board has transitioned to normal state 이벤트가 XCC 웹 이벤트 로그에 표시되면 문제가 해결된 것입니다.

    그러나 문제가 계속되면 다음 단계를 완료하십시오.
    1. XCC 웹 이벤트 로그를 확인하여 결함이 있는 장치와 문제 유형을 식별하십시오(XCC GPU 센서 사양 참조).
    2. XCC 서비스 데이터를 수집하십시오(서비스 데이터 수집 참조).
    3. 진단에 필요한 nvidia-smi를 실행하십시오(자세한 내용은 NVIDIA 시스템 관리 인터페이스 참조).
      GPU 문제 확인에 필요한 nvidia-smi 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 ThinkSystem SD650-N V3용 드라이버 및 소프트웨어 다운로드 웹 사이트에서 확인 가능합니다.
    4. nvidia-bug-report.sh를 실행하십시오(NVIDIA 드라이버에 내장된 도구).
    5. Lenovo Services에 문의하십시오.

XCC GPU 센서 사양

XCC 웹 이벤트 로그에서 이벤트를 볼 때 다음 표를 참조하여 결함이 있는 장치와 문제 유형을 식별하십시오. 예:

6 | 01/08/2021 | 14:34:53 | 0x0020 | Add-in Card GPU Board | Trasition to Critical from less severe | Asserted |0xA2F60F 
표 1. XCC GPU 센서 사양 1/2
센서 이름센서 번호센서 유형센서 판독 유형엔터티 ID인스턴스/유형판독 마스크(센서에 설정된 데이터)
GPU 보드E9h17h07h0Bh01h

00h - 양호한 상태로 전환

02h - 약간 심각한 상태에서 위험한 상태로 전환

  • Evt 데이터: 21
    • F1h: GPU 전원 제동(evt3 없음)

    • F2h: PIB Thermaltrip(evt3 없음)

    • F6h: GPU 코어 열 경고

    • F8h: PIB 과열

  • Evt 데이터3:

    • XXh: GPU CORE 색인, 01h: 코어 1

    • 07h: 코어 1+코어 2+코어 3

GPU CPUEAh17h07h0Bh02h

02h - 약간 심각한 상태에서 위험한 상태로 전환

  • Evt 데이터2:

    • B#h: 열 경고

    • BBh: 실제 존재 상태 및 전원 상태

    • 21h: PCIe 링크 상태

    • E0h: SMBIOS의 GPU 수

    • 3Ah: 카드 상태 센서

  • Evt 데이터3:

    • XXh: GPU CORE 색인, 01h: 코어 1

    • 0Ch: 코어 3 + 코어 4

    • ED2:B#h, ED3:VR id.

표 2. XCC GPU 센서 사양 2/2
센서 이름SEL 로그 어설션SEL 로그 디어설션임계값 설정 가능(B20)

어설션 시 LED 'ON' 요청

F = 장애 LED

디어설션 시 LED 'OFF' 요청

F = 장애 LED

GPU 보드02h02h해당사항 없음

00h - 없음

02h - F

00h - 없음

02h - F

GPU CPU02h02h해당사항 없음02h-F02h-F
1

Evt 데이터2는 예를 들어 다음과 같이 요약할 수 있습니다. F7h: F1+F2+F4, F3: F1+F2.