본문으로 건너뛰기

MI300X GPU 문제

다음 정보를 사용하여 GPU 및 방열판 모듈과 GPU 베이스보드와 관련된 문제를 해결하십시오.

GPU 상태 확인

GPU 상태를 확인하려면 다음 유틸리티 중 하나를 사용합니다. 다음의 필수 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 드라이버 및 소프트웨어 다운로드 웹사이트(ThinkSystem SR685a V3용)에서 확인 가능합니다.

SMI(System Management Interface) 정보에 대한 자세한 내용은 AMD 시스템 관리 인터페이스의 내용을 참조하십시오.

  • rocm-smi

    rocm-smi 유틸리티를 실행하여 온라인 상태인 GPU 8개를 표시합니다.

    그림 1. rocm-smi
    rocm-smi
  • rocm-smi --showrasinfo

    rocm-smi --showrasinfo 유틸리티를 실행하여 8개 GPU의 하드웨어 세부 정보를 표시합니다.

    그림 2. rocm-smi --showrasinfo
    rocm-smi --showrasinfo
  • rocm-smi --showhw

    rocm-smi --showhw 유틸리티를 실행하여 8개 GPU의 오류 카운터를 표시합니다.

    그림 3. rocm-smi --showhw
    rocm-smi --showhw
  • rocm-smi -a

    rocm-smi -a 유틸리티를 실행하여 8개 GPU의 상태를 표시합니다.

    그림 4. rocm-smi -a
    rocm-smi -a

    rocm-smi -a

시스템에서 특정 GPU를 감지하지 못함

이벤트 중 하나가 XCC 웹 이벤트 로그에 나타나면 시스템이 하나 이상의 특정 GPU를 감지하지 못했음을 나타냅니다.

  • FQXSPIO0015M: [ComputerSystemElementName] 시스템의 [PhysicalConnectorSystemElementName] 슬롯에 결함이 있습니다. 이벤트가 나타나면 FQXSPIO0015M를 참조하여 문제를 해결하십시오.
  • FQXSFIO0010M: 정정할 수 없는 PCIe 오류가 버스 [arg1] 장치 [arg2] 기능 [arg3]에서 발생했습니다. 장치의 공급업체 ID는 [arg4]이고 장치 ID는 [arg5]입니다. 실제 [arg6] 번호는 [arg7]입니다. 이벤트가 나타나면 FQXSFIO0010M를 참조하여 문제를 해결하십시오.
    매개 변수:
    • [arg1] 버스
    • [arg2] 장치
    • [arg3] 기능
    • [arg4] VID
    • [arg5] DID
    • [arg6] 슬롯/베이
    • [arg7] 인스턴스 번호
  • FQXSPUN0019M: [SensorElementName] 센서가 약간 심각한 상태에서 위험한 상태로 전환되었습니다. 이벤트가 나타나면 FQXSPUN0019M를 참조하여 문제를 해결하십시오.
다음 표에서는 XCC의 슬롯 번호와 실제 GPU 소켓 간의 매핑 정보를 보여 줍니다.
XCC의 슬롯 번호물리적 GPU 소켓GPU 소켓의 위치
슬롯 17OAM 7

슬롯 18OAM 6
슬롯 19OAM 4
슬롯 20OAM 5
슬롯 21OAM 3
슬롯 22OAM 2
슬롯 23OAM 0
슬롯 24OAM 1