MI300X GPU 문제
다음 정보를 사용하여 GPU 및 방열판 모듈과 GPU 베이스보드와 관련된 문제를 해결하십시오.
GPU 상태 확인
주
GPU 상태를 확인하려면 다음 유틸리티 중 하나를 사용합니다. 다음의 필수 유틸리티가 포함된 GPU 드라이버를 업데이트해야 합니다. 최신 드라이버는 드라이버 및 소프트웨어 다운로드 웹사이트(ThinkSystem SR685a V3용)에서 확인 가능합니다.
SMI(System Management Interface) 정보에 대한 자세한 내용은 AMD 시스템 관리 인터페이스의 내용을 참조하십시오.
rocm-smi
rocm-smi 유틸리티를 실행하여 온라인 상태인 GPU 8개를 표시합니다.
그림 1. rocm-smirocm-smi --showrasinfo
rocm-smi --showrasinfo 유틸리티를 실행하여 8개 GPU의 하드웨어 세부 정보를 표시합니다.
그림 2. rocm-smi --showrasinforocm-smi --showhw
rocm-smi --showhw 유틸리티를 실행하여 8개 GPU의 오류 카운터를 표시합니다.
그림 3. rocm-smi --showhwrocm-smi -a
rocm-smi -a 유틸리티를 실행하여 8개 GPU의 상태를 표시합니다.
그림 4. rocm-smi -a
시스템에서 특정 GPU를 감지하지 못함
이벤트 중 하나가 XCC 웹 이벤트 로그에 나타나면 시스템이 하나 이상의 특정 GPU를 감지하지 못했음을 나타냅니다.
- FQXSPIO0015M: [ComputerSystemElementName] 시스템의 [PhysicalConnectorSystemElementName] 슬롯에 결함이 있습니다. 이벤트가 나타나면 FQXSPIO0015M를 참조하여 문제를 해결하십시오.
- FQXSFIO0010M: 정정할 수 없는 PCIe 오류가 버스 [arg1] 장치 [arg2] 기능 [arg3]에서 발생했습니다. 장치의 공급업체 ID는 [arg4]이고 장치 ID는 [arg5]입니다. 실제 [arg6] 번호는 [arg7]입니다. 이벤트가 나타나면 FQXSFIO0010M를 참조하여 문제를 해결하십시오.주매개 변수:
- [arg1] 버스
- [arg2] 장치
- [arg3] 기능
- [arg4] VID
- [arg5] DID
- [arg6] 슬롯/베이
- [arg7] 인스턴스 번호
- FQXSPUN0019M: [SensorElementName] 센서가 약간 심각한 상태에서 위험한 상태로 전환되었습니다. 이벤트가 나타나면 FQXSPUN0019M를 참조하여 문제를 해결하십시오.
주
다음 표에서는 XCC의 슬롯 번호와 실제 GPU 소켓 간의 매핑 정보를 보여 줍니다.
XCC의 슬롯 번호 | 물리적 GPU 소켓 | GPU 소켓의 위치 |
---|---|---|
슬롯 17 | OAM 7 | ![]() |
슬롯 18 | OAM 6 | |
슬롯 19 | OAM 4 | |
슬롯 20 | OAM 5 | |
슬롯 21 | OAM 3 | |
슬롯 22 | OAM 2 | |
슬롯 23 | OAM 0 | |
슬롯 24 | OAM 1 |
피드백 보내기