본문 바로가기
HW Knowledge/Hewlett-Packard Enterprise

ProLiant Gen9(E5 v4 Series CPU)-System unexpected reset or shutdown

by 스쳐가는인연 2022. 5. 4.

Intel Xeon E5 v4(Broadwell)시리즈 CPU를 사용하는 ProLiant Gen9 서버의 예기치 않은 시스템 재시작 또는 종료 발생 가능 이슈

 

증상

아래 중 한 개 이상의 정보가 확인됨

 

시나리오 1.

연관된 로그(footprint)정보가 남지 않고, 예기치 않은 시스템 재시작 또는 종료가 발생됨

 

시나리오 2.

예기치 않은 시스템 재시작 또는 종료가 발생된 후 리부팅 중, Smart Array 관련 lockup 0x12가 기록됨

 

시나리오 3.

예기치 않은 시스템 재시작 또는 종료가 발생된 후 아래 형태의 UMCE 코드가 IML상에 확인됨

Uncorrectable Machine Check Exception (Board 0, Processor 2, APIC ID 0x00000040, Bank 0x00000004, Status 0xBA000000'73000402, Address 0x00000000'00000000, Misc 0x00000000'00000000)

 

노란색 마크된 정보가 일치된 형태로 확인되며, 그 외 형태의 UMCE 이벤트가 함께 나타날 수 있음.

시나리오 2.와 함께 나타날 수 있음.

 

원인

CPU의 일시적인 내부 오동작으로, 시스템 내부에서 IO 요청(많은 경우 PCI 확장 장치의 요청)이 정상 처리되지 못해,해당 요청이 비정상 종료(timeout)

 

이 현상은 치명적 오류로 시스템 리부팅을 유발하게 되는데, 리부팅 과정에서 Smart Array lockup(응답 지연으로 인한 IO 처리 실패)을 경험할 수 있음 (lockup 0x12 기록)

HW 로그상에 Smart Array의 오류로 기록되지만(파생된 이벤트), 이슈 촉발의 원인이 Smart Array의 장애가 아님(Smart Array 교체 필요치 않음)

 

 

환경

·    Intel Xeon E5 v4 Series CPU를 사용하는 ProLiant Gen9 System

- E5-2600 v4 Series Intel Processor

- E5-4600 v4 Series Intel Processor

 

솔루션

Action Plan 1.

What: Upgrade BIOS to v2.74

What if: recur issue again, to enable Uncore Frequency Limiting

 

 

Problems Fixed:

This revision of the System ROM includes the latest revision of the Intel microcode which addresses an issue where the system could experience an unexpected reset or shutdown with no errors logged to the Integrated Management Log (IML). This issue only impacts systems configured with Intel Xeon 2600 v4 series processors. This issue is not unique to HPE servers.

 

This revision of the System ROM includes the latest revision of the Intel microcode which addresses an issue where the system could experience an unexpected reset or shutdown with no errors logged to the Integrated Management Log (IML) when processor C-states are enabled. This issue does not exist when processor C-states are disabled. This issue is not unique to HPE servers.

 

참조 Advisory ------------------------------------------

Advisory: ProLiant Gen9 Series Servers - Unexpected Reset or Shutdown May Occur on ProLiant Gen9 Servers

https://support.hpe.com/hpsc/doc/public/display?docId=emr_na-a00060570en_us

-----------------------------------------------------------

 

 

 

 

 

반응형