HPE ProLiant Gen10/HPE Flexible Slot Power Supplies firmware

 

증상
HPE ProLiant Gen10 시스템에 장착하여 사용되는 Flex Slot Power supply 관련하여, 일부 환경에서, 시스템 장애를 유발할 수 있는 이슈가 확인되었고, FW 패치를 통해 해소할 수 있음. (관련 상세 내용은 하단 Advisory 참조)

 

- 아래 패턴의 오류와 함께, 예기치 않은 시스템 종료 (800W/500W 공통)
   Server Critical Fault (Service Information: RuntimeFault System Board AUX/Main EFUSE (10h))
   Server Critical Fault (Service Information: RuntimeFault, System Board, P12V Main/AUX Regulators
   Server Critical Fault (Service Information: RuntimeFault, Power Supply, Power Supply 1

 

- Power Supply FAN 장애 오감지 (800W)
   System Power Supply: Fan Warning (Power Supply X) 

 

- Power Supply 장애 (800W)
   General Failure (Power Supply X)

 

 

Advisory 문서를 주의 깊게 검토하는 경우, 특정 패턴의 CT# - 8J – 만 해당함을 인지할 수 있으나, 관련하여, 공식 웹에 게시된 SW의 정보상에 대상 PSU의 부품 정보 및 제조사가 명시되어 있지 않아 사용자에게 혼란을 줄 수 있음.

 

Online Power Supply Flash Component for Linux - HPE Flexible Slot Power Supplies
2020.08.03(4 Sep 2020)
https://support.hpe.com/hpsc/swd/public/detail?swItemId=MTX_93f43eff1f55458d9875d0b693#tab-history

  • 대상 부품 상세 정보 부족

Online Power Supply Flash Component for Windows - HPE Flexible Slot Power Supplies
2020.08.03(4 Sep 2020)
https://support.hpe.com/hpsc/swd/public/detail?swItemId=MTX-2c41322891774fbf98c29df31b

  • 대상 부품 상세 정보 부족

 

1. 내부 전원 오류에 따른 예기치 않은 시스템 종료(a00050474en_us) 이슈는 특정 제조사에서 생산된 PS에만 해당되며, 1.02로 업그레이드 필요함

 

  • 1.02 fw는 "8J" PS의 1.01 이하 fw만 인식되어 적용됨 (fw 1.02 이상의 500W PS는 인식하지 않음)
  • "8J"가 포함되지 않은 PS는 인식하지 않음.

   설치 시도 시, Smart component log에 아래 형태의 오류와 함께 중단됨
   The software will not be installed on this system because the required hardware is not present in the system or the software/firmware doesn't apply to this system.

 

2. PSU 장애(a00102266en_us) 및 PS FAN 오감지(a00106918en_us) 이슈는 800W PS에만 해당되며, 1.05로 업그레이드 필요함

 

환경
• HPE ProLiant Gen10 System
• 865408-B21 HPE 500W FLEX SLOT PLATINUM HOT PLUG LOW HALOGEN POWER SUPPLY KIT
• 865414-B21 HPE 800W FLEX SLOT PLATINUM HOT PLUG LOW HALOGEN POWER SUPPLY KIT

 

솔루션
Action Item 1.
What: 사용 중인 PS의 CT #를 확인하여, 8/9번째 자리에 “8J”가 존재하는 경우, 맞는 버전의 fw 적용
When: HPE Gen10 시스템에서 500W/800W PS를 사용하는 경우,
Why: 향상/개선된 fw를 통해 기 수정된 이슈 해소/예방을 위해
To do.

1) 865408-B21 / 500W이고, fw가 1.02 미만인 경우, fw 1.02 적용
2) 865414-B21 / 800W이고, fw가 1.05 미만인 경우, fw 1.05 적용

 

 

관련 Advisory 문서:

Advisory: (Revision) HPE ProLiant Gen 10 Servers- Single Power Supply Configurations of HPE Platinum 500W or 800W Supplies May Cause System Shutdown on HPE ProLiant Gen 10 Servers Under Heavy Work Load
https://support.hpe.com/hpesc/public/docDisplay?docId=a00050474en_us

 

RESOLUTION
Upgrade any 500W or 800W Platinum power supply CT#:XXXXXXX8JXXXXX to firmware version 1.02 or later

-------------------------------------------------------------------------------------------

Advisory: HPE ProLiant DL560 Gen10 or HPE ProLiant DL580 Gen10 Servers - "General Failure (Power Supply X)" Message May Be Displayed When Configured With 200 or 205 Watt Processors
https://support.hpe.com/hpesc/public/docDisplay?docId=a00102266en_us

 

RESOLUTION
Update any CT#: xxxxxxx8Jxxxxx 800 Watt power supply firmware to version 1.05 or later

-------------------------------------------------------------------------------------------

Advisory: (Revision) HPE ProLiant Gen10 Servers - Certain Systems Running Under Heavy Workload May Generate "Caution" IML Entries for Power Supply Fan Failure Warning Messages
https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00106918en_us

 

If the 8th and 9th digits from the serial number are "8J" respectively and the power supply firmware version is 1.04 (or earlier), update the power supply firmware to version 1.05 (or later) to resolve this issue.

-------------------------------------------------------------------------------------------

 

 

반응형
Posted by 스쳐가는인연

댓글을 달아 주세요

Qlogic HBA, MPI Heartbeat stop

SN1100Q와 같은 Qlogic HBA의 fw가 "01.73.08"인 상황에서, 아래 패턴의 로그와 함께 운영 중 예기치 않은 포트 다운 또는 리부팅이 발생되는 경우 HBA fw의 오류일 수 있음

Linux
kernel: qla2xxx [0000:11:00.0]-ffff:0: MPI Heartbeat stop. Chip reset needed. MB0[8200h] MB1[100h] MB2[0h] MB3[0h]
kernel: qla2xxx [0000:11:00.0]-d013:0: MPI Heartbeat stop. FW dump needed
kernel: qla2xxx [0000:11:00.0]-d011:0: -> fwdt0 running...
kernel: qla2xxx [0000:11:00.1]-ffff:2: MPI Heartbeat stop. Chip reset needed. MB0[8200h] MB1[0h] MB2[0h] MB3[0h]
kernel: qla2xxx [0000:11:00.1]-00af:2: Performing ISP error recovery - ha=ffff92febd43c000.
kernel: qla2xxx [0000:11:00.0]-d011:0: -> fwdt1 running...
kernel: qla2xxx [0000:11:00.0]-d015:0: -> Firmware dump saved to buffer (0/ffffafa3b3ff1000) <7>
kernel: qla2xxx [0000:11:00.0]-00af:0: Performing ISP error recovery - ha=ffff92feb53e4000.
kernel: qla2xxx [0000:11:00.1]-0075:2: ZIO mode 6 enabled; timer delay (200 us).
kernel: qla2xxx [0000:11:00.1]-ffff:2: FC4 priority set to NVMe
kernel: qla2xxx [0000:11:00.0]-0075:0: ZIO mode 6 enabled; timer delay (200 us).
kernel: qla2xxx [0000:11:00.0]-ffff:0: FC4 priority set to NVMe

VMware
cpu0:2955620)WARNING: qlnativefc: vmhba1(12:0.0): MPI Heartbeat stop. Chip reset needed. MB0[8200h] MB1[100h] MB2[0h] MB3[0h]
cpu0:2955620)WARNING: qlnativefc: vmhba1(12:0.0): MPI Heartbeat stop. FW dump needed
cpu0:2955620)qlnativefc: vmhba1(12:0.0): Attempting to take firmware dump
cpu16:2955621)WARNING: qlnativefc: vmhba2(12:0.1): MPI Heartbeat stop. Chip reset needed. MB0[8200h] MB1[0h] MB2[0h] MB3[0h]
cpu78:66253)qlnativefc: vmhba2(12:0.1): Inside qlnativefcAbortIsp
cpu78:66253)qlnativefc: vmhba2(12:0.1): Performing ISP error recovery - ha= 0x430811132010.
cpu8:66252)qlnativefc: vmhba2(12:0.1): qlnativefcUnregSess sess 0x43081113c7d0 for deletion 50:06:0e:80:12:3c:fd:02

Action Plan
What: 1) HBA fw를 1.74.07로 업그레이드
         2) 운영 중인 OS에 맞춰 HBA driver 업그레이드 (VMW 환경에서 필수)

             - VMw 6.5 drv 2.1.101.0 or higher
             - VMw 6.7 drv 3.1.36.0 or higher

 

Workaround: Cold reboot 후 포트가 다시 활성화 되나, 패치 전까지 증상은 잠재된 상태일 수 있음

반응형
Posted by 스쳐가는인연

댓글을 달아 주세요

d6500 fan location

Apollo d6500/XL270d Gen9 FAN location

UG: 5
IML: 5, 13
UG: 6
IML: 6, 14
UG: 7
IML: 7, 15
UG: 8
IML: 8, 16
UG: 1
IML: 1, 9
UG: 2
IML: 2, 10
UG: 3
IML: 3, 11
UG: 4
IML: 4, 12

 

참고자료:

Advisory: HPE Apollo - ProLiant XL270d Gen9 Server May Exhibit Inconsistent and Out of Sequence Fan Numbering in the HP Integrated Lights-Out 4 (iLO 4) GUI

support.hpe.com/hpesc/public/docDisplay?docId=emr_na-c05291938

 

 

 

반응형
Posted by 스쳐가는인연

댓글을 달아 주세요

iLO5 fw v2.30 적용 시스템의 VMware 상에서 Memory 관련 경고 알람 발생

 

 

증상

iLO/Hardware 상에 발생된 메모리 관련 이상이 없으나, VMware 상에 아래 형태의 메모리 이벤트가 발생됨

Memory Alert
Memory Alert

 

원인

VMwareiLO의 정보 교환 오류

 

 

환경

Server : iLO5 fw 2.30을 사용하는 Gen10/Gen10 plus ProLiant Server

 

 

솔루션

iLO fw 2.31이상에서 수정됨

 

관련 문서

Advisory: VMware - The Memory Sensor Status Reported in the vSphere Web Client Is Not Accurate For HPE ProLiant Gen10 and Gen10 Plus Servers Running VMware ESXi 6.5/6.7/7.0 With HPE Integrated Lights-Out 5 (iLO 5) Firmware Version 2.30

https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00106468en_us

 

 

 

 

 

반응형
Posted by 스쳐가는인연
TAG iLO5

댓글을 달아 주세요

Gen10 시스템의 Smart Array SR HBA fw가 1.98/1.99/2.62 인 경우, 신규 생성된 Logical Drive의 Surface Scan 중 inconsistent parity 오류가 발생할 수 있다.

Array 구성에 따라, 유효 데이터가 inconsistent stripe에 위치하는 경우, 수정 불가한 오류(URE) 및 Disk 장애를 유발할 수 있고, 고객 데이터의 문제(data integrity issues)를 일으킬 수 있어 조치가 필요하다.

affected fw version

SA HBA fw를 3.00로 업데이트 하여 사용하면 됨

VMware ESXi

Linux (x64)

Windows (x64)

 

증상 검토 관련 정보:
1. Windows 환경의 경우 Event ID 24677이 관찰될 수 있다.
(Linux는 오류를 기록하지 않아 발견하기 어렵다)
e.g.) Windows Event log
------------------------------------------------------
Message Id: 24677
Severity: Informational
Log message: Surface analysis has repaired an inconsistent stripe on logical drive connected to array controller .
------------------------------------------------------

2. SSA를 통해, 특정 LD의 Parity 상태 정보를 검토할 수 있다.
GUI> Controller Devices > Logical Devices > Logical Drive x from Array Y > Parity Initialization Status : Initialization Failed

CLI> 아래 명령 수행 후, Parity Initialization Status를 검토.
1) controller all show
2) controller slot=x logicaldrive all show
3) controller slot=x logicaldrive y show

증상을 경험 중인 fw 사용 중 불가피한 경우, Workaround로는 "offline Parity Initialization"을 이용한다. (Parity 초기화 완료 후 볼륨 사용)

 

관련 정보는 아래 문서를 참조할 수 있음
Bulletin: HPE Smart Array SR Gen10 Controllers - FIRMWARE UPDATE REQUIRED to Prevent Potential Data Inconsistency on Select RAID Configurations Created with Smart Array Gen10 Firmware Version 1.98 through 2.62
https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00097210en_us

 

 

 

반응형
Posted by 스쳐가는인연

댓글을 달아 주세요