HPE ProLiant System과 함께, Broadcom (ex. Emulex) CNA(NIC) 사용 중, Unrecoverable Error 발생
원인 및 증상
Broadcom(구. Emulex) CNA를 사용하는 환경에서, 아래 중 하나 이상의 오류를 경험할 수 있음
Linux 계열의 경우, OS event log - "/var/log/messages"에,
아래와 유사 패턴의 로그가 기록됨 ---------------
be2net 0000:06:00.4: Unrecoverable Error detected in the adapter
be2net 0000:06:00.4: Please reboot server to recover
이 후, 아래 중 특정 footprint가 함께 기록됨
be2net 0000:06:00.4: UE LOW: TPOST bit set
or
be2net 0000:06:00.4: UE LOW: MPU bit set
be2net 0000:06:00.4: UE LOW: TPOST bit set
or
be2net 0000:06:00.4: eth4: Link down
be2net 0000:06:00.4: UE HIGH: TXPB bit set
-----------------------------------------------------
VMware의 경우 아래의 형태로 기록됨 ----------
2017-02-24T20:45:34.067Z cpuX:33579)WARNING: elxnet: elxnet_detectDumpUe:344: [vmnicX] UE Detected!!
2017-02-24T20:45:34.067Z cpuX:33579)WARNING: elxnet: elxnet_detectDumpUe:352: [vmnicX] UE lo: MPU bit set
2017-02-24T20:45:34.067Z cpuX:33579)WARNING: elxnet: elxnet_detectDumpUe:361: [vmnicX] UE hi: TXP bit set
2017-02-24T20:45:34.747Z cpuX:33584)WARNING: lpfc: lpfc_sli4_eratt_read:11015: 0:1423 HBA Unrecoverable error: uerr_lo_reg=0x4000020, uerr_hi_reg=0x1000, ue_mask_lo_reg=0x4000000, ue_mask_hi_reg=0x80000000
2017-02-24T20:45:34.747Z cpuX:33584)WARNING: lpfc: lpfc_sli4_eratt_read:11015: 1:1423 HBA Unrecoverable error: uerr_lo_reg=0x4000020, uerr_hi_reg=0x1000, ue_mask_lo_reg=0x4000000, ue_mask_hi_reg=0x80000000
2017-02-24T20:45:34.747Z cpuX:33585)WARNING: lpfc: lpfc_handle_eratt_s4:1993: 0:7623 Checking UE recoverable
2017-02-24T20:45:34.747Z cpuX:33588)WARNING: lpfc: lpfc_handle_eratt_s4:1993: 1:7623 Checking UE recoverable
-----------------------------------------------------
Windows의 포트 비활성화 경우:
Unrecoverable Error는
- Hard reset(e.g. reboot) 없이는 하드웨어가 복구/복원 되지 않는 상황에 진입된 하드웨어적 오류 이벤트
- software(fw/driver) or hardware의 여러 요인에 의해 발생될 수 있는, 표면적/결과적 오류 이벤트로,
각 상황 별로 발생 요인이 다를 수 있음.
(그로 인해, 특정 조치 방법을 공통 적용 시, 결과가 다르게 나타날 수 있음)
환경
- HPE ProLiant G7 – Gen9
- 아래 중 하나 이상의 CNA 부품을 사용하는 경우,
HPE Ethernet 10Gb 2-port 557SFP+ Adapter
HPE FlexFabric 10Gb 2-port 556FLR-SFP+ Adapter
HPE FlexFabric 10Gb 2-port 556FLR-T Adapter
HPE FlexFabric 20Gb 2-port 650FLB Adapter
HPE FlexFabric 20Gb 2-port 650M Adapter
HPE StoreFabric CN1200E 10Gb Converged Network Adapter
HPE StoreFabric CN1200E 10GBASE-T Dual Port Converged Network Adapter
HPE NC553m 10Gb 2-port FlexFabric Adapter
HPE FlexFabric 10Gb 2-port 554M Adapter
HPE FlexFabric 10Gb 2-port 554FLB Adapter
HPE FlexFabric 10Gb 2-port 554FLR-SFP+ Adapter
HPE NC552m 10Gb 2-port FlexFabric Converged Network Adapter
HPE NC552SFP 10Gb 2-port Ethernet Server Adapter
HPE NC553i 10Gb 2-port FlexFabric Converged Network Adapter
HPE CN1100E Dual Port Converged Network Adapter
솔루션
Unrecoverable Error가 발생되는 일부 알려진 증상의 경우 상위 fw로 업그레이드하여 해소 가능함
Driver에 예외 처리 알고리즘(가능한 경우 복구 시도)이 추가됨
Action Item 1.
What: fw and driver(OS 버전 확인 필요) upgrade to latest
When: 가능한 때,
- fw Pacakage 11.1.183.48 (or later) 및 그에 호환되는 driver 확인 후 적용 필요
- 사용 중인 시스템에 대하여, 지원 가능한 최신 SPP 적용 권장
Action Item 2.
What: System Reboot
When: 적용된 장치 fw가 “11.1.183.48” 이상이고, UE 이벤트를 경험한 경우
참조 Advisory ------------------------------------------
Advisory: HP Emulex Adapters - Network Adapters May Become Unrecoverable or Disabled Due to an Unexpected Error Caused by a FAT File Mismatch
https://support.hpe.com/hpsc/doc/public/display?docId=emr_na-c04943543
be2net Unrecoverable Error detected in the adapter
https://access.redhat.com/solutions/1229853
Why did the server hang with messages like "kernel: be2net 0000:04:00.0: UE: MPU bit set" on the console?
https://access.redhat.com/solutions/401023
-----------------------------------------------------------