HPE ProLiant System과 함께, Broadcom (ex. Emulex) CNA(NIC) 사용 중, Unrecoverable Error 발생

 

원인 및 증상

Broadcom(. Emulex) CNA를 사용하는 환경에서, 아래 중 하나 이상의 오류를 경험할 수 있음

 

Linux 계열의 경우, OS event log - "/var/log/messages",

아래와 유사 패턴의 로그가 기록됨 ---------------

be2net 0000:06:00.4: Unrecoverable Error detected in the adapter

be2net 0000:06:00.4: Please reboot server to recover

이 후, 아래 중 특정 footprint가 함께 기록됨

 

be2net 0000:06:00.4: UE LOW: TPOST bit set

or

 

be2net 0000:06:00.4: UE LOW: MPU bit set

be2net 0000:06:00.4: UE LOW: TPOST bit set

or

 

be2net 0000:06:00.4: eth4: Link down

be2net 0000:06:00.4: UE HIGH: TXPB bit set

-----------------------------------------------------

 

VMware의 경우 아래의 형태로 기록됨 ----------

2017-02-24T20:45:34.067Z cpuX:33579)WARNING: elxnet: elxnet_detectDumpUe:344: [vmnicX] UE Detected!!

2017-02-24T20:45:34.067Z cpuX:33579)WARNING: elxnet: elxnet_detectDumpUe:352: [vmnicX] UE lo: MPU bit set

2017-02-24T20:45:34.067Z cpuX:33579)WARNING: elxnet: elxnet_detectDumpUe:361: [vmnicX] UE hi: TXP bit set

 

2017-02-24T20:45:34.747Z cpuX:33584)WARNING: lpfc: lpfc_sli4_eratt_read:11015: 0:1423 HBA Unrecoverable error: uerr_lo_reg=0x4000020, uerr_hi_reg=0x1000, ue_mask_lo_reg=0x4000000, ue_mask_hi_reg=0x80000000

2017-02-24T20:45:34.747Z cpuX:33584)WARNING: lpfc: lpfc_sli4_eratt_read:11015: 1:1423 HBA Unrecoverable error: uerr_lo_reg=0x4000020, uerr_hi_reg=0x1000, ue_mask_lo_reg=0x4000000, ue_mask_hi_reg=0x80000000

 

2017-02-24T20:45:34.747Z cpuX:33585)WARNING: lpfc: lpfc_handle_eratt_s4:1993: 0:7623 Checking UE recoverable

2017-02-24T20:45:34.747Z cpuX:33588)WARNING: lpfc: lpfc_handle_eratt_s4:1993: 1:7623 Checking UE recoverable

-----------------------------------------------------

 

Windows의 포트 비활성화 경우:

 

 

Unrecoverable Error

- Hard reset(e.g. reboot) 없이는 하드웨어가 복구/복원 되지 않는 상황에 진입된 하드웨어적 오류 이벤트

- software(fw/driver) or hardware의 여러 요인에 의해 발생될 수 있는, 표면적/결과적 오류 이벤트로,

각 상황 별로 발생 요인이 다를 수 있음.

(그로 인해, 특정 조치 방법을 공통 적용 시, 결과가 다르게 나타날 수 있음)

 

환경

- HPE ProLiant G7 – Gen9

- 아래 중 하나 이상의 CNA 부품을 사용하는 경우,

HPE Ethernet 10Gb 2-port 557SFP+ Adapter

HPE FlexFabric 10Gb 2-port 556FLR-SFP+ Adapter

HPE FlexFabric 10Gb 2-port 556FLR-T Adapter

HPE FlexFabric 20Gb 2-port 650FLB Adapter

HPE FlexFabric 20Gb 2-port 650M Adapter

HPE StoreFabric CN1200E 10Gb Converged Network Adapter

HPE StoreFabric CN1200E 10GBASE-T Dual Port Converged Network Adapter

HPE NC553m 10Gb 2-port FlexFabric Adapter

HPE FlexFabric 10Gb 2-port 554M Adapter

HPE FlexFabric 10Gb 2-port 554FLB Adapter

HPE FlexFabric 10Gb 2-port 554FLR-SFP+ Adapter

HPE NC552m 10Gb 2-port FlexFabric Converged Network Adapter

HPE NC552SFP 10Gb 2-port Ethernet Server Adapter

HPE NC553i 10Gb 2-port FlexFabric Converged Network Adapter

HPE CN1100E Dual Port Converged Network Adapter

 

솔루션

Unrecoverable Error가 발생되는 일부 알려진 증상의 경우 상위 fw로 업그레이드하여 해소 가능함

Driver에 예외 처리 알고리즘(가능한 경우 복구 시도)이 추가됨

 

Action Item 1.

What: fw and driver(OS 버전 확인 필요) upgrade to latest

When: 가능한 때,

- fw Pacakage 11.1.183.48 (or later) 및 그에 호환되는 driver 확인 후 적용 필요

- 사용 중인 시스템에 대하여, 지원 가능한 최신 SPP 적용 권장

 

Action Item 2.

What: System Reboot

When: 적용된 장치 fw“11.1.183.48” 이상이고, UE 이벤트를 경험한 경우

 

참조 Advisory ------------------------------------------

Advisory: HP Emulex Adapters - Network Adapters May Become Unrecoverable or Disabled Due to an Unexpected Error Caused by a FAT File Mismatch

https://support.hpe.com/hpsc/doc/public/display?docId=emr_na-c04943543

 

be2net Unrecoverable Error detected in the adapter

https://access.redhat.com/solutions/1229853

 

Why did the server hang with messages like "kernel: be2net 0000:04:00.0: UE: MPU bit set" on the console?

https://access.redhat.com/solutions/401023

-----------------------------------------------------------

 

Posted by 스쳐가는인연

댓글을 달아 주세요