HW Knowledge/Hewlett-Packard Enterprise

RHEL 8.x/Intel E810 NIC의 VF(가상화)를 운용 중 간헐적인 예기치 않은 리부팅 발생

스쳐가는인연 2023. 3. 9. 19:30

RHEL 8.5/8.6 환경에서, Intel E810 NIC VF(가상화)를 운용 중 간헐적인 예기치 않은 리부팅 발생
RHEL8.5/8.6 환경에서, Intel E810 장치의 VF(Virtual Function, 가상화) 운용 시, 간헐적으로 예기치 않은 리부팅 발생
IML 상에 아래 중 한 개 이상의 정보가 확인됨
IML - One or more events recorded
- Uncorrectable Error Detected on the Previous Boot. Error information logged to the Integrated Management Log.
- Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000, Bank 0x00000006, Status 0xBA000000'00000E0B, Address 0x00000000'00000000, Misc 0x00000000'0E200000).
- Internal processor error occurred - primary processor is unable to boot. System halted.
- Unexpected Shutdown and Restart - An undetermined error type resulted in a reboot of the server.
Note. UMCE Decode , Intel E810 장치를 Pointing하나, HW 장애가 아닐 수 있음 (실제 부품 장애 가능성 있음에 따라)
Intel NIC driver(ice/iavf)의 버그로 인해, 장치가 재설정/전환되는 과정에 메모리 관리 실패(memory corruption) 발생
RHEL8.5/8.6 (RHEL8.7 이하의 RHEL8.x 포함 예상- iavf(Intel VF driver)를 활용하는 환경에서 발생 가능 예상)
P08443-B21, Intel E810 NIC (Intel E800 Series driver를 함께 사용하는 Intel Network Adapter 포함 예상)
Intel NIC driver(ice package) 업그레이드 필요
수정된 driver kernel-4.18.0-425.3.1.el8 / RHEL 8.7 GA에 포함됨
Action Plan 1.
What: Upgrade OS Kernel to RHEL 8.7 또는 최신 Intel NIC driver 설치
Intel 최신 버전(2023-03-09 기준)
Intel® Network Adapter Driver for E810 Series Devices under Linux*
Intel® Network Adapter Linux* Virtual Function Driver for Intel® Ethernet Controller 700 and E810 Series
HPE 최신 버전(2023-03-09 기준)
Intel ice Drivers for Red Hat Enterprise Linux 8
1.9.11-1(C) (15 Feb 2023)
HPE Intel iavf Drivers for Red Hat Enterprise Linux 8
4.5.3-1(B) (15 Feb 2023)
Note. 본 이슈는 RedHat KBase에 등록될 예정
Note. RHEL 8.7에 포함된 inbox driver Intel oob/OEM driver의 버전 관리가 완전히 다름에, oob 설치 시, 최신 버전 설치가 권장됨(현 기준 1.11.14)




