RHEL 8.5/8.6 환경에서, Intel E810 NIC의 VF(가상화)를 운용 중 간헐적인 예기치 않은 리부팅 발생
증상
RHEL8.5/8.6 환경에서, Intel E810 장치의 VF(Virtual Function, 가상화) 운용 시, 간헐적으로 예기치 않은 리부팅 발생
IML 상에 아래 중 한 개 이상의 정보가 확인됨
IML - One or more events recorded
- Uncorrectable Error Detected on the Previous Boot. Error information logged to the Integrated Management Log.
- Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x00000000, Bank 0x00000006, Status 0xBA000000'00000E0B, Address 0x00000000'00000000, Misc 0x00000000'0E200000).
- Internal processor error occurred - primary processor is unable to boot. System halted.
- Unexpected Shutdown and Restart - An undetermined error type resulted in a reboot of the server.
Note. UMCE Decode 시, Intel E810 장치를 Pointing하나, HW 장애가 아닐 수 있음 (실제 부품 장애 가능성 있음에 따라)
원인
Intel NIC driver(ice/iavf)의 버그로 인해, 장치가 재설정/전환되는 과정에 메모리 관리 실패(memory corruption) 발생
환경
RHEL8.5/8.6 (RHEL8.7 이하의 RHEL8.x 포함 예상- iavf(Intel VF driver)를 활용하는 환경에서 발생 가능 예상)
P08443-B21, Intel E810 NIC (Intel E800 Series driver를 함께 사용하는 Intel Network Adapter 포함 예상)
솔루션
Intel NIC driver(ice package) 업그레이드 필요
수정된 driver는 kernel-4.18.0-425.3.1.el8 / RHEL 8.7 GA에 포함됨
Action Plan 1.
What: Upgrade OS Kernel to RHEL 8.7 또는 최신 Intel NIC driver 설치
Intel 최신 버전(2023-03-09 기준)
Intel® Network Adapter Driver for E810 Series Devices under Linux*
1.11.14
https://www.intel.com/content/www/us/en/download/19630/intel-network-adapter-driver-for-e810-series-devices-under-linux.html
Intel® Network Adapter Linux* Virtual Function Driver for Intel® Ethernet Controller 700 and E810 Series
4.8.2
https://www.intel.com/content/www/us/en/download/18159/intel-network-adapter-linux-virtual-function-driver-for-intel-ethernet-controller-700-and-e810-series.html
HPE 최신 버전(2023-03-09 기준)
Intel ice Drivers for Red Hat Enterprise Linux 8
1.9.11-1(C) (15 Feb 2023)
https://support.hpe.com/connect/s/softwaredetails?language=en_US&softwareId=MTX_6d3b0dc152404b2b9b426d92c8
HPE Intel iavf Drivers for Red Hat Enterprise Linux 8
4.5.3-1(B) (15 Feb 2023)
https://support.hpe.com/connect/s/softwaredetails?language=en_US&softwareId=MTX_21697b4f515d471dbed1845944&tab=revisionHistory
Note. 본 이슈는 RedHat KBase에 등록될 예정
Note. RHEL 8.7에 포함된 inbox driver와 Intel oob/OEM driver의 버전 관리가 완전히 다름에, oob 설치 시, 최신 버전 설치가 권장됨(현 기준 1.11.14)