MCE 관련 로그는 OS의 메모리 모니터링 기술 EDAC 기능에 의해 기록 되는데, 이 기술은 하드웨어의 메모리 모니터링 기술보다 정밀하지 못하다. 간혹 실제 오류가 없음에도 OS의 EDAC의 민감한 엔진에 의해 오류를 기록하는 경우가 있다.

메시지 발생 시 하드웨어 정보(IML, Front LED) 통해 중복 확인하여 이상이 없는 경우 해당 메시지는 무시하거나OS MCE 감지 기능을 비활성화 하고 사용하는 것이 좋다.

 

Advisory: (Revision) ProLiant G6,G7, Gen8 and Gen9 Servers - Correctable Machine Check Errors That Do Not Require Customer Action May Erroneously Be Logged to the Operating System Error Logs

https://support.hpe.com/hpsc/doc/public/display?docId=emr_na-c03356780

 

The System ROMs on HP ProLiant servers are designed to monitor these errors and to report to the customer through the Integrated Management Log (IML) and other means (such as the health LED) if there is an issue with any hardware component in the system.

 

Notice: (Revision) Linux - To Ensure Efficient Firmware First Handling of Memory Failures HPE Recommends Booting With the mce=ignore_ce Boot Parameter in Addition to Disabling EDAC

https://support.hpe.com/hpsc/doc/public/display?docId=emr_na-a00016026en_us

https://support.hpe.com/hpsc/doc/public/display?docId=emr_na-c04183538

 

HPE recommends disabling EDAC in addition to disabling the correctable error detection functionality of the Linux kernel's Machine Check Event (MCE) handling.

 

Should EDAC modules be disabled on HP Proliant hardware, as recommended by HP?

https://access.redhat.com/solutions/414723

 

Individual hardware vendors then advise customers to enable or disable this general purpose feature as appropriate, depending on compatibility with their tailored error detection offerings.

 

Erroneous MCE taint on Some CPU Processors
https://www.novell.com/support/kb/doc.php?id=7008578
 

 

IBM 및 Dell의 관련 기술 문서 

Interpreting /var/log/mcelog on IMM based servers - IBM System x3850 X5, x3950 X5

http://www-947.ibm.com/support/entry/portal/docdisplay?lndocid=migr-5084973

 

Workaround

Do not use the Linux MCE daemon.

 

Special consideration when using Linux error detection and correction (EDAC) for tracking memory errors - Lenovo Server
https://datacentersupport.lenovo.com/us/en/products/servers/system-x/solutions/ht107942-special-consideration-when-using-linux-error-detection-and-correction-edac-for-tracking-memory-errors-lenovo-server

Solution
Lenovo recommends disabling Linux EDAC and Linux kernel's Machine Check Event (MCE) handling functionality in order to provide accurate Dual In-ine Memory Module (DIMM) error reporting which is tracked by the system's management independent of the Operating System. Hardware, including memory DIMMs, will not be replaced under warranty based on EDAC /var/log/message errors. After EDAC modules are disabled, system diagnostics such as BMC, IMM, XCC will be used to verify memory problems.

 

M620 Blade Memory issues

http://en.community.dell.com/support-forums/servers/f/956/t/19535045.aspx

It would be much better to disable EDAC and let the BMC handle error reporting and logging of the hardware

 

 

Action Plan 1.

What: 전원 설정 확인

Why : ProLiant 장비의 권장 전원 설정 확인

To disable C-states, here are steps to perform in the RBSU during POST:

Press F9 during POST to access the RBSU.

Select Power Management Option , then select HP Power Profile change the default value to Maximum Performance or Custom .

Then return to the previous menu.

Select HP Power Regulator change from the default value to HP Static High Performance Mode or OS Control Mode.

Then go back to the previous menu.

Select Minimum Processor Idle Power State change from the default value to No C-states .

Select Advanced Power Management Options select Minimum Processor Idle Power Package State and change the setting from Package C3 State to No Package State

Select Advanced Power Management Options select Collaborative Power Control and change the setting from Enabled to Disabled.

  

Action Plan 2.

What: mcelog disable 혹은 무시

Why : MCE 로그 발생 해결을 위해

To do.

1) Disable

    disable EDAC if running.

    a. Search EDAC modules

       # lsmod | grep edac

    b. For each EDAC module (if any found):

       Add the following to /etc/modprobe.conf on OS releases that support /etc/modprobe.conf

       alias edac_xxx off  (edac_xxx lsmod 확인된 )

       Add the following to /etc/modprobe.d/blacklist.conf on OS releases that support /etc/modprobe.d/blacklist.conf

       blacklist edac_xxx  (edac_xxx lsmod 확인된 )

 

       RHEL

       "/boot/grub/grub.conf" 아래 항목 추가

       mce=ignore_ce

 

       How do I disable MCE function?

       https://access.redhat.com/site/solutions/367773

 

       SLES

       "/boot/grub/menu.lst" 아래 항목 추가

       mce=ignore_ce

 

2) Ignore

 

cf. 

mce=ignore_ce

prevents linux from initiating a poll every five minutes of the machine check banks for correctable errors

 

intel_idel.max_cstate=0

prevents the kernel from overriding the BIOS C-state setting.

 

 

관련문서

HP ProLiant BL680c G7 Server Series - SUSE Enterprise Linux 11 Service Pack 1: "mcelog" Shows Corrected MCE Errors
https://support.hpe.com/hpsc/doc/public/display?docId=emr_na-c03418028

반응형
Posted by 스쳐가는인연

댓글을 달아 주세요

HPE Proliant 서버는 원격에서 관리할 수 있도록 iLO 기능을 제공한다.


iLO 기능은 별도의 지정된 iLO Port(dedicated iLO Port)를 사용 권장하지만, 이는 추가적인 네트워크 리소스(스위치 및 Cable등)를 필요로 하게 된다.


Datacenter에서는 Rack 상면 공간 및 네트워크 대역 등의 사용량이 바로 비용과 연결될 수 있어, 이를 줄이고자 할 때, Shared Network Port(SNP) 기능을 활용할 수 있다.


HPE Proliant 서버는 DL580 Series Blade 서버를 제외하고, SNP를 지원한다.


앞서 언급한 것처럼, 사용상에 제약이 있어, 권장 사용은 Dedicated Port 사용이다.

(권장 사용과 지원 여부는 다른 것으로 이해하면 되겠다.)



SNP 제약사항

* SNP LOM Port를 활용한다.

-- 이는 LOM이 장애 발생되는 경우, 다른 기능에 문제가 없어도 시스템 관리를 할 수 없음을 의미한다.

-- SNP 구조(Architecture)상의 제약으로 특정 서버 자신과 통신이 불가능합니다.

   (A서버 Port 1 SNP 설정된 포트인 경우 Port 1 에서 A서버의 iLO에 접근할 수 없다. 

    간혹 이 부분때문에 접속이 안된다고 오해하는 경우가 있다)

-- System이 리부팅 되는 경우, NIC 초기화 작업과 함께 , iLO 세션이 중단될 수 있다.

   (이는 일부 OS 설치 등의 작업에 제약이 될 수 있다)

-- 당연한 이야기지만, 관리용 트래픽과 서비스 트래픽을 분리 운영할 수 없다.

    VLAN등을 통해 보안을 강화할 수 있지만 트래픽 자체를 분리하는 것은 불가능 하다.

   (대부분의 고객은 보안상 관리 트래픽을 서비스 트래픽과 분리 운영 하기를 원한다)

-- Teaming(Bonding) 기술을 사용할 수 없다.

-- iLO Federation 기능을 사용할 수 없다.



HPE Integrated Lights-Out Security Technology Brief

http://h20564.www2.hpe.com/hpsc/doc/public/display?docId=c04530504

 

P.99 Shared network port

Most ProLiant ML and DL servers with iLO support SNP. Consult the server documentation to determine whether your ProLiant server supports SNP. Hewlett Packard Enterprise does not support SNP on HPE BladeSystem server blades.


 

HPE iLO 4 User Guide

http://h10032.www1.hp.com/ctg/Manual/c03334051

P.99 Configuring the NIC settings


iLO Gen9


iLO Gen8



SNP 구성

SNP LOM Port 1에 구성하는 것을 권장한다. (일부 서버는 다른 포트를 지정하는 것을 지원하지 않을 수 있다)

SNP는 다른 장비/포트에서만 접근 가능하다.

(동일 서버에서 접근하고자 하면, 동일 Subnet에 접근 가능한 한 개 이상의 추가 네트워크 포트가 필요함을 의미한다.)


iLO Dedicated Port Status


iLO SNP Status


iLO Configure status on UEFI


NIC Status on SMH

SMH에서 해당 포트가 다른 용도로 사용되고 있다고 나오는 것은, 위 언급한 iLO SNP의 제약 때문이며, 실제 동작과 연관되지 않는다.


iLO connects status


Cannot reachable to iLO itself.


Can reachable to iLO itself via another path.


다른 호스트에서 정상 연결 가능하다


참고로, Management Port iLO MAC Address OS에서 “arp” 명령으로 조회 시 확인되지 않는 것이 정상이다.

반응형
Posted by 스쳐가는인연

댓글을 달아 주세요


1. Copy HP ESXi Utilities Offline Bundle to datastore

HP ESXi Utilities Offline Bundle for VMware ESXi 5.0 and vSphere 5.1 

2.1(9 Sep 2014) 

http://ftp.hp.com/pub/softlib2/software1/pubsw-windows/p1990264554/v95242/hp-HPUtil-esxi5.0-bundle-2.1-15.zip


easy to upload via datastore browser


2.1 ssh enabled from ESXi console

2.2 Connect VMware Console via ssh


3. Install HP ESXi Utilities Offline Bundle

# pwd

/vmfs/volumes/datastore1/Depot


# ls

hp-HPUtil-esxi5.0-bundle-2.1-15.zip


# esxcli software vib install -d /vmfs/volumes/datastore1/Depot/hp-HPUtil-esxi5.0-bundle-2.1-15.zip

# reboot


4. collect conrep data (BIOS configuration)

# /opt/hp/tools/conrep -x /opt/hp/tools/conrep.xml -s


# ls

conrep.dat


Easy to download via datastore browser


참고

HP VMware Utilities User Guide

VMware vSphere 5.1U3 for March 2015

http://h10032.www1.hp.com/ctg/Manual/c04620880

P.16 CONREP -s (Store to Data file)

반응형
Posted by 스쳐가는인연

댓글을 달아 주세요

서버의 전면 SID(System Insight Display) 및 후면 PSU의 LED 에 이상이 없으나(Green) IML로그에 PSU 장애 로그가 반복적으로 확인될 때,

 

IML log
Repaired,890,171525,Power,09/08/2014 09:05:00,System Power Supply: General Failure (Power Supply 2)
Caution,890,171585,Power,09/08/2014 09:18:00,System Power Supply: General Failure (Power Supply 1)

 

현재 운영 중인 SW(FW)의 버전을 확인할 필요가 있다.

특정 버전 이하의 버전을 운용 중에 IML에 관련 메시지를 기록할 수 있다.

 

- iLO 4 firmware (v1.51)

- System Programmable Logic Device (0x32)

- Power Management Controller Firmware (v3.3)


Advisory: HP ProLiant Gen8-Series Servers - Power Supply "General Failure" Messages in the Integrated Management Log (IML) May Be Erroneous After Inserting Power Supply
http://h20566.www2.hp.com/portal/site/hpsc/template.PAGE/public/kb/docDisplay?javax.portlet.begCacheTok=com.vignette.cachetoken&javax.portlet.endCacheTok=com.vignette.cachetoken&javax.portlet.prp_ba847bafb2a2d782fcbb0710b053ce01=wsrp-navigationalState%3DdocId%253Demr_na-c03691683

 

Advisory: HP ProLiant DL380p Gen8 Server - Unexpected Server Shutdown or Erroneous Power Supply "General Failure" or "Input Power Loss or Unplugged" Messages in the Integrated Management Log (IML)
http://h20566.www2.hp.com/portal/site/hpsc/template.PAGE/public/psi/mostViewedDisplay?javax.portlet.begCacheTok=com.vignette.cachetoken&javax.portlet.endCacheTok=com.vignette.cachetoken&javax.portlet.prp_efb5c0793523e51970c8fa22b053ce01=wsrp-navigationalState%3DdocId%253Demr_na-c03994963

 

 

SW를 최신 버전으로 업그레이드 한 후에도

iLO의 System Information - Summary에서 Power Status가 Not Redundant 상태로 확인 된다면,

PSU 관련 점검이 필요하다.

 

Action Plan.
What: PSU 테스트
Why : 파트 장애 여부 확인을 위해

To do.
1) PSU #1, #2 전원 Cable 분리 후 각 PSU 재장착 후 iLO 상태 확인
2) PSU #1, #2 위치 변경(Swap) 장착 후 iLO 상태 확인
3) PSU #1, #2와 연결된 PDU 상의 전원 포트 다른 위치로 변경(기존에 1번 이라면 그 외 포트) 후 iLO 상태 확인
4) PSU #1과 PDU를 연결하는 intelligent Power Cable x 1EA 교체 후 iLO 상태 확인
5) PSU #2과 PDU를 연결하는 intelligent Power Cable x 1EA 교체 후 iLO 상태 확인
6) PSU #1 교체 후 iLO 상태 확인
7) PSU #2 교체 후 iLO 상태 확인

 

귀찮다고, 당장 문제 없다고, 점검하지 않는다면,

어느날 갑자기 운영하던 장비가 셧다운되는 장애를 경험하게 될지도 모른다...

 

 

상태는 항상 Green이 좋은거~ 그런거~~

 

 

반응형
Posted by 스쳐가는인연

댓글을 달아 주세요

HP ProLiant 서버의 iLO에서 System Information 항목을 보면, 현재 사용하는 장비의 상태 정보를 볼 수 있다.

 

그 중, Power 항목을 열람하면, 현재 장착된 PSU 정보를 볼 수 있는데, PSU 종류에 따라 출력되는 일부 정보가 상이할 수 있다.

 

HP Common Slot Power Supplies
http://h18004.www1.hp.com/products/quickspecs/14209_div/14209_div.pdf

 

PDS 정보는, 플래티넘 레벨 이상이 아닌 경우, No로 표기되는 것이 맞다
HP Power Discovery Services (PDS) combines the HP Intelligent Power Distribution Unit (iPDU) and HP Common Slot Platinum/Platinum Plus power supplies with HP Insight Control software to create an automated, energy-aware network between IT systems and facilities.

플래티넘과 플래티넘 플러스 전원공급장치는 전원 케이블 연결 커넥터가 파란색이다.

기능을 사용하기 위해서는 이 PSU와 함께 iPDU도 함께 사용해야 한다.

 

PSU Gold 사용 시,

 

 

PSU Platinum 사용 시,

 

반응형
Posted by 스쳐가는인연

댓글을 달아 주세요