iLO5/CPU 온도 표시 개선
iLO 5를 사용하는 HPE ProLiant System
HPE 시스템에서, iLO(IPMI)와 OS(MSR)의 측정 값이 다름:
The third-party software read 74 degree value by CPU - OS 상의 Tool은 cpu의 MSR(Model specific register, Intel에서 정의한 cpu type에 따라 다른 정의된 정보를 갖는 레지스터) 정보를 접근 및 취합하여 보여줌 - 해당 값은 조회 당시의 순간(찰나)적인 값으로, cpu 운용 상황에 따라 매우 가변적 |
|
iLO(ipmi) read 56 degree value by CPU - iLO 상의 온도 값은 Intel ME(Management Engine)를 통해 접근 및 취합하여 보여줌. - Intel ME를 통해(Intel이 가이드하고 있는 냉각 방식에 맞춰), cpu 관련 여러 센서의 정보를 취합하고 냉각을 제어 |
원인:
CPU 온도는 CPU에 위치한 DTS(Digital Temperature Sensors)를 참조하게 됨.
- OS 상의 Tool(e.g. lm-sensors)은 cpu의 MSR(Model specific register, Intel에서 정의한 cpu type에 따라 다른 정의된 정보를 갖는 레지스터) 정보를 접근 및 취합하여 출력함.
-- 해당 값은 조회 당시의 순간(찰나)적인 값으로, cpu 운용 상황에 따라 매우 가변적인 정보임
- iLO 상의 온도 값은 Intel ME(Management Engine)를 통해 접근 및 취합하여 출력함.
-- Intel ME를 통해(Intel이 가이드하고 있는 냉각 방식에 맞춰), cpu 관련 여러 센서의 정보를 취합하고 냉각을 제어.
Intel CPU는 각 processor 별로 임계 온도가 다름.
- HPE ProLiant는 cpu 별로 모두 다른 임계 온도를 정규화하는 작업을 진행했고, 임계치는 최고 70C로 고정.
-- 이에, 취합된 온도의 변환이 필요하고, iLO에서 표시되는 온도는 변환된 값임
-- 이 과정에 OS에서 측정한 온도와 iLO에서 표시하는 온도 사이에 온도 차이가 발생됨.
개선사항:
HPE는 HPE 고유의 냉각 방식으로 인한 혼돈을 해소하고자, PECI bus에서 정보를 얻는 CPU의 Package Temperature Sensor를 추가.
- 관련 기능은 System ROM과 iLO의 연계 동작임에, 전반적인 관리가 필요함.
- Intel System의 경우, System ROM 외 Innovation Engine(IE)/Server Platform Service(SPS)가 함께 관리 필요함
Action Item 1.
What: 1) Upgrade System ROM to Latest (Gen10: 2.50 이상 / Gen10 plus: 여러 세대가 존재하여 최신 권고)
2) Upgrade IE/SPS to Latest (Intel only)
3) Upgrade iLO fw to Latest (Gen10: 2.55 이상 / Gen10 plus: 2.41 이상)
Why: CPU 온도 표시에 따른 혼란을 해소하기 위해
What if/Next: 해당하지 않음
Appendix.
Sensor 02: iLO의 기본 Sensor로 CPU 온도가 40C 미만임에 따라, 40C 표시
Sensor 96: CPU의 MSR이 감지한 온도로, 26C 표시
Note. CPU pkg Sensor 번호는 System 마다 다를 수 있음
참고자료:
- Intel Xeon Scalable Processors Thermal/Mechanical Specifications and Design Guide
- Intel CPU Monitoring with DTS/PECI