HW Knowledge280 Cray XD670 - collect specific sensor(temperature) data from multiple nodes 여러대에서 일부(특정) 센서의 온도 정보만 취합하여 검토하고자 할 때,a. 정보를 취합하고자 하는 서버들의 BMC 정보를 포함하는 bmc_list.txt 파일을 생성 # cat bmc_list.txt: e.g.) --- 192.168.1.100 gpu01 192.168.1.105 gpu02.example.com 192.168.1.110 hpc -------- b. 아래 내용의 온도 취합 스크립트 collect_gpu_temp.sh 파일을 생성Note. 스크립트의 BMC 계정 정보를 실제 사용 정보로 수정. (동일 계정 사용 권고) # cat collect_gpu_temp.sh:#!/bin/bash# --- 설정 섹션 시작 ---# 원격 서버의 BMC에 접속할 사용자 이름과 비밀번호 (ipmitool -U.. 2025. 7. 23. Cray XD670 - Monitoring Temperature Cray XD 시스템의 BMC의 경우, HPE ProLiant의 iLO와 달리 지속적인 시스템 컴포넌트들의 온도를 관리/저장하지 않음. 이로 인해, 시스템의 온도 정보를 모니터링 하는데 있어 별도의 외부적 도움/구성이 필요함 Note. 모니터링 시스템 또는 모니터링 대상 시스템에서 구현 가능 예상 1) ipmitool을 통한 온도 정보 취합 스크립트 생성 (BMC 접속 경로 및 계정 정보 수정 필요)# vim /var/tmp/collect_temperature.sh:#!/bin/bash# This script continuously monitors IPMI sensor data and logs it to a single file.# Recommend that Log rotation, compressio.. 2025. 7. 23. MegaRAID/Upgrade Disk fw with storcli command MR controller 환경에서, storcli 명령을 통해 NVMe disk fw 업그레이드 1. fw 관리 대상 Disk 정보 확인# /opt/MegaRAID/storcli/storcli64 /c0 show all … # /opt/MegaRAID/storcli/storcli64 /c0/e252/s3 show --------------------------------------------------------------------------------------------------- EID:Slt DID State DG Size Intf Med SED PI SeSz Model Sp Type ----------------------.. 2025. 6. 26. Gen11/임의로 FAN 속도 제어 Note. 이 방법은 HPE에서 권장하는 방법이 아님Note. 이 방법을 사용 시, 발생하는 문제에 대하여 사용자의 책임이 있음 / 워런티 보증에 제약이 발생할 수 있음 HPE 서버에 인증되지 않은 3rd Party 장치를 추가하는 경우, 예상보다 높은 팬 동작에 따른 팬 소음이 발생할 수 있다.이는 HPE 시스템에 호환되지 않는 부품에 의해 시스템의 온도가 관리되지 않는 상황(Overheating)을 예방하기 위해 필요 수준의 최대 냉각을 자동으로 하기 때문이다. (Working as Designed) 그럼에도 불구하고, 업무 상에 반드시 필요한 하지만 HPE와 호환 인증을 받지 않은 장치들을 사용해야 하는 경우가 있을 수 있겠다.기본적으로는 업무 상황에 맞는 특별한 ROM을 개발하여 적용해야 하겠으나.. 2025. 5. 26. Note. HPE SR controller Spare 동작 Spare가 할당된 볼륨에서 특정 Disk 장애 발생 시, 여러개의 Spare가 존재하는 경우, bay # 기준으로 앞번호 bay 부터의 순서로 spare가 자동으로 rebuild 시작 함.이 때, Predictive failure 등으로 spare disk의 리빌딩 진행 중에 Bad Disk 교체 시, 진행 중이던 Spare의 리빌딩을 중단하고, 신규 교체된Disk로 rebuild 가 진행됨 2025. 3. 6. RESTful Interface Tool(ilorest)/TPM 사용 여부 검토 RESTful Interface Tool(ilorest)/TPM 사용 여부 검토 ilorest를 통해 대상 시스템에 TPM이 사용 중인지 검토(TpmState)Windows: "C:\Program Files\Hewlett Packard Enterprise\RESTful Interface Tool\ilorest.exe" login iLO_IP_Address -u Admin_Account -p Password --selector=Bios. "C:\Program Files\Hewlett Packard Enterprise\RESTful Interface Tool\ilorest.exe" ilorest list | findstr "TpmState" Linux: # /usr/sbin/ilorest login iLO.. 2025. 1. 17. HPE OneView - Product Lifecycle and Additional Resources HPE Oneview - Lifecycle (Release and End of Support(EOS)) VersionRelease DateEOS9.32025-01 8.60.02(milestone) 1 2024-10 9.22024-10 9.10.01 (milestone, replaces 9.10)2024-10 9.1 (milestone) 22024-09 9.02024-07 8.92024-04 8.82024-03 6.60.07 2024-03 8.72024-01 6.60.062023-11 8.60.01 (milstone, replaces 8.6)2023-11 8.00.01 (milestone, replaces 8.0)2023-11 8.6 (milestone)2023-10 8.40.01 (replaces 8.. 2025. 1. 8. uPCIe Err may occur on System configured with AMD EPYC 7xx2-(ROME) or 7xx3-(MILLAN) uPCIe Err may occur on System configured with AMD EPYC 7xx2-(ROME) or 7xx3-(MILLAN) HW: Apollo 6500 Gen10 plus (XL675d Gen10 plus) + NVIDIA A100-SXM4-80GBSymptom: System 운영 중, IO 장치에 uPCIe Err가 발생하고, Error Status가 아래와 같이 “completion timeout” 또는 “Malformed TLP status”로 표시됨 e.g.) Uncorrectable PCI Express Error Detected. Slot 3 (Segment 0x0, Bus 0x43, Device 0x0, Function 0x0). Uncorrectable Erro.. 2024. 12. 4. ProLiant/Manage TPM 2.0 1. HPE가 사용하는 TPM 모듈은 HW 모듈임. HPE Trusted Platform Module 2.0 Gen10 Plus https://www.hpe.com/psnow/doc/c04939549.pdf?jumpid=in_pdp-psnow-qs Note. TPM module 장착 시, 기본적으로 TPM이 활성화 됨 Note. 과거 Gen10 출시 초기, 잠시 BIOS에서 TPM 기능을 포함했으나, 안정성의 이슈 등으로 제거됨. Note. TPM 모듈은 탈부착 가능한 모듈이 아님. 한 번 물리적으로 장착하면 제거할 수 없음. (임의 제거 시도 시, 물리적 파손 발생 – 이는 도난 방지 등을 위한 모듈임에 설계에 따른 기능) 2. TPM이 장착되어 있으나, 사용자의 목적에 따라, TPM을 사용하지 않고자.. 2024. 1. 26. 이전 1 2 3 4 ··· 32 다음 반응형