본문 바로가기

HW Knowledge288

NVIDIA - GPU Memory ECC 오류에 따른 RMA 조건 이해 Note. NVIDIA GPU의 Memory에서 ECC 오류 발생에 따라 GPU 교체 필요 여부를 검토하는 과정을 이해해 보려고 공부 중...Note. NVIDIA GPU의 경우, 각 서버 HW 제조사가 부품을 판매하더라도, 교체 시 조건은 NVIDIA 자체의 정책을 참조하여 진행. Note. NVIDIA의 정책 변경이 있을 수 있음에 항상 최신 버전의 NVIDIA 권고에 대하여 검토가 필요함. NVIDIA에서 제공하는 공식 Memory 오류 상황에 대한 가이드 문서: NVIDIA GPU Memory Error Management https://docs.nvidia.com/deploy/a100-gpu-mem-error-mgmt/latest/index.htmlRMA Policy https://docs.nv.. 2026. 5. 16.
Gen11/일부 Linux OS 환경에서 MRSA가 실행되지 않음 Gen11/일부 Linux OS 환경에서 MRSA가 실행되지 않음 증상MegaRAID controller를 관리하기 위해, Linux GUI 환경에서 MRSA tool을 실행 시, 브라우저에 아래와 같이 접근 불가 이벤트("Unable to connect")와 함께 정상 실행되지 않음 리부팅 시, MRSA 구동을 위한 LsiSASH 스크립트가 자동 실행되어야 하나, 실행되지 않음 (Stopped 상태로 유지됨)LsiSASH 서비스를 수동으로 실행 후, MRSA에 정상적으로 접근 가능함 원인새로운 Linux(RHEL/SLES)환경에서 보안 등의 사유로 임의의 Boot script를 실행하지 못하도록 제한한 것으로 추정됨 환경- DL360 Gen11 보고됨- RHEL 9.3/9.4/9.5 보고됨- SLES.. 2026. 1. 13.
Cray XD2000/XD220v - Configuration for Power Supply Redundancy through ipmitool Cray XD2000/XD220v - Configuration for Power Supply Redundancy. Need to Set through ipmitool From Remote System: To Get Current Mode: # ipmitool –H [IP] –U [userName] –P [Password] –I lanplus raw 0x34 0xA1 Where [IP] is the BMC IP, [username] and [Password] is the BMC user name and password To Set PSU Redundancy Mode: # ipmitool –H [IP] –U [userName] –P [Password] –I lanplus raw 0x34 0xA0 0xF0 .. 2026. 1. 6.
MR(MegaRAID) Controller/How to collect storage logs MR(MegaRAID) Controller/How to collect storage logs LSIget Note. LSIget script download lsiget log bundle analysis information https://www.broadcom.com/support/knowledgebase/1211261522992/lsiget-log-bundle-analysis-information the LSIget data capture script https://www.broadcom.com/support/knowledgebase/1211161499563/lsiget-data-capture-script 1. Linux / VMware # ./lsigetlunix.sh -D -Q or # ./ls.. 2026. 1. 6.
XD220v – RESTful API 이용하여 BIOS 구성 백업 및 복원/복제 XD220v – RESTful API 이용하여 BIOS 구성 백업 및 복원/복제 증상HPE XD220v 시스템을 다수 대, 신규 구성 또는 구성 변경하는 경우, 동일 BIOS 구성에 대하여 백업 후 복원/복제를 통해 관리 편의성 향상 환경Cray XD220v 솔루션1. RESTful Client를 통해 현재 구성 및 변경 구성에 대한 정보를 백업Note. RESTful Client는 일반적으로 사용하는 툴을 사용할 수 있으며, 별도로 사용하는 툴이 없는 경우, 하단에 POSTMAN 관련 내용 참조 가능. GET https://BMC_IP_Address/redfish/v1/Systems/Self/Bios01_GET_CurrentBIOS.json: GET https://BMC_IP_Address/red.. 2025. 12. 12.
XD670 – RESTful API 이용하여 BIOS 구성 백업 및 복원/복제 XD670 – RESTful API 이용하여 BIOS 구성 백업 및 복원/복제 증상HPE XD670 시스템을 다수 대, 신규 구성 또는 구성 변경하는 경우, 동일 BIOS 구성에 대하여 백업 후 복원/복제를 통해 관리 편의성 향상 환경Cray XD670 솔루션1. RESTful Client를 통해 현재 구성 및 변경 구성에 대한 정보를 백업Note. RESTful Client는 일반적으로 사용하는 툴을 사용할 수 있으며, 별도로 사용하는 툴이 없는 경우, 하단에 POSTMAN 관련 내용 참조 가능. GET https://BMC_IP_Address/redfish/v1/Systems/Self/Bios01_GET_CurrentBIOS.json: GET https://BMC_IP_Address/redfis.. 2025. 12. 12.
XD220v – AMISCE tool을 이용하여 BIOS 구성 백업 및 복원/복제 XD220v – AMISCE tool을 이용하여 BIOS 구성 백업 및 복원/복제 증상HPE XD220v 시스템을 다수 대, 신규 구성 또는 구성 변경하는 경우, 동일 BIOS 구성에 대하여 백업 후 복원/복제를 통해 관리 편의성 향상 환경Cray XD220v 솔루션1. Download AMISCE (AMI Setup Control Environment) UtilityCray.XD220v.bios.linuxhttps://support.hpe.com/connect/s/softwaredetails?language=en_US&collectionId=MTX-f2929bba67c9435b&tab=releaseNotes&softwareId=MTX_05c55cbe4f0148e1ace73fd51ahttps://d.. 2025. 12. 12.
DL380a Gen12/Enable Intel TDX feature with Ubuntu 24.04 DL380a Gen12/Enable Intel TDX feature with Ubuntu 24.04 Test System Information: DL380a Gen12 (Intel Xeon 6710E x 2p, 256GB(32GB x 8 qty), 3.84TB NVMe, NVIDIA L40S x 4 qty, Intel E810 2p OCP) 1. Upgrade SW a. System ROM 1.46 iLO7 - https://downloads.hpe.com/pub/softlib2/software1/fwpkg-sys/p561188268/v272864/U72_1.46_08_08_2025.fwpkg iLO6 - https://downloads.hpe.com/pub/softlib2/software1/f.. 2025. 9. 10.
Gen11/3rd Party 장치 임의로 모니터링 대상에서 제외 처리 Excluding 3rd party PCIe device from monitoringHW: HPE ProLiant Compute Gen11 Symptom: 3rd party PCIe 장치 추가 후, FAN 가속에 따른 소음 증가 Note. 이 방법은 HPE에서 권장하는 방법이 아님 Note. 이 방법을 사용 시, 발생하는 문제에 대하여 사용자의 책임이 있음 / 워런티 보증에 제약이 발생할 수 있음 HPE 서버에 인증되지 않은 3rd Party 장치를 추가하는 경우, 예상보다 높은 팬 동작에 따른 팬 소음이 발생할 수 있다. 이는 HPE 시스템에 호환되지 않는 부품에 의해 시스템의 온도가 관리되지 않는 상황(Overheating)을 예방하기 위해 필요 수준의 최대 냉각을 자동으로 하기 때문이다. (Wo.. 2025. 8. 22.
반응형