起因:
公司新采购了一批DDR 2666MHZ 内存使用到线上,机房运维小A负载扩容内存到一批DELL R740xd 服务器上。这是一个简单的工作,体力为主。刚刚吃完午饭接到项目组电话,催我回来处理大问题。一台服务器内存持续告警,查不到原因,明天上午就要交给业务组使用了,今天还没有故障清零
询问操作:
1. 新采购内存有一个报废件,在内存卡槽B3 B4 上试了两次无法开机
2. 更换新内存条后,在内存卡槽B4 正常开机并进入IDRAC 清理了系统日志,重启了idrac racadm reset cold
3. 发现dell_exporter 内存告警持续处在。关机调整内存到B3卡槽 开机后复现问题
4. 内存压测后 主机内存持续95% 10分钟无故障点
解决问题:
dell_exporter 使用omreport 来收集服务器信息。
omreport chassis
Health
Main System Chassis
SEVERITY : COMPONENT
Ok : Fans
Ok : Intrusion
Critical : Memory
Ok : Power Supplies
Ok : Power Management
Ok : Processors
Ok : Temperatures
Ok : Voltages
Ok : Hardware Log
Ok : Batteries
问题在这里 om 中记录了一份内存错误日志信息也要清除
dcicfg command=clearmemfailures Clearing failures using mask: 524287 A1: ok A3: ok B1: ok B3: ok omreport chassis Health Main System Chassis SEVERITY : COMPONENT Ok : Fans Ok : Intrusion Ok : Memory Ok : Power Supplies Ok : Power Management Ok : Processors Ok : Temperatures Ok : Voltages Ok : Hardware Log Ok : Batteries
解决问题 ,赶紧撤了回家还得肝原神哪