一、告警现象
某天客户打电话说服务器面板有个红灯亮了,我心想坏了,这个肯定是有硬件故障了,让客户拍个图片给我看。 当我看到图片后淡定的说,这个不是什么大问题故障,这个是电源告警故障,一般是双电源没接线告警
二、故障排除步骤 ①让客户看一下服务器是不是双电源,然后看一下电源指示灯 客户看了后说是双电源,有一个电源灯是亮黄色一个亮绿色的,我再让他看一下其他服务器的电源灯是怎么亮的,客户其他服务器的电源指示灯都是亮绿色的,那么即便可以判断亮黄色的应该是故障了或者线没接好
②让客户插拔亮黄灯的电源线,发现还是不行。
③怀疑电源线或者插排故障,让客户找来了一根电源线和新的插排还是一样亮黄灯
④为了确保不是电源线和排插通电的问题,我让客户把上面亮两个绿灯的服务器电源线拔一根接到下面这个亮黄灯,发现还是有问题,还是亮黄灯,那么说明不是供电问题了,应该是模块问题了
⑤想起有一次在一个客户现场上架一体机,上架就发现双电源有一个电源故障,后面是插拔电源模块后解决,我又让客户把服务器关机拔掉电源线,然后把故障的电源模块拿出来再接回去试试,试过后还是不行
⑥让客户把这台服务器的两个电源模块调换过来插,发现原来故障的换过位置还是故障亮黄灯 注意事项: 对调电源模块会涉及到服务器断电,服务器如果有业务在运行务必把业务迁移到集群中的其他主机
⑦让客户找来了笔记本,连上wifi,然后把网线接到服务器的IPMI接口,我们进IPMI查看故障信息 IPMI默认管理IP 192.***.10.10 默认帐号密码**/*** 通过登录IPMI发现,日志中有电源模块告警信息,显示没有供电输入
查看电源检测确实没有供电输入
在硬件监控-电源供电中发现有告警情况
⑧基本可以断定是电源模块的问题了,那么联系4006306430客服远程进行故障环境确认,确认是供电模块故障后走返修流程,走返修需要提供好设备的SN码,SN码在设备正面的机盖中,有的服务器后面也会有,仔细找一下服务器四周,SN吗是9C开头的 |