今日与诸位分享最近处理的超融合raid告警的问题 话不多说上图
问题描述 近日客户反馈超融合出现raid卡告警问题,需要上门排查 可以看到磁盘1有提示 Predictive Failure 告警
问题排查 1、报错信息分析 既然我们已经看到问题现象,那我们去百度搜索一下这个是什么意思 发现是个预期性告警,应该是有块磁盘马上快要出现问题了 2、进到服务器IPMI后台界面查看硬件状态 硬盘状态中第一块磁盘已经不是online(在线)状态了 看来是系统盘出现问题导致raid出现问题。
问题处理 与客户沟通后联系硬件厂商进行系统盘替换 因系统盘组建Raid1,所以替换的话 可以直接热插拔期间不影响虚拟机使用,磁盘之间会自行同步数据。
处理结果验证 发现还是存在raid卡告警 询问过后发现只需要在亚健康主机列表中移除出来,然后将告警信息确认后告警就可以清除了。 后台查看raid卡状态已经正常,只需要把残留的告警清除就不会在告警了,这个报错一般半小时报一次。 当天观察3小时后正常,看来确实是系统盘的问题导致raid控制器报错。 |