本帖最后由 无泪回眸 于 2022-9-27 15:39 编辑
一、问题描述 第三方服务器安装超融合一个月后,管理界面不定时出现多台主机的多个硬盘卡慢盘告警,严重时整个主机的数据盘全部被隔离 二、告警信息 某块硬盘出现卡慢,已被临时隔离。 在虚拟存储的硬盘管理界面就是这个样子 严重的时候是这个样子的,除了两块SSD缓存盘,其余的数据盘全部被隔离
三、处理过程 7月1日客户反馈卡慢:经过CTI工程师进一步排查,怀疑是raid卡固件版本有问题(当前25.5.5版本)或者raid卡硬件有问题。 7月9日将raid卡固件升级至25.5.9版本 7月11日再次出现卡慢的告警提示,协调研发进一步分析虚拟机有卡慢io busy日志说明确实存在卡慢,虚拟存储网络正常没有抖动和丢包问题,存储日志除磁盘卡慢时延日志外未见其他明显异常,报卡慢盘的主机记录的磁盘异常iostat没有规律,基本每小时会记录到多块盘svctm:1000 util: 1.00,这代表io异常,软件没有误判 7月15日现场替换了两台第三方的借测设备(相同的硬件型号,相同的raid卡固件版本),观察两周无异常后替换回去了 7月24日研发上门将其中一台主机的raid卡固件降级至25.5.8版本,还是有问题 7月28日客户侧部署一套3主机新集群测试,相同的硬件,25.5.5版本的raid卡固件 8月13日新集群中的一台主机还是提示卡慢盘 8月23日更换了一台主机raid卡(同型号H730P),客户反馈更换raid卡这台主机界面没有出现卡慢盘告警,但是研发后台远程确认还是存在卡慢的情况,但是频率有所降低,只是没达到次数阈值,还没报卡慢盘,继续使用更换raid卡主机应该还是会页面报卡慢 8月25日尝试协调一体机现场进行替换故障主机先保障使用,再用替换下来的主机进一步查原因,但是由于其他原因暂时不考虑主机替换 8月31日现场把4节点超融合的其中一台拆出集群,重装成centos的系统用于测试,另外3台组回集群继续观察分析 9月1日将3主机的raid卡驱动进行升级并部署监控脚本观察 9月5日升级了主机raid卡驱动,结果还是有卡慢现象,收集了相关硬件信息,raid卡信息以及raid卡日志,通过搜索错误信息发现有异常 9月7日尝试协调Dell原厂的工程师分析日志给出结论是已知iDrac版本过低导致,当天将其中一台主机的iDrac版本升级至4.40.40.00观测 9月8日观察升级iDrac版本的主机,使用都正常,没有出现卡慢盘告警 9月14日将集群中所有主机的iDrac版本升级至4.40.40.00观察 9月27日与客户确认,观察半个月没有出现卡慢告警,可以闭环 四、根由 Dell服务器的iDrac已知3.34.34.34版本问题 五、解决方案 将Dell服务器的iDrac版本升级至4.40.40.00后解决 六、总结 第三方服务器在安装之前,需要先检查一下服务器Idrac、raid卡的版本,如果太低了就先升级到最新,那个时候是没有业务的,服务器可以做这些操作,这些操作都是需要重启服务器的,后续有业务了就不好做了,建议的话还是提前把这一步做了,不然上业务之后,再出现这种卡慢盘的问题真的很难搞,需要花费大量的时间和精力去处理问题。 |