本帖最后由 jingchx 于 2021-3-31 10:48 编辑
1、平台版本: 超融合平台版本 5.8.3 2、故障分析: 今天超融合平台推送警告消息,提示一台物理主机eth3网口掉线,主机之间网络丢包情况,此警告导致运行在此物理主机上的虚拟机出现宕机迁移的情况。
3、故障排查: 根据故障提示信息,首先去机房检查eth3网口和网线是否异常,检查发现网口和网线均正常,指示灯没有出现异常情况,为了验证硬件是否存在问题,果断更换了网线和交换机网口,提示问题依然存在,如果硬件问题,那就应该排查网卡问题了,但是网卡指示灯正常,初步判定网络线路应该没有问题。 再从软件方面着手看一下,由于超融合是5.8.3版本,版本比较低,之前出现过物理主机运行时间过长出现了超融合平台数据备份策略不自动触发执行的问题,最后售后支持给出的由于主控运行时间超过了500天,平台有bug,导致不能自动触发备份策略,解决方案是重启了平台主控服务器,问题解决。考虑大概率还是平台bug问题,查看了一下掉线主机情况,运行时常769天,且该主机所有虚拟机均已关机迁移。 4、问题解决: 于是果断的重启了一下物理主机,启动之后很快就收到了存储私网恢复正常的消息提醒,逐个把虚拟机再调度回来运行,经过这两天的观察,没有出现网口掉线的异常情况。 5、总结: 由于版本问题,我们超融合平台2017年建成,2018年进行了升级扩容,之后两三年时间平台运行比较稳定,所以没有再进行版本升级更新,低版本bug还是比较多,现在新版本对硬件要求比较高的问题,果断向厂商询问制定方案,对超融合平台软件和硬件进行升级改造,避免类似的情况发生。 |