本帖最后由 85039王毅波 于 2023-10-13 00:06 编辑
背景:客户HCI版本:6.8.0 , 6台HCI一个集群,集群资源利用率不到50%。早上客户反馈一台HCI主机故障后但是该主机上面的虚拟机没HA,部分核心业务挂了。
排查过程: 1、登录HCI平台查看虚拟存储,发现客户是挂的华为的FC存储,如下:
2、重新启动故障物理主机上面的虚拟机,无法正常启动,查看日志有报错提示:”启动虚拟机失败,错误信息:虚拟机镜像忙,正在执行其他操作!”
3、经过排查,该故障主机raid卡故障,HCI超融合raid monitor监测机制是raid卡故障,会隔离主机上的所有网络,但不会对该主机做宕机操作;客户这边是fc存储,FC存储是通过HBA去和存储通信,隔离网络不会触发存储离线 ,也不会触发ha;
4、所以那个RAID卡故障的主机还会去访问FC存储上对应的磁盘镜像,其他5台主机访问FC存储上的对应镜像的时候,改镜像还在被访问状态。
5、解决方案:修改HCI检测机制、重启故障服务器(104):运行在 104 物理主机服务上面的虚拟机,但由于未触发存储离线,且HA故障迁移选项未启用业务口,管理口离线场景,所以虚拟机未被关闭还是运行在 104 上。 解决办法:在HCI上面把可靠服务->高可用(HA) 这里的启用5和6项, 再遇到这种场景,会在异常主机上把虚拟机关机,在其他主机拉起来。
简单总结:以后实施HCI如果用到FC存储,两个解决办法: 1、直接在“可靠服务”->“高可用(HA)” 这里的启用5和6项即可规避类似问题。PS:管理口或虚拟机连接的物理口出现异常就会触发ha。 2、在HCI上面关闭raid monitor:登录HCI控制台在【管理】-【告警设置】里面去掉raid告警信息的勾就可以。 PS:HCI690和之后的版本已经做了优化,不涉及此问题了。
|