3、经过排查,该故障主机raid卡故障,HCI超融合raid monitor监测机制是raid卡故障,会隔离主机上的所有网络,但不会对该主机做宕机操作;客户这边是fc存储,FC存储是通过HBA去和存储通信,隔离网络不会触发存储离线 ,也不会触发ha;
5、解决方案:修改HCI检测机制、重启故障服务器(104):运行在 104 物理主机服务上面的虚拟机,但由于未触发存储离线,且HA故障迁移选项未启用业务口,管理口离线场景,所以虚拟机未被关闭还是运行在 104 上。
解决办法:在HCI上面把可靠服务->高可用(HA) 这里的启用5和6项, 再遇到这种场景,会在异常主机上把虚拟机关机,在其他主机拉起来。
简单总结:以后实施HCI如果用到FC存储,两个解决办法:
1、直接在“可靠服务”->“高可用(HA)” 这里的启用5和6项即可规避类似问题。PS:管理口或虚拟机连接的物理口出现异常就会触发ha。
2、在HCI上面关闭raid monitor:登录HCI控制台在【管理】-【告警设置】里面去掉raid告警信息的勾就可以。
PS:HCI690和之后的版本已经做了优化,不涉及此问题了。