超融合HCI单台主机离线但是虚拟机未HA案例
  

85039王毅波 317371人觉得有帮助

{{ttag.title}}
本帖最后由 85039王毅波 于 2023-10-13 00:06 编辑

     背景:客户HCI版本:6.8.0 , 6台HCI一个集群,集群资源利用率不到50%。早上客户反馈一台HCI主机故障后但是该主机上面的虚拟机没HA,部分核心业务挂了。
     排查过程:
          1、登录HCI平台查看虚拟存储,发现客户是挂的华为的FC存储,如下:




2、重新启动故障物理主机上面的虚拟机,无法正常启动,查看日志有报错提示:”启动虚拟机失败,错误信息:虚拟机镜像忙,正在执行其他操作!”




3、经过排查,该故障主机raid卡故障,HCI超融合raid monitor监测机制是raid卡故障,会隔离主机上的所有网络,但不会对该主机做宕机操作;客户这边是fc存储,FC存储是通过HBA去和存储通信,隔离网络不会触发存储离线 ,也不会触发ha;



4、所以那个RAID卡故障的主机还会去访问FC存储上对应的磁盘镜像,其他5台主机访问FC存储上的对应镜像的时候,改镜像还在被访问状态。


   5、解决方案:修改HCI检测机制、重启故障服务器(104):运行在 104 物理主机服务上面的虚拟机,但由于未触发存储离线,且HA故障迁移选项未启用业务口,管理口离线场景,所以虚拟机未被关闭还是运行在 104 上。
解决办法:在HCI上面把可靠服务->高可用(HA) 这里的启用5和6项, 再遇到这种场景,会在异常主机上把虚拟机关机,在其他主机拉起来。



简单总结:以后实施HCI如果用到FC存储,两个解决办法:
1、直接在“可靠服务”->“高可用(HA)” 这里的启用5和6项即可规避类似问题。PS:管理口或虚拟机连接的物理口出现异常就会触发ha。
2、在HCI上面关闭raid monitor:登录HCI控制台在【管理】-【告警设置】里面去掉raid告警信息的勾就可以。
PS:HCI690和之后的版本已经做了优化,不涉及此问题了。



打赏鼓励作者,期待更多好文!

打赏
39人已打赏

发表新帖
热门标签
全部标签>
有一说一
新版本体验
设备维护
安装部署配置
每日一问
山东区技术晨报
虚拟机
排障笔记本
功能体验
解决方案
纪元平台
测试报告
授权
技术盲盒
2024年技术争霸赛
问题分析处理
信服课堂视频
原创分享
资源访问
齐鲁TV
云化安全能力
2025年技术争霸赛
日志审计
每日一记
sangfor周刊
标准化排查
地址转换
玩转零信任
「智能机器人」
场景专题
GIF动图学习
专家问答
技术圆桌
升级
华北区交付直播
每周精选
升级&主动服务
VMware替换
产品连连看
畅聊IT
上网策略
运维工具
用户认证
信服故事
平台使用
排障那些事
西北区每日一问
高手请过招
高频问题集锦
全能先锋系列
安全攻防
专家说
产品知识周周练
技术笔记
SDP百科
北京区每日一练
故障笔记
社区新周刊
行业实践
流量管理
安全效果
产品动态
技术顾问
答题自测
在线直播
MVP
VPN 对接
项目案例
存储
产品预警公告
技术争霸赛
追光者计划
2023技术争霸赛专题
技术晨报
关键解决方案
声音值千金
网络基础知识
功能咨询
卧龙计划
华北区拉练
【 社区to talk】
工具体验官
终端接入
迁移
秒懂零信任
POC测试案例
专家分享
S豆商城资讯
天逸直播
SANGFOR资讯
以战代练
文档捉虫
产品解析
产品体验官
热门活动

本版版主

211
408
1047

发帖

粉丝

关注

8
18
28

发帖

粉丝

关注

12
11
1

发帖

粉丝

关注

本版达人

皮皮虾·真

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人