【2022争霸赛*干货满满】关于一次超融合6.0.0R5跨集群迁移问题排查记录
  

陈璨 25711人觉得有帮助

{{ttag.title}}
前言:
       这个问题是偶然情况下遇见的,在社区分享给大家以作参考。感谢CTI的各位大哥,是一线的坚实后盾

需求:
      两个超融合6.0.0R5集群,虚拟机进行跨集群迁移。

环境:
            源端集群CPU配置:2 个CPU * 16核
            目的集群CPU配置:2个CPU * 24核
            虚拟机:Centos虚拟机,硬件配置:18C,100G内存,1T+2T的磁盘

问题:
迁移该虚拟机时失败,且操作日志报错:【操作已中断!是网络异常或不稳定导致,请稍后重试。】
              

处理过程:
1、      检查两个600R5集群之间的管理网通信正常,且无安全设备阻隔。
2、      检查源虚拟机的硬件配置,发现为18插槽,每插槽1核数的vCPU配置。

3、      通过抓取迁移时qemu启动参数发现,源端的一个mem-node内存数量为50G,目的端一个mem-node内存数量为100G,存在不一致情况。

4、      因为启用了Numa调度,如果虚拟机配置的vCPU核心数是1,且插槽数大于1,会进行特殊处理。例如虚拟机配置的是18槽 * 1核心,会根据服务器实际存在的插槽数进行修改vCPU的配置参数。

按照逻辑,会先计算出需要的插槽数,
逻辑为:插槽数 = (该虚拟机总核数  + 单颗物理CPU的核数 – 1 )/ 单颗物理CPU的核数

接着计算出核心数,
逻辑为:核心数 = (该虚拟机总核数  + 插槽数 – 1 )/ 插槽数

当前案例中虚拟机的总核数为18

所以在源端集群时,插槽数为2,核心数为9。也就是虚拟机开机会使用2插槽的CPU,每插槽各9核心的方式去分配资源。由于开启了Numa调度,需要的100G内存会绑定在两个物理CPU上,也就是各50G。这样形成了mem-node0= 50G,mem-node1 = 50G 。

但是在目的端集群时,插槽数为1,核心数为18。也就是虚拟机开机实际使用的是1插槽的CPU,每插槽18核心。而且由于Numa调度,此时100G内存只绑定在一个物理CPU上。形成了mem-node0 = 100G的情况。

5、      由于迁移前后需要对比虚拟机的各项参数,为确认一致才能算作迁移完成,此时源端有mem-node0 和mem-node1 ,但是目的端只有mem-node0。构建出来的启动参数源目不一致,集群认为迁移过程有异常情况,导致迁移失败。

规避方案:
1、      配置虚拟机vCPU核数时,直接在此处填写,让平台自动生成插槽数和核心数。而不是直接修改插槽数和核心数
  

2、       迁移虚拟机时使用SCMT信服云迁移工具、HCI系统镜像、HCI P2V迁移工具、导出导入的方式进迁移。

46718631c4a51d4aea.png (61.51 KB, 下载次数: 64)

46718631c4a51d4aea.png

打赏鼓励作者,期待更多好文!

打赏
1人已打赏

HNing 发表于 2022-9-13 17:18
  
作者以超融合虚拟机迁移遇到的问题排查为主线,进行问题处理并最终得以解决,过程记录详细,感谢分享哦
平凡的小网工 发表于 2022-9-13 19:56
  
楼主分析的很详细,不错的实战经验,小白用户一看就懂,非常好的技术干货帖,顶一个!
头像被屏蔽
新手780102 发表于 2022-9-17 11:29
  
提示: 作者被禁止或删除 内容自动屏蔽
807710 发表于 2023-4-23 11:29
  
感谢分享,有助于工作。
发表新帖
热门标签
全部标签>
新版本体验
每日一问
纪元平台
GIF动图学习
功能体验
标准化排查
高手请过招
安装部署配置
【 社区to talk】
安全效果
社区新周刊
产品连连看
测试报告
每周精选
信服课堂视频
答题自测
技术笔记
畅聊IT
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
日志审计
问题分析处理
流量管理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
2023技术争霸赛专题
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术晨报
平台使用
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案

本版版主

193
359
1005

发帖

粉丝

关注

12
6
1

发帖

粉丝

关注

本版达人

皮皮虾·真

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人