记一次SCMT跨不同HCI版本的集群之间的迁移
  

85039王毅波 36

{{ttag.title}}
本帖最后由 85039王毅波 于 2024-12-23 16:16 编辑

       本次实施前期准备不是非常充分,一些点确实在做方案设计和实施方案的时候没有考虑周全,谨记于心,温故知新,也希望以后大家在遇到类似场景的时候能够少走弯路少踩坑,提高效率。滴滴

       一、前期方案设计
       前期做方案设计或者方案实施,建议严格按照社区/公司的最佳实践来执行,特别是前期现场环境和需求调研表,因为客户全部是核心业务,只接受30分钟以内的中断,前期低版本已知问题和资源利用率严重过高导致多次出问题,本次目标是:将客户HCI延伸集群在原有基础上进行资源扩容和版本升级(6.3.0R3升级到6.10.0R2并打上合集补丁),且业务不能中断超过30分钟。本次整体方案采用SCMT从老集群(6.3.0R3)将核心业务通过SCMT点对点迁移将核心业务到新集群(6.10.0R2),所需物料:仲裁节点服务器(临时的)、管理网和业务网复用旧集群交换机(接口提前确认数量是否充足)、2台新的存储交换机(630等低版本存储网是双交换机链路聚合,6.10.0R2版本建议也只能使用双交换机链路聚合)、充足数量的光模块和跳线等;要评估CPU和内存、存储资源是否足够,同时也要评估CPU超配比(一般建议<=200%),避免迁移过程中或者迁移后有风险。各种容量(4T、8T、10T)的磁盘数量是否满足延伸卷的要求,且性能最佳,尽可能避免有瓶颈,无法将资源充分利用起来。

       二、主要坑点:
        1、建议别选SCMT热备迁移,这需要CDP授权且非常消耗存储空间,实力/资源和成本不允许一定别用这个:热备迁移和备份迁移要求HCI需要配置1.5倍的备份空间

        2、建议方案设计前期如果涉及SCMT迁移,一定用SCMT需求环境确认表跟客户确认清楚是否涉及数据库(数据库类型、集群还是单机,是否有共享盘等)、不支持集群类业务迁移 如:RDS数据库、容器平台(docker、K8s)、大数据平台不支持迁移,Oracle RAC、SOL Server。

        3、HCI集群授权回收问题:必须要确认码,这个提前做好准备,只能联系CTI部分同事有权限。比较耗时,云图上面回收也需要回收码。

        4、集群内主机之间的数据盘HDD容量相差不能超过2倍,前期方案设计一定要考虑到。如果不满足可以选择多卷方式,一个延伸卷+多个普通卷,不同等级的业务放在不同卷,备份数据可以放在普通卷。

        5、SCMT迁移默认走HCI业务口,要提前考虑到,待迁移虚拟机内核版本过低,升级SCMT迁移工具的兼容性,或者升级待迁移虚拟机内核版本。

        6、迁移完源机器断网/关机,目标机关机,检查副本策略,只要2副本,固定mac和UUID和IP,再开机。开机修改mac地址再重启是不生效的。

        7、HCI的虚拟机用SCMT跨集群迁移后UUID默认会变化,find /cfs/ -name 7665279901062.conf,直接修改里面的UUID值,然后重启虚拟机。

增加SCMT迁移工具对linux系统的内核兼容性

       8、延伸集群默认会是3副本,这个可以从新集群平台改下默认副本策略为2副本即可,所有待迁移虚拟机,建议提前导出虚拟机列表信息,并补充清楚mac、uuid、是否开启hostcpu等,哪些已经迁移,已安装agent备注清楚。

       9、SCP可以重置密码:针对安装过优化工具的虚拟机,在 SCP 页面进行重置密码,【操作】 计算-云主机界面,选中希望恢复密码的虚拟机,点击重置密码即可。

     10、HCI】SCMT迁移虚拟机后目的端开机提示“还原失败,0xc00c000f”:https://bbs.sangfor.com.cn/forum.php?mod=viewthread&tid=311159

      11、SCMT显示授权过期,直接社区找个包打上就行。问题现象:
部署的是SCMT3.0,SCMT授权导入会存在显示授权过期的问题。解决方案:使用admin登录管理控制台,进入下图所示【其他设置】-【授权管理】页面,升级授权界面上传信服云迁移工具使用时间延长授权包下载的zip包更新。

      12、系统安装SCMT的agent时,如果显示无法下载 error getting response: Connection reset by peer,
这种情况直接用xftp等软件,客户端软件DR的压缩包从正常的linux系统下载下来,上传到该业务系统,执行即可。

      13、SCMT迁移过程中如果提示传输异常或者目标机离线等,这种一般都是地址冲突了,修改目标机临时IP后重新新建迁移任务即可。比较浪费时间,所以一定避免目标机临时IP冲突。

      14、SCMT迁移会遇到部分系统迁移后IP地址不生效,进入虚拟机后台也看不到网卡信息和IP地址,这种要手动在虚拟机-编辑-网卡设置里面配置IP地址,并重启虚拟机后生效。

      15、检查是否开启hostcpu ,固定uuid和mac,IP,linux的系统迁移完后再关闭防火墙,不然部分业务,特别熟数据库mysql服务会起不来。关闭防火墙,不同Linux版本关闭防火墙命令举例如下:Suse系列:rcSuSEfirewall2 stop    Ubuntu系列:ufw disable      Red Hat\CentOS系列:service iptables stop或systemctl stop firewalld

      16、如果切换时(点击同步后切换时)出现:“切换失败,源机禁用网络失败”报错,如下图。这种可以切换时源就不要在写入数据,然后选择立即切换,源机不做操作,目标机关机即可。




      17、如果涉及迁移前后要固定IP、mac、UUID、host cpu、CPU和内存热添加等功能,SCMT迁移是切换建议选择同步最新数据后切换,切换后源机断网、目标机关机,目标机关机后先选择启用UUID,再修改mac地址和UUID等,这样重启直接生效最快,如果是核心业务建议直接在虚拟机编辑处手动配置IP和DNS等,避免部分业务系统前后IP配置信息不生效,配置后也是重启生效。

      18、SCMT如果目标机一直上线失败,就检查下目标机虚拟机是否网口桥接到正确的物理出口或者交换机、IP地址是否冲突,启动项优先级是不是磁盘启动优先,第二项选择无(不要选择光驱)。

       19、关于文件类型的存储(小文件),业务迁移速度一般都比较慢(10-30M之间),这块计算迁移速度的时候一定要注意,及时双千兆或者双万兆业务网,也跑不起来。




  持续更新,未完待续


XXX超融合延伸集群扩容及升级方案V1.6.rar

2.45 MB, 下载次数: 0

售价: 50 S豆  [记录]  [购买]

打赏鼓励作者,期待更多好文!

打赏
1人已打赏

原鹏程 发表于 2024-12-20 15:05
  
感谢楼主分享,努力学习中!!!!
发表新帖
热门标签
全部标签>
西北区每日一问
安全效果
高手请过招
【 社区to talk】
社区新周刊
产品连连看
每日一问
干货满满
纪元平台
技术咨询
标准化排查
GIF动图学习
新版本体验
功能体验
社区帮助指南
信服课堂视频
技术盲盒
安装部署配置
解决方案
SDP百科
自助服务平台操作指引
玩转零信任
S豆商城资讯
秒懂零信任
每周精选
畅聊IT
答题自测
专家问答
技术笔记
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
原创分享
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
信服圈儿
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
答题榜单公布
2023技术争霸赛专题
通用技术
卧龙计划
华北区拉练
天逸直播
以战代练
技术晨报
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力

本版版主

48
17
0

发帖

粉丝

关注

84
27
2

发帖

粉丝

关注

6
2
0

发帖

粉丝

关注

本版达人