本帖最后由 85039王毅波 于 2024-12-23 16:16 编辑
本次实施前期准备不是非常充分,一些点确实在做方案设计和实施方案的时候没有考虑周全,谨记于心,温故知新,也希望以后大家在遇到类似场景的时候能够少走弯路少踩坑,提高效率。滴滴
一、前期方案设计 前期做方案设计或者方案实施,建议严格按照社区/公司的最佳实践来执行,特别是前期现场环境和需求调研表,因为客户全部是核心业务,只接受30分钟以内的中断,前期低版本已知问题和资源利用率严重过高导致多次出问题,本次目标是:将客户HCI延伸集群在原有基础上进行资源扩容和版本升级(6.3.0R3升级到6.10.0R2并打上合集补丁),且业务不能中断超过30分钟。本次整体方案采用SCMT从老集群(6.3.0R3)将核心业务通过SCMT点对点迁移将核心业务到新集群(6.10.0R2),所需物料:仲裁节点服务器(临时的)、管理网和业务网复用旧集群交换机(接口提前确认数量是否充足)、2台新的存储交换机(630等低版本存储网是双交换机链路聚合,6.10.0R2版本建议也只能使用双交换机链路聚合)、充足数量的光模块和跳线等;要评估CPU和内存、存储资源是否足够,同时也要评估CPU超配比(一般建议<=200%),避免迁移过程中或者迁移后有风险。各种容量(4T、8T、10T)的磁盘数量是否满足延伸卷的要求,且性能最佳,尽可能避免有瓶颈,无法将资源充分利用起来。
二、主要坑点: 1、建议别选SCMT热备迁移,这需要CDP授权且非常消耗存储空间,实力/资源和成本不允许一定别用这个:热备迁移和备份迁移要求HCI需要配置1.5倍的备份空间。
2、建议方案设计前期如果涉及SCMT迁移,一定用SCMT需求环境确认表跟客户确认清楚是否涉及数据库(数据库类型、集群还是单机,是否有共享盘等)、不支持集群类业务迁移 如:RDS数据库、容器平台(docker、K8s)、大数据平台不支持迁移,Oracle RAC、SOL Server。
3、HCI集群授权回收问题:必须要确认码,这个提前做好准备,只能联系CTI部分同事有权限。比较耗时,云图上面回收也需要回收码。
4、集群内主机之间的数据盘HDD容量相差不能超过2倍,前期方案设计一定要考虑到。如果不满足可以选择多卷方式,一个延伸卷+多个普通卷,不同等级的业务放在不同卷,备份数据可以放在普通卷。
5、SCMT迁移默认走HCI业务口,要提前考虑到,待迁移虚拟机内核版本过低,升级SCMT迁移工具的兼容性,或者升级待迁移虚拟机内核版本。
6、迁移完源机器断网/关机,目标机关机,检查副本策略,只要2副本,固定mac和UUID和IP,再开机。开机修改mac地址再重启是不生效的。
7、HCI的虚拟机用SCMT跨集群迁移后UUID默认会变化,find /cfs/ -name 7665279901062.conf,直接修改里面的UUID值,然后重启虚拟机。
增加SCMT迁移工具对linux系统的内核兼容性
8、延伸集群默认会是3副本,这个可以从新集群平台改下默认副本策略为2副本即可,所有待迁移虚拟机,建议提前导出虚拟机列表信息,并补充清楚mac、uuid、是否开启hostcpu等,哪些已经迁移,已安装agent备注清楚。
9、SCP可以重置密码:针对安装过优化工具的虚拟机,在 SCP 页面进行重置密码,【操作】 计算-云主机界面,选中希望恢复密码的虚拟机,点击重置密码即可。
11、SCMT显示授权过期,直接社区找个包打上就行。问题现象: 部署的是SCMT3.0,SCMT授权导入会存在显示授权过期的问题。解决方案:使用admin登录管理控制台,进入下图所示【其他设置】-【授权管理】页面,升级授权界面上传信服云迁移工具使用时间延长授权包下载的zip包更新。
12、系统安装SCMT的agent时,如果显示无法下载 error getting response: Connection reset by peer, 这种情况直接用xftp等软件,客户端软件DR的压缩包从正常的linux系统下载下来,上传到该业务系统,执行即可。
13、SCMT迁移过程中如果提示传输异常或者目标机离线等,这种一般都是地址冲突了,修改目标机临时IP后重新新建迁移任务即可。比较浪费时间,所以一定避免目标机临时IP冲突。
14、SCMT迁移会遇到部分系统迁移后IP地址不生效,进入虚拟机后台也看不到网卡信息和IP地址,这种要手动在虚拟机-编辑-网卡设置里面配置IP地址,并重启虚拟机后生效。
15、检查是否开启hostcpu ,固定uuid和mac,IP,linux的系统迁移完后再关闭防火墙,不然部分业务,特别熟数据库mysql服务会起不来。关闭防火墙,不同Linux版本关闭防火墙命令举例如下:Suse系列:rcSuSEfirewall2 stop Ubuntu系列:ufw disable Red Hat\CentOS系列:service iptables stop或systemctl stop firewalld
16、如果切换时(点击同步后切换时)出现:“切换失败,源机禁用网络失败”报错,如下图。这种可以切换时源就不要在写入数据,然后选择立即切换,源机不做操作,目标机关机即可。
17、如果涉及迁移前后要固定IP、mac、UUID、host cpu、CPU和内存热添加等功能,SCMT迁移是切换建议选择同步最新数据后切换,切换后源机断网、目标机关机,目标机关机后先选择启用UUID,再修改mac地址和UUID等,这样重启直接生效最快,如果是核心业务建议直接在虚拟机编辑处手动配置IP和DNS等,避免部分业务系统前后IP配置信息不生效,配置后也是重启生效。
18、SCMT如果目标机一直上线失败,就检查下目标机虚拟机是否网口桥接到正确的物理出口或者交换机、IP地址是否冲突,启动项优先级是不是磁盘启动优先,第二项选择无(不要选择光驱)。
19、关于文件类型的存储(小文件),业务迁移速度一般都比较慢(10-30M之间),这块计算迁移速度的时候一定要注意,及时双千兆或者双万兆业务网,也跑不起来。
持续更新,未完待续
|