hello啊铁子们,不知道你们有没有做过主机替换呀,反正我是没做过,所以当我第一次接到做主机替换这个任务的时候那叫一个犹犹豫豫、踌躇不决、优柔寡断、瞻前顾后。。。毕竟是个高危操作,本姑娘超级胆小怕事,所以在前一天晚上临时抱佛脚把所有主机替换的资料和帖子都研究了一遍,大家可不要学我哦,一定要提前准备好!!! 一、替换场景 首先,让我来简单介绍下替换场景,是这样的,客户原先有四台服务器搭建了集群(第三方服务器),其中两台设备是2u的,两台设备是1u的,这样用了几年后,客户新购了两台新的2u的服务器,想把原1u的服务器给替换掉,新购的两台主机的系统盘利旧,当然客户还有新购的一些配件,原2u的设备要拆掉系统盘换到服务器后面,以便给新的数据盘和缓存盘腾空间,所以我们本次要做的是:1、替换掉原两台1u的设备 2、另外原两台2u的设备呢虽然不用替换,但是缓存盘要拆开换到服务器后面去,而且要加进去新的缓存盘和数据盘,这样做完原系统大概率是起不来的,所以可能要重装系统(其实和替换差不多啦,后续操作步骤是一样的) 二、主机替换的要求 1、要求新主机的配置(硬件配置、磁盘数量和容量)不得低于原故障主机的配置 2、更换主机的管理 IP 地址不能和原主机相同 3、主机的接线方式要和老主机的一样 4、新主机版本必须跟原集群内主机版本一致(这里客户集群内主机是6.10.0版本的) 三、替换具体步骤 1、整合一下客户当前的硬件配置、磁盘数量和容量,自己有一个大体评估后,再找400确认替换前后的磁盘配比是否可以支撑后续的正常运行 大家可以用这个工具测试下,很方便的 2、一台一台替换,由于客户的系统盘要利旧,所以原主机要关机,拆掉系统盘给新主机用,这里我们原主机暂称为54 3、迁移运行在1.54主机上的虚拟机及虚拟网络设备(我这边的客户没有虚拟网络设备,所以只迁虚拟机) 这里一定要记得把集群资源调度改为手动调度,客户这边服务器承载力有限,迁移完54的虚拟机之后发现没过一会虚拟机又“回来了”,这是因为集群资源调度是自动调度,所以又自动调度到空闲主机上了
4、迁移完虚拟机之后,会有一个数据同步的任务,同步完成后进单主机维护 5、1.54离线之后,检查副本一致性,检查完没问题之后,拆系统盘装到新主机上,新主机安装系统 6、安装系统(全部用6.10.0系统) ①使用U盘刻录好镜像 ②系统盘做raid1、缓存盘和数据盘做non-raid ③设置U盘为第一启动项 ④安装超融合系统 7、直连设备---------插eth0,用默认地址10.250.0.7登录,用户名密码都是admin 8、登上去之后查看版本信息和补丁信息,要和原主机一致 ①检查完后需要打补丁包sp-HCI-6.10.0-x86-col-20240531 ②用adploy工具做补丁前的检测(不检测直接升级会报错) ③升级完补丁包之后在页面上能看到就可以了
9、网络配置 -----4567做业务聚合口,聚合口下启用vlan子接口做数据通信口 -----89做管理聚合口 -----10、11做存储口(客户是沿用之前的老架构的存储,不做聚合,交换机上也不用配置) ①管理口配置地址:192.168.1.65 网口功能,管理口角色选中89的聚合口,然后切换 ②存储口配置地址(也可以后续在主机替换的步骤里配置) 本环节截的图不多,大家随便看看 10、开始上架、接线 11、开始做主机替换 ①在实体机里面找到要替换的主机,按照步骤一步步做下去就行
②在替换主机硬盘时出现了报错:选磁盘的时候选不了-----需要放通ssd的型号:可用adploy工具放通ssd或者协调400后台放通(这里我用工具没有扫出来,所以协调了400进后台放通的) ③放通好之后可以进行下一步了 正常都会有这个告警,不用管 ④可以看到已经在进行替换任务了 ⑤替换成功后开始数据同步(这个过程很漫长,大家可以不用在现场等着,比如我这个客户这里到第二天中午才同步完) ⑥等待数据同步任务完成后再做一遍数据一致性检测(这个是客户第二天自己检测后截图给我的)
大家是不是以为到此就结束了呀,并没有哦,善后工作要做好!!!!
比如: 12、等待数据同步的这个时间段,需要再检查一遍网络配置,或者把接线后要做的做好 ①首先就是要在业务出口那里把新主机加上 ------网络→编辑拓扑→物理出口→添加主机→选新主机的业务口 ②然后一步步检查 ③主机正常换进集群之后,要记得在重新获取下数据通信ip
13、最好是协助客户迁移一台虚拟机运行试试看能不能上网,验证业务没有问题才是圆满结束!!!!
一个小总结----本次替换遇到的问题: 1.主机离线(手动关机下电)之前做副本一致性检查,离线之后不用做。 2.存储口沿用老版本,不用聚合,地址可以在替换的时候再配置 3.数据通信口的IP可以在替换完成配置 4.物理出口也不用在新主机上面配置,替换完成集群内再配置。 5.第三方服务器运用SSD缓存盘是不是可以提前做放通SSD操作,用adeploy工具。
三天过后,我帮客户替换了第二台,步骤同上一模一样,第二次不管是心理还是操作都很顺利了哦!
7.5号,我又又又来给客户做第三台了,这次不太一样,“主人公”是那两台2u的旧设备,需要拆机,换系统盘、换硬盘、换网卡、重装系统; 1、由于前面操作是差不多的,所以大家可以看下我当天写的一个记录,截图就不放了,略过~ 2、不一样的是这里出现了几个小插曲 ①识别不到磁盘 ---重装系统之后,开始替换主机,但是到替换主机硬盘这一步发现磁盘选项一片空白 ---登录第三方服务器的bmc查看后台磁盘是都有的 ---检查发现是做non-raid的时候出现了漏选,重新做了non-raid ---做好之后再查看是识别到磁盘了的,然后正常进行替换
②替换下一步的时候又出现了报错:主机之间通信异常
---检查网络没问题,ping其他主机可以ping通,主机之间访问没问题 ---协调400继续排查,400反馈这台主机后台进不了数据库 ---重启服务器,还是不行 ---协调研发,研发表明:InnoDB异常,修复起来难度大,mysql没有起来,需要重装系统 ---这种遇到过几个类似都是mysql起不来的,查起来很麻烦,最快的解决方式就是重装系统 ---重装系统后正常了,但是替换的时候出现了新的报错。。。 ③第三个报错登场:hostname与原主机冲突,需要重新生成hostname ---关于这个报错,找了个案例发现需要恢复出厂来生成 ---恢复出厂后再次重试,终于可以正常替换了
3、“小插曲”都解决后替换任务正常进行,替换成功 ---7.6日客户检测数据一致性通过,一切正常
分享到这里就结束了,大家看完整个过程下来,可以挑一挑我都犯了哪些错呢 |