客户原环境: 2023年3月份部署三台测试hci,截止2023年底客户采购了15台正式hci(其中12台和测试的3台组一个大集群、另外3台组一个集群当做异地灾备使用) 2024年3月份交付客户新采购的6台: 方案:用3台新的替换测试的3台,另外3台扩容到集群里,最终大集群有18台主机 实施流程: 1、确认替换的3台新设备版本、补丁包和原集群是否一致,原集群680r1版本、无补丁, (新设备680r1版本、有补丁,确认后可以回滚掉补丁) 2、6台新设备进行基础配置,存储/业务/vxlan/管理分别做双网口聚合,对端交换机做双网口聚合 3、进行主机逐一替换,替换前后做存储数据检测,检测副本一致性 4、将被替换主机上的虚拟机迁移至其他主机,被替换主机进入维护模式—主机关机—物理主机替换—等待数据同步、数据重建完成后测试业务没问题再继续替换 5、3台主机替换完成后,再进行3台主机扩容、扩容到虚拟存储里(按照扩容流程操作、集群内添加三台主机,没问题后进行虚拟存储扩容) 扩容前后容量: 实施过程中遇到的问题: 主机替换: 1、进行第一台主机替换时,控制台任务里显示已经在进行,过了两分钟后,控制台登不上了,刷新一直在转圈提示集群服务异常,集群ip是通的 2、后台抓包看也无法定位出问题,后台停止新主机集群服务,登录控制台是正常的,怀疑是管理口异常导致,经排查现场网络环境,整个集群一共接了4个管理交换机,改动网络架构,减掉一台交换机后再次进行主机替换正常 类似交付项目和客户沟通好尽可能把整个集群的管理网放在两台组堆叠交换机上,不要涉及多交换机 主机扩容: 将三台主机加入集群后进行虚拟存储扩容,提示聚合模式不一致无法扩容 老集群存储聚合模式 新设备聚合模式 研发答复后台无法直接修改聚合模式,新设备还有空闲光口,重新拿两个空闲光口组聚合,模式和老一群一致,研发在后台移动聚合口位置 类似扩容,提前检查好新旧设备的聚合模式 |