本帖最后由 long59334074 于 2022-12-26 11:53 编辑
背景介绍: 某客户原先使用7台HCI一体机组建集群,运行120台虚拟机。7台主机分布在两个机房,客户想实现在某个机房整体停电或故障状态下业务不停机。 在此背景下,HCI集群无法实现需求,需要改变为延伸集群。 在改变延伸集群时,客户要求业务不能停。 此时我们通过添加EDS存储,实现虚拟机热迁移,将原先存储在HCI虚拟存储上的虚拟机,迁移到EDS。 然后删除虚拟存储,重新组建延伸卷。 然后将EDS上的虚拟机,迁移到延伸卷。 具体操作步骤如下:
当前拓扑: 两个机房核心交换机万兆堆叠。两台存储交换机万兆光纤直连主机,无堆叠。 迁移过程拓扑: EDS存储私网和存储外网都连接到其中一台万兆存储交换机既可,存储外网IP配置和HCI存储私网IP同网段的IP。仲裁节点和HCI集群网络可达。 完成后拓扑: 迁移完成后,移除EDS设备既可。 总体步骤: 1. 第三方服务器安装仲裁节点 2. 搭建EDS集群,EDS接入HCI存储网络,EDS提供块存储 3. HCI挂载EDS(iSCSI),将所有虚拟机存储位置迁移到EDS 4. 协调400专家后台删除HCI原有虚拟存储(只有1块虚拟存储情况下,控制台无法删除) 5. HCI配置延伸卷 6. 将HCI虚拟机存储位置迁移回HCI虚拟存储延伸卷
具体步骤: 1. 第三方服务器安装仲裁节点 1.1仲裁节点服务器系统已安装,(需确认仲裁盘状态),IP地址已配置(默认10.250.0.7) 1.2仲裁节点和HCI集群对接(创建延伸卷时对接)
2. 搭建EDS集群,EDS接入HCI存储网络,EDS提供块存储 2.1 EDS服务器上架,管理线接核心交换机管理VLAN,存储内网和存储外网光纤接HCI存储交换机之一 2.2 EDS服务器开机,配置管理IP,组建集群,配置存储内网IP(自定义),存储外网IP(自定义),虚拟IP(和HCI存储口IP一个段) 2.3 EDS配置块存储,iscsi信息
3. HCI挂载EDS(iSCSI),将所有虚拟机存储位置迁移到EDS 3.1 HCI挂载EDS的ISCSI 3.2 迁移一台虚拟机存储位置测试是否正常 3.3 正常后继续迁移其他虚拟机
4. 协调400专家后台删除HCI原有虚拟存储 4.1 所有虚拟机迁移完成后,协调专家后台删原先的虚拟存储普通卷
5. HCI配置延伸卷 5.1 HCI创建卷,选择延伸卷,配置故障域和对应主机
6. 将HCI虚拟机存储位置迁移回HCI虚拟存储延伸卷
实际实施过程中遇到的问题: 1.虚拟机迁移速率比较慢,看IO只有50MB/S左右,和万兆交换机的速率差了十万八千里。通过咨询400,了解到热迁移速率是有限制的,就是在50MB/S。 2.虚拟机迁移速率不一,数据量差不多的情况下(不到100G),有的虚拟机十几二十分钟迁移完成,有的虚拟机迁移五六个小时甚至更久到十一个小时(这还是SCP,途中标红的那台)。 3.虚拟机迁移不是并发多台一起迁移,是一台一台排队迁移。第一台迁移完成,再开始第二台的迁移。 4.总共120台虚拟机,20T数据,迁移到EDS用了一星期。 5.从EDS迁移虚拟机到延伸卷,速率更慢,同样迁了一星期,才66.6%。目前还没迁完。
通过咨询400,了解到热迁移就是在A主机上按照原有虚拟机a1的配置,新增一个空白虚拟机a2,然后把虚拟机a1的磁盘文件复制到a2,拉起a2后再把a1的内存状态迁到a2,a2运行起来后删除a1,即便是迁移虚拟机的运行位置不变,这个过程还是会完整的走一遍。尤其是内存的状态数据,影响迁移速率。
以上就是本次项目实施过程中遇到的一些问题。希望对别的小伙伴能有所帮助。
|