一、问题现象描述 HCI(6.7.0R3)跨集群迁移到HCI(6.8.0R2),迁移任务进度卡在95%无法继续。 二、影响及范围 业务无影响,任务进度卡死,影响客户正常工作进度。 三、问题处置过程 1.查看超融合对应时间点报错,任务已进行两日且始终保持该进度,共迁移五台四台成功一台异常。 2.查看详情发现,脏数据量一直增加,减小又增加;判断此现象为内存变化率过大且高于管理口的带宽导致,迁移始终无法成功,只能等待或者通过切断业务强行切换。 3.进入HCI后台进入对应虚拟机运行的主机,然后进入容器 container_exec -n asv-controller 4.在虚拟机运行的主机上(即源端),进入虚拟机qmp命令行模式: qm monitor [vmid] 使用info migrate命令查看迁移状态: info migrate,反复执行这个命令查看 5.在qmp命令行模式migrate_set_speed 8G 把网络改大(不影响业务) 6.使用migrate_set_downtime设置允许中断时间【业务会停止】进行强制切换,单位是秒: migrate_set_downtime 100 这里设置的是中断业务100s(影响迁移的当前虚拟机的业务) 7.操作完成后查看任务进度开始直接切换,随后切换成功,虚拟机开机状态正常。(以上后台操作均为单次生效,无需回调) 四、原因分析 此问题原因是虚拟机内存变化率太高,大于传输的带宽就会出现这种情况,目前出现此情况只能通过等待或强制切换解决。 |