VMware ESXi迁移深信服超融合故障分析报告
一、项目概况1.1 项目背景本次虚拟化平台升级改造项目,原有IT架构采用VMware ESXi虚拟化平台,承载企业业务系统,包含OA、ERP、数据库、文件服务、业务中间件等虚拟机。原VMware平台硬件老化、维保到期、授权成本高、存在国产化替代要求,本次规划将全部虚拟机迁移至深信服aCloud超融合HCI平台,采用SCMT迁移工具完成跨平台迁移,实现虚拟化平台国产化替换。
1.2 迁移环境说明源平台:VMware ESXi 6.7,vCenter管理,虚拟机数量62台,包含Windows Server、CentOS、Oracle、SQL Server等业务系统。
目标平台:深信服aCloud超融合,分布式存储架构,混合硬盘配置。
迁移工具:深信服SCMT迁移平台,使用纳管迁移+有代理增量迁移两种模式。
迁移周期:2026年1月10日-2026年3月25日。
1.3 故障总体概述本次迁移过程中,先后出现迁移任务失败、虚拟机无法开机、网卡异常、数据库不一致、网络不通、Agent安装失败等多类故障。本报告汇总本次迁移过程中全部典型故障,记录故障现象、排查过程、根因分析、处理方案及预防整改措施,为后续同类迁移项目提供风险参考。
二、故障汇总清单三、典型故障详细分析故障一:纳管迁移提示数据拷贝异常1、故障现象使用aCloud纳管VMware虚拟机进行迁移,任务执行至40%左右中断,平台提示:数据拷贝异常,迁移任务终止。
2、排查过程(1)查看虚拟机磁盘信息,发现该虚拟机挂载外置FC存储磁盘;(2)查阅深信服迁移手册,纳管迁移仅支持VMware本地磁盘;(3)FC直通磁盘无法通过纳管方式读取磁盘位图,导致拷贝中断。
3、根因分析纳管迁移模式不识别FC直通存储磁盘,仅支持虚拟化本地磁盘,属于平台机制限制,非程序BUG。
4、处理措施放弃纳管迁移,改用SCMT有代理在线迁移,通过块级抓取完成整机迁移,迁移成功。
故障二:SCMT迁移报错2305,同步卡住无进度1、故障现象创建免代理迁移任务后,长时间无数据同步,后台日志提示错误代码:2305 解析ESXi主机域名失败。
2、排查过程(1)检查SCMT虚拟机DNS配置为空;(2)ESXi主机采用域名方式管理,无DNS无法解析主机名;(3)测试443、902端口连通性正常,排除防火墙拦截。
3、根因分析SCMT虚拟机未配置有效DNS,无法解析ESXi域名,导致迁移链路建立失败。
4、处理措施修改SCMT网卡DNS为内网DNS服务器,重启迁移任务,同步进度正常。
故障三:Windows虚拟机Agent安装失败1、故障现象部分Windows服务器安装SCMT迁移代理时,进程自动闪退,无法完成注册,平台识别不到源主机。
2、排查过程(1)查看系统日志,杀毒软件拦截Agent驱动;(2)服务器预装备份软件,占用磁盘过滤驱动;(3)系统安全策略阻止不明程序写入底层磁盘。
3、根因分析源机杀毒软件、备份软件与SCMT代理底层驱动冲突,拦截磁盘抓取动作。
4、处理措施临时关闭杀毒软件实时防护,卸载备份软件,重启服务器后重新安装Agent,迁移完成后恢复安全软件。
故障四:低内核Linux迁移后内核崩溃无法开机1、故障现象CentOS5(内核2.6.18)Oracle数据库虚拟机迁移完成后,启动黑屏、内核panic,无法进入系统。
2、排查过程(1)深信服HCI默认使用virtio磁盘控制器;(2)低版本Linux内核无virtio驱动,无法识别硬盘;(3)更换磁盘控制器后正常引导。
3、根因分析老旧Linux内核不兼容virtio磁盘驱动,VMware环境为IDE兼容磁盘,跨平台驱动不匹配。
4、处理措施修改目标虚拟机磁盘控制器为IDE模式,开机后安装低内核专用虚拟化驱动,业务恢复正常。
故障五:迁移后网卡异常、网络不通1、故障现象Windows虚拟机迁移完成后,网卡显示感叹号,无网络,原VMware vmxnet3网卡驱动失效。
2、排查过程(1)原平台为vmxnet3高性能网卡;(2)深信服默认virtio网卡,系统无自带驱动;(3)安装Tools仍无法适配。
3、根因分析不同虚拟化平台虚拟网卡硬件模型不一致,跨平台驱动不兼容。
4、处理措施删除原有virtio网卡,临时新增e1000兼容网卡,保证业务快速连通;业务稳定后安装virtio驱动并切换高性能网卡。
故障六:数据库迁移后数据文件不一致1、故障现象SQL Server数据库迁移后实例启动异常,提示数据文件页损坏、日志不一致。
2、排查过程(1)迁移增量同步阶段数据库未停止,持续产生IO;(2)磁盘数据块存在交叉写入,导致快照数据不一致。
3、根因分析数据库类业务未停机迁移,文件系统存在动态IO,跨平台同步产生脏块。
4、处理措施回退源虚拟机,停机静止后执行最后一次增量同步,割接后数据库正常启动。
故障七:虚拟机启动提示0xc00c000f启动失败1、故障现象迁移完成开机提示:还原失败,0xc00c000f,无法进入系统。
2、排查过程查看虚拟机启动项,默认引导顺序为光驱优先,SCMT迁移残留虚拟光驱文件。
3、根因分析目标虚拟机启动顺序异常,优先从迁移介质引导,而非本地硬盘。
4、处理措施删除虚拟光驱,调整启动顺序为硬盘第一顺位,重启后正常开机。
四、迁移故障共性总结4.1 技术层面问题驱动兼容问题:VMware虚拟硬件(vmxnet3、LSI磁盘)与深信服virtio硬件不通用,老旧系统兼容性差。
存储类型限制:纳管迁移不支持FC直通、物理磁盘直通。
网络配置疏漏:SCMT缺少DNS、端口不通、VLAN未规划导致迁移链路异常。
4.2 操作流程问题五、整改及预防措施5.1 迁移前期预防措施磁盘检查:迁移前全部合并快照,清理残留快照链;排查FC直通磁盘,此类虚拟机禁止使用纳管迁移。
系统检查:老旧Linux内核(<2.6.32)提前改为IDE磁盘模式;Windows提前卸载冲突安全软件。
网络检查:SCMT必须配置DNS,放行443、902端口,提前规划业务VLAN。
5.2 迁移过程管控每台虚拟机迁移完成后,检查启动顺序、网卡、磁盘控制器。
5.3 后期运维优化统一升级深信服虚拟化Tools,全部网卡稳定后切换为virtio高性能模式;
六、故障总结与结论本次VMware ESXi迁移至深信服超融合项目,整体迁移过程顺利完成,全部62台虚拟机平稳割接上线。本次出现故障均为跨平台迁移常见兼容性问题、前期检查疏漏及环境冲突导致,无重大数据丢失、无长时间业务中断。所有故障均已排查修复,业务运行稳定。
通过本次故障复盘,明确VMware迁移深信服HCI的风险关键点:磁盘类型、系统内核、驱动兼容、安全软件冲突、数据库停机管控、网络DNS配置。后续同类迁移项目需严格执行前置检查、分批迁移、停机割接、事后验证,最大限度降低迁移风险,保障业务平稳过渡。