本帖最后由 隐姓埋名 于 2025-1-14 09:10 编辑
一,案例背景: 某大型企业的信息技术部门一直使用平台来支撑公司内部的众多业务系统,包括财务系统、客户关系管理系统以及办公自动化系统等。随着业务的快速发展平台的性能和扩展性逐渐无法满足需求,决定将现有平台迁移至深信服超融合平台,以获得更高效、稳定的计算资源支持。 PS:因为授权时间关系,导致vCenter无法登录进去,所以使用SCMT做为迁移方式。 二,迁移前期准备: 虚拟机资源使用情况统计对平台上的所有虚拟机进行资源使用情况统计。详细记录使用率、内存占用、磁盘 以及磁盘使用情况等数据。结果显示,部分关键业务虚拟机在业务高峰期时,使用率长期超过高,内存也时常处于饱和状态。 硬件资源:根据 VM 平台上虚拟机的配置(如 CPU 核心数、内存大小、磁盘容量等),结合深信服超融合平台的性能参数,确定所需的测试设备配置。例如,若 VM 平台上有 10 台虚拟机,每台虚拟机平均配置为 4 核 CPU、8GB 内存、100GB 磁盘,考虑一定的性能冗余,选择的测试设备应具备足够的计算、存储和内存资源来承载这些虚拟机。 网络资源:新搭建的测试集群使用万兆光纤连接到锐捷交换机,保障迁移速度。 三,兼容性调研: 对现有的虚拟机版本进行了梳理,发现主要为 window server 2008,window server 2012和 Linux系统。同时对深信服迁移工具与虚拟机系统的详细版本进行兼容性对比。确认迁移工具能够稳定兼容现有虚拟机版本。 资源测算:根据资源使用情况统计数据进行预估,对迁移到深信服超融合平台所需的计算、存储进行了测算。预计需要配置 4台高性能服务器作为超融合节点,每台服务器配备 32 核 CPU、512GB 内存以及 55TB 的高速存储。 四,搭建超融合平台与迁移准备: 搭建深信服超融合平台:按照规划使用深信服超融合测试设备进行平台搭建。完成服务器硬件的上架、网络布线以及基础环境的配置。经过3天的紧张工作,成功搭建起深信服超融合测试集群,并进行了初步的稳定性测试。 部署迁移工具:在超融合平台上,部署三套深信服迁移工具,分别用于不同业务类型虚拟机的迁移。为确保迁移过程的高效性和稳定性,对每套迁移工具进行了针对性的参数配置,设置合适的并发迁移任务数、数据传输带宽限制等。 安装客户端与分类迁移:根据虚拟机所承载的业务类型,将虚拟机分为重要业务、业务运营类和办公类。在每台虚拟机上安装相应的迁移客户端。确认无误后,启动虚拟机迁移任务,将 VM 平台上的虚拟机逐步迁移至深信服超融合测试集群。在迁移过程中,实时监控迁移进度和数据完整性,确保迁移任务顺利完成。 整个迁移过程中,每个虚拟机业务仅中断了 25 分钟左右,远远低于预期的1小时。 五,切换与业务验证: 确定窗口期与切换:确定了一个周末的时间作为业务切换的窗口期。在该时间段内,业务系统的使用量最低,对业务的影响最小。在切换当天按照预定方案,顺利完成了从 VM 平台到深信服超融合平台的切换操作。 业务验证与值守:切换完成后,客户立即协调各业务厂家的技术人员对业务系统进行全面验证以及功能测试。同时安排专人进行了连续两天的值守,密切关注系统运行状态。在值守期间,及时处理了一些因配置调整导致的小问题,确保业务系统稳定运行。 清除 VM 服务器数据与安装软件:在确认业务验证没有问题后,按照前期沟通签订免责协议,对 VM 服务器上的数据进行了彻底清除。随后,在 VM 服务器上安装了深信服超融合软件,将其组件成一个新的超融合集群。 跨集群迁移:完成上述工作后,进行了跨集群迁移操作,实现平滑迁移。 最终业务验证:在跨集群迁移完成后,再次对所有业务系统进行了全面的业务验证。经过严格测试,所有业务系统均运行正常,性能得到了显著提升。至此,成功实现了从 VM 平台到深信服超融合平台的平滑迁移。 六,风险应对数据丢失风险:在迁移过程中,可能由于网络故障、软件异常等原因导致数据丢失。应对措施是在迁移前对重要数据进行备份,并在迁移过程中实时监控数据校验和,确保数据的完整性和准确性。业务中断超时风险:若在业务中断期间未能按时完成切换和启动,可能导致业务长时间中断。为此,在业务中断前制定详细的操作计划和时间表,提前进行多次迁移测试,确保熟悉操作流程,提高应急处理能力。一旦出现超时情况,迅速启动备用方案,恢复业务在原 VM 平台上的运行。 兼容性风险:虚拟机迁移至深信服超融合平台后,可能出现软件兼容性问题。在迁移前,对业务系统中的关键应用程序进行兼容性测试,针对可能出现的问题提前与软件供应商沟通,获取解决方案。
总结: 此次迁移历经多个阶段实现平滑过渡,先是做前期准备,包括统计 VM 平台虚拟机资源使用、调研兼容性及资源测算;接着搭建深信服超融合平台并部署迁移工具、安装客户端;随后将虚拟机迁移至测试集群,按确定窗口期切换,协调业务厂家验证业务,值守确认无误后清除旧数据、安装软件再跨集群迁移,且业务中断时间仅约 30 分钟,最后经业务验证完成迁移。为以后的迁移工作积累了丰富的迁移经验。 |