本帖最后由 YYYFF 于 2024-7-17 17:46 编辑
【项目背景】
客户原有三套第三方服务器利旧桌面云集群(老架构,两套5.5.0R1,一套5.4.5),24年新购了一套我司桌面云一体机(5.9.1),为了实现统一管理以及三热能力,需要将原有的三套集群升级到5.9.1版本并将VDC合并成一套。
【主要问题】 问题1:版本升级需要中断业务4-6小时,夜间急诊,手术室等场景不能接受如此长的窗口期,新老架构不支持虚拟机迁移 解决方案:针对业务连续性高的虚拟机采用“替C”方案迁移至新集群
问题2:客户对大版本升级有顾虑,要求我们必须先做好虚拟机备份才可以升级,短期无法协调大容量的存储设备 解决方案:利用新集群的存储空间,提供ISCSI挂载给老集群做备份
问题3:客户要求集群合并后,对终端用户的影响最小化,终端的接入地址和账号密码不能变动 解决方案:VDC用户通过导入保证用户信息不变;合并数据后,通过网口多IP绑定,实现接入地址不改变
【前期准备】 1.此次升级涉及3个集群的升级改造,两个集群可以直升5.9.1,一个集群需要先升级到过度版本5.5.6,变更顺序应该优先选择规模小,升级路线简单的集群。 集群A:5.4.5版本,4节点,233台虚拟机(服务器主机最新) 集群B:5.5.0R1版本,5节点,240台虚拟机(服务器主机中等新) 集群C:5.5.0R1版本,3节点,109台虚拟机(服务器主机最旧) 正常升级顺序是:集群C->集群B->集群A(版本跨度小,集群规模小优先) 由于客户担心老服务器升级可能有硬件风险,要求升级顺序为:集群A->集群B->集群C
2.升级窗口期协调在晚上8点到第二天凌晨6点,考虑到第一次变更可能出现的问题比较多,且升级没有回退方案,第一次变更的内容只是集群升级,集群合并额外再协调一次窗口期,流程验证无误后,后续再协调两次窗口期完成剩余两个集群的变更。
3.老架构升级新架构风险较高,需要提前一周对现有环境做调研与升级前巡检,VMP和HCI的区别比较大,一定要反复阅读升级指导手册,基镜像转换是否需要变更前完成、VMP业务口命名是否含有特殊字符等细节问题需要提前确认。
4.桌面云集群合并属于非标操作,需要将两个VDC的数据合并, 变成一个VDC管理两个VMP,主要包含用户、模板、资源、虚拟机、策略组、认证策略等数据的合并,需要提前一周完成数据的导出与梳理。
5.授权变更,客户原本是通过acenter统一授权,由于需要多次变更,使用UKEY授权再做调整不灵活,新集群采用VKY授权,集群变更前提前三天完成授权变更,特别注意:VDC并发授权超过300点需要专业版授权,需要提前和市场、客户沟通下单。
6.虚拟机备份,由于存储容量较大,客户环境桌面云集群之间只有管理网(千兆)互通,全量备份时间比较久,需要提前一周开始备份。
7.重要虚拟机需要提前迁移至新集群,需要和客户沟通确认好虚拟机清单和切换时间(终端接入地址、账号需要变动,窗口期大约30min/台)。
【实施步骤】 1.升级前一周,完成虚拟机备份策略开启、升级前巡检与问题处理、VDC数据导出与整理、授权变更、重要虚拟机迁移。
2.变更窗口期内,按照标准升级流程完成VMP、VDC的升级并重新授权
3.升级后建议从VDC批量开启虚拟机,完成vmtools的自动安装与VDI agent的升级(需要重启),减少对终端用户的影响
4.合并VDC数据时,提前备份好VDC数据,先断开原VDC的网络或关机,在新VDC上关联HCI,导入模板,创建资源后导入对应虚拟机,导入用户与组织架构,创建并配置角色,创建策略组与认证策略,最后导入虚拟机与用户的绑定关系(包括IP地址)
【注意事项】 1.医疗行业内网虚拟机win7系统占比很大,升级后会出现一些奇怪的问题(vmtools安装不上,服务创建失败,丢网卡、虚拟机卡关机状态等等),升级后的检查非常重要!!!,如果出现此类情况一般都是系统本身的原因,优先引导客户重新派发虚拟机,协助客户完成资料数据转移,部分临时解决方案见附件。
2.VDI agent的自动更新可能会被友商杀毒拦截,导致VDI服务异常或者组件不完整,建议升级后从VDC批量开启虚拟机,等待VDI agent更新完成后如果agent状态提示不完整建议远程到终端卸载杀毒软件后重新安装vmtools和VDI agent。
3.桌面云巡检工具不会对VS的副本一致性做检测,如果集群存在副本不一致,特别是坏道/坏块引起的,需要研发修数据(半小时一个坏道/坏块)非常影响进度,建议在升级前提前找研发沟通检查。
4.集群合并时,如果老VDC和新VDC同时能和HCI通信,此时数据导入可能没有问题,但是新老VDC会抢占修改虚拟机配置,导致VDI agent异常,用户接入不了虚拟机(卡在logon界面),此时需要断开老VDC的网络或者关机,将虚拟机和用户重新绑定,所以在操作前务必要做好数据备份,记录好老VDC的信息,断开老VDC后再操作。
5.虚拟机双网卡场景,新架构VDC在创建资源时强制要求关联业务出口(不能选具体网口),比如模板虚拟机有ETH0、ETH1两张网卡,此配置默认会在ETH1上生效,如果再额外添加了一张ETH2,重启后会在ETH2上生效,如果此时通过vmtools或者虚拟机内部修改网络,就会出现配置不一致的问题,需要提前确认好客户的需求,通过VDC下发ETH1的IP,虚拟机内配置ETH0的规避此问题。
6.集群合并时,如果老的VDC开启了客户端http的服务端口,新的VDC一定要开启(默认关闭),否则合并后终端用户无法直接通过IP地址直接接入,手动改成https的接入方式后,原本的用户名和密码会丢失,且开启HTTP端口需要重启VDC服务,导致所有用户下线,所以一定要提前确认。
7.医疗行业的外设偏多,集群合并后,务必要仔细检查USB白名单相关策略是否完全一致,协调客户验证打印机、扫码抢等外设是否可以正常使用。
8.窗口期内,为了防止终端用户接入,一般会把VDC的VDI服务停止,VDI agent升级、终端验证接入时,需要提前打开,否则会导致升级无响应,终端无法接入。
9.窗口期一般在后半夜到凌晨,VMP升级到超融合后建议先把VS默认的数据平衡、坏道扫描任务关闭,防止因为自动任务导致升级后不能及时更新补丁,影响进度。
附件: 升级后丢网卡及VDI软件自动升级失败处理手册:
VDC数据合并方案: 待更新。。。 |