某市妇保院桌面云老架构升级新架构&集群合并方案
  

YYYFF 1045

{{ttag.title}}
本帖最后由 YYYFF 于 2024-7-17 17:46 编辑

【项目背景】
客户原有三套第三方服务器利旧桌面云集群(老架构,两套5.5.0R1,一套5.4.5),24年新购了一套我司桌面云一体机(5.9.1),为了实现统一管理以及三热能力,需要将原有的三套集群升级到5.9.1版本并将VDC合并成一套。

【主要问题】
问题1:版本升级需要中断业务4-6小时,夜间急诊,手术室等场景不能接受如此长的窗口期,新老架构不支持虚拟机迁移
解决方案:针对业务连续性高的虚拟机采用“替C”方案迁移至新集群

问题2:客户对大版本升级有顾虑,要求我们必须先做好虚拟机备份才可以升级,短期无法协调大容量的存储设备
解决方案:利用新集群的存储空间,提供ISCSI挂载给老集群做备份

问题3:客户要求集群合并后,对终端用户的影响最小化,终端的接入地址和账号密码不能变动
解决方案:VDC用户通过导入保证用户信息不变;合并数据后,通过网口多IP绑定,实现接入地址不改变

【前期准备】
1.此次升级涉及3个集群的升级改造,两个集群可以直升5.9.1,一个集群需要先升级到过度版本5.5.6,变更顺序应该优先选择规模小,升级路线简单的集群。
集群A:5.4.5版本,4节点,233台虚拟机(服务器主机最新)
集群B:5.5.0R1版本,5节点,240台虚拟机(服务器主机中等新)
集群C:5.5.0R1版本,3节点,109台虚拟机(服务器主机最旧)
正常升级顺序是:集群C->集群B->集群A(版本跨度小,集群规模小优先)
由于客户担心老服务器升级可能有硬件风险,要求升级顺序为:集群A->集群B->集群C

2.升级窗口期协调在晚上8点到第二天凌晨6点,考虑到第一次变更可能出现的问题比较多,且升级没有回退方案,第一次变更的内容只是集群升级,集群合并额外再协调一次窗口期,流程验证无误后,后续再协调两次窗口期完成剩余两个集群的变更。

3.老架构升级新架构风险较高,需要提前一周对现有环境做调研与升级前巡检,VMP和HCI的区别比较大,一定要反复阅读升级指导手册,基镜像转换是否需要变更前完成、VMP业务口命名是否含有特殊字符等细节问题需要提前确认。

4.桌面云集群合并属于非标操作,需要将两个VDC的数据合并, 变成一个VDC管理两个VMP,主要包含用户、模板、资源、虚拟机、策略组、认证策略等数据的合并,需要提前一周完成数据的导出与梳理。

5.授权变更,客户原本是通过acenter统一授权,由于需要多次变更,使用UKEY授权再做调整不灵活,新集群采用VKY授权,集群变更前提前三天完成授权变更,特别注意:VDC并发授权超过300点需要专业版授权,需要提前和市场、客户沟通下单。

6.虚拟机备份,由于存储容量较大,客户环境桌面云集群之间只有管理网(千兆)互通,全量备份时间比较久,需要提前一周开始备份。

7.重要虚拟机需要提前迁移至新集群,需要和客户沟通确认好虚拟机清单和切换时间(终端接入地址、账号需要变动,窗口期大约30min/台)。

【实施步骤】
1.升级前一周,完成虚拟机备份策略开启升级前巡检与问题处理、VDC数据导出与整理、授权变更、重要虚拟机迁移

2.变更窗口期内,按照标准升级流程完成VMP、VDC的升级并重新授权

3.升级后建议从VDC批量开启虚拟机,完成vmtools的自动安装与VDI agent的升级(需要重启),减少对终端用户的影响

4.合并VDC数据时,提前备份好VDC数据,先断开原VDC的网络或关机,在新VDC上关联HCI,导入模板,创建资源后导入对应虚拟机,导入用户与组织架构,创建并配置角色,创建策略组与认证策略,最后导入虚拟机与用户的绑定关系(包括IP地址)

【注意事项】
1.医疗行业内网虚拟机win7系统占比很大,升级后会出现一些奇怪的问题(vmtools安装不上,服务创建失败,丢网卡、虚拟机卡关机状态等等),升级后的检查非常重要!!!,如果出现此类情况一般都是系统本身的原因,优先引导客户重新派发虚拟机,协助客户完成资料数据转移,部分临时解决方案见附件。

2.VDI agent的自动更新可能会被友商杀毒拦截,导致VDI服务异常或者组件不完整,建议升级后从VDC批量开启虚拟机,等待VDI agent更新完成后如果agent状态提示不完整建议远程到终端卸载杀毒软件后重新安装vmtools和VDI agent。

3.桌面云巡检工具不会对VS的副本一致性做检测,如果集群存在副本不一致,特别是坏道/坏块引起的,需要研发修数据(半小时一个坏道/坏块)非常影响进度,建议在升级前提前找研发沟通检查。

4.集群合并时,如果老VDC和新VDC同时能和HCI通信,此时数据导入可能没有问题,但是新老VDC会抢占修改虚拟机配置,导致VDI agent异常,用户接入不了虚拟机(卡在logon界面),此时需要断开老VDC的网络或者关机,将虚拟机和用户重新绑定,所以在操作前务必要做好数据备份,记录好老VDC的信息,断开老VDC后再操作。

5.虚拟机双网卡场景,新架构VDC在创建资源时强制要求关联业务出口(不能选具体网口),比如模板虚拟机有ETH0、ETH1两张网卡,此配置默认会在ETH1上生效,如果再额外添加了一张ETH2,重启后会在ETH2上生效,如果此时通过vmtools或者虚拟机内部修改网络,就会出现配置不一致的问题,需要提前确认好客户的需求,通过VDC下发ETH1的IP,虚拟机内配置ETH0的规避此问题。

6.集群合并时,如果老的VDC开启了客户端http的服务端口,新的VDC一定要开启(默认关闭),否则合并后终端用户无法直接通过IP地址直接接入,手动改成https的接入方式后,原本的用户名和密码会丢失,且开启HTTP端口需要重启VDC服务,导致所有用户下线,所以一定要提前确认。

7.医疗行业的外设偏多,集群合并后,务必要仔细检查USB白名单相关策略是否完全一致,协调客户验证打印机、扫码抢等外设是否可以正常使用。

8.窗口期内,为了防止终端用户接入,一般会把VDC的VDI服务停止,VDI agent升级、终端验证接入时,需要提前打开,否则会导致升级无响应,终端无法接入。

9.窗口期一般在后半夜到凌晨,VMP升级到超融合后建议先把VS默认的数据平衡、坏道扫描任务关闭,防止因为自动任务导致升级后不能及时更新补丁,影响进度。

附件:
升级后丢网卡及VDI软件自动升级失败处理手册:
XX妇幼保健院桌面云升级后异常处理.pdf (1.02 MB, 下载次数: 7)

VMP虚拟机迁移至HCI虚拟机方案:
XX妇幼保健院桌面云虚拟机迁移指导手册.pdf (1.69 MB, 下载次数: 10)

VDC数据合并方案:
待更新。。。

打赏鼓励作者,期待更多好文!

打赏
3人已打赏

飞翔的苹果 发表于 2024-7-18 08:08
  
多谢分享,有助于工作。
朱天玮 发表于 2024-7-22 16:14
  
学习了,虽然不一定用得上,但是学习学习,谢谢分享!
飞翔的苹果 发表于 2024-8-2 08:04
  
多谢分享,有助于工作。
发表新帖
热门标签
全部标签>
西北区每日一问
技术盲盒
【 社区to talk】
安全效果
干货满满
技术笔记
每日一问
信服课堂视频
GIF动图学习
新版本体验
技术咨询
2023技术争霸赛专题
功能体验
产品连连看
安装部署配置
通用技术
秒懂零信任
技术晨报
自助服务平台操作指引
原创分享
标准化排查
排障笔记本
玩转零信任
排障那些事
SDP百科
深信服技术支持平台
畅聊IT
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
产品预警公告
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
社区帮助指南
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
每周精选
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
高手请过招
升级&主动服务
高频问题集锦
社区新周刊
POC测试案例
全能先锋系列
云化安全能力

本版版主

468
227
32

发帖

粉丝

关注

7
11
24

发帖

粉丝

关注

5
7
7

发帖

粉丝

关注

31
34
45

发帖

粉丝

关注

本版达人

新手89785...

本周建议达人

YangZhe...

本周分享达人

runner

本周提问达人