本帖最后由 新手259646 于 2020-12-21 10:01 编辑
【升级、扩容目的】
当前版本超融合版本为5.8.5,由三台超融合一体机组成,由于业务需求,需要将新采购的三台超融合一体机扩容到集群内,由于新的一体机版本为6.0.0R5,由于版本不一致无法扩容到集群里面,所以旧集群需要升级至6.0.0R5;由于原超融合集群使用的存储为千兆存储,存储链路与业务、管理、VXLAN交换机复用,本次新增两台万兆交换机作为存储交换机使用,并将存储网络改造为万兆网络;考虑到后期需要增加EDS作为CDP备份,所以需要将存储交换机做堆叠,方便后期对接EDS
改造前网络如下图所示: 改造后网络如下图所示:
集群扩容步骤: 1、升级原超融合集群版本至6.0.0R5 2、存储交换机做堆叠,将原有超融合存储网络由千兆改为万兆网络 3、将新增三台超融合服务器纳入集群管理 4、操作完成后启动业务,验证业务是否正常
【升级责任方】
【升级影响】 6.0.0R5版本升级为冷升级,升级之前需要关闭所有虚拟机及网络设备,HCI集群升级需要预留4-6小时左右时间,存储改造和集群扩容预留1-2小时时间。
【升级前准备】
一、软件包准备 软件包名称 | | sp-built-sp-upgrade-precheck.pkg | 在升级至HCI6.0.0R5版本之前,检测集群环境是否满足升级条件 | Sangfor_aCloud6.0.0_R5(20200629).pkg | |
二、工具准备
三、检测、操作准备3、本次升级需要改造存储网络,所以升级前需要确认万兆光模块和万兆多模尾纤已经到位,变更之前提前将所有尾纤、网线提前部署好 4、将新增的两台存储网络交换机做成堆叠 5、在首页点击一键检测,除默认检查项外,勾选“虚拟存储数据检测”,点击开始检测,确认检测最终得分为100分,若低于100分需按照检测结果建议处理。处理完毕后,再次进行一键检测,确认升级前一键检测为100分。 6、智能交付工具aDeploy3.0检测,工具下载地址: http://adeploy.sangfor.com:8080/download/aDeploy-server-install.zip 7、升级前检测(sp-built-sp-upgrade-precheck.pkg):在正式升级前一周进行升级前置检测(正式升级上门前务必做好前置检测,避免上门后前置检测不通过,导致需要另约升级时间,升级检测步骤参考社区升级方案
四、业务检查 让客户、应用厂家在平台升级之前测试各个业务是否正常
【版本升级操作】 Sangfor_aCloud6.0.0_R5(20200629).pkg升级操作 ①点击管理-设备升级,点击我要升级,集群进入维护模式并检测升级环境。 ②上传HCI升级包,点击开始升级。 ③上传升级包之后,平台会检测升级文件并确认升级信息,提示包括升级时长和影响。 ④扫码验证 点击开始升级后,会弹出二维码扫描框,扫描二维码获取验证码,然后输入验证码进入升级状态。 ⑤等待升级中 等待升级进度条达100%,提示升级完成,并在升级详情内显示各升级项目。
【升级后检查】 我司检查 1.登录HCI平台,进行平台一键自检(注意要勾选“虚拟存储数据检测”),检查并确认平台所有服务正常。 2.使用某公司智能交付工具aDeploy3.0对平台进行健康状态检查,并按照检测结果进行处理,确认平台无问题。 3.需要检查当前版本是否有可用的补丁需要升级,请使用aDeploy工具进行检查,并按照检测结果使用对应的补丁包。 应用厂家检查 登录系统查看应用是否能够正常启动 客户检查 客户检查HCI平台,并验证业务是否正常。
【升级回退方案】 联系研发进行回退
【后续保障及下一步计划】 升级过程中出现问题,协调研发介入查看
【存储改造】 存储原有千兆网络,由于业务增加无法满足需要,需要将存储网络由千兆改为万兆网络,操作步骤如下: 1、在超融合集群升级前将新增存储交换机加电并将交换机做堆叠(升级前进行操作) 2、超融合升级完成后,后台校验副本一致性,如果一致进行以下操作 3、在原有超融合集群升级到6.0.0R5版本以后,确保所有主机和NFV设备在关机状态,确认完成后,将存储光纤拔掉,按照规划插到新增存储交换机上 4、改造完成后核对网口速率是否由1000M变为10000M 5、使用“一键检测”和某公司智能交付工具aDeploy3.0对平台进行健康状态检查
【集群扩容】 等上述操作都完成并确认无误后进行集群扩容操作,原有集群为3台超融合一体机,所以主机扩容无需停业务,将主机扩容完成后,扩容新增主机的硬盘到虚拟存储,都操作完成后对集群进行健康检查。
【业务值守】 等待平台升级完成后,业务厂家对业务进行启动,并测试业务是否正常,并在第二天业务高峰期进行值守,发现问题及时处理
PS:本次集群扩容涉及集群升级、存储网络改造、集群主机扩容,每次操作后建议都对平台情况进行检查,出现问题及时解决 |