×

深信服老版本HCI替换系统盘过程的一点经验分享
  

山东_张伟 298509人觉得有帮助

{{ttag.title}}
本帖最后由 山东_张伟 于 2023-5-16 11:35 编辑

这是今年五一期间收到的一个客户的告警,内容如下:
1.jpg

环境:客户是最早一批使用超融合的客户,安装时间约是在2017年,安装初始版本为5.3,后来升级到5.8.3R4版本(因为客户窗口期问题,一直没有再升级)。因为老版本当时对于一些配置没有要求,所以服务器在追求磁盘配比符合要求的情况下只在光驱位置使用托架安装了一块540S 120G作为系统盘来使用(这也是本次的故障点)。

确认情况后,我们一边为客户采购硬盘,一边与客户沟通替换流程。初定的流程如下:
本次将对三台服务器进行逐一替换,替换时长预计约为1周时间(具体时长需根据服务器实际同步情况而定)。
大体步骤如下:
1. 关闭非重要业务虚拟机。目的:使剩余两台服务器资源足够拉起重要业务虚拟机正常使用。
2. 删除部分不重要虚拟机或虚拟机的备份,清除存储空间,将空间使用情况降到90%以下。
3. 关闭超融合系统动态平衡,防止迁移到其他物理机运行的虚拟机通过平衡功能重新迁移回来继续运行。
4. 对替换系统盘服务器上的虚拟机业务进行运行位置迁移。
5. 对替换系统盘服务器进行关机操作。
6. 将该服务器的所有连接网线拍照后断开连接。
7. 替换该服务器系统盘。
8. 开机后重新安装超融合底层。安装完毕后设置好新地址(非原来的IP)。
9. 在集群上点击替换主机,进行替换主机流程。
10. 等待集群检测通过,系统自动进行主机替换,并进行存储同步。
11. 等待主机显示替换完成后将主机IP地址修改回原主机IP。单台实施完毕。
12. 替换第23台时,重复4-11步骤。
13. 所有主机系统盘替换完毕。
  替换过程的注意事项
1. 因为业务不能中断,所以每台更换系统盘的主机必须等待存储同步完成后,虚拟机才能再次迁移到本机运行,且同步过程中不能关机,一旦在没有完成同步的情况下关机将导致替换主机失败。
2. 因早期超融合版本对网络的配置要求较低,导致存储私网并未像现行版本一样要求万兆网络速率,所以存储同步的实际时间可能会很长。
当存储进行同步时资源占用较高,可能会导致对虚拟机的访问变慢,当全部替换完毕后会有所回升。

节后上班第一天,我们开始按照之前商量好的步骤开始逐步的替换主机,但……这也是噩梦的开始……
使用客服发来的ISO镜像制作完安装U盘,信誓旦旦的开始安装然后……第一个下马威来了
2.jpg
好吧,我重新写一遍U
写完之后就是……
3.jpg


无休止的卡在这个界面。

于是更换U盘,重新做……
3.jpg
刻录光盘……
3.jpg
更换光盘和光驱……
3.jpg
好吧换个方法,使用服务器的IPMI(此处省略与服务器厂家沟通无法使用IPMI远程的过程,都是泪啊……) ,终于看到了点希望
4.png
然后就又是无尽的等待……同时还伴随的让人无法理解的CPU降电压与内存丢失

5.jpg
通常到了这一步出现这个情况,基本都会归类到服务器硬件故障,我们当时也是这么想的,由于服务器已经超保N年,并且市面只能淘二手的配件,于是几乎是在崩溃边缘的我鬼使神差的将老系统盘安了回去,于是神奇的一幕出现了,在没有任何告警的情况下,我们又看到了那熟悉的HCI底层加载完毕的登录界面……

排除了服务器硬件问题,反而更没有头绪了,于是乎查了一下新硬盘的型号和兼容列表,这盘竟然不在兼容列表里……瞎折腾了2天。于是重新准备购买符合兼容列表的硬盘,但一个问题依旧盘旋在心头,为啥卡在/dev 界面的时候都会同时伴随CPU将电压和内存丢失呢?于是产生了一个大胆的想法,拆掉系统盘,看看会不会状态依旧,于是乎又看到了熟悉的画面和熟悉的服务器报警……

崩溃了,这分明就是不允许安装啊!第三天就这么过去了。
既然安装这条路走不通,那么就要剑走偏锋了。首先想到的就是大名鼎鼎的GHOST,我们的想法是使用最原始的磁盘对拷,管他4K对齐不对齐的,先搞一下试试,于是新的下马威接踵而至
6.jpg
尝试修复引导区无效,于此同时我们为安全起见所购买的与原系统盘同型号的固态盘到了,我们又用这些硬盘做了一遍,状态依旧……
然后我们又想到了使用服务器容灾备份软件(一个重装系统的活,硬生生让我们干成了容灾)。
找了一下目前比较主流的服务器备份工具:安克诺斯;科力锐……
先联系安克诺斯的经理,要到了一个测试版的软件,虽然测试版不支持磁盘对拷,但是支持备份还原,于是我们使用老硬盘为源盘制作备份,使用同型号的二手盘作为目标进行还原。一次成功,我们看到了盼望已久的解压画面,读取界面,加载完毕的登陆界面。测试没有网口乱序,没有报错,没有认不到缓存和数据盘,服务器没有降电压,内存没有丢失。我们又用不在兼容列表里的新硬盘做还原测试,同样OK! 意外的惊喜是除了第一台服务器因为停机时间过长导致同步数据时间较长之外,另外两台在很短的时间内完成同步,我们比预期的一周提前1天完成替换和服务器上线任务。

总结:老服务器可能因为时间久远,加上版本的陈旧,质保超期,会出现各种意想不到的问题,在软硬件厂家均无法提供正面且有建设性的帮助的情况下,一些其他类型的软件在问题的处理当中会有意想不到的效果。

打赏鼓励作者,期待更多好文!

打赏
71人已打赏

李会斌 发表于 2023-5-16 14:31
  

每天学习一点点,每天进步一点点。
zjwshenxian 发表于 2023-5-16 15:16
  
每天学习一点点,每天进步一点点。
司马缸砸了光 发表于 2023-5-16 15:51
  
每天学习一点点,每天进步一点点。
新手780102 发表于 2023-5-16 17:14
  


学习学习,感谢楼主分享
新手612152 发表于 2023-5-16 17:20
  


学习学习,感谢楼主分享
新手078326 发表于 2023-5-16 17:24
  


学习学习,感谢楼主分享
新手517842 发表于 2023-5-16 17:29
  
每天学习一点点,每天进步一点点。
新手899116 发表于 2023-5-16 17:35
  
每天学习一点点,每天进步一点点。
JM 发表于 2023-5-16 17:37
  
每天学习一点点,每天进步一点点。
发表新帖
热门标签
全部标签>
每日一问
技术盲盒
2024年技术争霸赛
技术笔记
干货满满
产品连连看
信服课堂视频
每周精选
2023技术争霸赛专题
GIF动图学习
新版本体验
功能体验
秒懂零信任
自助服务平台操作指引
信服圈儿
技术晨报
安全攻防
技术咨询
在线直播
问题分析处理
运维工具
通用技术
答题自测
安装部署配置
标准化排查
社区帮助指南
天逸直播
以战代练
齐鲁TV
畅聊IT
专家问答
技术圆桌
MVP
网络基础知识
升级
上网策略
测试报告
日志审计
流量管理
每日一记
云计算知识
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
答题榜单公布
纪元平台
卧龙计划
华北区拉练
山东区技术晨报
文档捉虫活动
华北区交付直播
北京区每日一练

本版版主

63
25
4

发帖

粉丝

关注

7
4
2

发帖

粉丝

关注

本版达人