#原创分享#异常断电后桌面云服务器起不来问题处理
  

神奇轱辘 48982人觉得有帮助

{{ttag.title}}
本帖最后由 神奇轱辘 于 2019-12-11 14:25 编辑

-------------背景描述-----------------
渠道伙伴紧急电话告知客户那边因异常断电,登陆桌面云服务器发现系统进不去,直接进入BIOS界面。

桌面云一体机型号是VDS-3550,单节点部署,单节点!单节点!单节点!
现在一群人待在哪里大眼瞪小眼,无事可做,客户非常着急。

-------------解决过程----------------
经过电话沟通,初步定为是服务器硬件问题,怀疑是系统盘故障了。于是紧急从办事处调了一台测试机,VDS-5050和渠道伙伴火速赶往现场。

1、因为是异常断电导致的,尝试正常断电重启,发现不行,插拔系统盘,重新启动修改启动项,发现也不行。

2、登陆服务器IPMI口,https://192.168.10.10登陆发现服务器没有任何报错,CPU\内存\硬盘显示都正常。不知道哪里出问题了。

3、抱着死马当活马医,断电,拆机,插拔内存、检查主板,看是否有啥问题。

重启之后测试发现依然不行,心里凉凉,感觉没戏了
-------------------------------------------------------------------------
4、跟客户反馈情况

我:您好,这个服务器硬件有问题,需要返修

客户:返修需要多久?

我:正常的话,一般10个工作日左右

客户:那我这里怎么办?

我:我们带了备机,可以马上搭一台新的环境给你们临时使用。

客户:那我之前的数据怎么办?

我:数据在的,只是现在服务器起不来。

客户:新环境没有数据无法办公,要把数据弄回来。

我:这个。。。。我想想办法

客户:我们很急,而且数据很重要,今天要帮我们弄起来。
-------------------------------------------------------------------------------
5、尝试将原服务器系统盘插到测试机上,发现可以正常启动,系统可以登陆。
于是想尝试将服务器缓存盘和数据盘移到新的服务器上,联系400协调研发确认了可行性。
研发反馈可以后台同步数据,但是不敢保证一定可行。

目前没有其他方法,于是按照这个方式执行,将原服务器系统盘、缓存盘、数据盘全部移到新的服务器上,然后研发后台通过脚本同步数据
注:这个时候网卡顺序是会变的,可以通过恢复网卡顺序的脚本恢复网卡顺序,重启后就正常了。

经过4个小时的努力,终于将服务器数据切换到新的测试机上。解决客户问题

--------------总结----------------
本次故障原因主要是因为异常断电,导致服务器异常。客户整个部门都已经切换到桌面云环境,但服务器是单机部署,没有考虑集群冗余性,一旦物理服务器故障,则会导致整个桌面云无法使用,风险很大。
本次故障比较幸运,我们带的测试机跟原服务器可以兼容,正常进行数据切换,如果是第三方服务器,估计系统都无法识别。
所以在桌面云部署环境下,千万不能报着侥幸心理,需要做好集群部署的冗余方案。

打赏鼓励作者,期待更多好文!

打赏
5人已打赏

新手031815 发表于 2020-3-24 09:43
  

为楼主点赞
沧海 发表于 2019-12-18 23:09
  
楼主的处理方式很有参考  但是最好还是双机部署   多卖几台也是为了安全  哈哈
新手548437 发表于 2019-12-18 15:40
  
感谢分享。
找不到用户名 发表于 2019-12-18 13:40
  

12.12狂欢一周 +48 S豆 详情>

为楼主点赞,希望楼主多多分享干货!
狗蛋 发表于 2019-12-18 12:45
  

12.12狂欢一周 +48 S豆 详情>

为楼主点赞,期待更多的分享
买辣椒也用券 发表于 2019-12-18 11:09
  
可以的,之前也有客户机房电力不稳定的情况,万一出现了可以参照这个
新手741682 发表于 2019-12-18 10:47
  

12.12狂欢一周 +48 S豆 详情>

整个处理过程很是专业,值得学习。但基础环境很不到位,已经造成损失,不知道这次故障会不会引起客户重视,亡羊补牢。加设UPS,双电源,服务器冗余等保障性措施。
新手548437 发表于 2019-12-17 10:26
  
感谢分享。
平凡的小网工 发表于 2019-12-16 22:16
  
这个事情充分说明了双机的重要性。
发表新帖
热门标签
全部标签>
西北区每日一问
技术盲盒
安全效果
每日一问
【 社区to talk】
干货满满
技术笔记
产品连连看
新版本体验
技术咨询
功能体验
GIF动图学习
2023技术争霸赛专题
每周精选
标准化排查
通用技术
自助服务平台操作指引
信服课堂视频
秒懂零信任
安装部署配置
排障笔记本
答题自测
原创分享
技术晨报
社区新周刊
POC测试案例
畅聊IT
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
产品预警公告
玩转零信任
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
社区帮助指南
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
高手请过招
升级&主动服务
高频问题集锦
全能先锋系列
云化安全能力

本版版主

468
227
32

发帖

粉丝

关注

7
11
24

发帖

粉丝

关注

5
7
7

发帖

粉丝

关注

31
34
45

发帖

粉丝

关注

本版达人

新手89785...

本周建议达人

YangZhe...

本周分享达人

runner

本周提问达人