本帖最后由 神奇轱辘 于 2019-12-11 14:25 编辑
-------------背景描述-----------------
渠道伙伴紧急电话告知客户那边因异常断电,登陆桌面云服务器发现系统进不去,直接进入BIOS界面。
桌面云一体机型号是VDS-3550,单节点部署, 单节点!、 单节点!、 单节点!。 现在一群人待在哪里大眼瞪小眼,无事可做,客户非常着急。
-------------解决过程---------------- 经过电话沟通,初步定为是服务器硬件问题,怀疑是系统盘故障了。于是紧急从办事处调了一台测试机,VDS-5050和渠道伙伴火速赶往现场。
1、因为是异常断电导致的,尝试正常断电重启,发现不行,插拔系统盘,重新启动修改启动项,发现也不行。
3、抱着死马当活马医,断电,拆机,插拔内存、检查主板,看是否有啥问题。
重启之后测试发现依然不行,心里凉凉,感觉没戏了 -------------------------------------------------------------------------
4、跟客户反馈情况
我:您好,这个服务器硬件有问题,需要返修
客户:返修需要多久?
我:正常的话,一般10个工作日左右
客户:那我这里怎么办?
我:我们带了备机,可以马上搭一台新的环境给你们临时使用。
客户:那我之前的数据怎么办?
我:数据在的,只是现在服务器起不来。
客户:新环境没有数据无法办公,要把数据弄回来。
我:这个。。。。我想想办法
客户:我们很急,而且数据很重要,今天要帮我们弄起来。 ------------------------------------------------------------------------------- 5、尝试将原服务器系统盘插到测试机上,发现可以正常启动,系统可以登陆。 于是想尝试将服务器缓存盘和数据盘移到新的服务器上,联系400协调研发确认了可行性。 研发反馈可以后台同步数据,但是不敢保证一定可行。
目前没有其他方法,于是按照这个方式执行,将原服务器系统盘、缓存盘、数据盘全部移到新的服务器上,然后研发后台通过脚本同步数据 注:这个时候网卡顺序是会变的,可以通过恢复网卡顺序的脚本恢复网卡顺序,重启后就正常了。
经过4个小时的努力,终于将服务器数据切换到新的测试机上。解决客户问题
--------------总结---------------- 本次故障原因主要是因为异常断电,导致服务器异常。客户整个部门都已经切换到桌面云环境,但服务器是单机部署,没有考虑集群冗余性,一旦物理服务器故障,则会导致整个桌面云无法使用,风险很大。 本次故障比较幸运,我们带的测试机跟原服务器可以兼容,正常进行数据切换,如果是第三方服务器,估计系统都无法识别。 所以在桌面云部署环境下,千万不能报着侥幸心理,需要做好集群部署的冗余方案。
|