先说一下背景,周六的时候客户联系我,说要给集群里的其中一台主机进行存储升级,升级容量是1+3,当时服务器供应商的人也在,我没多问就去了。
到现场后开始实施,我说先换固态,固态换完后后面数据盘更换时数据迁移更快。
这台主机的固态配置是1*128+2*480,客户想把128也升级成480,结果这块盘是系统盘!!!拔掉之后直接主机离线!!!在意识到这是系统盘后我让服务器的工程师把固态换回来,企图挽救,结果系统起不来了.....
还好之前有联系400进行业务保障,本来是打算防止服务器不识别硬盘的,结果竟然出现了更严重的问题(哭
经过一番沟通后确认了方案,集群是5主机,双备份,一台主机坏掉不会导致业务受影响和数据丢失,直接将这台主机重装系统,然后走主机替换流程。
然而现实有些骨感,在流程开始之前,让400进后台巡检了以下虚拟存储数据完整性,结果大面积报错。
(此处忘了截图.jpg)
重新与400沟通主机替换方案的可行性与数据挽救方案,400与研发进行沟通,接下来开始了漫长的等待,大概等了两个多小时还没有收到解决方法,我跟客户已经在讨论如果数据丢失的后续处理问题了。
结果转机来了!!!
平台在检测到主机离线或者故障后会有倒计时!就在屏幕上面!!!倒计时结束后平台自动进行数据重建!!!而且故障主机虽然进不去系统但一直插着电!!!而且存储网络没有拔线!!!
400说这是平台通过故障主机的存储口读取数据进行重建,重建成功后数据大概率会恢复,到时候校验一下没问题就可以进行主机替换流程了!!!
后面就一切顺利,数据成功重建完毕,校验通过,主机替换,完活!撒花!!!
事件总结:
1、在这次业务中我是所有人的大脑,结果没有亲自去了解将要操作的服务器详细信息,进而导致事件出现,如果亲自确认了该服务器的硬盘情况,应该就能发现128的固态是系统盘,而不是像现在一样客户说换1+3就换;
2、替换主机时要注意,新主机与原主机的缓存盘数量或数据盘数量要保持一致,或比原主机更多,不是单纯的比原主机容量大就好了;
3、主机替换时,新主机没有内存容量限制,比原主机大或者小都可以,但有频率和代数限制;
4、感谢万能的存储网络跟数据重建机制,不过有没有大佬能跟我解读一下,为什么系统都进不去反而存储口能工作呢?
5、表白工号为47356的工程师,感谢从早上九点陪我到晚上九点!!!
|